Définie de manière relativement floue sur le plan épistémologique, l’ère du big data se caractérise par deux volontés intrinsèquement liées : d’une part la recherche de l’exhaustivité et d’une résolution fine (spatiale, temporelle, individuelle…) dans la production de données ; d’autre part l’absence d’a priori dans leur utilisation pour bâtir des modèles mathématiques et informatiques, qui sont jugés à l’aune de leur pouvoir prédictif.

Produire de la donnée ne coûte pas cher

Trois évolutions ont permis cette transformation. D’abord la production de la donnée est aujourd’hui peu coûteuse, permettant d’installer des capteurs observant le fonctionnement d’un objet ou donnant des informations sur son environnement (température, luminosité), mais elle est également douée d’ubiquité, en ce sens qu’il est possible de recueillir des informations variées sur l’usage ou les réactions des utilisateurs.

Passer des données aux modèles prédictifs

La démarche de modélisation prédictive se fait généralement en trois temps : d’abord les données sont accumulées pour définir des caractéristiques mesurables ou découlant de mesures (taux de CO2, luminosité, niveau de bruit moyen dans un logement…) et choisir la variable à prédire (1/0 pour la présence/absence dans un logement) ; puis un algorithme d’#apprentissage modélise les relations statistiques entre les caractéristiques et la variable et établit un modèle prédictif ; enfin, en phase d’exploitation, ce modèle est utilisé sur de nouvelles caractéristiques pour inférer la variable à prédire.

Pour aller plus loin : Les biais d’apprentissage.

Partagez cet article