Les ouvrages consacrés à la fouille de données offrant des typologies d’analyses (Moore, 2006) sont légion, aussi ne chercherons-nous pas ici à en réaliser un recensement exhaustif. Les travaux consacrés spécifiquement à la fouille de données éducatives (Romero & Ventura, 2007 ; Peña-Ayala, 2013) sont en revanche plus rares. Ils permettent d’une part d’illustrer avec des exemples issus du monde éducatif la diversité des types d’analyse, et d’autre part de mettre au jour certaines des spécificités du champ.
la classification qui suit, que l’on retrouvera dans d’autres ouvrages de référence du domaine (Peña-Ayala, 2013), et dans certaines rencontres organisées en France au sein de la communauté EIAH (Lebis, 2016) :
⦁ Prediction
⦁ Clustering
⦁ Relationship mining
⦁ Association rule mining
⦁ Correlation mining
⦁ Sequential pattern mining
⦁ Causal data mining
⦁ Distillation of data for human judgment
⦁ Discovery with modelsLes trois premières catégories de la taxonomie de Baker coïncident largement avec les taxonomies de formes d’analyses proposées par Moore (2006). Historiquement, les méthodes de Relationship mining ont dominé le champ de l’EDM. Notons par ailleurs que dans la suite du document, nous remplacerons le terme Clustering par le terme plus générique de Structure Discovery, qui englobe d’autres formes d’analyses. La quatrième, ne correspond pas de manière universelle à de la fouille de donnée, mais a une place prépondérante dans les travaux réalisées en EDM et dans les discussions théoriques du champ. Nous rentrerons au cours des billets à venir dans le détail de chacune de ces catégories.
PS: La bibliographie associée à cet article est disponible dans ce billet.