Une grande école d'ingénieurs au cœur des sciences
de l'information, de l'énergie et des systèmes
18h C dont contrôle / 2 crédits ECTS
Marie-Aude Aufaure (Gif), Abolfazl Fatholahzadeh (Metz)
L'objectif de ce cours est de définir ce qu'est le Data Mining et de faire comprendre l'importance de cette notion pour un ingénieur informaticien d'aujourd'hui. On l'utilise chaque fois que l'on désire extraire des connaissances précises à l'intérieur d'une masse importante de données. Les applications dans l'industrie et les services seront utilisées comme support.
Les ingrédients de base (concepts, instances, attributs)
Définition des notions de concept, d'instance et d'attribut - Apprentissage symbolique - Rapport entre ces ingrédients et l'apprentissage symbolique - Rôles des trous (données manquantes) - Préparation des échantillons.
La représentation du(es) résultat(s)
Table de décision, arbre de décision - Règles de classification - Règles avec exceptions - Liens entre règles et relations - Représentation par instances et regroupement (diagramme, graphique).
Algorithmes
Inférence des règles rudimentaires - Méthodes statistiques - Arbre de décision - Construction de Règles - Règles associatives - Évaluation des résultats.
Implémentations
Arbre de décision : attributs numériques et symboliques - Importance des trous - Élagage d'arbre de décision - Complexité d'arbre de décision (algorithmes ID3 et C4.5).
Text Mining
Extraction de phrases types dans un document - Méthodes de recherches d'information dans un réservoir textuel - Analyseur paresseux - Fouille du WEB.
Exemple d'application - récolte et traitement des petites annonces de vente de voitures sur Internet :
rapatriement de pages intéressantes, traitement des pages rapatriées, recherche multicritère sur les pages rapatriées.