Movatterモバイル変換


[0]ホーム

URL:


Aller au contenu
Wikipédial'encyclopédie libre
Rechercher

Exploration de données

Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuisDatamining)
Wikipédia:Bons articles

Vous lisez un « bon article » labellisé en 2011.

L’exploration de données[notes 1], connue aussi sous l'expression defouille de données,forage de données,prospection de données,data mining[1], ou encoreextraction deconnaissances à partir de données, a pour objet l’extraction d'unsavoir ou d'une connaissance à partir de grandes quantités dedonnées, par des méthodes automatiques ou semi-automatiques[2].

Elle utilise desalgorithmes issus de diverses disciplines scientifiques telles que lesstatistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir desdonnées. Ceux-ci permettent d'identifier des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum deconnaissances.

L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problèmes très divers, allant de lagestion de la relation client à la maintenance préventive, en passant par la détection defraudes ou encore l'optimisation desites web. C'est aussi le mode de travail dujournalisme de données[3].

L'exploration de données[4] fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à l'informatique décisionnelle. Celle-ci permet de constater un fait, tel que lechiffre d'affaires, et de l'expliquer comme le chiffre d'affaires décliné par produits, tandis que l'exploration de données permet de classer les faits et de lesprévoir dans une certaine mesure[notes 2] ou encore de les éclairer en révélant par exemple les variables ou paramètres qui pourraient faire comprendre pourquoi le chiffre d'affaires de tel point de vente est supérieur à celui de tel autre.

Histoire

[modifier |modifier le code]
Collecter les données, les analyser et les présenter au client.

La collecte massive de données remonte à l'antiquité: enChine on prête à l'Empereur mythiqueYao, la volonté de recenser les récoltes en 2238 av. J.-C.[5] et enÉgypte le pharaonAmasis organise le recensement de sa population auVe siècle av. J.-C.[5]. Ce n'est néanmoins qu'auXVIIe siècle qu'on commence à analyser les données pour en rechercher des caractéristiques communes. En1662,John Graunt publie son livre« Natural and Political Observations Made upon the Bills of Mortality » dans lequel il analyse la mortalité àLondres et essaie de prévoir les apparitions de la peste bubonique. En1763,Thomas Bayes montre qu'il est possible de déterminer, non seulement des probabilités à partir des observations issues d’une expérience, mais aussi les paramètres relatifs à ces probabilités. Présenté dans le cas particulier d'uneloi binomiale, ce résultat est étendu indépendamment parLaplace, conduisant à une formulation générale duthéorème de Bayes.Legendre publie en1805 un essai sur laméthode des moindres carrés qui permet de comparer un ensemble de données à unmodèle mathématique. Les calculs manuels coûteux ne permettent cependant pas d'utiliser ces méthodes hors d'un petit nombre de cas simples et éclairants.De 1919 à 1925,Ronald Fisher met au point l'analyse de la variance comme outil pour son projet d'inférence statistique médicale. Les années 1950 voient l'apparition de calculateurs encore onéreux et des techniques de calcul par lots sur ces machines. Simultanément, des méthodes et des techniques voient le jour telles que lasegmentation,classification (entre autres par laméthode des nuées dynamiques), une première version des futursréseaux de neurones qui se nomme lePerceptron, et quelques algorithmes auto-évolutifs qui se nommeront plus tardgénétiques. Dans les années 1960 arrivent lesarbres de décision et laméthode des centres mobiles; ces techniques permettent aux chercheurs d'exploiter et de découvrir des modèles de plus en plus précis. EnFrance,Jean-Paul Benzécri développe l'analyse des correspondances en1962. On reste cependant dans une optique detraitement par lots.

En1969 paraît l'ouvrage deMyron TribusRational descriptions, decisions and designs[6] qui généralise lesméthodes bayésiennes dans le cadre du calcul automatique (professeur àDartmouth, il utilise assez logiquement le langageBASIC, qui y a été créé quelques années plus tôt, et soninteractivité). La traduction en français devient disponible en 1973 sous le nomDécisions rationnelles dans l'incertain. Une idée importante de l'ouvrage est la mention duthéorème de Cox-Jaynes démontrant que toute acquisition d'un modèle soit se fait selon les règles de Bayes (à unhomomorphisme près), soit conduit à des incohérences. Une autre est que parmi toutes les distributions de probabilité satisfaisant aux observations (leur nombre est infini), il faut choisir celle qui contient le moins d'arbitraire (donc le moins d'information ajoutée, et en conséquence celle d'entropie maximale[notes 3]. La probabilité s'y voit considérée comme simple traduction numérique d'un état de connaissance, sans connotation fréquentiste sous-jacente. Enfin, cet ouvrage popularise la notation des probabilités en décibels, qui rend la règle de Bayes additive et permet de quantifier de façon unique l'apport d'une observation en la rendant désormais indépendante des diverses estimationsa priori préalables (voirInférence bayésienne).

L'arrivée progressive des micro-ordinateurs permet de généraliser facilement ces méthodes bayésiennes sans grever les coûts. Cela stimule la recherche et les analyses bayésiennes se généralisent, d'autant que Tribus a démontré leur convergence, au fur et à mesure des observations, vers les résultats des statistiques classiques tout en permettant d'affiner les connaissances au fil de l'eau sans nécessiter les mêmes délais d'acquisition (voir aussiPlan d'expérience).

L'affranchissement du protocole statistique classique commence alors : il n'est plus nécessaire de se fixer une hypothèse et de la vérifier ou nona posteriori. Au contraire, les estimations bayésiennes vont construire elles-mêmes ces hypothèses au fur et à mesure que s'accumulent les observations.

L'expression« data mining » avait une connotation péjorative au début des années 1960, exprimant le mépris des statisticiens pour les démarches de recherche de corrélation sans hypothèses de départ[réf. nécessaire]. Elle tombe dans l'oubli, puisRakesh Agrawal l'emploie à nouveau dans les années 1980 lorsqu'il entamait ses recherches sur des bases de données d'un volume de 1 Mo. Le concept d'exploration de données fait son apparition, d'après Pal et Jain, aux conférences de l'IJCAI en1989[7].Gregory Piatetsky-Shapiro chercha un nom pour ce nouveau concept dans la fin des années 1980, auxGTE Laboratories.« Data mining » étant sous la protection d'un copyright, il employa l'expression« Knowledge discovery in data bases » (KDD)[8].

Puis, dans les années 1990, viennent les techniques d'apprentissage automatique telles que lesSVM[b 1] en1998, qui complètent les outils de l'analyste.

Au début duXXIe siècle, une entreprise commeAmazon.com se sert de tous ces outils pour proposer à ses clients des produits susceptibles de les intéresser[9],[10].

v ·m
Personnalités de l'exploration de données
Source :« Le Data mining Présentation - page 13-14 - Stéphane Tufféry »

Applications industrielles

[modifier |modifier le code]

Par objectifs

[modifier |modifier le code]
Un exemple de ce qu'on peut faire avec le logicielR : ici uncorrélogramme.

De nos jours, les techniques d'exploration de données peuvent être utilisées dans des domaines complètement différents avec des objectifs bien spécifiques. Les sociétés devente par correspondance analysent, avec cette technique, le comportement des consommateurs pour dégager des similarités de comportement, accorder descartes de fidélité, ou établir des listes de produits à proposer envente additionnelle (vente croisée).

Unpublipostage (mailing) servant à la prospection de nouveaux clients possède un taux de réponses de 10 % en moyenne. Les entreprises de marketing utilisent la fouille de données pour réduire le coût d'acquisition d'un nouveau client en classant lesprospects selon des critères leur permettant d'augmenter les taux de réponses[11] aux questionnaires envoyés.

Ces mêmes entreprises, mais d'autres aussi comme les banques, les opérateurs de téléphonie mobile ou les assureurs, cherchent grâce à l'exploration de données à minimiser l’attrition (ouchurn) de leurs clients puisque le coût de conservation d'un client est moins important que celui de l'acquisition d'un nouveau.

Les services de polices de tous les pays[12] cherchent à caractériser les crimes (répondre à la question : « Qu'est-ce qu'un crime « normal » ? ») et les comportements des criminels (répondre à la question : « qu'est-ce qu'un comportement criminel « normal » ? ») afin de prévenir le crime, limiter les risques et les dangers pour la population.

Lescoring des clients dans les banques est maintenant très connu, il permet de repérer les « bons » clients, sans facteur derisque (Évaluation des risques-clients) à qui les organismes financiers, banques, assurances, etc., peuvent proposer une tarification adaptée et des produits attractifs, tout en limitant le risque de non-remboursement ou de non-paiement ou encore de sinistre dans le cas des assurances.

Lescentres d'appel utilisent cette technique[11] pour améliorer la qualité du service[13] et permettre une réponse adaptée de l'opérateur pour la satisfaction du client.

Dans la recherche dugénome humain, les techniques d'exploration de données ont été utilisées pour découvrir lesgènes et leur fonction[14].

D'autres exemples dans d'autres domaines pourraient être trouvés, mais ce qu'on peut remarquer dès à présent, c'est que toutes ces utilisations permettent de caractériser un phénomène complexe (comportement humain, expression d'un gène), pour mieux le comprendre, afin de réduire les coûts de recherche ou d'exploitation liés à ce phénomène, ou bien afin d'améliorer la qualité des processus liés à ce phénomène.

Par secteurs d'activités

[modifier |modifier le code]

L'industrie a pris conscience de l'importance du patrimoine constitué par ses données et cherche à l'exploiter en utilisant l'informatique décisionnelle et l'exploration des données. Les compagnies les plus avancées dans ce domaine se situent dans lesecteur tertiaire.Selon le site kdnuggets.com[15] la répartition auxÉtats-Unis, en pourcentage du total des réponses au sondage, de l'utilisation de l'exploration des données parsecteurs d'activités s'effectue en2010 comme ceci :

Branches et domaines dans lesquels est utilisée l'exploration des données (%).[15]
GRC/ analyse de la consommation
  26,8
Banque
  19,2  13,1
Détection de fraude
  12,7  11,3  11,3
  10,8  10,3  10,3
  9,9  9,9  8,9
Médical
  8,0  8,0  8,0
Notation crédit
  8,0
  7,0
  6,6
  6,6
Gouvernement,militaire
  6,1
  5,6
  5,6
Loisirs, musique
  3,3
Sécurité,Anti-terrorisme
  1,9
Voyages, Hôtels
  1,4  0,9  0,9
Autres
  11,7

Recherche et groupes de réflexion

[modifier |modifier le code]
Résultats graphiques d'uneanalyse en composantes principales

Comme le montre l'histogramme ci-dessus, l'industrie est très intéressée par le sujet, notamment en matière de standard et d'interopérabilité[notes 4] qui facilitent l'emploi d'outils informatiques provenant d'éditeurs différents. En outre, les entreprises, l'enseignement et la recherche ont grandement contribué à l'évolution et à l'amélioration (en termes de rigueur par exemple) des méthodes et des modèles ; un article publié en2008 par l'International Journal of Information Technology and Decision Making résume une étude qui trace et analyse cette évolution[16]. Certains acteurs sont passés de la recherche à l'industrie.

Des universités telles que celles deConstance enAllemagne, deDortmund enCaroline du Nord, auxÉtats-Unis, deWaikato enNouvelle-Zélande, et l'Université Lumière Lyon 2 en France, ont effectué des recherches pour trouver de nouveauxalgorithmes et améliorer les anciens[source insuffisante]. Ils ont aussi développé des logiciels permettant à leurs étudiants, enseignants et chercheurs de progresser dans ce domaine, faisant ainsi bénéficier l'industrie de leur progrès.

D’autre part, de nombreux groupements interprofessionnels et d'associations se sont créés pour réfléchir et accompagner le développement de l'exploration de données. Le premier de ces groupements professionnels dans le domaine est le groupe d’intérêt de l'Association for Computing Machinery sur lagestion des connaissances et l'exploration de données, leSIGKDD[17]. Depuis1989 il organise une conférence internationale annuelle et publie les nouveaux résultats, réflexions et développements de ses membres[18]. Ainsi, depuis1999, cet organisme publie une revue semestrielle dont le titre est« SIGKDD Explorations »[19].

D'autres conférences sur l'exploration de données et l'informatique sont organisées, par exemple :

Ces recherches et résultats financièrement probants obligent les équipes spécialisées dans l'exploration de données à effectuer un travail méthodique dans des projets structurés.

Projets, méthodes et processus

[modifier |modifier le code]

De bonnes pratiques ont émergé au fil du temps pour améliorer la qualité des projets. Parmi celles-ci, lesméthodologies aident les équipes à organiser les projets en processus. Au nombre des méthodes les plus utilisées se trouvent la méthodologieSEMMA duSAS Institute et laCRISP-DM qui est la méthode la plus employée dans les années 2010.

Méthode CRISP-DM

[modifier |modifier le code]
Article détaillé :Cross Industry Standard Process for Data Mining.

La méthode CRISP-DM[34] découpe le processus de fouille de données en six étapes permettant de structurer la technique et de l'ancrer dans un processus industriel. Plus qu'une théorie normalisée, c'est un processus d'extraction des connaissances métiers.

Phases du processus CRISP-DM

Il faut d'abord comprendre le métier[34] qui pose la question à l'analyste, formaliser le problème que l'organisation cherche à résoudre en ce qui concerne les données, comprendre les enjeux, connaître les critères de réussite du projet et mettre en place un plan initial pour réaliser cet objectif.

Ensuite, l'analyste a besoin de données appropriées. Dès que l'équipe de projet sait ce qu'il faut faire, elle doit se mettre en quête des données, des textes et tout le matériel qui lui permettra de répondre au problème. Il lui faut ensuite en évaluer la qualité, découvrir les premiers schémas apparents pour émettre des hypothèses sur les modèles cachés.

Les données que l'équipe de projet a collectées sonthétérogènes. Elles doivent être préparées[34] en fonction des algorithmes utilisés, en supprimant les valeurs aberrantes, ou valeurs extrêmes, en complétant les données non renseignées, par lamoyenne ou par la méthode desK plus proches voisins, en supprimant les doublons, les variables invariantes et celles ayant trop de valeurs manquantes, ou bien par exemple en discrétisant les variables si l’algorithme à utiliser le nécessite, comme c'est par exemple le cas pour l'analyse des correspondances multiples ACM, l'analyse discriminante DISQUAL, ou bien laméthode de Condorcet.

Une fois les données prêtes, il faut les explorer[34]. La modélisation regroupe des classes de tâches pouvant être utilisées seules ou en complément avec les autres[35] dans un but descriptif ou prédictif.

Lasegmentation est la tâche consistant à découvrir des groupes et des structures au sein des données qui sont d'une certaine façon similaires, sans utiliser des structures connuesa priori dans les données. Laclassification est la tâche de généralisation des structures connues pour les appliquer à des données nouvelles[notes 5].

Larégression tente de trouver une fonction modélisant les données continues, c'est-à-dire non discrètes, avec le plus petit taux d'erreur, afin d'en prédire les valeurs futures. L'association recherche les relations entre des items. Par exemple un supermarché peut rassembler des données sur des habitudes d'achats de ses clients. En utilisant les règles d'association, le supermarché peut déterminer quels produits sont fréquemment achetés ensemble et ainsi utiliser cette connaissance à des fins demarketing. Dans la littérature, cette technique est souvent citée sous le nom d'« analyse du panier de la ménagère ».

Il s'agit d'évaluer ensuite[34] les résultats obtenus en fonction des critères de succès du métier et d'évaluer le processus lui-même pour faire apparaître les manques et les étapes négligées. À la suite de ceci, il doit être décidé soit de déployer, soit d'itérer le processus en améliorant ce qui a été mal ou pas effectué.

Puis vient la phase de livraison[34] et de bilan de fin de projet. Les plans de contrôle et de maintenance sont conçus et le rapport de fin de projet est rédigé. Afin de déployer un modèle prédictif, le langagePMML, basé sur leXML, est utilisé. Il permet de décrire toutes les caractéristiques du modèle et de le transmettre à d'autres applications compatibles PMML.

Autres process et méthodes

[modifier |modifier le code]

D'autres process existent :

  • Le process SEMMA[36] (Sample, Explore, Modify, Model, Assess) permet aussi la réalisation de projets Data.
  • Le process KDD[36](knowledge discovery in databases) créé en 1989 se réfère au process de la découverte de connaissance dans les données.

Maladresses à éviter

[modifier |modifier le code]
Sur-ajustement d'un modèle : arbitrage performance / complexité

Les écueils les plus communément rencontrés par les fouilleurs de données expérimentés ou non ont été décrits par Robert Nisbet, John Elder et Gary Miner dans leur ouvrageHandbook of Statistical Analysis & Data Mining Applications[b 2].

La première est le fait de poser la mauvaise question. Ce qui conduit à faire chercher au mauvais endroit. Il faut que la question initiale soit correctement posée pour que la réponse soit utile.

Ensuite, c'est se contenter d'une faible quantité de données pour un problème complexe[b 2]. Il faut avoir des données pour les explorer, et les cas intéressants pour le fouilleur sont rares à observer, il faut donc avoir à sa disposition énormément de données pour pouvoir faire des échantillons qui ont une valeur d'apprentissage et qui vont permettre de prédire une situation, c'est-à-dire répondre à une question posée, sur les données hors échantillon. De plus, si les données ne sont pas adaptées à la question posée, la fouille sera limitée : par exemple si les données ne contiennent pas de variables à prédire, la fouille sera cantonnée à la description et l'analyste ne pourra que découper les données en sous-ensembles cohérents (clusterisation) ou trouver les meilleures dimensions qui capturent la variabilité des données.

Il faut construire l'échantillon, qui permet l'apprentissage, avec précaution et ne pas échantillonner à la légère[b 2].L'apprentissage permet de construire le modèle à partir d'un ou plusieurs échantillons. Paramétrer l'outil d'exploration de données jusqu'à ce que le modèle renvoie 100 % des cas recherchés revient à se concentrer sur les particularités et se détourner de la généralisation, nécessaire, qui permet d'appliquer le modèle sur les données hors-échantillon. Des techniques existent pour éviter le sur-ajustement ou lesur-apprentissage. Il s'agit des méthodes de ré-échantillonnage telles que lebootstrap, dujackknife ou de lavalidation croisée.[réf. nécessaire]

Parfois, une seule technique (arbre de décision, réseaux neuronaux…) n'est pas suffisante pour obtenir un modèle qui donne de bons résultats sur toutes les données[b 2]. Une des solutions, dans ce cas, serait constituée d'un ensemble d'outils, qu'on peut utiliser les uns après les autres et comparer les résultats sur les mêmes données ou bien unifier les forces de chaque méthode soit par l'apprentissage soit par combinaison des résultats[37].

Il faut placer les données et les résultats de la fouille en perspective dans leur contexte[b 2], et ne pas se focaliser sur les données, sans cela des erreurs d'interprétation peuvent survenir ainsi que des pertes de temps et d'argent.

Éliminer à priori les résultats qui paraissent absurdes[38], en comparaison avec ce qui est attendu, peut être source d'erreurs car ce sont peut-être ces résultats qui donnent la solution à la question posée.

Il est impossible d'utiliser et d’interpréter les résultats d'un modèle en dehors du cadre dans lequel il a été construit[b 2]. Interpréter des résultats en fonction d'autres cas similaires mais différents est aussi cause d'erreurs, mais ce n'est pas propre aux raisonnements liés à l'exploration de données. Enfin, extrapoler des résultats, obtenus sur des espaces de faibles dimensions, sur des espaces de dimensions élevées peut aussi conduire à des erreurs.

Deux citations deGeorge Box, « Tous les modèles sont faux, mais certains sont utiles » et « Les statisticiens sont comme les artistes, ils tombent amoureux de leurs modèles », illustrent avec humour le fait que quelquefois certains analystes en fouille de données ont besoin de croire en leur modèle et de croire que le modèle qu'ils travaillent est le meilleur. Utiliser un ensemble de modèles et interpréter la distribution des résultats est nettement plus sûr[39].

Planifier

[modifier |modifier le code]

Dans un projet d'exploration de données, il est essentiel de savoir ce qui est important et ce qui ne l'est pas, ce qui prend du temps et ce qui n'en prend pas ; ce qui ne coïncide pas toujours.

Estimation du temps à consacrer aux différentes étapes[b 3],[40]
TâchesChargeImportance
dans le projet
Inventaire, préparation et exploration des données38 %3
Élaboration - Validation des modèles25 %2
Restitution des résultats12 %4
Analyse des premiers tests10 %3
Définition des objectifs8 %1
Documentation - présentations7 %5

Le cœur de l'exploration de données est constitué par la modélisation : toute la préparation est effectuée en fonction du modèle que l'analyste envisage de produire, les tâches effectuées ensuite valident le modèle choisi, le complètent et le déploient. La tâche la plus lourde de conséquences dans la modélisation consiste à déterminer le ou les algorithmes qui produiront le modèle attendu. La question importante est donc celle des critères qui permettent de choisir cet ou ces algorithmes.

Algorithmes

[modifier |modifier le code]

Résoudre un problème par un processus d'exploration de données impose généralement l'utilisation d'un grand nombre de méthodes et d'algorithmes différents plus ou moins faciles à comprendre et à employer[41]. Il existe deux grandes familles d'algorithmes : les méthodes descriptives et les méthodes prédictives.

Méthodes descriptives

[modifier |modifier le code]
Article détaillé :Analyse des données.

Définition

[modifier |modifier le code]

Les méthodes descriptives[42] permettent d'organiser, de simplifier et d'aider à comprendre l'information sous-jacente d'un ensemble important de données.

Elles permettent de travailler sur un ensemble dedonnées, organisées en instances de variables, dans lequel aucune des variables explicatives des individus n'a d'importance particulière par rapport aux autres. Elles sont utilisées par exemple pour dégager, d'un ensemble d'individus, des groupes homogènes en typologie, pour construire des normes de comportements et donc des déviations par rapport à ces normes telles que la détection de fraudes nouvelles ou inconnues à la carte bancaire ou à l'assurance maladie, pour réaliser de lacompression d'informations ou de lacompression d'image, etc.

Exemples

[modifier |modifier le code]
Repérer les données aberrantes et les éliminer.
Un exemple d'analyse en composante principale faite avec les données disponibles sous R.

Parmi les techniques disponibles, celles qui sont issues de la statistique peuvent être exploitées. Sont regroupées sous le vocableanalyses factorielles, des méthodes statistiques qui permettent de dégager des variables cachées dans un ensemble de mesures ; ces variables cachées sont appelées « facteurs ». Dans les analyses factorielles, on part du principe que si les données sont dépendantes entre elles, c'est parce qu'elles sont liées à des facteurs qui leur sont communs[43]. L’intérêt des facteurs réside dans le fait qu'un nombre réduit de facteurs explique presque aussi bien les données que l'ensemble des variables, ce qui est utile quand il y a un grand nombre de variables[b 4]. Les techniques factorielles se décomposent principalement enanalyse en composantes principales,analyse en composantes indépendantes,analyse factorielle des correspondances,analyse des correspondances multiples etpositionnement multidimensionnel[44].

Une classification hiérarchique faite avec les données disponibles sous R.

Pour fixer les idées, l'analyse en composantes principales fait correspondre àm{\displaystyle m} variablesquantitatives décrivantp{\displaystyle p} individus,n{\displaystyle n} facteurs, les composantes principales, de telle manière que la perte d'information soit minimum. En effet, les composantes sont organisées dans l'ordre croissant des pertes d'information, la première en perdant le moins. Les composantes sont non corrélées linéairement entre elles et les individus sont projetés sur les axes définis par les facteurs en respectant la distance qui existe entre eux. Les similitudes et les différences sont expliquées par les facteurs.

L'analyse factorielle des correspondances et l'ACM font correspondre àm{\displaystyle m} variablesqualitatives décrivant les caractéristiques dep{\displaystyle p} individus,n{\displaystyle n} facteurs en utilisant letableau de contingence, ou letableau de Burt dans le cas de l'ACM, de telle manière que les facteurs soient constitués des variables numériques séparant le mieux les valeurs des variables qualitatives initiales[b 5], que deux individus soient proches s'ils possèdent à peu près les mêmes valeurs des variables qualitatives et que les valeurs de deux variables qualitatives soient proches si ce sont pratiquement les mêmes individus qui les possèdent[b 5].

On peut aussi utiliser des méthodes nées dans le giron de l'intelligence artificielle et plus particulièrement dans celui de l'apprentissage automatique. La classification[44] non supervisée est une famille de méthodes qui permettent de regrouper des individus en classes, dont la caractéristique est que les individus d'une même classe se ressemblent, tandis que ceux de deux classes différentes sont dissemblables. Les classes de la classification ne sont pas connues au préalable, elles sont découvertes par le processus. D'une manière générale, les méthodes de classification servent à rendre homogènes des données qui ne le sont pas à priori, et ainsi permettent de traiter chaque classe avec des algorithmes sensibles aux données aberrantes. Dans cette optique, les méthodes de classification forment une première étape du processus d'analyse.

Ces techniques empruntées à l'intelligence artificielle utilisent lepartitionnement de l'ensemble des informations mais aussi lerecouvrement. Le partitionnement est l'objectif des algorithmes utilisant par exemple des méthodes telles que celles desk-means (les « nuées dynamiques » en français), desk-medoids[b 6] (k-médoïdes), k-modes et k-prototypes, qu'on peut utiliser pour rechercher les aberrations (outliers), lesréseaux de Kohonen, qui peuvent aussi servir à la classification[45], l'algorithme EM ou l'AdaBoost. Laclassification hiérarchique est un cas particulier de partitionnement pour lequel les graphiques produits sont facilement compréhensibles. Les méthodes ascendantes partent des individus qu'on agrège en classes, tandis que les méthodes descendantes partent du tout et par divisions successives arrivent aux individus qui composent les classes. Ci-contre le graphique d'une classification ascendante a été tracé pour montrer comment les classes les plus proches sont reliées entre elles pour former des classes de niveau supérieur.

Le recouvrement àlogique floue est une forme de recouvrement de l'ensemble des individus représentés par les lignes d'une matrice où certains d'entre eux possèdent une probabilité non nulle d'appartenir à deux classes différentes. L'algorithme le plus connu de ce type est le FCM (Fuzzy c-means)[46].

Il faut aussi mentionner l’Iconographie des corrélations associée à l’utilisation desInteractions logiques, méthode géométrique qui se prête bien à l’analyse des réseaux complexes de relations multiples.

Enbio-informatique, des techniques declassification double sont employées pour regrouper simultanément dans des classes différentes les individus et les variables qui les caractérisent.

Pour rendre compte de l'utilité de ces méthodes de recouvrement, il faut se rappeler que la classification est un problème dont la grande complexité a été définie parEric Bell. Lenombre de partitions d'un ensemble den{\displaystyle n} objets est égal à :Bn=1ek=0knk!>en{\displaystyle B_{n}={\frac {1}{e}}\sum _{k=0}^{\infty }{\frac {k^{n}}{k!}}>e^{n}}. Il vaut donc mieux avoir des méthodes efficaces et rapides pour trouver une partition qui répond au problème posé plutôt que de parcourir l'ensemble des solutions possibles.

Enfin, quand l'analyse se porte non pas sur les individus, les items ou les objets, mais sur les relations qui existent entre eux, la recherche derègles d'associations est l'outil adapté. Cette technique est, à l'origine, utilisée pour faire l'analyse du panier d'achats ou l'analyse de séquences. Elle permet, dans ce cas, de savoir quels sont les produits achetés simultanément, dans un supermarché par exemple, par un très grand nombre de clients ; elle est également appliquée pour résoudre des problèmes d'analyse de parcours de navigation de sites web. La recherche de règles d'association peut être utilisée de manière supervisée ; les algorithmesAPriori,GRI, Carma, méthode ARD ou encorePageRank se servent de cette technique[47].

Méthodes prédictives

[modifier |modifier le code]
Article détaillé :Analyse prédictive.
Régression linéaire.

Définition

[modifier |modifier le code]

La raison d'être des méthodes prédictives est d'expliquer ou de prévoir un ou plusieurs phénomènes observables et effectivement mesurés. Concrètement, elles vont s'intéresser à une ou plusieurs variables définies comme étant les cibles de l'analyse. Par exemple, l'évaluation de la probabilité pour qu'un individu achète un produit plutôt qu'un autre, la probabilité pour qu'il réponde à une opération demarketing direct, celles qu'il contracte une maladie particulière, en guérisse, les chances qu'un individu ayant visité une page d'un site web y revienne, sont typiquement des objectifs que peuvent atteindre les méthodes prédictives.

En exploration de données prédictive, il y a deux types d'opérations : la discrimination ou classement, et la régression ou prédiction, tout dépend du type de variable à expliquer. La discrimination s’intéresse aux variables qualitatives, tandis que la régression s’intéresse aux variables continues[b 7].

Les méthodes de classement et de prédiction permettent de séparer des individus en plusieurs classes. Si la classe est connue au préalable et que l'opération de classement consiste à analyser les caractéristiques des individus pour les placer dans une classe, la méthode est dite « supervisée[b 8] ». Dans le cas contraire, on parle de méthodes « non-supervisées », ce vocabulaire étant issu de l'apprentissage automatique. La différence entre les méthodes descriptives de classification que l'on a vues précédemment, et les méthodes prédictives de classement provient du fait que leur objectif est divergent : les premières « réduisent, résument, synthétisent les données[b 4] » pour donner une vision plus claire de l'amas de données, alors que les secondes expliquent une ou plusieurs variables cibles en vue de la prédiction des valeurs de ces cibles pour les nouveaux arrivants.

Exemples

[modifier |modifier le code]
Un exemple d'arbre de décision utilisant la méthode CART, sur les données de la population duTitanic

On peut référencer quelques exemples de méthodes prédictives[notes 6], et les présenter selon le domaine d'où elles proviennent.

Parmi les méthodes issues de l'intelligence artificielle, l'analyste pourra utiliser lesarbres de décision[48],[49], parfois pour la prédiction, parfois pour discrétiser les données quantitatives[50],[notes 7], leraisonnement par cas, lesréseaux de neurones[notes 8], lesneurones à base radiale[51],[52] pour la classification et l'approximation de fonctions, ou peut-être lesalgorithmes génétiques, certains en appui des réseaux bayésiens[53], d'autres commeTimeweaver en recherche d'évènements rares[54].

Si l'analyste est plus enclin à utiliser les méthodes issues de la statistique et des probabilités, il se tournera vers les techniques de régressions linéaires ou non linéaires au sens large[notes 9] pour trouver une fonction d'approximation, l'analyse discriminante de Fisher, larégression logistique, et la régression logistique PLS pour prédire une variable catégorielle, ou bien lemodèle linéaire généralisé (GLM), lemodèle additif généralisé (GAM) oumodèle log-linéaire, et les modèles de régression multiple postulés et non postulés afin de prédire une variable multidimensionnelle.

Quant à l'inférence bayésienne et plus particulièrement lesréseaux bayésiens[55],[56], ils pourront être utile à l'analyste si celui-ci cherche les causes d'un phénomène ou bien cherche la probabilité de la réalisation d'un évènement[57],[58].

S'il souhaite compléter les données manquantes, la méthode desk plus proches voisins (K-nn) reste à sa disposition[59].

Courbe lift évaluant la performance d'un modèlerandom forest sur les données Kyphosis.
Courbes ROC comparant la performance en classification de cinq modèles d'apprentissage automatique sur les données ducancer du sein.

La liste des algorithmes évolue chaque jour, car ils n'ont pas tous le même objet, ne s'appliquent pas aux mêmes données en entrée et aucun n'est optimal dans tous les cas. En outre, ils s'avèrent complémentaires les uns aux autres en pratique et en les combinant intelligemment en construisant des modèles de modèles oumétamodèles, il est possible d'obtenir des gains en performance et en qualité très significatifs. L'ICDM-IEEE a fait en2006 un classement des 10 algorithmes[47] ayant le plus d'influence dans le monde de l'exploration de données : ce classement est une aide efficace au choix et à la compréhension de ces algorithmes.

L'université Stanford a mis en concurrence à sa rentrée d'automne2007 deux équipes sur le projet suivant : en s'appuyant sur la base de films visualisés par chaque client d'un réseau de distribution dont les abonnements sont payés par carte magnétique, déterminer l'audience la plus probable d'un film qui n'a pas encore été vu. Une équipe s'est orientée sur une recherche d'algorithmes extrêmement fins à partir des informations de la base, une autre au contraire a pris des algorithmes extrêmement simples, mais a combiné la base fournie par le distributeur au contenu de l’Internet Movie Database (IMDB) pour enrichir ses informations. La seconde équipe a obtenu des résultats nettement plus précis. Un article[60] suggère que l'efficacité deGoogle tient moins à son algorithmePageRank qu'à la très grande quantité d'information que Google peut corréler par croisement des historiques de requêtes, et par l'analyse du comportement de navigation de ses utilisateurs sur les différents sites.

Avec les moyens modernes de l'informatique l'une ou l'autre de ces deux solutions peut s'envisager dans chaque projet, mais d'autres techniques sont apparues qui ont prouvé leur efficacité pour améliorer la qualité des modèles et leur performance.

Qualité et performance

[modifier |modifier le code]

Un modèle de qualité est un modèle rapide, dont le taux d'erreur doit être le plus bas possible. Il ne doit pas être sensible aux fluctuations de l'échantillon pour ce qui concerne les méthodes supervisées, il doit être robuste et supporter des changements lents intervenants sur les données.En outre, le fait d'être simple, compréhensible et produire des résultats interprétables facilement, augmente sa valeur. Enfin, il est paramétrable pour être réutilisable[61].

Plusieurs indicateurs sont utilisés pour évaluer la qualité d'un modèle, et parmi ceux-ci les courbesROC etlift, l'indice de Gini et l'erreur quadratique moyenne montrent où se situe la prédiction par rapport à la réalité et donnent ainsi une bonne idée de la valeur de cette composante de la qualité du modèle.

La robustesse et la précision[b 9],[notes 10] sont deux autres facettes de la qualité du modèle. Pour obtenir un modèle performant, la technique consiste à limiter l'hétérogénéité des données, optimiser l’échantillonnage ou combiner les modèles.

La pré-segmentation se propose de classifier la population, puis de construire un modèle sur chacune des classes dans lesquelles les données sont plus homogènes et enfin d'en agréger les résultats.

Avec l'agrégation de modèles, l'analyste applique le même modèle à des échantillons légèrement différents issus de l'échantillon initial, pour ensuite associer les résultats. Lebagging et leboosting étaient les deux techniques les plus efficaces et les plus populaires en 1999[62]. En marketing par exemple,l'algorithme Uplift utilise la technique du bagging pour produire un modèle d'identification de groupes de personnes pouvant répondre à une offre commerciale après sollicitation.

Enfin, la combinaison de modèles conduit l'analyste à appliquer plusieurs modèles sur une même population et à combiner les résultats. Des techniques telles que l'analyse discriminante et les réseaux de neurones par exemple, se marient aisément.

Outils informatiques

[modifier |modifier le code]

Logiciels

[modifier |modifier le code]
Cette section a besoin d'êtrerecyclée (6 janvier 2024).
Motif : obsolète, à actualiser, notamment avec le lienhttps://www.kdnuggets.com/2019/05/poll-top-data-science-machine-learning-platforms.html.Améliorez-la oudiscutez des points à améliorer.

La fouille de données n'existerait pas sans outil. L'offre informatique est présente sous la forme delogiciels[63] et aussi sur quelques plateformes spécialisées[64]. De nombreux logiciels sont présents dans la sphère deslogiciels commerciaux, mais il en existe aussi dans celle deslogiciels libres. Il n'y a pas de logiciels meilleurs que d'autres, tout dépend de ce qu'on veut en faire[65]. Les logiciels commerciaux sont plutôt destinés aux entreprises, ou aux organismes ayant de gros volumes de données à explorer[b 10], tandis que les logiciels libres sont destinés plus particulièrement aux étudiants, à ceux qui veulent expérimenter des techniques nouvelles, et aux PME[b 10]. En2009[66], les outils les plus utilisés sont, dans l'ordre,SPSS,RapidMiner (en),SAS,Excel,R,KXEN (en),Weka,Matlab,KNIME,Microsoft SQL Server,Oracle DM (en),STATISTICA et CORICO (Iconographie des corrélations). En2010, R[67] est l'outil le plus utilisé parmi les utilisateurs ayant répondu au sondage deRexer Analytics[68] etSTATISTICA apparaît comme l'outil préféré de la plupart des prospecteurs de données (18 %).STATISTICA, IBM SPSS Modeler, et R ont reçu les taux de satisfaction les plus élevés à la fois en 2010 et 2009 dans ce sondage deRexer Analytics.

Article détaillé :Logiciels de fouille de données.

Informatique en nuage

[modifier |modifier le code]

L’informatique en nuage (cloud computing) n’est pas un outil d’exploration de données, mais un ensemble de services web, délivrés par des fournisseurs via l'internet, permettant d’accueillir et/ou d’utiliser des données et des logiciels[69]. Néanmoins, il existe des services qui peuvent être utilisés dans le domaine de l’exploration de données.Oracle Data mining s’expose sur l’IaaS d’Amazon[notes 11] en proposant aux clients uneAmazon Machine Image[70] contenant une base de données Oracle incluant une IHM pour la fouille de données ; une image pour R et Python est disponible aussi surAmazon Web Services[71].

Des acteurs présents exclusivement dans le nuage et spécialisés dans le domaine de la fouille de données proposent leurs services commeBraincube,In2Cloud,Predixion etCloud9Analytics entre autres.

Limites et problèmes

[modifier |modifier le code]

L'exploration des données est une technique ayant ses limites et posant quelques problèmes[72].

Limites

[modifier |modifier le code]

Les logiciels ne sont pas auto-suffisants. Les outils d'exploration des données ne proposent pas d'interprétation des résultats, un analyste spécialiste de la fouille de données et une personne connaissant le métier duquel sont extraites les données sont nécessaires pour analyser les livrables du logiciel.

En outre, les logiciels d'exploration de données donnent toujours un résultat, mais rien n'indique qu'il soit pertinent, ni ne donne une indication sur sa qualité. Mais, de plus en plus, des techniques d'aide à l'évaluation sont mises en place dans les logiciels libres ou commerciaux.

Les relations entre les variables ne sont pas clairement définies. Les outils d'exploration des données indiquent que telles et telles variables ont une influence sur la variable à expliquer, mais ne disent rien sur le type de relation, en particulier il n'est pas dit si les relations sontde cause à effet.

De plus, il peut être très difficile de restituer de manière claire soit par des graphes, des courbes ou des histogrammes, les résultats de l'analyse. Le non-technicien aura quelquefois du mal à comprendre les réponses qu'on lui apporte.

Problèmes

[modifier |modifier le code]
Article détaillé :Glossaire de l'exploration de données.

Laqualité des données, c'est-à-dire la pertinence et la complétude des données, est une nécessité pour l'exploration des données, mais ne suffit pas. Les erreurs de saisies, les enregistrements doublonnés, les données non renseignées ou renseignées sans référence au temps affectent aussi la qualité des données. Les entreprises mettent en place des structures et des démarches d'assurance qualité des données pour pouvoir répondre efficacement aux nouvelles réglementations externes, aux audits internes, et augmenter la rentabilité de leurs données qu'elles considèrent comme faisant partie de leur patrimoine[73].

L'interopérabilité d'un système est sa capacité à fonctionner avec d'autres systèmes, créés par des éditeurs différents. Les systèmes d'exploration de données doivent pouvoir travailler avec des données venant de plusieurs systèmes de gestion debases de données, de type de fichier, detype de données et de capteurs différents. En outre, l’interopérabilité a besoin de la qualité des données. Malgré les efforts de l'industrie en matière d'interopérabilité, il semble que dans certains domaines ce ne soit pas la règle[74].

Les données sont collectées dans le but de répondre à une question posée par le métier. Un risque de l'exploration de données est l'utilisation de ces données dans un autre but que celui assigné au départ. Le détournement des données est l'équivalent d'une citation hors de son contexte. En outre, elle peut conduire à des problèmes éthiques.

Lavie privée des personnes peut être menacée par des projets d'exploration de données, si aucune précaution n'est prise, notamment dans lafouille du web et l'utilisation desdonnées personnelles collectées sur Internet où les habitudes d'achats, les préférences, et même la santé des personnes peuvent être dévoilées. Un autre exemple est fourni par l'Information Awareness Office et en particulier le programmeTotal Information Awareness (TIA)[75] qui exploitait pleinement la technologie d'exploration de données et qui fut un des projets « post-11 septembre » que leCongrès des États-Unis avait commencé à financer, puis qu'il a abandonné à cause des menaces particulièrement importantes que ce programme faisait peser sur la vie privée des citoyens américains. Mais même sans être dévoilées, les données des personnes recueillies par les entreprises, via les outils degestion de la relation client (CRM), lescaisses enregistreuses, lesDAB, lescartes santéetc., peuvent conduire, avec les techniques de fouille de données, à classer les personnes en une hiérarchie de groupes, de bons à mauvais,prospects, clients, patients, ou n'importe quel rôle que l'on joue à un instant donné dans lavie sociale, selon des critères inconnus des personnes elles-mêmes[76],[77]. Dans cette optique, et pour corriger cet aspect négatif,Rakesh Agrawal etRamakrishnan Sikrant s'interrogent sur la faisabilité d'une exploration de données qui préserverait la vie privée des personnes[78],[notes 12]. Le stockage des données nécessaire à la fouille pose un autre problème dans la mesure où lesdonnées numériques peuvent êtrepiratées. Et dans ce cas l'éclatement des données sur des bases de données distribuées[79] et lacryptographie font partie des réponses techniques qui existent et qui peuvent être mises en place par les entreprises.

Fouilles spécialisées

[modifier |modifier le code]

Certaines entreprises ou groupes se sont spécialisés, avec par exempleAcxiom,Experian Information Solutions,D & B, etHarte-Hanks pour les données de consommation ouNielsen N.V. pour les données d'audience.

Outre l'exploration de données (décrite plus haut) qu'on peut maintenant qualifier de classique, des spécialisations techniques de l'exploration de données telles que lafouille d'images (image mining), lafouille du web (web data mining), lafouille de flots de données (data stream mining) et lafouille de textes (text mining) sont en plein développement dans les années 2010 et concentrent l'attention de nombreux chercheurs et industriels, y compris pour les risques de diffusion dedonnées personnelles qu'elles font courir aux individus.

Des logiciels de catégorisation des individus selon leur milieu social et leurs caractérisations de consommateurs sont utilisés par ces entreprises (ex :Claritas Prizm (créé parClaritas Inc. et racheté parNielsen Company.

Par types de données

[modifier |modifier le code]

Lafouille audio, technique récente, parfois apparentée à la fouille de données, permet de reconnaître des sons dans un flux audio. Elle sert principalement dans le domaine de lareconnaissance vocale et/ou s'appuie sur elle.

Lafouille d'images[80] est la technique qui s’intéresse au contenu de l'image. Elle extrait descaractéristiques dans un ensemble d'images, par exemple du web, pour les classer, les regrouper par type ou bien pour reconnaître des formes dans une image dans le but de chercher des copies de cette image ou dedétecter un objet particulier, par exemple.

Lafouille de textes est l'exploration des textes en vue d'en extraire une connaissance de haute qualité. Cette technique est souvent désignée sous l'anglicismetext mining. C'est un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité, dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre enalgorithmes un modèle simplifié desthéories linguistiques dans des systèmes informatiques d'apprentissage et de statistiques. Les disciplines impliquées sont donc lalinguistique calculatoire, l'ingénierie du langage, l'apprentissage artificiel, lesstatistiques et l'informatique.

Par environnements techniques

[modifier |modifier le code]

Il s'agit d'exploiter, avec lafouille du web, l'énorme source de données que constitue le web et trouver des modèles et des schémas dans l'usage, le contenu et la structure du web. La fouille de l'usage du web (Web usage mining ouWeb log mining) est le processus d'extraction d'informations utiles stockées dans les journaux des serveurs. Cette fouille exploite la fouille de textes pour analyser les documents textes. La fouille de la structure du web est le processus d'analyse des relations, inconnues à priori, entre documents ou pages stockés sur le web.

Lafouille de flots de données (data stream mining)[81] est la technique qui consiste à explorer les données qui arrivent en un flot continu[82], illimité, avec une grande rapidité, et dont certains paramètres fondamentaux se modifient avec le temps : par exemple, l'analyse des flots de données émis par des capteurs automobiles[83]. Mais des exemples d'applications peuvent être trouvés dans les domaines des télécommunications, de la gestion des réseaux, de la gestion des marchés financiers, de la surveillance, et dans les domaines d'activités de la vie de tous les jours, plus proches des personnes, comme l'analyse des flux deGAB, des transactions par cartes de crédit, etc.

Par domaines d'activités

[modifier |modifier le code]
Représentation graphique des bords de la rivière Neuse auxÉtats-Unis où des concentrations anormales dezinc ont été observées.

Lafouille de données spatiales[84] (Spatial data mining) est la technique d'exploration de données géographiques à notre échelle sur Terre, mais aussiastronomiques oumicroscopiques, dont le but est de trouver des motifs intéressants dans les données contenant à la fois du texte, des données temporelles ou des données géométriques, telles que desvecteurs, des trames ou des graphes. Les données spatiales donnent des informations à des échelles différentes, fournies par des techniques différentes, sous des formats différents, dans une période de temps souvent longue en vue de l'observation des changements. Les volumes sont donc très importants, les données peuvent être imparfaites, bruitées. De plus, les relations entre les données spatiales sont souvent implicites : les relationsensemblistes,topologiques,directionnelles etmétriques se rencontrent fréquemment dans cette spécialisation. La fouille de données spatiales est donc particulièrement ardue.

On utilise la fouille de données spatiales pour explorer les données dessciences de la terre, les données cartographiques du crime, celles desrecensements, dutrafic routier, des foyers decancer[85]etc.

Ensciences humaines, l'analyse de données textuelles regroupées en corpus est réalisée grâce à des logiciels spécialisés, tels queHyperbase,Alceste ouVoyant Tools par exemples. Ce type d'analyse permet de qualifier les éléments des textes en les classant dans des catégories, ainsi qu'à les quantifier en étudiant leur répartition statistique.

Exemple d'analyse de données textuelles dans l'outil Voyant Tools.

Dans le futur

[modifier |modifier le code]

L’avenir de l'exploration de données dépend de celui des données numériques. Avec l’apparition duWeb 2.0, desblogs, deswikis et des services en nuages[86], il y a une explosion du volume des données numériques et les gisements de matière première pour la fouille de données sont donc importants.

De nombreux domaines exploitent encore peu la fouille de données pour leurs besoins propres. L’analyse des données venant de lablogosphère n’en est qu’à son début. Comprendre l’« écologie de l’information[notes 13],[b 11]» pour analyser le mode de fonctionnement des médias de l’Internet par exemple ne fait que commencer.

Pour peu que les problèmes liés à la vie privée des personnes[b 12],[b 13] soient réglés, la fouille de données peut aider à traiter des questions dans le domaine médical[b 14], et notamment dans la prévention des risques hospitaliers[b 14].

Sans aller jusqu'à la science-fiction deMinority Report, les techniques de profilagesans a priori sont rendues possibles par l'exploration de données[87], pouvant poser quelques problèmes éthiques nouveaux[88]. Un documentaire deBBC Horizon[89] résume une partie de ces questions.

Enfin, avec l’apparition de nouvelles données et de nouveaux domaines, les techniques continuent de se développer[b 15].

Notes et références

[modifier |modifier le code]

Notes

[modifier |modifier le code]
  1. Terme recommandé au Canada par l'OQLF, et en France par laDGLFLF (Journal officiel du 27 février 2003) et parFranceTerme
  2. en suivant le même exemple, il permet de répondre à la question :« Quel pourrait être le chiffre d'affaires dans un mois ? »
  3. . Ces distributions sont faciles à calculer, et on trouve parmi elles des lois déjà largement utilisées (loi normale, distribution exponentielle négative, lois de Zipf et de Mandelbrot...), par des méthodes sans rapport avec celles qui les ont établies. Le test defitness d'une distribution au modèle du « test Psi » de calcul de l'entropie résiduelle, est asymptotiquement équivalent à laLoi du χ².
  4. Voir dans ce document les efforts de standardisation et d'interopérabilité effectués par l'industrie :(en) Arati Kadav, Aya Kawale et Pabitra Mitra, « Data Mining Standards »[PDF], surdatamininggrid.org(consulté le).
  5. Par exemple, un programme gestionnaire de messages électroniques pourrait tenter de classer un e-mail dans la catégorie des e-mails légitimes ou bien dans celle despourriels. Les algorithmes généralement utilisés incluent lesarbres de décision, lesplus proches voisins, laclassification naïve bayésienne, lesréseaux neuronaux et lesséparateurs à vaste marge (SVM)
  6. Dont on peut trouver, pour certaines, la description ici :Guillaume Calas, « Études des principaux algorithmes de data mining »[PDF], surguillaume.calas.free.fr,(consulté le).
  7. CommeCART,CHAID,ECHAID,QUEST,C5,C4.5 et lesforêts d'arbres décisionnels
  8. Tels que lesperceptrons mono ou multicouches avec ou sansrétropropagation des erreurs
  9. Telles que larégression linéaire,linéaire multiple,logistique,PLS,ANOVA,MANOVA,ANCOVA ouMANCOVA.
  10. VoirGlossaire du data mining pour la définition de « robustesse » et « précision ».
  11. IaaS signifiantInfrastructure as a service dénomméAmazon Elastic Compute Cloud chez Amazon
  12. Puisque les modèles de l'exploration de données concernent les données agrégées d'où sont éliminées les données personnelles.
  13. SelonTim Finin, Anupam Joshi, Pranam Kolari, Akshay Java, Anubhav Kale et Amit Karandikar, « The information ecology of social media and online communities », suraisl.umbc.edu(consulté le).

Ouvrages spécialisés

[modifier |modifier le code]
  1. Tufféry 2010,p. 506
  2. abcde etfNisbet, Elder et Miner 2009,p. 733
  3. Tufféry 2010,p. 44
  4. a etbTufféry 2010,p. 161
  5. a etbTufféry 2010,p. 198
  6. Tufféry 2010,p. 244
  7. Tufféry 2010,p. 297
  8. Nisbet, Elder et Miner 2009,p. 235
  9. Tufféry 2010,p. 518
  10. a etbTufféry 2010,p. 121
  11. Karguptaet al. 2009,p. 283
  12. Karguptaet al. 2009,p. 357
  13. Karguptaet al. 2009,p. 420
  14. a etbKarguptaet al. 2009,p. 471
  15. Karguptaet al. 2009,p. 1-281

Autres références

[modifier |modifier le code]
  1. « Définition de l’exploration de données Data Mining ».
  2. GordonLinoff,Data mining techniques : for marketing, sales, and customer support,Wiley,(ISBN 0-471-17980-9 et978-0-471-17980-1,OCLC 36755821)
  3. « Atelier de travail Etalab du 13 octobre 2011 : Datajournalisme » (4e Workshop d'Etalab, 70 participants le 13 octobre 2011), avec vidéos en ligne, consulté 8 octobre 2013.
  4. (en) Kurt Thearling, « An Introduction to Data Mining », surthearling.com(consulté le).
  5. a etbJean-Claude Oriol, « Une approche historique de la statistique »[PDF], surstatistix.fr(consulté le).
  6. (en) Myron Tribus,Rational descriptions, decisions, and designs,, 478 p.(lire en ligne).
  7. (en) NikhilPal et LakhmiJain,Advanced techniques in knowledge discovery and data mining, Springer,, 254 p.(ISBN 978-1-85233-867-1)
  8. (en) Carole Albouy, « Il était une fois ... le data mining », surlafouillededonnees.blogspirit.com(consulté le).
  9. (en) Patricia Cerrito, « A Data Mining Applications Area in the Department of Mathematics »[PDF], surmath.louisville.edu(consulté le).
  10. (en) Maryann Lawlor, « Smart Companies Dig Data », surafcea.org(consulté le).
  11. a etbChristine Frodeau, « Data mining, Outil de Prediction du Comportement du Consommateur »[PDF], surcreg.ac-versailles.fr(consulté le).
  12. (en) ColleenMcCue,Data Mining and Predictive Analysis : intelligence gathering and crime analysis, Amsterdam/Boston,Elsevier,, 313 p.(ISBN 978-0-7506-7796-7)
  13. Frank audet et Malcolm Moore, « Amélioration de la qualité dans un centre d’appel »[PDF], surjmp.com(consulté le).
  14. (en) Henry Abarbanel, Curtis Callan, William Dally,Freeman Dyson, Terence Hwa, Steven Koonin, Herbert Levine, Oscar Rothaus, Roy Schwitters, Christopher Stubbs et Peter Weinberger, « Data mining and the human genome »[PDF], surfas.org(consulté le),p. 7.
  15. a etb(en) « Industries / Fields for Analytics / Data Mining in 2010 », surkdnuggets.com,(consulté le).
  16. (en) YiPeng, GangKou, YongShi et ZhengxinChen, « A Descriptive Framework for the Field of Data Mining and Knowledge Discovery »,International Journal of Information Technology and Decision Making,vol. 7,no 4,‎,p. 639 à 682(10.1142/S0219622008003204)
  17. (en) « SIGKDD : Site officiel », sursigkdd.org(consulté le).
  18. (en) « ACM SIGKDD : Conferences », surkdd.org(consulté le).
  19. (en)ACM, New York, « SIGKDD Explorations », surkdd.org(consulté le).
  20. (en) « 5th (2009) », surdmin--2009.com(consulté le).
  21. (en) « 4th (2008) », surdmin-2008.com(consulté le).
  22. (en) « 3rd (2007) », surdmin-2007.com(consulté le).
  23. (en) « 2d (2006) », surdmin-2006.com(consulté le).
  24. (en) « 1st (2005) », surinformatik.uni-trier.de(consulté le).
  25. (en) « ICDM : Site officiel », surcs.uvm.edu(consulté le).
  26. (en) « IEEE International Conference on Data Mining », surinformatik.uni-trier.de(consulté le).
  27. (en) « ICDM09, Miami, FL », surcs.umbc.edu(consulté le).
  28. (en) « ICDM08, Pisa (Italy) », suricdm08.isti.cnr.it(consulté le).
  29. (en) « ICDM07, Omaha, NE », surist.unomaha.edu(consulté le).
  30. (en) « ICDM06, Hong Kong », surcomp.hkbu.edu.hk(consulté le).
  31. (en) « ICDM05, Houston, TX », surcacs.ull.edu(consulté le).
  32. (en) « ICDM04, Brighton (UK) », suricdm04.cs.uni-dortmund.de(consulté le).
  33. (en) « ICDM01, San Jose, CA. », surcs.uvm.edu(consulté le).
  34. abcde etf(en) « CRoss Industry Standard Process for Data Mining : Process Model », surcrisp-dm.org,(consulté le).
  35. (en) Usama Fayyad, Gregory Piatetsky-Shapiro et Padhraic Smyth, « From Data Mining to Knowledge Discovery in Databases »[PDF], surkdnuggets.com,(consulté le).
  36. a etb(en) Ana Azevedo et M.F. Santos, « KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW »,IADIS European Conf. Data,‎(lire en ligne)
  37. (en) Jing Gao, Wei Fan et Jiawei Han, « On the Power of Ensemble: Supervised and Unsupervised Methods Reconciled », surews.uiuc.edu(consulté le).
  38. (en) Mary McGlohon, « Data Mining Disasters: a report »[PDF], surcs.cmu.edu(consulté le),p. 2.
  39. (en) « An Introduction to Ensemble Methods », surRDC(consulté le).
  40. (en) DorianPyle,Data Preparation for Data Mining, Morgan Kaufmann,, 560 p.(ISBN 978-1-55860-529-9,lire en ligne)
  41. (en) Kurt Thearling, « ''An Introduction to Data Mining », surthearling.com(consulté le),p. 17.
  42. Stéphane Tufféry, « Les techniques descriptives »[PDF], surdata.mining.free.fr,(consulté le),p. 5.
  43. Jacques Baillargeon, « Analyse factorielle exploratoire »[PDF], suruqtr.ca,(consulté le),p. 4.
  44. a etbPhilippe Besse et Alain Baccini, « Exploration Statistique »[PDF], surmath.univ-toulouse.fr,(consulté le),p. 7 et suiv..
  45. Alexandre Aupetit, « Réseaux de neurones artificiels : une petite introduction », surlabo.algo.free.fr,(consulté le).
  46. (en) Nikhil R. Pal, Kuhu Pal, James M. Keller et James C. Bezdek, « Fuzzy c-Means Clustering of Incomplete Data »[PDF], surcomp.ita.br,(consulté le).
  47. a etb(en) « ICDM Top 10 algorithms in data mining »[PDF], surcs.uvm.edu(consulté le).
  48. (en) Wei-Yin Loh et Yu-Shan Shih, « Split Selection Methods for Classification Trees »[PDF], surmath.ccu.edu.tw,(consulté le).
  49. (en)Leo Breiman, « Random Forests »[PDF], surspringerlink.com,(consulté le).
  50. Ricco Rakotomalala, « Arbres de Décision »[PDF], surrocq.inria.fr,(consulté le).
  51. (en) SimonHaykin,Neural Networks : A comprehensive Foundation,Prentice Hall,, 842 p.(ISBN 978-0-13-273350-2)
  52. M. Boukadoum, « Réseaux de neurones à base radiale »[ppt], surlabunix.uqam.ca(consulté le).
  53. Jean-Marc Trémeaux, « Algorithmes génétiques pour l'identification structurelle des réseaux bayésiens »[PDF], surnaku.dohcrew.com,(consulté le).
  54. Thomas Vallée et Murat Yıldızoğlu, « Présentation des algorithmes génétiques et de leurs applications en économie »[PDF], sursc-eco.univ-nantes.fr,(consulté le),p. 15.
  55. Olivier Parent et Julien Eustache, « Les Réseaux Bayésiens »[PDF], surliris.cnrs.fr,(consulté le).
  56. Gilles Balmisse, « Les Réseaux Bayésiens »[PDF], surgillesbalmisse.com,(consulté le).
  57. Samos, « Les Réseaux Bayésiens »[PDF], sursamos.univ-paris1.fr,(consulté le).
  58. « Pour sortir de l'incertitude, entrez dans l'ère des réseaux bayésiens », Bayesia(consulté le).
  59. Valérie Monbet, « Les données manquantes », surperso.univ-rennes1.fr(consulté le),p. 27.
  60. Didier Durand, « PageRank de Google : l'algorithme prend en compte 200 paramètres ! », surmedia-tech.blogspot.com,(consulté le).
  61. Bertrand Liaudet, « Cours de Data Mining 3 : Modelisation Présentation Générale »[PDF], surbliaudet.free.fr(consulté le).
  62. (en) David Opitz et Richard Maclin, « Popular Ensemble Methods: An Empirical Study »[PDF], surd.umn.edu,(consulté le).
  63. (en) « Software Suites for Data Mining, Analytics, and Knowledge Discovery », surkdnuggets.com(consulté le).
  64. « Plateforme de datamining pour les editeurs d'univers virtuels », surmarketingvirtuel.fr(consulté le).
  65. (en) Dean W. Abbott, I. PhilipMatkovsky et John Elder IV, « 1998 IEEE International Conference on Systems, Man, and Cybernetics, San Diego, CA »[PDF], surdatamininglab.com,(consulté le).
  66. (en) « Data Mining Tools Used Poll », surkdnuggets.com,(consulté le).
  67. (en)Rexer Analytics, « 2010 Data Miner Survey », surrexeranalytics.com(consulté le).
  68. (en) « Rexer Analytics »,Rexer Analytics(consulté le).
  69. Dave Wells, « What’s Up with Cloud Analytics? », surb-eye-network.com(consulté le).
  70. John Smiley et Bill Hodak, « Oracle Database on Amazon EC2 : An Oracle White Paper », suroracle.com(consulté le).
  71. Drew Conway, « Amazon EC2 configuration for scientific computing in Python and R », surkdnuggets.com(consulté le).
  72. (en) Jeffrey Seifer, « CRS report for congress »[PDF], surbiotech.law.lsu.edu,(consulté le).
  73. Laetitia Hardy, « Pourquoi la qualité des données devient incontournable au sein de l’entreprise ? », surdecideo.fr,(consulté le).
  74. (en) Jeffrey Seifert, « CRS report for congress »[PDF], surbiotech.law.lsu.edu,(consulté le),p. 27.
  75. (en) « International Workshop on Practical Privacy-Preserving Data Mining », surcs.umbc.edu,(consulté le).
  76. (en) Martin Meint et Jan Möller, « Privacy Preserving Data Mining »[PDF], surfidis.net(consulté le).
  77. (en) Kirsten Wahlstrom, John F. Roddick, Rick Sarre, Vladimir Estivill-Castro et Denise de Vries, « Legal and Technical Issues of Privacy Preservation in Data Mining », surirma-international.org,(consulté le).
  78. (en)Rakesh Agrawal etRamakrishnan Sikrant, « privacy-Preserving Data mining »[PDF], surcs.utexas.edu(consulté le).
  79. (en) Murat Kantarcioglu, « Introduction to Privacy Preserving Distributed Data Mining »[PDF], surwiki.kdubiq.org(consulté le).
  80. Patrick Gros, « Nouvelles de l’AS fouille d’images & Émergence de caractéristiques sémantiques »[PDF], surliris.cnrs.fr,(consulté le).
  81. (en) Mohamed MedhatGaber, Arkady Zaslavsky et Shonali Krishnaswamy, « Data Streams: A Review »[PDF], sursigmod.org,(consulté le).
  82. (en) Chih-Hsiang Li, Ding-Ying Chiu, Yi-Hung Wu et Arbee L. P.Chen, « Mining Frequent Itemsets from Data Streams with a Time-Sensitive Sliding Window »[PDF], sursiam.org,(consulté le).
  83. (en) Hillol Kargupta, Ruchita Bhargava, Kun Liu, Michael Powers,Patrick Blair, Samuel Bushra, James Dull, Kakali Sarkar, Martin Klein, Mitesh Vasa et David Handy, « VEDAS : A Mobile and Distributed Data Stream Mining System for Real-Time Vehicle Monitoring »[PDF], sursiam.org,(consulté le).
  84. (en) « Spatial Database and Spatial Data Mining Research Group : Site officiel », surspatial.cs.umn.edu,(consulté le).
  85. (en) Shashi Shekhar et Pusheng Zhang, « Spatial Data Mining: Accomplishments and Research Needs »[PDF], surspatial.cs.umn.edu,(consulté le).
  86. « IDC pronostique une explosion du volume de données produites dans le monde d'ici 10 ans », surlemagit.fr(consulté le).
  87. (en) Joseph A Bernstein, « Big Idea : Seeing Crime Before It Happens »Accès payant, surdiscovermagazine.com,(consulté le).
  88. (en) « FBI might use profiling in terror investigations », surmsnbc.com,(consulté le).
  89. The Age of Big Data

Voir aussi

[modifier |modifier le code]

Sur les autres projets Wikimedia :

Articles connexes

[modifier |modifier le code]

Statistiques

[modifier |modifier le code]

Intelligence artificielle

[modifier |modifier le code]

Aide à la décision

[modifier |modifier le code]

Applications

[modifier |modifier le code]

Bibliographie

[modifier |modifier le code]
v ·m
Type
Généralités
Glossaire
v ·m
Concepts
Architecture
Outils
Programmation
Statistique
Articles liés
v ·m
Paradigmes
Problèmes
Supervisé
Classement
Régression
Prédiction structurée
Réseau de neurones
artificiels
Non supervisé et
auto-supervisé
Découverte de structures
Réduction de dimensions
IA générative
etmodèle génératif
Métaheuristique
d'optimisation
Théorie
Logiciels
v ·m
Codage
Modèles de calcul
Algorithmique
Syntaxe
Sémantique
Logique mathématique
Mathématiques discrètes
Cet article est reconnu comme « bon article » depuis saversion du 13 juin 2011 (comparer avec la version actuelle).
Pour toute information complémentaire, consulter sapage de discussion et levote l'ayant promu.
La version du 13 juin 2011 de cet article a été reconnue comme « bon article », c'est-à-dire qu'elle répond à des critères de qualité concernant le style, la clarté, la pertinence, la citation des sources et l'illustration.
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Exploration_de_données&oldid=232744314 ».
Catégories :
Catégories cachées :

[8]ページ先頭

©2009-2026 Movatter.jp