Movatterモバイル変換

[0]ホーム

Aller au contenu

Exploration de données

Modifier les liens

Un article de Wikipédia, l'encyclopédie libre.

(Redirigé depuisDatamining)

Vous lisez un « bon article » labellisé en 2011.

L’exploration de données^{[notes 1]}, connue aussi sous l'expression defouille de données,forage de données,prospection de données,data mining^[1], ou encoreextraction deconnaissances à partir de données, a pour objet l’extraction d'unsavoir ou d'une connaissance à partir de grandes quantités dedonnées, par des méthodes automatiques ou semi-automatiques^[2].

Elle utilise desalgorithmes issus de diverses disciplines scientifiques telles que lesstatistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir desdonnées. Ceux-ci permettent d'identifier des structures intéressantes ou des motifs selon des critères fixés au préalable, et d'en extraire un maximum deconnaissances.

L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problèmes très divers, allant de lagestion de la relation client à la maintenance préventive, en passant par la détection defraudes ou encore l'optimisation desites web. C'est aussi le mode de travail dujournalisme de données^[3].

L'exploration de données^[4] fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à l'informatique décisionnelle. Celle-ci permet de constater un fait, tel que lechiffre d'affaires, et de l'expliquer comme le chiffre d'affaires décliné par produits, tandis que l'exploration de données permet de classer les faits et de lesprévoir dans une certaine mesure^{[notes 2]} ou encore de les éclairer en révélant par exemple les variables ou paramètres qui pourraient faire comprendre pourquoi le chiffre d'affaires de tel point de vente est supérieur à celui de tel autre.

GRC/ analyse de la consommation	26,8	Banque	19,2	Santé,ressources humaines	13,1
Détection de fraude	12,7	Finance	11,3	Marketing direct,collecte de fonds	11,3
Télécommunication	10,8	Assurance	10,3	Sciences	10,3
Éducation	9,9	Publicité	9,9	Web	8,9
Médical	8,0	Produits manufacturés	8,0	Commerce de détail	8,0
Notation crédit	8,0
Commerce électronique	7,0
Moteur de recherche	6,6
Réseaux sociaux	6,6
Gouvernement,militaire	6,1
Investissement,bourse	5,6
Biotechnologie,génomique	5,6	Loisirs, musique	3,3	Sécurité,Anti-terrorisme	1,9
Voyages, Hôtels	1,4	Anti-spam	0,9	Politique sociale	0,9
Autres	11,7

Tâches	Charge	Importance dans le projet
Inventaire, préparation et exploration des données	38 %	3
Élaboration - Validation des modèles	25 %	2
Restitution des résultats	12 %	4
Analyse des premiers tests	10 %	3
Définition des objectifs	8 %	1
Documentation - présentations	7 %	5

v ·m Exploration de données
Type	Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes Fouille d'images Fouille audio
Généralités	Algorithmes Logiciels
Glossaire

v ·m Science des données
Concepts	MapReduce Apprentissage profond Extreme learning machine Apprentissage automatique Apprentissage supervisé Apprentissage non supervisé Réseau de neurones artificiels Visualisation de données Exploration de données Fouille de textes Segmentation Intelligence artificielle Big data Data lineage
Architecture	Hadoop Cloudera Hortonworks Apache Hive NoSQL NewSQL HBase Cassandra Apache Spark
Outils	Presto Apache Impala Pig Tableau Software Elasticsearch MongoDB Apache Mahout Scikit-learn TensorFlow Theano (logiciel) SPSS JMP Dataiku Apache MXNet ONNX Apache SINGA Keras
Programmation	R Ggplot2 SAS Python Julia SQL Scala
Statistique	ACP AFC ACM Méthode des moindres carrés Analyse des données Homoscédasticité Knn Cartes de Kohonen Statistique multivariée Théorème de Bayes Analyse de la variance Test du χ² Distance de Cook
Articles liés	Watson Teradata Glossaire de l'exploration de données Extract-transform-load Traitement analytique en ligne

v ·m Informatique théorique
Codage	Codage de l'information Compression de données Chiffrement Cryptanalyse Cryptographie Théorie de l'information
Modèles de calcul	Calculabilité Décidabilité et indécidabilité Ensemble récursif Problème de l'arrêt Ensemble récursivement énumérable Machine de Turing Thèse de Church Automate cellulaire Réseau de neurones artificiels Réduction polynomiale Problème NP-complet Principe de Church-Turing-Deutsch
Algorithmique	Algorithmique Algorithme glouton Algorithme probabiliste Algorithme génétique Complexité algorithmique Analyse d'algorithme Diviser pour régner Heuristique Programmation dynamique Géométrie algorithmique Algorithmes de tri Algorithmique du texte Exploration de données Science des données Apprentissage profond Test de primalité Structure de données Arbre enraciné Concurrence Parallélisme
Syntaxe	Réécriture Compilation Expression régulière Grammaire formelle Langage rationnel Ensemble rationnel Théorie des langages Théorie des automates Automate fini Automate sur les mots infinis Automate d'arbres Automate à pile Hiérarchie de Chomsky Linguistique informatique
Sémantique	Interprétation abstraite Méthodes formelles Vérification de modèles Sémantique des langages de programmation Sémantique dénotationnelle Sémantique axiomatique Sémantique opérationnelle
Logique mathématique	Assistant de preuve Calcul des prédicats Correspondance de Curry-Howard Fonction récursive Lambda-calcul Théorèmes d'incomplétude de Gödel Théorie des types
Mathématiques discrètes	Combinatoire Algorithme du simplexe Optimisation combinatoire Théorie des graphes Algorithmes de la théorie des graphes Recherche opérationnelle Théorie de la décision Analyse numérique

Movatterモバイル変換

Histoire

Applications industrielles

Par objectifs

Par secteurs d'activités

Recherche et groupes de réflexion

Projets, méthodes et processus

Méthode CRISP-DM

Autres process et méthodes

Maladresses à éviter

Planifier

Algorithmes

Méthodes descriptives

Définition

Exemples

Méthodes prédictives

Définition

Exemples

Qualité et performance

Outils informatiques

Logiciels

Informatique en nuage

Limites et problèmes

Limites

Problèmes

Fouilles spécialisées

Par types de données

Par environnements techniques

Par domaines d'activités

Dans le futur

Notes et références

Notes

Ouvrages spécialisés

Autres références

Voir aussi

Articles connexes

Statistiques

Intelligence artificielle

Aide à la décision

Applications

Bibliographie