Movatterモバイル変換


[0]ホーム

URL:


Aller au contenu
Wikipédial'encyclopédie libre
Rechercher

Statistique

Un article de Wikipédia, l'encyclopédie libre.
Page d’aide sur l’homonymie

Pour les articles homonymes, voirStatistique (homonymie).

Statistique
Partie de
Pratiqué par
Champs
Statistique descriptive
statistique inférentielle(d)Voir et modifier les données sur Wikidata
Objets
Histoire

modifier -modifier le code -modifier WikidataDocumentation du modèle

Lastatistique ou lesstatistiques[1] est la discipline qui étudie des phénomènes à travers la collecte dedonnées, leur traitement, leur analyse, l'interprétation desrésultats et leurprésentation afin de rendre cesdonnées compréhensibles par tous. C'est à la fois une branche des mathématiques appliquées[2], uneméthode et un ensemble detechniques.

La statistique est un domaine desmathématiques et de plus en plus, elle fait partie de ce que l'on appelle aujourd'hui lascience des données (enanglais :Data Science). L'analyse applique des lois mathématiques plus générales (ensembles, groupes, inclusion, exclusion). Elle possède une composante théorique ainsi qu'une composante appliquée. La composante théorique s'appuie sur lathéorie des probabilités et forme avec cette dernière, l'analyse de phénomènes aléatoires. La statistique appliquée est utilisée dans presque tous les domaines de l'activité humaine[3] :ingénierie,management,économie,biologie,informatique, la physique (fondamentaux de laphysique quantique, par exemple). La statistique utilise des règles et des méthodes sur la collecte des données, pour que celles-ci puissent être correctement interprétées, souvent comme composante d'uneaide à la décision. Lestatisticien a pour profession la mise au point d'outils statistiques, dans le secteur privé ou le secteur public, et leur exploitation généralement dans un domaine d'expertise.

Étymologie

[modifier |modifier le code]

D'usage généralisé en français vers 1785, dérivé de l’italienstatista (« homme d’État, statiste »)[4], emprunté à l'allemandStatistik, forgé ou repris, vers 1749, par l'économisteGottfried Achenwall : la statistique représentant pour lui l'ensemble des connaissances que doit posséder un homme d’État. C'est son ouvrageAperçu sur la gestion étatique des empires et républiques européens les plus distingués à l'usage des cours universitaires (Abriss der neuesten Staatswissenschaft der vornehmsten Europäischen Reiche und Republiken zum Gebrauch in seinen Akademischen Vorlefungen) paru en 1749[5] qui conféra son rayonnement à la notion.

Histoire

[modifier |modifier le code]
Article détaillé :Histoire de la statistique.

Bien que le nom destatistique soit relativement récent – on attribue en général l'origine du nom auXVIIIe siècle, de l'allemandStaatskunde (connaissance ou science de l'État) – cette activité semble exister dès la naissance des premières structures sociales. D'ailleurs, les premiers textes écrits retrouvés sont des recensements du bétail, des informations sur son cours et des contrats divers. On a ainsi tracé desrecensements en Chine ou en Égypte, auXVIIIe siècle av. J.-C. Ce système de recueil de données se poursuit jusqu'auXVIIe siècle. EnEurope, le rôle de collecteur de données est souvent tenu par desguildes marchandes, puis par les intendants de l'État[6].

Ce n'est qu'auXVIIIe siècle que l'on voit apparaître le rôle prévisionnel des statistiques, avec la construction des premières tables demortalité.Antoine Deparcieux écrit en1746 l'Essai sur les probabilités de la durée de vie humaine. Elles vont d'abord servir aux compagnies d'assurances sur la vie, qui se créent alors[7].

La statistique est aussi un appui pour l'histoire prospective ou rétrospective, de ladémographie notamment. Ainsi en 1842, le Baron de Reiffenberg présentait-il[8] à l'Académie ses calculs rétrospectifs de population chez des peuples gaulois, d'après des données chiffrées laissées parJules César dans sesCommentaires sur la Guerre des Gaules (De bello Gallico, v.).

Les statistiques mathématiques s'appuyaient sur les premiers travaux concernant lesprobabilités, développés parFermat etPascal. C'est probablement chezThomas Bayes que l'on vit apparaître un embryon de statistique inférentielle.Condorcet etLaplace parlaient encore deprobabilité, là où l'on parlerait aujourd'hui defréquence. Mais c'est àAdolphe Quetelet que l'on doit l'idée que la statistique est une science s'appuyant sur lesprobabilités.

LeXIXe siècle voit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation desdonnées sont édictées. La première application industrielle des statistiques eut lieu lors durecensement américain de1890, qui mit en œuvre lacarte perforée inventée par le statisticienHerman Hollerith. Celui-ci avait déposé unbrevet aubureau américain des brevets.

AuXXe siècle, ces applications industrielles se développèrent, d'abord auxÉtats-Unis, qui étaient en avance sur lessciences de gestion, puis seulement après laPremière Guerre mondiale enEurope. Le régimenazi employa des méthodes statistiques à partir de1934 pour leréarmement. EnFrance, on était moins au fait de ces applications.

L'application industrielle des statistiques enFrance se développe avec la création de l'Insee, qui remplaça le Service National des Statistiques créé parRené Carmille.

L'avènement de l'informatique, dans lesannées 1940 (auxÉtats-Unis), puis en Europe (dans lesannées 1960), permit de traiter un plus grand nombre dedonnées, mais surtout de croiser entre elles des séries dedonnées de types différents. C'est le développement de ce qu'on appelle l'analyse multidimensionnelle. Au cours du siècle, plusieurs courants de pensée vont s'affronter :

  • les objectivistes ou fréquentistes, qui pensent que les probabilités fournissent un modèle permettant d'idéaliser la distribution en fréquence, et que là s'arrête leur rôle ;
  • les subjectivistes, qui voient les probabilités comme un moyen de mesurer la confiance que l'on peut avoir dans une prévision ;
  • les néo-bayesiens, qui soutiennent que lesdonnées statistiques seules ne permettent pas de donner le modèle probabiliste idéalisant la distribution en fréquence : il est nécessaire de proposer au départ une forme générale du modèle.

Définition

[modifier |modifier le code]

Commençons par préciser que donner une définition de la statistique n'est pas chose facile : comme expliqué dans la section précédente, les définitions de la statistique évoluent en fonction de l'époque ou de son utilisation. En 1935, le statisticien Walter F. Willcox dénombrait entre 100 et 120 définitions différentes[9].

« Parmi les thèmes à propos desquels les statisticiens ne sont pas d'accord, se trouve la définition de leur science[10]. »

— Maurice Kendall

Donnons en premier lieu, la définition la plus classique actuellement utilisée, au moins depuis 1982 :« La statistique est l'ensemble des méthodes qui ont pour objet la collecte, le traitement et l'interprétation de données d'observation relatives à un groupe d'individus ou d'unités. » Par cette définition, la statistique apparaît comme une science autonome, orientée vers les données, comme la physique l'est vers la matière et la biologie vers la vie. Mais comme elle s'appuie sur lathéorie des probabilités, étant elle-même une science de l'aléatoire, (voirInterconnexions entre la théorie des probabilités et la statistique pour plus de détails), elle apparaît souvent, en particulier d'un point de vue universitaire, comme une branche des mathématiques appliquées. Aujourd'hui, elle s'inscrit dans un champ disciplinaire plus transverse que les anglo-saxons nomment « Data Science » et dans lequel par ailleurs, l'informatique a elle aussi une place importante. Les différents aspects de la statistique sont regroupés en différents domaines ou concepts : lastatistique descriptive, plus couramment appelée aujourd'hui statistique exploratoire, l'inférence statistique, lastatistique mathématique, l'analyse des données, l'apprentissage statistique, etc.

John Tukey prétend qu'il y a deux approches en statistiques, entre lesquelles on jongle constamment : les statistiquesexploratoires et les statistiquesconfirmatoires (exploratory and confirmatory statistics) :

  • on explore d'abord les données pour avoir une idée experte du fonctionnement du système qu'elles représentent, ce qui permet de formuler des hypothèses cognitives sur les phénomènes mis en jeu, de leurspropriétés ;
  • puis à partir de ces hypothèses de comportement, on élabore des expériences permettant de les confirmer ou de les infirmer en recourant à d'autres techniques statistiques.

Remarquons que la statistique est parfois notée[11] « la Statistique » (avec une majuscule)[source insuffisante], ce qui permet de différencier ses applications mathématiques avec unestatistique (avec une minuscule). Le pluriel est également souvent utilisé pour la désigner : « les statistiques »[1].

Domaines d'application

[modifier |modifier le code]

En 1982, le statisticien Pierre Dagnelie propose trois grandes tendances de la statistique[9] :

  • la statistique qualifiée d'« administrative » ou « gouvernementale » faite dans les instituts de statistique à propos de grands ensembles de données, ;
  • la statistique dite « mathématique » ou « universitaire » faite avec peu de données et qui a pour but la novation ;
  • enfin la statistique « appliquée » ou « de terrain » faite dans les instituts de sondage d'opinion ou les facultés de médecine pour des problèmes concrets.

Dans la pratique, les méthodes et outils statistiques sont utilisés dans des domaines tels que :

Statistique descriptive et statistique mathématique

[modifier |modifier le code]

Le but de la statistique est d'extraire des informations pertinentes d'une liste de nombres difficile à interpréter par une simple lecture. Deux grandes familles de méthodes sont utilisées selon les circonstances. Rien n'interdit de les utiliser en parallèle dans un problème concret mais il ne faut pas oublier qu'elles résolvent des problèmes de natures totalement distinctes. Selon une terminologie classique, ce sont lastatistique descriptive et lastatistique mathématique. Aujourd'hui, il semble que des expressions commeanalyse des données etstatistique inférentielle soient préférées, ce qui est justifié par le progrès des méthodes utilisées dans le premier cas.

Considérons par exemple les notes globales à un examen. Il peut être intéressant d'en tirer unevaleur centrale qui donne une idée synthétique sur le niveau des étudiants. Celle-ci peut être complétée par unevaleur de dispersion qui mesure, d'une certaine manière, l'homogénéité du groupe. Si on veut une information plus précise sur ce dernier point, on pourra construire unhistogramme ou, d'un point de vue légèrement différent, considérer lesdéciles. Ces notions peuvent être intéressantes pour faire des comparaisons avec les examens analogues passés les années précédentes ou en d'autres lieux. Ce sont les problèmes les plus élémentaires de l'analyse des données qui concernent unepopulation finie. Les problèmes portant sur des statistiques multidimensionnelles nécessitent l'utilisation de l'algèbre linéaire. Indépendamment du caractère, élémentaire ou non, du problème il s'agit deréductions statistiques de données connues dans lesquelles l'introduction des probabilités améliorerait difficilement l'information obtenue. Il est raisonnable de regrouper ces différentes notions :

Un changement radical se produit lorsque les données ne sont plus considérées comme une information complète à décrypter selon les règles de l'algèbre mais comme une information partielle sur une population plus importante, généralement considérée comme unepopulation infinie. Pourinduire des informations sur la population inconnue il faut introduire la notion deloi de probabilité. Les données connues constituent dans ce cas uneréalisation d'unéchantillon, ensemble devariables aléatoires supposées indépendantes (voirLoi de probabilité à plusieurs variables). La théorie des probabilités permet alors, entre autres opérations :

  • d'associer les propriétés de l'échantillon à celles qui sont prêtées à la loi de probabilité, inconnue en toute rigueur, c'est l'échantillonnage ;
  • de déduire inversement les paramètres de la loi de probabilité des informations que donne l'échantillon, c'est l'estimation ;
  • de déterminer unintervalle de confiance qui mesure la validité de l'estimation ;
  • de procéder à destests d'hypothèse, le plus utilisé étant letest du χ² pour mesurer l'adéquation de la loi de probabilité choisie à l'échantillon utilisé ;
  • etc.

La démarche statistique

[modifier |modifier le code]

Recueil des données

[modifier |modifier le code]

L'enquête statistique est toujours précédée d'une phase où sont déterminés les différents caractères à étudier.

L'étape suivante consiste à choisir la population à étudier. Il se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens large : cela peut être un sondage d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.

Article détaillé :Plan d'expérience.

Que ce soit pour un recueil total (recensement) ou partiel (sondage), des protocoles sont à mettre en place pour éviter les erreurs de mesures qu'elles soient accidentelles ou répétitives (biais).

Articles détaillés :Erreur (métrologie) etErreur statistique.

Lepré traitement des données est extrêmement important, en effet, une transformation des données initiales (un passage au logarithme, par exemple), peuvent considérablement faciliter les traitements statistiques suivants.

Traitement des données

[modifier |modifier le code]
Article détaillé :Statistique descriptive.

Le résultat de l'enquête statistique est une série de données quantitatives (tailles, salaires) ou de données qualitatives (langues parlées, marques préférées). Pour pouvoir les exploiter, il va être nécessaire d'en faire un classement et un résumé visuel ou numérique. Il sera parfois nécessaire d'opérer unecompression de données. C'est le travail de la statistique descriptive. Il sera différent selon que l'étude porte sur une seule ou sur plusieurs variables.

Étude d'une seule variable

[modifier |modifier le code]

Le regroupement des données, le calcul des effectifs, la construction de graphiques permettent un premier résumé visuel du caractère statistique étudié. Dans le cas d'un caractère quantitatif continu, l'histogramme en est la représentation graphique la plus courante.

Article détaillé :Représentations graphiques de données statistiques.

Les valeurs numériques d'un caractère statistique se répartissent dansR{\displaystyle \mathbb {R} }, il est nécessaire de définir leurs positions. En statistiques, on est en général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voire milliers de données, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques. Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion. Certaines d'entre elles (comme lavariance) sont élaborées pour permettre une exploitation plus théorique des données (voirInférence statistique).

Articles détaillés :Critères de position etCritères de dispersion.

On peut aussi chercher à comparer deux populations. On s'intéressera alors plus particulièrement à leurs critères de position, de dispersion, à leurboîte à moustaches ou à l'analyse de la variance.

Étude de plusieurs variables

[modifier |modifier le code]

Les moyens informatiques permettent aujourd'hui d'étudier plusieurs variables simultanément. Le cas de deux variables va donner lieu à la création d'un nuage de points, d'une étude decorrélation éventuelle entre les deux phénomènes ou d'une étude derégression linéaire.

Mais on peut rencontrer des études sur plus de deux variables : c'est l'analyse multidimensionnelle dans laquelle on va trouver l'analyse en composantes principales, l'analyse en composantes indépendantes, larégression linéaire multiple et l'exploration de données (appelée aussi « knowledge discovery » ou « data mining »). Aujourd'hui, l'exploration de données s'appuie, entre autres, sur la statistique pour découvrir des relations entre les variables de très vastes bases de données. Les avancées technologiques (augmentation de la fréquence des capteurs disponibles, des moyens de stockage, et de la puissance de calcul) donnent à l'exploration de données, un réel intérêt.

Interprétation et analyse des données

[modifier |modifier le code]
Article détaillé :Inférence statistique.

L'inférence statistique a pour but de faire émerger des propriétés d'un ensemble de variables connues uniquement à travers quelques-unes de ses réalisations (qui constituent un échantillon de données).

Elle s'appuie sur les résultats de lastatistique mathématique, qui applique des calculs mathématiques rigoureux concernant la théorie des probabilités et la théorie de l'information aux situations où on n'observe que quelques réalisations (expérimentations) du phénomène à étudier.

Sans lastatistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'unindicateur. C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise lebiais, l'incertitude et autres caractéristiques statistiques. On cherche en général à ce que l'estimateur soit sans biais, convergent (ou consistant) et efficace.

On peut aussi émettre des hypothèses sur la loi générant le phénomène général, par exemple « la taille des enfants de 10 ans en France suit-elle uneloi gaussienne ? ». L'étude de l'échantillon va alors valider ou non cette hypothèse : c'est ce qu'on appelle les tests d'hypothèses. Lestests d'hypothèses permettent de quantifier la probabilité avec laquelle des variables (connues seulement à partir d'un échantillon) vérifient une propriété donnée.

Enfin, on peut chercher à modéliser un phénomènea posteriori. La modélisation statistique doit être différenciée de la modélisation physique. Dans le second cas, des physiciens (c'est aussi vrai pour des chimistes, biologistes, ou tout autre scientifique), cherchent à construire un modèleexplicatif d'un phénomène, qui est soutenu par une théorie plus générale décrivantcomment les phénomènes ont lieu en exploitant le principe decausalité. Dans le cas de la modélisation statistique, le modèle va être construit à partir des données disponibles, sans aucuna priori sur les mécanismes entrant en jeu. Ce type de modélisation s'appelle aussimodélisation empirique. Compléter une modélisation statistique par des équations physiques (souvent intégrées dans lespré traitements des données) est toujours positif.

Un modèle est avant tout un moyen de relier desvariables à expliquerY{\displaystyle Y} à desvariables explicativesX{\displaystyle X}, par une relation fonctionnelle :

Y=F(X){\displaystyle Y=F(X)}

Les modèles statistiques peuvent être regroupés en grandes familles (suivant la forme de la fonctionF{\displaystyle F}):

  • les modèles linéaires ;
  • les modèles non linéaires ;
  • les modèles non paramétriques.

Les modèles bayésiens (du nom deThomas Bayes) peuvent être utilisés dans les trois catégories.

Statistique mathématique

[modifier |modifier le code]
Article détaillé :Statistique mathématique.

Cette branche des mathématiques, très liée aux probabilités, est indispensable pour valider les hypothèses ou les modèles élaborés dans la statistique inférentielle. La théorie mathématiques desprobabilités formalise les phénomènes aléatoires. Les statistiques mathématiques se consacrent à l'étude de phénomènes aléatoires que l'on connaît via certaines de sesréalisations.

Par exemple, pour une partie de dés à six faces :

Une fois la règle établie, elle peut être utilisée enstatistique inférentielle.

Statistique en sciences sociales

[modifier |modifier le code]

Les statistiques sont utilisées dans la plupart dessciences sociales. Elles présentent une méthodologie commune avec toutefois certaines spécificités selon la complexité de l'objet d'étude.

En sociologie

[modifier |modifier le code]

L'analyse géométrique des données (analyse factorielle,classification ascendante hiérarchique) est très souvent utilisée par les sociologues quantitativistes[12]. Ces méthodes permettent de dresser des profils synthétiques prenant en compte un ensemble de variables quantitatives (revenu, âge, etc.) et/ou qualitatives (sexe, catégorie socio-professionnelle, etc.). Il est par exemple possible de déterminer dessociostyles.

Enseignement

[modifier |modifier le code]
Cette section est vide, insuffisamment détaillée ou incomplète.Votre aide est la bienvenue !Comment faire ?

Afrique

[modifier |modifier le code]
Article détaillé :Études en statistique en Afrique.
Cette section est vide, insuffisamment détaillée ou incomplète.Votre aide est la bienvenue !Comment faire ?

Notes et références

[modifier |modifier le code]
  1. a etbHaccounRobert et DenisCousineau,Statistiques : concepts et applications, Presses de l'université de Montréal,, 412 p.(ISBN 978-2-7606-2014-8,lire en ligne).
  2. (en) GHENKIN et ASHANANIN, « Asymptotic behavior of solutions of the Cauchy problem for Burgers type equations »,Journal de Mathématiques Pures et Appliqués,vol. 83,no 12,‎,p. 1457–1500(ISSN 0021-7824,DOI 10.1016/s0021-7824(04)00111-4,lire en ligne, consulté le)
  3. Saporta 2006,p. 16
  4. [1].
  5. [2].
  6. ThierryMartin,« Rationalité de l’action et arithmétique politique à l’aube du XVIIIe siècle », dans Thierry Martin et Michèle Virol (dir.),Vauban, architecte de la modernité ?, Besançon, Presses universitaires de Franche-Comté,(ISBN 978-2-84867-232-8,DOI 10.4000/books.pufc.25907Accès libre,lire en ligne),p. 15–24
  7. Almanach des Français, traditions et variations, p. 194.
  8. Essai sur la statistique ancienne de la Belgique. I. Population. - II. Architecture. - III. Mobilier, Costumes. Par le Baron de Reiffenberg, Seconde partie séance de l'académie du 3 novembre 1832, Bruxelles, PDF, 142 p.
  9. a etbPierreDagnelie, « Diversité et unité de la statistique »,Journal de la société statistique de Paris,vol. 123,no 2,‎,p. 86-92(lire en ligne)
  10. J.Torrens-Ibern, « Variété. Qu'est-ce que la statistique ? »,Journal de la société statistique de Paris,vol. 97,‎,p. 289-296(lire en ligne)
  11. M.Dumas, « Discussion sur la définition du mot « statistique » »,Journal de la société statistique de Paris,vol. 97,‎,p. 253-258(lire en ligne).
  12. Frédéric Lebaron, « L’analyse géométrique des données dans un programme de recherche sociologique: Le cas de la sociologie de Bourdieu »,Revue MODULAD,‎(lire en ligne)

Voir aussi

[modifier |modifier le code]

Sur les autres projets Wikimedia :

Unecatégorie est consacrée à ce sujet :Statistiques.

Bibliographie

[modifier |modifier le code]

Articles connexes

[modifier |modifier le code]

Liens externes

[modifier |modifier le code]

v ·m
Théorie des probabilités
Bases théoriques
Principes généraux
Convergence de lois
Calcul stochastique
Lois de probabilité
Lois continues
Lois discrètes
Mélange entre statistiques et probabilités
Interprétations de la probabilité
Théorie des statistiques
Statistiques descriptives
Bases théoriques
Tableaux
Visualisation de données
Paramètres de position
Paramètres de dispersion
Paramètres de forme
Statistiques inductives
Bases théoriques
Tests paramétriques
Tests non-paramétriques
Application
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Statistique&oldid=224200833 ».
Catégories :
Catégories cachées :

[8]ページ先頭

©2009-2025 Movatter.jp