Pour les articles homonymes, voirStatistique (homonymie).
Unestatistique est, au premier abord, le résultat d'une suite d'opérations appliquées à un ensemble denombres appelééchantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un ensemble de données. Dans le calcul de lamoyenne arithmétique, par exemple, l'algorithme consiste à calculer la somme de toutes les valeurs des données et à diviser par le nombre de données. La moyenne est ainsi une statistique. Pour être complet dans la description de l'utilisation d'une statistique, il faut décrire à la fois la procédure et l'ensemble de données.
De façon formelle, et bien que cela soit rarement utilisé, une statistique est unevariable aléatoire d'un type particulier. C'est en effet une fonction d'un vecteur composée de plusieurs observations d'une loi. Cela permet entre autres d'étendre aux statistiques un certain nombre de résultats sur les variables aléatoires, entre autres le caractèreindépendant de deux statistiques ou calculer des densités de statistiques.
Parmi les statistiques, un certain nombre ont des propriétés particulières qui servent entre autres eninférence statistique pour l'estimation statistique. Lesestimateurs servent, comme leur nom l'indique, à estimer des paramètres statistiques. L'optimisation de ces estimateurs peut également faire intervenir des statistiques auxiliaires vérifiant certaines propriétés et qui permettent de faire converger plus vite ces estimateurs.
Précisons tout d'abord que les définitions du terme statistique, qu'il corresponde à celui du domaine mathématique (statistique) ou à l'indicateur (objet de cet article), n'ont pas toujours été les mêmes en fonction des usages et des époques. Des statisticiens se posent le problème de« donner une définition […] pour chacune des acceptions dans lesquelles le mot statistique peut actuellement, compte tenu des usages actuels, être considéré comme correctement employé »[1]. En 1935, le statisticien Walter F. Willcox dénombrait entre 100 et 120 définitions différentes[2].
Donnons une définition « la plus classique »[Quoi ?] (en 1982) du terme statistique :
« La statistique ou les statistiques, au singulier ou au pluriel, désignant des ensembles cohérents de données numériques relatives à des groupes d'individus, au sens large[2]. »
Dans cette définition, on retrouve l'idée du sens commun que les statistiques sont des valeurs. Cela correspond à la définition de l'édition 1956 du Petit Larousse illustré :« tableau numérique d'un fait se prêtant à lastatistique : statistique de la natalité »[1] ou à celle du Larousse actuel (2012) :« ensemble des données numériques concernant un phénomène quelconque et dont on tire certaines conclusions »[3]. Par ces définitions, on retrouve le fait qu'une statistique provient d'un« dénombrement d'êtres, d'objets, de faits ou de mesures constituant les espèces d'un genre »[1] et le fait que les statistiques sont les résultats de ce dénombrement. Dans ce sens, on peut dire qu'une statistique est unindicateur ou unemesure (voir lewiktionnaire). On parle également destatistiques des États oustatistiques publiques[4].
De manière plus formelle, une statistique est unevariable aléatoire qui « représente » ou « approche » une propriété d'unéchantillon d'une population. Par exemple, lamoyenne d'âge des Français est une statistique.
Définition formelle[5] — On considère deuxespaces mesurables et. Une statistique est uneapplication mesurable de dans :
où est leproduit cartésien et est latribu produit.
De manière intuitive,X est l'ensemble des valeurs possibles pour un individu de la population concernée (les âges possibles dans l'exemple précédent), est l'ensemble de toutes les listes possibles den valeurs pour les individus d'un échantillon de taillen (les listes possibles desn âges des individus d'un échantillon),Y est l'ensemble des valeurs possibles de l'objet étudié (les valeurs possibles de la moyenne d'âge), et la statistiqueT est l'« application » ou « indicateur » ou « variable » étudié (lamoyenne desn personnes).
Dans ce sens une statistique est apparentée à unevariable aléatoire. On parle devariable statistique ou d'indicateur statistique.
En statistique inférentielle, un estimateur est une valeur calculée sur un échantillon et que l'on espère être une bonne évaluation de la valeur que l'on aurait calculée sur la population totale. On cherche à ce qu'un estimateur soit sans biais, convergent, efficace et robuste.
Si est un estimateur de, on dit qu'il est :
Ces deux propriétés sont essentielles et en règle générale on considère que tout estimateur devrait au moins vérifier ces deux propriétés pour qu'on puisse le considérer comme suffisamment précis. On peut de plus vouloir qu'un estimateur soit efficace (c'est-à-dire que l'estimation qu'il fournit varie le moins possible autour de la valeur à estimer) ou robuste (c'est-à-dire qu'il soit peu sensible aux variations d'une mesure sur les n). Ces deux propriétés sont détaillées plus bas dans les sections Optimisation d'estimateur et Robustesse.
Une propriété intéressante qu'une statistique peut avoir est son caractèreexhaustif. Une statistique S est dite exhaustive si laprobabilité conditionnelle d'observer X sachant S(X) est indépendante de. Cela peut se traduire par la formule suivante :
Cette définition n'étant pas forcément très simple à manier en pratique, on préfère souvent utiliser la caractérisation de factorisation desstatistiques exhaustives. Ces statistiques exhaustives sont particulièrement importantes car elles fournissent toute l'information qu'il est possible de récupérer sur le paramètre à partir d'une série d'observations. Une statistique exhaustive apporte donc autant d'information que l'ensemble du vecteur des observations x et l'on ne peut pas récupérer plus d'information que celle contenue dans une statistique exhaustive. Cela se formalise grâce à l'information de Fisher. Si est l'information de Fisher apportée par une statistique S et I l'information du modèle :
Avec un cas d'égalité uniquement dans le cas d'une statistique exhaustive. Pour le cas d'un modèle à un seul paramètre, cette inégalité est une inégalité classique. Pour le cas des modèles multiparamétrés, cette inégalité est une inégalité au sens de larelation d'ordre partielle introduite par : si B-A est unematrice symétrique positive.
L'optimisation d'estimateurs peut se faire grâce à l'usage de statistiques exhaustives. Une méthode possible pour trouver de « bons » estimateurs est de prendre un premier estimateur sans biais de la valeur à estimer sans trop chercher à l'optimiser. Ensuite on optimise cet estimateur en se servant de statistiques exhaustives.
Cette méthode repose principalement sur deux théorèmes : lethéorème de Rao-Blackwell qui fournit un deuxième estimateur de meilleure qualité appelé estimateur augmenté et lethéorème de Lehmann-Scheffé qui donne des conditions suffisantes pour que cet estimateur soit optimal.
Si est un estimateur sans biais et S une statistique exhaustive, alors l'estimateur augmenté a une variance plus faible que l'espérance de départ et est également sans biais. L'estimateur augmenté est donc toujours plus précis que l'estimateur initial si on l'augmente d'une statistique exhaustive.
Dans le cas multiparamétrique où l'estimateur et le paramètre sont de dimension supérieure à 1, on considère lamatrice de variance-covariance. L'erreur quadratique du nouvel estimateur est toujours plus faible que celle de l'ancien estimateur et ce quelle que soit la norme utilisée. Même si les différentes composantes ne sont pas normées de la même façon, l'estimateur augmenté est toujours préférable.
On considère donc n variables aléatoires distribuées selon deslois de Poisson de paramètre et l'on cherche à estimer. On peut montrer assez facilement en considérant lecritère de factorisation que est une statistique exhaustive.Pour montrer l'intérêt de ce théorème, on prend un estimateur très grossier de: qui vaut 1 si et 0 sinon. Cet estimateur ne prend en compte qu'une seule valeur de X alors qu'on en dispose de n et il ne donne pour résultat que 0 ou 1 alors que la valeur de appartient à l'intervalle ]0,1] et ne vaut sans doute pas 1 (si c'était le cas vaudrait 0 de façon déterministe et on s'en serait aperçu en regardant les données). Pourtant, malgré la grossièreté de cet estimateur, l'estimateur obtenu est très bon et on peut même montrer qu'il est optimal. L'estimateur augmenté vaut :
On peut montrer que :
Et avec l'indépendance de:
Si suit uneloi de Poisson de paramètre alors lafonction génératrice vaut. Avec les propriétés de la fonction génératrice on en déduit que la somme de n variables suivant des lois de Poisson de paramètre est une loi de Poisson de paramètre. On en déduit les probabilités et suit uneloi binomialeB(S, 1/n). La valeur en k=0 nous donne l'estimateur.δ1 est tout comme de δ0 un estimateur de mais à l'avantage d'être beaucoup plus précis grâce à l'application du théorème de Rao-Blackwell. En fait, on montre avec lethéorème de Lehmann-Scheffé qu'il est même optimal.
On remarquera entre autres que est un estimateur optimal de (cela se montre de la même manière) mais que l'estimateur pour est différent de. En fait, on peut même montrer que bien que soit un estimateur convergent de c'est un estimateur de relativement mauvaise qualité car il est biaisé et qu'en l'estimant de la sorte on fait une erreur systématique sur l'estimation. De façon générale, il peut être intéressant pour estimer de construire un estimateur spécifique plutôt que de calculer la valeur prise par f par l'estimateur de.
On dit qu'une statistique est complète (on dit parfois totale) si : implique f=0 presque partout.
Le théorème de Lehmann-Scheffé a une importance particulière en statistiques puisqu'il permet de trouver des estimateurs optimaux qui ne peuvent pas être améliorés en termes de précision car ils atteignent laborne FDCR. De tels estimateurs n'existent pas forcément mais si l'on dispose d'une statistique qui soit à la fois complète et exhaustive et d'un estimateur qui soit sans biais alors l'estimateur augmenté est optimal et l'on ne peut pas trouver de meilleur estimateur.
Montrons par exemple que pour uneloi exponentielle de paramètres la moyenne des observations est le meilleur estimateur possible pour. Si l'on a un vecteur des observations X de taille n avec les de loi exponentielle on commence par montrer que est une statistique exhaustive et complète.
Pour montrer que cette statistique estexhaustive cela se fait relativement simplement grâce au théorème de factorisation. Pour montrer le fait que cette statistique est complète il faut utiliser l'injectivité de la transformée de Laplace.
Pour montrer que c'est bien une statistique complète il faut vérifier que :
implique bien que f=0 presque partout. Avec la définition d'uneloi gamma s(x) suit une loi gamma de paramètre on a donc en remplaçant par la densité d'une loi gamma :
d'où : Par injectivité de la transformée de Laplace on en déduit donc que presque partout puis que f(y)=0 presque partout donc la statistique est bien complète.Une fois montré que la statistique S est à la fois complète et exhaustive l'estimateur de la moyenne étant égal à l'estimateur augmenté on en déduit immédiatement grâce au théorème de Lehmann-Scheffé que cet estimateur est optimal au sens où il atteint laborne FDCR et que l'on ne peut en trouver de meilleur. L'estimateur de la moyenne est l'estimateur le plus précis que l'on puisse trouver pour le paramètre d'une loi exponentielle.
Sur les autres projets Wikimedia :