Movatterモバイル変換

Valeur p

Un article de Wikipédia, l'encyclopédie libre.

Dans untest statistique, lavaleur-p (en anglaisp-value pourprobability value), parfois aussi appeléep-valeur ouprobabilité critique, est la probabilité pour unmodèle statistique donné sous l'hypothèse nulle d'obtenir une valeur au moins aussi extrême que celle observée.

L'usage de la valeur-p est courant dans de nombreux domaines de recherche comme laphysique, lapsychologie, l'économie et lessciences de la vie.

Principe général

[modifier |modifier le code]

La valeur-p est utilisée pour quantifier lasignificativité statistique d'un résultat dans le cadre d'unehypothèse nulle. L'idée générale est de déterminer si l'hypothèse nulle est ou n'est pas vérifiée car dans le cas où elle le serait, le résultat observé serait fortement improbable. Il s'agit à ce titre d'une extension du principe depreuve par l'absurde.

Un résultat statistiquement significatif est un résultat qui serait improbable si l'hypothèse nulle (qui représente en général la norme) était vérifiée. Il en résulte donc que l'hypothèse nulle ne s'applique pas au résultat observé et donc que le cas étudié diffère de manière notable de la norme et ainsi présente un intérêt particulier.

Moralement, à titre d'exemple, imaginons que l'on connaisse la loi répartissant le poids des individus d'une population en surpoids et qu'on teste un traitement amincissant sur un groupe de personnes. On évalue le poids moyen du groupe après le traitement et on vérifie avec la loi initiale si le résultat est probable ou improbable. S'il est improbable, le traitement est efficace.

En termes statistiques, la valeur-p s'interprète comme la probabilité d'un résultat au moins aussi « extrême » que le résultat observé, « sachant l'hypothèse nulle », ou si l'on reprend la notation de probabilité type en appelantx le résultat observé etH₀ l'hypothèse nulle on peut définir de manière naïve la valeur-p^{[note 1]} :

p=\mathbb {P} (x|H_{0}).

Le résultat d'une valeur-p « improbable » (suivant des conventions à adopter) implique que l'expérience observée ne suit pas l'hypothèse nulle mais ne permet passtricto sensu de pousser plus loin l'interprétation. La valeur-p ne doitpas être interprétée comme une probabilité sur l'hypothèse nulle etne correspond pas, en reprenant la notation précédente, àP(H₀|x) contrairement à une interprétation erronée parfois donnée.

Pour un test unilatéral à droite, si X est la variable aléatoire et $x_{obs}$ la valeur observée dans les données, alors la p-valeur est : $p=P(X>x_{obs})$ .

Pour un test unilatéral à gauche, si X est la variable aléatoire et $x_{obs}$ la valeur observée dans les données, alors la p-valeur est : $p=P(X<x_{obs})$ .

Pour un test bilatéral, si X est la variable aléatoire et $x_{obs}$ la valeur observée dans les données, alors la p-valeur est : $p=2\min(P(X<x_{obs}),P(X>x_{obs}))$ . Dans le cas particulier d'une fonction de densité de X paire, on peut simplement écrire $p=2P(X>|x_{obs}|)$ comme indiqué dans la figure d'illustration.

Usage

[modifier |modifier le code]

Ce nombre est utilisé enstatistiques inférentielles pour conclure sur le résultat d’untest statistique. La procédure généralement employée consiste à comparer la valeur-p à un seuil préalablement défini (traditionnellement 5 %). Si la valeur-p est inférieure à ce seuil, on rejette l'hypothèse nulle en faveur de l’hypothèse alternative et le résultat du test est déclaré « statistiquement significatif »^[1]. Dans le cas contraire, si la valeur-p est supérieure au seuil, on ne rejette pas l’hypothèse nulle et on ne peut rien conclure quant aux hypothèses formulées.

Cette utilisation de la valeur-p est remise en question (voir la section « Critiques »), car elle ne permet pas de répondre à la question à laquelle elle est censée donner une réponse^[2]^,^[3]^,^[4]^,^[5]^,^[6]^,^[7]^,^[8].

Conventions sur la probabilité

[modifier |modifier le code]

Approche classique

[modifier |modifier le code]

Le statisticienRonald Fisher a introduit les termes designificativité, d’hypothèse nulle, et l’utilisation de la valeur-p. Il rejetait toutefois la notion depuissance statistique : selon lui, l’hypothèse nulle ne peut jamais être acceptée, mais peut seulement être rejetée par letest statistique. Dans cette approche, la valeur-p est considérée comme une mesure du degré avec lequel les données plaident contre l’hypothèse nulle. Les seuils suivants sont généralement pris pour référence :

$p\leqslant 0{,}01$ : très forte présomption contre l'hypothèse nulle ;
$0{,}01<p\leqslant 0{,}05$ : forte présomption contre l'hypothèse nulle ;
$0{,}05<p\leqslant 0{,}1$ : faible présomption contre l'hypothèse nulle ;
$0{,}1<p$ : pas de présomption contre l'hypothèse nulle.

Si ces valeurs sont classiques et d'usage courant, elles restent toutefois entièrement arbitraires et forment ainsi une convention qui n'est pas acceptée dans certains domaines demandant des précisions très élevées.

En sciences exactes

[modifier |modifier le code]

Ensciences exactes, les scientifiques ont longtemps requis unesignification statistique correspondant à un écart d'au moins 3 écarts types pour considérer un résultat expérimental comme une possible découverte, ce qui correspond à une valeur-p au plus égale à 2,7 × 10⁻³, soit environ −25,7 décibans)^[9]. Mais le grand nombre defaux positifs, c'est-à-dire selon la définition ci-dessus, le grand nombre d'erreurs de première espèce, a poussé lacommunauté scientifique à requérir unesignification statistique correspondant à un écart d'au moins 5 écarts types, ce qui correspond à une valeur-p au plus égale à 5,7 × 10⁻⁷^[10], soit environ −62,5 décibans (dans le cas où l'écart est possible des deux côtés, c'est-à-dire un effet non nul soit positif soit négatif) ou 2,9 × 10⁻⁷ (pour un seul côté).

On consultera avec intérêtla note récente sur le sujet^{[C'est-à-dire ?]}^[11]. L'auteur étend aussi la discussion de la simple signifiance statistique au « niveau de surprise » et à l'« impact » de la découverte putative (table 2), ou, comme le disait déjàLaplace, « Plus un fait est extraordinaire, plus il a besoin d'être appuyé de fortes preuves »^[12]. En cela, on retrouve des concepts de l'évaluation des risques, où la matrice de criticité combine la probabilité d'apparition et la gravité du phénomène considéré.

Approche Neyman-Pearson

[modifier |modifier le code]

Le mathématicien polonaisJerzy Neyman et le statisticien britanniqueEgon Sharpe Pearson ont développé un cadre théorique alternatif. Dans leur approche, les taux d’erreurs doivent être définis avant la collecte des données :

α, le taux d’erreur de première espèce (rejeter à tort l'hypothèse nulle) ;
β, le taux d’erreur de seconde espèce (accepter à tort l’hypothèse nulle).

Lapuissance statistique du test, égale à 1 - β, est ainsi contrôlée et définie à l’avance. Il faut ensuite calculer le nombre de données à collecter pour atteindre une telle puissance statistique, ce qui nécessite d’estimer lavariance des données : pour ce faire, on se base sur des études précédentes ou sur une étude pilote.

Lorsque les données sont collectées, la valeur-p est calculée et la décision suivante est prise :

si elle est inférieure à α, on rejette l’hypothèse nulle au profit de l’hypothèse alternative ;
si elle est supérieure à α, on rejette l’hypothèse alternative au profit de l’hypothèse nulle.

La décision doit être prise de manière mécanique à la fin de la collecte des données. La notion de significativité est rejetée : si le seuil défini à l’avance est de 0,05, une valeur-p de 0,001 n’est pas considérée comme plus significative qu’une valeur-p de 0.049, dans les deux cas la décision prise est la même.

Cette procédure permet théoriquement de prendre des décisions sur l’interprétation des données tout en contrôlant adéquatement les taux d’erreurs à long terme. Toutefois, la validité de ces taux d’erreurs dépend du strict respect de la procédure : le recueil de nouvelles données si la valeur-p est « presque significative », ou bien le calcul de la valeur-p avant le recueil de l’intégralité des données et l’arrêt de l’expérience si celle-ci est trouvée significative invalident les taux d’erreur. Ainsi, le contrôle effectif des taux d’erreurs dépend de ce que feraient réellement les chercheurs lorsqu’ils sont confrontés à des résultats qu’ils n’attendaient pas, pas de ce qu’ils disent qu’ils feraient, ni même de ce qu’ils pensent qu’ils feraient. Par ailleurs, si les taux d’erreur à long terme sont connus, la probabilité de défendre la mauvaise hypothèse à la suite du test statistique dans cette expérience particulière n’est pas connue. Ces limites ont conduit au développement del’approche bayésienne^[13].

Erreur commune

[modifier |modifier le code]

La valeur-p n'est pas la probabilité que l'hypothèse de test soit vraie. La valeur-p indique dans quelle mesure les données sont conformes à l'hypothèse de test et à ses hypothèses, c'est-à-dire le modèle statistique sous-jacent^[14].

Exemples : trucage d'une pièce de monnaie

[modifier |modifier le code]

Supposons un jeu depile ou face. L'hypothèse nulleH₀ est que la pièce est équilibrée, c'est-à-dire que la probabilité pour un tirage donné d'obtenir unpile est la même que celle d'obtenir unface, à savoir1/2. Un observateur effectue des tirages expérimentaux pour déterminer si la pièce utilisée est biaisée ou non.

4 'pile' pour 4 tiragesSupposons que l'observateur effectue 4 tirages et obtienne 4 résultatspile.

L'observateur effectue le calcul de probabilité de ce résultat. Dans le cas où la pièce est équilibrée (hypothèseH₀), la probabilité d'obtenir 4pile successifs est égale à1/2⁴ soit 0,0625 ou 6,25 %. Si l'observateur a retenu le seuil classique de 5 %, alors la conclusion de l'expérience est que la proportion depile pour l'expérience menée n'est pas significativement supérieure à la proportion attendue et ne permet pas de conclure que la pièce est biaisée dans le cadre retenu. Ce résultat ne permet cependant pas de conclure, inversement, que la pièce n'est pas biaisée.

5 'pile' pour 5 tiragesSupposons que l'observateur continue ses tirages et obtienne 5 résultatspile sur 5 tirages.

L'observateur effectue à nouveau le calcul théorique de probabilité si l'hypothèseH₀ était vérifiée. Dans ce contexte, la probabilité d'obtenir 5pile successifs est égale à1/2⁵ soit 0,031 25 ou 3,125 %. Si l'observateur a retenu le seuil classique de 5 %, alors la conclusion de l'expérience est que la proportion depile pour l'expérience menée est significativement supérieure à la proportion attendue et qu'il est probable que l'hypothèseH₀ ne soit pas vérifiée au seuil de significativité de 5 % ; car siH₀ était vérifiée, ce résultat serait improbable (moins de 5 % de chance selon le seuil conventionnel retenu). Ce résultat ne signifie toutefois pas qu'il y a 95 % de chances que la pièce soit biaisée.

17 'pile' pour 36 tiragesSupposons que l'observateur recommence des tirages avec une nouvelle pièce et obtienne 17 résultatspile sur 36 tirages.

La démarche est la même que pour les exemples précédents, la différence principale résidant dans le calcul de la probabilité du résultat.

L'expérimentateur va alors lancern fois la pièce et l'on noteX lavariable aléatoire associée, qui suit donc uneloi binomialeB(n,p). La pièce de monnaie n'est pas faussée si la probabilité d'avoir uneface est égale à la probabilité d'avoir unpile, c'est-à-dire l'hypothèse nulle estH₀ :p=1/2 contre l'hypothèse alternativeH₁ :p>1/2 (on aurait aussi pu choisirH₁ :p≠1/2 ouH₁ :p<1/2). Pour cette hypothèse, on peut faire untest sur la proportion d'une loi binomiale. On obtient alors unestatistique de testZ quiasymptotiquement suit uneloi normale centrée réduite. La valeur-p est la probabilité, pour le modèle que l'on vient de définir et pour l'hypothèse nulle, d'avoir une valeur plus extrême que celle observée (la statistique de test), c'est-à-dire avoirP(Y >z) avecY une variable normale centrée réduite etz la réalisation de la statistique de test.

Exemple numérique avec l'exemple ci-dessus : supposons que l'on obtienne 17face (ou succès) sur 36 essais. La réalisation de la statistique de test du test sur la proportion d'une loi binomiale sera alors :

z={\sqrt {36}}{\frac {{\frac {17}{36}}-{\frac {1}{2}}}{\sqrt {0,5\times (1-0,5)}}}=-0,33

La valeur-p est $\mathbb {P} (Y>-0,33)=0,63$ avecY qui suit une loi normale centrée réduite.

La valeur-p est supérieure à 0,05, donc l'hypothèse nulle n'est pas rejetée.

Critiques

[modifier |modifier le code]

L'utilisation d'une p-valeur pour conclure à la suite d'untest statistique est très fortement remise en cause pour plusieurs raisons. D'abord d'un point de vue formel, la valeur de p désigne la probabilité d'observer unjeu de données sous l'hypothèseH₀ (P(x|H₀)), alors qu'en faisant le test, on cherche à savoir quelle est la probabilité queH₀ soit vraie sachant les données (P(H₀|x)). Or, d'après lethéorème de Bayes, P(x|H₀) ≠ P(H₀|x), en l'occurrence puisque :

\mathbb {P} (x|H_{0})={\frac {\mathbb {P} (H_{0}|x)\mathbb {P} (x)}{\mathbb {P} (H_{0})}}

AinsiDavid Colquhoun conclut :« il est conclu que si vous souhaitez maintenir votre taux de fausses découvertes en dessous de 5 %, vous devez utiliser larègle 68-95-99.7 ou une valeur p inférieure à 0,001 »^[5].

Donc la valeur ne devrait jamais être utilisée pour valider une hypothèse à partir de données puisque ce n'est pas ce qui est calculé^[6].

En 2014, David Colquhoun publie un article intitulé « An investigation of the false discovery rate and the misinterpretation of p-values »^[5], qui initie une réflexion sur l'interprétation erronée de la valeur-p au sein de la communauté scientifique. En 2016, laSociété américaine de statistique (ASA) émet des recommandations explicites notamment à travers les six principes suivants pour guider l’utilisation et l’interprétation de la valeur-p^[15]^,^[16] :

la valeur-p peut être utile pour indiquer l’incompatibilité entre les données et un modèle statistique spécifié ;
la valeur-p ne mesure pas la probabilité que l’hypothèse étudiée soit vraie, ou la probabilité que les données aient été produites par le hasard seul ;
les conclusions scientifiques ne devraient pas être fondées que sur le fait que la valeur-p se trouve au-delà ou non d’une valeur seuil ;
afin d’être convenable, l’inférence requiert que les résultats soient rapportés de façon complète et transparente, c’est-à-dire ne pas rapporter seulement les résultats statistiquement significatifs) ;
la valeur-p, ou la signification statistique, ne mesurent pas la taille d’un effet ou l’importance d’un résultat ;
en soi, la valeur-p ne fournit pas une bonne mesure de la preuve concernant un modèle ou hypothèse.

En 2018, un collectif de scientifiques demande de renoncer aux termes « statistiquement significatifs » lors de la publication d'articles dans les revues scientifiques^[17].

En mars 2019, un collectif de scientifiques comprenant 800 signataires publie un article dans la revueNature au sujet de l'utilisation abusive de la signification statistique dont la mauvaise interprétation peut biaiser les études scientifiques. Il demande« l'arrêt de l'utilisation des valeurs-p de la manière conventionnelle et dichotomique - pour décider si un résultat réfute ou soutient une hypothèse scientifique »^[18].

Notes et références

[modifier |modifier le code]

Notes

[modifier |modifier le code]

↑Cette définition naïve pose un problème dans le cas des distributions continues, où la probabilité d'une valeur individuelle donnée est toujours nulle. Dans ce cas on contournera la difficulté soit en utilisant des intervalles de valeurs comme des arrondis ou en reformulant l'observationx comme « la valeur d'un événement est plus petite/grande que la valeur observée x »

Références

[modifier |modifier le code]

↑(en) LarryWasserman,All of Statistics : A Concise Course in Statistical Inference, New York,Springer-Verlag,15 septembre 2004, 461 p.(ISBN 978-0-387-40272-7,DOI 10.1007/978-0-387-21736-9,lire en ligne),définition 10.11.
↑(en)Paul E. Meehl, « Why summaries of research on psychological theories are often uninterpretable »,Psychological Reports,‎1990(DOI 10.2466/PR0.66.1.195-244)
↑(en) Jacob Cohen, « The Earth Is Round (p < .05) »,American Psychologist,‎1994(DOI 10.1037/0003-066X.49.12.997)
↑(en) Monya Baker, « Statisticians issue warning on P values »,Nature,‎2016,p. 351:151-152(DOI 10.1038/nature.2016.19503)
↑^{ab etc}(en)David Colquhoun, « An investigation of the false discovery rate and the misinterpretation of p-values »,Royal Society Open Science,vol. 1,n^o 3,‎2014,p. 140216(PMID 26064558,PMCID PMC4448847,DOI 10.1098/rsos.140216).
↑^{a etb}(en) Wasserstein RL, Lazar NA, « The ASA's Statement on p-Values: Context, Process, and Purpose »,The American Statistician,‎2016,p. 70:129-133(DOI 10.1080/00031305.2016.1154108).
↑(en) Johnson VE, « Revised standards for statistical evidence »,PNAS,‎2013,p. 110:19313-19317(DOI 10.1073/pnas.1313476110)
↑(en) ValentinAmrhein et SanderGreenland, « Remove, rather than redefine, statistical significance »,Nature Human Behaviour,vol. 1,‎2017,p. 0224(DOI 10.1038/s41562-017-0224-0)
↑(en) K.A. Oliveet al. (Particle Data Group),Chin. Phys., C38, 21 août 2014,table 38.1 [PDF].
↑(en)lire par exemple la discussion au-dessous de l'eq. (38.41) de la revue de statistique de Particle Data Group.
↑(en) « Extraordinary claims: the 0.000029% solution », EPJ Web of Conferences, volume 95, 2015, 3rd International Conference on New Frontiers in Physics, 2015.DOI 10.1051/epjconf/20159502003, voir particulièrement le retour d'expérience présenté entable 1.
↑Pierre-Simon de Laplace,Œuvres complètes, Gauthier-Villars, 1878, tome 7 (lire en ligne, surWikisource).
↑(en) ZoltánDienes,Understanding Psychology as a Science : An Introduction to Scientific and Statistical Inference,Palgrave Macmillan,2008, 170 p.(ISBN 978-0-230-54231-0 et0-230-54231-X)
↑(en) « Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations »(DOI 10.1007/s10654-016-0149-3).
↑(en) « American statistical association releases statement on statistical signifiance and p-values »[PDF], sur Société américaine de statistique,7 mars 2016.
↑Ronald L.Wasserstein et Nicole A.Lazar, « The ASA Statement on p-Values: Context, Process, and Purpose »,The American Statistician,vol. 70,n^o 2,‎2 avril 2016,p. 129–133(ISSN 0003-1305,DOI 10.1080/00031305.2016.1154108,lire en ligne, consulté le5 octobre 2021).
↑Stuart H.Hurlbert, Richard A.Levine et JessicaUtts, « Coup de Grâce for a Tough Old Bull: “Statistically Significant” Expires »,The American Statistician,vol. 73,n^o sup1,‎29 mars 2019,p. 352–357(ISSN 0003-1305,DOI 10.1080/00031305.2018.1543616).
↑(en) ValentinAmrhein, SanderGreenland et BlakeMcShane, « Scientists rise up against statistical significance »,Nature,vol. 567,n^o 7748,‎mars 2019,p. 305–307(DOI 10.1038/d41586-019-00857-9).

Articles connexes

[modifier |modifier le code]

v ·m

Index du projet probabilités et statistiques

Théorie des probabilités

Bases théoriques

Principes généraux	Axiomes des probabilités Espace mesurable Probabilité Événement Tribu Indépendance Variable aléatoire Espérance Variables iid
Convergence de lois	Théorème central limite Loi des grands nombres Théorème de Borel-Cantelli
Calcul stochastique	Marche aléatoire Chaîne de Markov Processus stochastique Processus de Markov Martingale Mouvement brownien Équation différentielle stochastique

Lois de probabilité

Lois continues	Loi exponentielle Loi normale Loi uniforme Loi de Student Loi de Fisher Loi du χ²
Lois discrètes	Loi de Bernoulli Loi binomiale Loi de Poisson Loi géométrique Loi hypergéométrique

Mélange entre statistiques et probabilités

Intervalle de confiance

Interprétations de la probabilité

Bayésianisme

Théorie des statistiques

Statistiques descriptives

Bases théoriques	Une statistique Caractère Échantillon Erreur type Intervalle de confiance Fonction de répartition empirique Théorème de Glivenko-Cantelli Inférence bayésienne Régression linéaire Méthode des moindres carrés Analyse des données Corrélation
Tableaux	Tableau de contingence Tableau disjonctif complet Table de Burt
Visualisation de données	Histogramme Diagramme à barres Graphique en aires Diagramme circulaire Treemap Boîte à moustaches Nuage de points Graphique à bulles Diagramme en cascade Graphique en entonnoir Diagramme de Kiviat Corrélogramme Graphique en forêt Diagramme branche-et-feuille Heat map Sparkline
Paramètres de position	Moyenne arithmétique Mode Médiane Quantile Quartile Décile Centile
Paramètres de dispersion	Étendue Écart moyen Variance Écart type Déviation absolue moyenne Écart interquartile Coefficient de variation
Paramètres de forme	Coefficient d'asymétrie Coefficient d'aplatissement

Statistiques inductives

Bases théoriques	Hypothèse nulle Estimateur Signification statistique Sensibilité et spécificité Courbe ROC Nombre de sujets nécessaires Valeur p Contraste (statistiques) Statistique de test Taille d'effet Puissance statistique
Tests paramétriques	Test d'hypothèse Test de Bartlett Test de normalité Test de Fisher d'égalité de deux variances Test d'Hausman Test d'Anderson-Darling Test de Banerji Test de Durbin-Watson Test de Goldfeld et Quandt Test de Jarque-Bera Test de Mood Test de Lilliefors Test de Wald Test T pour des échantillons indépendants Test T pour des échantillons appariés Test de corrélation de Pearson
Tests non-paramétriques	Test U de Mann-Whitney Test de Kruskal-Wallis Test exact de Fisher Test de Kolmogorov-Smirnov Test de Shapiro-Wilk Test de Chow Test de McNemar Test de Spearman Tau de Kendall Test Gamma Test des suites de Wald-Wolfowitz Test de la médiane Test des signes ANOVA de Friedman Concordance de Kendall Test Q de Cochran Test des rangs signés de Wilcoxon Test de Sargan

Application
Économétrie Mécanique statistique Jeu de hasard Biomathématique Biostatistique Mathématiques financières

Portail des probabilités et de la statistique

Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Valeur_p&oldid=222143416 ».

Catégories :

Catégories cachées :

[8]ページ先頭