Movatterモバイル変換


[0]ホーム

URL:


Aller au contenu
Wikipédial'encyclopédie libre
Rechercher

Quantile

Un article de Wikipédia, l'encyclopédie libre.

Cet article est uneébauche concernant lesprobabilités et lastatistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations desprojets correspondants.
Densité de probabilité d'une loi normale de moyenne μ et d'écart-type σ. On montre ici les trois quartilesQ1,Q2,Q3. L'aire sous la courbe rouge est la même dans les intervalles (−∞,Q1), (Q1,Q2), (Q2,Q3), et (Q3,+∞). La probabilité d'être dans chacun de ces intervalles est de 25%.

Enstatistiques et enthéorie des probabilités, lesquantiles sont les valeurs qui divisent unjeu de données enintervalles de même probabilité. Il y a donc un quantile de moins que le nombre de groupes créés. Par exemple, lesquartiles sont les trois quantiles qui divisent un ensemble de données en quatre groupes de même probabilité. Lamédiane quant à elle est le quantile qui sépare le jeu de données en deux groupes de même probabilité.

Définitions en langage commun

[modifier |modifier le code]

Lesquantiles d'unevariable aléatoire univariée, discrète (ex. : entière) oucontinue (réelle), sont les valeurs que prend la variable pour des valeurs de probabilité sous le quantile considéré, valant une valeur remarquable, par exemple 3 dixièmes, ou 5 centièmes, etc. On les appelle encorefractiles, synonyme complet selon le contexte d'usage, et ce sont les valeurs réciproques de lafonction de répartition de laloi de probabilité considérée. On s'intéresse plus particulièrement à quelques jeux de valeurs de quantile correspondant aux multiples de fractions simples du 100 % de la probabilité totale. Par exemple, on peut scinder les 100 % de probabilité totale en 4 masses de probabilités égales chacune à14=25 %, correspondant, pour les valeurs de la variable aléatoire, à quatre intervalles adjacents. Les trois valeurs intermédiaires définissent ainsi, respectivement les fractiles de14=0,25,12=0,5 et34=0,75, ou encore en termes de fractions, les quantiles d'un quart, un demi et trois quarts (les deux limites extrêmes, l'inférieure correspondant au quantile de 0 et la supérieure pour le quantile de 1, sont les bornes dudomaine de définition de la variable aléatoire.

Lesquantiles d'unéchantillon statistique de nombres sont des valeurs remarquables permettant de diviser le jeu de ces données ordonnées (i.e. triées) en intervalles consécutifs contenant le même nombre de données (à la justesse de la division entière du nombre total de données, près). Par exemple, un échantillon de 90 données pourra être découpé selon 10 sous-intervalles consécutifs au moyen d'un jeu de 9 quantiles (plus leslimites inférieure et supérieure du domaine d'échantillonnage).

Certains jeux de quantiles ont reçu des noms particuliers :

Ont encore été définis, les quatrequintiles, et les deux terciles, d'usage rare.

Nota Bene : certains programmes informatiques définissent unquantile minimum et unquantile maximum par, respectivement, le quantile de 0 et le quantile de 100 %. Toutefois, une telle terminologie va au-delà des définitions traditionnelles de la statistique.


Formalisation

[modifier |modifier le code]

Soit un nombre réelα[0;1]{\displaystyle \alpha \in [0;1]} etX{\displaystyle X} unevariable aléatoire réelle. On noteF{\displaystyle F} lafonction de répartition deX{\displaystyle X}, c'est-à-dire pour tout réelx{\displaystyle x}, on aF(x)=P(Xx){\displaystyle F(x)=\mathbb {P} (X\leq x)}.

Le quantile d'ordreα{\displaystyle \alpha } deX{\displaystyle X}, appelé aussiα{\displaystyle \alpha }-quantile, est l'ensembleq(α){\displaystyle q(\alpha )} tel que :

q(α)=F1({α}).{\displaystyle q(\alpha )=F^{-1}(\{\alpha \}).}

Autrement dit, le quantile d'ordreα{\displaystyle \alpha } deX{\displaystyle X} est l'ensemble des nombres réelsx{\displaystyle x} tel queP(Xx)=α{\displaystyle \mathbb {P} (X\leq x)=\alpha }. LorsqueF{\displaystyle F} estbijective, il n'y a qu'une valeur dansq(α){\displaystyle q(\alpha )} : dans ces cas-là parabus de langage on parle dusingletonq(α){\displaystyle q(\alpha )} comme d'un nombre.

Exemples :

  1. Le quantile d'ordre 1/2 d'une variable deloi normale centrée réduite est 0
  2. Le quantile d'ordre 0,025 d'une variable de loi normale centrée réduite est d'environ -1.959964

Quelques remarques

[modifier |modifier le code]

Abus de langage

[modifier |modifier le code]

Dans les résultats standardisés detests statistiques, il est courant de lire l'expression « dans le80e centile ». Les centiles étant des valeurs et non des intervalles, il serait plus juste de dire « dans l'intervalle entre le80e et le81e centile », ou « dans l'intervalle de probabilité 1 % qui suit le80e centile ».

Cas d'une variable aléatoire à distribution symétrique

[modifier |modifier le code]

Si une distribution est symétrique par rapport à une valeur particulière, alors la médiane et la moyenne sont égales à cette valeur particulière. En pratique, c'est le cas de toutes les variables aléatoires gaussiennes. Par contre, les exemples d'usage courant abondent aussi où ce n'est pas le cas.

Autres notes

[modifier |modifier le code]

Les quantiles sont des mesures utiles parce qu'elles sont moins sensibles aux distributions allongées et aux valeurs aberrantes. Par exemple, avec une valeur aléatoire qui suit unedistribution exponentielle, n'importe quel échantillon particulier de cette variable aléatoire aura approximativement une chance de 63 % d'être inférieur à la moyenne. Ceci est dû à la présence d'une longue queue de la distribution exponentielle dans les valeurs positives, qui est absente dans les valeurs négatives.

Empiriquement, si les données que vous analysez ne sont pas distribuées comme la distribution que vous attendiez, ou si une autre source de valeurs aberrantes influe sur la valeur de la moyenne, alors les quantiles sont des statistiques bien plus utiles que la moyenne ou autres types de moments statistiques.

Larégression robuste est fortement liée à ce sujet. Elle utilise la somme des valeurs absolues des valeurs observées, au lieu des erreurs au carré. La connexion se situe sur le fait que la moyenne est parmi les estimateurs liés à une distribution le seul qui minimise l'espérance du carré des erreurs, tandis que la médiane minimise l'espérance de l'erreur absolue. La régression robuste partage la capacité d'être relativement insensible aux larges déviations dues à certaines observations aberrantes.

Les quantiles d'une variable aléatoire sont préservés lors de transformations croissantes, ce qui signifie par exemple que sim est la médiane d'une variable aléatoireX alors 2m est la médiane de 2X, à moins qu'un choix arbitraire ait été fait à partir d'une plage de valeurs, pour spécifier un quantile particulier. Les quantiles peuvent aussi être utilisés dans les cas où seulement des donnéesordinales sont disponibles.

Calcul des quantiles

[modifier |modifier le code]

Par estimation

[modifier |modifier le code]

Il existe différentes méthodes pour estimer les quantiles : soitN le nombre de valeurs observées de la population échantillonnée, et soitx1,x2, ...,xN les valeurs ordonnées de la même population, telles quex1 est la plus petite valeur, etc. Pour lek-ièmeq-quantile, on ap =kq.

Fonction de distribution empirique
{xj,g=0xj+1,g>0{\displaystyle {\begin{cases}x_{j},&g=0\\x_{j+1},&g>0\end{cases}}}

j est lapartie entière deNp etg la partie fractionnelle.

Fonction de distribution empirique avec mise à la moyenne
{12(xj+xj+1),g=0xj+1,g>0{\displaystyle {\begin{cases}{\frac {1}{2}}(x_{j}+x_{j+1}),&g=0\\x_{j+1},&g>0\end{cases}}}

jest la partie entière deNp etg est la partie fractionnelle.

Moyenne pondérée
xj+1+g(xj+2xj+1){\displaystyle x_{j+1}+g(x_{j+2}-x_{j+1})}

j est la partie entière de(N–1)p etg est la partie fractionnelle. Cette méthode est utilisée, par exemple, dans la fonction PERCENTILE deMicrosoft Excel.

Échantillon de numéro le plus proche de(N–1)p+1
{xj,g0,5xj+1,g0,5{\displaystyle {\begin{cases}x_{j},&g\leq 0,5\\x_{j+1},&g\geq 0,5\end{cases}}}

j est la partie entière de(N–1)p+1 etg est la partie fractionnelle.

Par optimisation

[modifier |modifier le code]

Une définition plus générale de la fonction quantile est donnée comme un problème d'optimisation[1],[2]:

q(α)=argminθRR(|yθ|+α+12(yθ))F(dy).{\displaystyle q(\alpha )={\underset {\theta \in \mathbb {R} }{\operatorname {arg\,min} }}\int _{\mathbb {R} }\left(|y-\theta |+{\frac {\alpha +1}{2}}(y-\theta )\right)F(dy).}

Cette définition peut être utile pour étendre la définition à des données multivariées ; on parle alors dequantiles géométriques.

Notes et références

[modifier |modifier le code]
  1. (en) T. Ferguson,Mathematical Statistics : A Decision Theoric Approach, New York, Academic Press,
  2. (en) Roger Koenker et Gilbert Bassett, « Regression Quantiles »,Econometrica,vol. 46,no 1,‎,p. 33–50(DOI 10.2307/1913643)

Voir aussi

[modifier |modifier le code]
v ·m
Théorie des probabilités
Bases théoriques
Principes généraux
Convergence de lois
Calcul stochastique
Lois de probabilité
Lois continues
Lois discrètes
Mélange entre statistiques et probabilités
Interprétations de la probabilité
Théorie des statistiques
Statistiques descriptives
Bases théoriques
Tableaux
Visualisation de données
Paramètres de position
Paramètres de dispersion
Paramètres de forme
Statistiques inductives
Bases théoriques
Tests paramétriques
Tests non-paramétriques
Application
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Quantile&oldid=211351529 ».
Catégorie :
Catégories cachées :

[8]ページ先頭

©2009-2025 Movatter.jp