Cet article est uneébauche concernant lesprobabilités et lastatistique.
Enstatistiques et enthéorie des probabilités, lesquantiles sont les valeurs qui divisent unjeu de données enintervalles de même probabilité. Il y a donc un quantile de moins que le nombre de groupes créés. Par exemple, lesquartiles sont les trois quantiles qui divisent un ensemble de données en quatre groupes de même probabilité. Lamédiane quant à elle est le quantile qui sépare le jeu de données en deux groupes de même probabilité.
Lesquantiles d'unevariable aléatoire univariée, discrète (ex. : entière) oucontinue (réelle), sont les valeurs que prend la variable pour des valeurs de probabilité sous le quantile considéré, valant une valeur remarquable, par exemple 3 dixièmes, ou 5 centièmes, etc. On les appelle encorefractiles, synonyme complet selon le contexte d'usage, et ce sont les valeurs réciproques de lafonction de répartition de laloi de probabilité considérée. On s'intéresse plus particulièrement à quelques jeux de valeurs de quantile correspondant aux multiples de fractions simples du 100 % de la probabilité totale. Par exemple, on peut scinder les 100 % de probabilité totale en 4 masses de probabilités égales chacune à1⁄4=25 %, correspondant, pour les valeurs de la variable aléatoire, à quatre intervalles adjacents. Les trois valeurs intermédiaires définissent ainsi, respectivement les fractiles de1⁄4=0,25,1⁄2=0,5 et3⁄4=0,75, ou encore en termes de fractions, les quantiles d'un quart, un demi et trois quarts (les deux limites extrêmes, l'inférieure correspondant au quantile de 0 et la supérieure pour le quantile de 1, sont les bornes dudomaine de définition de la variable aléatoire.
Lesquantiles d'unéchantillon statistique de nombres sont des valeurs remarquables permettant de diviser le jeu de ces données ordonnées (i.e. triées) en intervalles consécutifs contenant le même nombre de données (à la justesse de la division entière du nombre total de données, près). Par exemple, un échantillon de 90 données pourra être découpé selon 10 sous-intervalles consécutifs au moyen d'un jeu de 9 quantiles (plus leslimites inférieure et supérieure du domaine d'échantillonnage).
Certains jeux de quantiles ont reçu des noms particuliers :
Ont encore été définis, les quatrequintiles, et les deux terciles, d'usage rare.
Nota Bene : certains programmes informatiques définissent unquantile minimum et unquantile maximum par, respectivement, le quantile de 0 et le quantile de 100 %. Toutefois, une telle terminologie va au-delà des définitions traditionnelles de la statistique.
Soit un nombre réel et unevariable aléatoire réelle. On note lafonction de répartition de, c'est-à-dire pour tout réel, on a.
Le quantile d'ordre de, appelé aussi-quantile, est l'ensemble tel que :
Autrement dit, le quantile d'ordre de est l'ensemble des nombres réels tel que. Lorsque estbijective, il n'y a qu'une valeur dans : dans ces cas-là parabus de langage on parle dusingleton comme d'un nombre.
Exemples :
Dans les résultats standardisés detests statistiques, il est courant de lire l'expression « dans le80e centile ». Les centiles étant des valeurs et non des intervalles, il serait plus juste de dire « dans l'intervalle entre le80e et le81e centile », ou « dans l'intervalle de probabilité 1 % qui suit le80e centile ».
Si une distribution est symétrique par rapport à une valeur particulière, alors la médiane et la moyenne sont égales à cette valeur particulière. En pratique, c'est le cas de toutes les variables aléatoires gaussiennes. Par contre, les exemples d'usage courant abondent aussi où ce n'est pas le cas.
Les quantiles sont des mesures utiles parce qu'elles sont moins sensibles aux distributions allongées et aux valeurs aberrantes. Par exemple, avec une valeur aléatoire qui suit unedistribution exponentielle, n'importe quel échantillon particulier de cette variable aléatoire aura approximativement une chance de 63 % d'être inférieur à la moyenne. Ceci est dû à la présence d'une longue queue de la distribution exponentielle dans les valeurs positives, qui est absente dans les valeurs négatives.
Empiriquement, si les données que vous analysez ne sont pas distribuées comme la distribution que vous attendiez, ou si une autre source de valeurs aberrantes influe sur la valeur de la moyenne, alors les quantiles sont des statistiques bien plus utiles que la moyenne ou autres types de moments statistiques.
Larégression robuste est fortement liée à ce sujet. Elle utilise la somme des valeurs absolues des valeurs observées, au lieu des erreurs au carré. La connexion se situe sur le fait que la moyenne est parmi les estimateurs liés à une distribution le seul qui minimise l'espérance du carré des erreurs, tandis que la médiane minimise l'espérance de l'erreur absolue. La régression robuste partage la capacité d'être relativement insensible aux larges déviations dues à certaines observations aberrantes.
Les quantiles d'une variable aléatoire sont préservés lors de transformations croissantes, ce qui signifie par exemple que sim est la médiane d'une variable aléatoireX alors 2m est la médiane de 2X, à moins qu'un choix arbitraire ait été fait à partir d'une plage de valeurs, pour spécifier un quantile particulier. Les quantiles peuvent aussi être utilisés dans les cas où seulement des donnéesordinales sont disponibles.
Il existe différentes méthodes pour estimer les quantiles : soitN le nombre de valeurs observées de la population échantillonnée, et soitx1,x2, ...,xN les valeurs ordonnées de la même population, telles quex1 est la plus petite valeur, etc. Pour lek-ièmeq-quantile, on ap =k⁄q.
j est lapartie entière deNp etg la partie fractionnelle.
jest la partie entière deNp etg est la partie fractionnelle.
j est la partie entière de(N–1)p etg est la partie fractionnelle. Cette méthode est utilisée, par exemple, dans la fonction PERCENTILE deMicrosoft Excel.
j est la partie entière de(N–1)p+1 etg est la partie fractionnelle.
Une définition plus générale de la fonction quantile est donnée comme un problème d'optimisation[1],[2]:
Cette définition peut être utile pour étendre la définition à des données multivariées ; on parle alors dequantiles géométriques.