Enthéorie des probabilités et enstatistiques, leslois uniformes continues forment une famille delois de probabilité àdensité. Une telle loi est caractérisée par la propriété suivante : tous lesintervalles de même longueur inclus dans lesupport de la loi ont la même probabilité. Cela se traduit par le fait que la densité de probabilité d'une loi uniforme continue est constante sur son support.
Une loi uniforme est paramétrée par la plus petite valeur et la plus grande valeur que lavariable aléatoire correspondante peut prendre. La loi uniforme continue ainsi définie est souvent notée
Les densités associées aux lois uniformes continues sont des généralisations de lafonction rectangle en raison de leurs formes.
SoitX1, ...,Xn un échantilloni.i.d. issu de la loi SoitX(k) lak-ièmestatistique d'ordre de l'échantillon. Alors la distribution deX(k) est uneloi bêta de paramètresk etn − k + 1.
La probabilité qu'une variable uniforme tombe dans un intervalle donné est indépendante de la position de cet intervalle, mais dépend seulement de sa longueur à condition que cet intervalle soit inclus dans le support de la loi. Ainsi, siX suit la loi et si est un sous-intervalle de [a,b], avec fixé, alors :
qui est indépendant dex. Ce fait motive la dénomination de cette loi.
Le cas particuliera = 0 etb = 1 donne naissance à laloi uniforme standard, notéeIl faut noter le fait suivant : siu1 est distribué selon une loi uniforme standard, alors c'est aussi le cas pouru2 = 1 –u1.
À toute partieA de borélienne, dont lamesure de Lebesgueλ(A) est finie et strictement positive, on associe une loi de probabilité, appeléeloi uniforme surA, dedensité de probabilitéƒ définie, pour tout par :
oùχA est lafonction indicatrice (ou caractéristique), notée aussi 𝟙A, de l'ensembleA. La densité est donc nulle à l'extérieur deA, mais égale à la constante1⁄λ(A) surA.
Cette page traite principalement du cas particulier oùd = 1 et oùA est unintervalle[a,b] de
Condition suffisante — La loi de la variable aléatoireY =T(X), image par une transformationT d'une variableX uniforme sur une partieA de est encore la loi uniforme surT(A) siT est, à un ensemble négligeable près, injective et différentiable, et si, presque partout surA, la valeur absolue dujacobien deT est constante.
Exemples de transformations respectant l'uniformité :
SiT estaffine et bijective, alorsY suit la loi uniforme surT(A).
En particulier, siT est uneisométrie de laissantA globalement invariant, alorsY a même loi queX.
Par exemple, uneisométrie de laisse invariante la loi uniforme sur B(O, 1], la boule unité centrée en l'origine, à condition de laisser l'origine invariante (donc de laisser B(O, 1] globalement invariante).
Autre exemple d'isométrie : siU est uniforme sur [0, 1], alors1 –U l'est aussi.
Notons lapartie fractionnaire de Les fonctions et ne sont ni injectives ni différentiables sur tout [0, 1], mais satisfont les hypothèses énoncées plus haut, avecT([0, 1[) = [0, 1[. En conséquence, si alors et ont même loi que En sortant un peu du cadre de cette page, et en notantM(x) le point ducercle trigonométrique ayant pouraffixe on peut voirM(U) comme un point tiré au hasard uniformément sur le cercle trigonométrique. Les points et respectivement sont alors obtenus par rotation d'angle2πa et par symétrie par rapport à la droite d'angle directeurπa respectivement, qui sont des isométries laissant lecercle unité globalement invariant. Donc ces points suivent aussi la loi uniforme sur lecercle unité. Cela traduit une propriété très particulière de la loi uniforme : elle est lamesure de Haar de
Conséquence — Si la suite est une suite de variables aléatoires indépendantes et uniformes sur[0, 1], et si alors la suite est une suite de variables aléatoires indépendantes et uniformes sur[0, 1].
Démonstration
La loi conditionnelle de sachant que est la loi de qui se trouve être la loi uniforme sur [0, 1], comme on vient de le voir quelques lignes plus haut. Donc la loi conditionnelle de sachant que ne dépend absolument pas de Cela a deux conséquences :
Il peut sembler surprenant que les variables et par exemple, soient indépendantes, alors qu'elles dépendent toutes deux de manière cruciale des variables et C'est une conséquence particulière de la propriété d'invariance de la loi uniforme : par exemple, étant lamesure de Haar de elle estidempotente pour laconvolution.
Y = 1 –U1/n suit laloi bêta de paramètres 1 etn. Ceci implique que la loi uniforme standard est un cas particulier de la loi bêta, de paramètres 1 et 1.
On trouvera un tableau plus completici. Par ailleurs, l'art d'engendrer des variables aléatoires de lois arbitraires, par exemple à l'aide de variables uniformes, est développé dansNon-Uniform Random Variate Generation, deLuc Devroye, édité chez Springer, disponible sur le web[2].
où est le maximum de l'échantillon et la taille de l'échantillon, échantillonné sans remise (bien que cette précision n'a aucune incidence dans le cas uniforme).
Le milieu de l'intervalle de la loi uniforme est à la fois la moyenne et la médiane de cette loi. Bien que la moyenne et la médiane de l'échantillon sont des estimateurs sansbiais du milieu, ils ne sont pas aussiefficaces que lemilieu de gamme de l'échantillon, i.e. lamoyenne arithmétique du maximum et du minimum de l'échantillon, qui est l'estimateur sans biais de variance minimale du milieu (et aussi l'estimateur par maximum de vraisemblance).
On considèreX1,X2, ...,Xn un échantillon de oùL est la valeur maximum dans la population. AlorsX(n) = max(X1,X2, ...,Xn ) a la densité de Lebesgue-Borel[3]
Cette section décrit l'estimation des deux bornes de la distribution uniforme continue au vu d'un échantillon de individus.
Soient et les estimateurs respectifs des bornes inférieure et supérieure de la distribution mère, construits sur la base de l'échantillon contenant les modalités de la variable aléatoire issues de la distribution
Soit la vraisemblance d'un n-échantillon tiré suivant une loi uniforme dont les deux paramètres doivent être estimés :
Maximiser la vraisemblance revient à minimiser sous les contraintes :
Le couple d'estimateurs qui réalise cette maximisation est :
Ce couple d'estimateurs est biaisé : la probabilité qu'un-échantillon capture le minimum ou le maximum permis par la distribution mère étant quasi-nulle, la moyenne d'un grand nombre d'observations sur de tels-échantillons ne converge pas vers les bornes de ladite distribution mère :
La démonstration est produite plus bas.
Loi de distribution régissant ces estimateurs biaisés
Pour que soit compris entre et et que soit compris entre et, il faut :
que le minimum des soit compris entre et :
que le maximum des soit compris entre et :
et que les autres soient compris entre et :
Comme n'importe quelle paire choisie parmi les peut constituer le couple (min, max) de l'échantillon, il y a arrangements possibles, d'où la probabilité énoncée.
La notion d'arrangement (plutôt que de combinaisons) découle du fait qu'être min ou max de l'échantillon ne constitue pas le même évènement, ce qui introduit une notion d'ordre.
Lois marginales régissant les minimum et maximum empiriques
le couple d'estimateurs avec biais formé par le minimum et le maximum empiriques déterminés sur un-échantillon.
Les estimateurs considérés sont ceux avec biais car :
leurs lois de distribution sont simples à manipuler ;
le document référencé[5] montre que construire des intervalles de pari à partir des estimateurs sans biais n'aboutit pas in fine à des intervalles plus réduits pour un niveau de confiance donné, et en explique la raison.
On cherche à connaître comment se répartissent les n-échantillons possibles formés à partir de la distribution mère, en plaçant dans le plan :
sur l'axe des abscisses, la borne inférieure de la distribution mère et les minima empiriques des échantillons ;
sur l'axe des ordonnées, la borne supérieure de la distribution mère et les maxima empiriques des échantillons.
On note :
Zone du plan où l'on peut trouver des échantillons issus de U (a,b)
La distribution mère et la construction des estimateurs imposent la hiérarchie suivante : Les échantillons issus de cette loi mère sont tous situés à l'intérieur dutriangle rectangle formé par la droite, la droite et lapremière bissectrice (cf. figure ci-contre).
Unbon échantillon (i.e. un échantillon représentatif de sa population mère) se caractérise par :
un minimum empirique proche de
et un maximum empirique proche de
Le risque de pari associé à un échantillon est défini par la probabilité de trouver un échantillon plusmauvais que lui, i.e. présentant :
La surface de pari est celle qui capture la proportion des échantillons formés à partir d'une population mère donnée et connue.
Choix de la forme de la surface de pari, représenté dans les coordonnées réduites
Le problème dépend de la forme que l'on aura choisi de donner à cette surface, qui peut être un carré, un triangle, un quart de cercle, ... On choisit ici un triangle rectangle, de sommet et dont l'hypoténuse est parallèle à la première bissectrice (cf. figure ci-contre). La raison est que la densité de probabilité associée au coupleest constante le long d'un lieu. Ceci permet de découper l'espace suivant une ligne iso-densité, minimisant ainsi la surface de pari pour capturer un effectif donné.
Les variables réduites classiques pour les distributions uniformes sont introduites afin de simplifier les calculs qui suivent :
Les relations de conversion du domaine réel en domaine réduit sont données par le tableau ci-dessous :
Échantillon {m ; M} à population {a ; b} donnée
Représentation adimensionnée
Population {a ; b} à échantillon {m ; M} donné
Exprimée dans le plan des coordonnées réduites, la surface pari au niveau de confiance est constituée par l'intérieur du triangle rectangle de sommets :
La marge réduite est reliée au risque de pari par l'équation suivante :
Marge réduite = f (effectif de l'échantillon, risque de pari
Démonstration
La densité de probabilité associée au coupleet exprimée en fonction des variables réduites s'écrit :
La surface de pari triangulaire recherchée doit capturer la proportion des échantillons générés à partir de la poplulation mère. En s'aidant de la figure ci-dessus plaçant le domaine de pari dans le plan des coordonnées réduites, il vient :
Soit, tous calculs effectués :
D'où la relation énoncée liant à.
L'équation liant la marge réduite au risque de pari peut être résolue par laméthode du point fixe : la suite définie ci-dessous converge rapidement vers la solution, même avec une initialisation forfaitaire :
Surface pari au niveau de confiance tracée dans le plan des coordonnées de l'expérimentateur
Le lieu des solutions est tracé ci-contre, en fonction de l'effectif de l'échantillon et du risque de pari.
Replacée dans le plan des coordonnées correspondant au problème réel de l'expérimentateur, la surface pari au niveau de confiance est constituée par l'intérieur du triangle rectangle de sommets :
Le point de vue est inversé par rapport à la section précédente :
le n-échantillon est connu, et le couple des minimum et maximum empiriques obtenus est ;
on veut connaître quelles populations mères auraient pu générer cet échantillon, au niveau de confiance choisi par l'expérimentateur.
Surface de confiance au niveau de confiance tracée dans le plan des coordonnées de l'expérimentateur
Il s'agit donc de recenser les populations mères qui contiennent l'échantillon en question dans leurs surfaces de pari respectives au niveau de confiance.
L'intégrale calculée lors de la démonstration qui établit la surface de pari en coordonnées réduites reste inchangée, quelles que soient les raisons qui font varier ces coordonnées réduites :
les variations du couple à population mère fixée,
ou bien les variations des bornes de la population mère à échantillon fixé
La surface de confiance est obtenue par déréduction de la surface établie en coordonnées pour le niveau de confiance, en cherchant à échantillon fixé. Cette surface de confiance est constituée par l'intérieur du triangle rectangle de sommets :
Enstatistiques, lorsqu'unevaleur p (p-value) est utilisée dans une procédure detest statistique pour unehypothèse nulle simple, et que la distribution du test est continue, alors la valeur p est uniformément distribuée selon la loi uniforme sur [0, 1] si l'hypothèse nulle est vérifiée.
La plupart deslangages de programmation fournissent un générateur de pseudo-nombres aléatoires, dont la distribution est effectivement la loi uniforme standard.
D'après le théorème cité plus haut, la loi uniforme permet en théorie d'obtenir des tirages de toute loi continue à densité. Il suffit pour cela d'inverser laFonction de répartition de cette loi, et de l'appliquer à des tirages de la loi uniforme standard. Malheureusement, dans bien des cas pratiques, on ne dispose pas d'une expression analytique pour la fonction de répartition; on peut alors utiliser une inversion numérique (coûteuse en calculs) ou des méthodes concurrentes, comme laMéthode de rejet.
Soit une suite de variables aléatoires i.i.d. uniformes sur [0, 1], définies sur un espace probabilisé (par exemple, définies sur muni de satribu des boréliens et de samesure de Lebesgue, par ou, de manière équivalente, par). Pour tout entierk compris entre 1 etn, posons
Ainsi, s'interprète comme lerang de dans l'échantillon, une fois celui-ci rangé dans l'ordre croissant.
Proposition — L'application est une permutation aléatoire uniforme.
Si il existe donc un couplei <j tel que et, par suite, Ainsiσ(.,ω) n'est pas une permutation. Finalement, commeB et les ensembles de type forment une partition de il en découle que pour toutepermutationτ,
et par conséquent
Comme les composantes du vecteur aléatoire sont desvariables aléatoiresindépendantes àdensité de densités respectives notées on sait que le vecteur aléatoireU possède lui-même une densitéf, définie par
De même, une densité de probabilité du vecteur aléatoireτ.U estg, définie par :
Dans le cas, comme ici, où les composantes d'un vecteur aléatoire sont i.i.d., on peut choisir les densités de probabilités toutes égales. Ainsi, les densitésf etg des vecteurs aléatoiresU etτ.U sont égales : les vecteurs aléatoiresU etτ.U ont donc même loi. Par conséquent, pour toutepermutationτ,
où la dernière égalité utilise le fait queB et les ensembles forment une partition de
La proposition ci-dessus reste vérifiée si la distribution de probabilité commune aux variables possède unedensité, quelle qu'elle soit, et non pas seulement pour la densité uniforme. On peut même se contenter de variables i.i.d. dont la loi est diffuse (sans atomes) modulo une modification mineure de la démonstration. Cependant la loi uniforme est particulièrement commode pour diverses applications.
Nombres de descentes d'une permutation aléatoire, etnombres eulériens
Théorème (S. Tanny, 1973) — De manière équivalente,
ou bien
Démonstration
On suppose la suite construite à l'aide d'une suite de variables aléatoires indépendantes et uniformes sur [0, 1], via la relation (on rappelle que { } désigne la partie fractionnaire). On sait alors, grâce à des considérations d'invariance (voir plus haut), que est une suite de variables aléatoires indépendantes et uniformes sur [0, 1]. On construit alors une permutation aléatoire uniformeσ(.,ω) à l'aide de la suiteU, comme indiqué à lasection ci-dessus : il y adescente au rangi pourσ(.,ω) siσ(i,ω) >σ(i + 1,ω) ou, de manière équivalente, si Parallèlement, on dessine, sur lecercle trigonométrique, les points ayant pouraffixes On entreprend alors un voyage sur le cercle unité, consistant à parcourir les points puis puis… , puis dans cet ordre, en tournant toujours dans le sens trigonométrique, et en partant du pointA d'affixe 1 (de coordonnées cartésiennes (0, 1)). La longueur totale du chemin ainsi parcouru est alors
Par ailleurs, il y adescente au rangi pourσ(.,ω) si et seulement si l'étape du voyage ci-dessus allant du point au point traverseA. Donc le nombre de descentes deσ(.,ω) est le nombre de traversées du pointA, qui est aussi le nombre de tourscomplets du cercle unité effectués lors du voyage deA à Au vu du calcul donnant la longueur totale du chemin ainsi parcouru, voir ci-dessus, le nombre de tours complets s'écrit aussi :
Ainsi le nombre de descentes deσ(.,ω) est égal à Le nombre de descentes deσ a donc même loi que