
Uneprobabilité bayésienne est uneinterprétation du concept de probabilité. La probabilité n'y est pas représentée en termes de fréquence ou de propension de certains phénomènes, mais plutôt comme une estimation raisonnable[1] représentant un état des connaissances[2], ou comme la quantification d’une croyance personnelle[3].
L'interprétation bayésienne des probabilités peut être considérée comme une extension de lalogique propositionnelle qui permet de raisonner avec deshypothèses[4],[5], c'est-à-dire avec des propositions pour lesquelles lavaleur de vérité (vrai ou faux) est inconnue. Selon la perspective bayésienne, une probabilité est attribuée à une hypothèse, alors que pour l'inférence fréquentiste, une hypothèse est généralement testée sans se voir attribuer une probabilité.
La probabilité bayésienne appartient à la catégorie des probabilités probantes. Pour évaluer la probabilité d'une hypothèse, le probabiliste bayésien spécifie uneprobabilité a priori. Celle-ci est ensuite mise à jour en uneprobabilité a posteriori lorsqu'il y a de nouvelles informations pertinentes[6]. L'interprétation bayésienne fournit un ensemble standard de procédures et de formules pour effectuer ce calcul.
Le termebayésien vient du mathématicien et théologien du XVIIIe siècleThomas Bayes, qui a fourni le premier traitement mathématique d'un problème non trivial d'analyse des données statistiques en utilisant ce que l'on appelle maintenantl'inférence bayésienne[7]:131. Le mathématicienPierre-Simon Laplace a été un pionnier et a popularisé ce que l'on appelle aujourd'hui la probabilité bayésienne[7]:97–98.
Les méthodes bayésiennes sont caractérisées par les concepts et procédures suivants :
De manière générale, il existe deux interprétations de la probabilité bayésienne. Pour les objectivistes, qui interprètent la probabilité comme une extension de lalogique,la probabilité quantifie l'attente raisonnable que toute personne (même un « robot ») partageant les mêmes connaissances devrait partager, conformément aux règles desstatistiques bayésiennes. Cela peut se justifier par lethéorème de Cox-Jaynes[2],[9]. Pour les subjectivistes,la probabilité correspond à une croyance personnelle[3]. La rationalité et la cohérence laissent la place à des variations substantielles, au sein des contraintes qu'elles posent. Ces contraintes sont justifiées par lathéorie de la décision et le théorème de de Finetti[3]. Les variantes objectives et subjectives des probabilités bayésiennes diffèrent principalement par leur interprétation et leur construction de la probabilité à priori.
Le termebayésien dérive deThomas Bayes (1702-1761), qui dans un article intituléAn Essay towards solving a Problem in the Doctrine of Chances (« Essai pour résoudre un problème dans la doctrine des chances »), a prouvé un cas particulier de ce qu'on appelle aujourd'hui lethéorème de Bayes[10]. Dans ce cas particulier, les distributions à priori et postérieures étaient desdistributions bêta et les données provenaient desépreuves de Bernoulli. C'estPierre-Simon de Laplace (1749-1827) qui a introduit une version générale du théorème et l'a utilisée pour aborder des problèmes demécanique céleste, de statistiques médicales, defiabilité et dejurisprudence[11]. Les premières inférences bayésiennes, qui utilisaient des distributions à priori uniformes suivant le« principe de raison insuffisante » de Laplace, étaient appelées « probabilité inverse » (car ellesdéduisent à rebours des observations aux paramètres, ou des effets aux causes)[12]. Après les années 1920, la « probabilité inverse » a été largement supplantée par un ensemble de méthodes appelées statistiques fréquentistes[12].
Au XXe siècle, les idées de Laplace se sont développées selon deux directions, donnant naissance à des courants de penséeobjectifs etsubjectifs dans la pratique bayésienne. Le livreTheory of Probability deHarold Jeffreys (publié pour la première fois en 1939) a joué un rôle important dans la renaissance de la vision bayésienne des probabilités. Il est suivi des travaux d'Abraham Wald en 1950 et deLeonard J. Savage en 1954. L'adjectifbayésien date lui-même des années 1950, et les termes dérivésbayésianisme etnéo-bayésianisme datent des années 1960[13],[14],[15]. Selon les objectivistes, l'analyse statistique dépend uniquement du modèle supposé et des données analysées[16]. Il ne doit y avoir aucune décision subjective. À l'inverse, les statisticiens « subjectivistes » nient la possibilité d’une analyse pleinement objective du cas général.
Dans les années 1980, il y a eu une croissance spectaculaire de la recherche et des applications des méthodes bayésiennes. Cette croissance est principalement attribuée à la découverte desméthodes de Monte Carlo par chaînes de Markov, qui donna lieu à la résolution de nombreux problèmes calculatoires et à un intérêt croissant pour les applications alternatives et complexes[17]. Même si les statistiques fréquentistes restent populaires (comme le démontre le fait qu'une grande partie de l'enseignement de premier cycle repose sur elles[18]), les méthodes bayésiennes sont largement acceptées et utilisées, par exemple dans le domaine de l'apprentissage automatique[19].
L'utilisation des probabilités bayésiennes comme base de l'inférence bayésienne a été soutenue par plusieurs arguments, tels que lesaxiomes de Cox, l'argument du livre néerlandais, les arguments basés sur lathéorie de la décision et le théorème de Finetti.
Richard T. Cox a montré que la mise à jour bayésienne découle de plusieurs axiomes, dont deuxéquations fonctionnelles et une hypothèse de différentiabilité[9],[20]. L'hypothèse de différentiabilité ou même de continuité est controversée. Halpern a trouvé un contre-exemple basé sur son observation selon laquelle l'algèbre booléenne des énoncés peut être finie[21]. D'autres axiomatisations ont été suggérées par divers auteurs dans le but de rendre la théorie plus rigoureuse[8].
Bruno de Finetti a proposé l'argument du livre néerlandais basé sur les paris. Dans cette expérience de pensée, unbookmaker malin crée un livre hollandais en fixant lescotes et les paris pour garantir que le bookmaker profite – aux dépens des joueurs – quel que soit le résultat de l'événement (une course de chevaux, par exemple) sur lequel les joueurs parient.
SelonIan Hacking, l'argument du livre néerlandais est cependant aussi compatible avec des approches non bayésiennes.
Une justification de l'utilisation de l'inférence bayésienne venant de lathéorie de la décision a été donnée parAbraham Wald, qui a prouvé que toute procédure statistique admissible est soit une procédure bayésienne, soit une limite des procédures bayésiennes[22]. Et à l’inverse, toute procédure bayésienne est admissible[23].
À la suite des travaux sur lathéorie de l'utilité espérée deRamsey etvon Neumann, les théoriciens de la décision ont fait en sorte d'expliquer le comportement rationnel en utilisant une distribution de probabilité pour l'agent.Johann Pfanzagl a fourni une axiomatisation de la probabilité subjective et de l'utilité, une tâche laissée inachevée par von Neumann etOskar Morgenstern dans leur livreTheory of Games and Economic Behavior (« Théorie des Jeux et du Comportement Économique ») ; leur théorie originale supposant par commodité que tous les agents avaient la même distribution de probabilité[24].L'axiomatisation de Pfanzagl a été approuvée par Oskar Morgenstern[25].
Ramsey etSavage ont noté que la distribution de probabilité de chaque agent pouvait être étudiée objectivement dans le cadre d'expériences statistiques.Les procédures detest statistique sur les probabilités (avec un nombre fini d'échantillons) viennent deRamsey (1931) etde Finetti (1931, 1937, 1964, 1970).Bruno de Finetti[26],[27] etFrank P. Ramsey[27],[28] reconnaissent tous deux s'être appuyés sur laphilosophie pragmatique, en particulier (pour Ramsey) sur les travaux deCharles S. Peirce[27],[28].
Le « test de Ramsey » pour évaluer les distributions de probabilité est réalisable en théorie et a occupé les psychologues expérimentaux pendant un demi-siècle[29].Ce travail démontre que les propositions de probabilité bayésienne peuvent êtrefalsifiées et répondent ainsi à un critère empirique deCharles S. Peirce, dont les travaux ont inspiré Ramsey(ce critère defalsifiabilité a été popularisé parKarl Popper[30],[31]).
Les travaux modernes sur l'évaluation expérimentale des probabilités personnelles utilisent les procédures de randomisation, demise en aveugle et de décision booléenne de l'expérience Peirce-Jastrow[32].Puisque les individus agissent selon différents jugements de probabilité, les probabilités de ces agents sont « personnelles » (mais se prêtent à une étude objective).
Les probabilités personnelles sont problématiques pour la science et pour certaines applications où les décideurs manquent de connaissances ou de temps pour spécifier une distribution de probabilité bien informée (sur laquelle ils sont prêts à agir).Pour répondre aux besoins de la science et aux limites humaines, les statisticiens bayésiens ont développé des méthodes « objectives » pour spécifier les probabilités a priori.
En effet, les bayésiens objectivistes ont soutenu que l'état antérieur des connaissances définit uneunique distribution de probabilité a priori pour les problèmes statistiques « réguliers » (cf.problèmes bien posés).Trouver la bonne méthode pour construire de tels a priori « objectifs » (pour des classes appropriées de problèmes réguliers) a été la quête des théoriciens de la statistique depuis Laplace jusqu'àJohn Maynard Keynes,Harold Jeffreys etEdwin Thompson Jaynes.Ces théoriciens et leurs successeurs ont suggéré plusieurs méthodes pour construire des a priori « objectifs » (Malheureusement, il n'est pas clair comment évaluer « l'objectivité » relative de ces méthodes pour calculer l'a priori) :
Chacune de ces méthodes fournit des a priori utiles pour les problèmes « réguliers » à un paramètre, et chaque a priori peut gérer certainsmodèles statistiques difficiles (avec « irrégularité » ou plusieurs paramètres).Chacune de ces méthodes a été utile dans la pratique bayésienne.En effet, des méthodes de construction d'a priori « objectifs » (ou « par défaut » ou « d'ignorance ») ont été développées par des bayésiens se considérant pourtant subjectivistes, comme James Berger et José-Miguel Bernardo, simplement parce que de tels a priori sont nécessaires à la pratique bayésienne, en particulier en sciences[33].La quête de « la méthode universelle de construction des a priori » a continué d’attirer les théoriciens de la statistique[33].
Ainsi, le statisticien bayésien doit soit utiliser des a priori informés (en utilisant une expertise pertinente ou des données antérieures), soit choisir parmi les méthodes concurrentes pour construire des a priori « objectifs ».
« The works ofWald,Statistical Decision Functions (1950) and Savage,The Foundation of Statistics (1954) are commonly regarded starting points for current Bayesian approaches »
« This revolution, which may or may not succeed, is neo-Bayesianism. Jeffreys tried to introduce this approach, but did not succeed at the time in giving it general appeal. »
| Concepts |
| ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Théorie de la connaissance et problèmes associés |
| ||||||||||||||||
| Philosophie des sciences et problèmes associés | |||||||||||||||||