Un guide sur la règle de Bayes

par Centre for Effective Altruism
Théorème de Bayes

La règle de Bayes ou le théorème de Bayes est la loi de probabilité qui régit la force de la preuve – la règle qui dit dans quelle mesure nous devons réviser nos probabilités (changer d’avis) lorsque nous apprenons un nouveau fait ou observons une nouvelle preuve.

Vous voudrez peut-être vous familiariser avec la règle de Bayes si vous êtes.. :

  • Un professionnel qui utilise les statistiques, comme un scientifique ou un médecin ;
  • Un programmeur informatique travaillant dans le domaine de l’apprentissage automatique ;
  • Un être humain.

Comme Philip Tetlock l’a découvert en étudiant les « super-prédicteurs », des personnes particulièrement douées pour prédire des événements futurs :⁠a

Les super-prédicteurs sont des gens qui savent compter : beaucoup connaissent le théorème de Bayes et pourraient l’appliquer s’ils estimaient que cela en valait la peine. Mais il est rare qu’ils calculent les chiffres de manière aussi explicite. Ce qui importe bien plus aux super-prédicteurs que le théorème de Bayes, c’est l’idée centrale de Bayes, qui consiste à se rapprocher progressivement de la vérité en actualisant constamment ses prévisions en fonction de l’importance des éléments de preuve.

Apprendre la règle de Bayes

Ce guide sur la règle de Bayes utilise la technologie d’Arbital pour permettre plusieurs types d’introduction. Ils varient en fonction du niveau technique, de la vitesse et des sujets abordés. Après avoir choisi votre chemin, n’oubliez pas que vous pouvez toujours passer d’une page à l’autre, notamment en utilisant les boutons « Quoi ? » et « Aller plus vite ».

Quel cas vous correspond le plus ?

Je veux avoir une compréhension théorique et pratique de base de la règle de Bayes.

Votre parcours vous enseignera la forme de base des cotes de la règle de Bayes à un rythme raisonnable. Il comprendra 3 pages :

  • Diagrammes de fréquence : Un premier aperçu de la règle de Bayes
  • Diagrammes en cascade et cotes relatives
  • Introduction à la règle de Bayes : Les cotes

Diagrammes de fréquence : Un premier aperçu de la règle de Bayes

Le raisonnement bayésien consiste à réviser nos croyances à la lumière des preuves.

Nous commencerons par examiner un scénario dans lequel la force des preuves est clairement chiffrée.

(Ne vous inquiétez pas si vous ne savez pas comment résoudre le problème suivant. Nous verrons bientôt comment le résoudre.)

Supposons que vous soyez une infirmière chargée de dépister une maladie appelée Maladite chez un groupe d’élèves.⁠b

  • Vous savez, d’après des études de population antérieures, qu’environ 20 % des élèves seront atteints de la maladie à cette période de l’année.

Vous testez la présence de la maladie à l’aide d’un abaisse-langue à couleur changeante, qui devient généralement noir si l’élève est atteint de la maladie.

  • Parmi les patients atteints de la maladie, 90 % font noircir l’abaisse-langue.
  • Cependant, l’abaisse-langue n’est pas parfait et devient noir dans 30 % des cas pour les étudiants en bonne santé.

L’un de vos élèves se présente au cabinet, passe le test et noircit l’abaisse-langue. Quelle est la probabilité qu’il soit atteint de la maladie ?

(Si vous pensez savoir comment procéder, vous pouvez essayer de résoudre ce problème avant de continuer. Pour vérifier rapidement si votre réponse est correcte, vous pouvez cliquer sur le bouton « Réponse » ci-dessous ; la dérivation sera donnée sous peu).

Réponse

La probabilité qu’un élève ayant un abaisse-langue noirci soit atteint de la maladie est de 3/7, soit environ 43 %.

Ce problème peut être résolu d’une manière difficile ou d’une manière intelligente et facile. Nous commencerons par la méthode la plus difficile.

Tout d’abord, imaginons une population de 100 étudiants, dont 20 sont atteints de la maladie et 80 ne le sont pas.⁠c

Diagramme de fréquence montrant 100 étudiants : 20 étudiants malades (représentés en rouge) et 80 étudiants sains (représentés en bleu), illustrant la prévalence de base de la maladie dans la population.

90 % des étudiants malades noircissent leur abaisse-langue et 30 % des étudiants en bonne santé noircissent leur abaisse-langue. Nous voyons donc des abaisse-langue noirs sur 90%×20=1890\% \times 20 = 1890%×20=18 étudiants malades, et 30%×80=2430\% \times 80 = 2430%×80=24 étudiants sains.

Diagramme montrant les résultats du test : 18 étudiants malades avec abaisse-langue noir (vrais positifs) et 24 étudiants sains avec abaisse-langue noir (faux positifs), soit un total de 42 tests positifs.

Quelle est la probabilité qu’un élève dont l’abaisse-langue est noir soit atteint de la maladie ? D’après le diagramme, il y a 18 élèves malades avec un abaisse-langue noir. 18+24=4218 + 24 = 4218+24=42 élèves au total ont noirci leur abaisse-langue. Imaginez que vous preniez un sac contenant tous les élèves ayant un abaisse-langue noir et que vous en sortiez un au hasard ; quelle est la probabilité qu’un tel élève soit malade ?

Illustration d'un sac contenant 42 étudiants ayant tous un test positif : 18 malades (en rouge) et 24 sains (en bleu). La sélection aléatoire d'un étudiant de ce sac donne 18/42 = 3/7 de chances qu'il soit malade.

La réponse finale est qu’un patient ayant un abaisse-langue noir a une probabilité de 1842=37≈43%\frac{18}{42} = \frac{3}{7} \approx 43\%4218​=73​≈43% d’être malade.

De nombreux étudiants en médecine ont d’abord trouvé cette réponse contre-intuitive : Le test détecte correctement la maladie dans 90 % des cas ! Si le test est positif, pourquoi la probabilité que le patient soit atteint de la maladie est-elle encore inférieure à 50 % ? Eh bien, le test « détecte » également à tort la maladie dans 30 % des cas chez un patient en bonne santé, et nous commençons avec beaucoup plus de patients en bonne santé que de patients malades.

Le test fournit des éléments en faveur de la maladie du patient. La probabilité qu’un patient soit malade passe de 20 % avant le test à 43 % après avoir vu noircir l’abaisse-langue. Mais ce n’est pas concluant et nous devons effectuer d’autres tests, peut-être plus coûteux.

Si vous avez l’impression de comprendre la configuration de ce problème, essayez de répondre à la question suivante avant de poursuivre : Quelle est la probabilité qu’un élève qui ne noircit pas l’abaisse-langue – un élève dont le test est négatif – soit atteint de la maladie ? Encore une fois, nous partons de 20 % d’élèves malades et de 80 % d’élèves en bonne santé, 70 % des élèves en bonne santé obtiendront un résultat négatif, et seulement 10 % des élèves malades obtiendront un résultat négatif.

Réponse

Imaginons 20 élèves malades et 80 élèves en bonne santé. 10%×20=210\% \times 20 = 210%×20=2 étudiants malades ont un résultat négatif. 70%×80=5670\% \times 80 = 5670%×80=56 étudiants en bonne santé ont un résultat négatif. Parmi les 2+56=582 + 56 = 582+56=58 étudiants totaux dont le test est négatif, 2 étudiants sont des étudiants malades dont le test est négatif. Ainsi, 258=129≈3,4%\frac{2}{58} = \frac{1}{29} \approx 3,4\%582​=291​≈3,4% des étudiants dont le test est négatif sont atteints de la maladie.

Passons maintenant à une méthode plus rapide et plus facile pour résoudre le même problème.

Diagrammes en cascade et probabilités relatives

Imaginez une chute d’eau avec deux courants d’eau au sommet, un courant rouge et un courant bleu. Ces ruisseaux s’approchent séparément du sommet de la cascade, une partie de l’eau des deux ruisseaux étant détournée en cours de route, et l’eau restante tombant dans un bassin commun en contrebas.

Diagramme en cascade montrant deux flux d'eau : un flux rouge (représentant les patients malades) et un flux bleu (représentant les patients sains) qui se dirigent vers un bassin commun en bas, illustrant l'analogie de la cascade pour la règle de Bayes.

Supposons que :

  • Au sommet de la cascade, 20 litres/seconde d’eau rouge s’écoulent et 80 litres/seconde d’eau bleue s’écoulent.
  • 90 % de l’eau rouge arrive en bas.
  • 30 % de l’eau bleue arrive en bas.

Parmi l’eau violette qui atteint le fond du bassin, quelle est la part de l’eau rouge et quelle est la part de l’eau bleue ?

Ce problème est structurellement identique à celui de la Maladite :

  • 20 % des patients de la population de dépistage commencent par souffrir de la maladie.
  • Parmi les patients atteints de la maladie, 90 % noircissent l’abaisse-langue.
  • 30 % des patients non atteints de la maladie noircissent également l’abaisse-langue.

Les 20 % de patients malades sont comparables aux 20 litres/seconde d’eau rouge ; les 80 % de patients en bonne santé sont comparables aux 80 litres/seconde d’eau bleue :

Diagramme en cascade étiquetant les proportions initiales : 20 % pour le flux rouge (malades) et 80 % pour le flux bleu (sains), montrant l'équivalence entre l'eau colorée et les populations de patients.

Les 90 % de patients malades qui tournent l’abaisse-langue en noir sont analogues à 90 % de l’eau rouge qui atteint le bas de la chute d’eau. 30 % des patients en bonne santé qui font tourner l’abaisse-langue au noir, c’est comme si 30 % de l’eau bleue atteignait le fond de la piscine.

Diagramme en cascade montrant les taux de transmission : 90 % de l'eau rouge (sensibilité du test) et 30 % de l'eau bleue (taux de faux positifs) atteignent le bassin final, représentant les performances du test médical.

Par conséquent, la question « quelle proportion de l’eau du bassin final provient du ruisseau rouge ? » a la même réponse que la question « quelle proportion des patients qui tournent l’abaisse-langue en noir sont atteints de la maladie ? »

Voici maintenant la façon la plus rapide de répondre à cette question.

Nous commençons avec 4 fois plus d’eau bleue que d’eau rouge au sommet de la cascade.

Chaque molécule d’eau rouge a 90 % de chances d’atteindre le bassin commun et chaque molécule d’eau bleue a 30 % de chances d’atteindre le bassin (90 % de l’eau rouge et 30 % de l’eau bleue atteignent le fond). Il est donc 3 fois plus vraisemblable (0,900,30=3\frac{0,90}{0,30} = 30,300,90​=3) qu’une molécule d’eau rouge atteigne le bassin qu’une molécule d’eau bleue (chaque molécule d’eau rouge a 3 fois plus de chances qu’une molécule d’eau bleue d’atteindre le bassin).

Nous multiplions donc les proportions antérieures de 1:41:41:4 pour l’eau rouge et l’eau bleue par le rapport de vraisemblance de 3:13:13:1 et nous obtenons des proportions finales de (1⋅3):(4⋅1)=3:4(1\cdot3):(4\cdot1) = 3:4(1⋅3):(4⋅1)=3:4, ce qui signifie que le bassin inférieur contient 3 unités d’eau rouge pour 4 unités d’eau bleue.

Diagramme en cascade résolvant le problème : proportions initiales (1:4) multipliées par le rapport de vraisemblance (3:1) donnent les proportions finales (3:4), montrant 3 parts d'eau rouge pour 4 parts d'eau bleue dans le bassin final.

Pour convertir ces proportions relatives en une probabilité absolue qu’une molécule d’eau aléatoire au fond du bassin soit rouge, nous calculons 33+4\frac{3}{3+4}3+43​ pour conclure que 3/7ème (environ 43 %) de l’eau dans le bassin partagé provient du courant rouge.

Cette proportion est la même que les 18:2418:2418:24 patients malades avec des résultats positifs, par rapport aux patients sains avec des résultats positifs, que nous obtiendrions en pensant à 100 patients.

En d’autres termes, pour résoudre le problème de Maladite dans votre tête, vous pourriez convertir ce problème formulé avec des mots :

20 % des patients d’une population de dépistage sont atteints de la maladie. 90 % des patients atteints de la maladie noircissent l’abaisse-langue et 30 % des patients non atteints de la maladie noircissent l’abaisse-langue. Étant donné qu’un patient a noirci son abaisse-langue, quelle est la probabilité qu’il soit atteint de la maladie ?

Dans ce calcul :

La cote initiale est de 20%:80%=(1:4)20\%:80\% = (1:4)20%:80%=(1:4), et le rapport de vraisemblance est de (90%:30%)=(3:1)(90\%:30\%) = (3:1)(90%:30%)=(3:1). En multipliant ces rapports, on obtient une cote finale de (3:4)(3:4)(3:4), ce qui correspond à une probabilité de 3/7ème.

(Il se peut que vous ne puissiez pas convertir 3/7 en 43 % dans votre tête, mais vous pourrez peut-être constater en coup d’œil qu’il s’agit d’un peu moins de 50 %.)

Vous pouvez essayer de faire un calcul similaire pour ce problème :

  • 90 % des gadgets sont normaux et 10 % sont défectueux.
  • 12 % des gadgets défectueux émettent des étincelles.
  • Seuls 4 % des gadgets normaux émettent des étincelles.

Quel est le pourcentage de gadgets défectueux qui émettent des étincelles ? Si vous êtes suffisamment à l’aise avec le raisonnement, essayez de résoudre ce problème entièrement de tête.

(Vous pouvez essayer de visualiser une cascade avec des gadgets normaux et défectueux au sommet, et seulement des gadgets émettant des étincelles qui atteignent le bassin.)

Réponse

  • Il y a (1:9)(1 : 9)(1:9) gadgets défectueux par rapport aux gadgets normaux (1 gadget défectueux pour 9 gadgets normaux).
  • Le rapport de vraisemblance de l’émission d’étincelles pour les gadgets défectueux par rapport aux normaux est de (12:4)(12 : 4)(12:4).
  • Cela se simplifie comme ceci : (1:9)×(3:1)=(1:3)(1 : 9) × (3 : 1) = (1 : 3)(1:9)×(3:1)=(1:3), soit 1 gadget défectueux émettant des étincelles pour 3 gadgets normaux émettant des étincelles.
  • Ce qui donne une probabilité de 1/(1+3)=1/4=25%1/(1+3) = 1/4 = 25\%1/(1+3)=1/4=25%, c’est-à-dire que 25 % des gadgets qui émettent des étincelles sont défectueux.

Le fait de voir des étincelles ne nous a pas fait « croire que le gadget est défectueux » ; la probabilité est seulement passée à 25 %, ce qui est inférieur à 50/50. Mais cela ne veut pas dire que nous disons « Je continue à croire que ce gadget est normal » et que nous rejetons ou ignorons les preuves. Il est relativement plus vraisemblable qu’un gadget défectueux émette des étincelles et, par conséquent, le fait de voir cette preuve devrait nous amener à penser qu’il est relativement plus vraisemblable que le gadget soit défectueux, même si la probabilité n’a pas encore dépassé 50 %. Nous augmentons notre probabilité de 10 % à 25 %.

Les cascades sont une façon de visualiser les « cotes » de la « règle de Bayes », qui stipule que la cote antérieure multipliée par le rapport de vraisemblance est égale à la cote postérieure. À son tour, cette règle peut être considérée comme une formalisation de la notion de « force de la preuve » soit « la mesure dans laquelle un élément de preuve devrait nous amener à modifier nos croyances ». Nous allons maintenant examiner cette forme plus générale.

Introduction à la règle de Bayes : Les cotes

En général, la règle de Bayes s’énonce comme suit :

Cote anteˊrieure×Rapport de vraisemblance=Cote posteˊrieure\text{Cote antérieure} \times \text{Rapport de vraisemblance} = \text{Cote postérieure}Cote anteˊrieure×Rapport de vraisemblance=Cote posteˊrieure

Si nous considérons la visualisation de la chute d’eau de l’exemple de la Maladite, nous pouvons voir en quoi les cotes peuvent permettre de penser aux deux rivières situées au sommet de la chute d’eau.

Diagramme en cascade illustrant le concept de cotes dans la règle de Bayes : deux flux (20 % rouge, 80 % bleu) au sommet représentent les proportions relatives plutôt que les quantités absolues, montrant que seuls les rapports importent.

La proportion d’eau rouge par rapport à l’eau bleue en bas sera la même qu’il y ait 200 ou 800 litres par seconde d’eau rouge par rapport à l’eau bleue en haut de la cascade, ou 20 000 ou 80 000 litres/seconde, ou encore 1 ou 4 litres/seconde. Tant que le reste de la cascade se comporte de manière proportionnelle, nous obtiendrons la même proportion d’eau rouge et d’eau bleue au bas de la cascade. Il est donc justifié d’ignorer la quantité d’eau et de ne considérer que la proportion relative entre les quantités.

De même, ce qui importe, c’est la proportion relative entre le nombre de litres d’eau rouge et d’eau bleue qui se retrouvent dans le bassin. Si 45 % et 15 % de l’eau rouge et de l’eau bleue atteignent le bassin, la proportion relative d’eau rouge et d’eau bleue dans le bassin sera la même que si les proportions étaient de 90 % et de 30 %.

Comparaison de deux diagrammes en cascade montrant que différents pourcentages absolus (90 %/30 % vs 45 %/15 %) produisent le même rapport de vraisemblance relatif (3:1), démontrant que seules les proportions relatives comptent pour la force de la preuve.

Cela justifie que l’on rejette les données spécifiques selon lesquelles 90 % de l’eau rouge et 30 % de l’eau bleue atteignent le bassin, et que l’on résume ces données par un rapport de vraisemblance de (3:1)(3 : 1)(3:1).

Plus généralement, supposons que nous ayons un test médical qui détecte une maladie avec un taux de vrais positifs de 90 % (10 % de faux négatifs) et un taux de faux positifs de 30 % (70 % de vrais négatifs). Un résultat positif à ce test représente la même force de preuve qu’un test avec 60 % de vrais positifs et 20 % de faux positifs. Un résultat négatif à ce test représente la même force de preuve qu’un test avec 9 % de faux négatifs et 63 % de vrais négatifs.

En général, la force de la preuve est résumée par la vraisemblance relative de nos observations en fonction de différents états du monde. Pour en savoir plus sur cette idée, voir Force de la preuve bayésienne.

L’équation

Pour énoncer la règle de Bayes dans toute sa généralité et la prouver sous la forme d’un théorème, nous devons introduire une nouvelle notation.

Probabilité conditionnelle

Tout d’abord, lorsque XXX est une proposition, P(X)P(X)P(X) représente la probabilité de XXX.

En d’autres termes, XXX est quelque chose qui est soit vrai, soit faux dans la réalité, mais dont nous ne sommes pas sûrs, et P(X)P(X)P(X) est une façon d’exprimer notre degré de conviction que XXX est vrai. Un patient est, de fait, soit malade, soit en bonne santé ; mais si on ne sait pas lequel des deux est le cas, les preuves peuvent nous amener à attribuer une probabilité subjective de 43 % que le patient soit malade.

¬X\neg X¬X signifiera « XXX est faux », donc P(¬X)P(\neg X)P(¬X) est la « probabilité que XXX soit faux ».

La Maladite comportait cependant des énoncés plus compliqués que ceux-ci ; il s’agissait en particulier des énoncés suivants :

  • Les 90 % de chances qu’un patient noircisse l’abaisse-langue, étant donné qu’il est atteint de Maladite.
  • Les 30 % de chances qu’un patient noircisse l’abaisse-langue, étant donné qu’il est en bonne santé.
  • Les 3/7 chances qu’un patient soit atteint de la maladie, étant donné qu’il a noirci l’abaisse-langue.

Dans ces cas, nous voulons passer d’un fait supposé ou connu comme vrai (à droite) à une autre proposition (à gauche) dont nous voulons connaître la nouvelle probabilité, en tenant compte de cette hypothèse.

Les énoncés de probabilité de ce type sont connus sous le nom de « probabilités conditionnelles ». La notation standard pour les probabilités conditionnelles exprime les quantités ci-dessus comme suit :

  • P(norci∣malade)=0.9P(\text{norci} \mid \text{malade})=0.9P(norci∣malade)=0.9
  • P(norci∣¬malade)=0.3P(\text{norci} \mid \neg \text{malade})=0.3P(norci∣¬malade)=0.3
  • P(malade∣norci)=37P(\text{malade} \mid \text{norci})=\frac{3}{7}P(malade∣norci)=73​

Cette notation standard pour P(X∣Y)P(X \mid Y)P(X∣Y) signifie « la probabilité de XXX en supposant que YYY est vrai » est une ligne verticale symétrique, qui a l’inconvénient de ne pas vous donner un indice visuel pour vous rappeler que l’hypothèse est à droite et la proposition déduite à gauche.

La probabilité conditionnelle est définie comme suit. En utilisant la notation X∧YX \land YX∧Y pour désigner « XXX et YYY » soit « XXX et YYY sont tous les deux vrais » :

P(X∣Y):=P(X∧Y)P(Y)P(X \mid Y) := \frac{P(X \land Y)}{P(Y)}P(X∣Y):=P(Y)P(X∧Y)​

Par exemple, dans l’exemple de la Maladite, P(malade∣norci)P(\text{malade} \mid \text{norci})P(malade∣norci) est calculée en divisant les 18 % d’élèves malades et ayant des abaisse-langues noircis (P(malade∧norci)P(\text{malade} \land \text{norci})P(malade∧norci)) par le total des 42 % d’étudiants qui ont des abaisse-langue noircis P(norci)P(\text{norci})P(norci).

Soit P(norci∣¬malade)P(\text{norci} \mid \neg \text{malade})P(norci∣¬malade), la probabilité de noircir l’abaisse-langue quand on est en bonne santé, est équivalente aux 24 étudiants en bonne santé et dont l’abaisse-langue est noirci, divisés par les 80 étudiants en bonne santé. 2480=310\frac{24}{80} = \frac{3}{10}8024​=103​, ce qui correspond aux 30 % de faux positifs dont on nous a parlé au début.

Nous pouvons considérer que la loi de probabilité conditionnelle dit : « Limitons notre attention aux mondes où Y est le cas, ou à des choses pour lesquelles Y est vrai. Si l’on considère uniquement les cas où Y est vrai, combien y a-t-il de cas à l’intérieur de cette restriction où X est également vrai – les cas avec X et Y ? ».

Pour en savoir plus, voir Probabilité conditionnelle.

Règle de Bayes

La règle de Bayes dit :

Cote anteˊrieure×Rapport de vraisemblance=Cote posteˊrieure\text{Cote antérieure} \times \text{Rapport de vraisemblance} = \text{Cote postérieure}Cote anteˊrieure×Rapport de vraisemblance=Cote posteˊrieure

Dans l’exemple de la Maladite, la règle serait la suivante :

P(malade)P(sain)×P(noirci∣malade)P(noirci∣sain)=P(malade∣noirci)P(sain∣noirci)\frac{P(\text{malade})}{P(\text{sain})} \times \frac{P(\text{noirci} \mid \text{malade})}{P(\text{noirci} \mid \text{sain})} = \frac{P(\text{malade} \mid \text{noirci})}{P(\text{sain} \mid \text{noirci})}P(sain)P(malade)​×P(noirci∣sain)P(noirci∣malade)​=P(sain∣noirci)P(malade∣noirci)​

La cote antérieure se réfère à la proportion relative de patients malades par rapport aux patients en bonne santé, qui est de (1:4)(1 : 4)(1:4). La conversion de ces cotes en probabilités nous donne P(malade)=14+1=15=20%P(\text{malade}) = \frac{1}{4+1} = \frac{1}{5} = 20\%P(malade)=4+11​=51​=20%.

Le rapport de vraisemblance se réfère à la chance qu’a chaque patient malade d’obtenir un résultat positif par rapport à chaque patient en bonne santé, ce qui (en utilisant la notation des probabilités conditionnelles) correspond à P(positif∣malade)P(positif∣sain)=0,900,30\frac{P\text({positif} \mid \text{malade})}{P\text({positif} \mid \text{sain})} = \frac{0,90}{0,30}P(positif∣sain)P(positif∣malade)​=0,300,90​, soit un rapport de vraisemblance de (3:1)(3 : 1)(3:1).

La cote postérieure est la proportion relative de patients malades par rapport aux patients en bonne santé parmi ceux dont le test est positif, soit P(malade∣positif)P(sain∣positif)=34\frac{P\text({malade} \mid \text{positif})}{P\text({sain} \mid \text{positif})} = \frac{3}{4}P(sain∣positif)P(malade∣positif)​=43​, soit une cote de (3:4)(3 : 4)(3:4).

Pour extraire la probabilité des cotes relatives, il faut garder à l’esprit que la somme des probabilités de propositions mutuellement exclusives et exhaustives doit être égale à 1, c’est-à-dire qu’il existe une probabilité de 100 % que quelque chose se produise. Étant donné que tout le monde est soit malade, soit non malade, nous pouvons normaliser la cote en la divisant par la somme des termes :

(33+4:43+4)=(37:47)≈(0,43:0,57)\left(\frac{3}{3+4} : \frac{4}{3+4}\right) = \left(\frac{3}{7} : \frac{4}{7}\right) \approx (0,43 : 0,57)(3+43​:3+44​)=(73​:74​)≈(0,43:0,57)

…ce qui donne les probabilités (0,43:0,57)(0,43 : 0,57)(0,43:0,57), proportionnelles au rapport original de (3 : 4), mais dont la somme est égale à 1. Il serait très étrange que quelque chose ait une probabilité de 3 (300 % de probabilité) de se produire.

Utilisation de la visualisation de la chute d’eau :

Diagramme en cascade illustrant le calcul complet de la règle de Bayes : cotes antérieures (1:4) × rapport de vraisemblance (3:1) = cotes postérieures (3:4), puis normalisation pour obtenir P(malade|positif) = 3/7 ≈ 43 %.

Nous pouvons généraliser ce principe à n’importe quelles deux hypothèses HjH_jHj​ et HkH_kHk​ avec la preuve p. Dans ce cas, la règle de Bayes peut s’écrire comme suit :

P(Hj)P(Hk)×P(e∣Hj)P(e∣Hk)=P(Hj∣e)P(Hk∣e)\frac{P(H_j)}{P(H_k)} \times \frac{P({e}\mid{H_j})}{P({e}\mid{H_k})} = \frac{P({H_j}\mid{e})}{P({H_k}\mid{e})}P(Hk​)P(Hj​)​×P(e∣Hk​)P(e∣Hj​)​=P(Hk​∣e)P(Hj​∣e)​

qui dit que « la cote postérieure pour les hypothèses HjH_jHj​ et HkH_kHk​ (après avoir vu la preuve p) est égale à la cote antérieure multipliée par le rapport du degré de prédiction de la preuve fourni par HjH_jHj​ par rapport à celui de HkH_kHk​ ».

Si HjH_jHj​ et HkH_kHk​ sont mutuellement exclusives et exhaustives, nous pouvons convertir la cote postérieure en une probabilité postérieure pour HjH_jHj​ en normalisant les cotes, c’est-à-dire en divisant les cotes par la somme de ses termes, de sorte que la somme des éléments du nouveau rapport soit égale à 1.

Preuve de la règle de Bayes

Réarrangement de la définition de la probabilité conditionnelle, P(X∧Y)=P(Y)⋅P(X∣Y)P(X \land Y) = P(Y) \cdot P({X} \mid {Y})P(X∧Y)=P(Y)⋅P(X∣Y). Par exemple, pour trouver « la fraction de tous les patients qui sont malades et obtiennent un résultat positif », nous multiplions « la fraction des patients qui sont malades » par « la probabilité qu’un patient malade noircisse l’abaisse-langue ».

Il s’agit alors d’une preuve de la règle de Bayes :

P(Hj)P(Hk)⋅P(e0∣Hj)P(e0∣Hk)=P(e0∧Hj)P(e0∧Hk)=P(Hj∧e0)/P(e0)P(Hk∧e0)/P(e0)=P(Hj∣e0)P(Hk∣e0)\frac{P(H_j)}{P(H_k)} \cdot \frac{P({e_0} \mid {H_j})}{P({e_0}\mid{H_k})} = \frac{P(e_0 \land H_j)}{P(e_0 \land H_k)} = \frac{P(H_j \land e_0)/P(e_0)}{P(H_k \land e_0)/P(e_0)} = \frac{P({H_j}\mid{e_0})}{P({H_k}\mid{e_0})}P(Hk​)P(Hj​)​⋅P(e0​∣Hk​)P(e0​∣Hj​)​=P(e0​∧Hk​)P(e0​∧Hj​)​=P(Hk​∧e0​)/P(e0​)P(Hj​∧e0​)/P(e0​)​=P(Hk​∣e0​)P(Hj​∣e0​)​

CQFD.

Dans l’exemple de la Maladite, ces étapes de la preuve correspondent aux opérations :

0,200,80⋅0,900,30=0,180,24=0,18/0,420,24/0,42=0,430,57\frac{0,20}{0,80} \cdot \frac{0,90}{0,30} = \frac{0,18}{0,24} = \frac{0,18/0,42}{0,24/0,42} = \frac{0,43}{0,57}0,800,20​⋅0,300,90​=0,240,18​=0,24/0,420,18/0,42​=0,570,43​

En utilisant le rouge pour les malades, le bleu pour les personnes en bonne santé, le gris pour un mélange de patients malades et en bonne santé, et les signes + pour les résultats de test positifs, les étapes de calcul peuvent être visualisées comme suit :

Séquence visuelle montrant les étapes algébriques de la preuve de la règle de Bayes : multiplication des cotes antérieures par le rapport de vraisemblance, transformation en probabilités jointes, puis normalisation pour obtenir les probabilités conditionnelles postérieures.

Ce processus d’observation des preuves et d’utilisation de leur rapport de vraisemblance pour transformer une croyance antérieure en une croyance postérieure est appelé « mise à jour bayésienne » ou « révision de la croyance ».

  • Pour la généralisation des cotes de la règle de Bayes à des hypothèses multiples et à des éléments de preuve multiples, voir la règle de Bayes : Forme vectorielle.
  • Pour une transformation des cotes qui rend la force des preuves encore plus directement visible, voir Règle de Bayes : Forme logarithmique.

Publication originale : Centre for Effective Altruism (2022) Bayes’ rule: Guide, Effective Altruism Forum.