Un guide sur la règle de Bayes

La règle de Bayes ou le théorème de Bayes est la loi de probabilité qui régit la force de la preuve – la règle qui dit dans quelle mesure nous devons réviser nos probabilités (changer d’avis) lorsque nous apprenons un nouveau fait ou observons une nouvelle preuve.

Vous voudrez peut-être vous familiariser avec la règle de Bayes si vous êtes.. :

Un professionnel qui utilise les statistiques, comme un scientifique ou un médecin ;
Un programmeur informatique travaillant dans le domaine de l’apprentissage automatique ;
Un être humain.

Comme Philip Tetlock l’a découvert en étudiant les « super-prédicteurs », des personnes particulièrement douées pour prédire des événements futurs :⁠a

Les super-prédicteurs sont des gens qui savent compter : beaucoup connaissent le théorème de Bayes et pourraient l’appliquer s’ils estimaient que cela en valait la peine. Mais il est rare qu’ils calculent les chiffres de manière aussi explicite. Ce qui importe bien plus aux super-prédicteurs que le théorème de Bayes, c’est l’idée centrale de Bayes, qui consiste à se rapprocher progressivement de la vérité en actualisant constamment ses prévisions en fonction de l’importance des éléments de preuve.

Apprendre la règle de Bayes

Ce guide sur la règle de Bayes utilise la technologie d’Arbital pour permettre plusieurs types d’introduction. Ils varient en fonction du niveau technique, de la vitesse et des sujets abordés. Après avoir choisi votre chemin, n’oubliez pas que vous pouvez toujours passer d’une page à l’autre, notamment en utilisant les boutons « Quoi ? » et « Aller plus vite ».

Quel cas vous correspond le plus ?

Je veux avoir une compréhension théorique et pratique de base de la règle de Bayes.

Votre parcours vous enseignera la forme de base des cotes de la règle de Bayes à un rythme raisonnable. Il comprendra 3 pages :

Diagrammes de fréquence : Un premier aperçu de la règle de Bayes
Diagrammes en cascade et cotes relatives
Introduction à la règle de Bayes : Les cotes

Diagrammes de fréquence : Un premier aperçu de la règle de Bayes

Le raisonnement bayésien consiste à réviser nos croyances à la lumière des preuves.

Nous commencerons par examiner un scénario dans lequel la force des preuves est clairement chiffrée.

(Ne vous inquiétez pas si vous ne savez pas comment résoudre le problème suivant. Nous verrons bientôt comment le résoudre.)

Supposons que vous soyez une infirmière chargée de dépister une maladie appelée Maladite chez un groupe d’élèves.⁠b

Vous savez, d’après des études de population antérieures, qu’environ 20 % des élèves seront atteints de la maladie à cette période de l’année.

Vous testez la présence de la maladie à l’aide d’un abaisse-langue à couleur changeante, qui devient généralement noir si l’élève est atteint de la maladie.

Parmi les patients atteints de la maladie, 90 % font noircir l’abaisse-langue.
Cependant, l’abaisse-langue n’est pas parfait et devient noir dans 30 % des cas pour les étudiants en bonne santé.

L’un de vos élèves se présente au cabinet, passe le test et noircit l’abaisse-langue. Quelle est la probabilité qu’il soit atteint de la maladie ?

(Si vous pensez savoir comment procéder, vous pouvez essayer de résoudre ce problème avant de continuer. Pour vérifier rapidement si votre réponse est correcte, vous pouvez cliquer sur le bouton « Réponse » ci-dessous ; la dérivation sera donnée sous peu).

Ce problème peut être résolu d’une manière difficile ou d’une manière intelligente et facile. Nous commencerons par la méthode la plus difficile.

Tout d’abord, imaginons une population de 100 étudiants, dont 20 sont atteints de la maladie et 80 ne le sont pas.⁠c

90 % des étudiants malades noircissent leur abaisse-langue et 30 % des étudiants en bonne santé noircissent leur abaisse-langue. Nous voyons donc des abaisse-langue noirs sur $90\% \times 20 = 18$ étudiants malades, et $30\% \times 80 = 24$ étudiants sains.

Quelle est la probabilité qu’un élève dont l’abaisse-langue est noir soit atteint de la maladie ? D’après le diagramme, il y a 18 élèves malades avec un abaisse-langue noir. $18 + 24 = 42$ élèves au total ont noirci leur abaisse-langue. Imaginez que vous preniez un sac contenant tous les élèves ayant un abaisse-langue noir et que vous en sortiez un au hasard ; quelle est la probabilité qu’un tel élève soit malade ?

La réponse finale est qu’un patient ayant un abaisse-langue noir a une probabilité de $\frac{18}{42} = \frac{3}{7} \approx 43\%$ d’être malade.

De nombreux étudiants en médecine ont d’abord trouvé cette réponse contre-intuitive : Le test détecte correctement la maladie dans 90 % des cas ! Si le test est positif, pourquoi la probabilité que le patient soit atteint de la maladie est-elle encore inférieure à 50 % ? Eh bien, le test « détecte » également à tort la maladie dans 30 % des cas chez un patient en bonne santé, et nous commençons avec beaucoup plus de patients en bonne santé que de patients malades.

Le test fournit des éléments en faveur de la maladie du patient. La probabilité qu’un patient soit malade passe de 20 % avant le test à 43 % après avoir vu noircir l’abaisse-langue. Mais ce n’est pas concluant et nous devons effectuer d’autres tests, peut-être plus coûteux.

Si vous avez l’impression de comprendre la configuration de ce problème, essayez de répondre à la question suivante avant de poursuivre : Quelle est la probabilité qu’un élève qui ne noircit pas l’abaisse-langue – un élève dont le test est négatif – soit atteint de la maladie ? Encore une fois, nous partons de 20 % d’élèves malades et de 80 % d’élèves en bonne santé, 70 % des élèves en bonne santé obtiendront un résultat négatif, et seulement 10 % des élèves malades obtiendront un résultat négatif.

Passons maintenant à une méthode plus rapide et plus facile pour résoudre le même problème.

Diagrammes en cascade et probabilités relatives

Imaginez une chute d’eau avec deux courants d’eau au sommet, un courant rouge et un courant bleu. Ces ruisseaux s’approchent séparément du sommet de la cascade, une partie de l’eau des deux ruisseaux étant détournée en cours de route, et l’eau restante tombant dans un bassin commun en contrebas.

Au sommet de la cascade, 20 litres/seconde d’eau rouge s’écoulent et 80 litres/seconde d’eau bleue s’écoulent.
90 % de l’eau rouge arrive en bas.
30 % de l’eau bleue arrive en bas.

Parmi l’eau violette qui atteint le fond du bassin, quelle est la part de l’eau rouge et quelle est la part de l’eau bleue ?

Ce problème est structurellement identique à celui de la Maladite :

20 % des patients de la population de dépistage commencent par souffrir de la maladie.
Parmi les patients atteints de la maladie, 90 % noircissent l’abaisse-langue.
30 % des patients non atteints de la maladie noircissent également l’abaisse-langue.

Les 20 % de patients malades sont comparables aux 20 litres/seconde d’eau rouge ; les 80 % de patients en bonne santé sont comparables aux 80 litres/seconde d’eau bleue :

Les 90 % de patients malades qui tournent l’abaisse-langue en noir sont analogues à 90 % de l’eau rouge qui atteint le bas de la chute d’eau. 30 % des patients en bonne santé qui font tourner l’abaisse-langue au noir, c’est comme si 30 % de l’eau bleue atteignait le fond de la piscine.

Par conséquent, la question « quelle proportion de l’eau du bassin final provient du ruisseau rouge ? » a la même réponse que la question « quelle proportion des patients qui tournent l’abaisse-langue en noir sont atteints de la maladie ? »

Voici maintenant la façon la plus rapide de répondre à cette question.

Nous commençons avec 4 fois plus d’eau bleue que d’eau rouge au sommet de la cascade.

Chaque molécule d’eau rouge a 90 % de chances d’atteindre le bassin commun et chaque molécule d’eau bleue a 30 % de chances d’atteindre le bassin (90 % de l’eau rouge et 30 % de l’eau bleue atteignent le fond). Il est donc 3 fois plus vraisemblable ( $\frac{0,90}{0,30} = 3$ ) qu’une molécule d’eau rouge atteigne le bassin qu’une molécule d’eau bleue (chaque molécule d’eau rouge a 3 fois plus de chances qu’une molécule d’eau bleue d’atteindre le bassin).

Nous multiplions donc les proportions antérieures de $1:4$ pour l’eau rouge et l’eau bleue par le rapport de vraisemblance de $3:1$ et nous obtenons des proportions finales de $(1\cdot3):(4\cdot1) = 3:4$ , ce qui signifie que le bassin inférieur contient 3 unités d’eau rouge pour 4 unités d’eau bleue.

Pour convertir ces proportions relatives en une probabilité absolue qu’une molécule d’eau aléatoire au fond du bassin soit rouge, nous calculons $\frac{3}{3+4}$ pour conclure que 3/7ème (environ 43 %) de l’eau dans le bassin partagé provient du courant rouge.

Cette proportion est la même que les $18:24$ patients malades avec des résultats positifs, par rapport aux patients sains avec des résultats positifs, que nous obtiendrions en pensant à 100 patients.

En d’autres termes, pour résoudre le problème de Maladite dans votre tête, vous pourriez convertir ce problème formulé avec des mots :

20 % des patients d’une population de dépistage sont atteints de la maladie. 90 % des patients atteints de la maladie noircissent l’abaisse-langue et 30 % des patients non atteints de la maladie noircissent l’abaisse-langue. Étant donné qu’un patient a noirci son abaisse-langue, quelle est la probabilité qu’il soit atteint de la maladie ?

La cote initiale est de $20\%:80\% = (1:4)$ , et le rapport de vraisemblance est de $(90\%:30\%) = (3:1)$ . En multipliant ces rapports, on obtient une cote finale de $(3:4)$ , ce qui correspond à une probabilité de 3/7ème.

(Il se peut que vous ne puissiez pas convertir 3/7 en 43 % dans votre tête, mais vous pourrez peut-être constater en coup d’œil qu’il s’agit d’un peu moins de 50 %.)

Vous pouvez essayer de faire un calcul similaire pour ce problème :

90 % des gadgets sont normaux et 10 % sont défectueux.
12 % des gadgets défectueux émettent des étincelles.
Seuls 4 % des gadgets normaux émettent des étincelles.

Quel est le pourcentage de gadgets défectueux qui émettent des étincelles ? Si vous êtes suffisamment à l’aise avec le raisonnement, essayez de résoudre ce problème entièrement de tête.

(Vous pouvez essayer de visualiser une cascade avec des gadgets normaux et défectueux au sommet, et seulement des gadgets émettant des étincelles qui atteignent le bassin.)

Réponse

Il y a $(1 : 9)$ gadgets défectueux par rapport aux gadgets normaux (1 gadget défectueux pour 9 gadgets normaux).
Le rapport de vraisemblance de l’émission d’étincelles pour les gadgets défectueux par rapport aux normaux est de $(12 : 4)$ .
Cela se simplifie comme ceci : $(1 : 9) × (3 : 1) = (1 : 3)$ , soit 1 gadget défectueux émettant des étincelles pour 3 gadgets normaux émettant des étincelles.
Ce qui donne une probabilité de $1/(1+3) = 1/4 = 25\%$ , c’est-à-dire que 25 % des gadgets qui émettent des étincelles sont défectueux.

Le fait de voir des étincelles ne nous a pas fait « croire que le gadget est défectueux » ; la probabilité est seulement passée à 25 %, ce qui est inférieur à 50/50. Mais cela ne veut pas dire que nous disons « Je continue à croire que ce gadget est normal » et que nous rejetons ou ignorons les preuves. Il est relativement plus vraisemblable qu’un gadget défectueux émette des étincelles et, par conséquent, le fait de voir cette preuve devrait nous amener à penser qu’il est relativement plus vraisemblable que le gadget soit défectueux, même si la probabilité n’a pas encore dépassé 50 %. Nous augmentons notre probabilité de 10 % à 25 %.

Les cascades sont une façon de visualiser les « cotes » de la « règle de Bayes », qui stipule que la cote antérieure multipliée par le rapport de vraisemblance est égale à la cote postérieure. À son tour, cette règle peut être considérée comme une formalisation de la notion de « force de la preuve » soit « la mesure dans laquelle un élément de preuve devrait nous amener à modifier nos croyances ». Nous allons maintenant examiner cette forme plus générale.

Introduction à la règle de Bayes : Les cotes

En général, la règle de Bayes s’énonce comme suit :

Si nous considérons la visualisation de la chute d’eau de l’exemple de la Maladite, nous pouvons voir en quoi les cotes peuvent permettre de penser aux deux rivières situées au sommet de la chute d’eau.

La proportion d’eau rouge par rapport à l’eau bleue en bas sera la même qu’il y ait 200 ou 800 litres par seconde d’eau rouge par rapport à l’eau bleue en haut de la cascade, ou 20 000 ou 80 000 litres/seconde, ou encore 1 ou 4 litres/seconde. Tant que le reste de la cascade se comporte de manière proportionnelle, nous obtiendrons la même proportion d’eau rouge et d’eau bleue au bas de la cascade. Il est donc justifié d’ignorer la quantité d’eau et de ne considérer que la proportion relative entre les quantités.

De même, ce qui importe, c’est la proportion relative entre le nombre de litres d’eau rouge et d’eau bleue qui se retrouvent dans le bassin. Si 45 % et 15 % de l’eau rouge et de l’eau bleue atteignent le bassin, la proportion relative d’eau rouge et d’eau bleue dans le bassin sera la même que si les proportions étaient de 90 % et de 30 %.

Cela justifie que l’on rejette les données spécifiques selon lesquelles 90 % de l’eau rouge et 30 % de l’eau bleue atteignent le bassin, et que l’on résume ces données par un rapport de vraisemblance de $(3 : 1)$ .

Plus généralement, supposons que nous ayons un test médical qui détecte une maladie avec un taux de vrais positifs de 90 % (10 % de faux négatifs) et un taux de faux positifs de 30 % (70 % de vrais négatifs). Un résultat positif à ce test représente la même force de preuve qu’un test avec 60 % de vrais positifs et 20 % de faux positifs. Un résultat négatif à ce test représente la même force de preuve qu’un test avec 9 % de faux négatifs et 63 % de vrais négatifs.

En général, la force de la preuve est résumée par la vraisemblance relative de nos observations en fonction de différents états du monde. Pour en savoir plus sur cette idée, voir Force de la preuve bayésienne.

Pour énoncer la règle de Bayes dans toute sa généralité et la prouver sous la forme d’un théorème, nous devons introduire une nouvelle notation.

Probabilité conditionnelle

Tout d’abord, lorsque $X$ est une proposition, $P(X)$ représente la probabilité de $X$ .

En d’autres termes, $X$ est quelque chose qui est soit vrai, soit faux dans la réalité, mais dont nous ne sommes pas sûrs, et $P(X)$ est une façon d’exprimer notre degré de conviction que $X$ est vrai. Un patient est, de fait, soit malade, soit en bonne santé ; mais si on ne sait pas lequel des deux est le cas, les preuves peuvent nous amener à attribuer une probabilité subjective de 43 % que le patient soit malade.

$\neg X$ signifiera «  $X$ est faux », donc $P(\neg X)$ est la « probabilité que $X$ soit faux ».

La Maladite comportait cependant des énoncés plus compliqués que ceux-ci ; il s’agissait en particulier des énoncés suivants :

Les 90 % de chances qu’un patient noircisse l’abaisse-langue, étant donné qu’il est atteint de Maladite.
Les 30 % de chances qu’un patient noircisse l’abaisse-langue, étant donné qu’il est en bonne santé.
Les 3/7 chances qu’un patient soit atteint de la maladie, étant donné qu’il a noirci l’abaisse-langue.

Dans ces cas, nous voulons passer d’un fait supposé ou connu comme vrai (à droite) à une autre proposition (à gauche) dont nous voulons connaître la nouvelle probabilité, en tenant compte de cette hypothèse.

Les énoncés de probabilité de ce type sont connus sous le nom de « probabilités conditionnelles ». La notation standard pour les probabilités conditionnelles exprime les quantités ci-dessus comme suit :

$P(\text{norci} \mid \text{malade})=0.9$
$P(\text{norci} \mid \neg \text{malade})=0.3$
$P(\text{malade} \mid \text{norci})=\frac{3}{7}$

Cette notation standard pour $P(X \mid Y)$ signifie « la probabilité de $X$ en supposant que $Y$ est vrai » est une ligne verticale symétrique, qui a l’inconvénient de ne pas vous donner un indice visuel pour vous rappeler que l’hypothèse est à droite et la proposition déduite à gauche.

La probabilité conditionnelle est définie comme suit. En utilisant la notation $X \land Y$ pour désigner «  $X$ et $Y$  » soit «  $X$ et $Y$ sont tous les deux vrais » :

Par exemple, dans l’exemple de la Maladite, $P(\text{malade} \mid \text{norci})$ est calculée en divisant les 18 % d’élèves malades et ayant des abaisse-langues noircis ( $P(\text{malade} \land \text{norci})$ ) par le total des 42 % d’étudiants qui ont des abaisse-langue noircis $P(\text{norci})$ .

Soit $P(\text{norci} \mid \neg \text{malade})$ , la probabilité de noircir l’abaisse-langue quand on est en bonne santé, est équivalente aux 24 étudiants en bonne santé et dont l’abaisse-langue est noirci, divisés par les 80 étudiants en bonne santé. $\frac{24}{80} = \frac{3}{10}$ , ce qui correspond aux 30 % de faux positifs dont on nous a parlé au début.

Nous pouvons considérer que la loi de probabilité conditionnelle dit : « Limitons notre attention aux mondes où Y est le cas, ou à des choses pour lesquelles Y est vrai. Si l’on considère uniquement les cas où Y est vrai, combien y a-t-il de cas à l’intérieur de cette restriction où X est également vrai – les cas avec X et Y ? ».

Pour en savoir plus, voir Probabilité conditionnelle.

La règle de Bayes dit :

Dans l’exemple de la Maladite, la règle serait la suivante :

La cote antérieure se réfère à la proportion relative de patients malades par rapport aux patients en bonne santé, qui est de $(1 : 4)$ . La conversion de ces cotes en probabilités nous donne $P(\text{malade}) = \frac{1}{4+1} = \frac{1}{5} = 20\%$ .

Le rapport de vraisemblance se réfère à la chance qu’a chaque patient malade d’obtenir un résultat positif par rapport à chaque patient en bonne santé, ce qui (en utilisant la notation des probabilités conditionnelles) correspond à $\frac{P\text({positif} \mid \text{malade})}{P\text({positif} \mid \text{sain})} = \frac{0,90}{0,30}$ , soit un rapport de vraisemblance de $(3 : 1)$ .

La cote postérieure est la proportion relative de patients malades par rapport aux patients en bonne santé parmi ceux dont le test est positif, soit $\frac{P\text({malade} \mid \text{positif})}{P\text({sain} \mid \text{positif})} = \frac{3}{4}$ , soit une cote de $(3 : 4)$ .

Pour extraire la probabilité des cotes relatives, il faut garder à l’esprit que la somme des probabilités de propositions mutuellement exclusives et exhaustives doit être égale à 1, c’est-à-dire qu’il existe une probabilité de 100 % que quelque chose se produise. Étant donné que tout le monde est soit malade, soit non malade, nous pouvons normaliser la cote en la divisant par la somme des termes :

…ce qui donne les probabilités $(0,43 : 0,57)$ , proportionnelles au rapport original de (3 : 4), mais dont la somme est égale à 1. Il serait très étrange que quelque chose ait une probabilité de 3 (300 % de probabilité) de se produire.

Utilisation de la visualisation de la chute d’eau :

Nous pouvons généraliser ce principe à n’importe quelles deux hypothèses $H_j$ et $H_k$ avec la preuve p. Dans ce cas, la règle de Bayes peut s’écrire comme suit :

qui dit que « la cote postérieure pour les hypothèses $H_j$ et $H_k$ (après avoir vu la preuve p) est égale à la cote antérieure multipliée par le rapport du degré de prédiction de la preuve fourni par $H_j$ par rapport à celui de $H_k$  ».

Si $H_j$ et $H_k$ sont mutuellement exclusives et exhaustives, nous pouvons convertir la cote postérieure en une probabilité postérieure pour $H_j$ en normalisant les cotes, c’est-à-dire en divisant les cotes par la somme de ses termes, de sorte que la somme des éléments du nouveau rapport soit égale à 1.

Preuve de la règle de Bayes

Réarrangement de la définition de la probabilité conditionnelle, $P(X \land Y) = P(Y) \cdot P({X} \mid {Y})$ . Par exemple, pour trouver « la fraction de tous les patients qui sont malades et obtiennent un résultat positif », nous multiplions « la fraction des patients qui sont malades » par « la probabilité qu’un patient malade noircisse l’abaisse-langue ».

Il s’agit alors d’une preuve de la règle de Bayes :

Dans l’exemple de la Maladite, ces étapes de la preuve correspondent aux opérations :

En utilisant le rouge pour les malades, le bleu pour les personnes en bonne santé, le gris pour un mélange de patients malades et en bonne santé, et les signes + pour les résultats de test positifs, les étapes de calcul peuvent être visualisées comme suit :

Ce processus d’observation des preuves et d’utilisation de leur rapport de vraisemblance pour transformer une croyance antérieure en une croyance postérieure est appelé « mise à jour bayésienne » ou « révision de la croyance ».

Pour la généralisation des cotes de la règle de Bayes à des hypothèses multiples et à des éléments de preuve multiples, voir la règle de Bayes : Forme vectorielle.
Pour une transformation des cotes qui rend la force des preuves encore plus directement visible, voir Règle de Bayes : Forme logarithmique.

Publication originale : Centre for Effective Altruism (2022) Bayes’ rule: Guide, Effective Altruism Forum.

\text{Cote antérieure} \times \text{Rapport de vraisemblance} = \text{Cote postérieure}

P(X \mid Y) := \frac{P(X \land Y)}{P(Y)}

\text{Cote antérieure} \times \text{Rapport de vraisemblance} = \text{Cote postérieure}

\frac{P(\text{malade})}{P(\text{sain})} \times \frac{P(\text{noirci} \mid \text{malade})}{P(\text{noirci} \mid \text{sain})} = \frac{P(\text{malade} \mid \text{noirci})}{P(\text{sain} \mid \text{noirci})}

\left(\frac{3}{3+4} : \frac{4}{3+4}\right) = \left(\frac{3}{7} : \frac{4}{7}\right) \approx (0,43 : 0,57)

\frac{P(H_j)}{P(H_k)} \times \frac{P({e}\mid{H_j})}{P({e}\mid{H_k})} = \frac{P({H_j}\mid{e})}{P({H_k}\mid{e})}

\frac{P(H_j)}{P(H_k)} \cdot \frac{P({e_0} \mid {H_j})}{P({e_0}\mid{H_k})} = \frac{P(e_0 \land H_j)}{P(e_0 \land H_k)} = \frac{P(H_j \land e_0)/P(e_0)}{P(H_k \land e_0)/P(e_0)} = \frac{P({H_j}\mid{e_0})}{P({H_k}\mid{e_0})}

\frac{0,20}{0,80} \cdot \frac{0,90}{0,30} = \frac{0,18}{0,24} = \frac{0,18/0,42}{0,24/0,42} = \frac{0,43}{0,57}

Préférences utilisateur

Préférences utilisateur

Un guide sur la règle de Bayes

Apprendre la règle de Bayes

Diagrammes de fréquence : Un premier aperçu de la règle de Bayes

Diagrammes en cascade et probabilités relatives

Introduction à la règle de Bayes : Les cotes

L’équation

Probabilité conditionnelle

Règle de Bayes

Preuve de la règle de Bayes

Préférences utilisateur

Préférences utilisateur

Un guide sur la règle de Bayes

Apprendre la règle de Bayes

Diagrammes de fréquence : Un premier aperçu de la règle de Bayes

Diagrammes en cascade et probabilités relatives

Introduction à la règle de Bayes : Les cotes

L’équation

Probabilité conditionnelle

Règle de Bayes

Preuve de la règle de Bayes

Diagrammes de fréquence : Un premier aperçu de la règle de Bayes

Introduction à la règle de Bayes : Les cotes