Introduction au raisonnement Bayésien et à ses applications

Introduction au raisonnement Bayésien et à ses applications

Pasteur de l’Église presbytérienne et mathématicien britannique, le révérend Thomas Bayes (~1701-1761) étudie la logique et la théologie à l’université d’Édimbourg. Divers travaux, dont une introduction au calcul différentiel, le font élire à la Royal Society le 4 novembre 1742. Ce n’est qu’après la mort de Bayes, en 1761, que son ami Richard Price retrouve, dans ses papiers, un Essai sur la manière de résoudre un problème dans la doctrine des risques. Publié par la Royal Society en 1763, cet essai applique le principe d’inférence que nous connaissons aujourd’hui sous le nom de « règle de Bayes ». Sans nier l’inventivité de Bayes, on s’accorde aujourd’hui à penser que sa règle n’est qu’une application simple de la règle du produit en théorie des probabilités, déjà connue de Bernoulli et de De Moivre, et dont Laplace (1774) percevra, le premier, le très vaste champ d’applications.

De quoi s’agit-il ? Les principes du raisonnement bayésien étendent, à des valeurs continues de plausibilité, les principes de la logique classique avec des valeurs de vérité discrètes. Il est d’ailleurs possible de les déduire des axiomes que doivent vérifier ces plausibilités (Jaynes, 2003). Brièvement : on suppose que (1) les degrés de plausibilité sont représentés par des nombres réels ; (2) ces valeurs suivent des règles de bon sens, suivant ainsi la célèbre formule de Laplace (« la théorie des probabilités n’est au fond que le bon sens réduit au calcul ») ; (3) aucune des données disponibles n’est ignorée ; (4) des états de connaissance équivalents ont le même degré de plausibilité. Le théorème de Cox-Jaynes montre que ces règles suffisent à définir, à une fonction monotone près, des règles mathématiques universelles pour la plausibilité p. Celles-ci sont les règles habituelles de la probabilité et la règle fondamentale « de Bayes » :

p(A & B) = p(A|B) p(B) = p(B|A) p(A)

Point important, dans la théorie bayésienne, ces probabilités p ne sont plus interprétées comme les fréquences relatives d’événements (point de vue « fréquentiste »), mais comme des mesures du degré de connaissance subjective. Cette acception est bien couverte par le terme de « plausibilité », mais étant donné l’équivalence que nous venons de présenter, dans ce qui suit, nous continuerons à utiliser également le terme usuel de probabilité.

La théorie des probabilités, telle qu’elle est enseignée, est surtout utilisée pour calculer la probabilité d’une observation D, étant donné certaines hypothèses H sur l’état du monde. Cependant, les données d’observation D et les hypothèses H jouant des rôles symétriques, rien n’empêche de poser la question inverse : étant donnée une observation D, quelle est la plausibilité de l’hypothèse H ? La règle fondamentale répond à cette interrogation :

p(H|D) = p(D|H) p(H) / p(D) ou p(H|D) α p(D|H) p(H)

Dans cette équation, p(H) est appelée probabilité a priori de H (prior en anglais) (notons qu’il ne s’agit pas nécessairement d’une connaissance indépendante de l’expérience, au contraire, l’a priori résulte souvent d’expériences antérieures). p(H|D) est la probabilité a posteriori de H (ce terme n’étant pas nécessairement à prendre dans son sens temporel, mais plutôt au sein d’une déduction logique : après avoir pris connaissance des données D, nous révisons la plausibilité de H). Enfin, p(D|H), considéré comme une fonction de H, est la vraisemblance de H.

Le facteur de Bayes qui sépare deux hypothèses ou deux « modèles » M1 et M2, est une mesure de leur mérite relatif, le rapport de leurs vraisemblances : p(D|M1)/p(D|M2). Le logarithme décimal de cette valeur (log likelihood ratio), mesuré en décibans, est une mesure souvent plus intelligible. On appelle également « évidence » (en anglais weight of evidence ou, chez Turing, log odds) la valeur log(p/(1-p)), qui quantifie la vraisemblance d’une hypothèse par rapport à toutes les autres. Selon Jeffreys, 10 décibans, soit un rapport de 10 contre 1, constitue une évidence « substantielle », et 20 décibans ou plus (au moins 100 contre 1) une évidence « décisive ».

Le principe du maximum de vraisemblance consiste à choisir le modèle Mi pour lequel les données sont les plus probables (p(D|Mi) est maximale). Le principe du maximum a posteriori (ou MAP) consiste à maximiser p(Mi |D) – ce qui prend également en compte les probabilités a priori des différents modèles Mi.

On attribue à Guillaume d’Ockham (1285-1347) un principe de raisonnement, en réalité énoncé depuis l’Antiquité, selon lequel « une pluralité ne doit pas être posée sans nécessité » : « Les entités ne doivent pas être multipliées au-delà du nécessaire » ; ou encore, toutes choses égales par ailleurs, les explications les plus simples doivent être préférées aux plus complexes. Le raisonnement bayésien, en tant que modèle optimal de la « logique de la science » (Jaynes, 2003), inclut automatiquement un rasoir d’Ockham. En effet, une vraisemblance plus petite est allouée aux hypothèses les plus faibles, celles qui font les prédictions les plus diffuses ou les moins spécifiques. De plus, si deux modèles atteignent la même vraisemblance, celui qui l’atteint avec le plus de paramètres libres est automatiquement pénalisé par les équations bayésiennes. Enfin, il est souvent naturel d’attribuer une probabilité a priori plus petite aux modèles plus complexes. Tous ces facteurs contribuent à la règle d’Ockham et font de la théorie bayésienne un modèle plausible du raisonnement scientifique (Jaynes, 2003).

Pasteur de l’Église presbytérienne et mathématicien britannique, le révérend Thomas Bayes (~1701-1761) étudie la logique et la théologie à l’université d’Édimbourg. Divers travaux, dont une introduction au calcul différentiel, le font élire à la Royal Society le 4 novembre 1742. Ce n’est qu’après la mort de Bayes, en 1761, que son ami Richard Price retrouve, dans ses papiers, un Essai sur la manière de résoudre un problème dans la doctrine des risques. Publié par la Royal Society en 1763, cet essai applique le principe d’inférence que nous connaissons aujourd’hui sous le nom de « règle de Bayes ». Sans nier l’inventivité de Bayes, on s’accorde aujourd’hui à penser que sa règle n’est qu’une application simple de la règle du produit en théorie des probabilités, déjà connue de Bernoulli et de De Moivre, et dont Laplace (1774) percevra, le premier, le très vaste champ d’applications.

De quoi s’agit-il ? Les principes du raisonnement bayésien étendent, à des valeurs continues de plausibilité, les principes de la logique classique avec des valeurs de vérité discrètes. Il est d’ailleurs possible de les déduire des axiomes que doivent vérifier ces plausibilités (Jaynes, 2003). Brièvement : on suppose que (1) les degrés de plausibilité sont représentés par des nombres réels ; (2) ces valeurs suivent des règles de bon sens, suivant ainsi la célèbre formule de Laplace (« la théorie des probabilités n’est au fond que le bon sens réduit au calcul ») ; (3) aucune des données disponibles n’est ignorée ; (4) des états de connaissance équivalents ont le même degré de plausibilité. Le théorème de Cox-Jaynes montre que ces règles suffisent à définir, à une fonction monotone près, des règles mathématiques universelles pour la plausibilité p. Celles-ci sont les règles habituelles de la probabilité et la règle fondamentale « de Bayes » :

p(A & B) = p(A|B) p(B) = p(B|A) p(A)

Point important, dans la théorie bayésienne, ces probabilités p ne sont plus interprétées comme les fréquences relatives d’événements (point de vue « fréquentiste »), mais comme des mesures du degré de connaissance subjective. Cette acception est bien couverte par le terme de « plausibilité », mais étant donné l’équivalence que nous venons de présenter, dans ce qui suit, nous continuerons à utiliser également le terme usuel de probabilité.

La théorie des probabilités, telle qu’elle est enseignée, est surtout utilisée pour calculer la probabilité d’une observation D, étant donné certaines hypothèses H sur l’état du monde. Cependant, les données d’observation D et les hypothèses H jouant des rôles symétriques, rien n’empêche de poser la question inverse : étant donnée une observation D, quelle est la plausibilité de l’hypothèse H ? La règle fondamentale répond à cette interrogation :

p(H|D) = p(D|H) p(H) / p(D) ou p(H|D) α p(D|H) p(H)

Dans cette équation, p(H) est appelée probabilité a priori de H (prior en anglais) (notons qu’il ne s’agit pas nécessairement d’une connaissance indépendante de l’expérience, au contraire, l’a priori résulte souvent d’expériences antérieures). p(H|D) est la probabilité a posteriori de H (ce terme n’étant pas nécessairement à prendre dans son sens temporel, mais plutôt au sein d’une déduction logique : après avoir pris connaissance des données D, nous révisons la plausibilité de H). Enfin, p(D|H), considéré comme une fonction de H, est la vraisemblance de H.

Le facteur de Bayes qui sépare deux hypothèses ou deux « modèles » M1 et M2, est une mesure de leur mérite relatif, le rapport de leurs vraisemblances : p(D|M1)/p(D|M2). Le logarithme décimal de cette valeur (log likelihood ratio), mesuré en décibans, est une mesure souvent plus intelligible. On appelle également « évidence » (en anglais weight of evidence ou, chez Turing, log odds) la valeur log(p/(1-p)), qui quantifie la vraisemblance d’une hypothèse par rapport à toutes les autres. Selon Jeffreys, 10 décibans, soit un rapport de 10 contre 1, constitue une évidence « substantielle », et 20 décibans ou plus (au moins 100 contre 1) une évidence « décisive ».

Le principe du maximum de vraisemblance consiste à choisir le modèle Mi pour lequel les données sont les plus probables (p(D|Mi) est maximale). Le principe du maximum a posteriori (ou MAP) consiste à maximiser p(Mi |D) – ce qui prend également en compte les probabilités a priori des différents modèles Mi.

On attribue à Guillaume d’Ockham (1285-1347) un principe de raisonnement, en réalité énoncé depuis l’Antiquité, selon lequel « une pluralité ne doit pas être posée sans nécessité » : « Les entités ne doivent pas être multipliées au-delà du nécessaire » ; ou encore, toutes choses égales par ailleurs, les explications les plus simples doivent être préférées aux plus complexes. Le raisonnement bayésien, en tant que modèle optimal de la « logique de la science » (Jaynes, 2003), inclut automatiquement un rasoir d’Ockham. En effet, une vraisemblance plus petite est allouée aux hypothèses les plus faibles, celles qui font les prédictions les plus diffuses ou les moins spécifiques. De plus, si deux modèles atteignent la même vraisemblance, celui qui l’atteint avec le plus de paramètres libres est automatiquement pénalisé par les équations bayésiennes. Enfin, il est souvent naturel d’attribuer une probabilité a priori plus petite aux modèles plus complexes. Tous ces facteurs contribuent à la règle d’Ockham et font de la théorie bayésienne un modèle plausible du raisonnement scientifique (Jaynes, 2003).