La prise de décision Bayésienne

Percevoir le monde extérieur ne suffit pas à agir de façon optimale. Comment passer d’une perception à une décision ? Le problème est exposé de façon simple dans une revue récente (Maloney & Zhang, 2010). Chaque état du monde (w) se traduit, après inférence bayésienne, par une distribution d’états sensoriels inférés (x). Le problème de la décision consiste à choisir l’action (a = d(x)) en fonction des états sensoriels x. Les actions ont des conséquences positives ou négatives qui dépendent des états réels du monde, selon une fonction de Gain (ou de Coût) G(a,w). Une stratégie rationnelle consiste à choisir l’action qui maximise l’espérance du gain G.

De ce modèle très général, on peut déduire, par exemple, la totalité de la théorie de la détection du signal (signal detection theory). Les états du monde sont binaires (w ou ~w) et la fonction de gain, très simple, vaut + 1 si la réponse correspond à l’état du monde, -1 sinon. Cependant, la théorie permet de modéliser des situations bien plus complexes. Par exemple, une tâche intéressante consiste à demander au sujet de pointer très vite du doigt vers une cible (un disque vert) tout en imposant une pénalité si le doigt touche un cercle rouge (Trommershauser, Maloney & Landy, 2008). Les résultats indiquent que de telles décisions motrices, en dépit de leur rapidité et de leur automaticité, s’approchent de l’optimalité. Les sujets prennent convenablement en compte l’incertitude associée à leurs propres mouvements, la distribution des stimuli et les coûts qui en résultent. Ils parviennent également à arbitrer entre le temps consacré à la prise de décision et le temps consacré au mouvement, toujours en optimisant la fonction de coût imposée par l’expérimentateur (Battaglia & Schrater, 2007). Enfin, ils prennent en compte, de façon quasi-optimale, les informations sensorielles intermédiaires, plus ou moins bruitées, qu’ils reçoivent sur la trajectoire de leur mouvement en cours (Kording & Wolpert, 2004).

Dans de nombreuses tâches, la prise d’information sensorielle n’est pas instantanée, mais séquentielle : plusieurs stimuli peuvent s’échelonner dans le temps, et même un stimulus unique fournit, au niveau neuronal, une série temporelle d’échantillons bruités. La théorie bayésienne prédit alors une accumulation d’évidence, c’est-à-dire l’addition de l’évidence apportée par chaque échantillon successif (l’addition des logarithmes correspond au produit des distributions) – éventuellement pondérée par les gains attendus. Ce modèle prédit que la prise de décision repose sur une marche aléatoire interne, la décision étant prise lorsque l’évidence atteint un seuil préalablement déterminé. Effectivement, une telle évolution progressive des taux de décharges neuronales, semi-aléatoire et dépendante de l’évidence disponible, est observée dans les neurones du cortex préfrontal et intrapariétal du singe macaque (Gold & Shadlen, 2002).

Dans un travail récent, Yang et Shadlen (2007) démontrent la capacité du modèle d’accumulation d’évidence à rendre compte de la prise de décision, tant au niveau comportemental que neuronal. Ils présentent à des singes quatre formes successives, chacune donnant une information partielle sur la probabilité de recevoir un renforcement après une saccade vers un rond rouge ou vert. Après plusieurs milliers d’essais d’entraînement, les singes connaissent la valeur symbolique de chaque forme et réalisent une intégration statistique quasi-optimale. Leur taux de réponse est une fonction sigmoïdale de l’évidence objective totale, et peut être modélisé par une régression logistique où les poids subjectifs attribués à chaque forme sont étroitement corrélés aux poids objectifs. Le taux de décharge des neurones de l’aire latérale intrapariétale reflète, à chaque instant, la somme de l’évidence apportée par chacune des formes observées jusqu’alors. Ainsi, la décharge des neurones de LIP constitue une approximation de la marche aléatoire postulée par de nombreux modèles de la prise de décision chez l’homme. Le taux de décharge de certains neurones « accumulateurs » serait directement proportionnel au logarithme du rapport de vraisemblance en faveur de telle décision plutôt que telle autre. Yang et Shadlen vont jusqu’à montrer qu’« une variation d’un potentiel d’action par seconde d’un neurone unique est équivalente à un déciban d’évidence ».