Les illusions visuelles : des inférences optimales ?

Sommes-nous de mauvais statisticiens ?

L’idée d’un « cerveau statisticien », présent dès la naissance, conforte la vision de Laplace, selon lequel « la théorie des probabilités […] fait apprécier avec exactitude ce que les esprits justes sentent par une sorte d’instinct, sans qu’ils puissent souvent s’en rendre compte ». Selon cette hypothèse, nous serions tous pourvus d’une intuition de la plausibilité, fondée sur de complexes calculs bayésiens non-conscients. Toutefois, cette perspective s’oppose directement aux travaux d’Amos Tversky et Daniel Kahneman pour qui les humains sont de bien piètres statisticiens. « On s’accorde généralement à penser que les choix rationnels doivent satisfaire des critères élémentaires de cohérence », écrivent-ils dans leur célèbre article de Science (1981) ; « Dans cet article nous décrivons des problèmes de décision dans lesquels les gens violent systématiquement ces critères. »

Étendant notamment le paradoxe d’Allais (1953), Tverky et Kahneman montrent que les jugements humains s’écartent parfois massivement de la théorie du choix rationnel. Ils rendent compte de leurs observations empiriques en proposant une théorie des perspectives (prospect theory), qui s’écarte de l’optimalité bayésienne en plusieurs points : (1) les gains et les pertes ne sont pas absolus, mais rapportés à un cadre de référence (frame) ; (2) les décisions maximisent l’espérance de la valeur subjective ; (3) la fonction de valeur subjective est concave pour les gains, convexe pour les pertes ; (4) la probabilité est pondérée selon une fonction en S inversé qui surestime les petites probabilités et sous-estime les grandes probabilités.

La réconciliation des travaux de Kahneman et Tversky avec les nombreux travaux qui soutiennent la perspective bayésienne fait partie des axes importants de recherche des prochaines années. Dans le cours, sans résoudre cette contradiction apparente, nous avons abordé quelques pistes de recherche. Tout d’abord, notons que bon nombre des difficultés qu’observent Kahneman et Tversky ne proviennent pas nécessairement de l’évaluation des probabilités, mais plutôt de la prise de décision. La fonction d’utilité, mais aussi la prise en compte du risque, pourraient expliquer certains des biais observés. En second lieu, le cerveau, qui n’est pas un ordinateur digital, pourrait n’implémenter qu’un algorithme bayésien imparfait. Il se pourrait ainsi que la représentation des toutes petites probabilités, ou la multiplication de deux probabilités ou de deux distributions, posent des difficultés particulières au cerveau.

En troisième lieu, Kahneman et Tversky utilisent des tâches conscientes, verbales, de haut niveau. Or notre espace de travail conscient ne prend en compte que peu de données : le traitement conscient fonctionne selon un mode sériel et fondamentalement limité (voir le cours de 2009-2010). Au contraire, il se pourrait que les traitements non-conscients qui sous-tendent la perception, la décision motrice, l’apprentissage du langage… fassent appel à des algorithmes massivement parallèles et plus proches de l’optimalité bayésienne. Un axe de recherche récent consiste ainsi à comparer des problèmes formellement identiques sur le plan mathématique, mais qui sont résolus soit par une réflexion verbale consciente, soit inconsciemment par le système sensori-moteur. Effectivement, des biais très différents sont observés (Braun, Nagengast & Wolpert, 2011).

Enfin, le contexte et les mots utilisés pour présenter un problème statistique peuvent avoir un effet important. Notre cerveau pourrait traiter plus facilement certains types de problèmes, soit parce qu’ils font spontanément appel à des domaines de connaissances pour lesquels l’évolution nous a dotés de solutions spécifiques (Cosmides, 1989), soit parce que le format de présentation des données du problème n’est pas facile à recoder dans le format interne que nous utilisons pour l’inférence bayésienne (Gigerenzer & Hoffrage, 1995). Gigerenzer conteste ainsi les travaux de Kahneman et Tversky en montrant, par exemple, que le biais de négligence de la probabilité a priori disparaît largement lorsque le problème est formulé sous forme de ce qu’il appelle des « fréquences naturelles », c’est-à-dire avec des nombres entiers.

Krynski et Tenenbaum (2007) proposent une hypothèse distincte, également très intéressante. Selon eux, le cadre théorique approprié aux « jugements sous incertitude » de Kahneman et Tversky ne serait pas celui de l’inférence statistique traditionnelle, mais celui de l’inférence causale. Notre cerveau n’aurait pas évolué pour compiler des statistiques sur de complexes probabilités conditionnelles P(A|B,C,D…) (problème qui devient d’ailleurs très vite impossible à évaluer mathématiquement), mais plutôt pour tirer des inférences à partir de modèles causaux des observations effectuées. L’interprétation d’un problème statistique se ferait donc en trois étapes : (1) construction d’un modèle mental des relations causales, (2) attribution d’une valeur aux différents paramètres du modèle, (3) inférence bayésienne. La construction d’un modèle causal inapproprié expliquerait les erreurs des sujets. Krynski et Tenenbaum testent leur hypothèse en montrant qu’il suffit de changer une phrase dans l’énoncé du problème pour changer le modèle causal qu’utilisent les participants. Immédiatement, la capacité d’inférence s’améliore : même en l’absence de valeurs numériques précises, les sujets testés montrent des intuitions correctes des probabilités mises en jeu.

Il semble donc bien, contra Kahneman et Tversky, que le cerveau humain comprenne des mécanismes intuitifs et approximatifs d’inférence bayésienne. Ceux-ci ne sont toutefois déployés de façon appropriée que si l’exposé du problème conduit l’auditeur à se représenter le modèle causal adéquat.

Les illusions visuelles : des inférences optimales ?

La perception visuelle fournit un excellent exemple d’application non-consciente de statistiques bayésiennes. Dès 1867, dans son célèbre Traité d’optique physiologique (Handbuch der physiologischen Optik), Hermann von Helmholtz introduit le concept d’« inférence inconsciente » : les entrées sensorielles (« Perception ») se combineraient à nos attentes (« Vorstellung ») pour former le contenu de l’expérience consciente (« Anschauung »).

De fait, la notion d’inférence s’applique bien au problème posé par la perception. En effet, toutes nos entrées sensorielles sont ambigües – chacune d’elle pourrait résulter d’une infinité de causes possible. La tâche de notre système perceptif est donc de sélectionner, parmi une infinité de solutions possibles celle qui est la plus plausible. La théorie bayésienne explique ce processus de choix optimal sur la base de (1) la connaissance a priori des probabilités des objets dans le monde extérieur p(O) (qui peut résulter d’une accumulation de connaissances au cours de l’apprentissage), (2) la connaissance de la fonction de vraisemblance p(S|O) (qui peut résulter d’un modèle interne du comportement des objets), et (3) l’application de la règle de Bayes : p(O|S) α p(S|O) p(O).

Selon cette théorie, de nombreuses illusions visuelles s’expliqueraient par un processus d’inférence optimale qui prend en compte les statistiques de l’environnement. Si la perception est optimale, pourquoi engendre-t-elle une illusion ? Parce que le stimulus qui crée l’illusion est très appauvri en comparaison de notre expérience usuelle du monde extérieur. Le système perceptif l’enrichit alors d’informations statistiques accumulées au fil de l’expérience passée. De l’intégration de l’a priori et des entrées sensorielles résulte une perception consciente qui s’écarte des données sensorielles réelles. Cependant, bien qu’elle conduise ainsi à une illusion, il n’est pas inapproprié de qualifier cette inférence perceptive de « rationnelle », dans la mesure où, dans un contexte plus naturel, elle serait utile ou même optimale pour l’organisme.

Simoncelli et ses collègues analysent dans cette perspective les biais dans la perception de l’orientation d’une barre (Girshick, Landy & Simoncelli, 2011). La perception varie avec l’orientation, à la fois dans sa précision (la variabilité interne est minimale pour la verticale et l’horizontale) et dans son biais (les réponses sont biaisées en direction des orientations horizontale et verticale). L’analyse théorique montre que ces données s’expliquent intégralement, dans le cadre bayésien, par l’a priori d’une fréquence plus élevée de ces directions cardinales dans le monde extérieur.

Les illusions de mouvement succombent à une interprétation similaire (Weiss, Simoncelli & Adelson, 2002). À partir d’un cadre théorique apparenté, Dale Purves et ses collègues analysent de nombreuses autres illusions visuelles et auditives, en montrant qu’elles peuvent s’expliquer par une internalisation des statistiques du monde extérieur. Pour ne prendre qu’un exemple, à cause de la perspective, une barre verticale sur la rétine reflète souvent une plus grande distance dans le monde réel qu’une barre horizontale – c’est pourquoi, selon Purves, elle est également perçue comme plus longue (Howe & Purves, 2002; Purves, Lotto, Williams, Nundy & Yang, 2001).