Vers une théorie Bayésienne du lexique

Dans un article important, Fei Xu et Joshua Tenenbaum proposent une théorie bayésienne de l’acquisition du sens des mots (Xu & Tenenbaum, 2007). Leur modèle suppose que l’enfant dispose d’un vaste espace d’hypothèses sur les référents possibles des mots. Chaque hypothèse consiste en un sous-ensemble d’objets auquel un mot peut renvoyer (par exemple : « tous les êtres vivants », « tous les chiens », « tous les dalmatiens », etc.). Chaque fois que l’enfant entend un mot dans un contexte donné, il met à jour la probabilité que chaque hypothèse soit vraie, en suivant les règles bayésiennes. Enfin, une hypothèse cruciale du modèle est que la vraisemblance varie en fonction inverse de la taille de l’hypothèse considérée.

À partir de ces axiomes, les auteurs montrent qu’il est possible de rendre compte d’une série d’observations empiriques importantes. Le sens d’un mot peut être appris à partir d’un seul exemple, ou de quelques-uns. Les exemples positifs suffisent : l’enfant n’a pas besoin de contre-exemples. Il peut acquérir un ensemble de mots pour des concepts qui se recouvrent. Les inférences sur le sens d’un mot sont graduelles, avec des degrés de confiance variables. Enfin, ces inférences peuvent être influencées par le contexte d’apprentissage, particulièrement l’attention, les connaissances et les intentions du locuteur.

En particulier, le modèle bayésien rend compte, sans hypothèse supplémentaire, d’un principe linguistique classique, le principe d’exclusivité : chaque entité ne possède qu’un seul nom. Dès seize mois, en effet, lorsqu’ils entendent un nom nouveau, les enfants postulent que celui-ci renvoie à un objet dont ils ne connaissent pas déjà le nom. Cette propriété découle simplement d’un modèle bayésien hiérarchique, si l’on suppose l’enfant capable d’inférences conversationnelles telles que « si mon interlocuteur avait voulu nommer l’objet X, il aurait utilisé le mot X ». Ainsi, l’acquisition du lexique ne nécessite peut-être rien d’autre qu’un algorithme générique d’inférence statistique qui pourrait être présent chez d’autres espèces animales. De fait, l’apprentissage de plusieurs centaines de mots, en respectant le principe d’exclusivité, a été documenté chez un chien domestique.

Le psycholinguiste Dennis Norris a également montré que les principes génériques de l’inférence bayésienne rendaient compte d’une grande variété de phénomènes liés à l’accès au lexique chez l’adulte. Lorsque nous entendons un mot, nos entrées sensorielles sont nécessairement ambigües. Dans ces conditions, la solution optimale consiste à calculer, pour chaque mot, la probabilité que ce mot ait été à l’origine des entrées sensorielles observées (écrites ou orales). Il faut accumuler, au fil du temps, l’évidence issue d’échantillons sensoriels successifs. Ce modèle très simple parvient à expliquer, par exemple, pourquoi le temps de réponse à un mot varie en fonction du logarithme de sa fréquence dans la langue ; ou bien pourquoi il dépend également de la proximité et de la fréquence relative des mots voisins qui n’en diffèrent que d’une lettre.

En conclusion, au cours de la première année de vie, l’enfant compile probablement des statistiques lexicales qui lui fournissent une liste de candidats pour les mots de sa langue, ainsi qu’une hiérarchie d’hypothèses sur les objets et concepts auxquels ils renvoient. Au cours de la seconde année, pendant la phase d’explosion lexicale, ces deux ensembles vont être mis en relation. La théorie bayésienne semble susceptible d’expliquer la vitesse remarquable avec laquelle cet apprentissage se produit, et les contraintes que l’enfant applique pour en restreindre l’ambiguïté. Enfin, même à l’âge adulte, la théorie bayésienne continue de rendre compte de l’apprentissage de mots nouveaux et de la vitesse avec laquelle ces mots sont reconnus en temps réel.