Entretien avec Benoît Sagot

Spécialiste du traitement automatique des langues, Benoît Sagot dirige depuis 2017 l’équipe de recherche ALMAnaCH au sein de l’Inria. Ce polytechnicien passionné de linguistique s’intéresse à la conception et à l’apprentissage de modèles de langue, aux problématiques de la variabilité linguistique, et au développement de ressources pour le français dans un domaine dominé par l’anglais. En 2023-2024, il est invité à occuper la chaire annuelle Informatique et sciences numériques au Collège de France.
Comment est né votre intérêt pour la science, et plus particulièrement l’informatique
Benoît Sagot
Vous vous êtes d’abord intéressé aux grammaires formelles et à l’analyse syntaxique. De quoi s’agit-il
L'analyse syntaxique est une tâche qui s'apparente à l'analyse grammaticale ou logique d'une phrase telle qu'elle est enseignée aux collégiens. Il s'agit de déterminer la nature de chaque mot (verbe, adjectif, nom, etc.) et de construire la structure grammaticale de la phrase. Une approche utile dans le domaine, à l'époque, car il était difficile d’analyser une phrase sémantiquement –
Votre discipline évolue ensuite à la lumière d'approches nouvelles comme l'apprentissage automatique et l'apprentissage profond. Quel impact cela a-t-il eu sur vos travaux
Ces nouvelles approches ont changé les outils informatiques et algorithmiques que l'on convoque pour résoudre un certain nombre de problèmes. Quand on a approfondi un certain domaine de l'informatique et qu’on s'est formé à la linguistique formelle –
Dans une discipline ainsi dominée par d’immenses quantités de données en langue anglaise, comment vous y prenez-vous pour faire de la place à des langues un peu plus minoritaires, et notamment la langue française
L'anglais est majoritaire, de loin, comme objet d'étude et comme langue dans laquelle les modèles sont développés. Le français dispose de moins de ressources, mais depuis que je suis dans ce domaine, j'ai essayé de contribuer à combler ce décalage, en développant avec mes collègues des lexiques syntaxiques et sémantiques, des corpus arborés, et plus récemment de grands corpus bruts. Notre langue est toutefois bien dotée par rapport à de nombreuses autres. Il est possible d'entraîner un modèle comme GPT-4[4]sur l'anglais, car toutes les données pour ce faire sont disponibles
Vous avez travaillé à la conception d’un modèle de langue[5] français, CamemBERT. Quelles grandes difficultés avez-vous dû surmonter pour ce faire
D’abord, nous n’avions pas assez de textes pour l’apprentissage d’un modèle de langue de bonne qualité. Nous avons établi une immense collection de textes pour près de 180
Comment naviguez-vous avec cette frontière vivante entre recherche et ingénierie
C'est presque un questionnement épistémologique. Depuis quelques années, et la mise à disposition de ChatGPT à toutes et à tous, on observe une accélération entre un résultat de recherche et sa mise en œuvre dans des outils accessibles au public. Celle-ci compresse le temps mais aussi les relations entre les individus
Cette année, vous êtes invité à occuper la chaire annuelle Informatique et sciences numériques du Collège de France. Quelles sont vos attentes vis-à-vis de cette expérience
C'est un très grand honneur, auquel je dois avouer ne pas m'être attendu. C'est aussi une chance, car je vais pouvoir me confronter à un auditoire auquel je ne suis pas habitué
Propos recueillis par William Rowe-Pirra
Glossaire
[1] Traitement automatique des langues (TAL)
[2] Apprentissage automatique
[3] Apprentissage profond : type d’apprentissage automatique qui s’appuie sur l’usage de réseaux de neurones en plusieurs couches.
[4] GPT-4 (Generative Pretrained Transformer 4)
[5] Modèle de langue