Actualité

La frontière entre ingénierie et recherche se déplace vite

Entretien avec Benoît Sagot

Benoît Sagot

Spécialiste du traitement automatique des langues, Benoît Sagot dirige depuis 2017 l’équipe de recherche ALMAnaCH au sein de l’Inria. Ce polytechnicien passionné de linguistique s’intéresse à la conception et à l’apprentissage de modèles de langue, aux problématiques de la variabilité linguistique, et au développement de ressources pour le français dans un domaine dominé par l’anglais. En 2023-2024, il est invité à occuper la chaire annuelle Informatique et sciences numériques au Collège de France.

Comment est né votre intérêt pour la science, et plus particulièrement l’informatique ?

Benoît Sagot : D’une manière générale, mon intérêt pour la science est un héritage familial. Au départ, je voulais me lancer dans les mathématiques, et puis j'ai évolué vers la physique théorique à l’École polytechnique. Par ailleurs, tout au long de mes études, j’ai nourri un grand intérêt pour les langues : l’anglais et l’allemand, par le biais d’un internat de quelques mois en Autriche, le grec ancien, et plus tard le slovaque. C’est cette curiosité pour les langues, mais également pour leur histoire, qui m’a conduit à découvrir cette discipline de recherche qu’est le traitement automatique des langues (TAL)[1], discipline dans laquelle j'ai décidé de faire une thèse à l'Inria. J'ai suivi des cours en informatique en tant qu'ingénieur-élève du Corps des télécommunications, mais je n’ai pas suivi une formation complète en informatique comme la majorité de mes collègues. Les chercheuses et chercheurs de mon domaine viennent d’ailleurs souvent d’horizons variés. Dans mon équipe, par exemple, certains ont fait des études scientifiques, tandis que d’autres ont commencé par des études de lettres, de langue ou de linguistique, avant de se diriger plus tard vers l’informatique, qu’ils pratiquaient déjà parfois comme un hobby. Mais cette riche multidisciplinarité a tendance à s’atténuer depuis quelques années. En cause : les outils informatiques que l'on déploie en travaillant sur des données textuelles ont beaucoup évolué avec le temps. Ce n’est pas l’apanage de mon domaine, mais à l’ère des données que nous traversons, on s’intéresse parfois plus au traitement des données qu’aux données elles-mêmes.

Vous vous êtes d’abord intéressé aux grammaires formelles et à l’analyse syntaxique. De quoi s’agit-il ?

L'analyse syntaxique est une tâche qui s'apparente à l'analyse grammaticale ou logique d'une phrase telle qu'elle est enseignée aux collégiens. Il s'agit de déterminer la nature de chaque mot (verbe, adjectif, nom, etc.) et de construire la structure grammaticale de la phrase. Une approche utile dans le domaine, à l'époque, car il était difficile d’analyser une phrase sémantiquement – c’est-à-dire comprendre son sens – sans d'abord analyser sa structure. Même s’il existe plusieurs manières de représenter la structure grammaticale d'une phrase, représenter sa structure sémantique est un problème moins bien défini. L’analyse syntaxique a donc longtemps été une tâche phare du domaine, suffisamment bien définie mais très difficile. Cela nécessite en effet de décrire de manière formelle – donc utilisable informatiquement – la grammaire de la langue, y compris le plus grand nombre possible de phénomènes rares, puis de développer des algorithmes d’analyse automatique s’appuyant sur de telles grammaires. Cela mettait en jeu des généralisations d'algorithmes initialement utilisés pour la compilation des langages de programmation. J'ai aussi travaillé sur l'aspect lexical, c’est-à-dire la représentation des propriétés morphologiques des mots – comment ils se conjuguent, s’accordent au pluriel, etc. – et de leurs propriétés syntaxiques.

Votre discipline évolue ensuite à la lumière d'approches nouvelles comme l'apprentissage automatique et l'apprentissage profond. Quel impact cela a-t-il eu sur vos travaux ?

Ces nouvelles approches ont changé les outils informatiques et algorithmiques que l'on convoque pour résoudre un certain nombre de problèmes. Quand on a approfondi un certain domaine de l'informatique et qu’on s'est formé à la linguistique formelle – donc la manière de décrire formellement les propriétés des mots et des langues – il est stimulant, quoique difficile, de devoir se familiariser à une nouvelle discipline. En effet, l'apprentissage automatique[2] a pu parfois donner l’impression de cacher l'importance de l'expertise linguistique. Si l’on prend un corpus arboré, c’est-à-dire une collection de phrases grammaticalement analysées à la main, et qu’on le donne en entrée à un algorithme d'apprentissage automatique, il est possible d’obtenir un analyseur syntaxique souvent plus performant que ceux qui s’appuient sur des grammaires écrites à la main. Toutefois, l’expertise linguistique est toujours nécessaire : alors que précédemment elle était encodée explicitement dans ces règles de grammaire et dans les lexiques associés à chaque mot, elle se déporte à l'ère du traitement automatique statistique vers les données annotées, par exemple les corpus arborés. Ces annotations doivent être cohérentes d'une phrase à l'autre, et être linguistiquement les plus correctes possible. Il y a une dizaine d'années sont arrivés dans notre domaine l'apprentissage neuronal et l’apprentissage profond[3]. Il a fallu à nouveau que l'on se familiarise avec une nouvelle famille d'algorithmes. Les réseaux de neurones profonds ont permis l’émergence des approches dites « end-to-end », où l’on peut se passer d’étapes intermédiaires comme l’analyse syntaxique pour effectuer une tâche telle que la traduction automatique. Enfin, les modèles de langue, qui apprennent directement à partir des textes bruts sans aucune annotation ni information autre que les simples phrases fournies, ont encore contribué à diminuer l'importance effective de l'expertise linguistique.

Dans une discipline ainsi dominée par d’immenses quantités de données en langue anglaise, comment vous y prenez-vous pour faire de la place à des langues un peu plus minoritaires, et notamment la langue française ?

L'anglais est majoritaire, de loin, comme objet d'étude et comme langue dans laquelle les modèles sont développés. Le français dispose de moins de ressources, mais depuis que je suis dans ce domaine, j'ai essayé de contribuer à combler ce décalage, en développant avec mes collègues des lexiques syntaxiques et sémantiques, des corpus arborés, et plus récemment de grands corpus bruts. Notre langue est toutefois bien dotée par rapport à de nombreuses autres. Il est possible d'entraîner un modèle comme GPT-4[4]sur l'anglais, car toutes les données pour ce faire sont disponibles : textes bruts, dialogues et annotations humaines en quantités énormes. Or, pour une langue plus minoritaire, comme le breton, il est probable que son histoire complète n'ait pas produit assez de texte pour entraîner ce genre de modèle. Le problème est encore plus vaste pour les langues exclusivement orales. Du reste, on oublie souvent – quand on parle de la multiplicité des langues, notamment peu dotées – que même au sein d'une langue, il n'y a pas d'homogénéité. Un texte de Wikipédia, un poème de Baudelaire ou des commentaires écrits sur un réseau social par des internautes en colère faisant usage d’une orthographe créative sont très différents. Un modèle entraîné sur un type de texte pourra avoir du mal à en traiter un autre. Nous nous intéressons donc aussi à cette problématique de la variabilité linguistique. Il s'agit de comprendre comment rendre les modèles capables de mieux s'adapter à de nouveaux types de textes. Et nous essayons de déterminer ce que les différents types de variation linguistique ont en commun, pour imaginer des approches aussi générales que possible.

Vous avez travaillé à la conception d’un modèle de langue[5] français, CamemBERT. Quelles grandes difficultés avez-vous dû surmonter pour ce faire ?

D’abord, nous n’avions pas assez de textes pour l’apprentissage d’un modèle de langue de bonne qualité. Nous avons établi une immense collection de textes pour près de 180 langues, en nous appuyant sur Common Crawl, une institution américaine qui moissonne régulièrement de grandes quantités de données sur Internet afin de les rendre accessibles au public. Nous avons ensuite développé CamemBERT sur le volet français de cette collection baptisée OSCAR. Le second enjeu de ce projet a été de réfléchir à la question suivante : dans quelle mesure la nécessité d'un modèle de langue français est-elle un travail de recherche ? Fondamentalement, une fois que nous avons nos données textuelles et le code d’exécution, ce que nous faisons, quand bien même cela restait difficile d'un point de vue technique, était au départ un projet d'ingénierie. En quoi était-ce scientifiquement nouveau ? Aujourd'hui, le domaine du TAL et d'autres relevant de l'intelligence artificielle sont des disciplines où la frontière entre ingénierie et recherche se déplace très vite. Nous voulions donc savoir comment valoriser scientifiquement ce projet de développement d'un modèle de langue. Or, on pensait généralement à l’époque que des quantités de données énormes étaient requises pour entraîner un modèle de langue d'une certaine qualité. Nos travaux ont relativisé ce postulat. Nous avons entraîné des modèles respectivement avec les 128 Go de textes français d’OSCAR, une sélection aléatoire de 4 Go de ces mêmes textes et les 4 Go de textes que constitue la somme des articles de la Wikipédia francophone. Résultat : le modèle entraîné avec les 4 Go d'OSCAR était presque aussi bon que celui nourri avec toutes les données, alors que le modèle entraîné sur les 4 Go de Wikipédia l’était significativement moins. Nous avons de bonnes raisons de penser que cela est dû au fait que le langage encyclopédique de cette plateforme est assez homogène alors que les données d’OSCAR, issues d’Internet, sont plus diverses. Ainsi, un modèle peut être entraîné efficacement avec une quantité de données plus faible que précédemment imaginée, à condition que celles-ci reflètent la variabilité de la langue.

Comment naviguez-vous avec cette frontière vivante entre recherche et ingénierie ?

C'est presque un questionnement épistémologique. Depuis quelques années, et la mise à disposition de ChatGPT à toutes et à tous, on observe une accélération entre un résultat de recherche et sa mise en œuvre dans des outils accessibles au public. Celle-ci compresse le temps mais aussi les relations entre les individus : chercheurs, start-up, grands groupes et puissances publiques se retrouvent de plus en plus autour de la même table pour discuter, ce qui est très intéressant. Aujourd'hui, entraîner un modèle de langue sur une architecture classique, c'est un problème d'ingénierie. Il y a quelques années encore, c’était une question de recherche. Le déplacement de cette frontière pose donc des questions existentielles : entraîner un gros modèle de langue pour le français, comme CamemBERT, revient-il encore à une équipe de recherche publique ou plutôt à des entreprises ? Et, si un objet d'étude qui relevait de la recherche hier relève aujourd’hui de l'ingénierie, le laboratoire qui l’étudiait alors doit-il se déplacer avec cet objet d'étude et devenir une structure de recherche et d'ingénierie ? Ou faut-il accepter que d’autres prennent le relais ? C'est un questionnement d'autant plus complexe que le gouvernement actuel mène une politique de recherche « à impact » dont le but est que les résultats de recherche, autant que possible, soient poursuivis par des travaux d'ingénierie aboutissant à un résultat exploitable. Or, dès lors que ces applications atteignent le grand public rapidement, émergent des problématiques importantes en matière de formation de la société et des décideurs à la compréhension de ces technologies. Sans ces formations, on peut entendre des inepties, comme cette crainte infondée que des systèmes comme ChatGPT posent un risque existentiel pour l'humanité. Oui, certains métiers vont évoluer, certains vont disparaître et d'autres émerger, mais je pense qu’il faut accompagner ces changements et réfléchir à leurs conséquences, plutôt que de les craindre.

Cette année, vous êtes invité à occuper la chaire annuelle Informatique et sciences numériques du Collège de France. Quelles sont vos attentes vis-à-vis de cette expérience ? Que va-t-elle vous apporter ?

C'est un très grand honneur, auquel je dois avouer ne pas m'être attendu. C'est aussi une chance, car je vais pouvoir me confronter à un auditoire auquel je ne suis pas habitué : le grand public. Ce sera pour moi l'occasion d'essayer de démystifier et d'expliquer ces sujets. L'accélération entre la recherche sur les nouvelles technologies et leur application en société, leur acceptabilité, ce sont autant de sujets importants. Je pense que c'est une bonne chose que le Collège, en m'invitant à occuper cette chaire, veuille qu’ils soient débattus, et c'est exactement le bon moment pour le faire. La sortie de ChatGPT et, au-delà, la multiplication des technologies de traitement et de génération de texte, de parole et d'image posent des enjeux considérables. Il est important de comprendre comment fonctionnent ces systèmes et de réfléchir à leurs risques et conséquences pour éviter des inquiétudes infondées. Après tout, Platon avait peur de l'écriture, la dénonçant notamment comme un dispositif artificiel susceptible d’affaiblir l’esprit. Des reproches que l’on fait aujourd’hui à ChatGPT.

Propos recueillis par William Rowe-Pirra

Glossaire

[1] Traitement automatique des langues (TAL) : discipline de recherche visant à mettre au point des outils de traitement, de transformation et de génération de texte, avec de nombreuses applications telles que la traduction automatique, les systèmes de dialogue comme ChatGPT, ou l’analyse automatique de grands volumes de documents (par exemple dans le domaine de la santé).

[2] Apprentissage automatique : l’apprentissage automatique consiste à conférer aux machines la capacité d’apprendre (des connaissances, à effectuer une tâche, etc.) à partir d’un certain nombre d’exemples (les données d’apprentissage) grâce à des algorithmes dédiés.

[3] Apprentissage profond : type d’apprentissage automatique qui s’appuie sur l’usage de réseaux de neurones en plusieurs couches.

[4] GPT-4 (Generative Pretrained Transformer 4) : modèle de langue développé par la société OpenAI, dernière version du modèle conversationnel ChatGPT capable d’entretenir des conversations avec des utilisateurs humains, y compris par exemple pour répondre à des questions ou traduire des textes.

[5] Modèle de langue : dans le domaine du TAL, modèle statistique qui modélise la distribution de séquences de symboles directes (lettres, phonèmes, mots) dans une langue naturelle et, typiquement, de prédire les prochains mots d’un texte.