Résumé
Depuis leur introduction en 2017, les Transformers ont profondément transformé les grands modèles de langage et plus généralement l'apprentissage profond. Ce succès repose largement sur le mécanisme dit « d'auto-attention ». Dans cette exposé, je présenterai un cadre mathématique permettant de voir l'auto-attention comme un système de particules en interaction. J'expliquerai certaines propriétés remarquables de la dynamique associée dans l'espace des mesures de probabilités, en insistant notamment sur la formation de clusters, la préservation des Gaussiennes, les subtilités de la limite de champ moyen associée, et la grande « expressivité » de ces réseaux de neurones.
(Travaux issus de plusieurs collaborations : deux premiers articles écrits avec Borjan Geshkovski, Yury Polyanskiy et Philippe Rigollet, puis un article avec Andrei Agrachev, et enfin un article récent avec Léa Bohbot, Gabriel Peyré et François-Xavier Vialard)