du au
Bouquet virtuel sphérique composé avec l’aide d’un système d’IA génératives (Dall-e via ChatGPT de Bing nov 2023), avec courbes hélicoïdales et croissance semi-aléatoire, Lamiot.

La modélisation de données de grandes dimensions est essentiellement probabiliste. L’apprentissage de modèles, l’inférence et la génération de nouvelles données nécessitent d’échantillonner ces distributions de probabilités. Des résultats impressionnants sont obtenus avec des réseaux de neurones, pour la génération d’images, de sons, de textes ou de champs physiques. On suivra un chemin qui va des bases mathématiques jusqu'aux frontières algorithmiques de la génération aléatoire.

Le cours introduit le cadre mathématique de l’apprentissage et de l’inférence statistique par méthode de Monte-Carlo, ainsi que les algorithmes de générations aléatoires. On considère les modèles de champs de Markov, qui explicitent l’indépendance conditionnelle de variables, et sont caractérisés par des énergies de Gibbs. Le cours présente les algorithmes d’échantillonnage basés sur des chaînes de Markov, et notamment l’algorithme de Metropolis-Hastings et l’échantillonnage de Gibbs. On aborde ensuite l’échantillonnage par l’équation de Langevin, issue de l’équation de Fokker-Planck. Le cours se termine par une présentation des algorithmes de génération par score-diffusion, qui permettent d’échantillonner des distributions de probabilités complexes, en estimant le score avec des réseaux de neurones.

Programme