du
 → 

Le cours introduit une approche mathématique de l'apprentissage statistique à travers l’estimation par maximum de vraisemblance, la théorie de l'information et la construction de modèles d'approximation. Les apprentissages non supervisé et supervisé passent par l'estimation de distributions de probabilité en grande dimension, à partir des données d'apprentissage. Cela nécessite de construire des modèles paramétrés, définis par une information a priori. Cela peut être des réseaux de neurones profonds dont l'architecture est spécifiée.

Le cours soulève les questions fondamentales de modélisation en grande dimension, et leur formalisation mathématique à travers des mesures d’information. Il introduira les notions d’information de Fisher pour l’inférence de modèle par maximum de vraisemblance, et d’information de Shannon pour la prédiction et le codage. L’information de Shannon est basée sur une notion de concentration et de mesure d’incertitude par l’entropie.

La construction de classes de modèles se base sur des hypothèses concernant la structure des distributions et leurs invariants. Les liens avec la physique statistique seront explorés. On s'intéressera particulièrement aux données « complexes » qui mettent en jeu de nombreuses échelles de variabilité, que ce soit des images, des sons, des séries temporelles ou des données qui proviennent de la physique. On étudiera des applications à la compression de signaux et d’images et à l'apprentissage non supervisé.

Figure fractale en queue d'hippocampe
Figure fractale en queue d'hippocampe (détail de l’ensemble de Mandelbrot) © CC BY-SA 3.0