Résumé

La minimisation d’une fonction convexe peut se faire avec un algorithme de descente de gradient qui additionne itérativement un vecteur colinéaire au gradient de la fonction. Si la fonction que l’on minimise est Lipschitz et strictement convexe, alors on montre que la descente de gradient converge vers l’unique minimum. On étudie la convergence de cet algorithme lorsque la fonction convexe est quadratique. Dans ce cas, la vitesse de convergence dépend du rapport entre la plus petite et la plus grande valeur propre du hessien.

Lorsque la fonction que l’on minimise est un risque qui s’évalue comme une moyenne de risques calculés sur chaque donnée d’entraînement, alors on peut remplacer cet algorithme de gradient par un algorithme de gradient stochastique, où l’on additionne l’un après l’autre le gradient du risque pour chaque donnée d’entraînement. Cet algorithme s’utilise notamment pour l’apprentissage des réseaux de neurones.

Le cours se finit par une présentation rapide des réseaux de neurones, en introduction du cours de l’année prochaine, et mentionne le théorème d’approximation universel qui démontre que toute fonction peut être approximée par un réseau ayant une couche cachée suffisamment grande. Les réseaux de neurones convolutionnels profonds incluent un grand nombre de couches avec des neurones dont les poids sont invariants par translations. L’analyse de ces réseaux sera au centre du cours de l’année prochaine.

Descente de gradient et réseaux de neurones

Résumé

Intervenant(s)

Stéphane Mallat

Événements

Cartographie des sciences des données

Présentation des challenges 2018 (1)

Compromis Biais-Complexité

Présentation des challenges 2018 (2)

Malédiction de la grande dimension

Réduction de dimensionnalité et débruitage

Analyse de Fourier, filtrage et échantillonnage

Le débruitage d'images en quelques formules

Transformées et bases d'ondelettes

S'attaquer à une compétition de machine learning : méth…

Apprentissage Bayésien et linéaire à noyaux

Régression à noyaux et optimisation convexe

Classification à noyaux et SVM

Apprentissage fédéré pour les données médicales

Descente de gradient et réseaux de neurones

Gradients stochastiques et conditionnels pour les réseaux de neurones

Voir aussi