Résumé

Le théorème d’approximation universelle d’un réseau de neurone à une couche cachée garantit que l’erreur d’approximation d’une fonction f(x) continue va décroître vers 0, mais il ne spécifie pas la vitesse de décroissance de cette erreur. Cette vitesse de décroissance est liée à la régularité de f(x). On verra que si f(x) est seulement localement régulière alors l’erreur décroît très lentement et souffre de la malédiction de la dimensionnalité.

Le cours considère d’abord le cas de fonctions localement régulières, qui sont m fois différentiables au sens de Sobolev. On démontre des bornes supérieures sur l’erreur d’approximation en fonction du nombre M de neurones utilisés dans la couche cachée. On montre qu’une erreur e s’obtient avec M = O(e^-d/m) neurones. Cette décroissance est très lente si m est petit devant d ce qui est toujours le cas en grande dimension.

On considère aussi le cas où la transformée de Fourier de f est parcimonieuse, ce qui s’impose avec un critère L¹ proposé par Barron. Dans ce cas, on démontre que la décroissance de l’erreur est beaucoup plus rapide et qu’il suffit de M = O(e^-1/2) neurones pour atteindre une erreur e. Cependant, cette propriété de parcimonie en Fourier est rarement satisfaite dans les applications.

En dehors d’exemples particuliers, aucun théorème général ne permet d’expliquer l’augmentation des performances d’approximations obtenues avec des réseaux de neurones ayant plus de couches cachées, pour les fonctions que l’on rencontre dans les applications. Ce problème reste donc ouvert.

Erreur d'approximation avec une couche cachée et régularité

Résumé

Intervenant(s)

Stéphane Mallat

Événements

Introduction aux réseaux de neurones profonds

Présentation de 7 challenges de données 2019 (1)

Applications des réseaux de neurones profonds

Présentation de 7 challenges de données 2019 (2)

Approximations par réseaux de neurones et régularité

Présentation des gagnants des challenges 2018

Les origines : la cybernétique et le perceptron

Apprentissage faiblement supervisé pour la reconnaissance visuelle

Approximation universelle par un réseau à une couche cachée

Le langage naturel

Erreur d'approximation avec une couche cachée et régularité

Analyse automatique de vidéos

Optimisation d'un réseau par maximum de vraisemblance

Apprentissage profond par renforcement

Descente de gradient et rétro-propagation du gradient

Convergence de la descente de gradient stochastique

Voir aussi