Approximation universelle par un réseau à une couche cachée

Le théorème d’approximation universelle des réseaux de neurones ayant une seule couche cachée est un premier résultat théorique important. La première partie du cours présente ce théorème dans le cas simplifié où les données x comportent d valeurs binaires et où la valeur de f(x) est aussi binaire. Dans ce cas binaire, on démontre que la fonction f(x) peut être exactement représentée par un réseau de neurones ayant une seule couchée cachée de taille 2d, en utilisant la fonction signe(x) comme non-linéarité.

La seconde partie du cours aborde le théorème général d’approximation universelle qui démontre que toute fonction f(x) continue s’approxime par un réseau de neurones ayant une seule couche cachée. L’erreur uniforme (maximum sur x) converge vers 0 lorsque la taille de la couche cachée tend vers l’infini. Ce théorème est valable pour des réseaux de neurones implémentés avec des non-linéarités ponctuelles s(t) qui sont continues mais qui ne sont pas des polynômes.

Dans le cadre du cours, le théorème est démontré pour un rectificateur s(t) = max(t,0). La démonstration se fait en montrant d’abord que toute fonction f(x) continue s’approxime comme combinaison linéaire de sinus et de cosinus avec une erreur uniforme qui tend vers 0 lorsque le nombre de termes tend vers l’infini. On démontre ensuite qu’un sinus et un cosinus peuvent s’approximer par des fonctions linéaires par morceaux obtenues avec des combinaisons linéaires de rectificateurs dilatés et translatés, avec une erreur qui tend vers 0 lorsque le nombre de termes tend vers l’infini.