Optimisation d'un réseau par maximum de vraisemblance

L’optimisation d’un réseau de neurones consiste à estimer un vecteur de paramètres theta qui minimise un risque calculé sur les exemples d’entraînement. Cela se fait par une descente de gradient si bien que le risque doit être différentiable.

Pour la classification, le principe du maximum de vraisemblance permet de définir un risque différentiable. Le maximum de vraisemblance cherche les paramètres θ qui maximisent le log de la probabilité conditionnelle de y’ = f(x’)  pour les exemples x’,y’  de la base de données d’entraînement.  On démontre que ce maximum de vraisemblance maximise la distance de Kullback-Liebler entre la distribution conditionnelle des données et la distribution paramétrée par θ.  Le risque est donc définit par cette distance. Dans le cas où le modèle de probabilité conditionnelle est Gaussien, on obtient un risque de régression quadratique.

La classification d’un réseau de neurones se fait le plus souvent en choisissant un modèle de probabilité conditionnelle définit par un softmax. Il attribue une distribution de probabilité à un ensemble de valeurs zk calculées pour chaque classe k, où la probabilité de zk est proche de 1 lorsque que zk a la plus grande valeur parmi tous les autres zk’. On peut alors calculer analytiquement le maximum de vraisemblance en fonction des zk, et c’est une fonction différentiable.

La régression logistique est un classificateur multi-classes pour lequel les sorties zk sont des fonctions affines de la donnée d’entrée x. La maximisation de la vraisemblance calculée avec un softmax est une fonction convexe des paramètres et admet donc une solution unique. On montre que l’unicité de la solution vient de l’introduction d’un critère de marge qui optimise la position des frontières.