Apprentissage Bayésien et linéaire à noyaux

Résumé

Dans un cadre stochastique bayésien, l’estimation optimale d’une réponse y à partir de données x s’obtient en maximisant la probabilité conditionnelle de y sachant x. Cependant, l’estimation de cette probabilité conditionnelle souffre à nouveau de la malédiction de la dimensionnalité si on suppose seulement qu’elle est localement régulière. Il faut donc introduire des conditions de régularité beaucoup plus fortes.

Beaucoup d’algorithmes d’apprentissage linéarisent l’estimation de y en effectuant un changement de variable qui transforme le vecteur x de dimension d en un vecteur Φ(x) de dimension d’. L’estimation de y se fait à partir du produit scalaire Φ(x)> + b où le vecteur w et le biais b sont optimisés afin de minimiser le risque empirique calculé sur les données d’apprentissage. Le calcul de w en fonction des données d’apprentissage s’obtient en inversant une matrice d’affinité qui explicite la corrélation entre les données d’apprentissage. Pour un risque quadratique, le théorème de représentation démontre que le w optimal s’obtient par combinaison linéaire des Φ(x’), où les x’ sont les exemples d’apprentissage.

Afin de contrôler l’erreur de généralisation, le risque empirique peut être régularisé en introduisant une pénalité de Tikhnonov, proportionnelle à la norme de w au carré. Cette régularisation garantit que l’inversion de la matrice d’affinité est stable. De façon générale, on montre qu’une estimation stable de y en fonction de x a nécessairement de bonnes propriétés de généralisation.

Apprentissage Bayésien et linéaire à noyaux

Résumé

Intervenant(s)

Stéphane Mallat

Événements

Cartographie des sciences des données

Présentation des challenges 2018 (1)

Compromis Biais-Complexité

Présentation des challenges 2018 (2)

Malédiction de la grande dimension

Réduction de dimensionnalité et débruitage

Analyse de Fourier, filtrage et échantillonnage

Le débruitage d'images en quelques formules

Transformées et bases d'ondelettes

S'attaquer à une compétition de machine learning : méth…

Apprentissage Bayésien et linéaire à noyaux

Régression à noyaux et optimisation convexe

Classification à noyaux et SVM

Apprentissage fédéré pour les données médicales

Descente de gradient et réseaux de neurones

Gradients stochastiques et conditionnels pour les réseaux de neurones

Voir aussi