Résumé

Participer à une compétition de Machine Learning demande à la fois des compétences poussées en informatique et une connaissance des modèles de Machine Learning du point de vue mathématique et algorithmique. Cet exposé explique le processus itératif permettant d’obtenir des bons résultats lors d’une compétition de Machine Learning.

La méthodologie proposée se décompose en 5 phases, répétées jusqu’à la fin de la compétition. Elle commence par une revue de l’état de l’art sur le sujet, en termes de publications scientifiques et de compétitions similaires. Suit une exploration des données, pour comprendre leurs structures et avoir une première idée des features ayant un pouvoir prédictif. La troisième phase construit une représentation des données qui optimise ces features : c’est ce qu’on appelle le feature engineering. Après avoir construit une procédure d’évaluation des modèles, impliquant par exemple une validation croisée (k-fold), il reste à créer une batterie de modèles, les comparer et les combiner pour obtenir le meilleur modèle prédictif possible. Un data scientist émet ensuite des hypothèses sur les nouvelles features qui pourraient apporter une représentation plus pertinente des données, et les intègre en répétant cette méthodologie pour améliorer les résultats jusqu’à la fin de la compétition.

Atteindre d’excellents classements lors de compétitions de Machine Learning nécessite donc une connaissance précise des modèles pour les paramétrer au mieux et pour connaître leurs limites, mais également de la créativité pour construire une représentation des données susceptible de contenir un maximum d’informations pertinentes.

S'attaquer à une compétition de machine learning : méthodologie et exemples pratiques

Résumé

Documents et médias

Intervenant(s)

Pierre Courtiol

Événements

Cartographie des sciences des données

Présentation des challenges 2018 (1)

Compromis Biais-Complexité

Présentation des challenges 2018 (2)

Malédiction de la grande dimension

Réduction de dimensionnalité et débruitage

Analyse de Fourier, filtrage et échantillonnage

Le débruitage d'images en quelques formules

Transformées et bases d'ondelettes

S'attaquer à une compétition de machine learning : méth…

Apprentissage Bayésien et linéaire à noyaux

Régression à noyaux et optimisation convexe

Classification à noyaux et SVM

Apprentissage fédéré pour les données médicales

Descente de gradient et réseaux de neurones

Gradients stochastiques et conditionnels pour les réseaux de neurones

Voir aussi