Challenges de données

Challenges 2023

Les challenges sont proposés par des services publics, des entreprises ou des laboratoires scientifiques, et sont issus de problématiques concrètes. Les participants soumettent les résultats de leurs algorithmes de classification ou de prédiction, qui sont mis en compétition par le site web. Les challenges sont intégrés dans le cours du Pr Stéphane Mallat au Collège de France, et proposés dans de nombreux enseignements de sciences des données en France et dans le monde francophone.

L’édition 2023 est désormais lancée avec treize nouveaux challenges, organisés en partenariat avec l’École Normale Supérieure et l'Institut Louis Bachelier.

Les challenges

Apprentissage de l'anatomie radiologique grâce au few shots learning

Présenté par Raidium
Le but de ce challenge est de segmenter les structures en utilisant leur forme, mais sans annotations exhaustives.

Apprentissage par renforcement pour l'empreinte carbone des bâtiments

Présenté par Accenta
Le sujet de ce challenge est la réduction des émissions de gaz à effet de serre causées par le chauffage et la climatisation des bâtiments. L'objectif est de minimiser ces émissions en optimisant le pilotage des systèmes thermiques des bâtiments collectifs.

Biosonar – Détection de clics d'Odontocètes

Présenté par l'Université de Toulon
Le but du challenge est de déterminer si les extraits audio contiennent des biosonoars (clics de delphinidé) ou des bruits de transitoire (bruit de crevettes ou récif...).

Colloïdes : jusqu'à quelle taille peut-on aller ?

Présenté par ESPCI Paris
Pouvez-vous détecter de petites particules à partir d'un scan 3D bruité ?

Comment démasquer les fraudeurs ?

Présenté par BNP Paribas PR
L'objectif de ce challenge est de trouver la meilleure méthode pour transformer et agréger les données relatives au panier client d'un de nos parteneraires pour détecter les cas de fraude.
​​​​​​​En utilisant ces données panier, les fraudeurs pourront être détectés, et ainsi refusés dans le futur.

Comment expliquer le prix de l'électricité ?

Présenté par la société QRT
L'objectif est de modéliser le prix l'électricité à partir de données météorologiques, énergétiques (matières premières) et commerciales pour deux pays européens – la France et l'Allemagne. On soulignera que c'est ici un problème d'explication des prix par d'autres variables concomitantes et non pas un problème de prédiction.

Détection de la mutation PIK3CA dans le cancer du sein

Présenté par OWKIN
Le challenge proposé par Owkin est un problème de classification binaire faiblement supervisé : l'objectif est de prédire, à partir d'une lame histologique numérisée en haute résolution, si un patient présente une mutation du gène PIK3CA.

Estimation de valeurs manquantes dans les indicateurs ESG

Présenté par Pladifes et Impactfull
L'objectif du challenge est de prédire les valeurs manquantes pour 15 indicateurs extra financiers d'entreprises (jusqu'à 96 % de valeurs manquantes). Ces indicateurs sont disponibles sur trois ans (2018, 2019, 2020) et proviennent des rapports extra-financiers des entreprises.

La malédiction de la table des matières

Présenté par l'Autorité des Marchés Financiers
Le but du challenge est donc d’être capable de reconstruire la table des matières des rapports financiers annuels des sociétés françaises cotées, en se basant sur les blocs de texte du document et leurs métadonnées (positions, police, taille du texte, etc.).

Prédiction des rendements de fin de session du marché action américain

Présenté par Capital Fund Management (CFM)
Le but de ce challenge est d'estimer la direction du prix d'une action durant les deux dernières heures de trading, connaissant le comportement du début de la journée.

Prévision des précipitations à court terme

Présenté par PlumeLabs
Le but de ce challenge est de prévoir les taux de pécipitations futurs (estimé via les mesures des échos radar) en utilisant les taux de pécipitations passés.

Prévision en temps réel de l'affluence à bord des trains

Présenté par SNCF-Transilien
Le but de ce challenge pour SNCF-Transilien est d’explorer la possibilité de prédire à court terme le taux d’occupation à bord des trains en temps réel. Cela permettrait de pouvoir donner un service d’informations en temps réel de la charge à bord à ses voyageurs au travers de ses médias numériques.

Robustesse aux changements de distribution et à l'ambiguïté

Présenté par EffiSciences
Que se passe-t-il si des corrélations trompeuses sont présentes dans le jeu de données d'entrainement ?