Réseaux de neurones profonds pour le signal audio musical

Résumé

Comme dans de nombreux domaines, les réseaux de neurones profonds ont permis des avancées importantes dans le traitement des signaux audio musicaux. Ce séminaire présente les spécificités de ces signaux et les adaptations nécessaires des réseaux de neurones profonds pour leur modélisation.

Dans une première partie, nous rappelons certains éléments de traitements du signal audio (Fourier, CQT, modèle sinusoïdal harmonique, modèle source-filtre). Dans l’approche machine-learning traditionnelle, ces éléments sont utilisés pour construire des « hand-crafted features » donnés en entrée d’algorithmes de classification.

Dans une deuxième partie nous montrons comment les réseaux de neurones profonds (en particulier convolutionnels) permettent d’effectuer du « feature learning ». Nous rappelons d’abord les différences fondamentales entre l’image 2D et les représentations temps/fréquence. Nous discutons ensuite le choix de l'entrée (spectrogramme, CQT ou raw-waveform), le choix de la forme des filtres de convolutions, les modèles neuronaux autorégressifs, et les différentes manières d’injecter de la connaissance a priori (harmonicité, source/filtre) dans ces réseaux.

Dans une troisième partie, nous présentons les différents paradigmes d'apprentissage utilisées dans le domaine audio musical : classification, encoder-decoder (séparation de source, contraintes sur l'espace latent), metric learning (triplet loss) et semi-supervised learning.