Modulation de la perception des sons par l'attention, l'apprentissage et l'émotion : rôles et mécanismes

Nous nous sommes intéressés aux mécanismes qui sous-tendent la modulation de la perception auditive par l’attention, et tout particulièrement à l’implication des oscillations électriques cérébrales dans ce processus. Le cours a été introduit par une présentation de ces oscillations et de leur rôle aujourd’hui bien établi dans certains aspects de la perception et de la cognition sensorielles. Puis les travaux du laboratoire de Charles Schroeder mettant en lumière le rôle de ces oscillations dans les effets qu’exerce l’attention sur la réponse du cortex auditif primaire chez le macaque ont été discutés. Dans une étude publiée en 2013 (Lakatos P., Musacchia G., O’Connel M.N., Falchier A.Y., Javitt D.C. et Schroeder C.E., Neuron, 2013), l’activité neuronale de la couche L3 du cortex auditif primaire était analysée à partir d’enregistrements par multiélectrodes, durant lesquels l’attention de l’animal se portait (ou non) sur des séquences sonores. Les macaques avaient été au préalable entraînés à prêter et soutenir leur attention à ces séquences pour détecter la présence d’une fréquence déviante. Ces séquences étaient chacune composées d’un son pur d’une durée de 25 millisecondes, dont la fréquence était de 5,7 kHz ou 16 kHz. Cette « bouffée sonore » était répétée à intervalles réguliers avec une fréquence de 1,6 Hz pour les bouffées sonores de 5,7 kHz et de 1,8 Hz pour les autres. Des oscillations électriques de type delta dont la rythmicité est celle du son ont été observées. Dans la région corticale dont la fréquence caractéristique est celle de la bouffée sonore (5,7 kHz ou 16 kHz), ces oscillations passaient par leur phase de dépolarisation maximale pendant la « bouffée sonore », ce qui a pour effet de favoriser la genèse de potentiels d’action synchrones du son. Dans une région corticale dont la fréquence caractéristique n’est pas celle de la bouffée sonore, des ondes de même rythmicité que la stimulation sonore étaient aussi décelées, mais la stimulation sonore coïncidait avec la phase correspondant à l’hyperpolarisation des neurones, inhibant ainsi leur décharge. Les ondes électriques observées sont donc présentes dans l’ensemble du cortex auditif, mais elles sont en opposition de phase par rapport aux vagues sonores dans la région corticale accordée en fréquence avec la bouffée sonore, tandis qu’elles sont en phase dans les régions non accordées. Parce que ces oscillations électriques se poursuivent quelques secondes après l’arrêt du son, l’origine de ces fluctuations rythmiques calées sur les répétitions du son a été attribuée à un mécanisme d’entraînement de réseaux de neurones par le son sur plusieurs cycles. Au total, ces résultats suggèrent que l’attention portée à une séquence sonore rythmique attendue entraîne à travers l’ensemble du cortex auditif des réseaux neuronaux, d’une façon telle que leur activité oscillatoire devient cohérente et ajustée à la rythmicité du son. Ces résultats ont été étendus aux ondes thêta synchronisées par des répétitions sonores de fréquences correspondantes. Comme les oscillations delta, elles sont entraînées par un stimulus auditif rythmé auquel les singes prêtent attention. Par le jeu de la présentation simultanée de deux sons sur lesquels le singe porte alternativement son attention, ces conclusions ont été renforcées. Les enregistrements mettent en évidence, dans la région corticale accordée en fréquence avec la bouffée sonore, une augmentation des décharges neuronales et de la densité de courant induite par l’attention. Plus important, ils démontrent que l’association du maximum de dépolarisation de l’onde delta avec le maximum de la stimulation sonore est un effet de l’attention. Dans plusieurs aires corticales, outre celle qui est accordée en fréquence avec le stimulus sonore, l’attention est à l’origine de la synchronisation de l’activité de réseaux neuronaux. Quand des stimuli sonores sont présents simultanément, seul celui sur lequel se porte l’attention entraîne l’activité oscillatoire delta à travers un ensemble de régions corticales. Ces conclusions permettent une prédiction qui a été validée expérimentalement : l’amplitude des décharges neuronales en réponse à un stimulus sonore ignoré dans la région accordée en fréquence à ce stimulus dépend de sa relation temporelle avec le stimulus auquel l’attention est prêtée. L’attention se comporte donc comme un filtre temporo-spectral de l’activité neuronale du cortex auditif primaire. Ces découvertes renforcent l’idée selon laquelle les fluctuations de l’excitabilité d’ensembles de neurones distribués forment le contexte dans lequel sont traités les contenus sensoriels spécifiques (Buzsaki G. et Chrobak J.J., Curr. Opin. Neurobiol., 1995). L’attention module l’activité oscillatoire dans la couche supragranulaire L3 par des mécanismes de type top-down qui restent à déterminer.

La situation de compétition sonore renvoie tout naturellement à l’effet cocktail party, ce qui nous a conduit à nous intéresser à un autre travail, publié dans la revue Neuron en 2013 (Zion Golumbic E.M., Schroeder C., Neuron, 2013). Les oscillations de basse fréquence sont particulièrement intéressantes parce que leur période se situe dans l’échelle de temps des fluctuations de l’enveloppe de la parole. L’objectif de l’étude était d’examiner comment l’attention influence la représentation neurale de la parole attendue ou ignorée dans une situation de cocktail party. L’hypothèse testée était la suivante : l’attention entraîne-t-elle les oscillations neuronales de basse fréquence dont la phase est « calée » sur celle du flux de la parole écoutée, formant ainsi une représentation interne amplifiée du flux de la parole écoutée ? Cette hypothèse d’entraînement sélectif est attractive pour plusieurs raisons. D’une part, le flux de parole naturelle est quasi rythmique, en ce qui concerne à la fois les niveaux prosodiques et les niveaux syllabiques ; ces rythmes conduisent à des régularités temporelles qui autorisent un effet d’entraînement cérébral. D’autre part, si l’entraînement aligne les phases de haute excitabilité des oscillations de basse fréquence avec les instants où surviennent des événements saillants dans le flux de la parole écoutée, l’amplitude des décharges neuronales qui coïncident avec ces événements va croître. L’activité corticale a été analysée par électrocorticographie chez six patients atteints d’épilepsie sévère, en période préopératoire. L’électrocorticographie a, chez l’homme, un très bon rapport signal/bruit de fond et une très bonne résolution spatiale (< 5 mm2). Pour chaque électrode, la bande fréquentielle du signal neuronal qui représente au mieux la structure temporelle de la parole dans les fluctuations de sa phase et/ou de son amplitude a été déterminée. Les résultats montrent que le pourcentage de sites cérébraux pour lesquels il y a cohérence de phase entre les oscillations cérébrales et le flux de parole auquel le patient prête attention est élevé pour les oscillations de basses fréquences (delta et thêta), et moindre pour les oscillations alpha. Le pourcentage des sites pour lesquels il y a cohérence d’amplitude est toujours plus faible, et en règle générale, cette cohérence est associée aux oscillations de plus haute fréquence. Au total, la phase des oscillations de basse fréquence et l’amplitude des oscillations de haute fréquence suivent l’enveloppe de la parole écoutée. La cohérence de phase ne se limite pas au cortex auditif primaire, mais s’étend aux régions de haut niveau d’intégration impliquées, en particulier dans le traitement du langage, le traitement multisensoriel et le contrôle de l’attention. En revanche la cohérence en amplitude sur les hautes fréquences est presque exclusivement présente dans le cortex auditif primaire. L’attention portée à un locuteur dans une situation de cocktail party conduit à une réponse corticale dont les caractéristiques distribuées sur le cortex sont très voisines de celles observées quand un locuteur unique s’exprime. En revanche, la cohérence de phase et d’amplitude diminue si l’attention se porte alternativement de la parole d’un locuteur à celle de l’autre. Certains sites cérébraux dits « non sélectifs » montrent un suivi significatif des locuteurs, écoutés comme ignorés, bien que leurs réponses soient biaisées dans la direction du locuteur écouté. D’autres ont une réponse qui paraît sélective pour la parole écoutée : ils se situent presque exclusivement hors du cortex auditif primaire. Le suivi de la parole écoutée dans ces sites « sélectifs » augmente avec la progression de la phrase, indiquant que ces régions sont capables d’utiliser les régularités spectro-temporelles de la parole écoutée pour affiner progressivement les représentations du stimulus écouté. Cet effet d’adaptation ne paraît pas exister au niveau des noyaux auditifs de niveau hiérarchique inférieur. Ces résultats fournissent une base empirique à l’idée selon laquelle l’attention sélective dans le modèle de cocktail party repose sur un contrôle de type top-down de l’excitabilité neuronale au cours du temps (Lakatos P., Schroeder C., Neuron, 2009). Le produit de cette interaction est la formation d’une représentation neurale dynamique de la structure temporelle du flux de la parole écoutée, à laquelle sont associés des effets amplificateurs et de filtre temporel. Ces résultats sont en accord avec l’idée d’un sensing actif, par lequel le cerveau modèle de façon dynamique sa représentation interne du stimulus, et particulièrement des stimuli naturels et continus, pour répondre aux demandes environnementales et contextuelles.

Les bases cellulaires des oscillations cérébrales – produit des interactions entre les neurones pyramidaux glutamatergiques et les interneurones inhibiteurs GABAergiques – ont ensuite été évoquées. Comme l’ont montré György Buzsaki et James Chrobak en 1995 (Buzsaki G. et Chrobak J.J., Curr. Opin. Neurobiol., 1995), ce sont les interneurones inhibiteurs qui jouent un rôle essentiel dans la structuration et la ségrégation spatio-temporelle de ces oscillations. Par exemple, la fréquence des oscillations dépend de la durée de l’inhibition exercée par les interneurones.