Thématiques / Intervenants

L'école d'été propose des cours en français (slides possiblement en anglais - à préciser) dont les thèmes et intervenants sont présentés ci-dessous. La liste des intervenant(e)s est en cours d'être définie. 

 

  • Traitement des données textuelle, évaluation et explicabilité par Sophie Rosset

  • Apprentissage de représentation pour le langage par Marie Candito

  • Modèles multimodaux pour l’interaction orale par Laurent Besacier
  • Moteur de recherche et RAG par José G Moréno

  • Traitement automatique du langage multimodal par Benoît Favre et Benjamin Piwowarski

  • Empreinte environnementale des modèles de langue par Anne-Laure Ligozat

 

Présentation détaillée

Traitement des données textuelle, évaluation et explicabilité par Sophie Rosset

Sophie Rosset est Directrice de Recherche du CNRS (DR1), et est affectée au LISN (équipe LIPS) dont elle en est la directrice depuis le premier janvier 2021. Elle a été membre du comité national, section 07 de 2016 à 2019. Pour la communauté TAL, elle a été rédactrice en chef de la revue TAL jusqu'en 2024 et a été membre cooptée du Comité Permanent de l'ATALA en 2017 et présidente entre 2019 et 2021. Ses travaux de recherche s’insèrent dans le cadre de l’intelligence artificielle et de la communication humain machine en langue, plus spécifiquement le dialogue homme-machine et de la recherche d’information interactive. Depuis 2019, ses activités se sont concentrées autour de trois axes : (1) le dialogue et sa modélisation ; (2) les gros modèles de langue (LLMs), et (3) l’apprentissage few ou 0 shots. Les domaines applicatifs ont été le dialogue, la compréhension de la langue (écrite et parlée) et la reconnaissance du locuteur (speaker diarization).  

Apprentissage de représentation pour le langage par Marie Candito

Marie Candito est MCF HDR, responsable du M2 Computational Linguistics à l'université Paris Cité.
Elle est directrice adjointe du LLF (UMR 7110) et rédactrice en chef de la revue TAL depuis janvier 2025.
Ses travaux de recherche portent sur l'analyse syntaxique et sémantique de phrases par méthodes statistiques puis neuronales, sur l'automatisation de tâches de sémantique lexicale (catégorisation sémantique, désambiguisation et induction de sens), ainsi que sur l'analyse de la compétence linguistique des modèles de langue.

Moteur de recherche et RAG par José G Moréno

Ce cours explore les fondements et les évolutions récentes du domaine de la recherche d’information, avec un accent particulier sur les approches hybrides combinant récupération et apprentissage automatique ou génération, connues sous le nom de Retrieval-Augmented Generation (RAG) our Retrieval-Enhanced Machine Learning (REML). À travers les notions de documents, de requêtes et d’interactions utilisateur, le cours mettra en lumière la complémentarité entre les techniques de recherche d’information classique et les grands modèles de langage de type encodeur ou décodeur. Les étudiants découvriront comment les modèles RAG/REML intègrent des composants de récupération dans des architectures pour améliorer leur performance. Le cours s’appuiera sur des cas d’usage concrets et sera accompagné de travaux pratiques utilisant des outils comme PrivateGPT, Haystack, llamaindex ou LangChain.

Jose G Moreno est maître de conférences à l'Université de Toulouse, où il est co-responsable du parcours de Master en Intelligence Artificielle : Fondements et Applications (IAFA). Ses recherches portent sur la recherche et l’extraction d’information, avec un accent particulier sur la reconnaissance d'entités nommées, la liaison référentielle d’entités, la recherche ad hoc et le regroupement de documents textuels. Il travaille dans plusieurs domaines d’application, notamment le domaine médical, les données multimédia et les documents historiques.

Modèles multimodaux pour l’interaction orale par Laurent Besacier

Ce cours explorera les avancées récentes des modèles multimodaux pour l’interaction orale. Après une introduction au traitement automatique de la parole et aux architectures de reconnaissance automatique de la parole (ASR), il présentera les encodeurs autosupervisés ainsi que les modèles de langue multimodaux combinant texte et parole. Nous terminerons par un aperçu des modèles de dialogue oral de type speech2speech (tels que Moshi). Une séquence interactive pourra être proposée en fin de séance afin d’expérimenter concrètement ces modèles à travers des tâches spécifiques.

Laurent Besacier est professeur à l’Université Grenoble Alpes, actuellement en détachement au sein du centre de recherche privé Naver Labs Europe. Il y occupe le poste de « principal scientist »  où il dirige le groupe de recherche « interactive systems ». Auparavant, il a dirigé l’équipe TAL chez Naver Labs de 2021 à 2023, et avant cela, il était à la tête de l’équipe GETALP du Laboratoire d’Informatique de Grenoble jusqu'en 2020. Ses principaux domaines d'expertise et intérêts de recherche englobent les grands modèles de langue (LLMs), la reconnaissance automatique de la parole, la traduction automatique, les langues peu dotées ainsi que l'évaluation des systèmes de TAL.

 

Traitement automatique du langage multimodal par Benoît Favre et Benjamin Piwowarski

Les progrès récents en traitement du langage naturel ont permis le développement de technologies très impressionnantes qui relient le langage à d'autres modalités telles que l'audio ou l'image (réponse à des questions sur des images, classification d'événements acoustiques, dialogue oral en temps réel avec un agent...) Les modalités audio et visuelles sont généralement interfacées avec un grand modèle de langage (LLM) en transformant d'abord les entrées non textuelles en un ensemble de vecteurs, puis en projetant ces représentations dans le même espace de représentation que le texte. Les modèles peuvent alors être entraînés à répondre à des instructions sur des entrées multimodales. Ce cours donne un aperçu des approches historiques et actuelles pour traiter la multimodalté, en particulier les techniques de tokenisation audio et video, et aux propriétés des espaces de représentation sous-jacents.

Benoit Favre est professeur à Aix-Marseille Université, actuellement en délégation CNRS à Grenobles-Alpes Université. Il s'intéresse au langage dans un contexte multimodal, en particulier lorsqu'il est associé au son et la vision.

Benjamin Piwowarski est directeur de recherche CNRS au sein de l'ISIR à Sorbonne Université.

 

Empreinte environnementale des modèles de langue par Anne-Laure Ligozat

L'évolution des modèles de langue entraîne des besoins de plus en plus grands en capacités de calcul. Ces besoins croissants amènent à se questionner sur l'empreinte environnementale associée, que ce soit en termes d'empreinte carbone, de consommation d'eau ou d'utilisation de ressources. Dans ce cours nous décrirons les principales caractéristiques environnementales des modèles actuelles, et présenterons les analyses de quelques modèles récents. Une partie pratique permettra d'appréhender des méthodes d'évaluation environnementale et de discuter de leurs avantages et limites. 

Anne-Laure Ligozat est professeur en informatique à l'ENSIIE (École Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise) et au LISN (Laboratoire Interdisciplinaire des Sciences du Numérique) en région parisienne. Ses thématiques de recherche concernent les impacts environnementaux du numérique, et en particulier de l'intelligence artificielle. 

Chargement... Chargement...