Contact : Professeur Natalie Kübler

  • 25 novembre 2024 14h-16h (salle 720 Olympe de Gouge, Paris) Patrick DROUIN, Professeur, Université de Montréal. Extraction automatique de termes : un regard sous le capot

Résumé :

Dans cet exposé, je présenterai d’abord une vue d’ensemble des techniques d’extraction automatique de termes les plus traditionnelles : linguistiques, statistiques et hybrides. Malgré le bouleversement causé par l’arrivée de l’intelligence artificielle dans le domaine du traitement automatique de la langue, ces techniques sont toujours en exploitation et donnent des résultats intéressants et prévisibles. Je me pencherai ensuite sur les contributions des domaines de l’apprentissage automatique et de l’intelligence artificielle afin de décrire l’évolution potentielle des méthodologies et du domaine en général.

  • 2 décembre 2024 14h-16h (salle 720 Olympe de Gouge, Paris, en présentiel et sur Zoom) Ana Frankenberg-Garcia, Professeur émérite, l’Université de Surrey, Guilford. Data-driven learning for users of machine translation

Résumé :

Machine translation (MT) is becoming ubiquitous. It is faster and cheaper than professional human translation and its quality can be quite impressive for certain language pairs and text types. However, MT can also be deceptively good. Recent neural MT solutions produce fluent text, making it harder to detect errors. Despite this, many end users of MT appear to be unaware of the potential risks involved.

This seminar explores the use of a data-driven approach to raise MT users’ awareness of common linguistic shortcomings and biases in MT output, using authentic examples from a parallel corpus of machine and professional human translation.

  • 27 janvier 2025 14h-15h (salle 720 Olympe de Gouge, Paris, en présentiel et sur Zoom) Taylor Arnold, Professeur, University of Richmond. Multimodal Approaches for Search and Discovery of Archival Collections

Résumé :

Digital search interfaces such as search engines and e-commerce sites have largely been mediated through the use of written language. While this has been a powerful approach for many applications, it has also served as a limiting factor in the search and discovery of collections consisting of visual and multimodal records. Interfaces offered, for example, by museums and archives for searching digitized images typically only allow for search through archival metadata fields. In this talk, I will introduce new methods that use multimodal large language models to address these shortcomings. I will show several different approches and discuss their relative benefits and drawbacks from both theoretical and empircal perspectives. The talk will highlight a current public project (https://digitaldocumerica.org/) that integrates these methods into a search interface for a collection of documentary photographs from the 1970s.

  • JEUDI 6 mars 2025 17h-18h (salle 720 Olympe de Gouge, Paris, en présentiel et sur Zoom) Federica Vezzani, Maître de conférences, Dipartimento di Studi Linguistici e Letterari (DiSLL), Università degli Studi di Padova. Building a Patient-Centered Terminology Resource: Insights from the HEREDITARY Project / Construire une ressource terminologique centrée sur le patient : Perspectives du projet HEREDITARY

En: HEREDITARY (HetERogeneous sEmantic Data integratIon for the guT-bRain interplaY) is a Horizon Europe research program that addresses the critical challenge of leveraging multimodal health data to enhance disease prevention, diagnosis, and treatment. In this presentation, we will examine the project’s ongoing efforts to study and analyse multilingual terminology related to the gut-brain interplay and its impact on neurodegenerative diseases. In particular, we will showcase the progress made so far in analysing both the conceptual and linguistic dimensions, as well as the design of a FAIR terminology resource aimed at enhancing the communication of specialised information to patients.

Fr: HEREDITARY (HetERogeneous sEmantic Data integratIon for the guT-bRain interplaY) est un programme de recherche Horizon Europe visant à exploiter les données multimodales de santé pour améliorer la prévention, le diagnostic et le traitement des maladies. Dans cette présentation, nous aborderons les efforts actuels du projet pour étudier et analyser la terminologie multilingue concernant l’interaction intestin-cerveau et son impact sur les maladies neurodégénératives, en mettant particulièrement l’accent sur la conception d’une ressource terminologique FAIR pour faciliter la transmission d’informations spécialisées aux patients.

  • 2 juin 2025 14h-16h (salle 720 Olympe de Gouge, Paris, en présentiel et sur Zoom) Rachele Raus, Université de Bologne, (intervention à distance), Michela Tonti, Université de Bergame, (intervention à distance ou en présence), Virginia Laconi, Université de Bologne (intervention en présence). Traduction intralinguistique, intelligence artificielle et inclusion : le projet “Empowering multilingual inclusive communication”

Résumé :

Le projet Empowering a Multilingual Inclusive Communication (E-MIMIC)[1], dirigé par le personnel de l’École Polytechnique de Turin en partenariat avec des équipes linguistiques (spécialisées en italien, français et espagnol) de l’Université de Bologne et de Rome Tor Vergata, entend réaliser le dispositif Inclusively, qui, en s’appuyant sur une approche supervisée du modèle d’intelligence artificielle utilisé, signale les segments éventuellement discriminatoires qui seraient présents dans les textes de l’administration du pays concerné (Italie, France, Espagne) et propose de les reformuler de manière inclusive par une sorte de traduction intralinguistique. L’inclusion est entendue ici dans le sens large de la non-discrimination, qui concerne avant tout, mais pas exclusivement, le « genre » (voir le guide La communication inclusive de 2018 du Secrétariat du Conseil de l’UE).

Dans ce séminaire, nous nous focaliserons sur les versions italienne et française du dispositif et sur l’importance de prédisposer de corpus ad hoc et de données linguistiques qualitativement fiables pour l’entraînement d’un modèle supervisé d’IA qui puisse respecter avant tout la diatopie linguistique (Raus, Tonti, 2025).

Pour ce faire, nous présenterons tout d’abord le modèle que le dispositif utilise, à savoir un modèle supervisé d’IA, qui bénéficie de la présence de l’humain pendant tout le cycle d’analyse, assurant ainsi l’évaluation de la performance du dispositif (Molino, Raus, Cerquitelli 2025).

Nous montrerons ensuite les problèmes concernant les corpus de grande taille qui servent au pré-entraînement de l’outil (Raus, Tonti 2025) et les critères de sélections des textes administratifs de la fonction publique italienne et française pour la création de corpus plus petits qui permettent d’entraîner et de spécialiser le dispositif dans les meilleures conditions possibles.

Enfin, nous présenterons les critères linguistiques et discursifs qui d’une part, ont servi à fournir des données étiquetées de qualité et de l’autre à proposer des reformulations inclusives. Pour établir ces critères, nous nous sommes inspirées à la fois de la tradition française d’analyse du discours, qui se « réclame de Michel Pêcheux » (Moirand 2020), et de la linguistique computationnelle (Raus et al. 2022).

Une place à part sera réservée à la question de la reformulation de quelques termes qui sont utilisés dans les documents de l’administration collectés mais qui ne sont pas sémantiquement accessibles à un public large parce que peu transparents ou peu compréhensibles. En effet, le dispositif Inclusively essaie de résoudre également la question de la reformulation de ce type de termes.

[1] Le projet est financé par l’Union européenne NextGenerationEU – PNRR (Missione 4 Istruzione e ricerca – Componente 2 Dalla ricerca all’impresa – Investimento 1.1, codice 2022WEFCFP – CUP J53D23007230006).

 

 

À lire aussi

Empowering multilingual inclusive communication

Empowering multilingual inclusive communication

2 juin 2025 14h-16h sur Zoom : Rachele Raus (Université de Bologne), Michela Tonti (Université de Bergame), Virginia Laconi, Université de Bologne et Université Paris Cité). Traduction intralinguistique, intelligence artificielle et inclusion : le projet “Empowering...

ANR GLITCH

ANR GLITCH

Projet ANR JCJC (2024-2027) porté par Maud Pélissier.Résumé Deux techniques d’apprentissage sont particulièrement efficaces pour la mémorisation : l’effort de rappel (essayer de se rappeler d’un élément plutôt que simplement le relire) et l’apprentissage espacé...