Près de 70 ans après l’expérience de Georgetown, MaTOS (”Machine Translation for Open Science”) revisite la traduction automatique de documents scientifiques en texte intégral afin de faciliter et d’ouvrir l’accès à la connaissance scientifique. MaTOS est soutenu par l’Agence Nationale de la Recherche dans le cadre de l’AAPG 2022 – CES 23 (Intelligence artificielle et science des données).
Participants par équipe
- Sorbonne-Université – ISIR – MLIA : F. Yvon
- Inria Paris / ALMAnaCH : R. Bawden, E. de la Clergerie, L. Romary
- Université Paris-Cité / ALTAE : N. Kübler, A. Mestivier, L. Zhu, M. Bénard
- CNRS / INIST : J.F Nominé, M. Huguin
Résumé
Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Notre principale cible applicative est la traduction d’articles scientifiques entre le français et l’anglais, pour laquelle des ressources linguistiques peuvent être exploitées pour obtenir des traductions plus fiables, aussi bien dans une optique d’aide à la publication que pour des besoins de lecture ou de fouille de textes. Les efforts pour améliorer la TA de documents complets sont toutefois freinés par l’incapacité des métriques automatiques existantes à détecter les faiblesses des systèmes comme à identifier les meilleures façons d’y remédier. Le projet MaTOS se propose d’aborder ces deux difficultés de front.
Ce projet s’inscrit dans un mouvement visant à automatiser le traitement d’articles scientifiques. Le domaine de la TA n’échappe pas à cette tendance, en particulier pour ce qui concerne le domaine bio-médical. Les applications sont nombreuses : fouille de textes, analyse bibliométrique, détection automatique de plagiats et d’articles rapportant des conclusions falsifiées, etc. Nous souhaitons à la fois tirer profit des résultats de ces travaux, mais également y contribuer de multiples manières: (a) en développant de nouvelles ressources ouvertes pour la TA spécialisée; (b) en améliorant, par l’étude des variations terminologiques, la description des marqueurs de cohérence textuelle pour les articles scientifiques; (c) en étudiant de nouvelles méthodes de traitement multilingue pour ces documents ; (d) en proposant des métriques dédiées à la mesure des progrès pour ce type de tâches. Le résultat final permettra, par une traduction améliorée, de fluidifier la circulation et la diffusion des savoirs et connaissances scientifiques.
À lire aussi

ALTAE est lauréat de deux projets dans le cadre de l’AAP BRIO
Dans le cadre de l'AAP BRIO de l'Atrium Humanités et Sciences Sociales, ALTAE a obtenu cette année deux projets : SIMMIL : Soutenir l’Insertion des Mineurs Migrants par l’Interaction Linguistique, co-porté par Cristian Valdez et Carlota Piedehierro Sáez. GLAM :...

PROJET MAIA: ALTAE et LLF lauréats de l’AAP Petits et Moyens Équipements
Le projet MAIA (Mesures Aérodynamiques et Imagerie Articulatoire ) co-porté par Jalal Al-Tamimi (LLF) et Emmanuel Ferragne (ALTAE) est lauréat de l'appel Petits et Moyens Équipements. Les 38 k€ ainsi obtenus serviront à acquérir un ensemble d'équipements permettant...

MANON LELANDAIS DEVIENT MEMBRE DE L’IUF
Bravo Manon ! Manon Lelandais, MCF à l'UFR d'Etudes Anglophones et membre d'ALTAE, vient d'être nommée membre junior de l'Institut Universitaire de France pour son projet BRIDGE (Boundary Research on Interactional Data for Grammar and Evaluation). Nous lui adressons...

ANR GLITCH
Projet ANR JCJC (2024-2027) porté par Maud Pélissier.Résumé Deux techniques d’apprentissage sont particulièrement efficaces pour la mémorisation : l’effort de rappel (essayer de se rappeler d’un élément plutôt que simplement le relire) et l’apprentissage espacé...