Près de 70 ans après l’expérience de Georgetown, MaTOS (”Machine Translation for Open Science”) revisite la traduction automatique de documents scientifiques en texte intégral afin de faciliter et d’ouvrir l’accès à la connaissance scientifique. MaTOS est soutenu par l’Agence Nationale de la Recherche dans le cadre de l’AAPG 2022 – CES 23 (Intelligence artificielle et science des données).

Participants par équipe

  • Sorbonne-Université – ISIR – MLIA : F. Yvon
  • Inria Paris / ALMAnaCH : R. Bawden, E. de la Clergerie, L. Romary
  • Université Paris-Cité / ALTAE : N. Kübler, A. Mestivier, L. Zhu, M. Bénard
  • CNRS / INIST : J.F Nominé, M. Huguin

Résumé

Le projet MaTOS (Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Notre principale cible applicative est la traduction d’articles scientifiques entre le français et l’anglais, pour laquelle des ressources linguistiques peuvent être exploitées pour obtenir des traductions plus fiables, aussi bien dans une optique d’aide à la publication que pour des besoins de lecture ou de fouille de textes. Les efforts pour améliorer la TA de documents complets sont toutefois freinés par l’incapacité des métriques automatiques existantes à détecter les faiblesses des systèmes comme à identifier les meilleures façons d’y remédier. Le projet MaTOS se propose d’aborder ces deux difficultés de front.

Ce projet s’inscrit dans un mouvement visant à automatiser le traitement d’articles scientifiques. Le domaine de la TA n’échappe pas à cette tendance, en particulier pour ce qui concerne le domaine bio-médical. Les applications sont nombreuses : fouille de textes, analyse bibliométrique, détection automatique de plagiats et d’articles rapportant des conclusions falsifiées, etc. Nous souhaitons à la fois tirer profit des résultats de ces travaux, mais également y contribuer de multiples manières: (a) en développant de nouvelles ressources ouvertes pour la TA spécialisée; (b) en améliorant, par l’étude des variations terminologiques, la description des marqueurs de cohérence textuelle pour les articles scientifiques; (c) en étudiant de nouvelles méthodes de traitement multilingue pour ces documents ; (d) en proposant des métriques dédiées à la mesure des progrès pour ce type de tâches. Le résultat final permettra, par une traduction améliorée, de fluidifier la circulation et la diffusion des savoirs et connaissances scientifiques.

À lire aussi

MANON LELANDAIS DEVIENT MEMBRE DE L’IUF

MANON LELANDAIS DEVIENT MEMBRE DE L’IUF

Bravo Manon ! Manon Lelandais, MCF à l'UFR d'Etudes Anglophones et membre d'ALTAE, vient d'être nommée membre junior de l'Institut Universitaire de France pour son projet BRIDGE (Boundary Research on Interactional Data for Grammar and Evaluation). Nous lui adressons...

ANR GLITCH

ANR GLITCH

Projet ANR JCJC (2024-2027) porté par Maud Pélissier.Résumé Deux techniques d’apprentissage sont particulièrement efficaces pour la mémorisation : l’effort de rappel (essayer de se rappeler d’un élément plutôt que simplement le relire) et l’apprentissage espacé...