General Information
A specialist in corpus linguistics, I worked on a corpus of L2 English learners in the early 1990s, then designed an online concordancer for specialised English in 1998, and finally introduced the use of corpora and machine translation in translation training in the early 2000s. My recent research focuses on learner corpora in specialised translation and post-editing, translation of semantic prosody, and the evaluation of neural machine translation in specialised languages, especially in terminology and specialised phraseology. I am also working on terminological variation and its translation by Large Language Models, as well as on the evaluation of term extraction performed by generative AI ( MaTOS project: https://anr-matos.github.io/),.
Research areas
Corpus linguistics and specialiseed discourse, terminology, phraseology, specialised translation, machine translation (NMT & GenAI), term variation,
Publications
- [hal-05148937] Translation and contrastive analysis of collocational verbal humour in English-French TED Talks transcripts...by ano.nymous@ccsd.cnrs.fr.invalid (Anastasia Buturlakina) on 7 July 2025 at 16h12
Verbal humour is a complex issue involving different types of mechanisms, of which linguistic incongruity, based on clashes in collocational […]
- [hal-05144033] Testing LLMs' Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation:...by ano.nymous@ccsd.cnrs.fr.invalid (Joachim Minder) on 4 July 2025 at 11h12
This study investigates the capabilities of large language models (LLMs), specifically ChatGPT, in annotating MT outputs based on an error typology. […]
- [hal-05031532] Translating and post-editing machine translation in specialised context. Do we still need to train specialized...by ano.nymous@ccsd.cnrs.fr.invalid (Natalie Kübler) on 11 April 2025 at 19h55
[...]
- [hal-05031530] Les corpus pour et par les apprenants en post-édition : allier la recherche et l’enseignementby ano.nymous@ccsd.cnrs.fr.invalid (Natalie Kübler) on 11 April 2025 at 19h50
[...]
See All HAL Publications
Projects
- 2024-2026 : Erasmus+ Debating Democracy , PI Gabriela Saldanha Viva, Université d’Oslo. Responsable pour Paris Cité
- 2022-2026 ANR-22-CE23-0033-04 MATOS Traduction automatique pour la science ouverte – Machine Translation for Open Science,
PI François Yvon, Paris Sorbonne et CNRS
PI for Université Paris Cité: Natalie Kübler - 2021-2022 : Idex CORPUS SPECIALISES ET TRADUCTION NEURONALE specialised corpora and neural translation (SPECTRANS),
PI Nicolas Ballier
Participation - 2015-2018 : ANR TRANSREAD : Enriching Bilingual Reading and Interaction with Cross-lingual Alignments,
PI François Yvon LIMSI, Paris-Saclay
PI for Université Paris Cité: Natalie Kübler - 2015-2017 : Idex Néoveille,
PI Emmanuel Cartier, Université Sorbonne Paris Nord
PI for Université Paris Diderot: Natalie Kübler - 2016 : Idex SPECIALIST : Corpus en langues de spécialité, PI
- 2014-aujourd’hui : Corpus d’apprenants de la traduction spécialisée, PI
en collaboration avec Alexandra Mestivier (CLILLAC-ARP) et Mojca Pecman (CLILLAC-ARP), ainsi que Hanna Martikainen (ESIT, Sorbonne-Nouvelle) et Maud Bénard (CLILLAC-ARP) - 2004-2007 :PI for Multilingual e Learning in Language Engineering – MeLLANGE: European project with ten partners:
A Multilingual, Multidomain Learner Corpus of Translation Students. Fully Online Training for Specialized Translators. Developing a Framework for a European Master’s in Translation - 2007 – today : Co-creation of the terminological and phraseological multilingual ARTES database (PI since 2010) Mojca Pecman
Teaching
L3: Corpus Linguistics and AI for terminology
M1: Introduction to Corpus Linguistics
M1: Discourse and Genres in Languages for Specific Purposes
M1: Corpus Linguistics Applied to Translation and Post-Editing
M2: Research in corpus-Based Translation Studies
M2: Corpus Linguistics for Translators
PhD supervision
PhD dissertations in progress
- Anastasia Buturlakina : Prosodie sémantique et humour : analyse contrastive et traductologique des présentations TED en anglais et en français. Depuis novembre 2020
- Marie Serisier : contrat doctoral Université Paris Cité : La manosphère. Construction d’identités plurielles et radicales sur Reddit. Co-tutelle intrenationale 50% avec Sébastien de Valériola (spécialité informatique et apprentissage profond), Université Libre de Bruxelles. Depuis septembre 2022.
- Agnès Ganet : contrat doctoral ENS : Les supports audiovisuels et l’anglais de spécialité: étude du triptyque vulgarisation-information-promotion à travers les vidéos réalisées à l’occasion d’expositions de mode. Depuis septembre 2023
- José Cornejo Carcamo : contrat doctoral ANR MaTOS : Variation terminologique et traduction automatique neuronale : étude et évaluation du traitement de la variation terminologique en santé, environnement, traitement automatique des langues. Co-direction 50% avec Alexandra Mestivier. Depuis octobre 2023
- Joachim Minder : contrat doctoral international idex : L’IA générative comme aide à l’évaluation de traductions : vers un nouveau paradigme d’évaluation hybride qualitatif par le biais de prompts. Co-direction avec Guillaume Wisniewski, LLF. Depuis octobre 2024.
Completed PhD dissertations
- Defended 18 Decembre 2024 : Maud Benard : contrat doctoral Université de Paris : Difficulté de traduction automatique des groupes nominaux complexes dans les articles de recherche en langue de spécialité médicale et dans le domaine du TAL : aide à la formation des post-éditeurs professionnels et occasionnels.Challenges for Machine Translation in Handling Complex Noun Phrases in Medical and NLP Research Articles: Implications for the Training of Professional and Non-Professional Post-Editors.
- Soutenance le 27 Novembre 2024 : Margaux Guillerit : contrat doctoral ENS : Analyse pragmatique et interactionnelle des échanges entre juges et avocats lors des “oral arguments” à la Cour suprême des Etats-Unis. Co-direction 50% avec Simon Taylor, juriste, Université Paris X Nanterre. A Pragmatic and Interactional Corpus Analysis of Exchanges between Judges and Lawyers during Oral Arguments before the United States Supreme Court.
- Defended 25 November 2021 : Claire Kloppmann : contrat doctoral ENS : La révolution internet et l’anglais de spécialité : étude diachronique de la persuasion dans des genres discursifs du domaine de l’architecture. Codirection avec Shirley Carter-Thomas, Lattice – CNRS 50%. The Internet Revolution and English for Specific Purposes: A Diachronic Corpus Study of Persuasion in Architectural Discourse Genres.
- Defended 17 April 2020 : Coralie Schneider : contrat doctoral ENS Cachan : Étude des phénomènes de création néologique dans le domaine de la recherche médicale traitant des maladies rares. Co-tutelle internationale avec Rosa Estopa, Université Pompeu Fabra. 50% A Corpus Study of Neologism Formation in Medical Research on Rare Diseases.
- Defended 23 November 2019 : Hanna Martikainen : contrat doctoral Paris Diderot : Sources de biais d’interprétation dans la traduction automatique post-éditée des résumés de revues systématiques Cochrane. Sources of Interpretive Bias in the Post-Edited Machine Translation of Cochrane Systematic Review Abstracts : A Corpus Study.
- Defended 29 November 2016 : Olga Andronova : Industrialisation de l’enseignement de l’anglais à l’université : évaluation d’un dispositif hybride d’auto-formation suivie. Co-direction avec le Professeur Jean-Paul Narcy-Combes, Université Paris 3. Taux de co-encadrement 50%. The Industrialisation of English Language Teaching at University Level: An Evaluation of a Blended Guided Self-Directed Learning Programme.
- Defended 14 March 2015 : Gabriella Serrone : Études des adages juridiques dans une approche contrastive français/italien. Co-tutelle internationale avec le Professeur Mirella Connena, Université de Brescia, Italie. Taux de co-encadrement 50%. A Contrastive Corpus Study of Legal Maxims in French and Italian.
- Defended 10 DEcember 2014 : Corinne Landure : Étude comparative de l’exploitation directe de corpus générique et spécifique par des apprenants LANSAD. Co-direction avec le Professeur Alex Boulton, ATILF, Université de Lorraine Nancy 2. Taux de co-encadrement 50%. A Comparative Study of LANSAD Learners’ Direct Use of General and Specialised Corpora.
- Defended 15 October 2011 : Hieu Le Chi : Les conventions internationales dans le domaine maritime : analyse de la terminologie verbale en français et vietnamien. Mention Honorable. International Conventions in the Maritime Domain: A Corpus Analysis of Verbal Terminology in French and Vietnamese.
- Defended 16 September 2011 : Yaliz Yelin : Analyse de corpus d’un domaine émergent : la formation ouverte et à distance. Mention Très Honorable. A Corpus-Based Analysis of an Emerging Domain: Open and Distance Learning.
- Soutenance : le 22 avril 2011 : Geneviève Bordet : Étude discursive des résumés de thèse dans une perspective d’analyse de genre. Mention Très Honorable avec Félicitations à l’unanimité. Discourse Analysis of Thesis Abstracts within a Genre-Analytical Framework.
- Defended 5 December 2008: Alexandra Volanschi : Étude et modélisation des phénomènes collocationnels : Implémentation dans un système d’aide à la rédaction en anglais scientifique. Mention Très Honorable avec les félicitations du Jury à l’unanimité. Study and Modelling of Collocational Phenomena: Implementation in a Scientific English Writing Support System.
> See all Hal publications