2 juin 2025 14h-16h sur Zoom : Rachele Raus (Université de Bologne), Michela Tonti (Université de Bergame), Virginia Laconi, Université de Bologne et Université Paris Cité). Traduction intralinguistique, intelligence artificielle et inclusion : le projet “Empowering multilingual inclusive communication”

Résumé :

Le projet Empowering a Multilingual Inclusive Communication (E-MIMIC)[1], dirigé par le personnel de l’École Polytechnique de Turin en partenariat avec des équipes linguistiques (spécialisées en italien, français et espagnol) de l’Université de Bologne et de Rome Tor Vergata, entend réaliser le dispositif Inclusively, qui, en s’appuyant sur une approche supervisée du modèle d’intelligence artificielle utilisé, signale les segments éventuellement discriminatoires qui seraient présents dans les textes de l’administration du pays concerné (Italie, France, Espagne) et propose de les reformuler de manière inclusive par une sorte de traduction intralinguistique. L’inclusion est entendue ici dans le sens large de la non-discrimination, qui concerne avant tout, mais pas exclusivement, le « genre » (voir le guide La communication inclusive de 2018 du Secrétariat du Conseil de l’UE).

Dans ce séminaire, nous nous focaliserons sur les versions italienne et française du dispositif et sur l’importance de prédisposer de corpus ad hoc et de données linguistiques qualitativement fiables pour l’entraînement d’un modèle supervisé d’IA qui puisse respecter avant tout la diatopie linguistique (Raus, Tonti, 2025).

Pour ce faire, nous présenterons tout d’abord le modèle que le dispositif utilise, à savoir un modèle supervisé d’IA, qui bénéficie de la présence de l’humain pendant tout le cycle d’analyse, assurant ainsi l’évaluation de la performance du dispositif (Molino, Raus, Cerquitelli 2025).

Nous montrerons ensuite les problèmes concernant les corpus de grande taille qui servent au pré-entraînement de l’outil (Raus, Tonti 2025) et les critères de sélections des textes administratifs de la fonction publique italienne et française pour la création de corpus plus petits qui permettent d’entraîner et de spécialiser le dispositif dans les meilleures conditions possibles.

Enfin, nous présenterons les critères linguistiques et discursifs qui d’une part, ont servi à fournir des données étiquetées de qualité et de l’autre à proposer des reformulations inclusives. Pour établir ces critères, nous nous sommes inspirées à la fois de la tradition française d’analyse du discours, qui se « réclame de Michel Pêcheux » (Moirand 2020), et de la linguistique computationnelle (Raus et al. 2022).

Une place à part sera réservée à la question de la reformulation de quelques termes qui sont utilisés dans les documents de l’administration collectés mais qui ne sont pas sémantiquement accessibles à un public large parce que peu transparents ou peu compréhensibles. En effet, le dispositif Inclusively essaie de résoudre également la question de la reformulation de ce type de termes.

[1] Le projet est financé par l’Union européenne NextGenerationEU – PNRR (Missione 4 Istruzione e ricerca – Componente 2 Dalla ricerca all’impresa – Investimento 1.1, codice 2022WEFCFP – CUP J53D23007230006).