Aenas, l'IA qui vient à la rescousse des historiens avant qu'ils n'en perdent leur latin
Aenas, l'IA développée par Google Deepmind pour les historiens - Google
Avant que Rome ne suive les conseils de Brian, génialement joué par Graham Chapman, et ne rentre chez elle, son empire a eu le temps de couvrir l'Europe et les bords de la Mare nostrum. Un empire militaire, commercial, culturel et politique, qui a laissé des bâtiments gigantesques assez d'histoire pour des siècles et des milliers de graffitis, mosaïques, tessons d'amphores gravés... Aujourd'hui encore, 1.500 inscriptions latines sont découvertes chaque année, porteuse d'une histoire, d'un détail, du quotidien... Un "puzzle géant" que l'intelligence artificielle (IA) aide désormais les historiens à reconstituer.
Un trésor souvent endommagé
Omniprésentes dans le monde romain, les inscriptions "sont précieuses pour les historiens parce qu'elles offrent un témoignage direct de la pensée, de la langue, de la société et de l'histoire antiques. Elles ont été écrites par des personnes de toutes classes sociales, sur tous les sujets. Ce n'est donc pas une histoire uniquement racontée par les élites", souligne Yannis Assael, spécialiste de l'IA chez Google DeepMind.
Mais "ces textes sont souvent endommagés". Et "nous ne savons généralement ni où, ni quand ils ont été écrits", a rappelé lors d'un point presse le chercheur, co-concepteur d'"Aeneas", le nom latin d'Enée.
Présenté mercredi par une publication dans la revue Nature, ce modèle est un réseau de neurones génératif multimodal, un type d'intelligence artificielle capable d'identifier des relations complexes entre plusieurs sortes de données.
En l'occurrence des liens entre différentes inscriptions latines permettant de les contextualiser, les dater et les localiser au sein d'un monde qui s'est étendu pendant 2.000 ans sur 5 millions de kilomètres carrés.
Étudier l'histoire à travers les inscriptions, "c'est comme résoudre un gigantesque puzzle. Vous ne pouvez pas le résoudre avec une seule pièce isolée, même si vous connaissez sa couleur ou sa forme en détail. Vous devez trouver les pièces qui s'y connectent", explique Thea Sommerschield, co-conceptrice du modèle et épigraphiste à l'Université de Nottingham (Royaume-Uni).

16 millions de caractères
Pour trouver les détails qui permettront d'établir ces connexions, ces spécialistes des inscriptions recherchent dans d'autres textes des "parallèles": des mots, des noms, des formulations, des références similaires.
Un travail de Titan. Car ces historiens doivent "comparer chaque inscription à potentiellement des centaines de parallèles", ce qui demande une "érudition exceptionnelle" et l'"accès à des bibliothèques et des collections muséales riches" au prix de "recherches manuelles fastidieuses", soulignent les concepteurs d'Aeneas.
Pour entraîner leur modèle, ils ont utilisé trois bases de données existantes sur l'épigraphie latine. Ils ont aussi récupéré des images de certaines inscriptions, pour permettre à l'IA de ne pas seulement s'appuyer sur le texte, mais aussi sur des éléments physiques (matériau, iconographie...) pour mieux les localiser.
Le corpus final contient 176.861 inscriptions, représentant 16 millions de caractères. Environ 5% sont accompagnées d'images.
Aeneas est capable d'identifier des parallèles pertinents pour estimer la localisation d'une inscription parmi les 62 provinces romaines, sa datation par décennies et aussi générer plusieurs hypothèses de restauration pour les parties manquantes. Le modèle indique également quelles parties du texte et de l'image ont le plus influencé ses prédictions.
Pour le tester, ses concepteurs lui ont demandé d'analyser la "Res Gestae Divi Augusti", un récit à la première personne de la vie d'Auguste, le premier empereur romain. La datation de ce testament, rédigé à Rome puis copié à travers l'empire, fait toujours débat parmi les historiens.
Le texte, pourtant truffé d'exagérations, de dates sans pertinence et de repères géographiques erronés, n'a pas piégé Aeneas, qui s'est appuyé sur des indices chronologiques subtils comme l'orthographe archaïsante. Et a prédit deux datations possibles, correspondant à celles débattues par les historiens.
Une vingtaine d'entre eux, qui ont testé le modèle, ont jugé les parallèles identifiés par Aeneas utiles comme point de départ de leur travail dans 90% des cas, selon Google DeepMind. Les tâches de restauration et d'attribution géographique ont donné de meilleurs résultats lorsque les historiens travaillaient avec Aeneas, surpassant aussi bien les humains que l'intelligence artificielle seule.
"Depuis leur percée, (les IA) semblent en contradiction avec les objectifs éducatifs, avec la crainte que s'appuyer sur elles entrave la pensée critique plutôt que de renforcer les connaissances. En développant Aeneas, nous montrons comment cette technologie peut véritablement soutenir les sciences humaines", estime Robbe Wulgaert, professeur en intelligence artificielle au Sint-Lievenscollege de Gand, en Belgique, et co-auteur de l'étude.