L'intelligence artificielle va permettre d'immenses progrès en archéologie
La traduction est un exercice complexe, qui ne se limite pas à remplacer des mots par d'autres. Il requiert une connaissance intime des deux langages, indispensable pour rendre fidèlement l'enchaînement de pensées, ou de données, dans le texte d'origine, de manière compréhensible pour le lecteur. Ce travail est encore plus compliqué quand il s'agit de traduire une source provenant d'une langue antique. Il faut non seulement faire revivre une langue éteinte à partir d'écritures, mais aussi comprendre la culture de scribes du fond des âges… D'autant plus que ces langues disparues ont souvent perduré sur de longues périodes, avec des évolutions pouvant être importantes. Et, en général, on parle de sources fragmentées, rendant la compréhension du contexte difficile. Le nombre de spécialistes capables de faire ce travail est donc très limité. Ils sont comme confrontés au « tonneau des Danaïdes » , submergés par le volume de textes découverts régulièrement par les archéologues.
La civilisation akkadienne est un bon exemple. Fondé par Sargon le Grand, l'Empire d'Akkad a dominé la Mésopotamie de la fin du 24ème siècle jusqu'au début du 22ème avant J.C. Construit sur les ruines de l'antique Sumer, il a joué un rôle majeur dans l'histoire de l'humanité. La langue sémitique akkadienne fut la source des dialectes assyrien et babylonien, avant d'être supplantée par l'araméen au début du premier millénaire avant J.C. C'est donc une langue morte mais dont la forme écrite a traversé les âges. L'Akkadien a emprunté l'écriture cunéiforme inventée par les Sumériens. On utilisait un stylet en roseau pour tracer des glyphes sur des tablettes d'argile encore humides, avant de les cuire. Les signes cunéiformes akkadiens ont perduré jusqu'au premier siècle avant J.C., même après que l'Araméen eut supplanté l'Akkadien. Cette obstination des scribes à conserver cette « vieille » écriture abandonnée à l'oral et l'usage de tablettes d'argile sont une bénédiction pour les archéologues. La matière a résisté aux catastrophes, contrairement aux fragiles papyrus. Ce sont des centaines de milliers de tablettes, complètes ou fragmentées qui attendent d'être analysées, une quantité dépassant les ressources humaines disposant de l'expertise nécessaire, rappelle Kevin Dickinson sur son blog freethink.com (voir en lien).
L'Akkadien est compliqué : la signification des signes cunéiformes varie selon leur place dans la phrase. La traduction nécessite deux phases : convertir les signes en alphabet latin en conservant une phonétique la plus proche possible. Puis, traduire proprement dit… C'est donc un travail long et laborieux qui demande un haut niveau d'expertise et de pratique. Des chercheurs ont conçu un outil d'intelligence artificielle extraordinaire spécifiquement pour décoder l'Akkadien : des algorithmes organisés en « réseau neuronal artificiel » et reposant sur la technologie d'un « Google Translate » permettent de prédire la probabilité d'une séquence de mots. Les chercheurs ont entraîné l'outil sur des échantillons de textes cunéiformes en lui apprenant deux tâches : traduire à partir des phrases déjà converties en alphabet latin et faire ce même exercice directement à partir des symboles d'origine (en passant par un standard informatique « l'Unicode » produit à partir de l'image d'une tablette). L'intelligence artificielle (IA) doit ensuite comprendre les nuances entre les différents types de textes – littéraires et administratifs – et s'adapter aux variations inévitables d'une écriture utilisée pendant plus de 1 000 ans…
Les résultats ont été testés en utilisant un autre outil sur base d'algorithme ( « BLEU4 » ) qui sert à évaluer la qualité d'une traduction automatique. Les résultats (tant sur la base de transcriptions que sur les signes d'origine) donnent des notes à l'IA correspondant à une traduction « de haute qualité » . Cerise sur le gâteau : elle est capable de reproduire les nuances propres aux types – littéraire ou administratif – des tablettes. Les chercheurs ne s'attendaient pas à une telle efficacité. Si l'outil fait des erreurs – parfois grossières – de traduction, il demeure très fiable avec des textes courts. Il est excellent (et très rapide) quand on le nourrit de phrases sorties de décrets royaux, de décisions de justice, etc… Il devient plus erratique quand on lui fournit des textes littéraires traitant de mythes, de prières ou de prophéties…
Cet outil révolutionnaire ouvre de nouvelles perspectives, permettant à un petit nombre de spécialistes de disposer d'une assistance remarquable. Ce sont des centaines de milliers de tablettes décrivant la vie dans la Mésopotamie antique qui attendent d'être traduites. L'IA va pouvoir classer la multitude des sources : les chercheurs vont gagner énormément de temps en se concentrant sur les textes les plus littéraires donc les plus riches. Elle sera en mesure de tracer les contours précis d'une civilisation en recoupant les écrits politiques. C'est une nouvelle ère qui s'ouvre, unissant informaticiens et archéologues.