Jusqu’à présent l’IA a permis de perfectionner la traduction en temps réel, selon des recherches du MIT révélées le 21 octobre elle pourrait servir à traduire des langues anciennes encore non déchiffrée. Les premiers essais sur des langues récemment déchiffrées montrent des résultats encourageants.

L’IA, nouvel outil de la linguistique historique

La connaissance du système d’écriture d’une langue est encore l’un des meilleurs moyens pour pouvoir comprendre une civilisation disparue. Déchiffrer un langage perdu est complexe et peut prendre plusieurs décennies. Le linéaire B, par exemple, est une écriture datant d’un peu après 1400 av. J.-C., découverte en Crète en 1886, qui n’a été décryptée qu’en 1953. Le linéaire A, une autre forme d’écriture découverte au même moment, plus ancienne encore, reste un mystère.

Le Computer Science and Artificial Intelligence Laboratory (CSAIL) du MIT a voulu apporter une solution technologique à ces traces du passé qui ont réussi à conserver leurs secrets. Selon l’article des chercheurs du MIT, il existe encore une douzaine de langues perdues non déchiffrées et qui pourraient l’être grâce à l’intelligence artificielle, au machine learning.

L’IA a déjà été utilisée pour percer les secrets de ces langages perdus. Regina Barzilay, qui dirige l’équipe de recherche, a été parmi les premiers avec deux autres chercheurs à traduire automatiquement une langue ancienne, le linéaire B avec un résultat prometteur.

Mais plusieurs obstacles se dressent pour le déchiffrage automatique, les corpus trop restreints, quand les écritures ne sont pas entièrement segmentées en mots (maistoutattachée), et qu’il n’y a pas de proximité déterminée avec une langue connue proche.

C’est dans ce cadre que l’équipe du CSAIL a fait une avancée majeure en s’appuyant sur plusieurs principes venus de la linguistique historique. Ils expliquent par exemple que les langues évoluent de façon prévisible, une langue ne supprime pas ou n’ajoute pas un son venu de nul part, il se substitue : « Un mot avec un « p » dans la langue parente peut se transformer en un « b » dans la langue descendante, mais il est moins probable qu’il se transforme en un « k » en raison de l’écart important de prononciation ».

Sur cette base Regina Barzilay et ses collègues sont parvenus à créer un algorithme capable de générer des modèles pertinents de changement du langage et de les mettre sous forme de calcul. Cela permet d’identifier les mots d’une langue ancienne et de les faire correspondre avec des équivalents dans une langue proche.

Des premiers résultats prometteurs

Cet algorithme a été testé pour déterminer la proximité d’une langue disparue, l’Ibérique, avec des langues connues, le basque, le latin et issue du latin, des langues germaniques, turques ou de l’Oural. Il a estimé que le latin et le basque avaient des proximités avec l’Ibérique, mais n’y sont pas apparentés, allant dans le même sens que les travaux de linguistiques les plus récents sur le sujet.

Le but est d’aller plus loin en se servant de l’algorithme pour rapprocher des langues perdues avec des langues connues apparentées, une approche nommée par le MIT « déchiffrement par analogie ». Encore faut-il qu’il existe une langue connue et apparentée, ce n’est par exemple pas encore le cas avec l’Ibérique. L’IA à l’intérêt, face à un linguiste, de ne pas se fatiguer et de pouvoir engranger un grand nombre de données simultanément. Les travaux de Regina Barzilay laissent espérer des progrès rapides pour décoder ces langages inconnus et en apprendre plus sur les civilisations passées qui en avaient l’usage.