Meta a annoncé dans un article avoir développé une intelligence artificielle (IA) étant capable de traduire plus de 200 langues à travers le monde en temps réel. Ce n'est pas la première fois que la société dirigée par Mark Zuckerberg se lance dans un défi du genre : en novembre 2021, le groupe avait réussi à concevoir un modèle multilingue permettant de traduire plusieurs langues à la fois à partir de l'anglais, et inversement.

Meta développe une IA open source pouvant traduire 200 langues

Cette technologique d'IA basée sur le machine learning (apprentissage automatique) et baptisée NLLB-200 fait partie du programme « No Language Left Behind » de Meta annoncé en mars 2022. En quelques mois, l'entreprise a réussi à développer un modèle pouvant traduire une centaine de langues et une autre pouvant en traduire 200. L'une des particularités du modèle est qu'il peut traduire une des 200 langues sans forcément passé par l'anglais.

Ainsi, Meta fait en sorte que la traduction soit la plus authentique possible, la plus proche de la publication originale. Mark Zuckerberg, PDG de Meta, s'est exprimé autour du développement de ce nouvel outil : « Nous venons de mettre en libre accès un modèle d’IA que nous avons construit et qui peut traduire dans 200 langues différentes, dont beaucoup ne sont pas prises en charge par les systèmes de traduction actuels ».

Pour le dirigeant de Meta, le modèle a pour but d'être utilisé dans les différents produits et service de Meta, tout en étant disponible sur GitHub afin que tout le monde puisse l'utiliser. À terme, l'IA sera active sur l'ensemble des plateformes de Meta pour que leurs contenus deviennent accessibles pour beaucoup plus de personnes.

Quelles performances pour le modèle de traduction NLLB-200 développé par Meta ?

L'IA de Meta reprend des langues minoritaires, dont 55 du continent africain, avec des résultats très convaincants. Les performances du modèle NLLB-200 dépassent de 70 % les capacités d'autres IA traductrices sur des dialectes du sous-continent indien et d'Afrique, parfois parlées par moins de 10 millions de personnes dans le monde.

Pour évaluer la qualité de son nouveau modèle, Meta a créé un ensemble de données tests composé de 3001 paires de phrases pour chaque langue supportée par l'IA. Chacune de ces phrases a été traduite de l'anglais vers la langue cible par un traducteur professionnel et un locuteur natif pour avoir la meilleure traduction possible et donc, la meilleure base de données possible.

Récemment, Meta avait fait en sorte que son modèle de traitement de langage (NLP) à 175 milliards de paramètres, OPT-175B, devienne open source pour que les chercheurs du monde entier puissent contribuer à l'améliorer. Meta expliquait alors qu'il était « convaincu que l'entièreté de la communauté de l’IA – les chercheurs académiques, la société civile, les législateurs, et l’industrie – doit pouvoir travailler ensemble pour élaborer des lignes directrices claires autour d’une intelligence artificielle et des modèles de langages volumineux et responsables ».