Même quand il est bien traduit, un film traduit une langue qui n’est pas celle d’origine est moins agréable à regarder. Amazon veut résoudre les problèmes du doublage grâce à une IA qui serait non seulement capable de traduire automatiquement la source audio d’un film, mais aussi d’adapter le timbre, l’émotion ou les bruits du fond pour coller un peu plus à la réalité de la version originale.

Grâce à l’IA, Amazon veut fluidifier le doublage

Le modèle d’intelligence artificielle développé par les chercheurs est basé sur deux modules : le premier est le bloc de traduction automatique basé sur un transformateur et formé sur plus de 150 millions de paires anglaises-italiennes (l’IA est actuellement testée sur la traduction entre ces deux langues) et le second est un module d’alignement prosodique. L’équipe d’Amazon précise que : « ce module calcule la correspondance relative de durée entre les segments de parole tout en mesurant la plausibilité linguistique des pauses et des interruptions ».

Les chercheurs en intelligence artificielle d’Amazon travaillent dur pour tenter de synchroniser des phrases entre l’anglais et l’italien. Les chercheurs disent se baser sur la fluidité, plutôt que sur le contenu en lui-même. Vous l’avez compris : cette intelligence artificielle veut automatiser la traduction, mais également l’améliorer en tenant compte d’éléments parfois oubliés par les « traducteurs humains ».

Améliorer la prosodie : une étape complexe

La prosodie serait au centre de ce modèle, pour améliorer l’expérience des téléspectateurs, quelle que soit la version dans laquelle ils souhaitent regarder un film. Pour rendre le doublage encore plus « réel » et similaire à la version originale, les chercheurs ont développé une technologie capable de séparer les différentes pistes audio. Concrètement, les bruits de fond et les dialogues sont différenciés. Cette étape de « réverbération » permet d’estimer l’impact du dialogue sur les bruits de fond et sur l’environnement pour l’appliquer au son doublé.

De premiers tests ont été effectués. Les chercheurs ont fait appel à 14 volontaires, 5 italiens et 9 non-italiens. Ces cobayes ont dû noter la qualité de 24 extraits anglais, traduits en italien. Trois méthodes différentes ont été utilisées par les chercheurs. La première était une méthode de traduction classique « de la parole à la parole », la deuxième était automatisée et prenait en compte l’alignement prosodique, et la troisième repartait du deuxième modèle, avec un rendu audio amélioré.

Ces tests ont montré que la synchronisation automatique au niveau de la parole était une réussite. En revanche, l’étape d’alignement prosodique a eu un impact négatif sur la fluidité du doublage. Les chercheurs précisent que : « les travaux futurs seront consacrés à l’amélioration de la composante d’alignement prosodique, en calculant une meilleure segmentation et en introduisant une synchronisation labiale plus souple ».