Whisper, le système multilingue de reconnaissance vocale développé et propulsé par OpenAI, entreprise spécialisée dans l’intelligence artificielle, est passé sous licence libre le 22 septembre 2022. L’ensemble du code permettant le fonctionnement de cet outil ainsi que les explications associées ont été publiées sur GitHub et sont donc accessibles librement et gratuitement.

Whisper OpenAI, l’un des modèles de reconnaissance vocale les plus perfectionnés au monde

Whisper est un modèle de reconnaissance vocale conçu par OpenAI. La structure est connue pour être à l’origine du modèle de langage GPT-3, qui est l’un des plus fournis et utilisés au monde avec 175 milliards de paramètres. C’est elle, aussi, qui est à l’origine du modèle d’intelligence artificielle DALL-E 2 qui permet de créer des images à partir de descriptions textuelles.

Entraîné à l’aide de 680 000 heures de données multilingues et multitâches, Whisper peut retranscrire les moindres paroles d’un individu de manière quasi instantané. Plus impressionnant encore : il peut traduire ces paroles dans un grand nombre de langues, dont le français. Grâce à cet entraînement, le système est capable de repérer les nombreuses particularités d’une dizaine de langues, mais aussi les accents, les sons en arrière-plan, et même des mots très techniques, peu utilisés dans une langue.

L’outil peut être utilisé par les particuliers pour traduire automatiquement un film, une série, un extrait vidéo ou un documentaire par exemple. Pour les chercheurs en IA, il sert de base pour mieux comprendre les facettes de la reconnaissance vocale, et ainsi parfaire le modèle, voire en créer un de meilleure facture.

Pourquoi Whisper OpenAI est-il devenu open source ?

Selon TechCrunch, le passage de Whisper en version open source permettra aux spécialistes de l’intelligence artificielle qui ne sont pas forcément affiliés à un laboratoire ou un institut de faire avancer la recherche dans le domaine de la reconnaissance vocale. L’outil possède quelques limites, notamment pour ce qui est de la prédiction.

Pour généraliser, Whisper peut inclure des mots dans ses transcriptions qui n’ont pas été réellement prononcés. Cela peut se produire quand certains mots prononcés sont proches phonétiquement avec d’autres ou lorsqu’un mot prédit par le système fonctionnerait bien avec celui initialement prononcé. Autre difficulté : le système a plus de mal lorsqu’une personne parle dans sa langue maternelle (autre que l’anglais), car les données utilisées pour entraîner le modèle n’incluent pas un grand nombre de locuteurs natifs.

OpenAI l’a reconnu lui-même : ses collaborateurs n’ont plus le temps de s’impliquer autant qu’avant sur Whisper, d’où l’intérêt de le passer en open source afin que tout le monde puisse essayer de l’améliorer.