Les deux groupes présentent leur modèle de traitement automatique du langage naturel (NLP) intitulé Megatron-Turing Natural Language Generation (MT-NLG). Il est composé de 530 milliards de paramètres, soit 355 milliards de paramètres de plus que GPT-3, le modèle NLP d’Open AI, souvent présenté comme le plus avancé, régulièrement utilisé par la firme fondée par Bill Gates.

Un nouveau modèle NLP pour concevoir des outils d’IA plus performants

Dans un billet de blog, les deux firmes affirment que MT-NLG permet d’obtenir une précision inégalée dans un large éventail de tâches en lien avec le langage naturel. « Nous attendons avec impatience la façon dont MT-NLG façonnera les produits de demain et motivera la communauté à repousser encore plus loin les limites du NLP. Le voyage est long et loin d'être terminé, mais nous sommes enthousiasmés par ce qui est possible et ce qui nous attend » évoque Ali Alvi, le manager de l’équipe Microsoft Turing.

Paresh Kharya, directeur principal de la gestion des produits et du marketing de Nvidia pour l'informatique accélérée précise que « la qualité et les résultats que nous avons obtenus aujourd'hui sont un grand pas en avant dans la voie vers la pleine promesse de l'IA en langage naturel ». Les deux experts sont persuadés que MT-NLP, successeur de Turing NLG et Megatron-LM, permettra de déployer des modèles d’IA plus performants et plus rapides à entraîner.

Comment MT-NLG a-t-il été formé ?

Pour former MT-NLG, Microsoft et Nvidia disent avoir créé un ensemble de données de formation avec 270 milliards de tokens provenant de sites internet rédigés en anglais. Ensuite, il a été entraîné en intégrant un ensemble d’exemples pour apprendre des modèles parmi les points de données, comme des règles syntaxiques et grammaticales. L'ensemble de données provient en grande partie de The Pile, une collection de 835 Go de 22 ensembles de données plus petits créés par EleutherAI. 560 serveurs NVIDIA DGX A100 ont été utilisés pour la formation. Chacun d’entre eux contenait 8 GPU NVIDIA A100 de 80 Go.

Lors de l’analyse comparative, Microsoft affirme que son modèle peut déduire des opérations mathématiques de base même si les symboles sont partiellement masqués. Bien qu’il ne soit pas extrêmement précis, le modèle semble aller au-delà de la simple mémorisation dès lors qu’il s’agit d’arithmétique. Il parvient également à accomplir des tâches contenant des questions en apportant une réponse, une vraie prouesse.

Un modèle encore perfectible...

Même si le modèle semble résoudre l’un des plus grands défis du traitement automatique du langage naturel, il n’est pas à l’abri de déconvenues. Les deux multinationales le précisent : « Si les modèles de langage géants font progresser l'état de l'art sur la génération de langage, ils souffrent également de problèmes et de biais toxiques ». Ainsi NVIDIA et Microsoft affirment que selon les observations réalisées, le modèle capte des stéréotypes et des préjugés à partir des données sur lesquelles il est entraîné.

Une problématique qui peut amener des situations délicates comme lorsqu’un chatbot médical dopé à GPT-3 conseillait à un patient de se suicider. Les deux géants technologiques se sont engagés à tout mettre en œuvre pour faire disparaître ces nouveaux biais.