Le projet de recherche sur le deep learning mené par Google et baptisé Google Brain, a mis au point un modèle d’intelligence artificielle capable de résumer un ensemble de données de manière extrêmement précise et fluide. Google promet que les systèmes de résumé automatique vont nous permettre de gagner énormément de temps dans certaines de nos tâches professionnelles.

Google Brain surpasse tous les systèmes de résumé de texte

Google Brain collabore avec des chercheurs de l’Imperial College de Londres, dans la construction d’un système d’intelligence artificielle baptisé “Pre-training with Extracted Gap-sentences for Abstractive Summarization Sequence-to-sequence“, ou plus simplement Pegasus. Ce dernier est capable de résumer des textes dans des domaines totalement différents comme les sciences, l’histoire, les e-mails, les brevets ou encore les projets de loi. D’après Google, Pegasus montre des performances “surprenantes” sur le résumé à faible ressource, surpassant les résultats des précédentes expériences.

Les chercheurs précisent que Pegasus est capable de générer des résumés précis et concis, d’une qualité exceptionnelle. Actuellement, les techniques utilisées consistent à sélectionner des fragments de différents textes pour en faire un résumé. En somme, les techniques classiques piochent des morceaux de plusieurs textes pour ne composer qu’un seul et unique résumé. Google Brain va beaucoup plus loin car son intelligence artificielle est capable de générer de nouveaux mots, de faire la liaison entre différentes parties, pour créer un résumé linguistiquement fluide. Google va largement au-delà d’un simple copier/coller d’un ensemble de données.

Pegasus : un modèle complexe

L’équipe de Google Brain a entraîné son modèle d’intelligence artificielle avec une tâche particulièrement compliquée pour qu’il développe de nouvelles compétences. Dans des textes officiels, des phrases entières, et supposées importantes, étaient masquées. Pour résoudre ce problème, Pegasus a dû combler les trous en allant puiser des informations sur d’autres articles présents sur le web.

Pegasus est un modèle particulièrement complexe, il comprend 568 millions de paramètres. Sa formation a nécessité 750 Go de texte extrait de 350 millions de pages web. En tout 3,8 To ont été collectés sur des sites web pour former l’algorithme. Aujourd’hui Pegasus a atteint un niveau de résumé élevé, autant dans sa fluidité que dans sa cohérence. Les chercheurs le savent : les perspectives de développement sont énormes.

De cette manière, l’intelligence artificielle a su compléter les phrases manquantes et apprendre à dénicher de nouvelles informations pour faire des liens nécessaires. Cette tâche n’est pas sans nous rappeler une autre expérimentation de Google Brain. En 2017, les chercheurs présentaient un système d’IA capable de compléter automatiquement un croquis. Le tout avec une habilité étonnante suite à la “digestion” de millions d’exemples générés par des utilisateurs. Démonstration :