Une équipe du désormais bien connu Watson Lab (regroupant des équipes d’IBM et MIT et spécialisées en intelligence artificielle), développe une IA d’analyse de texte, capable de choisir les lectures les plus pertinentes à retenir en fonction d’un sujet donné. Les scientifiques ont présenté leurs travaux lors de la Conférence sur les systèmes de traitement des informations neuronales (NeurIPS) de 2019, s’étant déroulée à Vancouver du 8 au 14 décembre.

Une IA pour faciliter nos recherches de textes

Justin Solomon, professeur au MIT, et responsable du projet, explique assez simplement qu’il y a « une tonne de textes sur Internet ». Pour réussir à sélectionner celui qui nous intéresse, celui-ci déclare avoir développé une méthode d’intelligence artificielle qui s’appuie sur trois outils d’analyse combinant : « la modélisation de sujets, l’intégration de mots, et le transport optimal ».

L’intérêt d’un tel outil réside bien sûr dans sa capacité à cibler une lecture similaire à celle que vous êtes en train de lire, que ce soit pour votre plaisir ou pour une recherche dans votre travail.

Le professeur Solomon prend alors l’exemple d’un roman du XIXème siècle, « Great War Syndicate » de Franck R. Stockton, et qui traite de – enfin prévoit – la montée du nucléaire dans le monde. Pour trouver un modèle similaire ou un livre qui traite de sujets semblables, l’outil développé par l’équipe pourrait dans ce cas être utilisé. Attention toutefois, encore faut-il que le texte ou livre, soit répertorié dans une base numérique, logique.

Sûrement faut-il intégrer des mots clés en suivant une logique bien précise vous direz-vous. Les mots relevés par l’outil pour le type de livre cité sont : nautique, élémentaire et martial. Encore faut-il y penser. Il est vrai que la recherche semble plus évidente quand on connait le livre, mais tout de même, quelques années passées à faire des recherches sur un thème ou sur un sujet bien précis nous ont appris que les logiciels de recherche des bibliothèques, par exemple, disposent d’un référencement particulier et une logique parfois bien singulière à suivre quand il s’agit d’intégrer tel ou tel mot-clé… la preuve en est avec ceux cités plus haut, diront les plus méfiants.

Pas de panique, cela n’a pas échappé à l’équipe qui a travaillé sur le projet. Aussi, l’un des chercheurs IBM prend soin de préciser que la « modélisation des livres s’effectue par leurs sujets représentatifs, plus que par des mots individuels ». C’est là l’intérêt de la méthode conçue par l’équipe, qui allie modélisation des sujets et intégration des mots au principe de transport optimal, permettant ainsi de relier le livre de Stockton à une conférence menée par Thomas Huxley en 1863, qui traite de tout un ensemble de sujets reliés au livre de Stockton, mais dont les thèmes pourraient difficilement être reliés par de simples mots clés mis au “feeling”.

En réalité donc, les mots « nautique, élémentaire, et martial » ne sont pas des mots clés à intégrer. Ce sont les mots relevés par l’IA comme étant les plus pertinents pour détecter ensuite un ensemble de livres véritablement reliés aux sujets traités par Stockton dans son livre. Calcul qui n’est pas aisé à retrouver dans les logiciels de bibliothèque, précisément.

Petite note au lecteur non-averti… le “transport optimal” numérique a été repris au principe établi par Monge au XVIIIème siècle, et qui consiste tout simplement « à chercher le moyen le plus économique pour transporter des objets entre un point A et un point B ». En matière de référencement de données, celui-ci peut vite devenir intéressant. Et quand il s’agit de comparer des centaines de milliers de données entre elles pour ensuite ne choisir que quelques chemins menant de manière pertinente à telle ou telle lecture, on comprend mieux où les chercheurs veulent en venir.

Un algorithme puissant pour analyser des milliers de textes et les comparer

L’IA conçue par l’équipe permettrait donc de résumer par « un algorithme une collection […] de livres en sujets fondés sur des mots couramment utilisés dans la collection ». Une fois ce travail fait, l’IA serait ensuite de diviser chaque livre en une quinzaine de sujets traités, avec « une estimation de la contribution de chaque sujet au livre dans son ensemble ». Pour faire simple, l’outil est censé offrir, de manière certaine, une liste de livres dont les sujets entrent réellement en corrélation avec le sujet que vous cherchez, ou traitez.

Pour mettre leur intelligence artificielle à l’épreuve, les chercheurs ont repris le corpus de le projet Gutenberg (bibliothèque électronique de livres physiquement existants), et ont ainsi pu comparer les données de 1720 paires de livres en une seconde. Les chercheurs ont expliqué qu’une telle capacité appliquée aux conseils ou commentaires Amazon – exemple sûrement pris tout à fait au hasard… – pourrait rapidement trouvé bon usage. Tant pis pour les bibliothèques du coup… on s’était plu à y croire.