L'IA de Google confond les messages de haine avec des messages d'amour

Une équipe de chercheurs a découvert que l’intelligence artificielle de Google chargée de détecter les messages de haine confondait parfois ce type de contenu avec des messages positifs.

En 2016 l’incubateur technologique de Google baptisé Jigsaw dévoilait une intelligence artificielle capable d’attribuer une note de toxicité à un extrait de texte. Pour se faire, le système se base sur plusieurs critères, dont la grossièreté ou le manque de respect, qui sont susceptibles de faire partir l’utilisateur de la discussion. Néanmoins, un groupe de chercheurs issu de l’université Aalto et de l’université de Padua a découvert qu’il était relativement simple de tromper l’intelligence artificielle.

IA Google haine

En effet, l’ajout de coquilles, d’espaces ou de mots inoffensifs suffit pour que le système de Google considère que le texte est beaucoup plus bienveillant qu’il ne l’est. De la même façon, introduire le mot « amour » fait largement chuter le score de toxicité d’un extrait. Vice et versa lorsque le texte possède réellement cette dernière caractéristique, mais que quelques mots haineux sont ajoutés. De fait, n’importe quel utilisateur peut ajouter quelques simples mots selon l’orientation qu’il veut donner au texte afin de faire varier la fameuse note attribuée par l’outil de la compagnie américaine. The Next Web rapporte un simple exemple dans lequel le texte initial « Tu es génial » devient « Tu es putain de génial ». Le score de toxicité de la première phrase est de 0,03, là où la deuxième phrase fait grimper le résultat à 0,82.

Ce rapport dénote du fait que Google a encore beaucoup de travail à faire pour que son intelligence artificielle soit capable de saisir le sens d’un texte selon son contexte et ses caractéristiques. Outre les fake news, les discours de haine en ligne constituent un enjeu majeur pour les entreprises issues du secteur technologique. Il y a de nombreux mois, Microsoft s’était confronté au problème en dévoilant un chabot capable de discuter avec les internautes sur Twitter. En se basant sur la manière dont les utilisateurs interagissaient avec lui, il aura suffi de quelques heures pour que le bot Tay devienne raciste et misogyne.

L’IA de Google confond les messages de haine avec des messages d’amour

OFFRE EXCEPTIONNELLE