Alors que le Parlement européen vient d’adopter la législation européenne sur l’intelligence artificielle (AI Act), une équipe de chercheurs de l’université de Stanford a cherché à déterminer si les principaux fournisseurs de modèles de langage se conforment à ses exigences. Leurs résultats démontrent qu’ils ont encore d’importants efforts à fournir.

Aucun modèle de langage n’est entièrement conforme à l’AI Act

L’UE ambitionne de devenir le leader mondial pour réglementer l’IA, et considère que son texte deviendra une norme pour le reste du monde. Celui-ci prévoit des obligations explicites pour les fournisseurs de modèles comme OpenAI ou Google. Ces derniers doivent par exemple indiquer l’utilisation de données de formation protégées par le droit d’auteur, le matériel utilisé et les émissions produites lors de la formation du modèle, ainsi que la manière dont les IA sont évaluées et testées.

Afin de déterminer si les principaux fournisseurs sont prêts pour l’entrée en vigueur de l’AI Act (probablement en 2024), des chercheurs du programme Human-Centered Artificial Intelligence de l’université de Stanford ont analysé si leurs modèles respectaient les obligations du texte. Ils ont sélectionné 12 des 22 exigences prévues par la législation, puis ont appliqué un système de notation sur quatre à chacune d’entre elles pour dix modèles actuellement sur le marché. On retrouve notamment GPT-4 d’OpenAI, PaLM 2 de Google ou encore LLaMA de Meta.

Le meilleur score qu’un modèle peut atteindre est 48. L’IA Bloom de BigScience arrive en haut du classement avec un résultat de 36, elle est suivie de GPT-NeoX et de PaLM 2. GPT-4 arrive à la quatrième position avec un score de 25 sur 48.

Infographie d'une étude sur le respect de la loi des modèles de langage.

Infographie : Stanford University.

Miser sur la transparence

« Nos résultats révèlent un écart frappant entre les fournisseurs de modèles en matière de conformité », indiquent les chercheurs. Les exigences les moins respectées par l’ensemble des IA sont ce qui englobe le droit d’auteur, les rapports concernant la consommation d’énergie, la divulgation inadéquate de l’atténuation ou de la non-atténuation des risques et l’absence d’audit pour évaluer l’écosystème.

« Les fournisseurs de modèles de fondation mesurent rarement les performances des modèles en termes de préjudices intentionnels, tels que l’utilisation malveillante, ou de facteurs tels que la robustesse et l’étalonnage », note l’étude.

Bien qu’aucun des modèles n’ait obtenu un score parfait, les chercheurs estiment qu’ils ont la possibilité de grandement s’améliorer. « Nous pensons qu’une transparence suffisante pour satisfaire aux exigences de la loi en matière de données, de calcul et d’autres facteurs devrait être commercialement possible si les fournisseurs de modèles prennent collectivement des mesures résultant de normes ou de réglementations sectorielles », écrivent-ils.

Ils dressent également une liste de recommandation pour les entreprises concernées et les législateurs. Par exemple, ils conseillent aux fournisseurs de modèles de langage d’améliorer la documentation mise à la disposition des développeurs qui s’appuient en aval sur les modèles. Les chercheurs mettent surtout l’accent sur la nécessité d’instaurer des normes à l’ensemble du secteur de l’intelligence artificielle, requête déjà avancée par le président de Microsoft, Brad Smith et le PDG d’OpenAI, Sam Altman.