La question des données utilisées pour entraîner les grands modèles d’IA continue de susciter de vifs débats.
Entre les enjeux économiques, les droits d’auteur et l’opacité des pratiques industrielles, les révélations se multiplient autour des méthodes employées par les géants du secteur. Cette fois-ci, l’actualité touche directement l’écosystème français de l’IA, avec des accusations qui visent l’un des visages les plus en vue de Mistral AI…
L’utilisation de LibGen au coeur de l’enquête
Dans une enquête publiée le 22 décembre, Mediapart affirme que Guillaume Lample, aujourd’hui cofondateur et directeur scientifique de Mistral AI, aurait participé à l’utilisation de Library Genesis (LibGen) lorsqu’il travaillait chez Meta en 2022. Cette bibliothèque clandestine recense des millions d’ouvrages protégés par le droit d’auteur, accessibles sans autorisation des ayants droit.
📩 L’actu digitale évolue vite. Restez à jour.
Recevez la newsletter quotidienne, gratuitement.
En vous inscrivant vous acceptez notre politique de protection des données personnelles.
Les affirmations de Mediapart s’appuient sur des documents internes rendus publics dans le cadre du procès opposant plusieurs auteurs, dont l’écrivain Richard Kadrey, à Meta. Ces éléments confirmeraient que les modèles LLaMA auraient été entraînés à partir de données issues de LibGen, avec l’aval de la direction de l’entreprise, y compris de Mark Zuckerberg.
Selon Mediapart, Guillaume Lample aurait activement encouragé ses collègues chercheurs à recourir à cette source afin d’accélérer le développement des modèles. Dans des échanges internes, il aurait notamment affirmé que « tout le monde utilise LibGen« , en citant OpenAI, Google ou DeepMind comme exemples de pratiques similaires.
Des échanges internes qui interrogent la conformité légale
L’enquête met également en lumière des discussions révélatrices au sein des équipes de Meta. Une salariée aurait interrogé Guillaume Lample sur la position du service juridique concernant l’usage de LibGen, suggérant que l’entreprise cherchait peut-être à éviter de poser trop de questions.
La réponse du chercheur aurait été sans détour, et celui-ci n’aurait pas consulté le service dédié et considérerait cette pratique comme « répandue » dans l’industrie.
D’après Mediapart, du code informatique, des e-mails et plusieurs auditions indiquent que des téléchargements massifs auraient été effectués à partir de LibGen dès octobre 2022, pour un volume estimé à près de 70 téraoctets de données.
Après la mise en ligne de LLaMA, Meta aurait même envisagé l’achat de licences légales, avant de revenir à des sources « gratuites« .
Mistral AI sous surveillance, sans preuve formelle
Si Guillaume Lample est aujourd’hui au centre de l’attention, c’est aussi en raison de son rôle clé chez Mistral AI, start-up française fondée en 2023 et désormais valorisée à 10 milliards d’euros.
Dès son lancement, l’entreprise a mis en avant une stratégie fondée sur des données « de haute qualité » et des accords de licence, nouant notamment des partenariats avec l’AFP, l’INA et la BnF.
Certains anciens salariés de Meta cités par Mediapart estiment néanmoins que LibGen aurait aussi pu être utilisé lors des premiers développements, mais à ce stade, aucun élément ne permet toutefois de l’établir formellement.

