Meta accusée d'avoir piraté des millions de livres pour entraîner son IA

Jusqu’ici, les poursuites contre les entreprises d’IA pour violation de droits d’auteur venaient d’auteurs isolés ou de petits collectifs. Hachette, Macmillan, McGraw Hill, Elsevier et Cengage, cinq mastodontes qui pèsent sur l’édition scolaire, scientifique et littéraire mondiale, attaquent ensemble. L’auteur de thrillers Scott Turow, ancien président de l’Authors Guild et avocat de formation, se joint à l’action en tant que représentant des auteurs.

Zuckerberg personnellement visé

La plainte, déposée mardi devant le tribunal fédéral du district sud de New York, ne se contente pas de viser Meta en tant qu’entreprise. Mark Zuckerberg y est nommément. Les éditeurs affirment que ce dernier savait, qu’il a donné son feu vert et qu’il a poussé ses équipes à télécharger massivement des ouvrages protégés depuis des plateformes pirates comme LibGen, Anna’s Archive, Sci-Hub et Sci-Mag. Des millions de livres et d’articles scientifiques aspirés par torrent, puis copiés à répétition pour alimenter l’entraînement de Llama.

Un détail de la plainte donne la mesure du calcul. En interne, début 2023, Meta avait sérieusement envisagé de payer. Le budget licences de données devait passer de 17 à 200 millions de dollars. Puis le dossier a atterri sur le bureau de Zuckerberg. Et tout s’est arrêté. Un employé de Meta aurait résumé la logique dans un message interne qui fait froid dans le dos. Si on achète la licence d’un seul livre, on ne pourra plus défendre la stratégie du fair use.

Llama recrache des passages entiers

Les éditeurs ne reprochent pas seulement à Meta d’avoir utilisé leurs œuvres pour l’entraînement. Ils affirment que Llama reproduit des passages mot pour mot quand on lui fournit les premières phrases d’un ouvrage. L’exemple cité dans la plainte concerne un manuel de mathématiques édité par Cengage, le Calculus de James Stewart, neuvième édition. Donnez deux phrases du livre à Llama et le modèle enchaîne en récitant la suite du chapitre.

La plainte pointe aussi un effet collatéral qui touche directement le marché. Des utilisateurs se servent de Llama pour générer des livres entiers à partir d’un seul prompt. Un internaute décrit la fabrication d’un roman de cent chapitres en une seule commande.

Une autrice autoproclamée best-seller international a publié 171 ouvrages en sept ans et a oublié de retirer d’un de ses livres un prompt demandant à l’IA de réécrire un passage pour se rapprocher du style de tel auteur nommément cité. Le genre de bourde qui en dit plus long que n’importe quel rapport.

Meta accusée d’avoir piraté des millions de livres pour entraîner son IA

Zuckerberg personnellement visé

Llama recrache des passages entiers

Pour aller plus loin