YouTube prévient OpenAI : l’utilisation de son contenu pour former Sora, l’intelligence artificielle (IA) d’OpenAI pour transformer le texte en vidéo, est interdite. La manière dont la firme de Sam Altman entraîne ses modèles soulève de plus en plus de questions au sein de l’industrie.

Une mise en garde

« Du point de vue du créateur, lorsqu’il télécharge son travail sur notre plateforme, il a certaines attentes. L’une de ces attentes est que les conditions de service soient respectées. Il n’est pas possible de télécharger des éléments tels que des transcriptions ou des morceaux de vidéo, ce qui constitue une violation flagrante de nos conditions d’utilisation. Telles sont les règles du jeu en matière de contenu sur notre plateforme », a vigoureusement rappelé Neal Mohan, PDG de YouTube, dans une interview à Bloomberg.

Des propos qui n’ont pas été proférés par hasard. En mars, Mira Murati, directrice technique d’OpenAI, a déclaré qu’elle ne savait pas si Sora utilisait des données provenant de YouTube, d’Instagram ou de Facebook. Son incertitude a alerté les plateformes vidéo.

Pour former les IA génératives, c’est-à-dire capables de créer du texte, de l’audio ou de la vidéo à partir d’une simple requête en langage naturel, les entreprises piochent parmi de vastes quantités de données en ligne. Il est fréquent que celles-ci soient protégées par le droit d’auteur.

YouTube s’inquiète d’autant plus qu’OpenAI aurait utilisé son modèle de transcription audio Whisper pour exploiter plus d’un million d’heures de vidéos sur la plateforme. Le tout pour former GPT-4, son modèle de langage le plus avancé à ce jour. La start-up prévoirait même d’avoir recours à une technique similaire pour sa future IA, GPT-5.

OpenAI ciblée par plusieurs plaintes

OpenAI fait l’objet de nombreuses critiques pour l’utilisation de contenu protégé par les droits d’auteur dans la formation de ses modèles. Le New York Times a par exemple porté plainte contre la société, l’accusant de violation de propriété intellectuelle pour l’exploitation d’une part importante de ses articles sans approbation.

De nombreux auteurs et écrivains ont également entamé des poursuites judiciaires à son encontre, pour des raisons similaires. En amont, OpenAI est en pourparlers avec de nombreux médias pour licencier leur contenu, ce qui lui permettrait d’éviter de nouveaux démêlés avec la justice.

Dans son interview, Neal Mohan a tenu à certifier que l’utilisation des données YouTube pour Gemini, le modèle de Google, était légale. La firme de Mountain View s’assure que cette utilisation est « conforme aux conditions de service ou au contrat que le créateur a signé » au préalable, a-t-il indiqué.