Des auteurs dont Sarah Silverman demande des comptes à Meta et OpenAI, leur reprochant d’avoir entraîné leurs modèles IA sur leurs œuvres sans leur autorisation.
La comédienne et autrice Sarah Silverman, ainsi que de nombreux écrivains, intentent des actions en justice contre OpenAI et Meta pour violation du droit d’auteur. Ces poursuites allèguent que les grands modèles de langage IA comme GPT-4 d’OpenAI et LLaMA de Meta ont été entraînés sur des ensembles de données illégalement acquises contenant leurs œuvres. Selon eux, des livres entiers ont été « aspirés » par ces modèles IA sur des sites web pirates proposant des bibliothèques fantômes comme Z-Library, Bibliotik et Library Genesis.
Des modèles de langage IA entraînés avec des données illicites
Dans un procès intenté contre OpenAI, des pièces à conviction montrent que ChatGPT arrive à résumer des livres lorsqu’on le lui demande, violant ainsi le droit d’auteur. La plainte indique que le chatbot IA ne prend jamais la peine de « reproduire les informations relatives à la gestion des droits d’auteur » jointes aux œuvres en question. Quant à une autre plainte séparée contre Meta, elle prétend que les livres des auteurs étaient accessibles dans les ensembles de données que la société a utilisés pour former ses modèles LLaMA, quatre modèles IA open source que l’entreprise a présentés au mois de février dernier.
Les plaintes détaillent les raisons pour lesquelles les plaignants estiment que les ensembles de données utilisés comprennent des sources illicites. Dans un document mis à disposition par Meta (en anglais) détaillant les sources du modèle LLaMA, la société indique avoir utilisé les données de ThePile rassemblé par un groupe de recherche sur l’intelligence artificielle à but non lucratif appelée EleutherAI. Selon ce dernier, l’ensemble de données ThePile a été constitué à partir d’une « copie du contenu du tracker privé Bibliotik ». Bibliotik et d’autres bibliothèques fantômes citées dans les plaintes comme Z-Library ou Library Genesis sont des sites pirates proposant des ouvrages entiers illégalement, au mépris du droit d’auteur.
Les auteurs affirment qu’ils « n’ont pas consenti à l’utilisation de leurs livres protégés par le droit d’auteur comme matériel d’entraînement » pour les modèles IA. Les poursuites contiennent chacune six chefs d’accusation pour divers types de violations du droit d’auteur, de négligence, d’enrichissement injustifié (sans cause) et de concurrence déloyale. Les auteurs réclament donc des dommages et intérêts.
Les avocats des plaignants soulignent que ChatGPT à « la capacité de générer des textes semblables à ceux que l’on trouve dans des documents textuels protégés par le droit d’auteur, y compris des milliers de livres ». D’autres poursuites en justice contre des générateurs d’images IA sont également en cours. Par exemple, la banque d’image Getty Images a intenté une action en justice contre Stability AI, à l’origine de Stable Diffusion, pour avoir entraîné son modèle sur « des millions d’images protégées par le droit d’auteur ».
Ce type de procès qui questionnent les limites du droit d’auteur risque fort de se démocratiser à l’avenir pour les entreprises développant des IA génératives.