Pour répondre correctement à nos questions, les grands modèles de langage ont besoin d’une immense quantité d’informations. Et, parfois, la façon dont certaines données d’entraînement sont obtenues par les laboratoires d’IA peut être discutable. De ce fait, de nombreuses procédures ont été lancées, aux États-Unis, par des auteurs ou des ayants droit, contre des entreprises accusées d’avoir utilisé des livres protégés par le droit d’auteur pour entraîner leurs modèles.
L’une de ces procédures est l’affaire “Kadrey v. Meta Platforms Inc.” : des écrivains ont accusé la société Meta d’avoir eu recours à des livres piratés pour développer Llama, son modèle d’intelligence artificielle. En se basant sur des documents rendus publics dans le cadre de cette affaire, ainsi que sur des interviews avec d’anciens employés de Meta, Mediapart révèle, cette semaine, que la société de Mark Zuckerberg aurait utilisé des millions de livres provenant de Library Genesis ou LibGen, un site pirate qui accumule des livres et des articles scientifiques.
Outre cela, Mediapart évoque aussi une “implication majeure” de Guillaume Lample, l’un des cofondateurs de Mistral AI. En effet, avant de cofonder le champion français de l’IA, aujourd’hui valorisé à 11,7 milliards d’euros, celui-ci travaillait dans l’équipe IA de Meta. L’utilisation du contenu publié par LibGen fait débat au sein de Meta. Mais, selon Mediapart, qui s’appuie sur un échange d’e-mail en 2022, Guillaume Lample aurait été favorable à son utilisation pour un usage exploratoire. Mediapart indique que, dans le cadre de l’affaire “Kadrey v. Meta Platforms Inc.”, les plaignants ont estimé que le Français aurait téléchargé 70 To de données.
Piratage ou “fair use” ? Meta gagne son procès
Le procès était important, pour toute l’industrie. Et celui-ci a été gagné par la société Meta, en juin. La raison ? Le juge a tenu compte du “fair use” (usage équitable, en français) qui, aux États-Unis, autorise l’utilisation d’une œuvre protégée par le droit d’auteur, dans certaines circonstances. D’après les explications du magazine Wired, le juge a conclu que les plaignants n’ont pas apporté de preuves suffisantes que l’utilisation de leurs livres par Meta était préjudiciable.
“Le tribunal a statué que les entreprises d’IA qui « alimentent leurs modèles avec des œuvres protégées par le droit d’auteur sans obtenir l’autorisation des titulaires de ces droits ni les rémunérer » enfreignent généralement la loi”, ont déclaré les avocats des plaignants du cabinet Boies Schiller Flexner dans un communiqué, selon Wired. ”Pourtant, malgré les preuves incontestables du piratage sans précédent d’œuvres protégées par le droit d’auteur commis par Meta, le tribunal a statué en faveur de Meta. Nous respectons cette décision, mais nous ne sommes pas d’accord avec cette conclusion.” La société Meta a indiqué que l’utilisation des œuvres protégées par le droit d’auteur grâce au “faire use” est un “cadre juridique essentiel” à la création de technologies transformatrices.
Selon Mediapart, Meta et Guillaume Lample n’ont pas répondu à ses questions. De son côté, Mistral AI a déclaré que celui-ci utilise “des informations publiques disponibles sur Internet, des jeux de données non publics sous licence auprès de tiers, ainsi que des données générées en interne de manière synthétique.”
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.