Envoyer à un ami | Version à imprimer | Version en PDF

On sait remédier au problème du droit d'auteur de l'IA

par Mike Loukides(1) Et Tim O'Reilly(2)

SEBASTOPOL, CALIFORNIE - De manière imprévue et inconfortable, l'intelligence artificielle générative met à rude épreuve la loi actuelle sur le droit d'auteur. Le Bureau américain du droit d'auteur a récemment publié des directives indiquant que les productions de l'IA génératrice d'images ne sont pas protégée par le droit d'auteur à moins que la créativité humaine ne soit entrée dans les invites qui l'ont générée. Mais cela laisse un grand nombre de questions ouvertes : À quel point la créativité est-elle nécessaire ? Et est-ce le même genre de créativité qu'un artiste exerce avec son pinceau ?

Un autre ensemble de cas traite de textes (généralement des romans et des romanciers), dans lesquels certains soutiennent que la formation d'un modèle sur du matériel protégé par le droit d'auteur constitue en soi une violation du droit d'auteur, même si le modèle ne reproduit jamais ces textes dans le cadre de sa production. Mais la lecture de textes fait partie du processus d'apprentissage humain depuis que le langage écrit existe. Alors que nous payons pour acheter des livres, nous ne payons pas pour apprendre de ces derniers.

Comment s'y retrouver ? Que doit signifier la loi sur le droit d'auteur à l'ère de l'IA ? Le technologue Jaron Lanier propose une réponse avec son idée de dignité des données, qui distingue implicitement entre la formation (ou «l'enseignement») d'un modèle et la génération de résultats à l'aide d'un modèle. La première devrait être une activité protégée, soutient Lanier, alors que la production peut effectivement enfreindre le droit d'auteur de quelqu'un.

Cette distinction est séduisante pour plusieurs raisons. Premièrement, la loi actuelle sur le droit d'auteur protège les «utilisations transformatrices… qui ajoutent quelque chose de nouveau» et il est tout à fait évident que c'est ce que font les modèles d'IA. En outre, ce n'est pas comme si les grands modèles de langage (GML) comme ChatGPT contenaient le texte intégral, disons, des romans fantastiques de George R. R. Martin, à partir desquels ils sont effrontément copiés et collés.

Le modèle est plutôt un énorme ensemble de paramètres - basé sur tout le contenu ingéré pendant la formation - qui représente la probabilité qu'un mot soit susceptible d'en suivre un autre. Quand ces moteurs de probabilité émettent un sonnet shakespearien que Shakespeare n'a jamais écrit, c'est transformateur, même si le nouveau sonnet n'est pas du tout bon.

Lanier voit la création d'un meilleur modèle comme un bien public qui sert tout le monde - même les auteurs dont les œuvres sont utilisées pour le former. Cela le rend transformateur et digne de protection. Mais il y a un problème avec son concept de dignité des données (qu'il reconnaît pleinement) : il est impossible de distinguer de manière significative entre «l'apprentissage» des modèles actuels d'IA et «la génération de production» dans le style, par exemple, du romancier Jesmyn Ward.

Les développeurs d'IA entraînent les modèles en leur donnant de plus petits bits d'entrée et en leur demandant de prédire le mot suivant des milliards de fois, en ajustant légèrement les paramètres en cours de route pour améliorer les prédictions. Mais le même processus est ensuite utilisé pour générer la production et c'est là que réside le problème du point de vue du droit d'auteur.

Un modèle incité à écrire comme Shakespeare peut commencer par le mot «to», ce qui rend un peu plus probable qu'il suivra celui de «be», ce qui rend un peu plus probable que le mot suivant sera «or» - et ainsi de suite. Même ainsi, il reste impossible de reconnecter cette production aux données d'entraînement.

D'où vient le mot «or» ? Bien que ce soit le mot suivant dans le célèbre soliloque de Hamlet, le modèle ne copiait pas Hamlet. Il a simplement choisi «or» parmi les centaines de milliers de mots qu'il aurait pu choisir, tous basés sur des statistiques. Ce n'est pas ce que nous, humains, reconnaîtrions comme étant de la créativité. Le modèle maximise simplement la probabilité que nous, humains, trouvions sa production intelligible.

Mais comment, alors, les auteurs peuvent-ils être indemnisés pour leur travail, le cas échéant ? Bien qu'il ne soit peut-être pas possible de retracer la provenance avec les chatbots génératifs actuels de l'IA, ce n'est pas la fin de l'histoire. Depuis la sortie de ChatGPT, les développeurs ont construit des applications sur la base des modèles de fondation existants. Beaucoup utilisent la génération augmentée de récupération (RAG) pour permettre à une IA de «connaître» le contenu qui ne figure pas dans ses données de formation. Si vous avez besoin de générer du texte pour un catalogue de produits, vous pouvez télécharger les données de votre entreprise, puis les envoyer au modèle IA avec les instructions suivantes : «Utiliser uniquement les données incluses dans cette invite dans la réponse.»

Bien que la RAG ait été conçue comme un moyen d'utiliser des informations propriétaires sans passer par le processus de formation exigeant en travail et en informatique, elle crée aussi incidemment un lien entre la réponse du modèle et les documents à partir desquels la réponse a été créée. Cela signifie que nous avons maintenant la provenance, ce qui nous rapproche beaucoup plus de la réalisation de la vision de Lanier sur la dignité des données.

Si nous publions le logiciel de conversion de devises d'un programmeur humain dans un livre et que notre modèle de langage le reproduit en réponse à une question, nous pouvons attribuer cela à la source originale et allouer les redevances de manière appropriée. La même chose s'appliquerait à un roman généré par l'IA écrit dans (l'excellent) style de Sing, Unburied, Sing - de Ward.

La fonctionnalité «vue d'ensemble alimentée par l'IA» de Google est un bon exemple de ce à quoi nous pouvons nous attendre avec la RAG. Puisque Google dispose déjà du meilleur moteur de recherche au monde, son moteur de synthèse devrait être capable de répondre à une invite en exécutant une recherche et en alimentant les meilleurs résultats dans un GML pour générer la vue d'ensemble demandée par les utilisateurs. Le modèle fournirait la langue et la grammaire, mais il déduirait le contenu des documents inclus dans l'invite. Encore une fois, cela fournirait la provenance manquante.

Maintenant que nous savons qu'il est possible de produire des résultats qui respectent le droit d'auteur et qui indemnisent les auteurs, les régulateurs doivent prendre des mesures pour tenir les entreprises responsables de leurs infractions, tout comme elles sont tenues responsables des discours haineux et d'autres formes de contenu inapproprié. Nous ne devrions pas accepter l'affirmation des principaux fournisseurs de GML selon laquelle la tâche est techniquement impossible. En fait, c'est un autre des nombreux défis éthiques et de modèle d'entreprise qu'ils peuvent et doivent surmonter.

De plus, la RAG offre également une solution au moins partielle au problème actuel des «hallucinations» de l'IA. Si une application (telle que Google Search) fournit à un modèle les données nécessaires pour construire une réponse, la probabilité qu'elle génère quelque chose de totalement faux est beaucoup plus faible que lorsqu'elle s'appuie uniquement sur ses données de formation. La production d'une IA pourrait donc être rendue plus précise si elle se limitait à des sources connues pour être fiables.

Nous ne sommes qu'au tout début de cette approche. Les applications de RAG deviendront sans aucun doute plus stratifiées et plus complexes. Mais à présent que nous disposons d'outils pour retracer la provenance, les entreprises technologiques n'ont plus d'excuse quand on leur reproche d'enfreindre les droits d'auteur.



1- Vice-président de la stratégie de contenu pour O'Reilly Media, Inc. L'auteur de System Performance Tuning (O'Reilly Media, Inc., 2002) et co-auteur de Unix Power Tools (O'Reilly Media, Inc., 2002) et Ethics and Data Science (O'Reilly Media, Inc., 2018).

2- Fondateur et PDG de O'Reilly Media, Inc. Professeur invité à l'University College London Institute for Innovation and Public Purpose et l'auteur de WTF? What's the Future and Why It's Up to Us (Harper Business, 2017).