Les enjeux juridiques de la collecte de données par les IA génératives

Ces derniers mois, les intelligences artificielles (IA) génératives n’ont cessé d’occuper l’actualité. Au-delà des innovations technologiques dont elles sont assurément porteuses, ces dernières soulèvent de nombreuses questions juridiques, notamment au regard du droit d’auteur, des droits voisins et des droits de la personnalité.

Découvrez toutes les newsletters thématiques gratuites d'Archimag dédiées aux professionnels de la transformation numérique, des bibliothèques, des archives, de la veille et de la documentation.

Le 19 septembre dernier, la plus grande organisation professionnelle d’écrivains des États-Unis, la "Author Guild", ainsi que plusieurs auteurs (dont le créateur de Game of Thrones), ont assigné OpenAI, la société qui a créé ChatGPT, devant le Tribunal fédéral de New York en violation de leurs droits d’auteur.

Se pose alors la question du cadre légal applicable à l’utilisation de ces nouvelles IA génératives et des bonnes pratiques qui peuvent d’ores et déjà être observées.

Le cadre légal existant

À titre liminaire, il convient de rappeler que les IA génératives reposent sur des technologies de deep learning, mécanisme d’apprentissage consistant à entraîner une IA à l’aide d’un corpus de données préexistantes (textes, images et sons). Une fois entraînée, l’IA sera capable de faire des liens entre les données et de produire des modèles, capables de générer des contenus nouveaux, sans intervention humaine.

Le droit de la propriété intellectuelle

Contrairement à ce qui a pu être dit ou écrit, il n’y a pas de vide juridique au sujet des IA génératives. Les dispositions actuelles du Code de la propriété intellectuelle permettent d’ores et déjà d’encadrer leur utilisation, s’agissant tant des données entrantes (permettant d’entraîner les IA), que des données sortantes (contenus générés par les IA).

La directive (UE) 2019/790, transposée en droit français par l’ordonnance n° 2021-1518 du 24 novembre 2021 et par le décret n° 2022-928 du 23 juin 2022, a créé une exception dite de "fouille de textes et de données" (text and data mining) définie comme "la mise en œuvre d’une technique d’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations" (Article L.122-5-3 I. du CPI).

Cette exception permet, quelle que soit la finalité de la fouille de textes et de données, de collecter des données en vue d’entraîner une IA sans devoir obtenir l’autorisation des titulaires de droits.

Néanmoins, lorsque la finalité est commerciale, ces derniers ont la possibilité de s’opposer à cette fouille par l’intermédiaire d’un "opt-out" qui peut se faire par tout moyen, et notamment "par des procédés lisibles par machine" (Article L.122-5-3 du CPI).

Les données doivent par ailleurs être détruites à l’issue de la fouille, ce qui implique de mettre en place un inventaire périodique des données "scrapées", afin de déterminer s’il est toujours pertinent de les conserver dans une perspective de fouille de textes et de données ou bien si elles sont jugées inexploitables et/ou non utilisées, auquel cas il convient alors de les supprimer.

Quelle que soit la finalité de la fouille, les œuvres numériques doivent être accessibles de manière licite pour que l’exception puisse s’appliquer. De plus, les copies et reproductions doivent être stockées avec un niveau de sécurité approprié.

La question s’est posée de l’applicabilité de cette exception à l’entraînement d’IA génératives. Aux termes d’une Communication du 31 mars dernier, la Commission européenne a répondu que rien ne justifiait que la directive de 2019 sur le droit d’auteur et les droits voisins dans le marché unique numérique soit révisée en l’état, mais qu’elle restait vigilante quant aux évolutions à venir et les impacts sur le monde de la culture.

Cette Communication conforte donc l’application de l’exception de fouille de textes et de données aux données "scrapées" dans le but d’entraîner des IA génératives, sous réserve de respecter certaines conditions, et notamment le droit d’opposition des titulaires de droits.

OpenAI paraît prendre en compte ce droit d’opposition, car elle a encouragé, lors du lancement de son nouveau robot d’exploration du web en août dernier, les titulaires de droits à bloquer l’accès de leur site Internet s’ils ne voulaient pas que leurs données soient collectées par GPTBot. Radio France, TF1 et le New York Times ont ainsi communiqué leur décision de bloquer l’accès de leurs sites à ce nouveau robot.

Si une exception existe pour la collecte des données entrantes, aucune exception n’existe en revanche pour les contenus générés par les IA. Si ces derniers reproduisent sans autorisation des créations protégées, l’utilisateur et/ou le concepteur de l’IA pourront voir leur responsabilité engagée sur le fondement de la contrefaçon. Si la collecte de preuves peut s’avérer complexe, rien ne s’oppose en théorie à la défense des droits de propriété intellectuelle en cas d’atteinte.

Le 7 septembre dernier, la société Microsoft a annoncé qu’elle s’engageait à indemniser les clients de sa solution Copilot en cas d’atteinte aux droits de tiers, à condition d’utiliser les garde-fous et les filtres qu’elle met en place.

En pratique, les auteurs peuvent craindre que leurs droits soient violés sans qu’ils en aient connaissance. Un projet de règlement européen intitulé "AI Act", pourrait permettre d’améliorer cet accès à l’information.

L’article 28 ter du projet propose en l’état d’imposer aux fournisseurs d’IA génératives de documenter et de mettre "à la disposition du public un résumé suffisamment détaillé de l’utilisation des données d’entraînement protégées par la législation sur le droit d’auteur, sans préjudice de la législation de l’Union ou nationale en matière de droit d’auteur" (Article 28 ter (nouveau), amendement 399, proposition de règlement établissant des règles harmonisées concernant l’intelligence artificielle, adoptée par le Parlement européen le 14 juin 2023). La faisabilité technique d’une telle disposition n’est cependant pas évidente.

À noter enfin qu’une nouvelle proposition de loi visant à encadrer l’IA par le droit d’auteur a été déposée le 12 septembre 2023. Cette dernière propose de compléter le code de la propriété intellectuelle pour offrir une meilleure protection et rémunération aux artistes face au développement des IA génératives, notamment lorsque les œuvres générées ont pu l’être grâce au travail d’artistes sur lequel l’IA se serait entraînée.

Là aussi, si cette proposition devait devenir loi, cela ne manquerait pas de soulever un certain nombre de difficultés techniques (en particulier s’agissant de l’identification des œuvres entrantes et/ou du crédit de leurs auteurs au sein de l’œuvre sortante).

Les droits de la personnalité

Les droits de la personnalité sont également susceptibles de faire l’objet d’atteintes résultant de la collecte de données par des IA génératives. Ce sont les droits fondamentaux et inhérents à la personne humaine qui assurent la protection des attributs de sa personnalité, tels que le respect de la vie privée, l’image, la voix (Article 9 du Code civil). Ils permettent à toute personne d’autoriser ou d’interdire l’utilisation de son image ou de sa voix par autrui.

Pour l’heure, aucune exception ne semble s’appliquer permettant de passer outre l’autorisation de la personne concernée en cas d’utilisation de son image ou de sa voix par une IA, dès lors que cette dernière est identifiable (y compris par un nombre restreint de personnes).

Ainsi, dès lors que l’image ou la voix d’un individu se retrouve dans un contenu généré par une IA et que cet individu est identifiable, ce dernier devrait en principe pouvoir s’y opposer et agir en justice le cas échéant pour faire valoir ses droits.

La réparation de l’atteinte aux droits de la personnalité se fait le plus souvent sur le fondement de la responsabilité civile qui permet de réparer le dommage subi par l’allocation de dommages et intérêts, mais aussi de prescrire toutes mesures judiciaires visant à empêcher ou faire cesser l’atteinte (mesures de modification ou d’interdiction).

Recommandations

Les créateurs de contenus qui craignent que leurs travaux soient collectés à des fins commerciales par des concepteurs d’IA, comme OpenAI, ont la possibilité d’exercer un "opt-out" pour s’opposer à leur utilisation à des fins d’entraînement. S’ils s’aperçoivent que leurs créations sont reproduites sans leur accord dans les contenus générés par une IA, ils peuvent se rapprocher d’un avocat pour faire valoir leurs droits.

S’agissant des utilisateurs d’IA, deux situations doivent être distinguées. En tant qu’utilisateur d’une IA développée en propre, il faudra accorder un soin vigilant à la sélection des données entrantes permettant d’entraîner l’IA, afin de ne pas porter atteinte aux droits de tiers.

Au contraire, si l’utilisateur fait usage d’une IA développée par un tiers, il est recommandé de lire attentivement les conditions générales d’utilisation de l’IA en question, et notamment les clauses relatives à la titularité des droits sur les contenus générés par l’IA et à la responsabilité en cas d’atteinte aux droits de tiers. Là aussi, il peut être utile de consulter un avocat.

Charles Bouffier
[avocat associé, Cabinet Racine]

Victoire Danès
[avocate, Cabinet Racine]