Les données d'entraînement des IA enfin encadrées par l’UE

  • donnees-entrainement-intelligence-artificielle-encadrees-ue.jpg

    Les modèles d’IA devront bientôt lever le voile sur leurs données d’entraînement (Freepik).
  • A partir du 2 août 2025, les géants de l’IA devront dévoiler les sources principales utilisées pour entraîner leurs modèles selon un modèle type de déclaration de la Commission européenne : une nouvelle étape dans l’application de l’AI Act et la défense des droits des créateurs.

    À partir du 2 août 2025, l’Union européenne enclenche un virage décisif pour encadrer les pratiques des fournisseurs d’IA à finalité générale (GPAI). Avec la publication, le 24 juillet, par la Commission européenne d’un modèle standard de déclaration publique des données d'entraînement des modèles, la transparence devient une exigence réglementaire. Ce dispositif oblige ainsi des développeurs comme OpenAI, Mistral ou Google à engager une communication publique de ces données. 

    Également publié par la Commission européenne, le Code de bonnes pratiques de l’IA vise à encourager l’adoption volontaire de standards élevés en matière de sécurité, de transparence et de responsabilité, en amont des obligations légales prévues par l’AI Act.

    Lire aussi : Valorisation des données : chercher la création de valeur face à l'IA

    Renforcer le droit des créateurs

    Le modèle se divise en trois parties : une section d’identification générale du modèle et des types de contenus utilisés, une autre dédiée à la description des principales sources de données mobilisées (et non pas l'intégralité des jeux de données pour protéger les secrets commerciaux), et une dernière sur les modalités de traitement, notamment autour du respect du droit d’auteur et de la gestion des contenus illicites. 

    Cette dernière section prévoit que les fournisseurs précisent les mesures prises pour retirer les contenus illégaux — comme les œuvres non autorisées ou les discours haineux — afin de limiter leur reproduction à grande échelle par les modèles d’IA. Ils doivent également indiquer comment sont respectées les réserves de droits exprimées au titre de “l’exception de fouille de textes et de données”, conformément à la directive européenne sur le droit d’auteur. La publication de ces données permet ainsi aux ayants droit de repérer les sources d’entraînement susceptibles de contenir leurs œuvres, et d’engager, le cas échéant, des démarches de vérification ou de recours. 
     

    À lire sur Archimag
    Les podcasts d'Archimag
    Êtes-vous prêt pour la réforme de la facturation électronique ? À moins de 460 jours du grand lancement, l’écosystème se prépare activement. Lors de la Journée de la Facturation Électronique qui s'est tenue le 13 mai dernier à Paris, Archimag Podcast est allé à la rencontre des acteurs incontournables de cette réforme : les Plateformes de dématérialisation partenaires, ou PDP. Ensemble, nous avons parlé de leur rôle, de leurs spécificités, de leur modèle économique et de leur secret de longévité. Dans cet épisode, nous vous dévoilons qui sont ces acteurs et ce qu'ils préparent pour accompagner la réforme.

    Serda Formations Data 2023