Les données d'entraînement des IA enfin encadrées par l’UE

Le 28/07/2025 Kaelig Alléaume

donnees-entrainement-intelligence-artificielle-encadrees-ue.jpg

Les modèles d’IA devront bientôt lever le voile sur leurs données d’entraînement (Freepik).

A partir du 2 août 2025, les géants de l’IA devront dévoiler les sources principales utilisées pour entraîner leurs modèles selon un modèle type de déclaration de la Commission européenne : une nouvelle étape dans l’application de l’AI Act et la défense des droits des créateurs.

À partir du 2 août 2025, l’Union européenne enclenche un virage décisif pour encadrer les pratiques des fournisseurs d’IA à finalité générale (GPAI). Avec la publication, le 24 juillet, par la Commission européenne d’un modèle standard de déclaration publique des données d'entraînement des modèles, la transparence devient une exigence réglementaire. Ce dispositif oblige ainsi des développeurs comme OpenAI, Mistral ou Google à engager une communication publique de ces données.

Également publié par la Commission européenne, le Code de bonnes pratiques de l’IA vise à encourager l’adoption volontaire de standards élevés en matière de sécurité, de transparence et de responsabilité, en amont des obligations légales prévues par l’AI Act.

Renforcer le droit des créateurs

Le modèle se divise en trois parties : une section d’identification générale du modèle et des types de contenus utilisés, une autre dédiée à la description des principales sources de données mobilisées (et non pas l'intégralité des jeux de données pour protéger les secrets commerciaux), et une dernière sur les modalités de traitement, notamment autour du respect du droit d’auteur et de la gestion des contenus illicites.

Cette dernière section prévoit que les fournisseurs précisent les mesures prises pour retirer les contenus illégaux — comme les œuvres non autorisées ou les discours haineux — afin de limiter leur reproduction à grande échelle par les modèles d’IA. Ils doivent également indiquer comment sont respectées les réserves de droits exprimées au titre de “l’exception de fouille de textes et de données”, conformément à la directive européenne sur le droit d’auteur. La publication de ces données permet ainsi aux ayants droit de repérer les sources d’entraînement susceptibles de contenir leurs œuvres, et d’engager, le cas échéant, des démarches de vérification ou de recours.