Compar:IA publie ses jeux de données sur les conversations des Français avec les IA

Le 12/06/2025 Kaelig Alléaume

comparia-publie-jeux-donnees-conversations-francais-intelligence-artificielle.png

Sur la plateforme Bunka.ai : les conversations ont été transformées en facettes pour éviter de divulguer des informations personnelles (Freepik)

Issu de plus de 300 000 questions et 130 000 préférences d’utilisateurs, Compar:IA publie son jeu de données francophone en open source pour mieux comprendre et améliorer les usages de l’intelligence artificielle.

Depuis son lancement en octobre 2024 par le Ministère de la Culture, Compar:IA s’est imposé comme un véritable laboratoire d’usages pour déjouer les biais culturels générés par les IA : à partir de plus de 300 000 questions posées par les utilisateurs, plus de 130 000 préférences sur les réponses apportées par les IA ont été exprimées et recueillies. Désormais accessible en open source sur les plateformes data.gouv.fr et Hugging Face, il s’agit d’un des plus grands jeux de données de ce type en français.

Ces données offrent une ressource précieuse pour mieux comprendre les usages réels des systèmes d'IA et améliorer leur qualité. Trois volets de ces jeux ont été déclinés : les conversations anonymisées, les réactions aux réponses des modèles, ainsi que les votes des utilisateurs sur ces interactions. Les données de Compar:IA ont déjà donné lieu à un projet de datavisualisation. Au travers d’une cartographie interactive développée par Bunka.ai, une constellation permet d’explorer thématiquement les questions posées par plus de 17 000 utilisateurs à partir de 30 modèles d'IA conversationnelle, à la fois open source et propriétaires, petits et grands.

Les nouvelles perspectives de Compar:IA

Parmi les nouveautés, la plateforme Compar:IA accueille désormais plusieurs modèles d’IA récents, dont Claude 3.7 Sonnet, DeepSeek V3 et la famille GPT 4.1, afin d’enrichir les possibilités de comparaison de leurs performances.

En parallèle, un dispositif inédit baptisé "Les Duels de l’IA" est en phase de test. Cette extension vise à sensibiliser au bilan environnemental des IA génératives à partir des données de Compar:IA, avec un lancement officiel prévu à la rentrée. D’autres chantiers sont en cours, notamment l’élaboration d’un classement des modèles basé sur les préférences utilisateurs et la consommation énergétique, ainsi que l’ouverture de Compar:IA à l’international pour comparer des usages multilingues.