Les hallucinations générées par l'intelligence artificielle sont désormais bien connues des internautes. Mais qu'en est-il réellement lorsqu'il s'agit d'actualité ? L'Union Européenne de Radio-Télévision a voulu en avoir le cœur net en posant 30 questions d'actualité à quatre des IA génératives les plus utilisées : ChatGPT, Copilot, Gemini et Perplexity. Résultat : 45 % des réponses présentent au moins une faille significative. Et 20 % d'entre elles posent des problèmes d'exactitude majeurs, notamment des détails hallucinants et des informations obsolètes.
"Nous avons constaté que les assistants d'IA imitent l'autorité du journalisme, mais n'atteignent pas sa rigueur" explique Peter Archer, directeur des programmes d'IA générative à la BBC ; "cette étude démontre l'urgence pour les entreprises d'IA de corriger ces failles. Nous voulons que ces outils soient performants et utiles, mais ils doivent mieux refléter les valeurs d'un journalisme de confiance."
Des dysfonctionnements systémiques, mondiaux et multilingues
Gemini (Google) fait figure de plus mauvais élève du panel avec 76 % de réponses posant "des problèmes significatifs" soit plus du double que ses concurrents. Plus préoccupant encore, l'étude de l'Union Européenne de Radio-Télévision constate que les IA testées répondent à des questions même lorsqu'elles ne sont pas en mesure de fournir une réponse fiable.
Toutes IA confondues, une autre insuffisance apparaît : 31 % des réponses présentent des problèmes liés aux sources avec des attributions manquantes, trompeuses ou incorrectes. Pour l'Union Européenne de Radio-Télévision, ces dysfonctionnements ne sont pas des incidents isolés : "ils sont systémiques, mondiaux et multilingues, et nous pensons que cela représente un grave danger pour la confiance du public."










