CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°383
Découvrez toutes les newsletters thématiques gratuites d'Archimag dédiées aux professionnels de la transformation numérique, des bibliothèques, des archives, de la veille et de la documentation.
1. Pourquoi l’IA ne peut-elle rien calculer sans données
Un modèle apprend en analysant de nombreux exemples qui lui enseignent comment réagir. En l’absence de données, il n’a aucune base d’apprentissage et ne peut rien "deviner" par lui-même. Sans données propres et justes, l’IA ne produira pas de résultats fiables.
Concrètement, si vous voulez qu’un programme rédige un e-mail, il faut lui montrer des milliers d’e-mails préalablement sélectionnés comme modèles. Grâce à ces exemples, l’algorithme pourra détecter des mots, des tournures de phrases, des expressions.
Il en va de même pour la compréhension du langage : un assistant vocal comme Siri ou Alexa a été formé sur des heures d’enregistrements audio transcrits et un traducteur automatique a besoin de milliers de phrases traduites pour apprendre les correspondances entre langues. Les modèles de langage récents (tels que Copilot ou ChatGPT) ont été entraînés sur des milliards de mots provenant de milliers de milliards de textes du web afin d’acquérir du vocabulaire et des connaissances variées.
En somme, sans données d’entraînement, l’IA est aveugle : elle n’a pas d’expérience sur laquelle baser ses prédictions et ne peut "apprendre" quoi que ce soit.
Lire aussi : Comment les solutions de gestion documentaire embarquent l'IA
2. L'ingénierie des données : de l’extraction au stockage
Avant de faire tourner un modèle, il faut lui préparer un véritable festin de données. Ce travail, que l’on appelle souvent "ingénierie des données" ou "préparation des données", consiste à extraire, nettoyer, organiser et stocker les informations qui serviront à l’entraîner. On estime que cette phase peut représenter jusqu’à 80 % du temps total d’un projet en apprentissage machine. Quelles sont les grandes étapes pour passer de données brutes à des données prêtes à alimenter un algorithme ?
- Collecte et extraction des données : cette étape consiste à rassembler les données existantes. Celles-ci peuvent provenir de sources très diverses : bases de données d’entreprise, fichiers Excel, données web, mais aussi documents non structurés. Une entreprise peut extraire des informations de ses bases clients, analyser des e-mails ou des commentaires, ou interpréter des documents papier stockés dans une Ged. L’objectif est de récolter un maximum de données pertinentes en exploitant à la fois les données structurées (déjà organisées en tableaux) et non structurées (textes libres, images, PDF, etc.).
- Nettoyage des données : les données brutes sont souvent imparfaites et il faut donc les nettoyer pour éliminer les erreurs et incohérences. Car attention : des données de mauvaise qualité conduiront à des prédictions de mauvaise qualité. Il convient donc de supprimer les doublons, de corriger les fautes ou valeurs aberrantes, d’uniformiser les formats (dates, unités…), et, si possible, de compléter les informations manquantes. Il est également vital d’identifier et de réduire les biais dans les données utilisées pour l’entraînement du système d’IA, car le modèle héritera de ces biais et pourra produire des résultats injustes ou erronés. Par exemple, un algorithme de recrutement entraîné principalement sur des CV d’hommes pourrait apprendre à discriminer les candidatures féminines. C’est ce qui est arrivé chez Amazon : leurs modèles de recrutement en ont déduit que les candidats masculins étaient statistiquement "préférables" et ont défavorisé les autres. N’oublions pas que ce n’est pas le modèle en lui-même qui est biaisé, mais les données qui ont servi à son entraînement !
- Catégorisation et étiquetage : une fois les données fiabilisées, il faut les organiser et les annoter pour les rendre exploitables par l’IA. Catégoriser, c’est classer les données par type ou thème (par exemple, regrouper des images par catégories d’objets, ou des documents par sujet). Étiqueter signifie ajouter une étiquette descriptive à chaque élément de donnée afin d’indiquer à l’algorithme de quoi il s’agit. On étiquette des images avec le nom de l’objet qu’elles contiennent ("chien", "chat", "piéton"…), on étiquette des e-mails comme "spam" ou "non-spam", on associe à un enregistrement audio le texte prononcé, etc. Ces données annotées servent de référence pendant l’apprentissage. L’annotation peut être automatisée partiellement, mais elle nécessite une intervention humaine dans de nombreux cas.
- Gestion des données non structurées : un point particulier concerne les données dites non structurées, qui ne sont pas sous forme de tableaux organisés et qui représentent aujourd’hui la majorité des données disponibles (environ 80 % des données produites). Elles constituent un gisement d’information énorme, mais plus difficile à exploiter. L’ingénierie des données doit donc les transformer en un format compréhensible par les machines. On utilisera la reconnaissance optique de caractères (OCR) pour extraire le texte d’images ou de PDF scannés, ou on appliquera des algorithmes de traitement du langage naturel pour analyser des documents textuels et en extraire des mots-clés. Ainsi, en IA générative, les textes seront découpés en morceaux - en "bouchées" (chunks) - reliés les uns aux autres. De même, des vidéos pourront être découpées en images clés et annotées image par image. Ce travail permet de convertir un vrac numérique en données structurées prêtes à l’emploi. De la qualité de cette phase de préparation dépend la qualité des réponses qui seront générées.
- Stockage et alimentation du modèle : une fois collectées, nettoyées et étiquetées, les données d’entraînement doivent être stockées dans un format adapté (dans une base de données vectorielle, un fichier structuré ou un data lake centralisé).
À ce stade, on dispose d’un ensemble de données de haute qualité, souvent divisé en deux parties : l’une pour entraîner le modèle et l’autre pour le tester/valider. Les algorithmes peuvent alors être "nourris" avec ces données. Concrètement, le programme d’entraînement va charger les exemples annotés et ajuster progressivement les paramètres du modèle pour qu’il reproduise au mieux les résultats attendus (les étiquettes fournies). Grâce à ce carburant soigneusement préparé, l’IA va pouvoir apprendre et gagner en performance.
Lire aussi : La demande en stockage de données liées à l’IA en hausse continue
3. L’ombre des humains derrière l’IA
Chaque prompt que vous envoyez à ChatGPT ou à Copilot dépend en réalité du travail de préparation réalisé sur les données par des êtres humains, souvent dans des pays du tiers monde, mal payés, voire exploités (voir le reportage "Les sacrifiés de l’IA", d’Henri Poulain, diffusé le 11 février 2025 sur France 2.). En d’autres termes, une part non négligeable du "cerveau" de l’IA est en fait fournie par des mains et des yeux humains. On parle de "travailleurs du clic", qui effectuent des tâches répétitives afin d’entraîner ou de corriger les IA.
Aux quatre coins du monde, sans doute des millions de personnes réalisent chaque jour une infinité de microtâches nécessaires au bon fonctionnement des algorithmes (regarder des images une par une pour indiquer ce qu’elles contiennent, écouter de courts extraits audio pour les transcrire, classer manuellement des messages par catégorie…).
Cela peut sembler dérisoire, mais ces millions de petites annotations contribuent directement à améliorer l’apprentissage automatique : chaque image étiquetée correctement, chaque phrase nettoyée ou traduite, vient enrichir la base de connaissances de l’IA et les géants de l’IA font massivement appel à cette main-d’œuvre invisible.
En résumé, l’IA n’est pas autonome : elle repose sur tout un écosystème qui l’assiste, l’entraîne et la corrige en permanence. Ce travail demeure généralement invisible pour l’utilisateur final, mais il est essentiel à son bon fonctionnement.
Lire aussi : La gouvernance de l’IA, entre conformité et bonnes pratiques