L’IA au secours des vracs numériques

L’entropie documentaire, un mal latent des organisations

Dans une économie mondialisée où l’information circule en flux continu, les organisations font face à un paradoxe persistant : les outils conçus pour fluidifier la collaboration sont devenus les principaux artisans d’une saturation documentaire sans précédent. Les entreprises font face à un double défi : gérer un volume exponentiel de documents tout en répondant à des exigences de plus en plus strictes en matière de conformité, de protection des données et de traçabilité.

De plus, la transformation numérique rapide a accru la dépendance vis-à-vis des systèmes informatiques et des prestataires technologiques externes, tout en exposant le secteur à des cybermenaces croissantes. Ce constat a conduit l’Europe à se doter d’un cadre réglementaire dédié, harmonisé et complet (dont les textes européens IA Act, DMA, DSA, CRA, NIS2, DORA et RGPD en sont des exemples représentatifs).

Dans ce contexte, les outils collaboratifs de type EFSS (Enterprise File Sync and Share) comme Google Workspace et particulièrement Microsoft 365 (avec SharePoint Online et Teams) se sont imposés mondialement comme la référence pour la production, le stockage et le partage de documents. Ces solutions SaaS (Software as a Service) matures prennent progressivement le relais des serveurs de fichiers et répondent aux attentes de simplicité d’usage des utilisateurs tout en allégeant la charge d’exploitation des services informatiques.

Cependant, après les premières années d’usage, la situation évolue. Le cas de SharePoint Online illustre parfaitement cette dérive : lorsque les volumes de données excèdent les forfaits initiaux, la plateforme se heurte à des limites majeures en termes de gouvernance et de contrôle des coûts. Utilisé par défaut comme espace de stockage, la majorité des sites SharePoint sont encombrés de fichiers obsolètes, de doublons, de versions multiples et de contenus non qualifiés. Cette entropie est consubstantielle à la nature même de ce type d’outil qui délaisse les tâches de classification des documents et de saisie de métadonnées.

Les conséquences de ce manque de discipline ne sont au départ pas perçues car les impacts financiers sont faibles, portés par un forfait confortable et des services à forte valeur ajoutée. Rapidement, ce mode d’usage entraîne une perte d’efficacité pour les utilisateurs qui ont de plus en plus de mal à retrouver leurs documents, mais aussi et surtout, une explosion des coûts de stockage cloud et une impossibilité à garantir la licéité des pratiques de gestion documentaire.

Les vracs numériques existent et existeront

Selon l'étude IDC DataAge 2020, la création mondiale d’information connaît une accélération phénoménale :

2005 : 0,1 Zettaoctet (Zo) d’information.
2010 : 2 Zo, dont seulement 9 % étaient structurés ou taguées.
2015 : 12 Zo, avec toujours 9 % de données structurées ou taguées.
2020 : 47 Zo, passant à 16 % de données structurées ou taguées.
2025 : 163 Zo, avec 36 % de données structurées ou taguées.

Ces données mettent en lumière une réalité brute : la très grande majorité du capital informationnel mondial demeure non structurée (donc sous forme de fichiers). Les estimations indiquent que 80 % à 90 % des informations conservées par une organisation sont des données non structurées, se présentant principalement sous la forme de fichiers (fichiers bureautiques textuels, PDF, feuilles de calcul, images, fichiers audio et vidéo).

Cet accroissement du volume d’information est directement corrélé avec la courbe de développement des solutions d’EFSS partout dans le monde. Ci-dessous une estimation du nombre d’utilisateurs de l’offre Microsoft365 entre 2016 et 2023.4

Année Utilisateurs / abonnés

2016 ~110 millions d’utilisateurs mensuels
2018 ~155-180 millions d’utilisateurs mensuels
2020 ~258 millions d'utilisateurs actifs mensuels
2021 ~280 millions d’utilisateurs mensuels
2022 ~300 millions d’utilisateurs mensuels
2023 ~345 millions d’utilisateurs mensuels

En somme, dans les années à venir les organisations recevront de plus en plus d'informations sous forme de fichiers et les EFSS, comme par exemple SharePoint Online ou Google Workspace, permettront de les stocker.

Alors comment agir pour traiter les vracs numériques ?

Face à l'ampleur des vracs numériques, l'inaction n'est plus une option. Toutefois, le choix de la méthode de traitement est déterminant pour le succès de toute initiative, tant sur le plan opérationnel que financier. Quatre approches principales s'offrent aux organisations, chacune répondant à des niveaux de maturité et de besoins différents.

1. L'approche manuelle : la limite du facteur humain

Le traitement manuel reste l'approche la plus intuitive, reposant sur l'implication directe des collaborateurs. Cependant, face à la volumétrie exponentielle des données et à la bande passante limitée des équipes, cette méthode s'avère structurellement inenvisageable à grande échelle. Bien qu'elle soit inefficace pour une résorption massive, elle conserve une utilité sociale : des opérations ponctuelles de type « cleaning day » permettent de fédérer les équipes autour d'une culture de la donnée partagée, bien qu'elles ne puissent suffire à traiter le passif documentaire.

2. Les outils locaux de traitement de fichiers : une accélération limitée

L'utilisation d'outils locaux (par exemple: Archifiltre, Treesize,...) constitue une première étape d'accélération. Ces solutions permettent de visualiser et de rationaliser le traitement du vrac en offrant une visibilité immédiate sur les arborescences. Néanmoins, ces outils présentent des freins majeurs pour les grandes organisations :

Outil monoposte : Ils sont inadaptés aux fortes volumétries nécessitant une scalabilité industrielle.
Absence d'intelligence intégrée : Ces solutions manquent de fonctionnalités d'IA et d'analyse profonde de contenu, limitant leur action à un tri de surface, sans compréhension réelle de la valeur sémantique des documents.

3. L'IA générative native : puissance contre souveraineté

L'usage d'outils basés nativement sur l'IA générative (comme Claude Cowork, Microsoft Scout) offre une puissance d'analyse inédite capable de s’appuyer sur de l’IA agentique. Toutefois, cette approche révèle rapidement des points de friction critiques :

Performance et coûts : Le traitement massif de fichiers par l’IA générative est, par essence, lent et particulièrement coûteux, rendant son déploiement complexe pour des gisements de données très importants.
Risques de souveraineté : Ces outils posent également de sérieux problèmes de sécurité et de conformité, mettant en péril l'immunité des données face aux lois extraterritoriales, une condition pourtant essentielle pour les organisations européennes.

Ces outils n’en restent pas moins particulièrement prometteurs et vont probablement, à terme, remplacer l’approche 2 fondée sur l’usage d’outils locaux de traitement de fichiers

4. L'IA hybride : l'équilibre optimal

Pour concilier les impératifs de volume et de pertinence, une approche particulièrement pertinente repose sur le recours à une IA hybride (comme everteam.discover 3.3). Cette stratégie consiste à articuler successivement trois niveaux d'intelligence, en fonction de la complexité des documents :

IA par règle : Pour un filtrage massif et rapide des documents triviaux.
IA par apprentissage : Pour une classification et une extraction de métadonnées efficace sur les documents standards.
IA générative : Réservée exclusivement aux documents les plus complexes dont l'analyse nécessite une compréhension fine.

Cette approche en cascade permet de bénéficier d'une performance optimale et d'une maîtrise parfaite des coûts, en réservant la puissance de l'IA générative uniquement là où elle apporte une réelle valeur ajoutée, tout en garantissant la conformité souveraine nécessaire au traitement des données sensibles. Des approches combinant plusieurs technologies d’IA doivent en revanche disposer de fonctions d’administration et de supervision solide pour être pleinement efficaces.

Est-ce que l’IA est LA solution pour traiter les vracs ?

Il est difficile de préjuger du futur, mais l’IA apparaît de plus en plus comme la brique fondamentale d’une gouvernance documentaire moderne, agile et éclairée. Elle promet d’être la brique manquante permettant de concrétiser le paradigme professé par l’ISO 15489, pour le dire simplement, d’assurer une gestion systématique et le contrôle rigoureux du cycle de vie des documents d'activité de leur création jusqu'à leur destruction.

En comblant les étapes manquantes de classification et de saisie des métadonnées, l’IA rend l’information plus « liquide » et lui permet de poursuivre son cycle de vie en s’affranchissant des contraintes techniques des silos documentaires existants. Des travaux normatifs sont d’ailleurs actuellement en cours à l’ISO (au sein du comité ISO TC46/SC11/WG22 “Gestion des documents et intelligence artificielle”) afin de normaliser l’usage de l’IA sur des fonds documentaires.

Tout cela est intéressant, mais il convient d’être vigilant, car les bénéfices de l’IA ne doivent pas occulter les risques afférents à leurs usages.

L’IA oui ! mais pas à n’importe quel prix

Pour le traitement des vracs numériques, le mode de déploiement de l'intelligence artificielle au sein des organisations constitue un défi stratégique nécessitant un équilibre rigoureux entre bénéfice opérationnel et maîtrise des coûts. En effet, le traitement de vracs numériques avec l’IA est confronté à l’analyse avancée du contenu de millions à plusieurs milliards de documents.

Cette exigence s'accompagne d'un impératif de performance technique pour assurer le traitement des documents dans des délais contraints tout en maîtrisant les coûts. Il est donc crucial d'optimiser l'allocation des ressources informatiques et les budgets pour éviter que l'adoption de l'IA ne génère des dépenses incontrôlées, en alignant les investissements technologiques sur les besoins métiers réels plutôt que sur une consommation aveugle de ressources.

L’IA oui ! mais pas n’importe laquelle

Parallèlement à la recherche de performance, les entreprises font face à trois contraintes clés qui conditionnent la pérennité et la conformité de leurs projets IA. Premièrement, la nécessité de s'affranchir d'une dépendance technologique excessive envers les hyperscalers (américains) pour préserver une autonomie stratégique. Deuxièmement, l'obligation de garantir une sécurité informatique irréprochable, en stricte conformité avec les exigences réglementaires européennes (telles que CRA, NIS 2, DORA ou le RGPD et l’IA Act) et nationales (comme la loi SREN).

Enfin, il est impératif de garantir l'immunité des données face aux lois extraterritoriales, assurant ainsi la protection souveraine du capital informationnel contre toute ingérence juridique étrangère, afin de maintenir le contrôle exclusif des actifs stratégiques de l'organisation.

Pour conclure

En définitive, le traitement du vrac numérique n'est plus une simple problématique technique ou un sujet de maintenance ponctuelle ; il est devenu un impératif stratégique pour toute organisation qui souhaite transformer son capital informationnel en véritable actif. Le passage d’une gestion subie — marquée par l’accumulation incontrôlée de fichiers et la saturation des coûts de stockage — à une gouvernance maîtrisée repose sur un changement de paradigme technologique. Si les approches manuelles ou les outils locaux ont atteint leurs limites face aux volumétries actuelles, et si le recours massif à l’IA générative « native » soulève des questions critiques de souveraineté et de rentabilité, une voie médiane s’impose.

L’adoption d’une approche d’IA hybride représente, à ce jour, l’alternative la plus viable: elle concilie performance économique, précision opérationnelle et conformité réglementaire. En articulant intelligemment l’IA par règles, par apprentissage et générative, les organisations peuvent non seulement « nettoyer » leurs vracs, mais surtout classer leur information pour la rendre enfin exploitable.

La question n’est donc plus de savoir si l’IA doit intervenir dans la gestion des vracs numériques, mais quelle IA adopter. Le choix d’une solution souveraine, respectueuse des exigences européennes et capable de garantir l’immunité des données face aux lois extraterritoriales, n’est pas un frein à l’innovation. Au contraire, c’est le socle indispensable sur lequel construire une confiance numérique durable.

En réappropriant la maîtrise de ses données, l’organisation ne se contente pas d’assainir ses serveurs : elle sécurise son avenir, protège son patrimoine informationnel et se donne les moyens d’une transformation numérique sereine et performante. La gouvernance documentaire augmentée par l’IA est, désormais, le levier incontournable de la résilience des organisations de demain

Noureddine LAMRIRI | n.lamriri@everteam.com
Product Strategy and Presales Director
ISO Coordinator