DocLang, l'avenir du document à l'ère de l'intelligence artificielle ?

  • doclang.png

    DocLang-avenir-document-ere-intelligence-artificielle
    Doclang veut créer une norme à l'image de JSON pour les données et comme HTML pour le Web (DocLang)
  • Plusieurs sociétés spécialisées dans le traitement du document travaillent à l'élaboration d'une norme IA compatible. 

    "Le PDF a été conçu pour l'impression. DOCX a été conçu pour les éditeurs. DocLang est conçu pour ce qui vient ensuite…" Et ce qui vient ensuite, c'est bien entendu l'intelligence artificielle. Pas moins de six entreprises spécialisées dans le traitement du document se sont regroupées pour travailler au développement d'une norme documentaire lisible par l'IA : IBM, Abbyy, Redhat, Humansignal, Nvidia et la Fondation Linux.

    Un chantier qui repose sur un constat selon les promoteurs de DocLang : "les pipelines d’IA modernes partent du principe que les données d’entrée sont propres et structurées. Or, les documents réels — contrats, factures, articles de recherche, documents réglementaires — ne répondent à aucun de ces critères. Les analyseurs syntaxiques devinent l’ordre de lecture. Les tableaux sont transformés en texte brut. Les figures disparaissent. Les métadonnées sont supprimées." Résultat : des erreurs et des dysfonctionnements dans l'analyse du document.

    On sait déjà que DocLang ne sera ni un convertisseur, ni une API. L'objectif est bien de créer une norme "comme JSON pour les données, comme HTML pour le Web".

    A ce jour, deux solutions (Docling et ABBYY FineReader Engine) prennent déjà en charge nativement la norme DocLang.

     

     

     

    À lire sur Archimag

    Serda Formation Veille 2026