Article réservé aux abonnés Archimag.com

Créer une base de gestion documentaire avec ChatGPT et des outils no-code

  • base-gestion-documentaire-creation-chat-gpt-no-code.jpg

    chat-gpt-no-code-creation-base-gestion-documentaire
    Comment utiliser Chatgpt pour créer une base de gestion documentaire no-code ? Réponses. (Matheus Bertelli)
  • L’intelligence artificielle et les applications no-code permettent de développer des applications professionnelles. Voici comment créer une base de gestion documentaire gratuitement et sans savoir coder, à l’aide de ChatGPT (OpenAI), Airtable, Make et Pdf.co.

    mail Découvrez Le Push du Veilleur, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !

    Les organisations spécialisées dans la gestion des connaissances manipulent une grande quantité de documents, ce qui complique leur classement au sein d’un système convivial, surtout si l’organisation a peu de moyens financiers et RH.

    Voici le cahier des charges de départ :

    • faciliter l’actualisation (ajout ou mise à jour de document) ;
    • permettre de retrouver les documents, dans plusieurs langues et selon plusieurs critères ;
    • gratuité (ou presque) ;
    • maintenance facile (sans l’assistance d’un informaticien externe).

    Lire aussi : L’Intelligence artificielle au service de la saisie de notices documentaires

    Pendant longtemps, aucune solution technique n’était satisfaisante : ou bien il fallait acquérir un outil onéreux, ou bien réaliser de nombreuses tâches manuellement. Mais ces dernières années, deux révolutions technologiques ont permis de développer un système qui répond aux critères du cahier des charges décrit précédemment :

    • l’apparition des outils "no-code", dédiés à un développement à la fois exigeant techniquement, mais très facile à réaliser et à maintenir. Ici, il s’agit d’Airtable, pour la base de données, et de Make, pour l’automatisation du processus ;
    • l’arrivée des LLM (large language models ou grands modèles de langage), à la fois puissants et très facilement implémentables, et qui ont servi à finaliser le système. Il s’agit ici de ChatGPT.

    Grâce à ces outils, il est désormais possible de :

    • d’ajouter un document en un clic ;
    • de créer automatiquement les métadonnées ;
    • de retrouver ces données dans une interface « user friendly ».

    Explorons maintenant chaque brique du système (retrouvez la vidéo de démonstration)

    1 - Airtable

    Airtable est un outil qui permet de gérer une base de données aussi simplement qu’avec un fichier Excel ou Google Sheets, mais avec la robustesse d’une base de données, la possibilité de connecter différentes tables entre elles (base de données relationnelle) et des fonctionnalités pour créer des applications.

    La première étape a donc consisté à créer une base de données avec une seule table. Voici les principaux champs créés et les types de données associés :

    ChampsType
    TitleTexte court
    URLLien internet
    FileFichiers
    Description (FR)Texte long (avec formatage enrichi : police, titre, lien, puce)
    Description (EN)Texte long
    CategoryChoix multiple
    Type of documentChoix multiple
    Original languageChoix multiple
    Keyword (FR)Texte court
    Keyword (EN)Texte court

     

    L’ajout d’un document dans la base peut se faire de plusieurs manières. Le plus simple étant d’utiliser le plugin du navigateur "Airtable web clipper" : d’un simple clic, le plugin détecte et envoie l’URL du document dans la base de données.

    Lire aussi : Au cœur des bases de données documentaires

    2 - Scenarios Make

    Make est une plateforme d’automatisation qui permet de connecter des applications et services web sans compétences en codage, en utilisant simplement une interface graphique (voir schéma 1). Deux scénarios ont été créés.

    schema_1_scenario_1_airtable.jpg

    Scénario n° 1

    Il permet d’extraire le texte brut du document. Ce scénario est configuré pour se lancer chaque fois qu’un nouveau document est ajouté dans Airtable :

    1. déclenchement automatique par Airtable d’un Webhook (qui sera lu ensuite par Make) ;
    2. récupération des informations liées au document (à ce point, uniquement l’URL) ;
    3. en fonction du type de document (PDF, Google Docs ou site web)… ;
    4. … extraction du texte brut du document (l’extraction pour les documents PDF se fait à travers le module de PDF.co) ;
    5. ajout du texte brut dans Airtable ;
    6. envoi d’un Webhook pour lancer le deuxième scénario.

    Scénario n° 2

    Il a pour objectif de récupérer le texte brut, de générer les métadonnées et de les enregistrer dans Airtable. Voici les principales étapes :

    1. réception du Webhook du scénario n° 1 ;
    2. récupération du texte brut dans Airtable ;
    3. limitation du nombre de caractères (pour tenir dans la limite de token de ChatGPT) ;
    4. génération des métadonnées par ChatGPT ;
    5. traitement du résultat de ChatGPT (principalement pour le format, et notamment les retours à la ligne inutiles) ;
    6. traitement du résultat de ChatGPT sous format JSON pour obtenir les différentes données ;
    7. enregistrement des données dans Airtable.

    Lire aussi : Documentation : pour ses 30 ans, Interdoc parle surtout d’avenir

    3 - prompt ChatGPT

    La vraie magie de cette application réside dans ChatGPT. Voici le prompt utilisé :

    Analyse the text between three inverted commas to generate :
    - Language of the text between inverted commas
    - Keywords in english
    - Keyword in french
    - Summary in english
    - Summary in english
    Language can be either English or French.
    Limit keywords to a maximum of 5.
    Summary french and english should be 500 words each. Use bullet point.
    The result of your analysis must ALWAYS takes the form of a JSON file, as in this example delimited by {}. You check the JSON is valid. The summary french and English are betwen " ".
    { "Language": "English",
    "Keywords in english": ["Listen", "Woman", "support"],
    "Keywords in french": ["Ecoute", "Femme", "Accompagnement"],
    "Summary in english": "Presentation of a project to support women by active listenning blabla" ,
    "Summary in french": "Présentation d’un projet de soutien aux femmes par l’écoute active etc."
    }
    « »"Texte à analyser"" »

    Note : « Texte à analyser » est remplacé automatiquement dans Make par le texte du document récupéré dans Airtable.

    4- Interface Airtable

    Airtable propose de présenter les données sous forme d’interface graphique (voir schéma 2). Nous avons décidé d’y présenter l’ensemble des documents sous forme d’une liste (à gauche) et le détail du document sur la page principale. Un moteur de recherche permet de lancer une recherche sur tous les champs (en français et en anglais).

    schema_2_airtable.jpg

    Améliorations futures

    La principale limite actuelle réside dans la taille du contexte. Ne pouvant envoyer au LLM que 4 000 token à analyser, on ne peut résumer que le début du document. Mais d’autres LLM sont en train d’apparaître, avec des fenêtres plus larges.

    Alors que nous écrivons ces lignes, OpenAI propose déjà le modèle ChatGPT-4, avec un contexte de 32 000 token (environ 24 000 mots) (NDLR L’article que vous lisez fait 1 200 mots). Le modèle ChatGPT étant plus "intelligent", on peut espérer qu’il formule de meilleurs résumés.

    Une autre évolution possible serait de copier tout le contenu des documents dans la base (en utilisant la vectorisation de texte, pour produire des versions plus synthétiques et compréhensibles par les LLM).

    À partir de là, il sera possible de créer des chatbots qui discuteront directement avec vos données. Par exemple, au lieu d’aller chercher quel est le document qui décrit la procédure de demande de congés de votre entreprise, vous poserez la question en toutes lettres "Comment faire pour demander des vacances ?"

    Lire aussi : Mutualiser son centre de documentation : un défi humain et technique

    Malgré ces limites, l’application présentée ici répond au cahier des charges initial et est actuellement en fonctionnement dans l’organisation. Elle permet de démontrer que l’on peut désormais développer des solutions puissantes et fonctionnelles avec peu de moyens et sans savoir coder. Et ceci n’est que le début, car nous pouvons imaginer utiliser le même ensemble d’outils pour analyser des candidatures d’emploi ou organiser des posts pour les réseaux sociaux, par exemple.

    Combien coûtent ces outils ?

    • Airtable : la version gratuite est suffisante pour tester. Ensuite, la licence coûte 20 euros/mois.
    • Make : la version gratuite est suffisante pour commencer. Ensuite, prévoir un abonnement à 9 euros/mois.
    • OpenAI API : le tarif varie selon le nombre de token (approximativement le nombre de mots) du texte de chaque document envoyé. Ici, nous utilisons le modèle GPT-3.5 Turbo, avec 4 000 de contexte (celui de ChatGPT gratuit que tout le monde connaît). Le coût est de 0,001 5 dollar pour 1 000 token, soit 0,006 dollar au maximum pour chaque nouveau document.
    • PDF.co : la version gratuite est suffisante pour commencer. Ensuite, il faudra prévoir 17,50 dollars pour 8 750 pages à transcrire.
    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    IA-nouvelles-technos-service-public
    Amélioration de la gestion des ressources, simplification des démarches administratives, automatisation de tâches répétitives, renseignement des citoyens… L’IA et les nouvelles technologies ont ouvert de nouvelles perspectives au service public. Mais quels sont leurs enjeux éthiques et sociétaux ainsi que leurs applications concrètes dans les domaines de la justice, de la lutte contre la fraude, de la cybersécurité et de la gestion de la relation citoyen?
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    Serda Formation Veille 2023