Article réservé aux abonnés Archimag.com

Quand l'intelligence artificielle dope les moteurs de recherche d'entreprise

  • moteur-de-recherche-entreprise-dope-intelligence-artificielle.jpg

    moteur-de-recherche-interne-intelligence-artificielle
    Comme tous les outils numériques, les moteurs de recherche internes ont connu des progrès substantiels dans le domaine de l’analyse sémantique. (Canva)
  • Encore peu répandus dans les organisations, les moteurs de recherche pour entreprise ont pour particularité d’indexer et d’effectuer des recherches multisources et multiformats tout en gérant les droits d’accès à l’information. Sans surprise, l’intelligence artificielle est désormais embarquée sous le capot de ces outils.

    mail Découvrez Le Push du Veilleur, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !

    Tout le monde connaît les moteurs de recherche à destination du grand public : Google, Bing, Yahoo!, Yandex, DuckDuckGo… À eux cinq, ils représentent près de 99 % des recherches effectuées sur le web dans le monde ! La palme revenant sans surprise à Google, qui totalise 93,1 % de parts de marché à l’échelle mondiale.

    Moins connus, les moteurs de recherche académiques s’adressent à la communauté scientifique qui peut y trouver des ressources documentaires spécifiques. Là comme ailleurs, Google fait figure d’acteur incontournable avec son Google Scholar lancé en 2004. Mais il est cependant concurrencé par d’autres acteurs réputés, comme Scinapse ou Semantic Scholar.

    Lire aussi : Sinequa embarque ChatGPT dans sa solution de recherche d'information

    Une autre catégorie, encore moins connue, est constituée par les moteurs de recherche internes. Intégrés à un site web ou à une application métier, ces moteurs de recherche permettent aux salariés d’accéder plus facilement à un produit, à un article ou à une information grâce à un mot-clé tapé dans une barre de recherche. Ils peuvent également être embarqués à bord de solutions de gestion électronique de documents (Ged) et permettent alors d’exploiter les contenus internes de l’entreprise.

    Recherches multisources et multiformats

    "Nous parlons plutôt de moteurs de recherche pour entreprise", explique Cédric Ulmer, président et cofondateur de France Labs, éditeur de la solution Datafari. "Ces outils sont en mesure d’effectuer des recherches multisources et multiformats dans de nombreuses applications professionnelles, telles que SharePoint, XWiki, Suite Office, Libre Office, ou dans des fichiers d’archives comprenant des formats divers. Autant de ressources documentaires auxquelles les moteurs de recherche grand public sont incapables d’accéder, car ils n’utilisent que le protocole HTTPS". 

    Autre particularité, les moteurs de recherche pour entreprise garantissent la sécurité d’accès aux documents : ils n’affichent que les documents pour lesquels les utilisateurs disposent d’un droit d’accès. Cette restriction est mise en place au moment de l’indexation des documents.

    IA générative, un terrain à investir

    Apparu sur le marché en 2015, Datafari attache une grande importance à son approche open source. Ce choix offre aux clients du moteur de recherche la possibilité d’apporter eux-mêmes des modifications et d’ajouter des fonctionnalités s’ils en éprouvent le besoin. Ces clients évoluent dans des secteurs pour qui la souveraineté des données est primordiale : défense, police, gendarmerie, nucléaire, banques…

    "Toutes ces organisations ont le souci commun de protéger leurs données en les hébergeant sur leurs propres serveurs. Au-delà de ces grands comptes, nous avons également comme clients des cabinets d’étude ou des organisations de cinquante à une centaine de personnes", précise Cédric Ulmer.

    Côté tarifs, Datafari a fait le choix de la transparence en affichant sa grille tarifaire sur son site. Le prix tient compte d’un critère essentiel : le nombre de documents indexés par le moteur de recherche. Ainsi, un volume de 500 000 documents maximum est facturé 8 900 euros, contre 16 900 euros pour un million de documents. Cette grille tarifaire est progressive et peut se hisser à 42 900 euros pour 30 millions de documents.

    Comme tous les outils numériques, les moteurs de recherche internes ont connu des progrès substantiels dans le domaine de l’analyse sémantique : "cela a commencé avec la gestion de synonymes, puis s’est poursuivi avec l’extraction d’entités par expression régulière avant l’émergence du machine learning", explique Cédric Ulmer. "Aujourd’hui, nous nous approchons de l’intelligence artificielle générative qui est en mesure de comprendre les questions posées et de les relier aux documents, tout en précisant les sources qui ont été utilisées pour générer les réponses. L’IA est même capable de faire un résumé de tout cela !"

    Lire aussi : La bibliothèque de l'université de Yale lance un nouvel outil de recherche inter-collections

    Mais ces performances supposent des machines très puissantes et coûteuses, sans oublier le risque de livrer des informations confidentielles à ChatGPT… "L’IA est incontestablement un défi à relever, mais aussi un coup de frais et un terrain à investir pour les éditeurs de moteurs de recherche", ajoute le président de France Labs.

    Le retour sur investissement est colossal

    Ce constat est partagé : "de toute évidence, il existe encore un énorme marché à conquérir", estime Luc Manigot, vice-président du Centre d’excellence de Sinequa. "Beaucoup de sociétés, y compris au sein du CAC 40, ne sont pas équipées. Certaines pensent posséder un outil efficace, mais ça n’est pas le cas ou alors il est de piètre qualité".

    Cet éditeur français est régulièrement classé dans le Top 5 mondial des "search engine" par les cabinets Gartner et Forrester. "Avec les progrès réalisés ces dernières années, un moteur de recherche d’entreprise fait bien plus que trouver un document. Il est en mesure de fabriquer des applications qui résolvent une problématique métier dans les entreprises".

    Par exemple, il offre un aperçu global de tout ce qui gravite autour d’un thème de recherche, quelle que soit la provenance du document. Résultat : le collaborateur peut tout savoir d’un projet ou d’un client. "Le retour sur investissement de ce type d’application est colossal", précise Luc Manigot. "Cela va bien au-delà de la simple recherche de documents".

    L’outil a ainsi convaincu de nombreuses marques (Airbus Helicopters, SFR, Crédit Agricole, Nasa, Pfizer…) et est également utilisé pour sa fonction "expert locator", qui permet de trouver le meilleur interlocuteur au sein d’une multinationale.

    Un célèbre groupe industriel européen utilise ce moteur de recherche afin de satisfaire aux exigences du règlement RGPD : Sinequa a indexé 100 millions de documents pour satisfaire les besoins de seulement quelques utilisateurs en charge de l’application du RGPD !

    Lire aussi : Niiwaa, un outil de veille et d'intelligence économique multilingue

    Seuls ces collaborateurs autorisés à traiter les demandes RGPD accèdent à ce type d’informations : nom de famille, adresse électronique, adresse postale, etc. S’il a un coût, l’outil doit être mis en relation avec le montant des pénalités RGPD qui peuvent grimper à 20 millions d’euros (ou jusqu’à 4 % du chiffre d’affaires annuel mondial, dans le cas d’une entreprise).

    La connectivité au défi de l’interopérabilité

    Pour autant, les éditeurs de moteurs de recherche d’entreprise sont confrontés à un problème qui se pose plus souvent qu’on ne croit. Aussi bien chez Datafari que chez Sinequa, on constate des problèmes d’interopérabilité avec les silos d’informations.

    La faute à des systèmes d’information désuets ou à des applications métiers verrouillées par le client. L’indexation des documents est alors tout simplement impossible. Les éditeurs passent donc du temps à concevoir des connecteurs (jusqu’à 200 chez Sinequa) pour relier leur moteur à ces silos.

    En revanche, les progrès technologiques jouent très largement en leur faveur : traitement sémantique, fouille de textes (text mining), extraction d’entités nommées, intelligence artificielle… Autant d’apports fonctionnels qui permettent d’augmenter la valeur du plus grand nombre de sources de données possibles au bénéfice de l’utilisateur.

    "Lorsqu’ils sont performants, ces outils sont même en mesure de révéler des failles dans les systèmes d’informations de l’entreprise, par exemple ceux qui sont mal protégés en matière de droit d’accès", souligne Luc Manigot. "Mais à ce jour, force est de constater que le service public est très en retard par rapport au secteur privé. C’est d’autant plus dommage qu’il a de vrais besoins…"

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    km-monde-apres
    Transmission, aide à la décision et à l’innovation, culture d’apprentissage continu... Dans un environnement en perpétuelle transformation, la gestion des connaissances est plus que jamais un atout stratégique. Mais justement, quels défis le knowledge management (KM) doit-il surmonter dans un monde professionnel en mutation?
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    Serda Formation Veille 2023