veilleurs et éditeurs vivement intéressés

 

Le web profond apparaît comme une nouvelle frontière aiguisant l’appétit des veilleurs et des éditeurs. Mais attention, sur ce terrain, des outils et un savoir-faire restent indispensables.

Comme tous les milieux professionnels, la veille Intelligence économique.  ">i a ses marottes. Depuis plusieurs mois, pas un colloque, pas un retour d’expérience sans que le webi invisible ne fasse irruption dans les conversations. Certains éditeurs l’ont bien compris et en ont fait un argument marketing destiné à séduire les veilleurs confirmés mais aussi les autres professionnels de l’informationi, à juste titre intrigués par des slogans aussi prometteurs que flous.
Depuis l’apparition de la notion de web invisible – aussi nommé web profond – en 1994, le nombre de pages en ligne a explosé. Selon les chercheurs du centre IBM d’Almaden (Californie, États-Unis), plus de 50 millions de pages web sont ajoutées ou modifiées chaque jour ! En 2000, ce chiffre ne s’élevait qu’à 7,5 millions… Si l’onajoute les informations saisies dans les bases de données, les lettres d’information et autres sources du web profond, ce sont près de 25 milliards d’informations créées ou modifiées quotidiennement.
 
 web invisible, web profond, web opaque, dark web, web surfacique...

L’expression web invisible est promise à un bel avenir, encore faut-il s’entendre sur sa définition. La majorité des experts semblent s’accorder sur l’essentiel : il s’agit de documents web mal ou non indexiés par les moteurs derecherche conventionnels. En effet, une masse considérable de documents reste inaccessible en raison de leur nature :c’est le cas des informations incluses dans des banques de données qui nécessitent de remplir un formulaire de critères de recherche. C’est également le cas des sites qui exigent une authentificationi afin d’accéder aux contenus, ou bien les pages protégées par une balisei empêchant toute indexationi par les moteurs de recherche. Le site du quotidien Le Monde, par exemple, interdit aux moteurs d’accéder à ses archivesi. Par ailleurs, certains formats de pages web – Flash par exemple – ne sont pas encore reconnus par les robots d’indexation de Google, Exalead ou Yahoo. Certains spécialistes [voir l’avis d’Alain Beauvieux] préfèrent parler de web profond, par analogie avec l’expression anglaise deep web. Dans tous les cas, il s’oppose au web surfacique qui désigne les documents accessibles en ligne via l’indexation des moteurs de recherche généralistes.Le web opaque, quant à lui, concerne les parties du web qui ne sont pas accessibles en ligne, à savoir les pages théoriquement indexables mais qui, dans les faits, ne sont pas indexées par les moteurs.
 
nirvana informationnel

Dans un premier temps, les veilleurs se sont réjouis de cette colossale masse de données, d’autant plus qu’elle bénéficie d’une notable réputation en terme de pertinence [voir encadré Le web profond, une grande qualité informationnelle, ci-dessous]. Mais ils ont dû apprendre à manipuler toutes sortes d’outils, gratuits pour la plupart, afin d’atteindre le nirvana informationnel : répertoires de presse et spécialisés, portails et bibliothèques en ligne, entre autres. Autant d’instruments utilisables, en premier usage, par les veilleurs. Parallèlement, des éditeurs, comme Digimind, Ixxo et BEA Conseil, proposent des solutions payantes destinées à élargir le périmètre de recherche sur le web. Lors des deuxièmes rencontres ICC, tenues en octobre 2006 à Paris, la société Ixxo présentait Squido, une solution de veille axée sur « un nouveau paradigme de recherche sur internet">i ». L’éditeur avait, auparavant, reçu le soutien de l’Oséo (anciennement Anvar) et le label Entreprise innovante pour mettre au point ce logiciel« entièrement personnalisable capable de parcourir l’intégralité du web visible et profond ». Plus récemment, lors du salon i-Expo du mois de juin dernier, Digimind se félicitait d’avoir reçu le prix ICT (Information, communication et technologie), décerné par la Commission européenne en charge de la société de l’information, pour la solution Digimind Finder 2. Celle-ci interroge simultanément nombre de sources issues du web profond.
 
niche technologique

Ces deux distinctions, française et européenne, soulignent l’importance accordée à des systèmes d’information capables de remonter des informations provenant de l’au delà du web surfacique. Elles montrent également qu’il s’agit là d’une niche technologique capable d’engranger des revenus confortables et de faire émerger un modèle économique viable. Lors du même salon i-Expo, Bruno Etienne, le président-fondateur de KB Intelligence (ex-BEA Conseil), précisait que « le web profond est une réalité permettant d’accéder à des informations plus fraîches que le web visible. En revanche, je me demande sur quoi se fonde l’affirmation selon laquelle le web profond représenterait 80 % des données disponibles en ligne ».
En tout état de cause, la maîtrise du web profond apparaît bien comme la valeur ajoutée professionnelle pour distinguer les veilleurs aguerris des touche-à-tout. L’information atteinte en deux clics est à la portée de tout le monde ; accéder à la bonne information au bon moment constitue un métier.
 
 le web profond, une grande valeur informationnelle
Selon certains experts, le web profond pourrait contenir 500 fois plus de ressources que le web indexé par les moteurs de recherche ! Issus de banques de données ou d’archives payantes, ces documents présentent souvent une grande valeur informationnelle, car ils ont été répertoriés et élaborés par des professionnels aguerris.Si la notion de qualité est difficile à établir, les analystes estiment cependant que les documents provenant du web profond présentent une qualité de contenu trois fois supérieure au web surfacique. Une étude réalisée en 2001 par la société Bright Planet souligne que le web profond est constitué de plus de 200 000 sites web, que sa croissance est supérieure à celle du web visible et, surtout, que 95 % des documents sont gratuits ou accessibles sans restriction… Le web profond est composé de bases de données spécialisées – médecine, brevets…–, de publications, d’études de marché, de bilans, de sites de vente en ligne, de portails sectoriels.
 
 
 
 

Les podcasts d'Archimag
Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.