infotechnique : numérisation industrielle d’ouvrages

 

La numérisation de livres fait désormais appel à des machines « tourne-pages » automatiques. Visite chez Infotechnique, à Strasbourg, le plus important centre européen de dématérialisation.

La belle et paisible campagne strasbourgeoise n'échappe pas aux clichés. Les paysages vallonnés multicolores, les maisons à colombage et les interminables noms de villages sont au rendez-vous. Plus inattendue, la bourgade de La Walck, à une quarantaine de kilomètres de Strasbourg, accueille un centre de numérisation doté des outils les plus innovants. Infotechnique, une filiale du groupe néerlandais de gestion de l'informationi Getronics, y a installé son atelier de numérisation. Celui-ci dispose d'étonnantes machines " tourne-pages " capables de scanner des centaines de pages sans intervention humaine, ou presque.
En tant que prestatairei de services, Infotechnique figure parmi les candidats à la numérisation des collections que la Bibliothèque Nationale de France versera à la Bibliothèque Numérique Européenne, et procède actuellement au test de numérisation de masse qui permettra de désigner le ou les opérateurs retenus. Ses ressources technologiques reposent essentiellement sur deux constructeurs de scanners : 4Digital Books et Kirtas.
D'ores et déjà, Infotechnique numérise le Livre foncier d'Alsace-Moselle, l'équivalent en droit local de la Conservationi des Hypothèques qui prévaut sur le reste du territoire français. Il s'agit de numériser 40 000 registres dont chaque exemplaire pèse environ huit kilos et affiche un format proche du A2, soit 32 millions de pages accumulées en plus d'un siècle (photo 1).
 
aspiration

Cette numérisation est réalisée grâce à un robot-scanner franco-suisse, le Digitizing Line proposé par 4Digital Books. Sept modèles seulement existent de par le monde dont quatre se trouvent à La Walck. Capable de numériser jusqu'à 3 000 pages par heure selon le format du documenti, ce scanner présente l'apparence d'une plate-forme de travail d'environ deux mètres sur un, ceinte de panneaux transparents et équipée d'écrans de contrôles. La machine est servie par un opérateur qui vérifie l'état général du document, le dépose sur un plateau et expulse les poussières éventuelles à l'aide d'un pistolet à air (photo 2).
Le processus de numérisation peut alors commencer : la première page est scannée puis un bras aspire délicatement la page suivante qui est tournée et rabattue par un bras mécanique. La page suivante est scannée à son tour et le cycle se poursuit ainsi jusqu'à la fin de l'ouvrage. Un capteur laser permet de détecter d'éventuelles pages qui seraient aspirées simultanément. Le processus est alors immédiatement arrêté tout comme dans les cas de pages froissées. L'opérateur doit alors intervenir pour relancer la numérisation. Afin de s'assurer que toutes les pages ont bien été scannées, il est procédé à une comparaison entre le nombre de pages du document originali et le nombre de pages scannées. A tout moment, l'opérateur peut contrôler sur ses deux écrans de visualisation l'état d'avancement du processus et la qualité de la numérisation (photo 3).Une cellule dédiée au contrôle qualité intervient en fin de procédure sur la base d'un échantillon de pages contrôlées de façon aléatoire.
Ces quatre machines fonctionnent sur un mode industriel vingt-quatre heures sur vingt-quatre et cinq jours sur sept. Un opérateur peut à lui seul en assurer la surveillance sur une période de huit heures (photo 4).
 
saisie de données

Les registres du Livre foncier d'Alsace Moselle sont remplis de façon manuscrite par les fonctionnaires des quarante-six bureaux fonciers de la région.
 Une fois numérisées, ces pages manuscrites doivent être saisies afin de permettre la recherche en mode texte. Cette saisie permet également de les structurer en XMLeXtended markup language. Métalangage extensible dérivé de SGML permettant de structurer des données. Le XML (Extensible Markup Language ou langage de balisage extensible) est un standard du World Wide Web Consortium qui sert de base pour créer des langages balisés spécialisés. Il est suffisamment général pour que les langages basés sur XML puissent être utilisés pour décrire toutes sortes de données et de textes.">i selon un ordre très précis : commune, date, nom, feuillet, description…
Cette opération de saisie est effectuée à Madagascar grâce à une transmission par satellite. Les opérateurs malgaches veillent également à supprimer les " pages mortes ", par exemple un acte de vente correspondant à une propriété ayant changé de propriétaire. " Nous travaillons avec Madagascar depuis plusieurs années et nous sommes pleinement satisfaits de leur travail ", souligne Christophe Rouesné, ingénieur d'affaires chez Infotechnique.
Un décalage horaire d'une heure seulement entre La Walck et Madagascar et la vitesse de transmission satellitaire permettent aux deux sites de travailler pratiquement en temps réel. Saisies, structurées et nettoyées, les pages sont réexpédiées, toujours via satellite, en Alsace à la cellule qualité où des experts traquent les rares erreurs.
 
Pour en savoir plus...
 

 Un référentiel unique

pour disposer des méthodes et des outils nécessaires à la mise en place de l'amélioration de votre système de gestion des publications électroniques
 
retrouvez ce guide dans la boutique du site
 
 
Kirtas

 
Infotechnique possède également un scanner conçu par la firme nord-américaine Kirtas (photo 5). De dimension plus réduite, le BookScan 2400 affiche une cadence de numérisation pouvant atteindre 2 400 pages par heure et utilise également un système d'aspiration. Le livre est placé dans un berceau et les pages sont décollées les unes des autres grâce à une petite soufflerie située en face de la tranche de la largeur du document. Elles sont ensuite aspirées et tournées par un bras avant que deux caméras en surplomb ne photographient le contenu. En raison de sa taille réduite, le BookScan 2 400 ne peut accueillir tous les formats de livre et est réservé à la numérisation d'ouvrages ne dépassant pas le format 27 x 35 cm. Il présente en revanche l'avantage d'être aisément transportable.
La numérisation de plusieurs millions d'ouvrages destinés à la Bibliothèque Numérique Européenne sera lancée après la décision que le Comité de pilotage de la BNE rendra au mois d'octobre prochain. La Walck, candidate parmi d'autres à cette tâche colossale, l'attend paisiblement.
 
 

Les podcasts d'Archimag
Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.