Article réservé aux abonnés Archimag.com

Panama Papers : le back-office de l'enquête

  • ordinateur-PanamaPapers.jpg

    ordinateur-femme
    " Nous avons travaillé en aveugle [...] Nous communiquions de manière cryptée [...] sans n’avoir jamais eu accès aux données" Sebastien Heymann, CEO de Linkurious (Illustration via Visualhunt)
  • Menée en toute discrétion pendant 9 mois, l'enquête des Panama Papers est inédite. Brassant un volume considérable de data, elle a été accomplie grâce à des outils à la pointe du traitement des données et de la visualisation. Voici le contrôle technique de l'un des plus grands "leaks" de l'histoire.


    "Salut. Ici c'est John Doe. Intéressé par des données ?"

    Cet email, adressé il y a plus d'un an par une source anonyme à la Süddeutsche Zeitung (SZ), précède la réception par le quotidien allemand d'une base de 2,6 téraoctets de data issues du cabinet d'avocats panaméen Mossack Fonseca.

    Face à l'ampleur de ce "leak" (fuite) de 11,5 millions de documents, les journalistes de la SZ décident de la partager avec le Consortium international de journalisme d'investigation (Icij) et donc avec 110 autres rédactions membres du groupe.

    C'est ainsi que 378 journalistes, éparpillés sur la planète, dont plusieurs du Monde ou de Cash Investigation, ont ainsi pu multiplier les enquêtes et coordonner leurs recherches, sous la houlette de l'Icij.

    L'ampleur du dossier

    L'Icij est une organisation à but non lucratif d'une quinzaine de personnes basée à Washington. Spécialisée dans le traitement de données et l'investigation, elle met à disposition des rédactions des outils et ses compétences techniques afin de leur permettre de collaborer sur un même dossier.

    On lui doit notamment des enquêtes sur les multinationales du tabac, sur le scandale de l'amiante ou encore sur des cartels militaires privés, et plus récemment les affaires Offshore Leaks (2013) et Swiss Leaks (2015).

    "Bien que nous ayons déjà l'expérience de grosses affaires de fraudes fiscales à résonance internationale, l'affaire des Panama Papers est la plus importante sur laquelle nous avons travaillé jusqu'à présent", explique Cécile Schillis-Gallego, data journalist à l'Icij. 

    Le consortium fait immédiatement plancher ses programmeurs afin de répondre à trois grands défis : rendre les données interrogeables, permettre aux journalistes d'accéder aux données et d'échanger entre eux de façon sécurisée.

    Reconstruire les fichiers internes de Mossack Fonseca à partir des 2,6 teraoctets de données non structurées reçues en plusieurs lots est la toute première mission, et non des moindres, de l'équipe technique de l'Icij. C'est cette étape indispensable, appelée "reverse ingeenering", qui permet de rendre les données accessibles. 

    Un moteur de recherche performant

    Une fois cette tâche réalisée et les dossiers reconstitués, il reste malgré tout impossible pour les journalistes, même s'ils sont désormais des centaines, de consulter un à un les millions de documents dont ils disposent. Leur fournir un moteur de recherche performant devient donc prioritaire. Adeptes de technologies open source, les programmeurs de l'Icij améliorent alors la plateforme de recherche dont ils disposent déjà, basée sur Apache Solr pour l'indexation et Apache Tika pour le traitement des documents.

    "Il fallait à tout prix que l'ensemble des données soit interrogeables, poursuit Cécile Schillis-Galleco ; pourtant, la base contenait beaucoup de fichiers PDF et Tiff, dont il fallait extraire le texte brut, et même des images et scans - photocopies de passeport, certificats d'incorporation, etc. - , pour certains de très mauvaise qualité, presque illisibles car datant parfois des années 70". 

    C'est grâce au système de reconnaissance de caractères (OCR) Tesseract que ces images, chargées sur une trentaine de serveurs temporaires fonctionnant en parallèle, sont finalement traitées. 

    Le système Solr ne disposant pas d'interface utilisateur, l'Icij choisit alors la solution open source Project Blacklight, généralement utilisée en bibliothèque, pour que les journalistes puissent effectuer leurs recherches. Simple d'utilisation, la plateforme dispose d'opérateurs avancés ("and", "or" et les termes entre guillemets), d'un système de facettes permettant de trier les documents selon leurs métadonnées (type, date de création, nom de société, etc.) et de la fonction de "requête approximative" (fuzzy search). 

    Travail de fourmi

    Chercher quand on ne sait pas véritablement ce qu'on va trouver reste malgré tout compliqué. En effet, comment mettre la main sur des preuves intéressantes de fraudes fiscales dans ces 2,6 teraoctets de data quand on ignore le nom des coupables ? Tout simplement en réalisant un véritable travail de fourmi : 

    "Il nous fallait chercher le maximum de choses pour avoir la chance de trouver un maximum d'informations intéressantes", explique Mathilde Damgé, journaliste aux Décodeurs du Monde ; nous avons alors entamé un travail laborieux et quantitatif tout en systématisant nos requêtes".

    Et ce grâce à la fonction de "recherche par lots" (batch search) que l'Icij ajoute alors à sa plateforme : impossible en effet d'entrer dans le moteur, un à un, tous les noms des parlementaires, des grandes fortunes ou des patrons les mieux payés de France pour vérifier s'ils sont présents ou non dans la base de données. Grâce à la recherche par lots, il est alors possible de charger la liste en question dans Blacklight pour recevoir ensuite un fichier CSV montrant les correspondances exactes et approximatives. 

    Difficile également d'identifier les résidents français parmi les 214 000 structures offshore présentes dans la base de données. La solution ? Rechercher des "expressions régulières", c'est-à-dire celles disposant d'un certain modèle de nombres ou d'identifiants, comme ceux utilisés par les comptes bancaires français (IBAN + FR + chiffres) ou les passeports français (Type "P" + code du pays "FRA") afin d'isoler les actionnaires français. 

    Simplifier pour explorer la donnée

    Likurious, un outil déjà utilisé pour l'affaire Swiss Leaks et mis gratuitement à disposition de l'Icij, entre alors en jeu afin de visualiser instantanément les relations entre les personnes citées dans les documents. La data visualisation est, à ce stade, très intéressante, puisqu'elle permet d'identifier facilement qui sont les véritables bénéficiaires des montages financiers souvent très complexes camouflés par de multiples sociétés-écrans. La base de données de graphes Neo4j, développée par Nao Technology, est donc couplée avec la plateforme de visualisation de données de la start-up française Linkurious afin d'explorer les données connectées du "leak". 

    "Les registres des sociétés ont été chargées dans la plateforme, poursuit Mathilde Damgé ; les représentations des graphiques, rapides et faciles à comprendre, nous ont fait gagner énormément de temps".

    Ironie de l'histoire, l'équipe de Linkurious ignore alors tout de la nature exacte de l'enquête : 

    "Nous avons travaillé en aveugle, se souvient Sebastien Heymann, CEO de Linkurious ; l'Icij devant à tout prix protéger la sécurité des données, nous communiquions de manière cryptée. Certes, nous avons fourni l'outil, le support et l'assistance, mais sans avoir jamais eu accès aux données". 

    Réseau social

    En marge de l'enquête, un dernier défi technique reste alors à relever : permettre aux journalistes du monde entier travaillant sur le "leak" aux côtés de l'Icij d'échanger entre eux sur l'avancement de leurs recherches de façon indépendante et sécurisée. 

    C'est par l'intermédiaire de la plateforme Global I-Hub, développée par l'Icij à partir de l'application web open source de création de réseau social d'entreprise Oxwall, que les journalistes ont pu se contacter durant les neuf mois d'investigation. 

    "Nos programmeurs ont mis au point une identification en deux étapes afin de sécuriser au maximum les connections au global I-Hub, explique Cécile Schillis-Gallego ; à part ça, il ressemble à un réseau social comme un autre, avec différents sujets de discussion en temps réel, des partages de liens et de fichiers". 

    Au fur et à mesure de ses enquêtes, l'Icij a peu à peu développé et amélioré ses outils selon les contextes, les volumes de données à traiter et les besoins spécifiques des journalistes. Ce "basculement de l'investigation dans l'ère du big data", comme l'a qualifié Jérôme Fenoglio, le directeur du Monde, le 4 avril dernier dans son éditorial, n'a pu s'opérer que grâce à l'étroite collaboration de journalistes et de développeurs ; une association mêlant data, collaboratif, sécurité, technologies open source et start-up innovantes qui dessine progressivement le futur de l'information.

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    Tiraillées entre les demandes d’extension de leurs horaires et la question du prêt numérique, les bibliothèques se bougent pour faire évoluer autant leurs murs que la manière de les aménager et de les outiller.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.
    Publicité

    Serda Formations Data 2023