Sword, Temis et ConSoRe s'installent chez Unicancer

Le 20/04/2015 (Mis à jour le 14/10/2015 ) Christophe Dutheil

283 3_7 Unicancer.jpg

"Il s’agit d’un énorme volume de données, puisque nous accueillons dans les centres plusieurs millions de patients et des dizaines de millions de documents, gérés dans des systèmes d’information très hétérogènes." (Pixabay/geralt)

La fédération hospitalière Unicancer vient de déployer une nouvelle solution d'analyse sémantique des dossiers patients utilisant la plateforme Luxid de Temis. Objectif : faciliter la constitution de cohortes de patients afin d'optimiser les processus d'organisation des études cliniques.

Au-delà des effets d'annonce, qu'apporte vraiment l'analyse des big data ? Le projet ConSoRe (pour continuum soin-recherche) de la fédération hospitalière Unicancer, qui réunit 20 centres de lutte contre le cancer (CLCC) en France, apporte un exemple concret des bénéfices que peuvent espérer obtenir prochainement les entreprises et les administrations avec l'analyse de vastes gisements de données.

Ce projet, piloté par l’entreprise de services du numérique Sword Group (1 200 collaborateurs dans 15 pays), est né de la volonté d'Unicancer de s'équiper « d'une solution de fouille de données, en mesure de rechercher dans des données hétérogènes », indique Emmanuel Reyrat, directeur des systèmes d'information chez Unicancer. Le but premier est de faciliter l'accès des médecins à « toutes les données qui peuvent être intéressantes pour soigner un patient ». Et le second objectif, capital pour Unicancer, consiste à offrir aux chercheurs un accès à des données « anonymisées » sur tous les cas déjà traités.

Compte tenu du caractère sensible des données médicales, si un chercheur souhaite obtenir le dossier ou l'identité d'un patient (pour le contacter afin qu'il participe à une recherche clinique, vérifier une hypothèse...), « il devra toujours passer par un médecin référent ConSoRe de l'établissement concerné », prévient le DSI. Les dossiers patients restent ainsi sous le contrôle des médecins de chaque centre.

Données non structurées

La difficulté du projet ? « Il s'agit d'un énorme volume de données, puisque nous accueillons dans les centres plusieurs millions de patients et des dizaines de millions de documents, gérés dans des systèmes d'information très hétérogènes. Les dossiers patients informatisés sont créés avec les logiciels de plusieurs éditeurs. Et les données – associées aux chimiothérapies ou aux systèmes de classification des actes PMSI... – sont stockées et archivées dans des formats très variés ».

Il s'agit pour la plupart de données non structurées, tandis que les systèmes comparables déjà déployés à l'étranger (suivis de très près par les spécialistes d'Unicancer) traitent surtout des informations structurées provenant de bases de données. C'est le cas du « défunt » logiciel américain (open source) d'analyse de données médicales caBIG (pour cancer biomedical informatics grid). Son inconvénient pour Unicancer ? « Nous aurions été obligés de retraiter – et de rendre structurée – la quasi-totalité des informations contenues dans nos bases documentaires », analyse Emmanuel Reyrat. «Il aurait aussi été indispensable de mettre tous nos médecins autour d'une table pour faire en sorte qu'ils parlent le même langage ».

Or, dans son cahier des charges, écrit en 2013, Unicancer précisait...

son intention de privilégier un outil de recherche plein texte, compatible avec de multiples formats, qui « n'obligerait pas les médecins à réécrire leurs comptes-rendus », insiste le DSI. Il faut dire que la tâche serait ardue. « L'institut Curie de Paris, le plus gros centre de lutte contre le cancer participant actuellement au projet ConSoRe, héberge à lui seul 9 millions de documents, dont 7,5 millions de comptes-rendus bureautiques (non structurés) et 1,5 million d'informations structurées », précise Frédérik Joly, chef de projet chez Sword.

Luxid pour l'analyse sémantique

En termes de solutions, Unicancer et Sword ont retenu le moteur de recherche Antidot (AFS, pour Antidot Finder Suite), la solution d'intégration de données de ce même éditeur (AIF, pour Antidot Information Factory) et la plateforme d'analyse sémantique Luxid de Temis, un éditeur français créé en 2000. Selon Daniel Mayer, vice-président produit et marketing de Temis, Luxid est utilisé pour « l'extraction d'informations multilingues (20 langues peuvent être analysées) dans toutes sortes de documents textuels – e-mails, articles scientifiques, dossiers patients, décisions de justice »... En somme, elle permet d'extraire des informations structurées dans des contenus non structurés, tout en enrichissant les métadonnées associées (antécédents familiaux, localisation des tumeurs, classifications TNM en fonction de l'extension anatomique des cancers...). Des métadonnées ensuite présentées sous forme de « facettes » (caractéristiques ou critères) qui permettent aux utilisateurs de filtrer les résultats de leurs recherches sur des critères précis.

Aujourd'hui, un chercheur peut ainsi utiliser le moteur pour identifier rapidement une cohorte de patients susceptibles de réunir les critères requis pour sa recherche (sexe, type de tumeur, traitement reçu...) et évaluer la faisabilité de cette recherche à partir du nombre de cas trouvés. Ce qui nécessitait auparavant de nombreuses heures de travail et de palabres...

Pour limiter au maximum les risques d'erreurs, les résultats erronés (les spécialistes de Sword parlent de « faux-positifs ») sont traqués. « Cela signifie qu'il y a eu une erreur au niveau de l'analyse de la donnée source et nous essayons de comprendre d'où vient cette erreur », souligne Frédérik Joly.

réduire les risques de bruit

L'analyse sémantique permet heureusement de réduire les risques de bruit dans les résultats. « Si un médecin écrit dans son compte-rendu qu'un patient ne souffre pas de telle ou telle pathologie, il faut que la solution tienne compte de la négation et écarte ce compte-rendu de la liste des résultats proposés en réponse à une requête sur la pathologie en question », ajoute Daniel Mayer. Idem si ce terme est uniquement mentionné dans la liste des antécédents familiaux du malade ou s'il figure en en-tête du document, dans le nom du service auquel appartient le chirurgien ayant participé à certains soins...

Les discussions préalables avec les médecins ont bien sûr aussi été précieuses pour identifier une bonne partie du vocabulaire technique le plus important. « S'il y a évidemment beaucoup d'aspects techniques à prendre en compte, il ne s'agit pas à proprement parler d'un projet informatique », estime Philippe Le Calvé, responsable de la branche santé de Sword, et directeur général de Sword en France. En connaisseur : l’ESN a parallèlement déjà travaillé sur le déploiement du moteur de fouille de texte Lerudi (pour « lecture rapide en urgence du dossier informatisé du patient ») d'Asip Santé.

« Il est impossible de faire l'impasse sur les spécialistes métier », conclut le même spécialiste. « Ce sont eux qui permettent de donner du sens aux contenus ». Ne comptez pas sur Emmanuel Reyrat pour le contredire. « Le projet ConSoRe n'a pu fonctionner au sein d'Unicancer que parce qu'un dialogue a dès le départ été établi entre les informaticiens et les futurs utilisateurs de la solution (médecins et chercheurs) ». À bon entendeur...

+repères
Le conseil de Daniel Mayer,
vice-président produit et marketing de Temis

« Il faut commencer par faire des tests sur des périmètres limités et des cas d'usage précis. En fonction de la qualité des résultats obtenus, l'utilisateur de la solution d'analyse sémantique va ainsi pouvoir réévaluer les paramètres de sa solution et commencer à analyser des données sur un périmètre plus large ».

+repères
Les grandes étapes du projet

début 2013 : cahier des charges
automne 2013 : choix des prestataires
début 2014 : début des tests dans quatre centres de lutte contre le cancer (CLCC), afin d'identifier la nature des principales sources de données et de procéder aux premières analyses et aux premiers traitements des informations. Les premiers centres impliqués sont : le Centre Georges-François Leclerc de Dijon, l'Institut régional du cancer de Montpellier, l'Institut Curie à Paris et le Centre Léon Bérard à Lyon.
Automne 2014 : fin du déploiement dans ces quatre centres par l’ESN Sword, et recette du projet.

+repères
Unicancer en chiffres

20 établissements de santé
18 000 salariés
2,1 milliards d'euros de recettes
Plus de 250 essais cliniques en cours
Plus de 110 000 patients hospitalisés chaque année.

Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !

Davantage fréquentées, mais avec moins de lecteurs abonnés, comment les bibliothèques intègrent-elles le numérique dans leurs ressources ? C’est aujourd’hui le livre numérique qui fait le plus débat.

Acheter ce numéro ou Abonnez-vous