Groupement Hospitalier Nord Essonne

Indexation de documents / Santé

Améliorer et identifier les bases de données de doublons administratifs.

Les deux fusions administratives successives pénalisent le fonctionnement  interne du GH dans la qualité de la prise en charge des patients, sur les projets régionaux de partage et les parcours patients nécessitant d’alimenter un serveur régional de rapprochement des identités avec des données épurées et les plus fiables possibles. Les établissements géographiquement proches entraînent l’apparition de nombreux doublons d’identités. 

Les données représentent 1 million de dossiers. L’identification des doublons s’appuie sur la méthodologie de l’entreprise LumenAi permettant d’automatiser une fusion de masse.

Solutions / Approches : 

Nous passons par l’analyse des dossiers patients puis la création de distances entre identités. Plus la distance est petite entre deux identités, plus il est probable de détecter un doublon.

Pour cela, nous utilisons des variables descriptives caractérisant les patients, que nous combinons afin de calculer des distances pertinentes. Suite à cette modélisation, des analyses statistiques (clustering, …) sont effectuées pour déterminer le seuil discriminant qui permet d’identifier les doublons.

Cette démarche menée pour plusieurs métriques candidates (distance entre chaînes de caractères, distance d’édition sur les arbres), permet de traiter l’information hétérogène (Nom, prénom, numéro de Sécurité Sociale notamment).

Résultats : 

  1. Extraction, pré-traitement et nettoyage de la source de données pour aboutir à une liste d’occurrences représentant les dossiers patients,
  2. Développement et tests des algorithmes de similarité entre dossiers et analyse statistique des résultats, pour aboutir à la solution finale,
  3. Développement du livrable et documentation (fonctionnelle et technique). Celui-ci précisera :

Une procédure systématique de détection et épuration de doublons est mise en place.