
Indexation de documents / Santé
Les deux fusions administratives successives pénalisent le fonctionnement interne du GH dans la qualité de la prise en charge des patients, sur les projets régionaux de partage et les parcours patients nécessitant d’alimenter un serveur régional de rapprochement des identités avec des données épurées et les plus fiables possibles. Les établissements géographiquement proches entraînent l’apparition de nombreux doublons d’identités.
Les données représentent 1 million de dossiers. L’identification des doublons s’appuie sur la méthodologie de l’entreprise LumenAi permettant d’automatiser une fusion de masse.
Nous passons par l’analyse des dossiers patients puis la création de distances entre identités. Plus la distance est petite entre deux identités, plus il est probable de détecter un doublon.
Pour cela, nous utilisons des variables descriptives caractérisant les patients, que nous combinons afin de calculer des distances pertinentes. Suite à cette modélisation, des analyses statistiques (clustering, …) sont effectuées pour déterminer le seuil discriminant qui permet d’identifier les doublons.
Cette démarche menée pour plusieurs métriques candidates (distance entre chaînes de caractères, distance d’édition sur les arbres), permet de traiter l’information hétérogène (Nom, prénom, numéro de Sécurité Sociale notamment).
Une procédure systématique de détection et épuration de doublons est mise en place.