Record linkage based on Bloom filters in health care
Epidemiology and Medical Biometry/Statistics
Final Report Abstract
Im Gesundheitswesen werden häufig Daten einer Person aus verschiedenen Quellen zusammengeführt. Dieses „Record Linkage“ erfolgt im Kontext der medizinischen Forschung zum Teil ohne Verwendung oder Kenntnis persönlicher Merkmale wie Nachname, Geburtsdatum oder Wohnort. Dann spricht man von Privacy-Preserving Record Linkage (PPRL). Ist das Record Linkage nicht korrekt, können Informationen zu einer Person fehlen („Synonymie“) oder Informationen verschiedener Personen werden vermischt („Homonymie“). In der Patientenversorgung kann dies zu Fehlentscheidungen, in der Forschung zu falschen Schlussfolgerungen führen. In diesem Vorhaben wurden daher drei verschiedene Formen des PPRL auf einem großen Datenbestand des Klinikums der Universität München mit rund 3.3 Millionen Datensätzen untersucht. Das deterministische RL (DRL) erkennt nur komplette Übereinstimmungen, das probabilistische RL (PRL) gewichtet Übereinstimmungen nach Merkmal („Vorname“) und Ausprägung („Maria“), die Bloomfilter können auch die Bedeutung und damit die Nähe von Ausprägungen berücksichtigen. Die drei Formen wurden auf einer Hälfte des Datenbestandes an das Anwendungsszenario der Erkennung von Dubletten angepasst. Hierzu wurden verdächtige Paare von Datensätzen mehrfach zur manuellen Überprüfung an das Klinikum der Universität München übermittelt. Aus den Erkenntnissen wurde dann ein Verfahren zur Überprüfung von Aufnahmen eines Krankenhauses abgeleitet und auf der zweiten Hälfte des Datenbestandes angewendet. Zur Reduktion des Rechenaufwandes wurden dabei nur Datensätze mit einer Übereinstimmung in drei Merkmalen einbezogen, dem phonetischen Vornamen, dem phonetischen Nachnamen und dem Geburtsdatum. Eine 2 %-Stichprobe wurde dann mit den verbleibenden Datensätzen abgeglichen. Bei 6.570 verglichenen Paaren ergaben sich 69 (DRL), 156 (PRL) und 115 (Bloomfilter) Treffer. Von 30 überprüften Paaren waren 83 % richtig erkannt worden. Damit liegt für das gewählte Szenario erstmals eine Empfehlung unter Kombination verschiedener Formen des Record Linkage vor. Die Ergebnisse weisen auf unterschiedliche Perspektiven von DRL und PRL einerseits und den Bloomfiltern andererseits hin. Hieraus lassen sich sowohl Möglichkeiten eines differenzierten Einsatzes der einzelnen Verfahren als auch eine Begründung für einen kombinierten Einsatz ableiten.
Publications
-
Detecting duplicates at hospital admission: comparison of deterministic and probabilistic record linkage. Stud Health Technol Inform 2016; 226: 135-138
Waldenburger A, Nasseh D, Stausberg J
-
Combining Different Privacy-Preserving Record Linkage Methods for Hospital Admission Data. Stud Health Technol Inform. 2017; 235: 161-165
Stausberg J, Waldenburger A, Borgs C, Schnell R