Record linkage based on Bloom filters in health care

Applicants Professor Dr. Rainer Schnell; Professor Dr. Jürgen Stausberg

Subject Area Public Health, Healthcare Research, Social and Occupational Medicine
Epidemiology and Medical Biometry/Statistics

Term from 2014 to 2016

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 258933986

Final Report Year 2017

Final Report Abstract

Im Gesundheitswesen werden häufig Daten einer Person aus verschiedenen Quellen zusammengeführt. Dieses „Record Linkage“ erfolgt im Kontext der medizinischen Forschung zum Teil ohne Verwendung oder Kenntnis persönlicher Merkmale wie Nachname, Geburtsdatum oder Wohnort. Dann spricht man von Privacy-Preserving Record Linkage (PPRL). Ist das Record Linkage nicht korrekt, können Informationen zu einer Person fehlen („Synonymie“) oder Informationen verschiedener Personen werden vermischt („Homonymie“). In der Patientenversorgung kann dies zu Fehlentscheidungen, in der Forschung zu falschen Schlussfolgerungen führen. In diesem Vorhaben wurden daher drei verschiedene Formen des PPRL auf einem großen Datenbestand des Klinikums der Universität München mit rund 3.3 Millionen Datensätzen untersucht. Das deterministische RL (DRL) erkennt nur komplette Übereinstimmungen, das probabilistische RL (PRL) gewichtet Übereinstimmungen nach Merkmal („Vorname“) und Ausprägung („Maria“), die Bloomfilter können auch die Bedeutung und damit die Nähe von Ausprägungen berücksichtigen. Die drei Formen wurden auf einer Hälfte des Datenbestandes an das Anwendungsszenario der Erkennung von Dubletten angepasst. Hierzu wurden verdächtige Paare von Datensätzen mehrfach zur manuellen Überprüfung an das Klinikum der Universität München übermittelt. Aus den Erkenntnissen wurde dann ein Verfahren zur Überprüfung von Aufnahmen eines Krankenhauses abgeleitet und auf der zweiten Hälfte des Datenbestandes angewendet. Zur Reduktion des Rechenaufwandes wurden dabei nur Datensätze mit einer Übereinstimmung in drei Merkmalen einbezogen, dem phonetischen Vornamen, dem phonetischen Nachnamen und dem Geburtsdatum. Eine 2 %-Stichprobe wurde dann mit den verbleibenden Datensätzen abgeglichen. Bei 6.570 verglichenen Paaren ergaben sich 69 (DRL), 156 (PRL) und 115 (Bloomfilter) Treffer. Von 30 überprüften Paaren waren 83 % richtig erkannt worden. Damit liegt für das gewählte Szenario erstmals eine Empfehlung unter Kombination verschiedener Formen des Record Linkage vor. Die Ergebnisse weisen auf unterschiedliche Perspektiven von DRL und PRL einerseits und den Bloomfiltern andererseits hin. Hieraus lassen sich sowohl Möglichkeiten eines differenzierten Einsatzes der einzelnen Verfahren als auch eine Begründung für einen kombinierten Einsatz ableiten.

Publications

Detecting duplicates at hospital admission: comparison of deterministic and probabilistic record linkage. Stud Health Technol Inform 2016; 226: 135-138
Waldenburger A, Nasseh D, Stausberg J
Combining Different Privacy-Preserving Record Linkage Methods for Hospital Admission Data. Stud Health Technol Inform. 2017; 235: 161-165
Stausberg J, Waldenburger A, Borgs C, Schnell R

Servicenavigation

Hauptnavigation

Record linkage based on Bloom filters in health care

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Record linkage based on Bloom filters in health care

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung