Detailseite
Projekt Druckansicht

Identitätsabgleich durch Bloomfilter in der medizinischen Versorgung

Fachliche Zuordnung Public Health, Gesundheitsbezogene Versorgungsforschung, Sozial- und Arbeitsmedizin
Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung von 2014 bis 2016
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 258933986
 
Erstellungsjahr 2017

Zusammenfassung der Projektergebnisse

Im Gesundheitswesen werden häufig Daten einer Person aus verschiedenen Quellen zusammengeführt. Dieses „Record Linkage“ erfolgt im Kontext der medizinischen Forschung zum Teil ohne Verwendung oder Kenntnis persönlicher Merkmale wie Nachname, Geburtsdatum oder Wohnort. Dann spricht man von Privacy-Preserving Record Linkage (PPRL). Ist das Record Linkage nicht korrekt, können Informationen zu einer Person fehlen („Synonymie“) oder Informationen verschiedener Personen werden vermischt („Homonymie“). In der Patientenversorgung kann dies zu Fehlentscheidungen, in der Forschung zu falschen Schlussfolgerungen führen. In diesem Vorhaben wurden daher drei verschiedene Formen des PPRL auf einem großen Datenbestand des Klinikums der Universität München mit rund 3.3 Millionen Datensätzen untersucht. Das deterministische RL (DRL) erkennt nur komplette Übereinstimmungen, das probabilistische RL (PRL) gewichtet Übereinstimmungen nach Merkmal („Vorname“) und Ausprägung („Maria“), die Bloomfilter können auch die Bedeutung und damit die Nähe von Ausprägungen berücksichtigen. Die drei Formen wurden auf einer Hälfte des Datenbestandes an das Anwendungsszenario der Erkennung von Dubletten angepasst. Hierzu wurden verdächtige Paare von Datensätzen mehrfach zur manuellen Überprüfung an das Klinikum der Universität München übermittelt. Aus den Erkenntnissen wurde dann ein Verfahren zur Überprüfung von Aufnahmen eines Krankenhauses abgeleitet und auf der zweiten Hälfte des Datenbestandes angewendet. Zur Reduktion des Rechenaufwandes wurden dabei nur Datensätze mit einer Übereinstimmung in drei Merkmalen einbezogen, dem phonetischen Vornamen, dem phonetischen Nachnamen und dem Geburtsdatum. Eine 2 %-Stichprobe wurde dann mit den verbleibenden Datensätzen abgeglichen. Bei 6.570 verglichenen Paaren ergaben sich 69 (DRL), 156 (PRL) und 115 (Bloomfilter) Treffer. Von 30 überprüften Paaren waren 83 % richtig erkannt worden. Damit liegt für das gewählte Szenario erstmals eine Empfehlung unter Kombination verschiedener Formen des Record Linkage vor. Die Ergebnisse weisen auf unterschiedliche Perspektiven von DRL und PRL einerseits und den Bloomfiltern andererseits hin. Hieraus lassen sich sowohl Möglichkeiten eines differenzierten Einsatzes der einzelnen Verfahren als auch eine Begründung für einen kombinierten Einsatz ableiten.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung