Weiterentwicklung nicht-parametrischer Imputationsverfahren zur Erstellung anonymisierter synthetischer Datensätze
Final Report Abstract
Im Rahmen des Projekts wurde untersucht, in wieweit sich verschiedene nicht-parametrische Prognoseverfahren zur Erstellung synthetischer Datensätze eignen. In einem ersten Schritt wurde ermittelt, welche Verfahren des maschinellen Lernens grundsätzlich für die Erstellung synthetischer Daten geeignet erscheinen. Im zweiten Schritt wurden dann die ausgewählten Verfahren (CART, Bagging, Random Forests und Support Vector Machines (SVM)) mit einander verglichen. Insbesondere für Support Vector Machines wurde erforscht, welche Anpassungen notwendig sind, um diese zur Anonymisierung einsetzen zu können. Im Rahmen des Projekts konnten verschiedene Anpassungen entwickelt werden, die eine Erzeugung synthetischer Datensätze mit SVMs ermöglichen. Es konnte ferner gezeigt werden, dass bei der Anonymisierung mit SVMs der Datennutzen in den-anonymisierten Daten weitgehend erhalten bleibt, allerdings fällt das Reidentifikationsrisiko höher aus als bei vergleichbaren parametrischen Imputationsverfahren. In einer umfangreichen Simulationsstudie wurden anschließend die vier oben benannten Verfahren verglichen. Insbesondere wurde untersucht, wie weit bei der Anonymisierung mit dem jeweiligen Verfahren der Datennutzen erhalten bleibt und wie hoch das verbleibende Reidentifikationsrisiko ausfällt. Diese Untersuchungen sind noch nicht vollständig abgeschlossen. Es zeichnet sich jedoch ab, dass CART Verfahren am besten geeignet sind, die Balance zwischen dem Erhalt der Datenqualität und einem ausreichenden Datenschutz zu gewährleisten. Support Vector Machines erreichen zwar eine hohe Datenqualität, allerdings sind die Daten nach der Anonymisierung nicht ausreichend geschützt. Umgekehrt gilt für Bagging und Random Forests, dass der Datenschutz gewährleistet wird, allerdings ein deutlicher Informationsverlust in Kauf genommen werden muss. CART Modelle bieten zudem die Möglichkeit vorzugeben, wie groß die verwendeten Entscheidungsbäume ausfallen. Große Entscheidungsbäume führen tendenziell zu einer hohen Datenqualität aber auch zu einem größeren Risiko, kleinere Bäume bieten höheren Schutz bei stärkerem Informationsverlust. Die Möglichkeit, die Größe der Entscheidungsbäume zu beeinflussen, kann dazu genutzt werden, für jeden Datensatz individuell die bestmögliche Balance zwischen Datennutzen und Reidentifikationsrisiko zu finden. In der Gesamtschau scheinen somit CART Modelle für die Erzeugung synthetischer Daten am besten geeignet.
Publications
-
(2010): Using Support Vector Machines for Generating Synthetic Datasets. In: J. Domingo-Ferrer, E. Magkos (Hrsg.), Privacy in statistical databases, (Lecture Notes in Computer Science 6344), Berlin u.a.: Springer, 148-161
Drechsler, J.