Detailseite
GenD²: Entdeckung wahrer Abhängigkeiten
Antragsteller
Professor Dr. Felix Naumann
Fachliche Zuordnung
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 560743026
Daten, die in Datenbanktabellen gespeichert sind, können mittels Metadaten beschrieben werden. Zu den einfacheren Metadaten gehören Datentypen, Kardinalitäten oder Wertemuster, während zu den komplexeren Metadaten verschiedene Bedingungen gehören, z.B. eine Schüsselbedingung, die verlangt, dass alle Werte in einer Spalte oder Spaltengruppe eindeutig sein müssen, oder eine funktionale Abhängigkeit zwischen zwei Attributen, die verlangt, dass Datensätze mit gleichen Werten in der einen Spalte auch gleiche Werte in der anderen Spalte haben müssen. Solche komplexen Metadaten werden oft unter dem Begriff der Abhängigkeiten zusammengefasst. Data Profiling beschreibt die Extraktion solcher Metadaten aus einer gegebenen (relationalen) Datenbankinstanz. Insbesondere bei Abhängigkeiten stellt die effiziente Entdeckung in großen Datenbeständen eine große Herausforderung dar, die in jüngster Zeit im Mittelpunkt zahlreicher Forschungsarbeiten stand. Während sich die meisten existierenden Methoden darauf konzentrieren, alle syntaktisch gültigen, validen Abhängigkeiten zu finden, sind die meisten Anwendungsfälle auf semantisch echte, wahre Abhängigkeiten angewiesen. Eine valide Abhängigkeit ist für die aktuelle Dateninstanz gültig, muss aber nicht unbedingt auch für vergangene und zukünftige Instanzen gültig sein. Tatsächlich ist die große Mehrheit der entdeckten Abhängigkeiten unecht, d.h. sie haben keine inhärente Semantik. So sind beispielsweise für eine bestimmte Tabelle in der Regel Zehntausende von funktionalen Abhängigkeiten gültig, während nur eine Handvoll von ihnen eine wahre Abhängigkeit widerspiegelt. Das Ziel dieses Projekts ist die Entwicklung von Methoden zur Erkennung wahrer Abhängigkeiten, entweder direkt aus einem gegebenen Datensatz oder unter den entdeckten gültigen Abhängigkeiten. Auf diese Weise wollen wir die wichtige Lücke zwischen Syntax und Semantik schließen. Wir untersuchen die Hypothese, dass ein wichtiges Signal für die Wahrhaftigkeit von Abhängigkeiten deren Validität über lange Zeiträume hinweg ist. Da Daten oft Fehler enthalten oder nur inkrementell aktualisiert werden, sollen die Definitionen dieser temporalen Abhängigkeiten geeignet relaxiert werden. Wir wollen entsprechende temporale Abhängigkeiten definieren und Verfahren für deren effiziente Entdeckung entwerfen. In einem zweiten Schritt werden wir diese und weitere kontextuelle Signale nutzen, um mittels Klassifikationsmethoden deren Wahrhaftigkeit vorherzusagen.
DFG-Verfahren
Sachbeihilfen
