Detailseite
Projekt Druckansicht

Data Cleaning und Anfragen auf Zerlegungen von Datenbanken mit unvollständiger Information

Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2006 bis 2008
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 25617221
 
Obwohl unvollständig spezifizierte Datenbanken in der Praxis oft eher die Regel als eine Ausnahme darstellen - Beispiele für Datenbanken mit unvollständiger Information findet man besonders in Datenintegrationsanwendungen, Webapplikationen, wissenschaftlichen Datensammlungen, und wann immer durch Menschen getätigte Eingabenfehler und Auslassungen enthalten können - wurde bisher sehr wenig Forschung an effizient handhabbaren Repräsentationssystemen für unvollständige Information betrieben. Die bisherigen Forschungsarbeiten über Repräsentationssysteme für unvollständige Information gliedern sich in zwei Gruppen. Die erste Gruppe enthält Systeme wie Relationen mit or-sets und v-tables (Relationen mit Variablen), die nicht ausdrucksstark genug sind, um Anfrageresultate auf Mengen möglicher Welten, die in einem dieser Formalismen repräsentiert sind, im gleichen Formalismus zu repräsentieren. Die zweite Gruppe enthält insbesondere die sogenannten cond-tables, relationale Tabellen mit Variablen und logischen Bedingungen, die zwar ein sogenanntes starkes Repräsentationssystem für die relationale Algebra darstellen, also jedes Resultat einer Anfrage in relationaler Algebra auf als cond-tables repräsentierten Mengen von Welten repräsentieren können, aber einerseits eine ineffiziente, weil nicht speichersparende, Methode darstellen und andererseits die logischen Bedingungen, die Teil der cond-tables sind, die Anfrageausführung schwierig gestalten. Eine Folge der beschriebenen Situation ist, dass die einschlägigen in der Vergangenheit erreichten Forschungsresultate zu unvollständiger Information in der Praxis nicht genutzt werden. Die weitverbreiteten SQL-Datenbanksysteme bieten stattdessen nur eine sehr schwache Form von Nullwerten an. Eine darüber hinausgehende Unterstützung von Unvollständigkeit in Datenbanken wäre für die Informationssystempraxis in den obengenannten Gebieten von großem Nutzen. Das Ziel des hier vorgeschlagenen Projekts ist, ein starkes und gleichzeitig skalierbares Repräsentationssystem für große Datenbanken mit unvollständiger Information zu entwickeln, das die effiziente Durchführung von Data Cleaning und Anfragebearbeitung ermöglicht. In Vorarbeiten wurde ein vielversprechender erster Kandidatenansatz entwickelt, der auf der relationalen Zerlegung von Weltmengen beruht.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung