Detailseite
Projekt Druckansicht

ProvDS: Probabilistisches Management von Herkunftsinformation für unvollständige Linked-Data-Ströme

Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2017 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 323223507
 
Herkunftsinformation ("Provenance") beschriebt wie Information, z.B. Abfrageergebnisse, aus potentiell nicht kuratierten Datenquellen, unter möglicher Anwendung von Rückgewinnungsalgorithmen und anderen Verarbeitungsschritten erstellt wurde. In offenen verteilten Systemen ist Herkunftsinformation zur Lösung vieler Problemstellungen wie beispielsweise der Quantifizierung von "Glaubwürdigkeit" von Information angewendet worden, unter anderem aber auch, um den Einfluss der Weitergabe fehlerbehafteter Information für die Qualität von Ergebnissen in großen verteilten Informationssystemen zu verstehen und zu quantifizieren. In solchen Umgebungen werden Operationen von unabhängigen Teilnehmern über Systemgrenzen hinweg durchgeführt, die fehlerbehaftete Information erzeugen bzw. weiterleiten können. Diese Fehler können im Zuge der weiteren Weitergabe vergrößert werden und eine Abschätzung und Quantifizierung der möglichen Fehler ist essentiell für die Aussagekraft, Gültigkeit und Qualität von Resultaten. Bei Linked-Data-Strömen wird die Lösung dieses Problems noch aufwendiger, da es sich um potentiell fehlerbehaftete Ströme diskreter Daten handelt. Im Projekt ProvDS wollen wir nun Lösungsansätze für die Erstellung, Verwaltung und Interpretation von Herkunftsinformation für unvollständige Linked-Data-Ströme erforschen und prototypisch umsetzen. Wir schlagen Datenverwaltungsansätze vor, die Herkunftsinformation gemeinsam mit Rückgewinnungstechniken berücksichtigen und Herkunftsinformation integral im System verankern. Im Unterschied zu Ansätzen für statische Daten, die von Vollständigkeit und vollständiger Zugreifbarkeit der verarbeiteten Daten ausgehen, fokussieren sich unsere Ansätze auf unvollständige und dynamische Daten, für die die derzeitigen Ansätzen nicht anwendbar sind. Unsere Ansätze sind so ausgelegt, dass sie dem Benutzer exakte, aktuelle Herkunftsinformation ("provenance trace"), Herkunftsinformation für wiederhergestellte Information sowie Kompressions- und Speichermodelle für Herkunftsinformation zu bieten. Die Genauigkeit und Effizienz der zu entwickelnden Algorithmen und Ansätze wird mit realistischen, offenen und großen Linked-Data- und Zeitreihen-Datensätzen (strukturierte und unstrukturierte Datensätze) getestet und ausgewertet werden.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Schweiz
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung