Detailseite
Projekt Druckansicht

ProvDS: Probabilistisches Management von Herkunftsinformation für unvollständige Linked-Data-Ströme

Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2017 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 323223507
 
Erstellungsjahr 2022

Zusammenfassung der Projektergebnisse

Mit der erfolgreichen Einführung des „Internet of Things“ (IoT) wurden intelligente und fortschrittliche Services möglich, aber auch neue Fragestellungen in den Bereichen Daten-Sicherheit, -Privatheit, -Heterogenität, Identitätsmanagement, etc. in einem dezentralen Umfeld, aufgeworfen. Datenprovenienz stellt dabei eine wichtige Komponente zur Bewältigung dieser Fragestellungen dar bzw. hängt sie umgekehrt von diesen Fragestellungen ab. Bei der Umsetzung von Provenienz- Lösungen im IoT-Bereich gilt es unter anderem folgende Fragestellungen zu betrachten: 1. Wie kann der gesamte Prozess der Datengenerierung und ihrer wiederholten Verarbeitung durch unterschiedliche Teilnehmer durchgehend und effizient unterstützt werden? 2. Wie sollen Provenienzdaten effizient gespeichert werden? 3. Wie können diese Daten effizient abgefragt und (mit-) verarbeitet werden? 4. Wie können fehlende Daten abgeleitet bzw. ergänzt werden, wenn Daten und/oder deren Provenienz unvollständig sind? Um diese Fragestellungen zu behandeln wurden in diesem Projekt Lösungsansätze entwickelt und in einem prototypischen System implementiert. Dabei mussten die 8 wichtigsten in der aktuellen Forschung definierten Anforderungen erfüllt werden. Diese sind: Vollständigkeit, Granularität, Tiefe, Genauigkeit, Effizienz, Skalierbarkeit, Integrität und Aktualität. Die Implementierung wurde als eine ereignis-basierte, CQRS-Mikro-Service-Architektur umgesetzt (CQRS: Command Query Responsibility Segregation), die als Stand-Alone-Lösung, im Batch-Betrieb oder als Komponente in einem Datenstromverarbeitungssystem eingesetzt werden kann. Um das Problem der Kompensation fehlender (Provenienz-) Daten zu lösen, wurde eine sehr umfassende Literaturanalyse von statistischen und ML-basierten Methoden durchgeführt (270 Ansätze). Darauf aufbauend wurden 66 repräsentative Ansätze ausgewählt und auf Basis standardisierter Testdaten (IoT-23 malicious and benign IoT network traffic capturing data set, Billion Triples Challenge (BTC) data set, Web Data Commons (WDC) data set) empirisch durch unser in diesem Projekt entwickeltes automatisiertes Methodenauswahlverfahren bewertet. Wir konnten zeigen, dass unser ProvDS-System (mit Provenienz-Daten) ähnlich effizient ist wie das TripleProv-Referenzsystem (ohne Provenienz-Daten), d.h. die zusätzliche Verarbeitung von Provenienz-Daten in ProvDS keine Effizienz-Nachteile hat. Weiters konnten wir zeigen, dass ProvDS alle TripelProv-Versionen (TripleProv-SG, TripleProv-SA, TripleProv-TG, and TripleProv-TA) leistungsmäßig teilweise signifikant übertrifft. Unser entwickeltes automatisches Methodenauswahlverfahren erreicht derzeit eine Genauigkeit von 54.6% in der Auswahl der besten Kompensationsmethode für fehlende (Provenienz-) Daten und wird noch weiter verbessert.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung