ProvDS: Probabilistisches Management von Herkunftsinformation für unvollständige Linked-Data-Ströme
Zusammenfassung der Projektergebnisse
Mit der erfolgreichen Einführung des „Internet of Things“ (IoT) wurden intelligente und fortschrittliche Services möglich, aber auch neue Fragestellungen in den Bereichen Daten-Sicherheit, -Privatheit, -Heterogenität, Identitätsmanagement, etc. in einem dezentralen Umfeld, aufgeworfen. Datenprovenienz stellt dabei eine wichtige Komponente zur Bewältigung dieser Fragestellungen dar bzw. hängt sie umgekehrt von diesen Fragestellungen ab. Bei der Umsetzung von Provenienz- Lösungen im IoT-Bereich gilt es unter anderem folgende Fragestellungen zu betrachten: 1. Wie kann der gesamte Prozess der Datengenerierung und ihrer wiederholten Verarbeitung durch unterschiedliche Teilnehmer durchgehend und effizient unterstützt werden? 2. Wie sollen Provenienzdaten effizient gespeichert werden? 3. Wie können diese Daten effizient abgefragt und (mit-) verarbeitet werden? 4. Wie können fehlende Daten abgeleitet bzw. ergänzt werden, wenn Daten und/oder deren Provenienz unvollständig sind? Um diese Fragestellungen zu behandeln wurden in diesem Projekt Lösungsansätze entwickelt und in einem prototypischen System implementiert. Dabei mussten die 8 wichtigsten in der aktuellen Forschung definierten Anforderungen erfüllt werden. Diese sind: Vollständigkeit, Granularität, Tiefe, Genauigkeit, Effizienz, Skalierbarkeit, Integrität und Aktualität. Die Implementierung wurde als eine ereignis-basierte, CQRS-Mikro-Service-Architektur umgesetzt (CQRS: Command Query Responsibility Segregation), die als Stand-Alone-Lösung, im Batch-Betrieb oder als Komponente in einem Datenstromverarbeitungssystem eingesetzt werden kann. Um das Problem der Kompensation fehlender (Provenienz-) Daten zu lösen, wurde eine sehr umfassende Literaturanalyse von statistischen und ML-basierten Methoden durchgeführt (270 Ansätze). Darauf aufbauend wurden 66 repräsentative Ansätze ausgewählt und auf Basis standardisierter Testdaten (IoT-23 malicious and benign IoT network traffic capturing data set, Billion Triples Challenge (BTC) data set, Web Data Commons (WDC) data set) empirisch durch unser in diesem Projekt entwickeltes automatisiertes Methodenauswahlverfahren bewertet. Wir konnten zeigen, dass unser ProvDS-System (mit Provenienz-Daten) ähnlich effizient ist wie das TripleProv-Referenzsystem (ohne Provenienz-Daten), d.h. die zusätzliche Verarbeitung von Provenienz-Daten in ProvDS keine Effizienz-Nachteile hat. Weiters konnten wir zeigen, dass ProvDS alle TripelProv-Versionen (TripleProv-SG, TripleProv-SA, TripleProv-TG, and TripleProv-TA) leistungsmäßig teilweise signifikant übertrifft. Unser entwickeltes automatisches Methodenauswahlverfahren erreicht derzeit eine Genauigkeit von 54.6% in der Auswahl der besten Kompensationsmethode für fehlende (Provenienz-) Daten und wird noch weiter verbessert.
Projektbezogene Publikationen (Auswahl)
-
(2017). Managing Uncertain Provenance over Incomplete Linked Data Streams, WSTNet Web Science Summer School, St. Petersburg, Russia (WWSSS 2017)
Liu, Q.
-
(2017). ProvDS: Uncertain Provenance Management over Incomplete Linked Data Streams. 16th International Semantic Web Conference (ISWC 2017)
Liu, Q.
-
(2018). Provenance Management over Linked Data Streams. OJDB, 6(1), 5–20. The 41st German Conference on Artificial Intelligence (KI 2018)
Liu, Q., Wylot, M., Phuoc, D. Le, & Hauswirth, M.
-
(2020). A Provenance Meta Learning Framework for Missing Data Handling Methods Selection. 2020 11th IEEE Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON) (IEEE UEMCON 2020)
Liu, Q., & Hauswirth, M.
-
(2021). VADETIS: An Explainable Evaluator for Anomaly Detection Techniques. 2021 37th IEEE International Conference on Data Engineering (ICDE 2021)
Khelifati, A., Khayati, M., Cudré-Mauroux, P., Hänni, A., Liu, Q., & Hauswirth, M.