BigSIoT: Big Data Management für das Semantic Internet of Things
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Zusammenfassung der Projektergebnisse
Ziel des Projekts war es, die verteilte Datenspeicherung und -verarbeitung im Semantic Web und lnternet-of-Things (loT)-Umgebungen zu untersuchen. Wir erwarten in loT-Umgebungen eine große Heterogenität zwischen und in allen Komponenten, die trotzdem miteinander interagieren müssen. Durch die Verwendung eines Semantic-Web-DBMS kann die Interoperabilität verbessert werden, da es schemalose Datenquellen verarbeiten kann. Wir haben das DBMS LUPOSDATE3000 in Kotlin implementiert, um nur eine einzige Codebasis für mehrere Ziele zu kompilieren, wie die Java Virtual Machine für hohe Leistung und Javascript für die vollständige Ausführung von LUPOSDATE3000 im Browser. Es soll prinzipiell möglich sein, LUPOSDATE3000 auf jedem Gerät und Betriebssystem auszuführen. Weiterhin ist LUPOSDATE3000 für verteilte Umgebungen und die einfache Erweiterung konzipiert worden. Wir haben eine lokale Strategie entwickelt, um mehrere Partitionierungsstrategien gleichzeitig zu verwenden, sodass der Optimierer zur Laufzeit mehr Optionen hat, um die beste Partitionierung für eine bestimmte Anfrage auszuwählen. Diese Optionen können die Vorteile von Merge-Joins neben der standardmäßigen sortierten Eingabe weiter steigern. Darüber hinaus entfällt dadurch der sonst notwendige Partitionierungsthread mit zeitaufwändigen Sperren. Wir haben einen Netzwerksimulator namens SIMORA entwickelt, der es der Anwendung ermöglicht, auf Routing-Protokollinformationen zuzugreifen. Mit diesem Simulator kann die Anwendung verbesserte Kommunikationsstrategien anwenden, um den gesamten Netzwerkverkehr zu reduzieren. Unser DBMS nutzt die vom Routing-Protokoll verwalteten Topologieinformationen, um die Joinreihenfolge so zu optimieren, dass der Pfad der Daten innerhalb des Netzwerks reduziert wird. Wir haben ein neues Benchmark-Szenario vorgeschlagen, da die Benchmarks nach dem Stand der Technik ihre Daten gleichzeitig an eine DBMS-lnstanz senden, statt an eine verteilte Umgebung. Diese neue verteilte Einfügung von Daten ermöglicht es der Datenbank, die Daten in ihrer natürlichen Instanz zu belassen, ohne dass zu Beginn viel Datenverkehr entsteht. Wir haben einige Experimente durchgeführt, um zu zeigen, dass unterschiedliche Datenverteilungsschemata für unterschiedliche Arten von Anfragen geeignet sind. Neben Standardoptimierungstechniken haben wir einen maschinellen Lernansatz entwickelt, um die Joinreihenfolge von SPARQL-Anfragen zu optimieren, die typischerweise aus einer beträchtlichen Anzahl von Joins bestehen. In unserer vorgeschlagenen Lösung skaliert der Speicherverbrauch quadratisch mit der Anzahl der Joins pro Anfrage. Zusätzlich konnten wir die Kosten des Netzwerkverkehrs in der Belohnungsfunktion nutzen, um den Netzwerkverkehr zu minimieren.
Projektbezogene Publikationen (Auswahl)
-
Generating Sound from the Processing in Semantic Web Databases”. In: Open Journal of Semantic Web (OJSW) 8.1 (2021), pp. 1–27. issn: 2199-336X.
Sven Groppe; Rico Klinckenberg & Benjamin Warnke
-
Sound of databases. Proceedings of the VLDB Endowment, 14(12), 2695–2698.
Groppe, Sven; Klinckenberg, Rico & Warnke, Benjamin
-
“Flexible data partitioning schemes for parallel merge joins in semantic web queries”. In: Datenbanksysteme fur Business, Technologie und Web (BTW), 19. Fachtagung des GIFachbereichs ”Datenbanken und Informationssysteme”, Dresden, Germany. Ed. by Kai-Uwe Sattler, Melanie Herschel, and Wolfgang Lehner. LNI. Gesellschaft für Informatik, Bonn, 2021, pp. 237–256
Benjamin Warnke et al.
-
A SPARQL benchmark for distributed databases in IoT environments. Proceedings of the International Workshop on Big Data in Emergent Distributed Environments, 1-6. ACM.
Warnke, Benjamin; Mantler, Johann; Groppe, Sven; Sehgelmeble, Yuri Cotrado & Fischer, Stefan
-
SIMORA: SIMulating Open Routing protocols for Application interoperability on edge devices. 2022 IEEE 6th International Conference on Fog and Edge Computing (ICFEC), 42-49. IEEE.
Warnke, Benjamin; Sehgelmeble, Yuri Cotrado; Mantler, Johann; Groppe, Sven & Fischer, Stefan
-
Distributed SPARQL queries in collaboration with the routing protocol. International Database Engineered Applications Symposium Conference, 99-106. ACM.
Warnke, Benjamin; Fischer, Stefan & Groppe, Sven
-
Using Machine Learning and Routing Protocols for Optimizing Distributed SPARQL Queries in Collaboration. Computers, 12(10), 210.
Warnke, Benjamin; Fischer, Stefan & Groppe, Sven
-
“Data Partitioning and Query Optimization in the Semantic Internet of Things”. Dissertation, Universitat zu Lubeck, 2023.
Benjamin Warnke
