Web Data Analytics and Scientific Workflows
Final Report Abstract
Die Menge unstrukturierter Daten ist in den letzten Jahren enorm gewachsen und in diesem Zusammenhang hat sich auch die Analysekomplexität solcher Daten wesentlich erhöht. Informationsextraktion (IE) ist ein bedeutendes Verfahren für viele Anwendungen, in denen unstrukturierte Texte in strukturierte Daten transformiert werden, jedoch erfordert die systematische Anwendung von IE-Techniken auf sehr große Datenmengen hochkomplexe, skalierbare und anpassungsfähige Systeme. Obwohl bereits eine umfangreiche Sammlung von IE-Werkzeugen und Algorithmen für verschiedene IE-Aufgaben existiert, ist die nahtlose und erweiterbare Kombination dieser Werkzeuge in einem skalierbaren end-to-end IE-System immer noch eine große Herausforderung. Dieses Projekt untersuchte genau diese Problemstellung, d.h., es wurde ein anfragebasiertes IE- System innerhalb einer parallelen Datenanalyseplattform erforscht und entwickelt, das für konkrete Anwendungsdomänen konfigurierbar ist und für Textsammlungen im Terabyte-Bereich skaliert. Innerhalb dieses Forschungsfeldes werden vier konsekutive Forschungsfragen bearbeitet. Zuerst werden konfigurierbare, algebraische Operatoren für alle grundlegenden IE-Aufgaben und für Web Text Analytics (WA) definiert. Es wird gezeigt wie diese Operatoren genutzt werden können um komplexe IE-Aufgaben in Form von Queries innerhalb der deklarativen Anfragesprache Meteor auszudrücken. Solche Queries werden in algebraische Data Flows übersetzt, analysiert, logisch und physikalisch optimiert und schließlich in parallele Data Flow- Programme übersetzt, die mit der parallelen Datenanalyseplattform Stratosphere ausgeführt werden. Alle Operatoren werden hinsichtlich ihrer physikalischen, algebraischen und Laufzeiteigenschaften charakterisiert um sowohl das Potenzial als auch die Bedeutung der Optimierung der Ausführungsreihenfolge nicht-relationaler, benutzerdefinierter Operatoren für Data Flows (UDFs) hervorzuheben. Als zweite Forschungsfrage wird der Stand der Technik in der Optimierung nicht-relationaler Data Flows untersucht. Relevante Optimierungstechniken, die in verschiedenen Phasen des Optimierungsprozesses in parallelen Datenanalysesystemen eingesetzt werden, werden vorgestellt und existierende Data Flow-Anfragesprachen werden umfassend hinsichtlich der verfügbaren Optimierungstechniken analysiert. Die Analyse kommt zu dem Schluss, dass eine umfassende Optimierung von UDFs für viele Systeme immer noch eine Herausforderung ist. Basierend auf dieser Beobachtung schließt sich die dritte Forschungsfrage an, in der ein erweiterbarer, logischer Optimierer erforscht und entwickelt wird, der die Semantik von UDFs mit in den Optimierungsprozess mit einbezieht (SOFA). SOFA analysiert eine kompakte Menge von Eigenschaften, die die Semantik der UDFs beschreiben und kombiniert die automatisierte Analyse mit manuellen UDF-Annotationen, um eine umfassende Optimierung von Data Flows zu ermöglichen. SOFA ist in der Lage, beliebige Data Flows aus unterschiedlichen Anwendungsbereichen logisch zu optimieren, was zu erheblichen Laufzeitverbesserungen im Vergleich mit anderen Techniken führt. Als Viertes wird die Anwendbarkeit des vorgestellten IE-Systems auf realweltliche Textsammlungen im Terabyte-Bereich untersucht, in dem Inhalte des World Wide Webs zu gesundheitsrelevanten Themen mit wissenschaftlichen Veröffentlichungen verglichen werden. Im Rahmen dieser Studie wird systematisch die Skalierbarkeit und Robustheit der eingesetzten Methoden und Werkzeuge untersucht sowie die Qualität der extrahierten Daten analysiert um schließlich die kritischsten Herausforderungen beim Aufbau eines IE-Systems für sehr große Datenmenge zu charakterisieren.
Publications
-
(2010). "Prefix Tree Indexing for Similarity Search and Similarity Join on Genomic Data". Int. Conf. on Scientific and Statistical Database Management, Heideberg, Germany. pp 519-536
Rheinländer, A., Knobloch, M., Hochmuth, N. and Leser, U.
-
(2011). "Search, Adapt, and Reuse: The Future of Scientific Workflows." SIGMOD Record 40(2)
Cohen-Boulakia, S. and Leser, U.
-
(2012). "Efficient Similarity Search in a Very Large String Sets". Int. Conf. on Scientific and Statistical Database Management, Chania, Greece
Fenz, D., Lange, D., Rheinländer, A., Naumann, F. and Leser, U.
-
(2012). "Meteor/Sopremo: An Extensible Query Language and Operator Model". Workshop on End-to-end Management of Big Data, Istanbul, Turkey
Heise, A., Rheinländer, A., Leicht, M., Leser, U. and Naumann, F.
-
(2012). "Opening the Black Boxes in Dataflow Optimization". Int. Conf. on Very Large Data Bases Istanbul, Turkey
Hueske, F., Peters, M., Sax, M. J., Rheinländer, A., Bergmann, R., Krettek, A. and Tzoumas, K.
-
(2014). "The Stratosphere Platform for Big Data Analytics." VLDB Journal 23(6): 939-964
Alexandrov, A., Bergmann, R., Ewen, S., Freytag , J.-C., Hueske, F., Heise, A., Kao, O., Leich, M., Leser, U., Markl, V., et al.
-
(2014). "Versatile optimization of UDF-heavy data flows with Sofa". SIGMOD, Snowbird, US
Rheinländer, A., Beckmann, M., Kunkel, A., Heise, A., Stoltmann, T. and Leser, U.
-
(2015). "SOFA: An Extensible Logical Optimizer for UDF-heavy Data Flows " Information Systems 52: 96 - 125
Rheinländer, A., Heise, A., Hueske, F., Leser, U. and Naumann, F.
-
(2016). "PIEJoin: Towards Parallel Set Containment Joins". Int. Conf. on Scientific and Statistical Database Management, Budapest, Hungary
Kunkel, A., Rheinländer, A., Schiefer, C., Helmer, S., Bouros, P. and Leser, U.
-
(2016). "Potential and Pitfalls of Domain-Specific Information Extraction at Web Scale". SIGMOD, San Francisco, US
Rheinländer, A., Lehmann, M., Kunkel, A., Meier, J. and Leser, U.
-
(2017). "Hi-WAY: Execution of Scientific Workflows on Hadoop YARN". Int. Conf. on Extending Database Technology, Venice, Italy
Bux, M., Brandt, J., Witt, C., Dowling, J. and Leser, U.
-
(2017). "Optimization of Complex Data Flows with User- Defined Functions." ACM Computing Surveys 50(3)
Rheinländer, A., Leser, U. and Graefe, G.