Project Details
Projekt Print View

Pay-as-you-go-Webdatenintegration mit Mashups

Applicant Dr. Andreas Thor
Subject Area Software Engineering and Programming Languages
Term from 2010 to 2012
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 166834266
 
Final Report Year 2011

Final Report Abstract

Mashups bezeichnen dynamische Web-Anwendungen, die verschiedene Datenquellen und Dienste miteinander kombinieren. Sie stellen damit eine flexible Möglichkeit zur Lösung sogenannter Datenintegrationsaufgaben im Web dar, um z.B. eine gegebene Liste von Produkten um aktuelle Preisangebote verschiedener Verkäufer zu erweitern. Die Erstellung solcher Mashups setzt allerdings (neben Kenntnissen in Web-Programmiersprachen) die Realisierung komplexer Verfahren voraus, damit die gewünschten Daten im Internet gefunden werden und korrekt miteinander verknüpft werden. Bisherige Mashup-Entwicklungswerkzeuge erlauben dabei aus Sicht der Datenintegration lediglich die Realisierung einfacher Anwendungen. So fehlen z.B. Komponenten für das Matching von Datenobjekten, d.h. der automatischen Erkennung, dass zwei Datenobjekte (z.B. Produktangebote) trotz unterschiedlicher Informationen (z.B. unterschiedlicher Titel oder Preis) dennoch das gleiche Realweltobjekt (z.B. dasselbe Produkt) beschreiben. In diesem Forschungsprojekt wurde mit CloudFuice ein Mashup-Framework entwickelt, mit dem Nutzer komplexe Mashup-Anwendungen selbst erstellen können. Durch eine einfache Skriptsprache werden sogenannte Workflows definiert, welche dann in der Cloud ausgeführt werden. Während der Skriptausführung werden u.a. Anfragen an Web-Datenquellen erstellt und gesendet sowie deren Ergebnisse ausgewertet und ggf. verlinkte Informationen hinzugezogen. Skripte und Daten werden in der Web-Tabellenkalkulation von Google Does bearbeitet. Zwischenergebnisse können dabei dargestellt und automatisch aktualisiert werden, damit der Nutzer über den Ausführungsstand informiert bleibt. Als wichtigen Bestandteil von CloudFuice wurden neuartige Verfahren für das sehr schwierige Matching-Problem entwickelt. Ein iteratives Verfahren verbessert dabei die Match-Ergebnisse schrittweise durch eine Analyse bisheriger Match-Ergebnisse. Zusätzlich wurde ein Prototyp entwickelt, der es für den Nutzer sehr einfach macht, Produktangebote semi-automatisch zu gruppieren, so dass Angebote zum gleichen Produkt verglichen werden können.

Publications

  • Evaluation of entity resolution approaches on real-world match problems. Proceedings of the VLDB Endowment 3(1), 2010
    Köpcke, H.; Thor, A.; Rahm, E.
  • From black box to white box at open access journals: Predictive validity of manuscript reviewing and editorial decisions at Atmospheric Chemistry and Physics. Research Evaluation 19(2), 2010
    Bornmann, L.; Marx, W.; Schier, H.; Thor, A.; Daniel, H.-D.
  • Toward an adaptive String Similarity Measure for Matching Product Offers. GI-Workshop - Informationsintegration in Service-Architekturen, 2010
    Thor, A.
  • Block-based Load Balancing for Entity Resolution with MapReduce. Proc. of 20th International Conference on Information and Knowledge Management (CIKM), 2011
    Kolb, L.; Thor, A.; Rahm, E
  • CloudFuice: A flexible Cloud-based Data Integration System. Proc. of 10th International Conference on Web Engineering (ICWE), 2011
    Thor, A.; Rahm, E.
 
 

Additional Information

Textvergrößerung und Kontrastanpassung