Data Mining with Linked Open Data (Mine@LOD)
Final Report Abstract
Das Projekt Mine@LOD untersuchte die Nutzung von Linked Open Data, d.h., großen, mit maschineninterpretierbarer Semantik ausgezeichneter, verknüpfter und im Web frei verfügbarer Datenquellen, als Hintergrundwissen für Data-Mining-Probleme. Es konnte gezeigt werden, dass es möglich ist, einen gegebenen Datensatz automatisch mit Hintergrundwissen anzureichern und damit die Ergebnisse des Data Mining zu verbessern. Im Rahmen des Projektes wurden verschiedene Ansätze entwickelt, um die Anreicherung eines Datensatzes im Data Mining mit zusätzlichen Merkmalen, sogenannten Features, aus Linked Open Data durchzuführen. Dabei gilt es, die graphbasierten Strukturen von Linked Open Data mit den relationalen Strukturen der gängigen Data-Mining-Datensätze zu verbinden. Hier konnte gezeigt werden, dass insbesondere sogenannte Embeddings, d.h., Projektionen (in diesem Falle von Graphen) in einen niedrigdimensionalen Vektorraum, sehr gute Ergebnisse erzielen. Die im Rahmen des Projektes entwickelten Ansätze wurden im Rahmen einer Erweiterung der Data-Mining-Plattform RapidMiner öffentlich zugänglich gemacht. Darüber hinaus wurden mehrere Anwendungsfälle aus verschiedenen Domänen untersucht, u.a. die Interpretation von Statistiken, die Entwicklung von Empfehlungssystemen, z.B. für Bücher, Filme und Medien, sowie die Identifikation umstrittener Themen in verschiedenen Online-Nachrichtenportalen.
Publications
- (2019) RDF2Vec: RDF graph embeddings and their applications. SW (Semantic Web) 10 (4) 721–752
Ristoski, Petar; Rosati, Jessica; Di Noia, Tommaso; Leone, Renato de; Paulheim, Heiko
(See online at https://doi.org/10.3233/SW-180317) - Feature Selection in Hierarchical Feature Spaces. In: Lecture Notes in Computer ScienceDiscovery Science : 17th International Conference, DS 2014, Bled, Slovenia, October 8-10, 2014. Proceedings; 288-300. Springer, 2014
Petar Ristoski and Heiko Paulheim
(See online at https://doi.org/10.1007/978-3-319-11812-3_25) - Mining the web of linked data with RapidMiner. Web Semantics: Science, Services and Agents on the World Wide Web (35), Elsevier, Amsterdam, 2015
Petar Ristoski, Christian Bizer and Heiko Paulheim
(See online at https://doi.org/10.1016/j.websem.2015.06.004) - Towards Linked Open Data enabled data mining: strategies for feature generation, propositionalization, selection, and consolidation. In: Lecture Notes in Computer ScienceThe Semantic Web. Latest Advances and New Domains: 12th European Semantic Web Conference, ESWC 2015, Portoroz, Slovenia, May 31 - June 4, 2015. Proceedings; 772-782. Springer, Cham, 2015
Petar Ristoski
(See online at https://dx.doi.org/10.1007/978-3-319-18818-8_50) - A collection of benchmark datasets for systematic evaluations of machine learning on the Semantic Web. In: Lecture notes in computer scienceThe Semantic Web - ISWC 2016 : 15th International Semantic Web Conference, Kobe, Japan, October 17-21, 2016, Proceedings, Part II; 186-194. Springer, 2016
Petar Ristoski, Gerben Klaas Dirk de Vries and Heiko Paulheim
(See online at https://dx.doi.org/10.1007/978-3-319-46547-0_20) - Semantic Web in data mining and knowledge discovery: a comprehensive survey. Web Semantics: Science, Services and Agents on the World Wide Web (36), Elsevier, Amsterdam, 2016
Petar Ristoski and Heiko Paulheim
(See online at https://doi.org/10.1016/j.websem.2016.01.001)