Semantische Clusteranalyse im Information Retrieval

Antragsteller Professor Dr. Norbert Fuhr; Professor Dr. Benno Stein

Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme

Förderung Förderung von 2009 bis 2016

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 91548218

Erstellungsjahr 2019

Zusammenfassung der Projektergebnisse

Das DFG-CAIR-Projekt war eine Kollaboration zwischen dem Fachgebiet Informationssysteme der Fakultät für Ingenieurwissenschaften an der Universität Duisburg-Essen, sowie dem Lehrstuhl für Content Management und Web Technologien an der Bauhaus-Universität Weimar. Ziel des Projekts war die theoretische, methodische und experimentelle Erforschung von Prinzipien der semantischen Clusteranalyse im Information Retrieval. Im Retrieval versprechen Clusteranalyseverfahren unter Anderem eine bessere Unterstützung von Nutzern mit unpräzisen Informationsbedürfnissen bei der Exploration des Informationsraums. Sie leisten im weitesten Sinne die Zerlegung einer gegebenen Objektmenge in Gruppen, die aus den paarweisen Objektähnlichkeiten resultieren, und kombinieren zu diesem Zweck ein Objektmodell, ein Ähnlichkeitsmaß und ein Fusionierungsprinzip. Während zu Projektbeginn der Fokus aktueller Forschung vor allem auf der Fusionierung lag, kann eine Clusteranalyse bei anspruchsvollen Problemen nur erfolgreich sein, wenn die drei Elemente aufeinander abgestimmt sind, und Wissen sowohl über die Analyseaufgabe als auch den Nutzer berücksichtigt wird. Zu den wichtigsten wissenschaftlichen Fortschritten gehören auf theoretischer Ebene die Entwicklung des Optimum Clustering Frameworks (OCF), auf algorithmischer Ebene die Nutzbarmachung von Suchanfragen für Clustering und Labeling sowie deren Formalisierung im Konzept der Keyqueries. Auf Ebene der Evaluierung und Softwaretechnik ist die Entwicklung der Evaluationas-a-Service-Plattform Tira sowie des ezDL-Frameworks für interaktive Suchsysteme herauszuheben. Das OCF stellt erstmals einen theoretisch fundierten Zusammenhang zwischen dem einer Clusteranalyse zugrundeliegenden Ähnlichkeitsmaß, und dem Gütemaß zur Bewertung der Qualität des Clusterings her; auf dieser Grundlage war es nicht nur möglich, den Begriff des „optimalen Clusterings” zu formulieren, sie motiviert für den Retrieval-Kontext auch einen fundierten Zusammenhang zwischen Dokumentähnlichkeit und einer Anfragemenge. Somit bildet das OCF die Grundlage für unsere algorithmischen Beiträge zum Einsatz von Suchanfragen für Clustering und Labeling. Die Idee der Keyqueries – Suchanfragen als Deskriptoren für die Dokumentmengen, die sie im Kontext eines gegebenen Suchindexes zurückliefern – erwies sich in diesem Zusammenhang als besonders fruchtbar. Unsere Fortschritte im Bereich der Evaluierung sind weit über das Projekt hinaus von Bedeutung: Tira hat sich als Evaluation-as-a-Service-Plattform etabliert, und wird zunehmend von Forschern außerhalb unserer eigenen Arbeitsgruppen für reproduzierbare Experimente im Rahmen von Shared Tasks eingesetzt. Für ezDL ist die Nachnutzung als Integrationsplattform und zentrale Benutzerschnittstelle für wissensbasierte Personalisierung im Rahmen eines DFG-Graduiertenkollegs vorgesehen.

Projektbezogene Publikationen (Auswahl)

Beyond Precision@10: Clustering the Long Tail of Web Search Results. In B. Berendt, A. de Vries, W. Fan, C. Macdonald, I. Ounis, and I. Ruthven, editors, 20th ACM International Conference on Information and Knowledge Management (CIKM 2011), pages 2141–2144. ACM, Oct. 2011. ISBN 978-1-4503-0717-8
Stein, Benno; Gollub, Tim & Hoppe, Dennis
Query Segmentation Revisited. In S. Srinivasan, K. Ramamritham, A. Kumar, M. Ravindra, E. Bertino, and R. Kumar, editors, 20th International Conference on World Wide Web (WWW 2011), pages 97–106. ACM, Mar. 2011
Hagen, Matthias; Potthast, Martin; Stein, Benno & Bräutigam, Christof
The optimum clustering framework: Implementing the cluster hypothesis. Information Retrieval, 15:93–115, 2012
Fuhr, Norbert; Lechtenfeld, Marc; Stein, Benno & Gollub, Tim
Decentralized probabilistic text clustering. IEEE Transactions on Knowledge and Data Engineering, 24(10):1848–1861, 2012
Papapetrou, Odysseas; Siberski, Wolf & Fuhr, Norbert
Efﬁcient hierarchical document clustering with a gpu. In Proceedings of the IR Workshop at LWA 2012, Dortmund, Germany, 2012
M. Janc, M. Lechtenfeld, and N. Fuhr
Ousting Ivory Tower Research: Towards a Web Framework for Providing Experiments as a Service. In B. Hersh, J. Callan, Y. Maarek, and M. Sanderson, editors, 35th International ACM Conference on Research and Development in Information Retrieval (SIGIR 2012), pages 1125–1126. ACM, Aug. 2012. ISBN 978-1-4503-1472-5
Gollub, Tim; Stein, Benno & Burrows, Steven
Result clustering supports users with vague information needs. In Proceedings of the 12th Dutch-Belgian Information Retrieval Workshop 2012, Ghent, Belgium, 2012
M. Lechtenfeld and N. Fuhr
From Keywords to Keyqueries: Content Descriptors for the Web. In C. Gurrin, G. Jones, D. Kelly, U. Kruschwitz, M. de Rijke, T. Sakai, and P. Sheridan, editors, 36th International ACM Conference on Research and Development in Information Retrieval (SIGIR 2013), pages 981–984. ACM, July 2013
Gollub, Tim; Hagen, Matthias; Michel, Maximilian & Stein, Benno
Dynamic Taxonomy Composition via Keyqueries. In 14th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL 2014), pages 39–48. ACM/IEEE, Sept. 2014. ISBN 978-1-4799-5569-5
Gollub, Tim; Volske, Michael; Hagen, Matthias & Stein, Benno
ezdl: An interactive IR framework, search tool, and evaluation system. In Professional Search in the Modern World - COST Action IC1002 on Multilingual and Multifaceted Interactive Information Access, pages 118–146, 2014
Beckers, Thomas; Dungs, Sebastian; Fuhr, Norbert; Jordan, Matthias; Kontokotsios, Georgios; Kriewel, Sascha; Paraskeuopoulos, Yiannis & Salampasis, Michail
What Was the Query? Automatically Generating Queries for Document Sets with Applications in Cluster Labeling. In 19th International Conference on Applications of Natural Language to Information Systems (NLDB 2015), volume 9103 of Lecture Notes in Computer Science, pages 124–133, Berlin Heidelberg New York, June 2015. Springer
Hagen, Matthias; Michel, Maximilian & Stein, Benno
Supporting Scholarly Search with Keyqueries. In N. Ferro et al., editors, Advances in Information Retrieval. 38th European Conference on IR Research (ECIR 2016), volume 9626 of Lecture Notes in Computer Science, pages 507–520, Berlin Heidelberg New York, Mar. 2016. Springer
Hagen, Matthias; Beyer, Anna; Gollub, Tim; Komlossy, Kristof & Stein, Benno

Servicenavigation

Hauptnavigation

Semantische Clusteranalyse im Information Retrieval

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Semantische Clusteranalyse im Information Retrieval

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung