Linked Open Citation Database (LOC-DB) - Erstellen einer Linked Open Data-Datenbank zur Erschließung der Zitationsbeziehungen elektronischer und gedruckter Medien

Antragstellerinnen / Antragsteller Professor Dr. Andreas Dengel; Professor Dr. Kai Eckert; Dr. Sabine Gehrlein, seit 9/2017; Professor Dr. Ansgar Scherp

Fachliche Zuordnung Soziologische Theorie

Förderung Förderung von 2016 bis 2019

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 311018540

Erstellungsjahr 2019

Zusammenfassung der Projektergebnisse

Nachdem zunächst das Datenmodell für eine Zitationsdatenbank LOC-DB entwickelt wurde, wurde im nächsten Schritt ein praxisgerechter Workflow für die Zitationserfassung in geschlossenen Korpora und im laufenden Neuzugang entworfen und im Redaktionssystem implementiert. Dabei wurde auf die unterschiedlichen Anforderungen bei der Bearbeitung von gedruckten und elektronischen Medien sowie von Monographien, Sammelwerken und Zeitschriften eingegangen. Mit Abschluss des Projektes ist ein für diese Anforderungen optimierter Workflow dokumentiert und praxiserprobt. Im Backend wurde die grundlegende Infrastruktur für eine Linked Open Citation Database in einer Schichtenarchitektur aus Datenhaltung, Anwendungslogik und Application Programming Interface geschaffen. MongoDB als Datenbank zur Speicherung der Datensätze, Node.js zur Implementierung der Anwendungslogik und ein auf Elasticsearch basierender Suchindex schaffen die Basis für die Workflows. Das Backend agiert als zentrale Komponente und ist neben dem Datenmanagement für die Steuerung der gesamten Kommunikation mit und zwischen den anderen Komponenten innerhalb der Projektarchitektur verantwortlich. Entsprechend wurden Schnittstellen zur Referenzextraktionskomponente, zum Redaktionssystem und zu weiteren externen Datenquellen implementiert. Bei der Evaluation verschiedener Tools zur OCR-Erkennung setzte sich Tesseract mit den besten Ergebnissen durch. Ebenfalls evaluiert wurden verschiedene NER-Tools, hier ging Grobid als am besten geeignet aus dem Verfahren hervor. Alternativ und ergänzend dazu findet eine Layouterkennung statt, hier kommt ein tiefes neuronales Netz zum Einsatz, das im Projektverlauf trainiert wurde. Auf Texterkennung und Layoutanalyse folgte die textbasierte Informationsextraktion zur Gewinnung von Metadaten (Autor, Titel, …). Manuelle Korrekturen, die über das Redaktionssystem eingebracht wurden, konnten die automatische Erkennung von Zitationen verbessern. Mit dem Redaktionssystem wurde ein graphisches Benutzer-Interface entwickelt, mit dem bibliothekarisches Personal die Datenerfassung, die Zitationsverknüpfung und die Bearbeitung von Metadaten so vornehmen kann, wie es der im Projekt entwickelte Workflow vorsieht. Schnittstellen für komplexere Bearbeitungsvorgänge unterstützen die Bearbeitung.

Projektbezogene Publikationen (Auswahl)

DeepBIBX: Deep Learning for Image Based Bibliographic Data Extraction. In: Liu D., Xie S., Li Y., Zhao D., El-Alfy ES. (eds) Neural Information Processing. ICONIP 2017. Lecture Notes in Computer Science, vol. 10635. Springer, Cham
Bhardwaj, Akansha; Mercier, Dominik; Dengel, Andreas & Ahmed, Sheraz
Investigating convolutional networks and domain-specific embeddings for semantic classification of citations. In: Proceedings of WOSP 2017 Toronto
Lauscher, Anne; Glavaš, Goran; Ponzetto, Simone Paolo & Eckert, Kai
University of Mannheim @ CLSciSumm-17: Citation-Based Summarization of Scientific Articles Using Semantic Textual Similarity. In: 2nd Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural Language Processing for Digital Libraries 2017
Lauscher, Anne; Glavaš, Goran; Eckert, Kai
Von der Schneeflocke zur Lawine: Möglichkeiten der Nutzung freier Zitationsdaten in Bibliotheken. In: o-bib. Das offene Bibliotheksjournal / herausgegeben vom VDB, vol. 4, n. 4, p. 127-136
Klein, Annette
Linked Open Citation Database: Enabling Libraries to Contribute to an Open and Interconnected Citation Graph. In: Proceedings of the 18th ACM/IEEE on Joint Conference on Digital Libraries, p. 109-118. ACM, 2018
Lauscher, Anne; Eckert, Kai; Galke, Lukas; Scherp, Ansgar; Rizvi, Syed Tahseen Raza; Ahmed, Sheraz; Dengel, Andreas; Zumstein, Philipp & Klein, Annette
Multi-Model Adversarial Autoencoders for Recommendations of Citations and Subject Labels. In: Proceedings of the 26th Conference on User Modeling, Adaptation and Personalization 2018
Galke, Lukas; Mai, Florian; Vagliano, Iacopo & Scherp, Ansgar
Using Adversarial Autoencoders for Multi-Modal Automatic Playlist Continuation. In: Proceedings of the ACM Recommender Systems Challenge 2018
Vagliano, Iacopo; Galke, Lukas; Mai, Florian & Scherp, Ansgar

Servicenavigation

Hauptnavigation

Linked Open Citation Database (LOC-DB) - Erstellen einer Linked Open Data-Datenbank zur Erschließung der Zitationsbeziehungen elektronischer und gedruckter Medien

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Linked Open Citation Database (LOC-DB) - Erstellen einer Linked Open Data-Datenbank zur Erschließung der Zitationsbeziehungen elektronischer und gedruckter Medien

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung