Project Details
Projekt Print View

Linked Open Citation Database (LOC-DB) - Development of a Linked Open Data database for the indexing of citations of electronic and print media

Subject Area Sociological Theory
Term from 2016 to 2019
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 311018540
 
Final Report Year 2019

Final Report Abstract

Nachdem zunächst das Datenmodell für eine Zitationsdatenbank LOC-DB entwickelt wurde, wurde im nächsten Schritt ein praxisgerechter Workflow für die Zitationserfassung in geschlossenen Korpora und im laufenden Neuzugang entworfen und im Redaktionssystem implementiert. Dabei wurde auf die unterschiedlichen Anforderungen bei der Bearbeitung von gedruckten und elektronischen Medien sowie von Monographien, Sammelwerken und Zeitschriften eingegangen. Mit Abschluss des Projektes ist ein für diese Anforderungen optimierter Workflow dokumentiert und praxiserprobt. Im Backend wurde die grundlegende Infrastruktur für eine Linked Open Citation Database in einer Schichtenarchitektur aus Datenhaltung, Anwendungslogik und Application Programming Interface geschaffen. MongoDB als Datenbank zur Speicherung der Datensätze, Node.js zur Implementierung der Anwendungslogik und ein auf Elasticsearch basierender Suchindex schaffen die Basis für die Workflows. Das Backend agiert als zentrale Komponente und ist neben dem Datenmanagement für die Steuerung der gesamten Kommunikation mit und zwischen den anderen Komponenten innerhalb der Projektarchitektur verantwortlich. Entsprechend wurden Schnittstellen zur Referenzextraktionskomponente, zum Redaktionssystem und zu weiteren externen Datenquellen implementiert. Bei der Evaluation verschiedener Tools zur OCR-Erkennung setzte sich Tesseract mit den besten Ergebnissen durch. Ebenfalls evaluiert wurden verschiedene NER-Tools, hier ging Grobid als am besten geeignet aus dem Verfahren hervor. Alternativ und ergänzend dazu findet eine Layouterkennung statt, hier kommt ein tiefes neuronales Netz zum Einsatz, das im Projektverlauf trainiert wurde. Auf Texterkennung und Layoutanalyse folgte die textbasierte Informationsextraktion zur Gewinnung von Metadaten (Autor, Titel, …). Manuelle Korrekturen, die über das Redaktionssystem eingebracht wurden, konnten die automatische Erkennung von Zitationen verbessern. Mit dem Redaktionssystem wurde ein graphisches Benutzer-Interface entwickelt, mit dem bibliothekarisches Personal die Datenerfassung, die Zitationsverknüpfung und die Bearbeitung von Metadaten so vornehmen kann, wie es der im Projekt entwickelte Workflow vorsieht. Schnittstellen für komplexere Bearbeitungsvorgänge unterstützen die Bearbeitung.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung