Detailseite
Projekt Druckansicht

Linked Open Citation Database (LOC-DB) - Erstellen einer Linked Open Data-Datenbank zur Erschließung der Zitationsbeziehungen elektronischer und gedruckter Medien

Fachliche Zuordnung Soziologische Theorie
Förderung Förderung von 2016 bis 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 311018540
 
Erstellungsjahr 2019

Zusammenfassung der Projektergebnisse

Nachdem zunächst das Datenmodell für eine Zitationsdatenbank LOC-DB entwickelt wurde, wurde im nächsten Schritt ein praxisgerechter Workflow für die Zitationserfassung in geschlossenen Korpora und im laufenden Neuzugang entworfen und im Redaktionssystem implementiert. Dabei wurde auf die unterschiedlichen Anforderungen bei der Bearbeitung von gedruckten und elektronischen Medien sowie von Monographien, Sammelwerken und Zeitschriften eingegangen. Mit Abschluss des Projektes ist ein für diese Anforderungen optimierter Workflow dokumentiert und praxiserprobt. Im Backend wurde die grundlegende Infrastruktur für eine Linked Open Citation Database in einer Schichtenarchitektur aus Datenhaltung, Anwendungslogik und Application Programming Interface geschaffen. MongoDB als Datenbank zur Speicherung der Datensätze, Node.js zur Implementierung der Anwendungslogik und ein auf Elasticsearch basierender Suchindex schaffen die Basis für die Workflows. Das Backend agiert als zentrale Komponente und ist neben dem Datenmanagement für die Steuerung der gesamten Kommunikation mit und zwischen den anderen Komponenten innerhalb der Projektarchitektur verantwortlich. Entsprechend wurden Schnittstellen zur Referenzextraktionskomponente, zum Redaktionssystem und zu weiteren externen Datenquellen implementiert. Bei der Evaluation verschiedener Tools zur OCR-Erkennung setzte sich Tesseract mit den besten Ergebnissen durch. Ebenfalls evaluiert wurden verschiedene NER-Tools, hier ging Grobid als am besten geeignet aus dem Verfahren hervor. Alternativ und ergänzend dazu findet eine Layouterkennung statt, hier kommt ein tiefes neuronales Netz zum Einsatz, das im Projektverlauf trainiert wurde. Auf Texterkennung und Layoutanalyse folgte die textbasierte Informationsextraktion zur Gewinnung von Metadaten (Autor, Titel, …). Manuelle Korrekturen, die über das Redaktionssystem eingebracht wurden, konnten die automatische Erkennung von Zitationen verbessern. Mit dem Redaktionssystem wurde ein graphisches Benutzer-Interface entwickelt, mit dem bibliothekarisches Personal die Datenerfassung, die Zitationsverknüpfung und die Bearbeitung von Metadaten so vornehmen kann, wie es der im Projekt entwickelte Workflow vorsieht. Schnittstellen für komplexere Bearbeitungsvorgänge unterstützen die Bearbeitung.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung