Detailseite
Projekt Druckansicht

Verständnis von Literaturreferenzen in den Sozialwissenschaften (OUTCITE)

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung Förderung von 2016 bis 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 293069437
 
Erstellungsjahr 2024

Zusammenfassung der Projektergebnisse

Das Projekt Outcite ist eine Initiative zur Verbesserung der Zugänglichkeit und Verknüpfung von Zitationsdaten, insbesondere im Bereich der Sozialwissenschaften. In Erweiterung des früheren EXCITE-Projekts, das Lücken in bibliografischen Datenbanken aufzeigte, konzentriert sich Outcite auf die Verknüpfung von Referenzen, die in bestehenden Datenbanken nicht leicht zu finden sind, wie z. B. unvollständige Zitate und Webressourcen. Im Rahmen des Projekts wurden Werkzeuge entwickelt, um diese „Nicht-Quellen“ zu verarbeiten und ihren Originalquellen zuzuordnen und so die Vollständigkeit der für die Forschung verfügbaren Zitationsdaten zu erhöhen. Das Hauptziel des Projekts war die Entwicklung einer skalierbaren Toolchain, die diese Nicht- Quellen-Elemente genau mit den entsprechenden Quellen verknüpfen kann. Dies beinhaltete mehrere Schlüsselprozesse: (i) Extrahieren der Metadaten und Segmentieren der Referenzen, die in akademischen Volltextdokumenten auftauchen, unter Verwendung verschiedener bereits existierender hochmoderner Tools wie Grobid, Cermine und Anystyle. (ii) Abgleich und Verknüpfung der Referenzen mit den vorhandenen bibliografischen Open-Source-Datensätzen wie SSOAR, GESIS search, DNB collection, sowiport, ArXiv, econbiz, crossref und OpenAlex. (iii) Es wurde eine Deduplizierung durchgeführt, um die Redundanz zu reduzieren und die Vollständigkeit der Referenzen zu erhöhen. (iv) Die Bereitstellung und Verteilung der Ergebnisse durch Einrichtung eines Cron-Jobs zur Ausführung der Pipeline für SSOAR-Dokumente und des Live-Demonstrators für die Öffentlichkeit wurde ebenfalls entwickelt. Bis zum Abschluss des Projekts hat Outcite über 73.000 PDF-Dokumente aus dem SSOAR-Repository verarbeitet und dabei mehr als 3,4 Millionen Referenzen in die GESIS-Suchdatenbank aufgenommen. Etwa 1,74 Millionen dieser Referenzen wurden erfolgreich mit ihren Online-Quellen verknüpft. Die Zitationsdaten wurden zur weiteren Verarbeitung an die OpenCitations-Initiative weitergegeben. Darüber hinaus wurde das Projekt durch die Veröffentlichung von Artikeln über die Forschungsergebnisse verbreitet. Diese wurden auf verschiedenen Workshops und Konferenzen vorgestellt, die während der Projektlaufzeit durchgeführt und besucht wurden.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung