Verständnis von Literaturreferenzen in den Sozialwissenschaften (OUTCITE)
Zusammenfassung der Projektergebnisse
Das Projekt Outcite ist eine Initiative zur Verbesserung der Zugänglichkeit und Verknüpfung von Zitationsdaten, insbesondere im Bereich der Sozialwissenschaften. In Erweiterung des früheren EXCITE-Projekts, das Lücken in bibliografischen Datenbanken aufzeigte, konzentriert sich Outcite auf die Verknüpfung von Referenzen, die in bestehenden Datenbanken nicht leicht zu finden sind, wie z. B. unvollständige Zitate und Webressourcen. Im Rahmen des Projekts wurden Werkzeuge entwickelt, um diese „Nicht-Quellen“ zu verarbeiten und ihren Originalquellen zuzuordnen und so die Vollständigkeit der für die Forschung verfügbaren Zitationsdaten zu erhöhen. Das Hauptziel des Projekts war die Entwicklung einer skalierbaren Toolchain, die diese Nicht- Quellen-Elemente genau mit den entsprechenden Quellen verknüpfen kann. Dies beinhaltete mehrere Schlüsselprozesse: (i) Extrahieren der Metadaten und Segmentieren der Referenzen, die in akademischen Volltextdokumenten auftauchen, unter Verwendung verschiedener bereits existierender hochmoderner Tools wie Grobid, Cermine und Anystyle. (ii) Abgleich und Verknüpfung der Referenzen mit den vorhandenen bibliografischen Open-Source-Datensätzen wie SSOAR, GESIS search, DNB collection, sowiport, ArXiv, econbiz, crossref und OpenAlex. (iii) Es wurde eine Deduplizierung durchgeführt, um die Redundanz zu reduzieren und die Vollständigkeit der Referenzen zu erhöhen. (iv) Die Bereitstellung und Verteilung der Ergebnisse durch Einrichtung eines Cron-Jobs zur Ausführung der Pipeline für SSOAR-Dokumente und des Live-Demonstrators für die Öffentlichkeit wurde ebenfalls entwickelt. Bis zum Abschluss des Projekts hat Outcite über 73.000 PDF-Dokumente aus dem SSOAR-Repository verarbeitet und dabei mehr als 3,4 Millionen Referenzen in die GESIS-Suchdatenbank aufgenommen. Etwa 1,74 Millionen dieser Referenzen wurden erfolgreich mit ihren Online-Quellen verknüpft. Die Zitationsdaten wurden zur weiteren Verarbeitung an die OpenCitations-Initiative weitergegeben. Darüber hinaus wurde das Projekt durch die Veröffentlichung von Artikeln über die Forschungsergebnisse verbreitet. Diese wurden auf verschiedenen Workshops und Konferenzen vorgestellt, die während der Projektlaufzeit durchgeführt und besucht wurden.
Projektbezogene Publikationen (Auswahl)
-
Data for: NILK, entity linking dataset targeting NIL-linking cases. DaRUS
Anastasiia Iurshina; Jiaxin Pan; Rafika Boutalbi & Steffen Staab
-
Extracting bibliographic references from footnotes with EXcite-docker. ULITE workshop at JCDL 2022: 26-33
Christian Boulanger & Anastasiia Iurshina
-
Extracting literature references in German Speaking Geography – the GEOcite project. In Proceedings of the Workshop on Understanding LIterature references in academic full TExt (pp. 34–41)
Birkeneder, B.; Aufenvenne, P.; Haase, C.; Mayr, P. & Steinbrink, M.
-
Lattice-based progressive author disambiguation. Information Systems, 109, 102056.
Backes, Tobias & Dietze, Stefan
-
NILK: Entity Linking Dataset Targeting NIL-linking Cases. Proceedings of the 31st ACM International Conference on Information & Knowledge Management, 4069-4073.
Iurshina, Anastasiia; Pan, Jiaxin; Boutalbi, Rafika & Staab, Steffen
-
Proceedings of the Workshop on Understanding LIterature references in academic full TExt. CEUR-WS.org
Backes, T.; Iurshina, A. & Mayr, P.
-
Tensor-based Graph Modularity for Text Data Clustering. Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2227-2231.
Boutalbi, Rafika; Ait-Saada, Mira; Iurshina, Anastasiia; Staab, Steffen & Nadif, Mohamed
-
Towards hierarchical affiliation resolution: framework, baselines, dataset. International Journal on Digital Libraries, 23(3), 267-288.
Backes, Tobias; Hienert, Daniel & Dietze, Stefan
-
Investigating the performance of GROBID and OUTCITE (Version v1). Zenodo.
Pagnotta, O.
-
Partial Orders and Progressive Blocking: A Matching-based Framework for Large-scale Entity Resolution in Bibliographic Data [PhD Thesis, Heinrich-Heine-Universität, Düsseldorf, Germany]
Backes, T.
-
Comparing free reference extraction pipelines. International Journal on Digital Libraries, 25(4), 841-853.
Backes, Tobias; Iurshina, Anastasiia; Shahid, Muhammad Ahsan & Mayr, Philipp
-
Connected Components for Scaling Partial-order Blocking to Billion Entities. Journal of Data and Information Quality, 16(1), 1-29.
Backes, Tobias & Dietze, Stefan
-
olgagolgan/RefEx: RefEx project code (scripts). Zenodo.
Olga Pagnotta
-
NeOn-GPT: A Large Language Model-Powered Pipeline for Ontology Learning. Lecture Notes in Computer Science, 36-50.
Fathallah, Nadeen; Das, Arunav; Giorgis, Stefano De; Poltronieri, Andrea; Haase, Peter & Kovriguina, Liubov
