Detailseite
Projekt Druckansicht

Pilotstudie für „Linked Open Research Data“ (LORDpilot): eine LOD-basierte Concept Registry für sozialwissenschaftliche Forschungsdaten

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Empirische Sozialforschung
Förderung Förderung von 2021 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 464413245
 
Erstellungsjahr 2023

Zusammenfassung der Projektergebnisse

Die Nachnutzung von Forschungsdaten ist ein wichtiger Bestandteil der Forschungspraxis in den Sozial- und Wirtschaftswissenschaften. Um geeignete Daten zu finden, brauchen Forschende funktionierende Suchangebote. Eine übergreifende Suche nach Daten wird jedoch durch eine uneinheitliche oder fehlende semantische Erschließung erschwert, weil verschiedene Erhebungsprogramme jeweils eigene Terminologien für die Dokumentation verwenden. Meist fehlt auch eine Verknüpfung der gemessenen theoretischen Konzepte mit den Variablen. Aus Sicht der Nutzenden behindert die Fragmentierung in der Datendokumentation die Datensuche und schränkt deshalb das Forschungspotential existierender Bestände ein. Die Herausforderung liegt deshalb in der konzeptorientierten Erschließung von Daten. Weil eine semantische Modellbildung für die inhaltliche Erschließung bislang fehlt, werden ein Prozess und eine Technologie für eine einheitliche, semantische Indexierung der Forschungsdaten benötigt. Die LORD-Infrastruktur soll diese Lücke schließen. Ziel des Projektes ‚LORDpilot‘ war es, die Machbarkeit einer Concept Registry für die Sozialwissenschaften zu prüfen. Dazu wurden im Pilotprojekt ein Datenmodell und eine benutzerfreundliche Eingabemaske (AnnoTool) entwickelt, mit deren Hilfe für eine Auswahl von Messinstrumenten aus drei großen Umfragen (ALLBUS, nacaps, SOEP) Fragen bzw. Variablen mit theoretischen Konzepten verknüpft (d.h. annotiert) wurden. Für die technische Umsetzung wurden Standards des Semantic Web verwendet. Durch die Verknüpfung der Konzepte mit Deskriptoren aus dem SCOS-konformen „Thesaurus Sozialwissenschaften“ (TheSoz) wird die Suche in der Konzeptdatenbank unterstützt und das Konzeptvokabular direkt in die Linked Open Data (LOD) Cloud integriert. Die Verknüpfungen wurden in Form von RDF-Triples erstellt und in einem Triple-Store mit SPARQL-Endpunkt zugänglich gemacht. Für die Evaluation des Verfahrens wurden die ausgewählten Messinstrumente der drei Befragungen von jedem der beteiligten Projektpartner annotiert (d.h. Fragen und Variablen mit Konzepten beschrieben) und anschließend die Passung von Frage und Konzept von Fachexperten bewertet. Die Auswertung dieser Testannotationen zeigt, dass (1) die Annotationen verschiedener Annotatoren eine hohe Übereinstimmung aufweisen, (2) die Konzepte von den Fachexperten überwiegend als zur Messintention passend bewertet werden und (3) über die vergebenen Konzepte konzeptionelle Zusammenhänge über die Datensätze hinweg sichtbar werden. Allerdings zeigt die Auswertung auch, dass die Verwendung marginal unterschiedlicher Konzeptbegriffe irrelevante Heterogenität im Konzeptvokabular erzeugt. Die Pilotstudie hat gezeigt, dass die im Antrag skizzierte Infrastruktur realisierbar ist, wenn die Redundanz im Konzeptvokabular begrenzt wird, z.B. indem durch algorithmische Unterstützung bei der Annotation passende Begrifflichkeiten vorgeschlagen werden.

Link zum Abschlussbericht

https://zenodo.org/records/11047523

Projektbezogene Publikationen (Auswahl)

  • "Linked Open Research Data for Social Science - a concept registry for granular data documentation." ODISSEI Conference 2023, Utrecht, 2023-11-02
    Siegers et al.
  • "Linked Open Research Data for Social Science – a concept registry for granular data documentation." European Survey Research Association (ESRA) 2023 Conference, Milan, 2023-07-18
    Nebelin et al.
  • Linked Open Research Data for Social Science – a concept registry for granular data documentation. IASSIST Conference 2023, virtual, 2023-05-31.
    Siegers et al.
  • Linked Open Research Data for Social Science. Proceedings of the Conference on Research Data Infrastructure, 1.
    Siegers, Pascal; May, Antonia; Saalbach, Claudia; Nebelin, Jana; Kern, Dagmar; Daniel, Andreas; Zapilko, Ben; Momeni, Fakhri; Wenzig, Knut & Goebel, Jan
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung