Zentrum für Nachhaltigkeit linguistischer Daten
Zusammenfassung der Projektergebnisse
Wie kann man nachhaltig wissenschaftliche Daten erzeugen, aufbereiten, auswerten, und auffinden? Sollen Datenbestände, die in der Fachwissenschaft erzeugt und verarbeitet werden, in den fachwissenschaftlichen Abteilungen gespeichert und zugänglich gemacht werden, oder können hier bestehende, fachübergreifende Infrastruktureinrichtungen in die Verantwortung gezogen werden? Die zunehmende Bedeutung eines nachhaltigen Umgangs mit Forschungsprimärdaten stellt die Fachwissenschaften und den bestehenden bzw. neu entstehenden Infrastruktureinrichtungen vor neue Herausforderungen. Das NaLiDa Projekt ist an der Schnittstelle von forschungsnahen und generischen Infrastrukturen verortet. In der ersten Förderphase (2010-2012) hat das Seminar für Sprachwissenschaft eine fachwissenschaftliche Infrastruktur aufgebaut. In der zweiten Förderphase (Berichtszeitraum) ist das SfS nun eine Projektpartnerschaft mit dem IKM, der zentralen Infrastruktureinrichtung der Universität Tübingen, eingegangen. Ziel war es, mögliche Übergänge zwischen fachbezogenen Lösungen und generischen Infrastrukturen, Arbeitsabläufen und Werkzeugen auszuloten. Von dieser Zusammenarbeit haben alle Projektpartner (Fachwissenschaft, Bibliothek, Rechenzentrum) stark profitiert. Eine adäquate Beschreibung von Forschungsprimärdaten mithilfe von Metadaten ist notwendig, um sie anderen Wissenschaftlern zugänglich zu machen. Wissenschaftliche Daten müssen nicht nur auffindbar, sondern auch weiterverarbeitbar sein. Aus fachwissenschaftlicher Sicht sind hierzu ein ausdrucksstarkes Metadatenformat und die Mithilfe des Wissenschaftlers als Datenerzeuger und -beschreiber notwendig. Aus Sicht des Bibliothekars wird die Auffindbarkeit von Daten durch den Nachweis in Bibliothekskatalogen gewährleistet; hier ist ein generisches und standardisiertes Metadatenformat wie MARC 21 zu verwenden. Im NaLiDa-Projekt wurden Konvertierungswerkzeuge entwickelt, die das fachspezifische Metadatenformat (CMDI) in das bibliographische Format MARC 21 überführt und dabei den (unvermeidlichen) Informationsverlust minimiert. CMDI profitierte von dieser Abbildung, da es nun, wann immer möglich, standardisierte Referenzen auf Personen, Institutionen und Orte verwendet und auf Normdateien der Bibliothekswelt zurückgreift. Das nachhaltige Management von Forschungsprimärdaten fängt bereits bei ihrer Erzeugung an. Wissenschaftler müssen frühzeitig mit Infrastruktureinrichtungen in Kontakt treten, und den gesamten Lebenszyklus der Daten betrachten. Im NaLiDa Projekt wurde der Erstkontakt zum Wissenschaftler durch die fachbezogene Infrastruktureinrichtung gewährleistet. Hier scheint ein immenses Maß an Fachwissen und Beratung nötig zu sein, z.B. wenn es um die Auszeichnung mit Metadaten, Datenformate, und Rechtemanagement geht. Im NaLiDa Projekt haben wir nun ein Werkzeug zur Erstellung von Datenmanagementplänen entwickelt, der Wissenschaftler mit einem Fragenkatalog zu allen Aspekten des Datenmanagements konfrontiert. Das Werkzeug leistet somit eine gewisse Erstberatung und stellt auch Kontaktmöglichkeiten zu Infrastruktureinrichtungen bereit. Wie können existierende Datenbestände aus fachbezogenen Repositorien in generische Infrastrukturen eingepflegt werden und dort langfristig vorgehalten und zugänglich gemacht werden? Im NaLiDa Projekt wurde ein Migrationskonzept ausgearbeitet, dass mögliche Hindernisse skizziert und Lösungswege aufzeigt. Metadatenformate können ineinander konvertiert, Rechte zur Authentifizierung und Autorisierung von einem in das andere System abgebildet, und persistente Identifikatoren auf andere umgelenkt werden. Summa summarum leistete das NaLiDa Projekt mit seiner Arbeit einen wichtigen Beitrag zum nachhaltigen Umgang mit Forschungsprimärdaten an den wichtigen Schaltstellen universitärer Einrichtungen.
Projektbezogene Publikationen (Auswahl)
- DMPTY - A Wizard For Generating Data Management Plans, CLARIN Annual Conference, Wroclaw (Poland), 2015
Thorsten Trippel und Claus Zinn
- Crosswalking from CMDI to Dublin Core and MARC 21, 10th. edition of the Language Resources and Evaluation Conference (LREC), 2016
Claus Zinn, Thorsten Trippel, Steve Kaminski, und Emanuel Dima
- DMPTY -- A Wizard For Generating Data Management Plans. Accepted for the Selected (full) papers of the CLARIN Annual Conference (2015). Linköping University Electronic Press, 2016
Thorsten Trippel und Claus Zinn
- Enhancing the Quality of Metadata by using Authority Control. Accepted for the 5th. Workshop on Linked Data in Linguistics: Managing, Building and Using Linked Language Resources (LREC workshop), 2016
Claus Zinn, Thorsten Trippel