Deutsches Textarchiv (DTA) - Aufbau eines Aktiven Archivs deutscher Texte und Entwicklung entsprechender Werkzeuge
Zusammenfassung der Projektergebnisse
Das Deutsche Textarchiv (DTA), angesiedelt am "Zentrum Sprache" der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW), wurde von 2007 bis 2016 von der DFG gefördert. Ziel war zunächst die Erstellung eines Disziplin- und Gattungs-übergreifenden Grundbestands von etwa 1.500 deutschsprachigen Texten aus dem Zeitraum von ca. 1600 bis etwa 1900 (des sog. "DTA-Kernkorpus"). Zudem sollte die DTA-Infrastruktur von vornherein als 'aktives Archiv' konzipiert werden, sodass auch Textressourcen aus anderen Projektkontexten als Erweiterungskorpora integriert werden können. Beide Ziele wurden erreicht; mit Stand vom Februar 2018 umfasst das DTA mit Kern- und Erweiterungskorpus sowie weiteren angegliederten Spezialkorpora mehr als 4.700 Dokumente mit über 1,1 Mio. Seiten und ca. 340 Mio. Tokens. Das Deutsche Textarchiv (DTA) bildet damit das größte existierende, zusammenhängende Korpus des historischen Neuhochdeutschen. Die im DTA enthaltenen Texte wurden in der Regel manuell erfasst und entsprechend den P5-Richtlinien der Text Encoding Initiative (TEI-P5) hinsichtlich von Textgliederungsmerkmalen ausgezeichnet. Grundlage für die Auszeichnung bildet als TEI-Dialekt das DTA-Basisformat (DTABf). Sämtliche Texte des DTA durchlaufen außerdem vollautomatisch eine Reihe linguistischer Verarbeitungsschritte, die die Satzsegmentierung, Tokenisierung, Lemmatisierung, Modernisierung historischer Schreibweisen sowie das Part-of-Speech-Tagging umfassen. Die Indexierung durch eine linguistische Suchmaschine ermöglicht komplexe Abfragen sowie die Durchführung diachroner Frequenz- und Kollokationsanalysen. Die Qualitätssicherung und Korrektur der Transkriptionen und Annotationen findet webbasiert und kollaborativ in der Plattform DTAQ statt (Feb. 2019: 1.688 registrierte Accounts). Das DTA hat sich nicht nur als Anlaufstelle für die Aufnahme qualitativ hochwertiger historischer Volltexte, sondern auch als eine von vielen genutzte Plattform zur Produktion, Kuration, Publikation, Analyse und Nachnutzung umfangreicher historischer Korpusdaten etabliert. Kooperationen mit mehr als dreißig Forschungsprojekten, meist mit Drittmittel-Förderung (DFG, BMBF, Akademieprogramm u. a.), gelegentlich auch aus unabhängigen Initiativen konnten durchgeführt werden. Inhaltlich umfassten diese die Übernahme von Daten aus gänzlich externen Vorhaben wie auch die direkte Kooperation bei der Digitalisierung. Entscheidend für die Integration heterogener Datenbestände in die DTA- bzw. CLARIN-Infrastruktur sind einheitliche Richtlinien zur Textaufbereitung und die einheitliche Textkodierung im DTABf. Das DTABf wurde ursprünglich für den gedruckten, vorwiegend monographischen Kernbestand des DTA entwickelt, wurde jedoch mittlerweile um Spezialtagsets für Zeitungen, Funeral-Schriften und Manuskripte erweitert. Das Format wird bereits in zahlreichen, auch DTA-externen Vorhaben nachgenutzt und wird inzwischen von CLARIN-D und der DFG empfohlen. Auch nach Abschluss der DFG-Förderung wird die DTA-Plattform weiter aktiv genutzt. Die weitere Dissemination und langfristige Verfügbarkeit der DTA-Korpora, der Erhalt und die Weiterentwicklung der technischen Komponenten und Formate sowie schließlich die weitergeführte Kuratierung von Textressourcen wird derzeit durch das CLARIN-Servicezentrum der BBAW (gefördert durch das BMBF) gewährleistet. Nicht zuletzt gehen die Bestände des DTA auch in das gleichfalls vom BMBF geförderte "Zentrum für digitale Lexikographie des Deutschen (ZDL)", das am 01.01.2019 eröffnet wurde, ein.
Projektbezogene Publikationen (Auswahl)
-
More than Words: Using Token Context to Improve Canonicalization of Historical German. In: Journal for Language Technology and Computational Linguistics (JLCL), vol. 25/1, 2010, S. 23–39
Bryan Jurish
-
TEI und Textkorpora: Fehlerklassifikation und Qualitätskontrolle vor, während und nach der Texterfassung im Deutschen Textarchiv. In: Jahrbuch für Computerphilologie – online, 2012
Alexander Geyken, Susanne Haaf, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand
-
Constructing a canonicalized corpus of historical German by text alignment. In: Paul Bennett, Martin Durrell, Silke Scheible, and Richard J. Whitt (Hgg.): New Methods in Historical Corpora, volume 3 of Corpus Linguistics and Interdisciplinary Perspectives on Language (CLIP). Tübingen: Narr, 2013, S. 221–234
Bryan Jurish, Marko Drotschmann, Henriette Ast
-
Word and Sentence Tokenization with Hidden Markov Models. In: Journal for Language Technology and Computational Linguistics (JLCL), vol. 28/2, 2013, S. 61–83
Bryan Jurish, Kay-Michael Würzner
-
A living text archive of 15th-19th-century German. Corpus strategies, technology, organization. In: Jost Gippert/Ralf Gehrke (Hrsg.): Historical Corpora. Challenges and Perspectives. Tübingen 2015, S. 165–180
Alexander Geyken, Thomas Gloning
-
Making great work even better. Appraisal and digital curation of widely dispersed electronic textual resources (c. 15th–19th centuries) in CLARIN-D. In: Jost Gippert/Ralf Gehrke (Hrsg.): Historical Corpora. Challenges and Perspectives. Tübingen 2015, S. 181–196
Christian Thomas, Frank Wiegand
-
The DTA “Base Format”: A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sources, In: Journal of the Text Encoding Initiative (jTEI) [Online], Issue 8 | 2014–2015
Susanne Haaf, Alexander Geyken, Frank Wiegand
-
Using an alignment-based lexicon for canonicalization of historical text. In: Jost Gippert/Ralf Gehrke (Hrsg.): Historical Corpora. Challenges and Perspectives. Tübingen 2015, S. 197–208
Bryan Jurish, Henriette Ast
-
DiaCollo: diachronen Kollokationen auf der Spur. In: DHd 2016: Modellierung – Vernetzung – Visualisierung, (Leipzig, 7.–12. März, 2016), 2016, S. 172–175
Bryan Jurish, Alexander Geyken, Thomas Werneke
-
Die Historischen Korpora des Deutschen Textarchivs als Grundlage für sprachgeschichtliche Forschungen. In: Holger Runow/Volker Harm/Levke Schiwek (Hgg.): Sprachgeschichte des Deutschen: Positionierungen in Forschung, Studium, Schule. Stuttgart: Hirzel, 2016, S. 217–234
Susanne Haaf, Christian Thomas
-
Enabling the Encoding of Manuscripts within the DTABf: Extension and Modularization of the Format. In: Journal of the Text Encoding Initiative (jTEI) 10 | 2016
Susanne Haaf, Christian Thomas
-
Tools, Toys, and Filters. In: Rechtsgeschichte – Legal History Rg 24, S. 347–348, 2016
Bryan Jurish