"St. Anselmi Fragen an Maria" - digitale Erschließung, Auswertung und Edition der gesamten deutschsprachigen Überlieferung (14.-16. Jh.)
Zusammenfassung der Projektergebnisse
Das geförderte Projekt befasste sich mit einem Korpus bestehend aus rund 60 verschiedenen frühneuhochdeutschen Überlieferungsvarianten des Textes “St. Anselmi Fragen an Maria” mit insgesamt rund 400.000 Tokens. Die Varianten unterscheiden sich v.a. bezüglich ihrer Entstehungszeit (14.-16. Jh) und ihres Dialekts (von Oberdeutsch bis Niederdeutsch). Ziel des Projekts war es, mit Hilfe (semi-)automatischer Methoden die Texte auf ihre Gemeinsamkeiten und Unterschiede hin zu untersuchen. Dazu wurde das Korpus zunachst aufbereitet und mit verschiedenen linguistischen Merkmalen angereichert (zwei Normalisierungsebenen, Lemma, Wortart, Flexionsmorphologie). Im zweiten Schritt wurden die Texte auf Basis ihrer Annotationen miteinander verglichen. Dabei kamen verschiedene Verfahren zum Einsatz: Vergleiche basierend auf manuell erstellten Alignierungen; Vergleiche basierend auf linguistischen Profilen bestehend aus Buchstaben-, Phon- bzw. Wortart-Ngrammen; Vergleiche basierend auf Kognaten, die mit Hilfe der normalisierten Wortformen automatisch bestimmt wurden. In der zweiten Studie konnten beispielsweise die Texte bestimmter Sprachräume automatisch korrekt lokalisiert werden. In der dritten Studie wurden automatisch Abbildungsregeln abgeleitet, die charakteristische Unterschiede verschiedener Dialekträume repräsentieren. Schließlich wurde (in Zusammenarbeit mit einem germanistischen Partnerprojekt) der Text in einer digitalen Edition online veröffentlicht, zudem liegt das annotierte Korpus für Suchanfragen über das Korpussuchtool ANNIS bereit und kann in einem XML-Format frei heruntergeladen werden. Weitere Ressourcen, die im Rahmen des Projekts erstellt wurden und frei verfügbar sind, schließen ein: Norma, ein Tool für die Normalisierung historischer Schreibweisen; das Annotationstool CorA; das Tool ANNISvis zur geographischen Visualisierung der Anfrageergebnisse. Die Links zu samtlichen Ressourcen können über die Projekt-Homepage gefunden werden: https: //www.linguistics.rub.de/anselm/.
Projektbezogene Publikationen (Auswahl)
-
CorA: A web-based annotation tool for historical and other non-standard language data. In Proceedings of the EACL Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH), pages 86–90, Gothenburg, Sweden, 2014
Marcel Bollmann, Florian Petran, Stefanie Dipper, and Julia Krasselt
-
Creating synopses of ‘parallel’ historical manuscripts and early prints. Alignment guidelines, evaluation, and applications. In Historical Corpora, Challenges and Perspectives, number 5 in CLIP. Narr, Tübingen, 2015
Stefanie Dipper, Julia Krasselt, and Simone Schultz-Balluff
-
Evaluating inter-annotator agreement on historical spelling normalization. In Proceedings of the ACL Linguistic Annotation Workshop (LAW X), Berlin, 2016
Marcell Bollmann, Stefanie Dipper, and Florian Petran
-
Geographical visualization of search results in historical corpora. In Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH), pages 94–100, Osaka, Japan, 2016
Florian Petran
-
Improving historical spelling normalization with bi-directional LSTMs and multi-task learning. In Proceedings of the 26th International Conference on Computational Linguistics (COLING), Osaka, Japan, 2016
Marcel Bollmann and Anders Søgaard
-
Investigating diatopic variation in a historical corpus. In Proceedings of the Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial), pages 36–45, EACL, Valencia, Spain, 2017
Stefanie Dipper and Sandra Waldenberger
-
Learning attention for historical text normalization by learning to pronounce. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 332–344, Vancouver, Canada, 2017
Marcel Bollmann, Joachim Bingel, and Anders Søgaard
-
Normalization of Historical Texts with Neural Network Models. PhD thesis, Ruhr-Universität Bochum, 2018. Published in: Bochumer Linguistische Arbeitspapiere (BLA), vol. 22
Marcel Bollmann