"Questions by St. Anselm about the Lord's Passion" --- digitization, analysis and edition of all German versions (14th-16th c.)

Applicant Professorin Dr. Stefanie Dipper

Subject Area Applied Linguistics, Computational Linguistics

Term from 2010 to 2018

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 179943363

Final Report Year 2018

Final Report Abstract

Das geförderte Projekt befasste sich mit einem Korpus bestehend aus rund 60 verschiedenen frühneuhochdeutschen Überlieferungsvarianten des Textes “St. Anselmi Fragen an Maria” mit insgesamt rund 400.000 Tokens. Die Varianten unterscheiden sich v.a. bezüglich ihrer Entstehungszeit (14.-16. Jh) und ihres Dialekts (von Oberdeutsch bis Niederdeutsch). Ziel des Projekts war es, mit Hilfe (semi-)automatischer Methoden die Texte auf ihre Gemeinsamkeiten und Unterschiede hin zu untersuchen. Dazu wurde das Korpus zunachst aufbereitet und mit verschiedenen linguistischen Merkmalen angereichert (zwei Normalisierungsebenen, Lemma, Wortart, Flexionsmorphologie). Im zweiten Schritt wurden die Texte auf Basis ihrer Annotationen miteinander verglichen. Dabei kamen verschiedene Verfahren zum Einsatz: Vergleiche basierend auf manuell erstellten Alignierungen; Vergleiche basierend auf linguistischen Profilen bestehend aus Buchstaben-, Phon- bzw. Wortart-Ngrammen; Vergleiche basierend auf Kognaten, die mit Hilfe der normalisierten Wortformen automatisch bestimmt wurden. In der zweiten Studie konnten beispielsweise die Texte bestimmter Sprachräume automatisch korrekt lokalisiert werden. In der dritten Studie wurden automatisch Abbildungsregeln abgeleitet, die charakteristische Unterschiede verschiedener Dialekträume repräsentieren. Schließlich wurde (in Zusammenarbeit mit einem germanistischen Partnerprojekt) der Text in einer digitalen Edition online veröffentlicht, zudem liegt das annotierte Korpus für Suchanfragen über das Korpussuchtool ANNIS bereit und kann in einem XML-Format frei heruntergeladen werden. Weitere Ressourcen, die im Rahmen des Projekts erstellt wurden und frei verfügbar sind, schließen ein: Norma, ein Tool für die Normalisierung historischer Schreibweisen; das Annotationstool CorA; das Tool ANNISvis zur geographischen Visualisierung der Anfrageergebnisse. Die Links zu samtlichen Ressourcen können über die Projekt-Homepage gefunden werden: https: //www.linguistics.rub.de/anselm/.

Publications

CorA: A web-based annotation tool for historical and other non-standard language data. In Proceedings of the EACL Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH), pages 86–90, Gothenburg, Sweden, 2014
Bollmann, Marcel; Petran, Florian; Dipper, Stefanie & Krasselt, Julia
Creating synopses of ‘parallel’ historical manuscripts and early prints. Alignment guidelines, evaluation, and applications. In Historical Corpora, Challenges and Perspectives, number 5 in CLIP. Narr, Tübingen, 2015
Stefanie Dipper, Julia Krasselt, and Simone Schultz-Balluff
Evaluating inter-annotator agreement on historical spelling normalization. In Proceedings of the ACL Linguistic Annotation Workshop (LAW X), Berlin, 2016
Bollmann, Marcel; Dipper, Stefanie & Petran, Florian
Geographical visualization of search results in historical corpora. In Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH), pages 94–100, Osaka, Japan, 2016
Florian Petran
Improving historical spelling normalization with bi-directional LSTMs and multi-task learning. In Proceedings of the 26th International Conference on Computational Linguistics (COLING), Osaka, Japan, 2016
Marcel Bollmann and Anders Søgaard
Investigating diatopic variation in a historical corpus. In Proceedings of the Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial), pages 36–45, EACL, Valencia, Spain, 2017
Dipper, Stefanie & Waldenberger, Sandra
Learning attention for historical text normalization by learning to pronounce. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 332–344, Vancouver, Canada, 2017
Bollmann, Marcel; Bingel, Joachim & Søgaard, Anders
Normalization of Historical Texts with Neural Network Models. PhD thesis, Ruhr-Universität Bochum, 2018. Published in: Bochumer Linguistische Arbeitspapiere (BLA), vol. 22
Marcel Bollmann

Servicenavigation

Hauptnavigation

"Questions by St. Anselm about the Lord's Passion" --- digitization, analysis and edition of all German versions (14th-16th c.)

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

"Questions by St. Anselm about the Lord's Passion" --- digitization, analysis and edition of all German versions (14th-16th c.)

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung