Project Details
Projekt Print View

"Questions by St. Anselm about the Lord's Passion" --- digitization, analysis and edition of all German versions (14th-16th c.)

Subject Area Applied Linguistics, Computational Linguistics
Term from 2010 to 2018
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 179943363
 
Final Report Year 2018

Final Report Abstract

Das geförderte Projekt befasste sich mit einem Korpus bestehend aus rund 60 verschiedenen frühneuhochdeutschen Überlieferungsvarianten des Textes “St. Anselmi Fragen an Maria” mit insgesamt rund 400.000 Tokens. Die Varianten unterscheiden sich v.a. bezüglich ihrer Entstehungszeit (14.-16. Jh) und ihres Dialekts (von Oberdeutsch bis Niederdeutsch). Ziel des Projekts war es, mit Hilfe (semi-)automatischer Methoden die Texte auf ihre Gemeinsamkeiten und Unterschiede hin zu untersuchen. Dazu wurde das Korpus zunachst aufbereitet und mit verschiedenen linguistischen Merkmalen angereichert (zwei Normalisierungsebenen, Lemma, Wortart, Flexionsmorphologie). Im zweiten Schritt wurden die Texte auf Basis ihrer Annotationen miteinander verglichen. Dabei kamen verschiedene Verfahren zum Einsatz: Vergleiche basierend auf manuell erstellten Alignierungen; Vergleiche basierend auf linguistischen Profilen bestehend aus Buchstaben-, Phon- bzw. Wortart-Ngrammen; Vergleiche basierend auf Kognaten, die mit Hilfe der normalisierten Wortformen automatisch bestimmt wurden. In der zweiten Studie konnten beispielsweise die Texte bestimmter Sprachräume automatisch korrekt lokalisiert werden. In der dritten Studie wurden automatisch Abbildungsregeln abgeleitet, die charakteristische Unterschiede verschiedener Dialekträume repräsentieren. Schließlich wurde (in Zusammenarbeit mit einem germanistischen Partnerprojekt) der Text in einer digitalen Edition online veröffentlicht, zudem liegt das annotierte Korpus für Suchanfragen über das Korpussuchtool ANNIS bereit und kann in einem XML-Format frei heruntergeladen werden. Weitere Ressourcen, die im Rahmen des Projekts erstellt wurden und frei verfügbar sind, schließen ein: Norma, ein Tool für die Normalisierung historischer Schreibweisen; das Annotationstool CorA; das Tool ANNISvis zur geographischen Visualisierung der Anfrageergebnisse. Die Links zu samtlichen Ressourcen können über die Projekt-Homepage gefunden werden: https: //www.linguistics.rub.de/anselm/.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung