Detailseite
Nordmansischer Korpus (NOMAC): 100+ Jahre Nordmansisch in einem diachronen Korpus
Antragstellerin
Professorin Ksenia Shagal, Ph.D.
Fachliche Zuordnung
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Angewandte Sprachwissenschaften, Computerlinguistik
Angewandte Sprachwissenschaften, Computerlinguistik
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 568769695
Das Projekt NOMAC (Northern Mansi Corpus) wird ein frei zugängliches diachrones Korpus einer stark gefährdeten uralischen Minderheitensprache Sibiriens erstellen. Über ein Jahrhundert Sprachwandel und Kulturgeschichte wird damit für Forschende und Sprechergemeinschaft zugänglich gemacht; das Studium einer Sprache im Wandel unter immensen Druck einer dominanten Sprache (in diesem Fall Russisch) ermöglicht. Nordmansisch ist vergleichsweise sprachlich eng verwandt mit dem Ungarischen und schon lange im wissenschaftlichen Fokus. Die Sprache ist relativ gut dokumentiert, aber schlecht zugänglich: Es gibt zahlreiche schriftliche Aufzeichnungen aus dem 19. Jhd. bis heute, diese sind jedoch heterogen und disparat. Sie verwenden ein breites Spektrum an Schriftsystemen (unterschiedliche Transkriptionen und Orthografien) und sind größtenteils nicht oder idiosynkratisch digitalisiert, womit ein einfacher Vergleich nicht möglich ist. Durch die Digitalisierung, Vereinheitlichung und Veröffentlichung der Vielzahl vorhandener Daten wird NOMAC eine einzigartige Ressource für die Erforschung und Beschreibung des Sprachwandels über mehr als ein Jahrhundert schaffen, welche auch für die Erforschung des Sprachwandels unter Einfluss von Sprachkontakt im Allgemeinen relevant ist. Das Korpus umfasst die Gesamtheit der von Feldforschern in der späten russischen Zarenzeit und in der frühen Sowjetzeit gesammelten und transkribierten Texte sowie eine größtmögliche Auswahl spätsowjetischer und zeitgenössischer Texte, darunter auch gesprochene Texte mit Audioaufnahmen. In der wissenschaftlichen Arbeit, die mit dem Korpusaufbau einhergeht, untersuchen wir den diachronen Wandel unter anderem in der Bildung komplexer Sätze, der Verwendung des Passivs und der Argumentstruktur von Verben im vom Korpus abgedeckten Zeitraum. Moderne Technologien und Verfahren der Digital Humanities machen die ambitionierten Ziele von NOMAC erst möglich und werden daher in unserem Projekt eingesetzt. Die Digitalisierung erfolgt mit der KI-gestützten OCR-Software Transkribus. Die resultierenden digitalen Ressourcen werden eine einheitliche Unicode-Zeichenkodierung verwenden und den TEI-Standards entsprechen. Die Möglichkeiten moderner Technologie ermöglichen NOMAC die Erstellung eines umfassenden diachronen Korpus für eine stark gefährdete Minderheitensprache und bietet damit einen detaillierten Einblick in die Geschichte einer Sprache, der bisher nicht zur Verfügung stand. Dies steht im diametralen Gegensatz zu den bescheideneren Zielen früherer Vorhaben, die aufgrund technologischer Einschränkungen der Zeit notwendig waren. Das Projekt wird am Institut für Finnougristik/Uralistik der Ludwig-Maximilians-Universität München durchgeführt, einer Institution mit einer langen Tradition in der Erforschung der ob-ugrischen Sprachen. Beteiligt sind Forschende mit fundierten Kenntnissen in allgemeiner Sprachwissenschaft und Typologie, der Ob-Ugristik sowie Digital Humanities und Informatik.
DFG-Verfahren
Sachbeihilfen
