Detailseite
Projekt Druckansicht

QuanTOR - Quantitative Analyse der Textorganisation in Registern

Fachliche Zuordnung Einzelsprachwissenschaften, Historische Linguistik
Förderung Förderung seit 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 528467412
 
Die linguistische Forschung untersucht Register in der Regel auf der Ebene ganzer Texte, obwohl gängige Definitionen zentral auf den situativen Kontext Bezug nehmen. Situationen entwickeln sich dynamisch und Sprecher*innen treffen dabei zu verschiedenen Zeitpunkten unterschiedliche sprachliche Entscheidungen. Dies hat zur Folge, dass Anfang, Mitte und Ende von Texten verschiedene linguistische und quantitative Eigenschaften aufweisen. Diese dynamische Organisation von Sprache unterhalb der Textebene wurde in der Registerforschung bisher noch kaum berücksichtigt. Unser Projekt zielt darauf ab, den dynamischen Charakter von Registern adäquat zu erfassen und quantitative Methoden zur Untersuchung dieses Phänomens zu entwickeln. Unser Fokus auf die zeitliche Dynamik der Textorganisation erfordert einen Ansatz, der auch aus kurzen Textabschnitten sprachliche Muster und die zugrunde liegenden (latenten) Dimensionen sprachlicher Variation extrahieren kann. Außerdem ist eine automatische Erkennung und Klassifikation relevanter Segmente erforderlich, um auch mit sehr großen Korpora arbeiten zu können. Um diese Ziele zu erreichen, bringt das Projekt die komplementäre Expertise der drei Antragsteller*innen zusammen. Unser Arbeitsprogramm kombiniert linguistische Interpretation, Theorieentwicklung und manuelle Annotation mit multivariater quantitativer Analyse sowie unüberwachtem und überwachtem maschinellen Lernen. Zu diesem Zweck entwickeln wir eine Bayes'sche Erweiterung der Geometric Multivariate Analysis (einem zuverlässigen und feinkörnigen Ansatz zur multivariaten Untersuchung linguistischer Variation), sowie maschinelle Lernverfahren für die Segmentierung und Annotation von Texten unter Einsatz modernster neuronaler und statistischer Sprachmodelle. In einem iterativen Prozess erarbeiten wir so eine Theorie der Dynamik des Sprachgebrauchs im situativen Kontext, einen Goldstandard von manuell segmentierten und annotierten Texten, den BayesGMA-Ansatz zur Untersuchung multivariater Merkmalsverteilungen im Textverlauf sowie leicht anwendbare Sprachmodelle für die automatische Textsegmentierung und -annotation. Alle Daten, Analysemodelle und quantitativen Ergebnisse werden sorgfältig evaluiert und validiert. Datengrundlage für das Projekt sind Komponenten des International Corpus of English (ICE), was nicht nur die Untersuchung der zeitlichen Dynamik in verschiedenen gesprochenen und geschriebenen Registern erleichtert, sondern es uns auch ermöglicht, theoriegeleitete Hypothesen empirisch zu überprüfen, z. B. hinsichtlich der Beziehung zwischen Genre und Register. Die Ergebnisse der computergestützten Korpusanalyse eröffnen eine neue empirische Perspektive auf eine Theorie, die Register als dynamischen sprachlichen Ausdruck menschlichen Verhaltens im situativen Kontext versteht, und die ihrerseits wiederum zu unserem Verständnis der grundlegenden Organisation natürlicher Sprache beiträgt.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Kanada, Schweiz, USA
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung