Korpuslinguistische Methoden

Antragstellerinnen Professorin Dr. Anke Lüdeling; Dr. Anna Shadrova

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen

Förderung Förderung von 2021 bis 2025

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 313607803

Projektbeschreibung

Projekt Pc ist sowohl ein Infrastruktur- als auch ein Forschungsprojekt innerhalb von RUEG2 und Nachfolger von Projekt Pd in RUEG1. Auf Seite der Infrastruktur wird Pc kontinuierlich die Integration von neuen und/oder korrigierten Annotationsebenen, eine nachhaltige Datenkuratierung, sowie technischen Support und Research Engineering gewährleisten, also die Entwicklung von Tools und Pipelines zur Informationsexktraktion/Text Mining und quantitative Analyse. Pc wird außerdem für Support und Beratung in der Auswahl und Anwendung quantitativer Forschungsmethoden für die Projekte P8-P11 in RUEG2 zur Verfügung stehen.Auf Forschungsseite leistet Pc einen Beitrag zur korpuslinguistischen Methodenentwicklung: Zum einen durch die Evaluation der Einsatzmöglichkeiten von aktuellen Techniken des Maschinellen Lernens im Bereich der automatischen und semi-automatischen Annotation und Informationsextraktion aus kleineren Datenmengen in Nicht-Standard-Korpora. Zum anderen durch einen Fokus auf die Entwicklung, Validierung, Evaluation und epistemologische Einbettung von quantitativen Methoden im Speziellen für RUEG, sowie auch im Allgemeinen für mittelgroße Korpora.Das mittelgroße und hinsichtlich seiner Struktur sowie der Themen, Erhebungssettings, SprecherInnenhintergründe und Metadaten stark kontrollierte RUEG-Korpus bietet die Chance, den gesamten Datensatz tief zu überblicken und erlaubt damit weitgehende Analysen in einer kollaborativen Forschungsleistung der ganzen Gruppe. Es ist somit eines der wenigen Korpora, die variationistische Analysen für verschiedener Produktionssamples derselben SprecherInnen in je zwei Sprachen, nach Modalitäten, Settings und Altersgruppen erlauben. Der Trade-off für diese Komplexität liegt jedoch in der reduzierten Datenmenge in jedem Erhebungskontext, die den Anforderungen repräsentativer Stichproben nicht entsprechen und somit in der Regel keine ausreichend starken Analysen der frequentistischen Statistik erlauben. Da es derzeit keine zweifelsohne verlässlichen Methoden zur quantitativen Analyse kleinerer Korpora gibt, ist ihre Entwicklung von entscheidender Wichtigkeit für die erfolgreiche Analyse der RUEG-Daten. Zugleich ist das RUEG-Korpus ein außergewöhnlich geeigneter Datensatz zur Evaluation der Methoden selbst. Es bietet somit ein hohes synergistisches Potential für die methodologische Entwicklung in der Korpuslinguistik insgesamt. Zu diesem Zweck wird Pc Techniken aus vielversprechenden quantitativen Bereichen prüfen und evaluieren: a) Die Anwendbarkeit (einschließlich Validität, Reliabilität und Erklärungskraft) von Mixed-Effekt-Models (gemischten Modellen); b) Methoden aus zwei aktuell in der Linguistik kaum genutzten Frameworks, der Bayesschen Statistik und der Graphtheorie bzw. Netzwerkanalyse; und c) die Anwendbarkeit von Methoden des maschinellen Lernens zum Erkenntnisgewinn (anstelle der reinen Informationsextraktion, die aktuell deren Schwerpunkt in der Computerlinguistik ausmacht).

DFG-Verfahren Forschungsgruppen

Teilprojekt zu FOR 2537: Grammatische Dynamiken im Sprachkontakt: ein komparativer Ansatz

Servicenavigation

Hauptnavigation

Korpuslinguistische Methoden

Zusatzinformationen

Servicenavigation

Hauptnavigation

Korpuslinguistische Methoden

Zusatzinformationen

Textvergrößerung und Kontrastanpassung