Speech representation - A literary and linguistic corpus study

Applicants Dr. Annelen Brunner; Professor Dr. Stefan Engelberg; Professor Dr. Fotis Jannidis

Subject Area General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
German Literary and Cultural Studies (Modern German Literature)

Term from 2016 to 2021

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 322751860

Final Report Year 2020

Final Report Abstract

Das Projekt beschäftigte sich mit der empirischen Erforschung von Redewiedergabeformen im Deutschen. Im Fokus standen die Typen direkte (Er sagte: „Ich habe Hunger.“), indirekte (Er sagte, er habe Hunger.), freie indirekte (Er war ratlos. Wo sollte er jetzt nur etwas zu essen finden?) und erzählte Wiedergabe (Sie sprachen über das Mittagessen.). Es wurden zwei Hauptergebnisse erarbeitet, die der Forschungsgemeinschaft frei zur Verfügung gestellt werden: 1. Aufwendig manuell nach Redewiedergabeformen annotierte Sprachdaten (Zeitraum: 1840-1920; fiktionale und nicht-fiktionale Texte): a. Kernkorpus „Redewiedergabe“: ca. 490.000 Tokens; Textmaterial balanciert nach Dekaden und fiktional vs. nicht-fiktional; Konsensannotation erstellt auf Grundlage von zwei unabhängigen Annotationen b. Zusatzmaterial: ca. 3 Millionen Tokens zusätzlich annotiertes Material, z.T. mit vereinfachtem Annotationssystem und semi-automatisch 2. Automatische Erkenner, beruhend auf DeepLearning, für vier Typen von Redewiedergabe (direkte, indirekte, erzählte und freie indirekte Wiedergabe) Das umfangreiche Korpus-Material kann zum einen für quantitative Studien zu Redewiedergabeformen – auch im diachronen Verlauf und im Kontrast fiktional vs. nicht-fiktional – verwendet werden. Zum anderen kann es auch als Trainingsmaterial für maschinelles Lernen für die weitere Entwicklung von automatischen Redewiedergabe-Erkennern dienen, die die im Projekt selbst bereits entwickelte Erkenner ergänzen. Die Erkenner können zur automatischen Markierung von Redewiedergabetypen in deutschen Texten verwendet werden, um so quantitative Studien an großen Textmengen zu ermöglichen. Sie wurden während des Projektverlaufs in einer quantitativen Studie zur Verwendung von Redewiedergabeformen in Heftromanen vs. Hochliteratur erfolgreich zur ersten Anwendung gebracht.

Publications

„Annotation and beyond – Using ATHEN Annotation and Text Highlighting Environment“, in: Digital Humanities im deutschsprachigen Raum – Konferenzabstracts, S. 19-21
Krug, Markus / Tu, Ngoc Duyen Tanja / Weimer, Lukas / Reger, Isabella / Konle, Leonard / Jannidis, Fotis / Puppe, Frank
Das Redewiedergabe-Korpus. Eine neue Ressource. In: Sahle, Patrick (Hg.): Digital Humanities: multimedial & multimodal. 6. Tagung des Verbands Digital Humanities im deutschsprachigen Raum e.V. (DHd 2019), Frankfurt am Main, Mainz, 25.3.2019 – 29.3.2019. K
Brunner, Annelen / Weimer, Lukas / Tu, Ngoc Duyen Tanja / Engelberg, Stefan / Jannidis, Fotis
Deep learning for Free Indirect Representation. In: Preliminary proceedings of the 15th Conference on Natural Language Processing (KONVENS 2019), October 9 – 11, 2019 at Friedrich-Alexander-Universität Erlangen-Nürnberg. München [u.a.]: German Society for
Brunner, Annelen / Tu, Ngoc Duyen Tanja / Weimer, Lukas / Jannidis, Fotis
Was für Enthüllungen! heulte die wohlgekleidete respektable Menge. – Eine korpus-linguistische Untersuchung zur lexikalischen Vielfalt von Redeeinleitern, in: Stefan Engelberg, Christian Fortmann, Irene Rapp (Hrsg.): Rede- und Gedankenwiedergabe in narrat
Tu, Ngoc Duyen Tanja/Engelberg, Stefan/Weimer, Lukas
Corpus REDEWIEDERGABE, Proceedings of The 12th Language Resources and Evaluation Conference, Marseille, S. 796-805
Brunner, Annelen / Engelberg, Stefan / Jannidis, Fotis / Tu, Ngoc Duyen Tanja / Weimer, Lukas
Redewiedergabe in Heftromanen und Hochliteratur. In: Schöch, Christof (Hg.): Digital Humanities: Spielräume. 7. Tagung des Verbands Digital Humanities im deutschsprachigen Raum e.V. (DHd 2020), Paderborn, 3.3.2020 – 6.3.2020. Konferenzabstracts. Paderborn
Brunner, Annelen / Jannidis, Fotis / Engelberg, Stefan / Tu, Ngoc Duyen Tanja / Weimer, Lukas
To BERT or not to BERT – Comparing Contextual Embeddings in a Deep Learning Architecture for the Automatic Recognition of four Types of Speech, Thought and Writing Representation, Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th C
Brunner, Annelen/Tu, Ngoc Duyen Tanja/Weimer, Lukas/Jannidis, Fotis

Servicenavigation

Hauptnavigation

Speech representation - A literary and linguistic corpus study

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Speech representation - A literary and linguistic corpus study

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung