Project Details
Projekt Print View

Erstellung einer lexikalischen Datenbank für die psychologische und linguistische Forschung mit experimenteller Validierung durch Blickbewegungen beim Lesen

Subject Area General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Term from 2011 to 2015
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 206617755
 
Final Report Year 2016

Final Report Abstract

Die zunehmende Vielfalt verfügbarer elektronischer Textressourcen ermöglicht eine Verfeinerung und Ausweitung psychologischer und linguistischer Forschungsfragen. Für die Reichweite einer Datenbank ist neben der Anzahl der zur Verfügung gestellter statistischer Variablen, der Zugänglichkeit und der Bedienbarkeit vor allem die Qualität der dahinerliegenden Korpora entscheidend. Ein qualitativ hochwertiges Korpus zeichnet sich unter anderem durch eine gute Annotation der Wörter und eine hohe Validität der korpusbezogenen lexikalischen und sublexikalischen Statistiken aus. Das Projekt Erstellung einer lexikalischen Datenbank für die psychologische und linguistische Forschung mit experimenteller Validierung durch Blickbewegungen beim Lesen hat im ersten Projektabschnitt auf der Grundlage des Kernkorpus des Digitalen Wörterbuchs der deutschen Sprache (DWDS) die lexikalischen Datenbank dlexDB (http://dlexdb.de) erstellt. Neben Frequenzdaten auf superlexikalischer (n-Gramme), sublexikalischer (Morphemund Silbenabfolge) und lexikalischer Ebene stehen auch speziellere Variablen wie Dokumentfrequenz oder orthographische Nachbarschaft zur Verfügung. Im zweiten Projektabschnitt konnten wesentliche Verbesserungen der linguistischen Annotationen erzielt werden, allerdings konnte eine angestrebte hierarchische morphologische Analyse nicht vollständig realisiert werden. Statt einer semiautomatischen Rechtschreibkorrektur des DWDS haben wir in Zusammenarbeit mit Dr. Sascha Schroeder vom Max-Planck-Institut für Bildungsforschung mit chilldLex eine praktisch fehlerfreie lexikalischen Datenbank erstellt, die die Schriftsprache abbildet, mit der Kinder im Leseerwerb konfrontiert sind. Wir zeigen anhand des typebasierten Maßes der Wortnachbarschaft exemplarisch die Auswirkungen einer Fehlerbereinigung. Die statistische Validität einer Datenbank ist abhängig von der einer Textgrundlage, die der eigentlichen individuellen Spracherfahrung am nächsten kommt. Ein häufig verwendetes Maß für die Validität eines Korpus ist die Worthäufigkeit, die in der Worterkennung typischerweise über 30 Prozent der Varianz erklärt. Aktuelle Untersuchungen belegen anhand von Worthäufigkeiten aus Filmuntertiteln, dass rein schriftsprachliches Material weniger geeignet für die Erklärung der Wortverarbeitung ist, als solches, das Belege gesprochener Sprache inkorporiert. Um diesen Befunden gerecht zu werden, haben wir in einem ersten Schritt eine eigene Version eines Filmuntertitelkorpus erstellt. Parallel haben wir die zeitliche Stratifizierung und die Ausgewogenheit der Genres des DWDS auf ihren Nutzen überprüft. Wir finden für ausgesuchte alte und neue Wörter eine Sensibilität von Personenalter auf die jeweiligen Wortfrequenzen. In einem zweiten Schritt vergleichen wir die Perfomance von Filmuntertiteln mit verschiedenen Korpora. Die ähnliche hohe performance eines Zeitungskorpus zeigt, dass nicht die Nähe zur gesprochenen Sprache entscheidend ist, sondern der emotionale Gehalt der Sprache. Den Befund aus Blickbewegungsanalysen, dass nicht die Tokenfrequenz des nächsten Wortes, sondern die Lemmafrequenz entscheidend ist, konnten wir in zwei kontrollierten Experimenten nicht bestätigen. Zusammenfassend belegt dieses Projekt die Bedeutung großer Textkorpora für die psycholinguistische Forschung. Es zeigt verschiedene Möglichkeiten, die Qualität eines Korpus zu erhöhen, indem Validätskriterien der Korpusgrundlage wie Annotation, Rechtschreibprüfung und Anpassung der Textgrundlage an Personeneigenschaften beachtet werden.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung