Linguistic Web Characterization and Web Corpus Construction

Applicant Dr. Roland Schäfer

Subject Area General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages

Term from 2014 to 2018

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 261902821

Final Report Year 2019

Final Report Abstract

In diesem Projekt wurde ein wichtiger Beitrag zum Verständnis der Zusammensetzung von großen Korpora aus Webdaten geleistet. Durch die Kooperation mit der Abteilung Grammatik des IDS Mannheim konnte darüber hinaus auch die Zusammensetzung von Zeitungskorpora vergleichend mit einbezogen werden. Zunächst wurde der ClaraX-Crawler entwickelt, der es ermöglicht, Webkorpora so zusammenzustellen, dass jeder Webhost (Webserver) des deutschsprachigen WWW die gleiche Wahrscheinlichkeit hat, im Korpus vertreten zu sein. Dies ist bei traditionellen Webkorpora aus technischen Gründen nicht der Fall. Dadurch wurde es möglich, das RanDECOW17-Korpus zu erstellen, das im weiteren Verlauf mit dem traditionellen Webkorpus DECOW16 und dem DeReKo verglichen wurde. Der Vergleich erfolgt durch eine weitere Annotation der Korpora. Zunächst wurden die linguistischen Annotationen (u.a. Satz- und Worttrennung, satzweise Spracherkennung, Wortartentagging, Auszeichnung mit morphologischen Merkmalen, Analyse von Komposita, Dependenz- und Satztopologie-Parsing) verbessert und sowohl DECOW16, RanDECOW17 und ein Teil des DeReKo vom IDS (KoGra) auf vergleichbare Weise annotiert. Die neu entwickelte COReX-Software erlaubte es dann, Verteilungen von fast 70 lexiko-grammatischen Merkmalen in den Korpusdokumenten zu erfassen. Beim Vergleich stellte sich heraus, dass vor allem die Achse informell und formell rekonstruiert werden kann, wobei fast nur DECOW große Mengen informell geschriebener Texte enthält. Im Vergleich zu DECOW enthält das fair gecrawlte RanDECOW weniger informelle Kommunikation, DeReKo naturgemäß nahezu keine. In DECOW sind also gemäß Vergleich mit RanDECOW Dokumente mit informeller Kommunikation (typischerweise Forendokumente u.Ä.) überrepräsentiert. Außerdem wurde eine thematische Analyse der Korpora durchgeführt, bei der sich zeigte, dass die Vielfalt der Themengebiete im DeReKo-Zeitungskorpus deutlich geringer ist als in Webkorpora. Dies sind wichtige Ergebnisse der Grundlagenforschung zu (Web-)Korpora, insbesondere angesichts der Debatte um „Repräsentativität“ von Korpora. Es wurde in diesem Projekt gezeigt, dass die Wahl des Korpus wahrscheinlich erheblich die Ergebnisse von Korpusstudien beeinflusst. Die zukünftige Korpuserstellung für das Deutsche und die Arbeit mit Korpora kann durch die Ergebnisse dieses Projekts und von Folgeprojekten also nachhaltig verändert und verbessert werden. Es muss betont werden, dass es zwar international ähnliche Arbeiten gibt (z.B. Arbeiten aus der Zusammenarbeit von Douglas Biber, Mark Davis und Jesse Egbert), dass aber für das Deutsche dieses Projekt erst die Grundlagen für solch eine Forschung gelegt hat. Die Abstimmung mit dem IDS Mannheim verhalf dem Projekt im Ergebnis außerdem zu einer erheblichen größeren Bedeutung, da nicht nur verzerrungsreduzierte Webkorpora mit klassischen Webkorpora verglichen werden konnten, sondern beide mit dem als Referenz geltenden DeReKo-Zeitungskorpus des IDS. Zur weiteren Verankerung von Webkorpora in der empirisch ausgerichteten kognitiven Linguistik wurden außerdem zusätzliche Studien durchgeführt, die (dank Kooperation mit externen Forscher*innen) auch webkorpuslinguistische Ergebnisse in psycholinguistischen Experimenten bestätigen konnten. In diesen Studien zeigte sich die prinzipielle Tauglichkeit von Webkorpora für die kognitiv orientierte Linguistik. Auch dieser Bereich ist für das Deutsche weitgehend unerforscht.

Servicenavigation

Hauptnavigation

Linguistic Web Characterization and Web Corpus Construction

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Linguistic Web Characterization and Web Corpus Construction

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung