Linguistic Web Characterization and Web Corpus Construction
Final Report Abstract
In diesem Projekt wurde ein wichtiger Beitrag zum Verständnis der Zusammensetzung von großen Korpora aus Webdaten geleistet. Durch die Kooperation mit der Abteilung Grammatik des IDS Mannheim konnte darüber hinaus auch die Zusammensetzung von Zeitungskorpora vergleichend mit einbezogen werden. Zunächst wurde der ClaraX-Crawler entwickelt, der es ermöglicht, Webkorpora so zusammenzustellen, dass jeder Webhost (Webserver) des deutschsprachigen WWW die gleiche Wahrscheinlichkeit hat, im Korpus vertreten zu sein. Dies ist bei traditionellen Webkorpora aus technischen Gründen nicht der Fall. Dadurch wurde es möglich, das RanDECOW17-Korpus zu erstellen, das im weiteren Verlauf mit dem traditionellen Webkorpus DECOW16 und dem DeReKo verglichen wurde. Der Vergleich erfolgt durch eine weitere Annotation der Korpora. Zunächst wurden die linguistischen Annotationen (u.a. Satz- und Worttrennung, satzweise Spracherkennung, Wortartentagging, Auszeichnung mit morphologischen Merkmalen, Analyse von Komposita, Dependenz- und Satztopologie-Parsing) verbessert und sowohl DECOW16, RanDECOW17 und ein Teil des DeReKo vom IDS (KoGra) auf vergleichbare Weise annotiert. Die neu entwickelte COReX-Software erlaubte es dann, Verteilungen von fast 70 lexiko-grammatischen Merkmalen in den Korpusdokumenten zu erfassen. Beim Vergleich stellte sich heraus, dass vor allem die Achse informell und formell rekonstruiert werden kann, wobei fast nur DECOW große Mengen informell geschriebener Texte enthält. Im Vergleich zu DECOW enthält das fair gecrawlte RanDECOW weniger informelle Kommunikation, DeReKo naturgemäß nahezu keine. In DECOW sind also gemäß Vergleich mit RanDECOW Dokumente mit informeller Kommunikation (typischerweise Forendokumente u.Ä.) überrepräsentiert. Außerdem wurde eine thematische Analyse der Korpora durchgeführt, bei der sich zeigte, dass die Vielfalt der Themengebiete im DeReKo-Zeitungskorpus deutlich geringer ist als in Webkorpora. Dies sind wichtige Ergebnisse der Grundlagenforschung zu (Web-)Korpora, insbesondere angesichts der Debatte um „Repräsentativität“ von Korpora. Es wurde in diesem Projekt gezeigt, dass die Wahl des Korpus wahrscheinlich erheblich die Ergebnisse von Korpusstudien beeinflusst. Die zukünftige Korpuserstellung für das Deutsche und die Arbeit mit Korpora kann durch die Ergebnisse dieses Projekts und von Folgeprojekten also nachhaltig verändert und verbessert werden. Es muss betont werden, dass es zwar international ähnliche Arbeiten gibt (z.B. Arbeiten aus der Zusammenarbeit von Douglas Biber, Mark Davis und Jesse Egbert), dass aber für das Deutsche dieses Projekt erst die Grundlagen für solch eine Forschung gelegt hat. Die Abstimmung mit dem IDS Mannheim verhalf dem Projekt im Ergebnis außerdem zu einer erheblichen größeren Bedeutung, da nicht nur verzerrungsreduzierte Webkorpora mit klassischen Webkorpora verglichen werden konnten, sondern beide mit dem als Referenz geltenden DeReKo-Zeitungskorpus des IDS. Zur weiteren Verankerung von Webkorpora in der empirisch ausgerichteten kognitiven Linguistik wurden außerdem zusätzliche Studien durchgeführt, die (dank Kooperation mit externen Forscher*innen) auch webkorpuslinguistische Ergebnisse in psycholinguistischen Experimenten bestätigen konnten. In diesen Studien zeigte sich die prinzipielle Tauglichkeit von Webkorpora für die kognitiv orientierte Linguistik. Auch dieser Bereich ist für das Deutsche weitgehend unerforscht.
Publications
- 2016. Automatic Classification by Topic Domain for Meta Data Generation, Web Corpus Evaluation, and Corpus Comparison. In Paul C. Cook, Stefan Evert, Roland Schäfer & Egon Stemle (Hrsg.), Proceedings of the 10th Web as Corpus Workshop (WAC-X), 1–6. Stroudsburg: Association for Computational Linguistics (ACL)
Schäfer, Roland & Felix Bildhauer
(See online at https://doi.org/10.18653/v1/W16-2601) - 2016. On Bias-free Crawling and Representative Web Corpora. In Paul C. Cook, Stefan Evert, Roland Schäfer & Egon Stemle (Hrsg.), Proceedings of the 10th Web as Corpus Workshop (WAC-X), 99–105. Stroudsburg: Association for Computational Linguistics (ACL)
Schäfer, Roland
(See online at https://doi.org/10.18653/v1/W16-2612) - 2017. Accurate and Efficient General-Purpose Boilerplate Detection for Crawled Web Corpora. Language Resources and Evaluation 51(3), 873–889
Schäfer, Roland
(See online at https://doi.org/10.1007/s10579-016-9359-2) - 2017. Induktive Topikmodellierung und extrinsische Topikdomänen. In Marek Konopka & Angelika Wöllstein (Hrsg.), Grammatische Variation – empirische Zugänge und theoretische Modellierung (Jahrbuch des Instituts für Deutsche Sprache 2016), 331–344. Berlin/Boston: De Gruyter
Bildhauer, Felix & Roland Schäfer
(See online at https://doi.org/10.1515/9783110518214-020) - 2018. Abstractions and Exemplars: The Measure Noun Phrase Alternation in German. Cognitive Linguistics 29(4)
Schäfer, Roland
(See online at https://doi.org/10.1515/cog-2017-0050) - 2018. The Plural Interpretability of German Linking Elements. Morphology 28(4), 325–358
Schäfer, Roland & Elizabeth Pankratz
(See online at https://doi.org/10.1007/s11525-018-9331-5)