Detailseite
Linguistische Web-Charakterisierung und Webkorpuserstellung
Antragsteller
Dr. Roland Schäfer
Fachliche Zuordnung
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung von 2014 bis 2018
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 261902821
Viele Milliarden Wörter große Korpora aus Web-Daten eignen sich auf einzigartige Weise als Datenquelle für korpuslinguistische Fragestellungen. Sie sind sehr groß und bilden daher auch seltene Phänomene ab, und sie enthalten eine große Bandbreite sprachlicher Variation. Da sie wegen ihrer Größe durch ein unüberwachtes Suchverfahren ("Crawling") im Web gesammelt werden müssen, liegen allerdings zu den Dokumenten in ihnen nicht die Metadaten vor, die KorpuslinguistInnen erwarten. Nicht einmal ihre Zusammensetzung (bezogen auf Register oder Texttypen) ist bekannt. Zudem stellen mit üblichen Crawling-Verfahren gesammelte Webkorpora nachweislich stark verzerrte Stichproben aus dem Web dar. Schließlich werden bei der Erstellung von Webkorpora meist vollautomatische Bereinigungen und Normalisierungen vorgenommen (z.B. Entfernen von Menüs und Textbausteinen, Duplikatentfernung), über deren Präzision und Auswirkungen die BenutzerInnen meist keine Informationen haben.In diesem Projekt wird eine methodologische Grundlagenforschung am deutschsprachigen Web durchgeführt, die diese Defizite überwiegend beseitigt. Einerseits werden zusätzlich zu herkömmlichen Crawling-Verfahren auch solche erprobt, die die Entnahme von unverzerrten Stichproben ermöglichen. Diese Stichproben sind für die Grundgesamtheit der Dokumente im Web repräsentativ. Außerdem werden existierende Verfahren zur Klassifikation von Texttyp, Register, Thema/Sachgebiet usw. auf die Stichproben angewendet und damit bisher fehlende Metadaten zu den Dokumenten erzeugt. Die Ressourcenerstellung ist hier dabei nicht das eigentliche Ziel. Es soll vielmehr ein Text-Klassifikationsschema erst entwickelt werden, das sich für die automatische Auszeichnung sehr großer Webkorpora mit hoher Genauigkeit eignet. Um diese Genauigkeit zu erreichen, werden klassische Verfahren (z.B. Multidimensionale Analyse nach Biber) mit Methoden des Dokument-Clusterings und der Dokument-Klassifikation aus dem Information Retrieval (z.B. Latent Semantic Analysis und Topikmodellierung) kombiniert.Liegen die zusätzlichen Metadaten einmal vor, kann erstmalig angegeben werden, wie sich große Webkorpora zusammensetzen, und zwar abhängig vom eingesetzten Crawlingverfahren. Außerdem wird ermittelt, wie sich die üblichen Bereinigungen und Normalisierungen auf die Korpuszusammensetzung auswirken. Schließlich kann dank der Verfügbarkeit von unverzerrten repräsentativen Stichproben, die zudem mit linguistischen Metadaten angereichert sind, das deutschsprachige Web bezüglich seiner linguistischen Zusammensetzung charakterisiert werden. Diese Daten zur Web-Charakterisierung erlauben es dann z.B., genau anzugeben, welche Registerzusammensetzung das deutschsprachige Web hat, wenn Dokumente einer bestimmten Länge betrachtet werden, usw. Dieses Wissen ermöglicht es KorpuslinguistInnen überhaupt erst, eine fundierte Entscheidungen zu treffen, ob und wie Webdaten und Webkorpora für ihre Fragestellung geeignet sind.
DFG-Verfahren
Sachbeihilfen