Detailseite
Transfer-Lernen zur Erkennung von Hassreden
Antragsteller
Professor Dr. Alexander Fraser
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 505660769
Gesellschaftlich relevante Klassifikations-Aufgaben sind ein wichtiges Forschungsgebiet. Klassifikation hängt entscheidend von den Trainingsdaten ab. Es gibt jedoch erhebliche Herausforderungen, wenn die Trainingsdaten in der falschen Sprache sind, sich auf die falsche Domäne konzentrieren, aus der falschen Zeit oder aus dem falschen gesellschaftlichen Kontext stammen. In diesem Projekt werden wir das Transfer-Lernen untersuchen und uns dabei auf diese vier wichtigen Arten von Problemen mit Trainingsdaten für die interessante und gesellschaftlich relevante Aufgabe der Erkennung von Hassrede konzentrieren. Der Mangel an Trainingsdaten ist ein wesentliches Problem für viele NLP-Aufgaben. Dieses Problem ist bei der Erkennung von Hassreden von großer Bedeutung, da es für den Schutz aller Gemeinschaften entscheidend ist. In diesem Projekt werden wir Transfer-Learning-Ansätze entwickeln, um die oben genannten vier Szenarien zu unterstützen. Sprachübergreifende Transfer-Learning-Techniken ermöglichen es, ein System auf der Grundlage von Daten in der Ausgangssprache aufzubauen und es auf die Zielsprache anzuwenden, ohne dass Trainingsdaten in der Zielsprache benötigt werden. Andererseits unterscheiden sich die verfügbaren Quelldaten oft von den Anforderungen des zielsprachlichen Anwendungsbereichs, z.B. in Bezug auf die definierte Labels. In früheren Arbeiten wurden Techniken zur Domänenanpassung eingesetzt, aber die vorgeschlagenen Techniken haben wichtige Nachteilen. Die Sprache und die diskutierten Themen ändern sich mit der Zeit, insbesondere in den sozialen Medien, wo Hassreden ein großes Problem darstellen. Es hat sich gezeigt, dass selbst modernste Systeme im Laufe der Zeit an Qualität verlieren, aber es wurde wenig getan, um dieses Problem zu mildern. Frühere Arbeiten zur Erkennung von Hassreden konzentrierten sich auf den Aspekt des gesellschaftlichen Kontexts, indem sie Datensätze vorschlugen, die sich auf bestimmte Gruppen beziehen (z.B. Religion oder Ethnie). Dies vergrößert jedoch das Problem der Datenknappheit, die kostenspielige Datenannotation erfordert. Wir werden Transfer-Learning-Techniken entwickeln, um diese Probleme zu überwinden. Unser Ziel ist es, alle verfügbaren Daten aus nicht übereinstimmenden Sprach-, Domänen-, Zeit- und Gesellschaftskontexten zu nutzen, um effizient ein Maximum an Wissen zu benutzen. Durch die Entwicklung robuster Trainingsmethoden werden wir die Notwendigkeit einer sorgfältigen Auswahl von Trainingsdaten und die Notwendigkeit einer zusätzlichen Datenannotation eliminieren, indem wir alle bereits verfügbaren Datenquellen nutzen. Bei der Evaluierung der skizzierten Methoden werden wir uns auf die Erkennung von Hassreden konzentrieren, da es entscheidend ist, eine große Anzahl von Communities zu unterstützen. Im Rahmen des Projekts werden die von uns entwickelten Methoden jedoch allgemein auf das Transfer-Lernen für eine breite Palette von NLP-Anwendungen anwendbar sein.
DFG-Verfahren
Sachbeihilfen
Mitverantwortlich
Dr. Viktor Hangya