Detailseite
Paraphrasentypen: Ein neuer Ansatz für die Paraphrasengenerierung und –erkennung
Antragsteller
Dr. Terry Lima Ruas
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 564661959
Paraphrasen sind Texte, welche dieselbe Bedeutung mit unterschiedlichen Worten oder grammatischen Strukturen vermitteln. Wir Menschen können einfach verstehen, wenn die Bedeutung eines Satzes sich ändert, z.B., durch die Änderung der grammatikalischen Struktur oder sogar eines einzelnen Wortes, z. B. einer Verneinung. Aktuelle Ansätze zur Erzeugung und Erkennung von Paraphrasen (PGD) produzieren und identifizieren semantisch ähnliche Inhalte zuverlässig. Sie führen jedoch nur binäre Bewertungen durch, also ob Satzpaare dieselbe Bedeutung teilen, können aber nicht die linguistischen Eigenschaften und syntaktischen oder semantischen Änderungen verstehen, welche diese Texte ähnlich machen. Das Definieren von Paraphrasentypen, d. h. unterschiedlichen linguistischen Formen von Paraphrasen, ermöglicht es zu verstehen, welche Änderungen zwei Texte ähnlich machen. Ein Ansatz, der in der Lage ist, Paraphrasentypen zu generieren und zu identifizieren, würde viele Anwendungsfälle eröffnen. Er könnte linguistische Profile von Autoren erstellen oder maschinengenerierte Texte charakterisieren, um Plagiaterkennungssysteme zu verbessern. Darüber hinaus könnte diese Technologie Sprachlernplattformen verbessern, z. B. indem Lernenden personalisierte Variationen von Strukturen generiert werden, mit denen sie Schwierigkeiten haben. Aktuelle Methoden scheitern an diesen Aufgaben, da sie Paraphrasentypen in ihren Architekturen nicht berücksichtigen. Dieses Projekt wird einen Ansatz entwerfen, implementieren und evaluieren, um Paraphrasentypen in großen Sprachmodellen (LLMs) zu lernen, indem drei Forschungsaufgaben behandelt werden. Wir werden die Handhabung von Paraphrasentypen in Sprachmodellen bewerten (WP1), Paraphrasentypen in Trainingsziele und -datensätze integrieren (WP2) und ein PGD-System entwickeln, das diese neuen Ansätze umsetzt (WP3). In WP1 werden wir eine einheitliche Taxonomie für Paraphrasentypen erstellen und die Grenzen aktueller Sprachmodelle in PGD untersuchen. In WP2 führen wir Humanstudien durch, um Modelleigenschaften zu bewerten und Aufgaben und Datensätze für das Training automatisierter Systeme zu entwickeln. Anschließend formulieren wir Trainingsaufgaben und erstellen Datensätze für das Training neuer Modelle. Wir werden eine neue Metrik entwerfen, um die Fähigkeiten der Modelle zur Handhabung spezifischer linguistischer Änderungen zu bewerten. In WP3 implementieren wir spezialisierte LLMs für die Generierung und Erkennung von Paraphrasen. Wir verwenden die neu erstellten Datensätze, um Architekturvarianten zu testen und die leistungsstärksten Modelle zu skalieren. Um den langfristigen Erfolg des Projekts sicherzustellen, entwickeln wir Strategien zur Integration neuer Paraphrasentypen und zur Verbesserung unserer Modelle mit effizienten Rechenmethoden. Alle Projektergebnisse werden als Open-Source auf GitHub verfügbar gemacht und gepflegt, um langfristige Zugänglichkeit für weitere Forschungen und Entwicklungen zu gewährleisten.
DFG-Verfahren
Sachbeihilfen
