Project Details
Semantische Duplikaterkennung mithilfe von Textual Entailment
Applicant
Professor Dr. Hermann Helbig
Subject Area
Theoretical Computer Science
Term
from 2008 to 2012
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 81487564
Die automatische Erkennung von Duplikaten bzw. Plagiaten textuell gegebener Informationen, und nur auf diese wollen wir uns in dem vorgeschlagenen Projekt konzentrieren, hat nicht nur erhebliche rechtliche und ethische Konsequenzen, sondern auch eine zunehmende wirtschaftliche Bedeutung. Das Spektrum der relevanten gesellschaftlichen bzw. ökonomischen Phänomene reicht dabei vom Patentdiebstahl über Produktpiraterie bis hin zu wissenschaftlichen Fälschungen. Aber auch im Bereich der Informationsrecherche über hochredundanten Quellen (wie z. B. dem Internet) ist es wichtig, Dubletten oder Redundanzen in den Antworten zu erkennen und auf eine Kerninformation zu reduzieren. Es werden also dringend Systeme benötigt, die automatisch semantisch ähnliche oder gar äquivalente Texte erkennen können. Das Ziel dieses Projektantrags ist es, genau ein solches semantisch orientiertes Duplikaterkennungssystem (kurz SemDupl genannt) zu entwickeln. Die Technik bzw. das theoretische Gebiet, das diesem System zugrunde liegt, nennt man Textual Entailment (textuelles Schlussfolgern), oder kurz TE. Während die meisten TE-Systeme syntax- oder oberflächenbasiert sind, wird in diesem Projekt ein semantischer Ansatz verfolgt. Letzterer setzt eine voll ausgebaute syntaktisch-semantische Analyse von Texten voraus, die natürlichsprachliche Ausdrücke (Phrasen, Sätze, Texte) automatisch in entsprechende Bedeutungsstrukturen übersetzen kann. Da einer solchen Analyse alle Sprachebenen (Oberflächenform des Satzes, lemmatisierte Form, syntaktische und semantische Struktur) zur Verfügung stehen, können auf dieser Basis flache, statistisch basierte Verfahren mit tiefen semantischen und damit auch logikbasierten Verfahren kombiniert werden. Damit lassen sich robuste Erkennungssysteme mit hoher Erkennungsrate realisieren. Im Rahmen des beantragten Projektes soll das System SemDupl zwar schwerpunktmäßig für das Deutsche entwickelt werden. Es ist aber gleichzeitig anhand eines Pilotsystems zu zeigen, dass die vorgeschlagenen tiefen semantischen Verfahren auch für multilinguale Anwendungen, angefangen von Duplikat-/Plagiaterkennung bis hin zur automatischen Übersetzung (genauer: für den Nachweis der semantischen Äquivalenz von Übersetzungen), geeignet sind.
DFG Programme
Research Grants