Semantische Duplikaterkennung mithilfe von Textual Entailment

Applicant Professor Dr. Hermann Helbig

Subject Area Theoretical Computer Science

Term from 2008 to 2012

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 81487564

Die automatische Erkennung von Duplikaten bzw. Plagiaten textuell gegebener Informationen, und nur auf diese wollen wir uns in dem vorgeschlagenen Projekt konzentrieren, hat nicht nur erhebliche rechtliche und ethische Konsequenzen, sondern auch eine zunehmende wirtschaftliche Bedeutung. Das Spektrum der relevanten gesellschaftlichen bzw. ökonomischen Phänomene reicht dabei vom Patentdiebstahl über Produktpiraterie bis hin zu wissenschaftlichen Fälschungen. Aber auch im Bereich der Informationsrecherche über hochredundanten Quellen (wie z. B. dem Internet) ist es wichtig, Dubletten oder Redundanzen in den Antworten zu erkennen und auf eine Kerninformation zu reduzieren. Es werden also dringend Systeme benötigt, die automatisch semantisch ähnliche oder gar äquivalente Texte erkennen können. Das Ziel dieses Projektantrags ist es, genau ein solches semantisch orientiertes Duplikaterkennungssystem (kurz SemDupl genannt) zu entwickeln. Die Technik bzw. das theoretische Gebiet, das diesem System zugrunde liegt, nennt man Textual Entailment (textuelles Schlussfolgern), oder kurz TE. Während die meisten TE-Systeme syntax- oder oberflächenbasiert sind, wird in diesem Projekt ein semantischer Ansatz verfolgt. Letzterer setzt eine voll ausgebaute syntaktisch-semantische Analyse von Texten voraus, die natürlichsprachliche Ausdrücke (Phrasen, Sätze, Texte) automatisch in entsprechende Bedeutungsstrukturen übersetzen kann. Da einer solchen Analyse alle Sprachebenen (Oberflächenform des Satzes, lemmatisierte Form, syntaktische und semantische Struktur) zur Verfügung stehen, können auf dieser Basis flache, statistisch basierte Verfahren mit tiefen semantischen und damit auch logikbasierten Verfahren kombiniert werden. Damit lassen sich robuste Erkennungssysteme mit hoher Erkennungsrate realisieren. Im Rahmen des beantragten Projektes soll das System SemDupl zwar schwerpunktmäßig für das Deutsche entwickelt werden. Es ist aber gleichzeitig anhand eines Pilotsystems zu zeigen, dass die vorgeschlagenen tiefen semantischen Verfahren auch für multilinguale Anwendungen, angefangen von Duplikat-/Plagiaterkennung bis hin zur automatischen Übersetzung (genauer: für den Nachweis der semantischen Äquivalenz von Übersetzungen), geeignet sind.

DFG Programme Research Grants

Servicenavigation

Hauptnavigation

Semantische Duplikaterkennung mithilfe von Textual Entailment

Additional Information

Servicenavigation

Hauptnavigation

Semantische Duplikaterkennung mithilfe von Textual Entailment

Additional Information

Textvergrößerung und Kontrastanpassung