Kausalitätsmarker als Kohärenzmittel und ihre Formalisierung für die automatische Textanalyse
Final Report Abstract
Eine zentrale Eigenschaft von Texten ist ihre Kohärenz: Sätze stehen nicht unvermittelt nebeneinander, sondern stehen in bestimmten inhaltlichen Beziehungen zueinander. So können beispielsweise Kontraste, Elaborationen oder zeitliche Abfolgen von Ereignissen beschrieben werden. Eine sehr wichtige Gruppe solcher Diskursreiationen sind kausale Relationen, also diejenigen, die im weitesten Sinne einen Grund-Folge Zusammenhang herstellen. In der Sprache können diese Relationen durch Konnektoren explizit signalisiert werden - Beispiele für kausale Konnektoren sind weil, deswegen, denn oder darum. Unser Projekt befasste sich mit solchen Kausalkonnektoren, zunächst aus linguistischer, dann aus computerlinguistischer Perspektive. Für die Linguistik ist von Interesse, wie sich ähnliche Konnektoren voneinander unterscheiden, und zwar im Hinblick auf die Syntax, die Semantik (feiner differenzierende Bedeutungsmerkmale), und die Gebrauchsbedingungen (Stilebenen, textsortenspezifische Verwendungskonventionen, etc.) Für eine Auswahl von 20 Konnektoren haben wir diese Faktoren gründlich untersucht und die Informationen in Form von Lexikoneinträgen zusammengestellt. Ein wichtiger Bestandteil dieser Arbeit waren umfangreiche Korpusanalysen, bei denen wir in Texten aus der Presse sowie aus Internet-Foren die Konnektoren und die strukturellen und funktionalen Merkmale ihrer Umgebung annotiert haben. In der Studie mit Pressetexten haben wir uns entschieden, als Abstraktionsebene über einige semantische und pragmatische Eigenschaften vier (i. w. S.) kausale Diskursrelationen zu definieren, die als Merkmalsbündel konzipiert sind und den semantisch/pragmatischen Raum der Kausalzusammenhänge charakterisieren. Die statistische Auswertung dieser Daten zeigte dann, wie die Diskursreiationen mit den strukturellen Merkmalen korrelieren; entgegen früherer Untersuchungen zum Niederländischen konnten wir in unseren deutschen Daten keine signifikante Korrelation zwischen Konnektoren und dem Merkmal der Volitionalität finden, wohingegen die Unterscheidung zwischen semantischer und pragmatischer Kausalrelation (Verknüpfung von Sachverhalten vs. Sprechakten) sich im Gebrauch der Konnektoren niederschlägt. In einer zweiten Korpusstudie haben wir uns mit stärker subjektiv geprägten Texten befasst, nämlich Rezensionen zu Hotels von einer Intemet-Seite zu „Produktbesprechungen". Hier wurde im Unterschied zur ersten Studie nicht eine feste Zahl von Belegstellen pro Konnektor zusammengestellt, sondem ein bestehendes Korpus hinsichtlich seiner kausalen Konnektoren und Relationen vollständig annotiert. Für die Diskursrelationen wurde dabei eine Dekomposition vorgenommen: Beide verbundenen Teiltexte werden jeweils durch ihre illokutionäre Kraft beschrieben - wird ein Sachverhalt neutral beschrieben, wird eine persönliche Meinung wiedergegeben, etc. Dieses Korpus bildet dann auch die Grundlage für eine computerlinguistische Modellierung, deren Ziel eine möglichst weitgehende automatische Erkennung von Kausalzusammenhängen in Texten ist. Dazu haben wir die o. g. Lexikoneinträge der Konnektoren in einem XML-Format formal dargestellt und ein Analysemodul entwickelt, das (eingebettet in die Potsdamer Dokumentverarbeitungs-Werkbank MOTS) Konnektoren identifiziert und disambiguiert (viele Wörter, die Konnektoren sein können, haben auch eine Nicht-Konnektor Lesart, z.B. da, denn, darum u. v. m.), sowie die Konnekte markiert und ihnen die Rolle „Grund" bzw. „Folge" zugewiesen. Dies funktioniert nur insoweit es allein auf der Basis linguistischer Analyse erkennbar ist - alle Entscheidungen, die Welt-Wissen erfordem, werden ausgeklammert. Das Modul kann aber zu einem guten Teil in Texten Begründungen identifizieren und damit einen Baustein zu einer umfassenderen Analyse der Textstruktur bereitstellen, wie sie beispielsweise für die Aufgabe der automatischen Zusammenfassung sehr nützlich ist.
Publications
-
(2008) The influence of focus of attention on the discourse function of pronominal adverbs in German. In: Ramm, Wiebke/Fabricius-Hansen, Cathrine (Hg.): Linearisation and Segmentalion in Discourse. Multidisciplinary Approaches to Discourse 2008 (MAD 08), February 20-23 2008, Lysebu, Oslo, Norway. Oslo: Department of Literature, Area Studies and European Languages, Univ. of Oslo, S. 55-64
Grabski, Michael/Frohning, Dagmar
-
(2008): Complex connectives in German: Complications for local coherence analysis. In: Proc. of the Workshop Constraints in Discourse III, Potsdam
Stede, Manfred/Irsig, Kristin
-
(2008): Connective-based local coherence analysis: A lexicon for recognizing causal relationships. In. Bos, J./Delmonte, R. (Hg.): Semantics in Text Processing - STEP 2008 Conference Proceedings. Research in Computational Semantics Series. London: College Publications
Stede, Manfred
-
(2008): Connectives that manage perspectives in discourse. On the function of German nämlich, schließlich, and also. In: Benz, Anton/Kühnlein, Peter/Stede, Manfred (Hg.): Proceedings zum Workshop Constraints in Discourse 3, Universität Potsdam, 30. Juli-1. August 2008. S, 37-44
Grabski, Michael
-
(2008): Disambiguating rhetorical structure. In: Research on Language and Computation 6(3), S. 311-332
Stede, Manfred
-
(2008): Zur Annotation von kausalen Verknüpfungen in Texten. In: Proceedings der Konferenz zur Verarbeitung natürlicher Sprache (KONVENS), Ergänzungsband. Berlin
Peldszus, Andreas/Herzog, Andre/Hofmann, Florian/Siede, Manfred