Anaphernresolution für die Zusammenfassung gesprochener Dialoge (DIANA Summ)
Zusammenfassung der Projektergebnisse
Ziel des Projektes war die Forschung im Bereich der automatischen Zusammenfassung von Dialogen mit mehreren Teilnehmern (multi-party dialog) und die Entwicklung eines Computersystems, das solche Zusammenfassungen automatisch erstellt. Ein besonderer wissenschaftlicher Schwerpunkt lag auf der Auflösung von Pronomen in gesprochener Sprache, einer bisher in der Computerlinguistik wenig untersuchten Aufgabe. Als Datengrundlage für die Systementwicklung wurde das ICSI Meeting Corpus verwendet. Dabei handelt es sich um ein Korpus von manuell transkribierten (d.h. in Textform übertragenen), authentischen Diskussionen mit mehreren Teilnehmern. Während die Entwicklung unseres Systems auf Grundlage eines derart manuell aufbereiteten Korpus seine direkte Einsatzfähigkeit in realistischen Situationen einschränkt, hat sich diese methodische Entscheidung im Projektverlauf als angemessen erwiesen, da sie es erlaubte, die zu bearbeitenden Aufgaben (Anaphernresolution und Zusammenfassung) von im Projektkontext wissenschaftlich nicht relevanten Aspekten (vor allem automatische Spracherkennung) zu trennen. Die Entscheidung wurde ferner durch Gutachten zu unseren wissenschaftlichen Publikationen unterstützt, in welchen sich internationale Fachkollegen unserer diesbezüglichen Argumentation anschlossen. Unsere Arbeiten zur Anaphernauflösung in gesprochener Sprache stellen den ersten Versuch dar, diese Aufgabe vollständig automatisch zu lösen. Anders als vorher in theoretischen Studien berichtet, mußten wir feststellen, daß schon die zuverlässige Annotation von anaphorischen Relationen in Dialogen ein großes wissenschaftliches Problem darstellt. Demgemäß nahm die Annotation mehr Zeit in Anspruch als ursprünglich geplant und wurde auch zentraler Bestandteil zweier Publikationen. Die vollständig automatische Auflösung von it, this und that in Dialogen erwies sich als sehr schwere Aufgabe. Im Projekt konnten wir die Grundlage für weitere Arbeiten legen. Zu behaupten, wir hätten dieses Problem gelöst, wäre vermessen. Die automatische Zusammenfassung von Besprechungen stellt dagegen eine Aufgabe dar, die weniger linguistisches Wissen erfordert, sondern mehr an der sprachlichen Oberfläche arbeitet. Deshalb konnten wir hier mit empirischen Methoden und robusten Heuristiken recht gute Ergebnisse erzielen. Diese Methoden konnten gut mit den Unzulänglichkeiten gesprochener Sprache umgehen.
Projektbezogene Publikationen (Auswahl)
-
(2006). Automatic detection of nonreferential it in spoken multi-party dialog. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, Trento, Italy, 3-7 April 2006, pp. 49-56
Müller, Christoph
-
(2006). Part-of-Speech tagging of transcribed speech. In: Proceedings of the 5th International Conference on Language Resources and Evaluation. Genoa, Italy, 22-28 May 2006, pp. 935-938
Mieskes, Margot & Michael Strube
-
(2007). Cascaded filtering for topic-driven multi-document summarization. In: Proceedings of the Document Understanding Conference 2007, Rochester, N.Y., 26-27 April 2007, pp. 30-35
Filippova, Katja, Margot Mieskes, Vivi Nastase, Simone Paolo Ponzetto & Michael Strube
-
(2007). Gesprächsprotokolle auf Knopfdruck: Die automatische Zusammenfassung von gesprochenen Dialogen. In: W. Kallmeyer (Ed.), Jahrbuch 2006 des Instituts fur Deutsche Sprache: Sprachkorpora - Datenmengen und Erkenntnisfortschritt, pp. 249-265. Berlin/New York: de Gruyter
Strube, Michael, Margot Mieskes & Christoph Müller
-
(2007). Improving extractive dialogue summarization by utilizing human feedback. In: Proceedings of the IASTED Artificial Intelligence and Applications Conference, Innsbruck, Austria, 11-14 February 2007
Mieskes, Margot, Christoph Müller & Michael Strube
-
(2007). Resolving It, This, and That in unrestricted multi-party dialog. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, Prague, Czech Republic, June 23-30, 2007, pp. 816-823
Müller, Christoph
-
(2008). A three-stage disfluency classifier for multi-party dialogues. In: Proceedings of the 6th International Conference on Language Resources and Evaluation, Marrakech, Morocco, 26 May - 1 June 2008
Mieskes, Margot & Michael Strube
-
(2008). Knowledge sources for bridging resolution in multi-party dialog. In: Proceedings of the 6th International Conference on Language Resources and Evaluation. Marrakech, Morocco. 26 May - 1 June 2008
Müller, Mark-Christoph, Margot Mieskes & Michael Strube
-
(2008). Parameters for topic boundary detection in multiparty dialogues. In: Proceedings of the 6th International Conference on Language Resources and Evaluation, Marrakech, Morocco. 26 May - 1 June 2008
Mieskes, Margot & Michael Strube
-
(2009). Meeting Summarization. Ph.D. thesis, Friedrich-Alexander Universität Erlangen-Nürnberg, Germany
Mieskes, Margot