Die lexikalische Baumgrammatik für ein Fragment des Deutschen unter Einbeziehung von Syntax und Semantik
Zusammenfassung der Projektergebnisse
An dem von uns für die speziellen Anforderungen, die sich bei der Modellierung der Wortstellung im Deutschen ergeben, entwickelten Formalismus TT-MCTAG sollte einerseits in Bezug auf linguistische Analysen und andererseits in Bezug auf Parsing und formale Eigenschaften weitergearbeitet werden. Was den ersten Aspekt angeht, wollten wir uns insbesondere mit elliptischen Konstruktionen beschäftigen, die speziell für TAG ein schwieriges Problem darstellen. Dies haben wir im letzten Projektabschnitt erfolgreich getan, wie die oben genannte Publikation zu Gapping in TAG belegt. Außerdem habe wir über einen alternativen Umgang mit Valenz nachgedacht und in diesem Zusammenhang Möglichkeiten aufgezeigt, TT-MCTAG in Richtung flacherer Strukturen zu modifizieren. Diese Arbeiten haben zu einem besseren Verständnis von Valenz und der Realisierung bzw. Nichtrealisierung von Argumenten im Rahmen von TAG beigetragen. Was formale Eigenschaften, insbesondere die Frage nach der Polynomialität der erzeugten Sprachen, angeht, gab es auch eine ganze Reihe neuer Publikationen, die im letzten Projektabschnitt entstanden. Der einzige Aspekt im Bereich TT-MCTAG und linguistische Modellierung, der entgegen unserer Planungen nicht mehr weitergeführt wurde, ist die Erweiterung und die verstärkte Evaluierung des schon implementierte Grammatikfragments. Dies haben wir, bedingt durch die unzureichende Effizienz des TT-MCTAG Parsers auf später verschoben. Wir möchten diesen Bereich wieder aufnehmen. Es hat auch, abgesehen von den Arbeiten zu Ellipse und Valenz, in der letzten Projektphase keine weiteren Arbeiten zur Semantik gegeben. Dieser Bereich soll verstärkt wieder aufgenommen werden. In Bezug auf die gesamte Laufzeit des Projekts kann man sagen, dass wir mit TT-MCTAG eine TAG-Variante entwickelt haben, die sich für einen Großteil der im Deutschen beobachtbaren Wortstellungsvarianten bewährt hat, die eine Integration von Semantik im Sinne schon vorhandener Ansätze in TAG erlaubt und die zudem, zumindest in der für natürliche Sprachen interessanten lexikalisierten Form, nur polynomielle Sprachen erzeugt. Dieses Ergebnis stellt eine Bereicherung sowohl der formalen TAG-Landschaft als auch der Theorien zur Modellierung von Syntax und Semantik mit TAG dar. Neben den mit TT-MCTAG und der Modellierung des Deutschen zusammenhängenden Arbeiten spielte im letzten Projektabschnitt vor allem der Bereich Parsing eine Rolle. Hier sind eine ganze Reihe von Publikationen entstanden, sowohl im Bereich des symbolischen Parsing als auch im Bereich des probabilistischen Parsing. Als Vorbereitung für das Parsen von Baumbanken wurden verschiedene empirische Untersuchungen von Baumbanken vorgenommen. Insbesondere wurden die aus der Dependenzgrammatik im Zusammenhang mit Nichtprojektivität verwendeten Begriffe auf Konstituentenstrukturen übertragen und somit für eine detaillierte empirische Untersuchung von Diskontinuitäten zugänglich gemacht. Im Bereich des probabilistischen Parsing haben wir probabilistische simple RCGs, also einen schwach kontextsensitiven Formalismus, erfolgreich zum probabilistischen Parsing von Baumbanken verwendet. Dies ist ein besonders innovatives Ergebnis des Projekts, da es die bisher zu beobachtende Dominanz von kontext-freien Grammatiken im Bereich des probabilistischen Parsing etwas relativiert. In dieser Richtung soll auch in Zukunft weitergearbeitet werden. Schließlich war für den letzten Projektabschnitt eine Auseinandersetzung mit dem Begriff der schwachen Kontext- Sensitivität bezüglich seiner Beziehung zu verschiedenen Formalismen, vor allem TT-MCTAG und SRCG geplant. Hier haben die Arbeiten im Projekt noch nicht zu neuen Publikationen geführt, aber es gibt verschiedene Ideen, die in den Arbeiten zur Polynomialität von TT-MCTAG und zu SRCG schon angedacht sind. Auch hier soll in Zukunft weitergearbeitet werden. Neben theoretischen Arbeiten gibt es als Ergebnis der Emmy-Noether-Gruppe insgesamt auch eine Reihe von Ressourcen, die wir anderen Wissenschaftlern unter entsprechenden Lizenzen frei verfügbar gemacht haben. Diese sind das deutsche TT-MCTAG Grammatikfragment GerTT (“German TT-MCTAG”) und die beiden Parser TuLiPA (eine Parsingumgebung für TAG und TT-MCTAG) und rparse (ein Parser für probabilistisches Baumbankparsen mit SRCG).
Projektbezogene Publikationen (Auswahl)
- (2009). A Declarative Characterization of Different Types of Multicomponent Tree Adjoining Grammars. Research on Language and Computation, 7(1):55–99
Kallmeyer, L.
- (2009). A polynomial-time parsing algorithm for TT- MCTAG. In: Proceedings of ACL, Singapore
Kallmeyer, L. and Satta, G.
- (2009). An Earley Parsing Algorithm for Range Concatenation Grammars. In: Proceedings of ACL 2009, Singapore
allmeyer, L., Maier, W., and Parmentier, Y.
- (2009). An incremental Earley parser for simple Range Concatenation Grammar. In: Proceedings of IWPT 2009
Kallmeyer, L. and Maier, W.
- (2009). Convertir des grammaires d’arbres adjoints à composantes multiples avec tuples d’arbres (TT-MCTAG) en grammaires à concaténation d’intervalles (rcg). Traitement automatique des langues TAL, 50(1):227–255
Kallmeyer, L. and Parmentier, Y.
- (2009). Parsing coordinations. In: Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics (EACL-09), Athens, Greece
Kübler, S., Hinrichs, E., Maier, W., and Klett, E.
- (2009). Synchronous rewriting in treebanks. In: Proceedings of IWPT 2009
Kallmeyer, L., Maier, W., and Satta, G.
- (2009). Un algorithme d’analyse de type Earley pour grammaires à concaténation d’intervalles. In: Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles (TALN 2009), Senlis, France
Kallmeyer, L., Maier, W., and Parmentier, Y.
- (2010). Data-driven parsing with probabilistic Linear Context-Free Rewriting Systems. In: Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010), Beijing, China
Kallmeyer, L. and Maier, W.
- (2010). Direct parsing of discontinuous constituents in German. In: Proceedings of the NAACL HLT 2010 First Workshop on Statistical Parsing of Morphologically-Rich Languages, pages 58–66, Los Angeles, CA, USA. Association for Computational Linguistics
Maier, W.
- (2010). Discontinuity and non-projectivity: Using mildly context-sensitive formalisms for data-driven parsing. In: Proceedings of the Tenth International Workshop on Tree Adjoining Grammars and Related Formalisms (TAG+10), New Haven
Maier, W. and Kallmeyer, L.
- (2010). From partial VP fronting towards spinal TT-MCTAG. In: Proceedings of the 10th International Workshop on Tree Adjoining Grammar and Related Formalisms (TAG+10), New Haven, CT
Lichte, T.
- (2010). Gapping through TAG derivation trees. In: Proceedings of the 10th International Workshop on Tree Adjoining Grammar and Related Formalisms (TAG+10), New Haven, CT
Lichte, T. and Kallmeyer, L.
- (2010). Parsing Beyond Context-Free Grammars. Cognitive Technologies. Springer, Heidelberg
Kallmeyer, L.
- (2010). Spotting, collecting and documenting negative polarity items. Natural Language and Linguistic Theory, 28:931–952
Söhn, J.-P., Trawinski, B., and Lichte, T.
- (2010). TuLiPA - parsing extensions of TAG with Range Concatenation Grammars. Bulletin of the Polish Academy of Sciences, 58(3):377–392
Kallmeyer, L., Maier, W., Parmentier, Y., and Dellert, J.
- (2011). Characterizing discontinuity in constituent treebanks. In: de Groote, P., Egg, M., and Kallmeyer, L., editors, Formal Grammar. 14th International Conference, FG 2009. Bordeaux, France, July 25–26, 2009. Revised Selected Papers, volume 5591 of Lecture Notes in Artificial Intelligence, pages 167–182. Springer
Maier, W. and Lichte, T.
- (2011). Formal Grammar. 14th International Conference, FG 2009. Bordeaux, France, July 25–26, 2009. Revised Selected Papers, volume 5591 of Lecture Notes in Artificial Intelligence. Springer
de Groote, P., Egg, M., and Kallmeyer, L.