QASciInf: Automatische Beantwortung von Fragen für wissenschaftliche Informationen
Zusammenfassung der Projektergebnisse
Die Anzahl wissenschaftlicher Artikel nimmt exponentiell zu, was es Wissenschaftlern erschwert, mit der neuesten Forschung Schritt zu halten und von allen relevanten Arbeiten zu profitieren. Es müssen neue Technologien entwickelt werden, um Forschern den Zugang zu dem sich rasant erweiternden Wissensbestand zu erleichtern. Natural Language Processing (NLP), einschließlich Information Retrieval (IR), Question Answering (QA)-Systemen und generative Methoden, kann eine entscheidende Rolle bei der Bewältigung dieser Herausforderung sein. Retrieval wird verwendet, um relevante Informationen für nachgelagerte QA-Systeme zu finden, kann jedoch auch direkt eingesetzt werden, z. B. in der Literaturrecherche. QA-Systeme können auf Basis einer Frage effizient Informationen aus einer Publikation extrahieren. Das Verarbeiten von Tabellen ist eine zentrale Fähigkeit jedes Systems, das auf wissenschaftliche Inhalte angewendet wird, und kann in einem generativen Modell genutzt werden, z. B. um Ergebnisse zusammenzufassen. Zum Zeitpunkt der Antragseinreichung gab es jedoch keine Ressourcen zur Evaluierung von Modellen für wissenschaftliche Aufgaben. Im QASciInf-Projekt haben wir daher Datensätze und Benchmarks veröffentlicht, die relevante Aufgaben definierten und eine systematische Evaluierung von Modellen ermöglichen. Wir haben einen Zero-Shot-Benchmark für Retrieval vorgestellt, um Systeme in Domänen zu evaluieren, in denen sie nicht trainiert wurden (z. B. in wissenschaftlichen Domänen mit wenig Trainingsdaten). 2024 haben wir einen kontextbewussten Retrieval-Benchmark vorgeschlagen, um zu messen, wie gut ein System lange Kontexte, wie wissenschaftliche Publikationen, berücksichtigen kann. Ferner haben wir einen Dialog-Datensatz über Publikationen eingeführt, und 2025 haben wir einen QA-Datensatz mit Experten-Fragen und Antworten über wissenschaftliche Artikel veröffentlicht. Außerdem haben wir einen Table-to-Text-Datensatz über wissenschaftliche Tabellen und deren Beschreibungen vorgestellt. Diese Datensätze und Benchmarks ermöglichen zusammen eine umfassende Evaluierung von NLP-Methoden im wissenschaftlichen Bereich. Darüber hinaus haben wir Methoden entwickelt, die Wissenschaftler bei diesen Aufgaben unterstützen. Dazu haben wir eine Few-Shot Information Retrieval-Aufgabe eingeführt und eine Methode vorgeschlagen, bei der ein System aus wenigen Nutzerdemonstrationen verfeinerte Query-Repräsentationen lernt, was für die Literaturrecherche nützlich ist. Wir haben Baselines evaluiert, um den Dokumentkontext bei der Repräsentation eines einzelnen Abschnitts zu berücksichtigen, was das Retrieval in wissenschaftlichen QA-Szenarien verbessert.Schließlich haben wir eine Pre-Training-Methode vorgestellt, die die numerischen Fähigkeiten von Großen Sprachmodellen (LLMs) verbessert und dadurch Table-to-Text-Generierungsaufgaben optimiert. Abschließend haben wir QA-Systeme in Zusammenarbeit mit dem DFG-geförderten UKP-SQuARE-Projekt evaluiert. Wir haben einen öffentlichen Demonstrator entwickelt, der verschiedene Korpuse und QA-Modelle umfasst und es Nutzern ermöglicht, Methoden zusammenzustellen und zu analysieren.
Projektbezogene Publikationen (Auswahl)
-
"BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models." Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021.
Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava & Iryna Gurevych
-
"SciGen: a dataset for reasoning-aware text generation from scientific tables." Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021.
Nafise Moosavi, Andreas Rücklé, Dan Roth & Iryna Gurevych
-
Incorporating Relevance Feedback for Information-Seeking Retrieval using Few-Shot Document Re-Ranking. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 8988-9005. Association for Computational Linguistics.
Baumgärtner, Tim; Ribeiro, Leonardo F. R.; Reimers, Nils & Gurevych, Iryna
-
UKP-SQuARE v2: Explainability and Adversarial Attacks for Trustworthy QA. Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: System Demonstrations, 28-38. Association for Computational Linguistics.
Sachdeva, Rachneet; Puerto, Haritz; Baumgärtner, Tim; Tariverdian, Sewin; Zhang, Hao; Wang, Kexin; Saadi, Hossain Shaikh; Ribeiro, Leonardo F. R. & Gurevych, Iryna
-
UKP-SQUARE: An Online Platform for Question Answering Research. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 9-22. Association for Computational Linguistics.
Baumgärtner, Tim; Wang, Kexin; Sachdeva, Rachneet; Geigle, Gregor; Eichler, Max; Poth, Clifton; Sterz, Hannah; Puerto, Haritz; Ribeiro, Leonardo F. R.; Pfeiffer, Jonas; Reimers, Nils; Şahin, Gözde & Gurevych, Iryna
-
A Dataset of Argumentative Dialogues on Scientific Papers. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 7684-7699. Association for Computational Linguistics.
Ruggeri, Federico; Mesgar, Mohsen & Gurevych, Iryna
-
UKP-SQuARE v3: A Platform for Multi-Agent QA Research. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations), 569-580. Association for Computational Linguistics.
Puerto, Haritz; Baumgärtner, Tim; Sachdeva, Rachneet; Fang, Haishuo; Zhang, Hao; Tariverdian, Sewin; Wang, Kexin & Gurevych, Iryna
-
UKP-SQuARE: An Interactive Tool for Teaching Question Answering. Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023), 195-204. Association for Computational Linguistics.
Fang, Haishuo; Puerto, Haritz & Gurevych, Iryna
-
DAPR: A Benchmark on Document-Aware Passage Retrieval. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 4313-4330. Association for Computational Linguistics.
Wang, Kexin; Reimers, Nils & Gurevych, Iryna
-
PeerQA: A Scientific Question Answering Dataset from Peer Reviews. Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), 508-544. Association for Computational Linguistics.
Baumgärtner, Tim; Briscoe, Ted & Gurevych, Iryna
