Detailseite
QASciInf: Automatische Beantwortung von Fragen für wissenschaftliche Informationen
Antragstellerin
Professorin Dr. Iryna Gurevych
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2014
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 252295018
Die Anzahl der veröffentlichten wissenschaftlichen Artikel ist in den letzten Jahrzehnten exponentiell gestiegen. Dies macht es Forschern kaum noch möglich, alle relevanten Arbeiten zu finden und von ihnen zu profitieren. In diesem Projekt befassen wir uns mit diesem Problem und schlagen eine Reihe von grundlegenden Forschungstechniken vor, um die automatische Beantwortung von Fragen (QA) für wissenschaftliche Informationen durchzuführen. Die einzigartigen Herausforderungen des wissenschaftlichen Bereichs erfordern neuartige Ansätze, die in der QA Forschung bisher noch nicht untersucht wurden. Insbesondere muss ein QA System für wissenschaftliche Informationen (a) Inhalte aus heterogenen Quellen berücksichtigen, (b) bessere Methoden zur Verarbeitung des langen und komplexen Kontexts integrieren, der durch wissenschaftliche Artikel dargestellt wird und (c) Inhalte aus Tabellen verarbeiten und kombinieren, um auf Grundlage dieser Daten Antworten zu generieren. Um neuartige Forschung in dieser Richtung zu ermöglichen, konstruieren wir zwei Datensätze für (1) die Beantwortung hybrider Fragen über den Text wissenschaftlicher Artikel, die enthaltenen Tabellen sowie Diskussionen im Internet; und (2) die Generierung informativer Tabellenbeschreibungen durch die intelligente Verarbeitung und Kombination des Tabelleninhalts. Im Gegensatz zu bestehenden QA Datensätzen ist wissenschaftliches QA nicht auf Frage-Antwort-Paare beschränkt, die sich auf den Text von wissenschaftlichen Artikeln beziehen. Einige Fragen können nur durch die Informationen aus Tabellen beantwortet werden, und einige Fragen können nur durch Diskussionen im Web beantwortet werden. Daher schlagen wir auf der Grundlage unserer Datensätze neue Ansätze vor, welche die relevanten Inhalte aus Diskussionen im Web auffinden. Dies soll insbesondere unter der Berücksichtigung des Kontexts, der durch die wissenschaftlichen Artikel sowie die aufgefundenen Diskussionen repräsentiert wird, geschehen. Darüber hinaus erforschen wir neuartige Textgenerierungsmodelle, die in der Lage sein werden, über komplexe wissenschaftliche Tabellen zu schlussfolgern und Beschreibungen für Tabellen zu generieren. Da Textgenerierungsmodelle eine beträchtliche Menge an Trainingsdaten erfordern, schlagen wir neue Trainingsmethoden vor, welche die Trainingsdaten automatisch mittels schwach überwachter sowie teilüberwachter Ansätze erweitern. Schließlich konsolidieren wir unsere Ansätze in einem Prototyp für hybrides QA über wissenschaftliche Literatur, welchen wir in einer Anwendungsstudie evaluieren.
DFG-Verfahren
Sachbeihilfen