Effiziente Indexdatenstrukturen und Sprachverarbeitung für semantische Volltextsuche

Antragstellerin Professorin Dr. Hannah Bast

Fachliche Zuordnung Theoretische Informatik

Förderung Förderung von 2011 bis 2015

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 207167963

Projektbeschreibung

Ziel des Projektes ist ein voll-funktionales System für effiziente semantische Volltextsuche. Der Forschungsschwerpunkt liegt dabei auf der Entwicklung effizienter Indexdatenstrukturen sowie auf einer effizienten natürlichen Sprachverarbeitung für diese Art von Suche. Das System sollte es uns zum Beispiel ermöglichen in einer gegebenen Dokumentensammlung nach “plants with edible leaves” zu suchen, und dabei etwa die Passage “Broccoli: the edible portion is stem tissue, flower buds, and some small leaves” als Treffer zurückliefen, nicht aber “Bananas are eaten deep fried, or steamed in glutinous rice wrapped in a banana leaf”. Dafür benötigen wir ein gewisses Maß an natürlicher Sprachverarbeitung, die zum Beispiel erkennt, dass in diesen beiden Sätzen sowohl mit “Broccoli” als auch “Banana” die “plant” gemeint ist (und nicht etwa die amerikanische Filmproduzentin Barbara Broccoli oder die Hafenstadt Banana im Kongo), und dass im ersten Satz “Broccoli”, “edible” und “leaves” zusammengehören, im zweiten Satz dagegen “Bananas”, “eaten” und “leaf” nicht. Das System soll insbesondere für die englische Wikipedia (ca. 30 GB an Text) in Kombination mit einer Ontologie wie Yago (ca. 10 Millionen Entitäten) zum Laufen gebracht werden. Ziel für die Vorverarbeitungszeit sind 5 MB Volltext / Sekunde. Ziel für die Anfragezeit sind höchstens 50 Millisekunden pro Anfrage.

DFG-Verfahren Schwerpunktprogramme

Teilprojekt zu SPP 1307: Algorithm Engineering