Project Details
Efficient index data structures and natural language processing for semantic full-text search
Applicant
Professorin Dr. Hannah Bast
Subject Area
Theoretical Computer Science
Term
from 2011 to 2015
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 207167963
Ziel des Projektes ist ein voll-funktionales System für effiziente semantische Volltextsuche. Der Forschungsschwerpunkt liegt dabei auf der Entwicklung effizienter Indexdatenstrukturen sowie auf einer effizienten natürlichen Sprachverarbeitung für diese Art von Suche. Das System sollte es uns zum Beispiel ermöglichen in einer gegebenen Dokumentensammlung nach “plants with edible leaves” zu suchen, und dabei etwa die Passage “Broccoli: the edible portion is stem tissue, flower buds, and some small leaves” als Treffer zurückliefen, nicht aber “Bananas are eaten deep fried, or steamed in glutinous rice wrapped in a banana leaf”. Dafür benötigen wir ein gewisses Maß an natürlicher Sprachverarbeitung, die zum Beispiel erkennt, dass in diesen beiden Sätzen sowohl mit “Broccoli” als auch “Banana” die “plant” gemeint ist (und nicht etwa die amerikanische Filmproduzentin Barbara Broccoli oder die Hafenstadt Banana im Kongo), und dass im ersten Satz “Broccoli”, “edible” und “leaves” zusammengehören, im zweiten Satz dagegen “Bananas”, “eaten” und “leaf” nicht. Das System soll insbesondere für die englische Wikipedia (ca. 30 GB an Text) in Kombination mit einer Ontologie wie Yago (ca. 10 Millionen Entitäten) zum Laufen gebracht werden. Ziel für die Vorverarbeitungszeit sind 5 MB Volltext / Sekunde. Ziel für die Anfragezeit sind höchstens 50 Millisekunden pro Anfrage.
DFG Programme
Priority Programmes
Subproject of
SPP 1307:
Algorithm Engineering