Detailseite
Effiziente Indexdatenstrukturen und Sprachverarbeitung für semantische Volltextsuche
Antragstellerin
Professorin Dr. Hannah Bast
Fachliche Zuordnung
Theoretische Informatik
Förderung
Förderung von 2011 bis 2015
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 207167963
Ziel des Projektes ist ein voll-funktionales System für effiziente semantische Volltextsuche. Der Forschungsschwerpunkt liegt dabei auf der Entwicklung effizienter Indexdatenstrukturen sowie auf einer effizienten natürlichen Sprachverarbeitung für diese Art von Suche. Das System sollte es uns zum Beispiel ermöglichen in einer gegebenen Dokumentensammlung nach “plants with edible leaves” zu suchen, und dabei etwa die Passage “Broccoli: the edible portion is stem tissue, flower buds, and some small leaves” als Treffer zurückliefen, nicht aber “Bananas are eaten deep fried, or steamed in glutinous rice wrapped in a banana leaf”. Dafür benötigen wir ein gewisses Maß an natürlicher Sprachverarbeitung, die zum Beispiel erkennt, dass in diesen beiden Sätzen sowohl mit “Broccoli” als auch “Banana” die “plant” gemeint ist (und nicht etwa die amerikanische Filmproduzentin Barbara Broccoli oder die Hafenstadt Banana im Kongo), und dass im ersten Satz “Broccoli”, “edible” und “leaves” zusammengehören, im zweiten Satz dagegen “Bananas”, “eaten” und “leaf” nicht. Das System soll insbesondere für die englische Wikipedia (ca. 30 GB an Text) in Kombination mit einer Ontologie wie Yago (ca. 10 Millionen Entitäten) zum Laufen gebracht werden. Ziel für die Vorverarbeitungszeit sind 5 MB Volltext / Sekunde. Ziel für die Anfragezeit sind höchstens 50 Millisekunden pro Anfrage.
DFG-Verfahren
Schwerpunktprogramme
Teilprojekt zu
SPP 1307:
Algorithm Engineering