Project Details
Projekt Print View

Efficient index data structures and natural language processing for semantic full-text search

Subject Area Theoretical Computer Science
Term from 2011 to 2015
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 207167963
 
Ziel des Projektes ist ein voll-funktionales System für effiziente semantische Volltextsuche. Der Forschungsschwerpunkt liegt dabei auf der Entwicklung effizienter Indexdatenstrukturen sowie auf einer effizienten natürlichen Sprachverarbeitung für diese Art von Suche. Das System sollte es uns zum Beispiel ermöglichen in einer gegebenen Dokumentensammlung nach “plants with edible leaves” zu suchen, und dabei etwa die Passage “Broccoli: the edible portion is stem tissue, flower buds, and some small leaves” als Treffer zurückliefen, nicht aber “Bananas are eaten deep fried, or steamed in glutinous rice wrapped in a banana leaf”. Dafür benötigen wir ein gewisses Maß an natürlicher Sprachverarbeitung, die zum Beispiel erkennt, dass in diesen beiden Sätzen sowohl mit “Broccoli” als auch “Banana” die “plant” gemeint ist (und nicht etwa die amerikanische Filmproduzentin Barbara Broccoli oder die Hafenstadt Banana im Kongo), und dass im ersten Satz “Broccoli”, “edible” und “leaves” zusammengehören, im zweiten Satz dagegen “Bananas”, “eaten” und “leaf” nicht. Das System soll insbesondere für die englische Wikipedia (ca. 30 GB an Text) in Kombination mit einer Ontologie wie Yago (ca. 10 Millionen Entitäten) zum Laufen gebracht werden. Ziel für die Vorverarbeitungszeit sind 5 MB Volltext / Sekunde. Ziel für die Anfragezeit sind höchstens 50 Millisekunden pro Anfrage.
DFG Programme Priority Programmes
 
 

Additional Information

Textvergrößerung und Kontrastanpassung