Detailseite
Projekt Druckansicht

Effiziente Semantische Suche auf Big Data

Antragstellerin Professorin Dr. Hannah Bast
Fachliche Zuordnung Theoretische Informatik
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2014 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 254890286
 
Thema des Projektes ist die effiziente semantische Suche auf "Big Data", hier vor allem sehr große Textsammlungen und sehr große Wissensdatenbanken.In der ersten Runde des SPP haben wir folgende Beiträge geliefert: eine neue Suchmaschine für die interaktive kombinierte Suche auf Text und Wissensdatenbanken; ein neuer skalierbarer Algorithmus zur Zerlegung von Text in seine semantisch kohärenten Einheiten; ein neuer Algorithmus für die Berechnung von Relevanzscores für Tripel aus Wissensdatenbanken; ein selbstlernendes Frage-Antwort System zur automatischen Übersetzung von natürlichsprachlichen Fragen in strukturierte Anfragen auf Wissensdatenbanken; ein umfassender Übersichtsartikel über das riesige Feld der semantischen Suche auf Text und Wissensdatenbanken.In der nächsten Runde des SPP planen wir verbesserte Lösungen für einige dieser Probleme, sowie Lösungen für neue Probleme, die im Rahmen unserer Arbeit in der ersten Runde aufgetreten sind: eine SPARQL+Text Suchmaschine mit allen Features (bestehende SPARQL Suchmaschinen haben wenn überhaupt nur schwache Erweiterungen zur Textsuche, und unserer Suchmaschine aus der ersten Runde unterstützt nur baumartige Suchanfragen und verlässt sich auf deren inkrementelle Konstruktion); eine Erweiterung unseres Frage-Antwort Systems auf komplexere Fragetypen die zudem auch eine Textsuchkomponente haben können; ein System für die automatische Vervollständigung von natürlichsprachlichen Fragen; eine verbesserte Entitätserkennung für semantische Suche auf sehr großen Datenmengen.Für all die genannten Probleme sind unsere Ziele (wie schon in der ersten Runde):beweisbar effiziente Algorithmen und Datenstrukturen; eine umfassende experimentelle Evaluation der Effizienz genauso wie der Qualität; open-source Software und ein öffentlich zugänglicher Demonstrator oder Prototyp; volle Reproduzierbarkeit entweder durch das Verfügbarmachen aller relevanten Materialien (wenn möglich) oder durch eine dedizierte Webanwendung.
DFG-Verfahren Schwerpunktprogramme
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung