Detailseite
Projekt Druckansicht

Lernen von Ähnlichkeitsfunktionen für Tabellen

Antragsteller Professor Dr. Ulf Leser
Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung Förderung von 2017 bis 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 388146305
 
Tabellen sind ein effizientes und populäres Mittel, um strukturierte Daten in unstrukturierte Texte einzubetten, wie zum Beispiel in wissenschaftliche Veröffentlichungen, Geschäftsberichte, oder auch Webseiten. Typische Suchmaschinen nutzen aber die speziellen Eigenschaften von Tabellen (Struktur bestehend aus Spalten und Zeilen, Spaltenüberschriften, semantische Einheitlichkeit in Werten in Spalten oder in Zeilen etc.) nicht aus, sondern behandeln Tabellen meistens einfach als Menge von Wörtern. Suchmethoden, deren Ergebnis direkt Tabellen aus einem gegebenen Korpus wären, würden Zugang zu einer Fülle an strukturierten Daten liefern, die auf anderen Wegen kaum zu bekommen sind. Eine solche Suchmethode ist die Tabellenähnlichkeitssuche: Gegeben eine Anfragetabelle, sollen alle Tabellen in einem Korpus gefunden werden, die zu dieser ähnlich sind. Im hier beantragten Projekt wollen wir Verfahren erforschen, die Ähnlichkeitsmaße für Tabellen in einem überwachten Verfahren lernen. Diese Ähnlichkeitsmaße sind fundamentale Komponenten von Verfahren zur Tabellenähnlichkeitssuche, finden aber auch Anwendung in anderen interessanten Problemstellungen, wie der Informationsextraktion aus Tabellen oder dem Clustern von Tabellen. Unsere Verfahren werden sich auf moderne Methoden des Deep Learning stützen, die wir auf verschiedenen Ebenen einsetzen wollen; zum einen, um die Orientierung einer Tabelle automatisch zu erkennen, und zum anderen um Repräsentationen von Tabellen zu erlernen, die einen einheitlichen Rahmen zum Vergleich ihrer Eigenschaften und ihres Inhalts schaffen. Alle Verfahren werden anhand eines Gold Standards von Tabellenpaaren mit manuell annotierter Ähnlichkeit aus einem frei verfügbaren umfassenden Volltextkorpus wissenschaftlicher Texte entwickelt und evaluiert. Goldstandard sowie alle entstehende Software werden der Wissenschaft in einem Open Source Modell zur Verfügung gestellt werden.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung