Detailseite
Projekt Druckansicht

DeliverMath - Dokumentenerschließung und Retrieval für die Literaturversorgung in Virtuellen Forschungsumgebungen der Mathematik

Antragstellerinnen / Antragsteller Professor Dr. Wolf-Tilo Balke; Sabine Brünger-Weilandt
Fachliche Zuordnung Mathematik
Förderung Förderung von 2011 bis 2015
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 193757561
 
Erstellungsjahr 2015

Zusammenfassung der Projektergebnisse

Durch die Digitalisierung wissenschaftlichen Contents hat sich die Arbeitsweise von Bibliotheken und Datenbankproduzenten geändert. Gleichzeitig ist die Zahl der Publikationen weiter angestiegen (in der Mathematik in den letzten 10 Jahren um ca. 40%). Um einen einfachen und guten Zugriff auf die Informationen gewährleisten zu können, benötigt man eine qualitativ hochwertige Indexierung in Form von Keywords und Klassifikationen. Dies stellt die Einbettung mathematischer Literatur in ihren allgemeinen mathematischen Kontext sicher und schafft auch eine standardisierte Inhaltsbeschreibung. Eine (semi)automatische Klassifizierung mittels der Mathematics Subject Classification (MSC) und automatische Keyphrasenextraktion mit Hilfe eines kontrollierten Vokabulars kann die Arbeit mathematischer Fachredakteure erheblich erleichtern. Die Keyword Extraktion wurde im Rahmen des Projekts DeLiVerMATH mit folgenden Schritten durchgeführt: Sentence Tokenizer, Formular Preprocessor, Acronyms Preprocessor, Part-of-Speech Tagger, Noun Phrase Extractor und Formular Postprocessor. Für die Keyword Extraktion wurde ein Interface erstellt, welches von den Redakteuren genutzt werden kann. Die Qualität der Keyphrasenextraktion wurde untersucht. Es wurden generell die richtigen Begriffe extrahiert, bedauerlicherweise allerdings auch zu viele und zu unwichtige. Zur weiteren Verbesserung der Ergebnisse müssten im kontrollierten Vokabular Wortgruppen zusammengeführt werden und ontologische Relationen eingeführt werden. Die Keyphrasenextraktion ist jedoch auch die Basis für die automatische Klassifizierung. Es konnte gezeigt werden, dass die Ergebnisse mit Keywords besser waren als ohne. Es wurden verschiedene Ansätze zur Klassifizierung getestet und am Ende kombiniert. Die Ansätze waren: Support-Vector-Machines, Naïve Bayes Klassifizierer und C4.5 Entscheidungsbäume, diese wurden kurz erläutert. Die erzielten Ergebnisse waren, abhängig vom Themenfeld, unterschiedlich gut. Dennoch wird die automatische Klassifizierung bei FIZ für die Dokumentenzuteilung zu Fachgebieten eingesetzt, und in der TIB wird sie zur Entscheidungsunterstützung bei der Klassifizierung von Dokumenten eingesetzt: Bei schwierigen Fällen führt der Einsatz als Zweitmeinungssystem zu einer signifikanten Arbeitsersparnis. Es konnte also mit Hilfe der entwickelten Methoden die Arbeitsabläufe bei FIZ und TIB unterstützt werden. In den letzten Projekt-Monaten wurden neue Versuche mit neuronalen Netzen gestartet, die zu sehr vielversprechenden Ergebnissen geführt haben. Hierdurch konnte gezeigt werden, dass man in der Lage ist, die vorhandenen Wortlisten zu bereinigen und zusammenzuführen.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung