Project Details
Projekt Print View

DeliverMath - Dokumentenerschließung und Retrieval für die Literaturversorgung in Virtuellen Forschungsumgebungen der Mathematik

Subject Area Mathematics
Term from 2011 to 2015
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 193757561
 
Final Report Year 2015

Final Report Abstract

Durch die Digitalisierung wissenschaftlichen Contents hat sich die Arbeitsweise von Bibliotheken und Datenbankproduzenten geändert. Gleichzeitig ist die Zahl der Publikationen weiter angestiegen (in der Mathematik in den letzten 10 Jahren um ca. 40%). Um einen einfachen und guten Zugriff auf die Informationen gewährleisten zu können, benötigt man eine qualitativ hochwertige Indexierung in Form von Keywords und Klassifikationen. Dies stellt die Einbettung mathematischer Literatur in ihren allgemeinen mathematischen Kontext sicher und schafft auch eine standardisierte Inhaltsbeschreibung. Eine (semi)automatische Klassifizierung mittels der Mathematics Subject Classification (MSC) und automatische Keyphrasenextraktion mit Hilfe eines kontrollierten Vokabulars kann die Arbeit mathematischer Fachredakteure erheblich erleichtern. Die Keyword Extraktion wurde im Rahmen des Projekts DeLiVerMATH mit folgenden Schritten durchgeführt: Sentence Tokenizer, Formular Preprocessor, Acronyms Preprocessor, Part-of-Speech Tagger, Noun Phrase Extractor und Formular Postprocessor. Für die Keyword Extraktion wurde ein Interface erstellt, welches von den Redakteuren genutzt werden kann. Die Qualität der Keyphrasenextraktion wurde untersucht. Es wurden generell die richtigen Begriffe extrahiert, bedauerlicherweise allerdings auch zu viele und zu unwichtige. Zur weiteren Verbesserung der Ergebnisse müssten im kontrollierten Vokabular Wortgruppen zusammengeführt werden und ontologische Relationen eingeführt werden. Die Keyphrasenextraktion ist jedoch auch die Basis für die automatische Klassifizierung. Es konnte gezeigt werden, dass die Ergebnisse mit Keywords besser waren als ohne. Es wurden verschiedene Ansätze zur Klassifizierung getestet und am Ende kombiniert. Die Ansätze waren: Support-Vector-Machines, Naïve Bayes Klassifizierer und C4.5 Entscheidungsbäume, diese wurden kurz erläutert. Die erzielten Ergebnisse waren, abhängig vom Themenfeld, unterschiedlich gut. Dennoch wird die automatische Klassifizierung bei FIZ für die Dokumentenzuteilung zu Fachgebieten eingesetzt, und in der TIB wird sie zur Entscheidungsunterstützung bei der Klassifizierung von Dokumenten eingesetzt: Bei schwierigen Fällen führt der Einsatz als Zweitmeinungssystem zu einer signifikanten Arbeitsersparnis. Es konnte also mit Hilfe der entwickelten Methoden die Arbeitsabläufe bei FIZ und TIB unterstützt werden. In den letzten Projekt-Monaten wurden neue Versuche mit neuronalen Netzen gestartet, die zu sehr vielversprechenden Ergebnissen geführt haben. Hierdurch konnte gezeigt werden, dass man in der Lage ist, die vorhandenen Wortlisten zu bereinigen und zusammenzuführen.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung