DeliverMath - Dokumentenerschließung und Retrieval für die Literaturversorgung in Virtuellen Forschungsumgebungen der Mathematik
Final Report Abstract
Durch die Digitalisierung wissenschaftlichen Contents hat sich die Arbeitsweise von Bibliotheken und Datenbankproduzenten geändert. Gleichzeitig ist die Zahl der Publikationen weiter angestiegen (in der Mathematik in den letzten 10 Jahren um ca. 40%). Um einen einfachen und guten Zugriff auf die Informationen gewährleisten zu können, benötigt man eine qualitativ hochwertige Indexierung in Form von Keywords und Klassifikationen. Dies stellt die Einbettung mathematischer Literatur in ihren allgemeinen mathematischen Kontext sicher und schafft auch eine standardisierte Inhaltsbeschreibung. Eine (semi)automatische Klassifizierung mittels der Mathematics Subject Classification (MSC) und automatische Keyphrasenextraktion mit Hilfe eines kontrollierten Vokabulars kann die Arbeit mathematischer Fachredakteure erheblich erleichtern. Die Keyword Extraktion wurde im Rahmen des Projekts DeLiVerMATH mit folgenden Schritten durchgeführt: Sentence Tokenizer, Formular Preprocessor, Acronyms Preprocessor, Part-of-Speech Tagger, Noun Phrase Extractor und Formular Postprocessor. Für die Keyword Extraktion wurde ein Interface erstellt, welches von den Redakteuren genutzt werden kann. Die Qualität der Keyphrasenextraktion wurde untersucht. Es wurden generell die richtigen Begriffe extrahiert, bedauerlicherweise allerdings auch zu viele und zu unwichtige. Zur weiteren Verbesserung der Ergebnisse müssten im kontrollierten Vokabular Wortgruppen zusammengeführt werden und ontologische Relationen eingeführt werden. Die Keyphrasenextraktion ist jedoch auch die Basis für die automatische Klassifizierung. Es konnte gezeigt werden, dass die Ergebnisse mit Keywords besser waren als ohne. Es wurden verschiedene Ansätze zur Klassifizierung getestet und am Ende kombiniert. Die Ansätze waren: Support-Vector-Machines, Naïve Bayes Klassifizierer und C4.5 Entscheidungsbäume, diese wurden kurz erläutert. Die erzielten Ergebnisse waren, abhängig vom Themenfeld, unterschiedlich gut. Dennoch wird die automatische Klassifizierung bei FIZ für die Dokumentenzuteilung zu Fachgebieten eingesetzt, und in der TIB wird sie zur Entscheidungsunterstützung bei der Klassifizierung von Dokumenten eingesetzt: Bei schwierigen Fällen führt der Einsatz als Zweitmeinungssystem zu einer signifikanten Arbeitsersparnis. Es konnte also mit Hilfe der entwickelten Methoden die Arbeitsabläufe bei FIZ und TIB unterstützt werden. In den letzten Projekt-Monaten wurden neue Versuche mit neuronalen Netzen gestartet, die zu sehr vielversprechenden Ergebnissen geführt haben. Hierdurch konnte gezeigt werden, dass man in der Lage ist, die vorhandenen Wortlisten zu bereinigen und zusammenzuführen.
Publications
-
The DeLiVerMATH project: Text analysis in mathematics in Intelligent Computer Mathematics, Lecture Notes in Computer Science 7961, p. 379-382, 2013
Schöneberg, U.; Sperber, W.
-
„Large-Scale Experiments for Mathematical Document Classification“, in Procs. of the 15th International Conference on Asia-Pacific Digital Libraries (ICADL), Bangalore, India, Springer, 2013
S. Barthel, S. Tönnies, und W.-T. Balke
-
POS Tagging and its Applications for Mathematic in Lecture Notes in Artificial Intelligence 8543, p. 213-223, 2014
Schöneberg, U.; Sperber, W.
-
Thematic Digital Libraries vs. Wikipedia's "One Size Fits All - Lessons Learned in The IPSI BgD Transactions on Internet Research, vol. 10, 2014
S. Barthel and W.-T. Balke
-
Demystifying the Semantics of Relevant Objects in Scholarly Collections: A Probabilistic Approach in ACM/IEEE Joint Conference on Digital Libraries (JCDL), Knoxville,TN, USA, 2015
J.M.G. Pinto and W.-T. Balke