Vernetzte Repositorien: Automatische Anreicherung von OAI Metadaten mit Hilfe computerlinguistischer Verfahren und Entwicklung von Services für die inhaltsorientierte Vernetzung von Repositorien (Ausschreibung Repositorien)
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Zusammenfassung der Projektergebnisse
Das Projekt „Automatische Anreicherung von OAI-Metadaten“ hat zur Entwicklung eines dauerhaften und nachhaltigen Services geführt, der den Anteil klassifikatorischer Sacherschließungsinformationen im BASE-Index mit einer vergleichsweise geringen Fehlertoleranz signifikant erhöht. Mit den wöchentlichen BASE-Updates wächst die Anzahl der Metadaten, die über das Merkmal einer DDC-Klassifikationsnummer und damit über eine gemeinsame Referenzontologie verfügen, kontinuierlich. Die Verwendung der DDC-Klassifikation ermöglicht nicht nur ein fachliches Browsing und ein verbessertes Retrieval. Vor allem erleichtert die Ausgabe von Klassifikationsdaten über Schnittstellen die Nutzung von Fachausschnitten aus BASE. Dies wird inzwischen von einer Reihe von Virtuellen Fachbibliotheken und weiteren Informationsanbietern genutzt und ist potenziell für die im Aufbau befindlichen Fachinformationsdienste relevant, wenn es um die fachbezogene Darstellung von Open-Access-Publikationen geht. Für die Erreichung dieses Ziels war zu einem die Korpus-Erstellung auf Basis einer möglichst hohen Zahl von Repositorien grundlegend. Trotz der vergleichsweisen Heterogenität der OAI-Metadaten und trotz einer schiefen fachlichen Verteilung, die wie erwartet Lücken in den geisteswissenschaftlichen Fächern aufwies, ist es in dem Projekt gelungen, für eine Vielzahl von DDC-Klassen ausreichend Trainingsdaten für den auf Basis des maschinellen Lernens arbeitenden SVM-Kategorisierer zu erstellen. Durch Hinzunahme der Methode der Merkmalsexpansion konnte die geringe Anzahl von Trainingsdaten in vielen Fächern ausgeglichen werden. Neben der Anwendung in BASE ermöglicht die ACT-DL die automatische Klassifikation von Volltexten auch für externe Anwender.
Projektbezogene Publikationen (Auswahl)
-
(2009). Enhancing document modeling by means of open topic models: Crossing the frontier of classification schemes in digital libraries by example of the DDC. Library Hi Tech, 27(4), S 520-539
Mehler, A. and U. Waltinger
-
(2009). Open Access and Institutional Repositories. From Local Initiatives to Global Solutions. In: Proceedings of CASLIN 2009: Institutional Online Repositories and Open Access, Pilsen 2009, S. 39–42
Summann, F.
-
(2010). A multidisciplinary search engine for scientific open access documents. In R. Depping und C. Suthaus (Hrsg.), Proceedings of the EBSLG Annual Conference, May 18-21, 2010, Elektronische Schriftenreihe der Universitäts- und Stadtbibliothek Köln, Köln (Deutschland), S. 11–15
Lösch, M.
-
(2010). BASE: A multidisciplinary search engine for scientific open access documents. Annual Conference of the European Business Schools Librarians Group (EBSLG), Köln, 19. Mai 2010
Lösch, M.
-
(2010). Building a DDC-annotated corpus from OAI metadata. 5th International Conference on Open Repositories, Madrid (Spanien), 6.–9. Juli
Lösch, M., U. Waltinger, W. Horstmann und A. Mehler
-
(2010). Enhancement of OAI metadata via automatic document classification. 34th Annual Conference of the Gesellschaft für Klassifikation, Karlsruhe (Deutschland), 21.–23. Juli
Waltinger, U., M. Lösch, A. Mehler und W. Horstmann
-
(2011). A Quantitative Graph Model of Social Ontologies by Example of Wikipedia. Dehmer, M., F. Emmert-Streib and A. Mehler (eds.): Towards an Information Theory of Complex Networks: Statistical Methods and Applications. Boston/Basel: Birkhäuser (2011)
Mehler, A.
-
(2011). Approaching next-generation OAI service providers: The BASE case. Poster presented at the 7th CERN Workshop on Innovations in Scholarly Communication (OAI7), June 22-24, Genf, Schweiz
Summann, F., D. Pieper, B. Fehling, R. Mitrenga, S. Wolf, M. Imialek, M. Lösch und W. Horstmann
-
(2011). Automatische Sacherschließung elektronischer Dokumente 100. Deutscher Bibliothekartag, Berlin, 8. Juni 2011
Lösch, M.
-
(2011). Building a DDC-annotated corpus from OAI metadata. Journal of Digital Information 12(2)
Lösch, M., U. Waltinger, W. Horstmann und A. Mehler
-
(2011). Hierarchical classification of OAI metadata using the DDC taxonomy. In R. Bernardi, S. Chambers, B. Gottfried, F. Segond, und I. Zaihrayeu (Hrsg.), Advanced Language Technologies for Digital Libraries, Volume 6699 of Lecture Notes in Computer Science, S. 29–40. Springer Berlin / Heidelberg
Waltinger, U., A. Mehler, M. Lösch und W. Horstmann
-
(2014). ColLex.EN: Automatically Generating and Evaluating a Full-form Lexicon for English. In: Proceedings of the Language Resources and Evaluation Conference (LREC), Reykjavik, Island, 2014
vor der Brück, A. Mehler und Z. Islam
-
Towards a Network Model of the Coreness of Texts: An Experiment in Classifying Latin Texts using the TTLab Latin Tagger In: Chris Biemann and Alexander Mehler (eds.): Text Mining: From Ontology Learning to Automated text Processing Applications, Series: Theory and Applications of Natural Language Processing, Springer, Berlin/New York, 2014
Mehler, Alexander, T. vor der Brück, R. Gleim und T. Geelhaar