Kontext- und Entstehungswissen für die kritische Nutzung historischer Datenquellen
Final Report Abstract
Mit der zunehmend steigenden Verfügbarkeit von textuellen Informationen im Internet wird die Frage der nachfolgenden semantischen Erschließung immer dringlicher. Mehr als 80% des heute verfugbaren Wissens stecken dabei in natürlichsprachigen Dokumenten. Diese unstrukturierten Daten verschließen sich jedoch klassischen Ansätzen aus dem Datenbank- und Informationssystembereich. Neuere Analyseverfahren aus dem Bereich Text Mining erlauben die Aufbereitung dieser Daten; wie genau sich solche Ansätze jedoch mit aktuellen Arbeitsumgebungen (wissenschaftlicher) Anwender integrieren lassen, um eine Verringerung der "Informationsüberflutung" zu erreichen, war bisher kaum Gegenstand von Forschungen. Wie das Projekt zeigt, müssen zukünftige Ansätze zur Eingrenzung der Informationen, der ein Benutzer ausgesetzt ist, dazu sowohl seinen aktuellen Arbeitskontext, als auch den Kontext der ursprünglichen Dokumenterstellung berücksichtigen. In diesem Projekt wurde insbesondere die informationstechnische Aufbereitung technischer Dokumente in Form (historischer) Bücher untersucht. Während die grundlegende Digitalisienmg sich zunächst als unerwartet schwierig herausgestellt hat, sehen wir uns angesichts aktueller, finanziell aufwendiger Großprojekte zur Buchdigitalisierung in unserer Vorgehensweise bestätigt, an dieser Stelle keinen Forschungsaufwand zu treiben. Vielmehr sehen wir den wertvollsten Beitrag in der Erarbeitung semantischer Oberflächen für Benutzer, die neuartige Textanalyseverfahren in klassische Arbeitsumgebungen integrieren, Die erarbeitete Architektur geht dabei weit über die Möglichkeiten vergleichbarer, aktueller Projekte (wie dem digitalen "Deutschen Wörterbuch") hinaus und kann als Modell für weitergehende Arbeiten im Bereich der Buchdigitalisierung dienen. Die dabei erarbeiteten Konzepte und Systeme lassen sich zum großen Teil unverändert für Benutzer anderer Fachgebiete einsetzen, etwa in der Mikrobiologie oder der Softwaretechnik. Angepasst werden müssen dabei insbesondere die eingesetzten Sprachverarbeitungspipelines, sofern sie domänenspezifisches Wissen berücksichtigen. Eine zukünftige Verbindung der entwickelten Ansätze mit aktuellen Forschungsarbeiten im Bereich des Semantic Web verspricht dabei eine deutliche Verbesserung der Umgebungen für die Bewältigung wissensintensiver Arbeiten.
Publications
- Praharshana Perera und Rene Witte, A Self-Learning Context-Aware Lemmatizer for Grrman. Human Language Technology Conference/Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP 2005), pp. 636-643, October 6-8, 2005, Vancouver, B.C., Canada.
- Rene Witte, An Integration Architecture for User-Centric Document Creation. Retrieval Analysis. Proceedings of the VLDB Workshop on Information Integration on the Web (IlWeb 2004), August 30th, 2004, Toronto, Canada.
- Rene Witte, Petra Gerlach, Markus Joachim, Thomas Kappler, Ralf Krestel und Praharshana Perera, Engineering a Semantic Desktop for Building Historians and Architects. \ st Workshop on The Semantic Desktop - Next Generation Personal Information Management and Collaboration Infrastructure at the International Semantic Web Conference (ISWC), November 6, 2005, Galway, Ireland. CEUR Workshop Proceedings, ISSN 1613-0073
- Rene Witte, Ralf Krestel und Sabine Bergler, Context-based Multi-Document Summarization using Fuzzy Coreference Cluster Graphs. Document Understanding Conference (DUG) Workshop at HLT-NAACL 2006, June 8-9, 2006, New York City, NY, USA.
- Rene Witte, Ralf Krestel und Sabine Bergler, ERSS 2005: Coreference-Based Summarization Reloaded. Document Understanding Workshop (DUG) at HLT/EMNLP 2005, October 9-10, 2005, Vancouver, B.C., Canada.
- Rene" Witte und Jutta Mülle (Herausgeber), Text Mining: Wissensgewinnung aus nafürtichsprachigen Dokumenten. Interner Bericht 2006-5, Universität Karlsruhe, Fakultät für Informatik, Institut für Programmstrukturen und Datenorganisation (IPD), ISSN 1432-7864, 2006, Karlsruhe.