Developments of methods in the context of image processing and digital media for palaeographic research, in particular the transcription of handwritings, writer comparisons, and writer profiles in historical documents - Diptychon -
Final Report Abstract
Es ist eine Methodik entwickelt worden, unabhängig vom Vorwissen beliebige Handschriften in ihre Einzelzeichen zu separieren. Diese Methodik ist mit dem Diptychon-System implementiert worden. Analyse und Vergleiche können somit einzelzeichenbasiert arbeiten, was eine Voraussetzung für klassische Fragestellungen in der Paläographie ist und auch in anderen Disziplinen, wie der forensischen Begutachtung von Schriften, gefordert wird. Die Community der Digitalen Paläographie ist gespalten: Aus informatischer Sicht interessieren Mustererkennungsalgorithmen, die auf rein automatische Verfahren hinauslaufen. Aus geisteswissenschaftlicher Sicht interessieren dagegen Werkzeuge, welche die traditionelle Arbeit des Geisteswissenschaftlers so unterstützen, dass dieser technische Methoden in seinen Arbeitsablauf integrieren und diese selbst steuern kann. Das vorliegende Projekt hat sich diesen geisteswissenschaftlichen Anforderungen gestellt: Nicht ein automatisches Blackbox-System ist entstanden, sondern ein interaktiver Ansatz, mit dessen Hilfe jede vorliegende Handschrift trotz aller individueller Eigenheiten seziert und analysiert werden kann. Damit sind keinesfalls die informatischen Ansprüche geringer als im Falle rein automatischer Methoden. Vielmehr sind neben der Automatisierung geeigneter Teilprozesse auch Visualisierungen von Zwischenergebnissen sowie handhabbare Interaktionsmethoden notwendig, die zusammen das in diesem Projekt erdachte anytime anywhere document analysis-Paradigma umsetzen. Erst auf diese Weise ist die Verfolgung eines zeichenbasierten Ansatzes möglich, der sich nicht technisch, sondern aus der Anwendung heraus begründet: Die Orthographie des Mittelalters war alles andere als standardisiert. Die Individualität der Schreibweisen erschwert die Anwendung gängiger Methoden der Mustererkennung wie etwa Hidden Marcov Models. Stattdessen ist ein auf Einzelzeichen basierter Ansatz notwendig. Dieser begründet sich außerdem aus der Bedeutung visueller Eigenschaften von Einzelzeichen (z.B. langes vs. rundes s), der individuellen Verwendung von Abkürzungszeichen (die alleine genommen schon helfen, Schreiber auseinanderzuhalten) sowie der Gebrauch Diplomatischer Transkriptionen, die zu einer anderen Qualität des Transkripts führen als automatische, insbesondere holistische (wortweise vorgehende) Transkriptionsmethoden. Schließlich erfordert auch die Kürze vieler historischer Dokumente, die den lernbasierten Verfahren die Voraussetzung ihrer Anwendung entziehen, namlich umfangreiche und repräsentative Beispiele für jede Handschrift zur Verfügung zu haben, die Herangehensweise von Diptychon. So zeigt sich der wissenschaftliche Fortschritt des vorliegenden Projektes sowohl inhaltlich in der Feststellung und Formulierung von Ansprüchen an technische Systeme, um die paläographisch-editorische Auswertung mittelalterlicher Handschriften effektiv und nutzerfreundlich zu unterstützen und qualitativ zu verbessern, als auch methodisch in der Entwicklung und prototypischen Umsetzung eines Systems zu einer ebensolchen technischen Unterstützung. Diese Ergebnisse stehen im Gegensatz zu jener herkömmlichen automatisierten Herangehensweise in der Digitalen Paläographie, die sich vor allem aus technischen Methoden heraus begründet. Zu Projektbeginn war davon ausgegangen worden, eine sinnvolle Separierung von Wortern in Zeichen nur für bestimmte Handschriften durchführen zu können. Mit Diptychon ist jedoch ein generischer Ansatz gefunden worden, der erst durch das anytime anywhere document analysis-Paradigma ermöglicht wird. Als Beispiel sei auf die Diptychon Homepage verwiesen, die unter anderem eine komplexe Kaiserurkunde aus dem 14. Jahrhundert zeigt, die mit Hilfe von Diptychon analysiert worden ist. Durch die Implementierung des anytime anywhere document analysis-Paradigmas gewöhnen sich Anwender nicht nur schnell daran, Diptychon zu nutzen, da es nur wenige Restriktionen gibt, die bei der Bearbeitung zu beachten sind. Vielmehr ist damit ein nicht-konventionelles, in den einzelnen Arbeitsschritten individuell einsetzbares Analysewerkzeug für Handschriften entstanden, das insbesondere nicht auf die sequentielle Analyse textueller Repräsentationen beschränkt ist. Stattdessen ermöglicht die räumlich freie Editierung die Separierung selbst über mehrere Zeilen reichender Glyphen (Initialen, Auszeichnungsschriften). Somit ist eines der häufigsten Probleme bei der automatischen Handschriftenanalyse aufgelöst worden: die Separierung selbst komplexer Ober- und Unterlängen, welche mit automatischen Textanalyse-Werkzeugen üblicherweise nicht auflösbar sind. Im Gegensatz zu Druckschriften gilt dieses Problem als eines der schwerwiegendsten in der Analyse von Handschriften.
Publications
-
(2012). Glyph spotting for mediaeval handwritings by template matching. In: Schmitz, P. et al. (Eds.): ACM Symposium on Document Engineering (DocEng 2012). Paris, France, September 4-7, 2012, ACM
J.-H. Worch, M. Lawo, B. Gottfried
-
(2014) Choosing shape features by means of genetic algorithms for glyphclustering of historical documents. International Journal of Computer Applications. 102 (3):1-6, Foundation of Computer Science
J.-H. Worch, B. Gottfried
-
(2014). Abbreviations in medieval Latin handwritings. In: O. Brockmann et al.: Natural Sciences and Technology in Manuscript Analysis, 7, 3–9, Manuscript Cultures. Universität Hamburg, SFB 950
B. Gottfried, M. Wegner, M. Spano, M. Lawo
-
(2015) Towards the interactive transcription of handwritings: anytime anywhere document analysis. International Journal on Document Analysis and Recognition (IJDAR), 18 (1), 31-45
B. Gottfried, M. Wegner, M. Lawo
-
(2015). Diptychon: A transcription assistant system for the separation of glyphs in medieval manuscript texts. In: K. Herbers und V. Trenkle (Eds.), Automatische Handschriftenerkennung und historische Dokumentenanalyse. Göttingen: res doctae. Dokumentenserver der Akademie der Wissenschaften zu Göttingen
B. Gottfried, M. Wegner, J.-H. Worch, M. Lawo