Development of a web-based system for the postcorrection of historical OCR'ed texts
German Medieval Studies (Medieval German Literature)
Final Report Abstract
Die Hauptzielsetzung des Projekts bestand darin, das als Desktop-Applikation vorliegende System PoCoTo zur interaktiven Nachkorrektur OCR-erfasster historischer Texte zu einem webbasierten System weiterzuentwickeln. Das Ziel wurde vollständig erreicht. Das neue Tool Web-PoCoTo, mit dem nun Dokumentkollektionen gemeinsam durch mehrere Nutzer webbasiert nachkorrigiert werden können, wurde nach dem Abschluss der Implementierungsarbeiten Ende Oktober 2017 auf Github unter einer Apache 2.0 Lizenz veröffentlicht. Die umfangreichen Komfort-Funktionalitäten des Vorgängertools stehen auch im neuen Tool wieder zur Verfügung: hierzu zählen die grafische Benutzerschnittstelle mit Parallelsicht auf OCR-Ergebnisse und Originaldokumente, die Hinweise auf vermutete OCR-Fehler und Fehlerserien sowie die Anzeige plausibler Korrekturvorschläge. Auch die drei Nebenziele des Antrags konnten vollständig umgesetzt werden: der in PoCoTo integrierte Webservice zur Berechnung eines statistischen Profils vermuteter Fehler und Fehlerserien wurde dagingehend adaptiv erweitert, dass erfolgte Korrekturen von Tokens eines Dokuments durch den Benutzer zur Berechnung eines verbesserten Profils genutzt werden können, welches die interaktive Nachkorrektur weiter erleichtert. Eine Publikation mit der Beschreibung dieser Ergebnisse wurde auf der DA-TeCH 2017 mit dem Best Paper Award ausgezeichnet. Die linguistischen Ressourcen zur Profilierung lateinischer Texte wurden erheblich verbessert, so dass nun mit dem neuen Web-PoCoTo System auch eine gute Profilierung lateinischer Texte angeboten wird. Anders als im Vorgängersystem ist in neuen System auch die Nachkorrektur von Dokumenten, die mit OCROpus erfasst wurden, möglich. Die bestehenden Kontakte zur Community wurden durch mehrere Workshops sowie durch die Pflege individueller Kontakte zu Anwendern weiter vertieft.
Publications
-
Automatic quality evaluation and (semi-) automatic improvement of OCR models for historical printings. 2016
Uwe Springmann, Florian Fink, and Klaus U. Schulz
-
LatMor: A Latin Finite-State Morphology Encoding Vowel Quantity. Open Linguistics 2(1), 2016, p. 386392
Uwe Springmann, Helmut Schmid, and Dietmar Najock
-
Profiling of OCR’ed Historical Texts Revisited. Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage, DATeCH2017, ACM Digital Library 3078096, p. 61-66 [Best paper anward]
Florian Fink, Klaus U. Schulz, and Uwe Springmann