Training of machine-learning based procedures for automated postcorrection of OCRed historical printings
General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Final Report Abstract
Das Projekt untersuchte geeignete Formen des Trainings von Modellen zur Nachkorrektur OCR-erfasster historischer Texte. Für den ursprünglichen Arbeitsplan dienten parallele Forschungsergebnisse zum Trainieren von OCR-Erkennungsmodellen in Teilen als Vorlage. Die Forschungsarbeiten zeigten jedoch, dass hinsichtlich der besten Vorgehensweisen beim Trainieren von OCR-Erkennungsverfahren einerseits und beim Trainieren von Nachkorrekturmodellen wichtige Unterschiede bestehen. Bei der Nachkorrektur ergaben sich durch die Verwendung unterschiedlicher Arten von Trainingsdaten nur kleinere Unterschiede; der Vorteil kleinerer spezieller Daten beim Training spezieller Modelle wird durch die Verwendung deutlich umfangreicherer Daten beim Training von allgemeinen Modellen wettgemacht. Wenig Ansatzpunkte ergeben sich bislang für Verfahren zur Kombination von Nachkorrekturmodellen. Gleichzeitig wurden wichtige Faktoren beim Trainieren der Nachkorrekturmodelle ausgemacht, die die Leistungsstärke der Modelle positiv beeinflussen. So wurden zwei neue Features zur Beschreibung und Bewertung von Korrekturvorschlägen entwickelt, die zu einer verbesserten Nachkorrektur führen. Es zeigte sich, dass bei Verwendung von A-PoCoTo die beim Profilieren der Dokumente verwendeten historischen Hintergrundlexika und andere Profiler-Einstellungen von entscheidender Bedeutung sind. Hieraus ergibt sich die wichtige allgemeine Einsicht, dass durch eine systematische Verbesserung der bislang nur in Ansätzen entwickelten Lexika für historische Sprachvarianten eine weitere Qualitätsverbesserung der Nachkorrektur zu erwarten ist. Als wichtiges praktisches Resultat hervorzuheben ist, dass in Folge der im Projekt gefundenen Verbesserungen ein festes, mit umfangreichen Ground-Truth-Daten entwickeltes "allgemeines" Nachkorrekturmodell gefunden wurde, welches in der Lage ist, die OCR-Qualität beliebiger historischer OCR-erfasster Texte fast immer zu verbessern. In den Experimenten konnten durch die Nachkorrektur mit diesem Modell 65 von 67 getesteten OCR-Dokumenten verbessert werden. Die realen Möglichkeiten der Nachkorrektur lagen vor den hier durchgeführten Tests weitgehend im Dunkeln, so dass hier durchaus ein erheblicher Erkenntnisgewinn vorliegt. Weitere Experimente zeigten, dass sich unter den verbleibenden Nachkorrekturfehlern viele falsche Freunde (real-word errors) sowie irreparable Tokenisierungsfehler (Merges und Splits) der OCR-Erkennung befinden. Tests am Ende des Projekts unterstrichen, dass die Nachkorrektur derartiger Fehler extrem schwierig ist und eine verbesserte Erkennung solcher Fehler voraussetzen würde.
