Detailseite
Projekt Druckansicht

Entwicklung eines webbasierten Systems zur Nachkorrektur historischer OCR-erfasster Texte

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Germanistische Mediävistik (Ältere deutsche Literatur)
Förderung Förderung von 2016 bis 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 314731081
 
Im Projekt soll ein webbasiertes Tool/System zur Nachkorrektur historischer OCR-erfasster Texte entwickelt werden. Erst mit Hilfe einer Nachkorrektur wird eine prinzipiell fehlerbehaftete OCR-Erkennung historischer Drucke für viele Anwendungen in den Geisteswissenschaften und Digital Humanities nutzbar. Eine nicht-webfähige Desktopversion eines solchen Systems, die als Vorlage dienen soll, wurde am CIS als Open Source Software PoCoTo (Post Correction Tool) entwickelt. Ein besonderes Merkmal besteht in der integrierten, speziellen Sprachtechnologie zur Erkennung von Fehlern und Fehlerserien in OCR-Dokumenten mit historischer Sprache und in der bequemen Visualisierung von Originalbild und Erkennungsergebnissen. PoCoTo wurde einer breiten Öffentlichkeit zugänglich gemacht und wird derzeit bereits in einer ganzen Reihe von Digital-Humanities-Projekten in Deutschland erfolgreich zur Nachkorrektur eingesetzt. Konkreten Anwenderwünschen folgend, soll nach diesem Modell nun ein webbasiertes und mehrbenutzerfähiges System als Open Source Software entwickelt und distribuiert werden, um damit die Nachkorrektur von einer nur lokal auf dem eigenen Rechner ausführbaren Software zur einer Komponente einer serverbasierten Infrastruktur für einen institutionellen OCR-Workflow auszubauen. Als weitere Projektziele sind Weiterentwicklungen geplant.Über die derzeit integrierte Sprachtechnologie hinaus, sollen erfolgte Benutzereingaben dazu verwendet werden, um im Hintergrund ein ständig verbessertes, statistisches Profil des OCR-Dokuments und der vermutlichen Fehler zu berechnen, wodurch die Fehlerkorrektur weiter erleichtert wird.Einfache Erweiterungen eines lateinischen Vollformenlexikons sollen die Voraussetzung schaffen, die Sprachtechnologie (statistische Profilierung) auch für die Nachkorrektur lateinischer OCR-erfasster Texte voll einsetzbar zu machen.Die Flexibilität des Systems hinsichtlich der verwendbaren OCR-Engines soll erhöht werden (Verwendung von OCRopus zusätzlich zu Abbyy-Finereader und Tesseract). Im Rahmen der bevorstehenden DFG-Initiative zur OCR sind ggfs. später (Nachfolgeantrag) weitere Ausbaustufen des Systems sowie Kooperationen mit anderen Gruppen geplant.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung