Detailseite
Projekt Druckansicht

Entwicklung eines Modellrepositoriums und einer Automatischen Schriftarterkennung für OCR-D

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Frühneuzeitliche Geschichte
Neuere und Neueste Geschichte (einschl. Europäische Geschichte der Neuzeit und Außereuropäische Geschichte)
Theater- und Medienwissenschaften
Förderung Förderung von 2018 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 394448308
 
Das Projekt widmet sich dem Problem, dass OCR für die Massenvolltextdigitalisierung historischer Drucke des 16.–18. Jahrhunderts, die dank VD16, VD17 und VD18 in immer größerer Zahl als Bilddigitalisate vorliegen, mit stark variierenden Erkennungsquoten bisher nur eingeschränkt verwendbar ist. Ein wichtiger Grund ist, dass Erkennungsmodelle entweder auf Basis moderner Korpora trainiert werden, die die Spezifika historischer Drucke nicht abbilden, oder auf Basis ungefilterter historischer Korpora, deren große Bandbreite verwendeter Schriftarten, Zeichensätze etc. ein passgenaues Training ausschließt und damit auch Erkennungsquoten verhindert, wie sie inzwischen für Bilddigitalisate moderner Vorlagen möglich sind. Die Bildung von schriftartspezifischen Korpora auf Basis händischer Zuweisung ist nicht realistisch, da dafür nicht triviale Kenntnisse der Druckgeschichte vonnöten sind und eine derartige Vorgehensweise schlecht skaliert. Aufgrund der repetitiven Aufgabe ist dies auch sehr fehleranfällig. Das Projekt möchte den historisch arbeitenden Geisteswissenschaften ermöglichen, OCR mit überschaubarem Aufwand schriftartspezifisch zu verwenden, d.h. für die Schriftart passgenaue OCR durchzuführen. Dafür verfolgt das Projekt drei Teilziele:Die Entwicklung einer Online-Trainingsinfrastruktur, die es ermöglicht, für diese Schriftartgruppen spezifische Modelle mit überschaubarem Aufwand online und gleichzeitig für verschiedene OCR-Software zu trainieren.Entwicklung eines Tools zur automatischen Erkennung von Schriftarten in Bilddigitalisaten historischer Drucke. Hier wird zunächst mithilfe der im Typenrepertorium der Wiegendrucke vorliegenden Ground Truth ein Algorithmus für die Erkennung von Schriften in Inkunabeln trainiert. In einem zweiten Schritt werden die Schriftarten nach Ähnlichkeit so gruppiert, dass bei möglichst geringer Anzahl von Gruppierungen die OCR-Genauigkeit nicht wesentlich reduziert wird.Bereitstellung eines Modellrepositoriums, in dem erarbeitete schriftartspezifische OCR-Modelle der Community zur Verfügung gestellt werden.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Ehemaliger Antragsteller Professor Dr. Gregory R. Crane, Ph.D., bis 11/2019
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung