Detailseite
Entwicklung eines Modellrepositoriums und einer Automatischen Schriftarterkennung für OCR-D
Antragsteller
Professor Dr. Manuel Burghardt, seit 11/2019; Professor Dr.-Ing. Andreas Maier; Professor Dr. Nikolaus Weichselbaumer
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Frühneuzeitliche Geschichte
Neuere und Neueste Geschichte (einschl. Europäische Geschichte der Neuzeit und Außereuropäische Geschichte)
Theater- und Medienwissenschaften
Frühneuzeitliche Geschichte
Neuere und Neueste Geschichte (einschl. Europäische Geschichte der Neuzeit und Außereuropäische Geschichte)
Theater- und Medienwissenschaften
Förderung
Förderung von 2018 bis 2020
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 394448308
Das Projekt widmet sich dem Problem, dass OCR für die Massenvolltextdigitalisierung historischer Drucke des 16.–18. Jahrhunderts, die dank VD16, VD17 und VD18 in immer größerer Zahl als Bilddigitalisate vorliegen, mit stark variierenden Erkennungsquoten bisher nur eingeschränkt verwendbar ist. Ein wichtiger Grund ist, dass Erkennungsmodelle entweder auf Basis moderner Korpora trainiert werden, die die Spezifika historischer Drucke nicht abbilden, oder auf Basis ungefilterter historischer Korpora, deren große Bandbreite verwendeter Schriftarten, Zeichensätze etc. ein passgenaues Training ausschließt und damit auch Erkennungsquoten verhindert, wie sie inzwischen für Bilddigitalisate moderner Vorlagen möglich sind. Die Bildung von schriftartspezifischen Korpora auf Basis händischer Zuweisung ist nicht realistisch, da dafür nicht triviale Kenntnisse der Druckgeschichte vonnöten sind und eine derartige Vorgehensweise schlecht skaliert. Aufgrund der repetitiven Aufgabe ist dies auch sehr fehleranfällig. Das Projekt möchte den historisch arbeitenden Geisteswissenschaften ermöglichen, OCR mit überschaubarem Aufwand schriftartspezifisch zu verwenden, d.h. für die Schriftart passgenaue OCR durchzuführen. Dafür verfolgt das Projekt drei Teilziele:Die Entwicklung einer Online-Trainingsinfrastruktur, die es ermöglicht, für diese Schriftartgruppen spezifische Modelle mit überschaubarem Aufwand online und gleichzeitig für verschiedene OCR-Software zu trainieren.Entwicklung eines Tools zur automatischen Erkennung von Schriftarten in Bilddigitalisaten historischer Drucke. Hier wird zunächst mithilfe der im Typenrepertorium der Wiegendrucke vorliegenden Ground Truth ein Algorithmus für die Erkennung von Schriften in Inkunabeln trainiert. In einem zweiten Schritt werden die Schriftarten nach Ähnlichkeit so gruppiert, dass bei möglichst geringer Anzahl von Gruppierungen die OCR-Genauigkeit nicht wesentlich reduziert wird.Bereitstellung eines Modellrepositoriums, in dem erarbeitete schriftartspezifische OCR-Modelle der Community zur Verfügung gestellt werden.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortliche
Dr.-Ing. Vincent Christlein; Benjamin Kiessling; Privatdozent Dr. Christoph Reske
Ehemaliger Antragsteller
Professor Gregory R. Crane, Ph.D., bis 11/2019