Detailseite
Erkennung von Schriftartgruppen zur OCR Verbesserung
Antragsteller
Dr.-Ing. Vincent Christlein; Professor Dr. Nikolaus Weichselbaumer, seit 11/2021
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Germanistische Literatur- und Kulturwissenschaften (Neuere deutsche Literatur)
Germanistische Literatur- und Kulturwissenschaften (Neuere deutsche Literatur)
Förderung
Förderung von 2021 bis 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460605811
OCR-D steht mit seiner Aufgabe OCR für die massenhaft digitalisierten deutschen Drucke des 16. bis 18. Jahrhunderts zu ermöglichen – trotz großer Fortschritte in der letzten Projektphase – immer noch vor zwei zentralen Problemen: Die große Vielfalt dieses Materials macht es äußerst schwer generische OCR-Modelle zu trainieren, die für alle Drucke gleichermaßen zufriedenstellende Ergebnisse liefern. Eine händische Auswahl spezialisierter Modelle verbietet sich aber, da in Anbetracht der Menge des Materials der Workflow von OCR-D i.d.R. vollautomatisch ablaufen muss. Verschärft wird diese Situation durch eine durchwegs unbefriedigende Versorgung mit OCR-Trainingsdaten, die bisher weit überwiegend aus Frakturtexten, v.a. des 19. Jahrhunderts bestehen, was die typographische Bandbreite der drei vorangegangenen Jahrhunderte nicht im Ansatz abdeckt.Vor diesem Hintergrund und in Antwort auf Bedarfsmeldungen der SLUB Dresden sowie der ULB Halle schlagen wir vor diesen Zustand wenn nicht gänzlich zu lösen, so doch deutlich zu verbessern indem wir 1) unsere in der letzten Runde erfolgreich entwickelte Schriftarterkennung weiterentwickeln und so feingranular einsetzbar machen, dass sie auf Zeichenebene eingesetzt werden kann;2) repräsentativ ausgewählte OCR-Trainingsdaten für das 16.–18. Jahrhundert transkribieren, die auch Schriften wie Schwabacher und andere Bastarden sowie alte Frakturstile besser abbilden;3) schriftspezifische OCR-Modelle, sowie integrierte Modelle erstellen, die gleichzeitig Schrift und Text erkennen; ein Ansatz der auch schon in anderen Kontexten dafür gesorgt hat, dass die jeweiligen Einzelaufgaben höhere Genauigkeiten erlangten, da so mögliches Overfitting während des Trainings vermindert werden kann. Ergebnis des Projekts wäre eine deutlich verbesserte OCR-Qualität insbesondere für Drucke in Nicht-Frakturschriften, ein qualitativ hochwertiger und für diesen Kontext hochrelevanter Trainigsdatensatz, der langfristig nachnutzbar ist, sowie eine feingranularere Schriftarterkennung, die jenseits der Ermöglichung von schriftartspezifischer OCR auch wichtige Anwendungsgebiete in der Erkennung von Textattributen und der Layoutanalyse hat.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Ehemaliger Antragsteller
Privatdozent Dr. Christoph Reske, bis 10/2021