Detailseite
Projekt Druckansicht

Erkennung von Schriftartgruppen zur OCR Verbesserung

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Germanistische Literatur- und Kulturwissenschaften (Neuere deutsche Literatur)
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460605811
 
OCR-D steht mit seiner Aufgabe OCR für die massenhaft digitalisierten deutschen Drucke des 16. bis 18. Jahrhunderts zu ermöglichen – trotz großer Fortschritte in der letzten Projektphase – immer noch vor zwei zentralen Problemen: Die große Vielfalt dieses Materials macht es äußerst schwer generische OCR-Modelle zu trainieren, die für alle Drucke gleichermaßen zufriedenstellende Ergebnisse liefern. Eine händische Auswahl spezialisierter Modelle verbietet sich aber, da in Anbetracht der Menge des Materials der Workflow von OCR-D i.d.R. vollautomatisch ablaufen muss. Verschärft wird diese Situation durch eine durchwegs unbefriedigende Versorgung mit OCR-Trainingsdaten, die bisher weit überwiegend aus Frakturtexten, v.a. des 19. Jahrhunderts bestehen, was die typographische Bandbreite der drei vorangegangenen Jahrhunderte nicht im Ansatz abdeckt.Vor diesem Hintergrund und in Antwort auf Bedarfsmeldungen der SLUB Dresden sowie der ULB Halle schlagen wir vor diesen Zustand wenn nicht gänzlich zu lösen, so doch deutlich zu verbessern indem wir 1) unsere in der letzten Runde erfolgreich entwickelte Schriftarterkennung weiterentwickeln und so feingranular einsetzbar machen, dass sie auf Zeichenebene eingesetzt werden kann;2) repräsentativ ausgewählte OCR-Trainingsdaten für das 16.–18. Jahrhundert transkribieren, die auch Schriften wie Schwabacher und andere Bastarden sowie alte Frakturstile besser abbilden;3) schriftspezifische OCR-Modelle, sowie integrierte Modelle erstellen, die gleichzeitig Schrift und Text erkennen; ein Ansatz der auch schon in anderen Kontexten dafür gesorgt hat, dass die jeweiligen Einzelaufgaben höhere Genauigkeiten erlangten, da so mögliches Overfitting während des Trainings vermindert werden kann. Ergebnis des Projekts wäre eine deutlich verbesserte OCR-Qualität insbesondere für Drucke in Nicht-Frakturschriften, ein qualitativ hochwertiger und für diesen Kontext hochrelevanter Trainigsdatensatz, der langfristig nachnutzbar ist, sowie eine feingranularere Schriftarterkennung, die jenseits der Ermöglichung von schriftartspezifischer OCR auch wichtige Anwendungsgebiete in der Erkennung von Textattributen und der Layoutanalyse hat.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Ehemaliger Antragsteller Privatdozent Dr. Christoph Reske, bis 10/2021
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung