Detailseite
Projekt Druckansicht

Workflow für werkspezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground-Truth-Aufwertung

Antragstellerin Dr. Sabine Gehrlein
Förderung Förderung von 2021 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460547474
 
Im Projekt wird ein Workflow implementiert, der es Einrichtungen so einfach wie möglich macht, werkspezifische Modelle mit besonders hoher Erkennungsrate und domänenspezifischen Glyphen für die Texterkennung mit OCR-D zu trainieren. Basis für dieses Training sind vorhandene und neue generische Modelle, die ein breites Spektrum von Schriften unterschiedlicher Jahrhunderte abdecken. Die Erstellung bzw. Verbesserung der dafür notwendigen Ground Truth soll durch Werkzeuge unterstützt werden, die helfen, Fehler in der Ground Truth zu finden, einfach zu korrigieren und auf Level 2 gemäß OCR-D-Transkriptionsrichtlinien aufzuwerten.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortlich Stefan Weil
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung