Detailseite
Workflow für werkspezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground-Truth-Aufwertung
Antragstellerin
Dr. Sabine Gehrlein
Förderung
Förderung von 2021 bis 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460547474
Im Projekt wird ein Workflow implementiert, der es Einrichtungen so einfach wie möglich macht, werkspezifische Modelle mit besonders hoher Erkennungsrate und domänenspezifischen Glyphen für die Texterkennung mit OCR-D zu trainieren. Basis für dieses Training sind vorhandene und neue generische Modelle, die ein breites Spektrum von Schriften unterschiedlicher Jahrhunderte abdecken. Die Erstellung bzw. Verbesserung der dafür notwendigen Ground Truth soll durch Werkzeuge unterstützt werden, die helfen, Fehler in der Ground Truth zu finden, einfach zu korrigieren und auf Level 2 gemäß OCR-D-Transkriptionsrichtlinien aufzuwerten.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortlich
Stefan Weil