Project Details
Projekt Print View

Coordinated Funding Initiative for the Further Development of Optical Character Recognition Processes

Applicants Professor Dr. Peter Burschel, since 8/2016; Professor Dr. Martin Grötschel, since 12/2015; Barbara Schneider-Kempf, since 11/2016
Term from 2015 to 2020
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 274863866
 
Final Report Year 2020

Final Report Abstract

In den VD wurden in den letzten Jahren und Jahrzehnten große Anstrengungen unternommen, die im deutschen Sprachraum publizierten Drucke zu erfassen und zu digitalisieren. Nun sollen die Bilddigitalisate auch einer Text- und Strukturerkennung unterzogen werden, die vom OCR-D-Projekt technisch und konzeptionell vorbereitet wird. Auf Grundlage des erstellten OCR-D-Funktionsmodells wurden die Bedarfe zur Entwicklung bzw. Weiterentwicklung von Werkzeugen im OCR-Prozess ermittelt und die Voraussetzungen für die Umsetzung dieser Desiderate geschaffen. Dazu wurden mehrere Referenz- und Trainingskorpora erstellt, die zahlreiche für die Text- und Strukturerkennung relevante Phänomene frühneuzeitlicher Texte abdecken. Ergänzt werden diese durch umfassende Richtlinien, die Standards für die Erstellung von GT festlegen. Die benötigten Werkzeuge wurden in der zweiten Projektphase von acht MP entwickelt, die vom KP umfassend, u.a. durch regelmäßige Absprachen und die Veranstaltung mehrerer gemeinsamer Workshops, betreut wurden. Um die Nutzbarkeit und Interoperabilität der verschiedenen OCR-D-Komponenten zu gewährleisten, hat das KP auf Grundlage etablierter Standards zudem Spezifikationen definiert27 und mit dem OCR-D/core Framework eine Referenzimplementierung in Python zur Verfügung gestellt. Der in dieser Gemeinschaftsarbeit entstandene OCR-D-Prototyp ist als Open Source Software zur kostenfreien Nutzung und Weiterentwicklung unter der Apache 2.0 Lizenz auf der Plattform GitHub bereitgestellt. In Tests sowohl des KP selbst anhand der vorhandenen GT, als auch durch neun Pilotbibliotheken um die Jahreswende 2019/20 wurden die Robustheit des Prototypen bestätigt und gute Erkennungsergebnisse erzielt. Auch wenn die OCR-D-Software durch ihr derzeitiges Stadium als Prototyp noch nicht alle Anforderungen der Pilotbibliotheken erfüllen kann, hat sich doch gezeigt, dass die geplanten Funktionen und Grundprinzipien der Software mit den Bedürfnissen der Bibliotheken übereinstimmen. Damit sind die grundlegenden Voraussetzungen dafür geschaffen, dass OCR-D von (VD-)Bibliotheken und weiteren Einrichtungen akzeptiert und nach dessen Implementierung produktiv eingesetzt wird. Neben dem entwickelten Prototypen hat das OCR-D-KP mit seinen Vorschlägen zur Überarbeitung der DFG-Praxisregeln sowie einem ersten Konzept zur Volltexttransformation der VD zudem eine konzeptionelle Basis für die geplante umfassende Volltexterkennung der VD-Titel geschaffen, die mit allen Beteiligten diskutiert wurde und in der Folge weiter verbessert und abgestimmt werden kann.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung