Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR), Koordinierungsprojekt

Antragstellerinnen / Antragsteller Professor Dr. Peter Burschel, seit 8/2016; Professor Dr. Martin Grötschel, seit 12/2015; Barbara Schneider-Kempf, seit 11/2016

Förderung Förderung von 2015 bis 2020

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 274863866

Erstellungsjahr 2020

Zusammenfassung der Projektergebnisse

In den VD wurden in den letzten Jahren und Jahrzehnten große Anstrengungen unternommen, die im deutschen Sprachraum publizierten Drucke zu erfassen und zu digitalisieren. Nun sollen die Bilddigitalisate auch einer Text- und Strukturerkennung unterzogen werden, die vom OCR-D-Projekt technisch und konzeptionell vorbereitet wird. Auf Grundlage des erstellten OCR-D-Funktionsmodells wurden die Bedarfe zur Entwicklung bzw. Weiterentwicklung von Werkzeugen im OCR-Prozess ermittelt und die Voraussetzungen für die Umsetzung dieser Desiderate geschaffen. Dazu wurden mehrere Referenz- und Trainingskorpora erstellt, die zahlreiche für die Text- und Strukturerkennung relevante Phänomene frühneuzeitlicher Texte abdecken. Ergänzt werden diese durch umfassende Richtlinien, die Standards für die Erstellung von GT festlegen. Die benötigten Werkzeuge wurden in der zweiten Projektphase von acht MP entwickelt, die vom KP umfassend, u.a. durch regelmäßige Absprachen und die Veranstaltung mehrerer gemeinsamer Workshops, betreut wurden. Um die Nutzbarkeit und Interoperabilität der verschiedenen OCR-D-Komponenten zu gewährleisten, hat das KP auf Grundlage etablierter Standards zudem Spezifikationen definiert27 und mit dem OCR-D/core Framework eine Referenzimplementierung in Python zur Verfügung gestellt. Der in dieser Gemeinschaftsarbeit entstandene OCR-D-Prototyp ist als Open Source Software zur kostenfreien Nutzung und Weiterentwicklung unter der Apache 2.0 Lizenz auf der Plattform GitHub bereitgestellt. In Tests sowohl des KP selbst anhand der vorhandenen GT, als auch durch neun Pilotbibliotheken um die Jahreswende 2019/20 wurden die Robustheit des Prototypen bestätigt und gute Erkennungsergebnisse erzielt. Auch wenn die OCR-D-Software durch ihr derzeitiges Stadium als Prototyp noch nicht alle Anforderungen der Pilotbibliotheken erfüllen kann, hat sich doch gezeigt, dass die geplanten Funktionen und Grundprinzipien der Software mit den Bedürfnissen der Bibliotheken übereinstimmen. Damit sind die grundlegenden Voraussetzungen dafür geschaffen, dass OCR-D von (VD-)Bibliotheken und weiteren Einrichtungen akzeptiert und nach dessen Implementierung produktiv eingesetzt wird. Neben dem entwickelten Prototypen hat das OCR-D-KP mit seinen Vorschlägen zur Überarbeitung der DFG-Praxisregeln sowie einem ersten Konzept zur Volltexttransformation der VD zudem eine konzeptionelle Basis für die geplante umfassende Volltexterkennung der VD-Titel geschaffen, die mit allen Beteiligten diskutiert wurde und in der Folge weiter verbessert und abgestimmt werden kann.

Projektbezogene Publikationen (Auswahl)

Labelling OCR Ground Truth for Usage in Repositories, in: Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage, Brüssel 09.05.2019, S. 3–8
Boenig, Matthias; Baierer, Konstantin; Hartmann, Volker; Federbusch, Maria & Neudecker, Clemens
OCR(-D) und Kitodo, Kitodo Anwenderworkshop, Hamburg 19.11.2019
Baierer, Konstantin; Engl, Elisabeth; Luetgen, Michael
OCR-D: An end-to-end open source OCR framework for historical documents, in: EuropeanaTech Insight (13), 31.07.2019
Neudecker, Clemens; Baierer, Konstantin; Federbusch, Maria; Würzner, Kay-Michael; Boenig, Matthias; Herrmann, Elisa; Hartmann, Volker
OCR-D: An end-to-end open-source OCR framework for historical documents, in: Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage, Brüssel 09.05.2019, S. 53–58
Neudecker, Clemens; Baierer, Konstantin; Federbusch, Maria; Boenig, Matthias; Würzner, Kay-Michael; Hartmann, Volker & Herrmann, Elisa
okralact – a multi-engine Open Source OCR training system, 5. internationaler Workshop zu Historical Document Imaging and Processing HIP 2019 als Teil der ICDAR 2019, Sydney 20.09.2019
Baierer, Konstantin; Dong, Rui & Neudecker, Clemens
okralact – a multi-engine Open Source OCR training system, in: Proceedings of the 5th International Workshop on Historical Document Imaging and Processing, Sydney 20.09.2019, S. 25–30
Baierer, Konstantin; Dong, Rui & Neudecker, Clemens
Die OCR-D-Workflowengine, 2. Workshop Retrodigitalisierung zu Effizienz und Qualitätssicherung in Digitalisierungsworkflows, Hannover 18.02.2020
Engl, Elisabeth
OCR-D in the wild: Erfahrungen und Erkenntnisse aus der Praxisphase mit Bibliotheken, vbib2020, 26.05.2020
Engl, Elisabeth
Volltexte – die Zukunft alter Drucke. Bericht zum Abschlussworkshop des OCR-D-Projekts, in: o-bib 7 (2), S. 1-4. Online
Engl, Elisabeth; Boenig, Matthias; Baierer, Konstantin; Hartmann, Volker; Neudecker, Clemens
Volltexttransformation frühneuzeitlicher Drucke - Ergebnisse und Perspektiven des OCR-D- Projekts, DHd 2020, 05.03.2020
Baierer, Konstantin; Neudecker, Clemens
Volltexttransformation frühneuzeitlicher Drucke - Ergebnisse und Perspektiven des OCR-D-Projekts, in: DHd 2020: Spielräume - Digital Humanities zwischen Modellierung und Interpretation. Konferenzabstracts, S. 244-247
Boenig, Matthias; Engl, Elisabeth; Baierer, Konstantin; Hartmann, Volker; Neudecker, Clemens

Servicenavigation

Hauptnavigation

Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR), Koordinierungsprojekt

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR), Koordinierungsprojekt

Zusammenfassung der Projektergebnisse

Projektbezogene Publikationen (Auswahl)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung