Detailseite
Projekt Druckansicht

OPERANDI - OCR-D Performanzoptimierung und Integration. Ein Implementierungspaket der OCR-D-Software für die Massendigitalisierung

Fachliche Zuordnung Theoretische Informatik
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460609319
 
Das Ziel des Vorhabens ist die Entwicklung und der Aufbau eines auf OCR-D basierenden Implementierungspaketes zur Massenvolltexterfassung mit verbessertem Durchsatz, bei besserer Qualität der Ergebnisse. Zugleich wird das Ziel verfolgt, dass das Implementierungspaket auch von anderen Vorhaben und Einrichtungen mit vergleichbaren Anforderungen nachgenutzt werden kann. Im Rahmen der Pilotierung wurden zwei Szenarien identifiziert. Im ersten Szenario soll die OCR-Erzeugung für bereits digitalisierte Werke stattfinden, was in einer Massendigitalisierung mündet. Im zweiten Szenario erfolgt die OCR-Erzeugung für neue zu digitalisierende Werke im Rahmen des Digtalisierungsprozesses. Um beide Szenarien bedienen zu können, zielt das Vorhaben darauf ab, eine performante, skalierbare Implementierung für die Massendigitalisierung zusammenzustellen. Diese wird auf einem Hochleistungsrechner ausgeführt und unterstützt adaptive, parallelisierte Workflows. Zudem werden ergänzende Aufgaben berücksichtigt, wie z.B. Datenhandling, Taskmanagement und -priorisierung, Fehlerbehandlung, synchrone/asynchrone Interprozesskommunikation durch Schnittstellen, Lastverteilung, Authentifizierung und Autorisierung. Besonderes Augenmerk wird dabei sowohl auf die Parallelverarbeitung performance-kritischer Prozesse des Workflows, als auch auf die Integration der OCR-D Software in die Digitalisierungssoftware gelegt. Dabei werden die Anforderungen der VD-Partnerbibliotheken, der weiteren Projekte aus der dritten Phase von OCR-D sowie der Goobi-/Kitodo-Community berücksichtigt.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortlich Professor Dr. Philipp Wieder
Ehemaliger Antragsteller Professor Dr. Wolfram Horstmann, bis 12/2023
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung