Detailseite
Robuste und performante Verfahren für die Layoutanalyse in OCR-D
Antragstellerinnen / Antragsteller
Professor Dr. Achim Bonte; Privatdozent Dr. Christian Reul; Katrin Stump
Fachliche Zuordnung
Wissenschaftsgeschichte
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 517459941
Das Vorhaben hat zum Ziel, Qualität und Robustheit der Layoutanalyse für historische Dokumente zu verbessern und damit deren Praxistauglichkeit für die Massendigitalisierung sicherzustellen. Dazu werden bestehende Ansätze optimiert und erweitert, sowie vielversprechende neue Verfahren integriert. Zunächst dient eine stichprobenbasierte Analyse der Verzeichnisse der im deutschen Sprachbereich erschienenen Drucke des 16./17.18. Jh. (VD) dazu, diejenigen Klassen von Dokumenten zu identifizieren (und zu quantifizieren), für die die Ergebnisse der Layoutanalyse bislang noch unzureichend sind. Ebenfalls sollen geeignete Trainingsdaten identifiziert und harmonisiert, sowie deren Aufbereitung und Erstellung effizienter organisiert werden. Den Schwerpunkt der Arbeiten stellt die Weiterentwicklung komplementärer Verfahren für die Layoutanalyse dar. Zum einen soll durch die Optimierung generischer Verfahren und Modelle eine breite Abdeckung für möglichst viele Dokumente in den VD erzielt werden. Zum anderen wird dies durch Ansätze ergänzt, die ermittelte Schwachstellen gezielt adressieren helfen, indem sie die Anpassbarkeit der Verfahren und Modelle für neue Materialien und Herausforderungen deutlich verbessern. Weiterhin werden Heuristiken (weiter)entwickelt, um Ergebnisse unterschiedlicher Deep-Learning-Verfahren regelbasiert zu optimieren. Begleitet werden die Entwicklungen durch eine detaillierte Evaluation, für die wissenschaftliche Standard-Metriken und Werkzeuge zur Layout-Evaluation in OCR-D integriert bzw. implementiert werden. Nicht zuletzt gilt es sicherzustellen, dass sämtliche Verfahren als modulare Komponenten mit OCR-D-Schnittstellen für einzelne Verarbeitungsschritte ausgestattet werden. Dies erlaubt es, einerseits die Verfahren zur Erzielung bestmöglicher Ergebnisse flexibel miteinander zu kombinieren und andererseits die Anpassbarkeit und Zukunftssicherheit im Hinblick auf neue Entwicklungen zu gewährleisten.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)