Detailseite
"Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke" Modul 2: Layouterkennung
Antragsteller
Professor Dr. Andreas Dengel
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2018 bis 2019
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 394346204
Das Projekt “Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke” hat die Entwicklung eines vollständigen OCR-Workflows für eine qualitativ hochwertige Massendigitalisierung historischer Drucke des 16. - 18. Jhd. als Ziel. Dabei sollen für alle Arbeitsschritte des Workflows innovative Methoden als Werkzeug bereitgestellt werden. Modul 2 “Layouterkennung” ist neben der OCR der wichtigste Bearbeitungsschritt. Eine korrekte Layouterkennung kann nicht nur die Ergebnisse im Anschließenden OCR verbessern, sondern trägt mit Informationen über Layout und Zusammenhang der einzelnen Textelemente, auch maßgeblich zum Verständnis des digitalisierten Dokuments bei. Für die benötigten Bearbeitungsschritte stehen eine Vielzahl von Methoden zur Verfügung, aber nicht alle sind für die speziellen Anforderungen dieses Projekts, für historische Drucke, geeignet. Auf Basis eigener Erfahrungen und Arbeiten im Bereich der Layoutanalyse plant das DFKI die Identifizierung, Entwicklung und Integrierung geeigneter Algorithmen.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortlich
Dr.-Ing. Syed Saqib Bukhari