Detailseite
Projekt Druckansicht

"Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke" Modul 2: Layouterkennung

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2018 bis 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 394346204
 
Das Projekt “Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke” hat die Entwicklung eines vollständigen OCR-Workflows für eine qualitativ hochwertige Massendigitalisierung historischer Drucke des 16. - 18. Jhd. als Ziel. Dabei sollen für alle Arbeitsschritte des Workflows innovative Methoden als Werkzeug bereitgestellt werden. Modul 2 “Layouterkennung” ist neben der OCR der wichtigste Bearbeitungsschritt. Eine korrekte Layouterkennung kann nicht nur die Ergebnisse im Anschließenden OCR verbessern, sondern trägt mit Informationen über Layout und Zusammenhang der einzelnen Textelemente, auch maßgeblich zum Verständnis des digitalisierten Dokuments bei. Für die benötigten Bearbeitungsschritte stehen eine Vielzahl von Methoden zur Verfügung, aber nicht alle sind für die speziellen Anforderungen dieses Projekts, für historische Drucke, geeignet. Auf Basis eigener Erfahrungen und Arbeiten im Bereich der Layoutanalyse plant das DFKI die Identifizierung, Entwicklung und Integrierung geeigneter Algorithmen.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortlich Dr.-Ing. Syed Saqib Bukhari
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung