Project Details
Projekt Print View

Domänen- und dokumentenadaptive Verfahren zur Nachkorrektur von OCR-Ergebnissen

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term from 2004 to 2010
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 5419670
 
Die Konvertierung von Papierdokumenten in ein textuelles elektronisches Format ist ein zentraler Schritt bei der Archivierung von Dokumenten in Firmen, Organisationen und im Verlagswesen. Trotz der hohen Leistungsfähigkeit kommerzieller OCR-Systeme ist die verbleibende Fehlerrate bei fehlerkritischen Anwendungen aber oft inakzeptabel. Bislang entwickelte Verfahren zur interaktiven oder automatischen Nachkorrektur von OCR-Ergebnissen tragen zu einer Verbesserung bei, lassen jedoch Domäne und spezifische Eigenschaften des einzelnen Dokuments bei der Auswahl von Korrekturvorschlägen weitgehend unberücksichtigt, worunter die Qualität der Nachkorrektur leidet. Im Projekt sollen Verfahren entwickelt werden, mit denen in dynamischer Weise domänen- und dokumentenspezifische Lexika, Sprach- und Korrekturmodelle berechnet werden können, die thematischen Inhalt, Domäne und sprachliche Eigenschaften des Ausgangsdokuments mitberücksichtigen. Um die Adaptivität und Leistungsfähigkeit von Verfahren der Nachkorrektur bei der Bearbeitung neuer Dokumente zu verbessern, sollen Methoden zur computerunterstützten Optimierung bei der Auswahl, Kombination und Parametereinstellung von Korrekturressourcen weiterentwickelt werden.
DFG Programme Research Grants
 
 

Additional Information

Textvergrößerung und Kontrastanpassung