Detailseite
Domänen- und dokumentenadaptive Verfahren zur Nachkorrektur von OCR-Ergebnissen
Antragsteller
Professor Dr. Klaus U. Schulz
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2004 bis 2010
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5419670
Die Konvertierung von Papierdokumenten in ein textuelles elektronisches Format ist ein zentraler Schritt bei der Archivierung von Dokumenten in Firmen, Organisationen und im Verlagswesen. Trotz der hohen Leistungsfähigkeit kommerzieller OCR-Systeme ist die verbleibende Fehlerrate bei fehlerkritischen Anwendungen aber oft inakzeptabel. Bislang entwickelte Verfahren zur interaktiven oder automatischen Nachkorrektur von OCR-Ergebnissen tragen zu einer Verbesserung bei, lassen jedoch Domäne und spezifische Eigenschaften des einzelnen Dokuments bei der Auswahl von Korrekturvorschlägen weitgehend unberücksichtigt, worunter die Qualität der Nachkorrektur leidet. Im Projekt sollen Verfahren entwickelt werden, mit denen in dynamischer Weise domänen- und dokumentenspezifische Lexika, Sprach- und Korrekturmodelle berechnet werden können, die thematischen Inhalt, Domäne und sprachliche Eigenschaften des Ausgangsdokuments mitberücksichtigen. Um die Adaptivität und Leistungsfähigkeit von Verfahren der Nachkorrektur bei der Bearbeitung neuer Dokumente zu verbessern, sollen Methoden zur computerunterstützten Optimierung bei der Auswahl, Kombination und Parametereinstellung von Korrekturressourcen weiterentwickelt werden.
DFG-Verfahren
Sachbeihilfen