LLM-OCR-D: Adaptive Volltext-Transformation umfangreicher historischer Bestände mit generativen Sprachmodellen

Antragstellerinnen / Antragsteller Professor Dr.-Ing. Michael Färber; Katrin Stump

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Künstliche Intelligenz und Maschinelle Lernverfahren

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579033065

Projektbeschreibung

Die im deutschen Sprachraum erschienenen Drucke stellen einen zentralen Bestandteil unseres schriftlich festgehaltenen Kulturerbes dar und sind somit ein wichtiger Teil unseres kulturellen Gedächtnisses. Die Deutsche Forschungsgemeinschaft bemüht sich seit langem, diesen fragmentierten und teilweise fragilen Bestand möglichst vollständig digital für die wissenschaftliche Beforschung insb. mit Methoden der Digital Humanities verfügbar zu machen. Mit der Förderinitiative OCR-D strengt die DFG seit 2015 eine systematische Ergänzung der Bilddigitalisate (gescannte Buchseiten) um durchsuchbaren und maschinenlesbaren Volltext an. In insgesamt drei Förderperioden entstand ein Software-Stack, der vielfältige bestehende und neue Verfahren im Bereich der automatischen Texterkennung in einem einheitlichen Framework bündelt und so die Voraussetzungen für die massenhafte OCR-Prozessierung schafft. Die Workflow-Konfiguration ist bislang eine weitgehend manuelle Aufgabe, die vor der eigentlichen Prozessierung stattfindet. Eine durchgängig qualitativ hochwertige Volltexterschließung historischer, formal heterogener und umfangreicher Bestände ist damit noch nicht zuverlässig möglich. Zugleich stehen seit einigen Jahren leistungsfähige generative Sprachmodelle zur Verfügung, die im OCR-D-Kontext bisher noch nicht eingesetzt werden. Das beantragte Projekt verfolgt das Ziel, eine praxisreife, d.h. qualitativ hochwertige, robuste und skalierbare Lösung zur semi-automatisierten Volltext-Transformation diversifizierter Digitalisatbestände unter Einbeziehung von leistungsfähigem Hochleistungsrechnen (High-Performance-Computing, HPC) aufbauend auf Werkzeugen aus dem Umfeld von OCR-D zu entwickeln. Der Fokus liegt dabei auf der Entwicklung eines iterativen Auswahlverfahrens für OCR-D-Workflows auf Basis automatisch extrahierter und systematisch verfeinerter Merkmale sowie Qualitätsabschätzungen der Zwischenergebnisse. Das Projekt nutzt das Potenzial großer Sprachmodelle (Large Language Models, LLMs) einerseits für diese Qualitätsabschätzung und andererseits für Nachkorrektur und textuelle Anreicherung mit orthographisch normalisierten Varianten und Named Entities. Ergänzend soll geprüft werden, ob die neue Modellklasse der multimodalen LLMs, die direkt aus Bilddaten Volltexte generieren und damit OCR, Nachkorrektur und Normalisierung in einem Modell vereinen, qualitativ bessere Ergebnisse liefern kann als mehrstufige OCR-Pipelines. Das Projekt verbindet somit bestehende Werkzeuge aus dem OCR-D-Ökosystem mit innovativen KI-basierten Methoden und einer Ausführung auf Hochleistungsrechnern von ScaDS.AI.

DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)

Servicenavigation

Hauptnavigation

LLM-OCR-D: Adaptive Volltext-Transformation umfangreicher historischer Bestände mit generativen Sprachmodellen

Zusatzinformationen

Servicenavigation

Hauptnavigation

LLM-OCR-D: Adaptive Volltext-Transformation umfangreicher historischer Bestände mit generativen Sprachmodellen

Zusatzinformationen

Textvergrößerung und Kontrastanpassung