Anwendung großer Sprachmodelle beim Archivieren von File-Systemen

Antragsteller Professor Dr. Sven Groppe; Dr. Andreas Marquet

Fachliche Zuordnung Künstliche Intelligenz und Maschinelle Lernverfahren

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 570892866

Projektbeschreibung

Dateiablagen sind trotz zahlreicher Fachanwendungen und Dokumentenmanagementsystemen vielfach verbreitete überlieferungswürdige technische Umgebungen. Die Herausforderung aus archivischer Sicht besteht in der weitgehend flexiblen Handhabung von Dateiablagen durch die schriftgutproduzierenden Stellen, die sich häufig in schwachen Strukturierungen, inkonsistenten Dateibenennungen, Redundanzen u.dgl. niederschlägt. Die Aktenförmigkeit der Überlieferung (Akte-Vorgang-Dokument) ist nicht gewährleistet, was oftmals zu einem Verlust des Entstehungskontexts führt. Dateiablagen beinhalten zudem im Gegensatz zu Akten keine grundlegende Begrenzung der abzulegenden Unterlagen in qualitativer Hinsicht, die etwa dem Merkmal der Aktenrelevanz entsprechen würden. Aufgrund der kaum begrenzten Datenmenge sowie der grundsätzlich anderen Medialität sind die archivarischen Methoden der Bewertung, Ordnung und Verzeichnung in ihrer bisherigen Form nur begrenzt anwendbar bzw. bedürfen einer methodisch-technischen Ergänzung. In dem vorgeschlagenen Projekt werden KI-gestützte Verfahren entwickelt, die an dieser Problematik ansetzen und universell in allen Archivsparten einsetzbar sind. Aufgrund ihrer beeindruckenden Fähigkeit, unter Berücksichtigung des Kontexts menschenähnliche relevante Antworten für verschiedene Aufgaben wie Übersetzung, Zusammenfassung, Beantwortung von Fragen, Poesie oder Code zu generieren, werden große Sprachmodelle mittlerweile in vielen Bereichen des täglichen Lebens eingesetzt. Große Sprachmodelle können verschiedene Tätigkeiten durch Angabe von keinen oder wenigen Beispielen durchführen. Unter anderem dadurch sind sie auch bei der Archivierung von heterogenem Schriftgut flexibel einsetzbar, und Archivar*innen können bei Bedarf auf einfache Art und Weise mit minimalem Aufwand in den Prozess zur Verbesserung der Ergebnisse und zur Verringerung des nachträglichen Aufwandes eingreifen. Insbesondere werden wir in dem vorgeschlagenen Projekt den Einsatz von großen Sprachmodellen für die Klassifikation des zu archivierenden Schriftgutes sowie Maskierung sensibler Daten, der Extraktion von Daten und der Analyse von archiviertem Schriftgut erproben und evaluieren. Für die besonderen Anforderungen der Archivierung bezüglich Qualität der Ergebnisse, Nachvollziehbarkeit und Kontrolle werden neuartige Verfahren entwickelt werden, die Frameworks für Multi-Agenten bestehend aus Large Langue Model (LLM)-Agenten, Möglichkeiten des menschlichen Feedbacks sowie Code einsetzen, um automatische Feedback-Schleifen wie etwa iterative Selbstverfeinerung, Reinforcement via Selbstreflexion und Korrigieren durch Kritik von externen Tools zur Verbesserung der Resultate zu realisieren.

DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)

Servicenavigation

Hauptnavigation

Anwendung großer Sprachmodelle beim Archivieren von File-Systemen

Zusatzinformationen

Servicenavigation

Hauptnavigation

Anwendung großer Sprachmodelle beim Archivieren von File-Systemen

Zusatzinformationen

Textvergrößerung und Kontrastanpassung