NatLit – Natürlichsprachige Literaturrecherche in den Metadaten der Deutschen Nationalbibliothek auf Basis großer Sprachmodelle

Antragsteller Dr. Simon Gottschalk; Frank Scholze

Fachliche Zuordnung Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Künstliche Intelligenz und Maschinelle Lernverfahren

Förderung Förderung seit 2025

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 565051990

Projektbeschreibung

Die Deutsche Nationalbibliothek (DNB) beantragt gemeinsam mit dem Forschungszentrum L3S der Leibniz Universität Hannover im LIS-Förderprogramm e-Research-Technologien – anwendungsbezogene Entwicklung und Erprobung von e-Research-Technologien – eine 24-monatige Entwicklung, Erprobung und Evaluierung von einer natürlichsprachigen Anfrageschnittstelle zur Literaturrecherche in den Metadaten der DNB. Die DNB fungiert als zentrale Institution für die Sammlung, Erschließung und Bereitstellung von Publikationen in Deutschland und erfüllt ihren gesetzlichen Auftrag zur lückenlosen bibliografischen Verzeichnung aller deutschen und deutschsprachigen Publikationen seit 1913. Der gesamte Metadatenbestand der Deutschen Nationalbibliografie ist kostenfrei über den Katalog der DNB zugänglich. Dieser Katalog ist nicht nur ein Instrument zur bibliografischen Erstverzeichnung, sondern stellt auch eine bedeutende Quelle für die wissenschaftliche Literaturrecherche dar. Aktuell sind über 33 Millionen verschiedene Publikationen in der DNB verzeichnet, hinzu kommen Inhaltsverzeichnisse von 2,2 Millionen gedruckten Publikationen und knapp 3 Millionen Publikationen, die im Volltext verfügbar sind. Durch eine natürlichsprachige Anfrageschnittstelle, die durch die Verwendung von großen Sprachmodellen (Large Language Models, LLMs) umgesetzt wird, soll das benötigte Vorwissen zur Nutzung dieser DNB-Metadaten erheblich reduziert werden, was die Zugänglichkeit und Nutzungsfreundlichkeit der Datenschnittstellen maßgeblich verbessert. Ziel des Projekts NatLit ist es also, die in den Metadaten der DNB erschlossenen Publikationen über die Interaktion mit LLMs besser und für Forschungsfragen zielgenauer zu finden. Dabei werden Nutzende ohne eigenes bibliothekarisches Wissen und ohne Kenntnis der Abfragesprache dabei unterstützt, komplexe, genaue und umfassende Suchanfragen durchzuführen. Die interaktive Literaturrecherche wird in einem natürlichsprachigen Chat in zwei Phasen erfolgen. In Phase 1 („Literaturrecherche“) formuliert ein*e Nutzer*in eine Suchanfrage an Publikationen im DNB-Bestand. Nun werden in einem Retrieval-Augmented-Generation-Ansatz relevante Entitäten in der Anfrage extrahiert und unter anderem über eine Teilgraph-Suche relevante Metadaten im DNB-Katalog identifiziert und einem LLM – neben bibliothekarischem Hintergrundwissen – zur Beantwortung der Frage zur Verfügung gestellt. In Phase 2 („Medienzusammenfassung“) können Nutzende Fragen über die gefundenen Publikationen stellen, die anschließend von einem LLM beantwortet werden. Die Qualität der Ergebnisse dieser Literaturrecherche mit LLMs soll vergleichbar oder besser als mit herkömmlichen Methoden sein, gemessen an den Kriterien Technische Funktionalität, Such- und Antwortqualität, sowie Nutzungserfahrun. NatLit als Pilotprojekt für den Einsatz großer Sprachmodelle mit dem umfangreichen Datenbestand einer Nationalbibliothek soll so eine einfachere und effizientere Literaturrecherche erproben.

DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)

Mitverantwortliche Professor Dr. Wolfgang Nejdl; Tobias Steinke

Servicenavigation

Hauptnavigation

NatLit – Natürlichsprachige Literaturrecherche in den Metadaten der Deutschen Nationalbibliothek auf Basis großer Sprachmodelle

Zusatzinformationen

Servicenavigation

Hauptnavigation

NatLit – Natürlichsprachige Literaturrecherche in den Metadaten der Deutschen Nationalbibliothek auf Basis großer Sprachmodelle

Zusatzinformationen

Textvergrößerung und Kontrastanpassung