Detailseite
Beziehungen zwischen Wortwahrscheinlichkeiten und Weltwahrscheinlichkeiten
Antragsteller
Dr. Sean Papay
Fachliche Zuordnung
Künstliche Intelligenz und Maschinelle Lernverfahren
Angewandte Sprachwissenschaften, Computerlinguistik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Angewandte Sprachwissenschaften, Computerlinguistik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579381360
Large language models (LLMs) erzeugen Text, indem sie eine Wahrscheinlichkeitsverteilung über Zeichenketten definieren und daraus ziehen. Beim Modellieren dieser Verteilung erwerben sie nicht nur linguistisches Wissen, sondern auch Weltwissen, das ihnen sowohl bei der autoregressiven Vorhersage des nächsten Tokens als auch bei den nachgelagerten Aufgaben, auf die Sprachmodelle angewendet werden, zugutekommt. Obwohl dieses Weltwissen entscheidend für die Leistung von LLMs ist, können wir es nicht direkt beobachten; wir können seine Eigenschaften nur aus den generierten Zeichenketten und deren Wahrscheinlichkeiten ableiten. In diesem Projekt schlagen wir vor, dieses Weltwissen als latente Verteilung über semantische Weltzustände zu interpretieren, die der Zeichenketten-Verteilung zugrunde liegt, und die Eigenschaften dieser Weltverteilung zu untersuchen. Konkret wird dies beinhalten, Modellwahrscheinlichkeiten für Propositionen unter der Bedingung von Prämissen zu überprüfen, unter Verwendung von Beschreibungen in natürlicher Sprache. Eine solche Untersuchung verfolgt drei Hauptziele: (1) das Verhalten von Modellen im Hinblick auf Weltüberzeugungen besser zu erklären, (2) nachgelagerte Anwendungen von LLMs zu verbessern, indem semantische Überzeugungen von Oberflächenrealisierungen entkoppelt werden, und (3) allgemeine Modelle zur Wahrscheinlichkeitsabschätzung für die Nutzung in der kognitiven Modellierung zu entwickeln. Im Verlauf dieses Projekts werden wir fünf zentrale Forschungsfragen bearbeiten: 1) Wie können wir semantische Wahrscheinlichkeiten aus LLMs extrahieren? 2) Wie entsprechen die extrahierten Wahrscheinlichkeiten empirischen Wahrscheinlichkeiten? 3) Sind die extrahierten Wahrscheinlichkeiten konsistent miteinander? 4) Wie stehen die extrahierten Wahrscheinlichkeiten im Verhältnis zu menschlichen Urteilen? 5) Können wir konsistente Überzeugungszustände rekonstruieren, indem wir LLMs zusätzliche Struktur hinzufügen? Wir werden diese Fragen experimentell beantworten, indem wir auf Experimenten mit bestehenden LLMs und einem Human-Annotierungsprojekt zur Erhebung von Wahrscheinlichkeitsurteilen aufbauen. Diese Arbeit wird einen besseren Bezugsrahmen zur Erklärung des Verhaltens von LLMs liefern, Werkzeuge zur direkten Extraktion semantischer Überzeugungen für nachgelagerte Aufgaben bereitstellen und allgemeine probabilistische Weltmodelle für die Nutzung in der kognitiven Modellierung liefern.
DFG-Verfahren
Schwerpunktprogramme
Mitverantwortlich
Professor Dr. Roman Klinger
