Moralische Halluzinationen in Large Language Models – Argumentative Struktur und ethische Implikation

Antragstellerinnen Professorin Dr. Annette Hautli-Janisz; Professorin Dr. Karoline Reinhardt

Fachliche Zuordnung Praktische Philosophie
Angewandte Sprachwissenschaften, Computerlinguistik

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579280134

Projektbeschreibung

Unser Ausgangspunkt sind drei Beobachtungen: Erstens nutzen viele Menschen Chatbots, die auf LLMs basieren, für ethisch relevante Fragen, z. B.: Ist es falsch zu lügen, um die Gefühle einer anderen Person zu schützen? (Wester et al. 2025). Zweitens zeigen neuere Studien, dass Teilnehmende moralische Ratschläge von LLMs als gegenüber den Ratschlägen anderer Menschen (Aharoni et al. 2024) und sogar gegenüber denen von Ethik-Expert:innen überlegen bewerten (Dillion et al. 2025). Drittens wurde nachgewiesen, dass LLMs moralische Verzerrungen enthalten (Takemoto et al. 2024; Xu et al. 2025) und andere moralische Werte in Anschlag bringen als Menschen (Marraffini et al. 2024; Garcia et al. 2024; Bonagiri et al. 2024).Während sich die aktuelle Forschung auf eine vereinfachte Analyse von LLM-Antworten auf moralische Fragen konzentriert – etwa Ja/Nein-Antworten oder Urteile wie moralisch vs. unmoralisch (Jha et al. 2024; Ji et al. 2024; u. a.) –, wird u. E. etwas übersehen: moralische Halluzinationen. Diese Halluzinationen lassen sich nicht auf konventionelle AI-Halluzinationen reduzieren, da es dabei nicht nur um mangelnde Faktengenauigkeit oder fehlende Quellenbindung geht. Stattdessen beinhalten sie Verzerrungen innerhalb moralischer Argumentationsmuster und stellen damit ein qualitativ anderes Problem dar – mit potenziell weitreichenden Konsequenzen. Denn wenn LLMs moralische Konzepte verzerren, unterminieren sie möglicherweise nicht nur den Inhalt von Ratschlägen, sondern auch die strukturellen Grundlagen individuellen und kollektiven moralischen Urteilens. In diesem Projekt verbinden wir daher Methoden aus der Philosophie, insbesondere der Angewandten Ethik der KI, und der Computerlinguistik, insbesondere des Argument Mining, um LLM-generierte moralische Halluzinationen zu konzeptualisieren, zu benchmarken, ethisch zu bewerten und automatisch zu identifizieren. Drei Forschungsfragen stehen dabei im Mittelpunkt: (RQ1) Was sind die konstitutiven Elemente von LLM-generierten moralischen Halluzinationen und welche ethischen Konsequenzen ergeben sich, wenn die moralischen Aussagen von LLMs nicht nur verzerrt, sondern halluzinatorisch sind? (RQ2) Was sind die zentralen argumentativen Strukturen und Begründungsmuster moralischer Halluzinationen? (RQ3) Welche weiterreichenden ethischen Implikationen ergeben sich, wenn ein LLM-basiertes System zur Einholung moralischer Ratschläge genutzt wird, und wie können wir ein computergestütztes Modell entwickeln, das moralische Halluzinationen und deren Bestandteile automatisch erkennt?Zur Beantwortung dieser Fragen erstellen wir ein Benchmark moralischer Halluzinationen, das eine fein granulierte Analyse von Argumentation und Begründung enthält, identifizieren die ethischen Implikationen moralischer Halluzinationen und entwickeln ein computergestütztes Modell, um diese Halluzinationen in bisher ungesehenen Daten zu erkennen.

DFG-Verfahren Schwerpunktprogramme

Teilprojekt zu SPP 2556: Robuste Beurteilung und sichere Anwendung von Sprachmodellen: Grundlagen für ein neues Feld zwischen Sprachwissenschaft & -technologie (LaSTing)

Servicenavigation

Hauptnavigation

Moralische Halluzinationen in Large Language Models – Argumentative Struktur und ethische Implikation

Zusatzinformationen

Servicenavigation

Hauptnavigation

Moralische Halluzinationen in Large Language Models – Argumentative Struktur und ethische Implikation

Zusatzinformationen

Textvergrößerung und Kontrastanpassung