Detailseite
Bewertung, Erklärung und Realisierung ethischer Multiagentensysteme großer Sprachmodelle (E4-MALM)
Antragstellerinnen / Antragsteller
Professorin Dr. Anne Lauscher; Dr. Jae Hee Lee
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579327477
In den letzten Jahren haben große Sprachmodelle (LLMs) den Stand der Technik in der Verarbeitung natürlicher Sprache (NLP) revolutioniert. Wie gezeigt werden konnte, sind sie bereits sehr effektiv für eine große Anzahl von Aufgaben, wenn sie in Isolation eingesetzt werden – sie können allerdings noch effektiver sein, wenn sie innerhalb sogenannter Multiagentensysteme im Einsatz sind, in denen mehrere LLMs kooperieren. Jüngste Arbeiten zeigen jedoch, dass solche Multiagenteninteraktionen zu unvorhersehbaren und unerwünschten emergenten Verhaltensweisen führen können, die potenziell schädliche Folgen haben (z. B. unsichere Systementscheidungen). Unser Vorhaben adressiert dieses Problem, indem es die ethische Verlässlichkeit und Sicherheit von Multiagentensystemen auf Basis großer Sprachmodelle (MALMs) untersucht. Geplant sind (i) die Entwicklung eines robusten Evaluationsrahmenwerks, welches das ethisch-relevante Verhalten von MALMs auf drei Ebenen – einzelne Agenten, deren Interaktionen sowie die Systemkonvergenz – mit Schwerpunkt auf gesellschaftlich relevanten Fehlermustern wie „toxischer Zustimmung“ in sozialen Simulationsszenarien untersucht; (ii) kausale, mechanistische Erklärungen, die makroskopische Interaktionsmuster mit mikroskopischen Modellkomponenten (Features, Neuronen, Attention-Heads) verknüpfen und als „Mechanism Cards“ nutzbar machen; sowie (iii) parameter-effiziente Alignment-Maßnahmen (u. a. Activation Steering, LoRA/QLoRA, Rank-One-Edits), die die Sicherheit erhöhen und gleichzeitig die Leistungsfähigkeit des Systems erhalten. Das Projekt leistet Beiträge zu LaSTing (SPP 2556) durch robuste Bewertungsmethoden, neue Einsichten in interne Modellmechanismen und durch neue Alignment-Methoden, die eine sichere Anwendung von LLM-basierten Multiagentensystemen ermöglichen.
DFG-Verfahren
Schwerpunktprogramme
