Bewertung, Erklärung und Realisierung ethischer Multiagentensysteme großer Sprachmodelle (E4-MALM)

Antragstellerinnen / Antragsteller Professorin Dr. Anne Lauscher; Dr. Jae Hee Lee

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 579327477

Projektbeschreibung

In den letzten Jahren haben große Sprachmodelle (LLMs) den Stand der Technik in der Verarbeitung natürlicher Sprache (NLP) revolutioniert. Wie gezeigt werden konnte, sind sie bereits sehr effektiv für eine große Anzahl von Aufgaben, wenn sie in Isolation eingesetzt werden – sie können allerdings noch effektiver sein, wenn sie innerhalb sogenannter Multiagentensysteme im Einsatz sind, in denen mehrere LLMs kooperieren. Jüngste Arbeiten zeigen jedoch, dass solche Multiagenteninteraktionen zu unvorhersehbaren und unerwünschten emergenten Verhaltensweisen führen können, die potenziell schädliche Folgen haben (z. B. unsichere Systementscheidungen). Unser Vorhaben adressiert dieses Problem, indem es die ethische Verlässlichkeit und Sicherheit von Multiagentensystemen auf Basis großer Sprachmodelle (MALMs) untersucht. Geplant sind (i) die Entwicklung eines robusten Evaluationsrahmenwerks, welches das ethisch-relevante Verhalten von MALMs auf drei Ebenen – einzelne Agenten, deren Interaktionen sowie die Systemkonvergenz – mit Schwerpunkt auf gesellschaftlich relevanten Fehlermustern wie „toxischer Zustimmung“ in sozialen Simulationsszenarien untersucht; (ii) kausale, mechanistische Erklärungen, die makroskopische Interaktionsmuster mit mikroskopischen Modellkomponenten (Features, Neuronen, Attention-Heads) verknüpfen und als „Mechanism Cards“ nutzbar machen; sowie (iii) parameter-effiziente Alignment-Maßnahmen (u. a. Activation Steering, LoRA/QLoRA, Rank-One-Edits), die die Sicherheit erhöhen und gleichzeitig die Leistungsfähigkeit des Systems erhalten. Das Projekt leistet Beiträge zu LaSTing (SPP 2556) durch robuste Bewertungsmethoden, neue Einsichten in interne Modellmechanismen und durch neue Alignment-Methoden, die eine sichere Anwendung von LLM-basierten Multiagentensystemen ermöglichen.

DFG-Verfahren Schwerpunktprogramme

Teilprojekt zu SPP 2556: Robuste Beurteilung und sichere Anwendung von Sprachmodellen: Grundlagen für ein neues Feld zwischen Sprachwissenschaft & -technologie (LaSTing)

Servicenavigation

Hauptnavigation

Bewertung, Erklärung und Realisierung ethischer Multiagentensysteme großer Sprachmodelle (E4-MALM)

Zusatzinformationen

Servicenavigation

Hauptnavigation

Bewertung, Erklärung und Realisierung ethischer Multiagentensysteme großer Sprachmodelle (E4-MALM)

Zusatzinformationen

Textvergrößerung und Kontrastanpassung