Detailseite
Projekt Druckansicht

Vertrauenswürdiges optimierendes Lernen aus menschlichem Feedback

Fachliche Zuordnung Künstliche Intelligenz und Maschinelle Lernverfahren
Förderung Förderung seit 2026
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 566029805
 
Die Künstliche Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte erzielt. Im Bereich des optimierenden Lernens (Reinforcement Learning, RL) gelang dies vor allem durch die Einbindung des Menschen in den Lernprozess: Das so genannte „Reinforcement Learning from Human Feedback“ (RLHF) ermöglicht es menschlichen Experten, Fachwissen und Feedback in Form von Präferenzen zu spezifizieren und den Lernprozess mit vergleichsweise geringem kognitiven Aufwand zu steuern. Das Potenzial dieses Ansatzes wurde jüngst durch die Revolution im Training von großen Sprachmodellen (Large Language Models) wie GPT eindrucksvoll unterstrichen. Jedoch birgt der RLHF-Lernprozess weiterhin gewisse Risiken, wie beispielsweise im Zuge der Verbreitung leistungsfähiger Chatbots erkannt wurde, und die es so weit wie möglich zu reduzieren gilt. Dieses Projekt verfolgt daher das Ziel, die Vertrauenswürdigkeit des RLHF zu verbessern. Durch die Entwicklung moderner Methoden zur Quantifizierung von Unsicherheit erhöhen wir die Verlässlichkeit und Robustheit des RLHF, was insbesondere für sicherheitskritische Anwendungen eine wichtige Voraussetzung ist. Durch die Integration von Methoden der erklärbaren KI (explainable AI, XAI) verbessern wir zudem die Akzeptanz des RL und die Kommunikation zwischen dem menschlichen Experten und der KI. Durch ausdrucksstärkere Feedback-Modelle und Methoden zum Umgang mit zeitabhängigen Präferenzen sollen schließlich auch die Anwendbarkeit des RLHF verbessert und das Anwendungsspektrum erweitert werden.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung