Detailseite
Vertrauenswürdiges optimierendes Lernen aus menschlichem Feedback
Antragsteller
Professor Dr. Eyke Hüllermeier
Fachliche Zuordnung
Künstliche Intelligenz und Maschinelle Lernverfahren
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 566029805
Die Künstliche Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte erzielt. Im Bereich des optimierenden Lernens (Reinforcement Learning, RL) gelang dies vor allem durch die Einbindung des Menschen in den Lernprozess: Das so genannte „Reinforcement Learning from Human Feedback“ (RLHF) ermöglicht es menschlichen Experten, Fachwissen und Feedback in Form von Präferenzen zu spezifizieren und den Lernprozess mit vergleichsweise geringem kognitiven Aufwand zu steuern. Das Potenzial dieses Ansatzes wurde jüngst durch die Revolution im Training von großen Sprachmodellen (Large Language Models) wie GPT eindrucksvoll unterstrichen. Jedoch birgt der RLHF-Lernprozess weiterhin gewisse Risiken, wie beispielsweise im Zuge der Verbreitung leistungsfähiger Chatbots erkannt wurde, und die es so weit wie möglich zu reduzieren gilt. Dieses Projekt verfolgt daher das Ziel, die Vertrauenswürdigkeit des RLHF zu verbessern. Durch die Entwicklung moderner Methoden zur Quantifizierung von Unsicherheit erhöhen wir die Verlässlichkeit und Robustheit des RLHF, was insbesondere für sicherheitskritische Anwendungen eine wichtige Voraussetzung ist. Durch die Integration von Methoden der erklärbaren KI (explainable AI, XAI) verbessern wir zudem die Akzeptanz des RL und die Kommunikation zwischen dem menschlichen Experten und der KI. Durch ausdrucksstärkere Feedback-Modelle und Methoden zum Umgang mit zeitabhängigen Präferenzen sollen schließlich auch die Anwendbarkeit des RLHF verbessert und das Anwendungsspektrum erweitert werden.
DFG-Verfahren
Sachbeihilfen
