Vertrauenswürdiges optimierendes Lernen aus menschlichem Feedback

Antragsteller Professor Dr. Eyke Hüllermeier

Fachliche Zuordnung Künstliche Intelligenz und Maschinelle Lernverfahren

Förderung Förderung seit 2026

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 566029805

Projektbeschreibung

Die Künstliche Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte erzielt. Im Bereich des optimierenden Lernens (Reinforcement Learning, RL) gelang dies vor allem durch die Einbindung des Menschen in den Lernprozess: Das so genannte „Reinforcement Learning from Human Feedback“ (RLHF) ermöglicht es menschlichen Experten, Fachwissen und Feedback in Form von Präferenzen zu spezifizieren und den Lernprozess mit vergleichsweise geringem kognitiven Aufwand zu steuern. Das Potenzial dieses Ansatzes wurde jüngst durch die Revolution im Training von großen Sprachmodellen (Large Language Models) wie GPT eindrucksvoll unterstrichen. Jedoch birgt der RLHF-Lernprozess weiterhin gewisse Risiken, wie beispielsweise im Zuge der Verbreitung leistungsfähiger Chatbots erkannt wurde, und die es so weit wie möglich zu reduzieren gilt. Dieses Projekt verfolgt daher das Ziel, die Vertrauenswürdigkeit des RLHF zu verbessern. Durch die Entwicklung moderner Methoden zur Quantifizierung von Unsicherheit erhöhen wir die Verlässlichkeit und Robustheit des RLHF, was insbesondere für sicherheitskritische Anwendungen eine wichtige Voraussetzung ist. Durch die Integration von Methoden der erklärbaren KI (explainable AI, XAI) verbessern wir zudem die Akzeptanz des RL und die Kommunikation zwischen dem menschlichen Experten und der KI. Durch ausdrucksstärkere Feedback-Modelle und Methoden zum Umgang mit zeitabhängigen Präferenzen sollen schließlich auch die Anwendbarkeit des RLHF verbessert und das Anwendungsspektrum erweitert werden.

DFG-Verfahren Sachbeihilfen

Servicenavigation

Hauptnavigation

Vertrauenswürdiges optimierendes Lernen aus menschlichem Feedback

Zusatzinformationen

Servicenavigation

Hauptnavigation

Vertrauenswürdiges optimierendes Lernen aus menschlichem Feedback

Zusatzinformationen

Textvergrößerung und Kontrastanpassung