Detailseite
Projekt Druckansicht

Einheitliche Unsicherheitsschätzung für fein-getunte Open-Vocabulary Modelle in der Bildklassifizierung und Objektdetektion

Fachliche Zuordnung Künstliche Intelligenz und Maschinelle Lernverfahren
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung seit 2025
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 563660702
 
Das vorgeschlagene Projekt zielt auf die Entwicklung von Deep-Learning-Modellen ab, die eingebaute Scores für die Schätzung sowohl der aleatorischen als auch der epistemischen Unsicherheit bieten. Erstere bezieht sich auf die dateninhärente Unsicherheit, z. B. an Klassengrenzen, letztere auf die Unsicherheit aufgrund mangelnder Informationen, z. B. bei Ausreißerdaten. Eine einheitliche Unsicherheitsabschätzung ist wichtig, um den Weg für Deep Learning für sicherheitskritische (im Sinne von Safety) Anwendungen wie automatisiertes Fahren, medizinische Bildgebung, Robotik und andere zu ebnen. Als Grundlage werden aktuelle Modelle mit offenem Vokabular zur Bildklassifikation und Objekterkennung wie CLIP und Grounding Dino betrachtet. Trotz der Beliebtheit von Modellen mit offenem Vokabular gibt es bisher nur wenige Methoden zur Unsicherheitsabschätzung für diese Modelle. Modelle mit offenem Vokabular, die auf enormen Datenmengen trainiert wurden, bieten hervorragende Generalisierungsfähigkeiten. Wenn sie für eine bestimmte nachgelagerte Aufgabe verwendet werden, kann ihr umfassendes Wissen bei der Abschätzung der datenbezogenen epistemischen Unsicherheit und somit bei der Erkennung semantisch unbekannter Objekte hilfreich sein. Indem wir Modelle mit offenem Vokabular mit One-vs.-all-Klassifikator-Köpfen ausstatten, geben wir ihnen die Möglichkeit, alle bekannten Klassen auf natürliche Weise abzulehnen. Diese Fähigkeit wird durch die Einbeziehung von synthetisch generierten Out-of-Class-Daten in den Lernprozess weiter unterstützt. Zur Generierung verwenden wir neuere, auf stabiler Diffusion basierende Modelle. Im Gegensatz zu Modellen mit offenem Vokabular wie CLIP kann ein Ein-vs.-alle-Klassifikator-Kopf nützliche Schätzungen der Klassenwahrscheinlichkeit liefern, die wir für die Schätzung der aleatorischen Unsicherheit, z. B. an Klassengrenzen, verwenden. Dieser Ansatz erweitert eine unserer Methoden von gewöhnlichen tiefen Klassifikatoren auf Modelle mit offenem Vokabular. Mit der neuen Inpainting-Methode kann der vorgeschlagene Ansatz auf die Objekterkennung ausgeweitet werden. Zu guter Letzt schlagen wir vor, das gelernte Wissen der Objektdetektoren in leichtgewichtige Modelle zu destillieren. Da die Ressourceneffizienz ein weiterer wichtiger Faktor für den Einsatz von Deep Learning in der Praxis ist, ergänzt dies natürlich die oben genannten Sicherheitsaspekte.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung