Detailseite
Projekt Druckansicht

ACTIVUS: Repräsentationen und Grundlagenmodelle für handlungsorientiertes visuelles Verständnis

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Künstliche Intelligenz und Maschinelle Lernverfahren
Förderung Förderung seit 2026
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 572932173
 
Die moderne Computer Vision beherrscht das Verständnis statischer Szenen, bleibt jedoch in dynamischen Umgebungen grundlegend eingeschränkt, in denen autonome Systeme antizipieren müssen, wie sich Szenelemente bewegen und wie sie auf Handlungen reagieren. Aktuelle visuelle Encoder liefern präzise semantische Segmentierungen oder geometrische Szenenbeschreibungen, kodieren jedoch nicht, welche Aktionen plausibel sind, wie Objekte interagieren oder wie sich die Welt unter benutzerdefinierten Anweisungen entwickeln könnte. Daher erfordert die Überbrückung zwischen Wahrnehmung und Handlung weiterhin erheblichen ingenieurtechnischen Aufwand. Das vorgeschlagene Projekt ACTIVUS schließt diese Lücke durch die Entwicklung von „actionable visual understanding“: tiefen Lernrepräsentationen und Modellen, die erfassen, wie Szenen sich bewegen und wie auf sie eingewirkt werden kann. ACTIVUS ist in drei Arbeitsbereiche gegliedert. WA1 entwickelt Actionable Representations (ARs), pixelgenaue Einbettungen, die aus großen Videosammlungen gelernt werden und einen statistischen Prior über 3D-Bewegung kodieren. ARs betrachten das Eingabebild als Kontext, aus dem abgeleitet wird, wie sich Szenelemente typischerweise bewegen. WA2 führt virtuelle Interventionen ein, definiert als die offene Menge plausibler Aktionen, die ein Agent in einer Szene ausführen könnte. Die Bestimmung solcher Interventionen erfordert Modelle, die semantische und geometrische Schlussfolgerungen kombinieren. WA2 wird ARs schwach überwacht mit Sprachmodellen ausrichten, einen Benchmark für die Bewertung von Open-Vocabulary-Interventionen etablieren und ein Basismodell entwickeln, das Textanweisungen (z. B. „Fenster öffnen“) in latente Aktionsoperatoren überführt. WA3 konzentriert sich auf Weltvorhersage: die Modellierung der zeitlichen Entwicklung einer Szene als Reaktion auf virtuelle Interventionen. Unter Verwendung der in ARs kodierten Bewegungsprioren und der semantischen Schnittstelle virtueller Interventionen wird WA3 Modelle entwickeln, die geometrisch und semantisch fundierte Videovorhersagen unter hypothetischen Aktionen erzeugen können. Gemeinsam schaffen diese Arbeitsbereiche einen einheitlichen Rahmen für actionable visual understanding, ermöglichen kontrafaktisches Schließen und führen visuelle Systeme näher an reale dynamische Interaktion heran.
DFG-Verfahren Emmy Noether-Gruppen
Großgeräte Server with 2x NVIDIA® RTX PRO 6000 Blackwell
Gerätegruppe 7030 Dedizierte, dezentrale Rechenanlagen, Prozeßrechner
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung