Detailseite
ACTIVUS: Repräsentationen und Grundlagenmodelle für handlungsorientiertes visuelles Verständnis
Antragsteller
Dr.-Ing. Nikita Araslanov
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Künstliche Intelligenz und Maschinelle Lernverfahren
Künstliche Intelligenz und Maschinelle Lernverfahren
Förderung
Förderung seit 2026
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 572932173
Die moderne Computer Vision beherrscht das Verständnis statischer Szenen, bleibt jedoch in dynamischen Umgebungen grundlegend eingeschränkt, in denen autonome Systeme antizipieren müssen, wie sich Szenelemente bewegen und wie sie auf Handlungen reagieren. Aktuelle visuelle Encoder liefern präzise semantische Segmentierungen oder geometrische Szenenbeschreibungen, kodieren jedoch nicht, welche Aktionen plausibel sind, wie Objekte interagieren oder wie sich die Welt unter benutzerdefinierten Anweisungen entwickeln könnte. Daher erfordert die Überbrückung zwischen Wahrnehmung und Handlung weiterhin erheblichen ingenieurtechnischen Aufwand. Das vorgeschlagene Projekt ACTIVUS schließt diese Lücke durch die Entwicklung von „actionable visual understanding“: tiefen Lernrepräsentationen und Modellen, die erfassen, wie Szenen sich bewegen und wie auf sie eingewirkt werden kann. ACTIVUS ist in drei Arbeitsbereiche gegliedert. WA1 entwickelt Actionable Representations (ARs), pixelgenaue Einbettungen, die aus großen Videosammlungen gelernt werden und einen statistischen Prior über 3D-Bewegung kodieren. ARs betrachten das Eingabebild als Kontext, aus dem abgeleitet wird, wie sich Szenelemente typischerweise bewegen. WA2 führt virtuelle Interventionen ein, definiert als die offene Menge plausibler Aktionen, die ein Agent in einer Szene ausführen könnte. Die Bestimmung solcher Interventionen erfordert Modelle, die semantische und geometrische Schlussfolgerungen kombinieren. WA2 wird ARs schwach überwacht mit Sprachmodellen ausrichten, einen Benchmark für die Bewertung von Open-Vocabulary-Interventionen etablieren und ein Basismodell entwickeln, das Textanweisungen (z. B. „Fenster öffnen“) in latente Aktionsoperatoren überführt. WA3 konzentriert sich auf Weltvorhersage: die Modellierung der zeitlichen Entwicklung einer Szene als Reaktion auf virtuelle Interventionen. Unter Verwendung der in ARs kodierten Bewegungsprioren und der semantischen Schnittstelle virtueller Interventionen wird WA3 Modelle entwickeln, die geometrisch und semantisch fundierte Videovorhersagen unter hypothetischen Aktionen erzeugen können. Gemeinsam schaffen diese Arbeitsbereiche einen einheitlichen Rahmen für actionable visual understanding, ermöglichen kontrafaktisches Schließen und führen visuelle Systeme näher an reale dynamische Interaktion heran.
DFG-Verfahren
Emmy Noether-Gruppen
Großgeräte
Server with 2x NVIDIA® RTX PRO 6000 Blackwell
Gerätegruppe
7030 Dedizierte, dezentrale Rechenanlagen, Prozeßrechner
