Detailseite
Projekt Druckansicht

Auf Menschen fokussiertes visuelles Erkennen und Verstehen von Szenen

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2013 bis 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 229087185
 
Erstellungsjahr 2017

Zusammenfassung der Projektergebnisse

Es wurden Verfahren entwickelt, die visuelle Daten automatisch verarbeiten und interpretieren. Der Fokus lag auf Daten, in denen Menschen mit Objekten interagieren. Im Bereich der Erkennung der menschlichen 2D Pose wurde die Methodik soweit weiterentwickelt, dass das menschliche Verhalten in Videodaten besser analysiert werden kann. Dies kann zum Beispiel genutzt werden, um Bewegungsabläufe im Sport zu analysieren. Auch bei der Rekonstruktion der 3D Pose aus einem einzelnen Bild gab es deutliche Fortschritte in der erreichten Genauigkeit, auch wenn in diesem Gebiet noch viele Probleme ungelöst sind. Im Bereich der Analyse von menschlichen Verhalten in langen Videosequenzen, insbesondere der Identifizierung von Videoabschnitten in denen bestimmte Handlungen vollzogen werden, gab es große Fortschritte sowohl in der Skalierbarkeit als auch in der Erkennungsgenauigkeit. Solche Verfahren konnen zum Beispiel bei der Auswertung oder Zusammenfassung von Videomaterial eingesetzt werden. Darüber hinaus sind neue grundlegende Ansätze entstanden, die noch weiterentwickelt werden mussen. So ist es gelungen einem Computer beizubringen, Objekte zu erkennen, ohne dem Computer wie üblich Bildausschnitte von Objekten zu zeigen. Stattdessen wurden kurze Videosequenzen gezeigt und ein Algorithmus entwickelt, der nach den Objekten in den Videos sucht, die ähnlich aussehen und in einer ähnlichen Weise benutzt werden. Um ein kontinuierliches Lernen zu ermöglichen, wurden Verfahren entwickelt, die neue Klassen ohne großen Rechenaufwand dazulernen können. Es ist auch gelungen, deformierbare Objekte mitsamt der unterliegenden Skelettstruktur zu rekonstruieren, während sie in der Hand deformiert werden. Dazu wird die Handobjektinteraktion mit einer Tiefenkamera aufgenommen und die Handbewegungen erfasst. Auch wenn die Robustheit des Verfahrens noch verbessert werden muss, bietet der Ansatz die Möglichkeit, reelle deformierbare Objekte für die virtuelle Realität ohne großen Aufwand zu digitalisieren.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung