Detailseite
Projekt Druckansicht

Räumliche und zeitliche Filterung von Tiefendaten für Telepräsenz

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2016 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 327589909
 
Bei Telepresence handelt es sich um eine Form der Kommunikation, die voneinander entfernten Gesprächspartnern das Gefühl vermittelt, in einer gemeinsamen Umgebung zu interagieren. In den letzten Jahren hat das Interesse, entsprechende Verfahren zu erforschen, kontinuierlich zugenommen. Eine zentrale Herausforderung in diesem Gebiet ist, die senderseitig anfallenden Videodaten in Echtzeit zu einer akkuraten 3D-Repräsentation der aufgenommenen Szene zusammenzufassen. Derzeitige Prototypen erreichen eine hohe Genauigkeit jedoch nur durch intensive Offline-Berechnungen. Andererseits weisen die aktuellen Echtzeitverfahren noch eine ungenügende Qualität auf. Der Hauptgrund dafür sind die beträchtlichen Artefakte in den Daten aktuell verfügbarer Tiefenkameras, wie die Microsoft Kinect, die seit einiger Zeit eingesetzt werden, um 3D-Informationen über die Szene in Echtzeit zu erhalten.Ein weitgehend unbeachteter Gesichtspunkt dieser Störungen ist deren temporale Instabilität. Um diese Eigenschaft zu verstehen, werden wir experimentell ein statistisches Modell für die Artefakte handelsüblicher Tiefenkameras entwickeln. Im Gegensatz zu vorherigen Ansätzen in diesem Gebiet, planen wir aber temporale Aspekte des Rauschens mit einzubeziehen.Gelenkt durch die Analyseergebnisse der aufgezeichneten Daten, werden wir einen neuen räumlich-zeitlichen Echtzeitfilter entwickeln, der Tiefenpixel gleichzeitig unter Berücksichtigung ihrer räumlichen und ihrer zeitlichen Umgebung stabilisiert. Um dabei den zeitlichen Kontext von Tiefenpixeln zu bestimmen wollen wir Verfahren zur Bewegungserkennung einsetzen. Da Tiefenbilder aber für deren Einsatz zu verrauscht sind, schlagen wir vor stattdessen die üblicherweise parallel aufgezeichneten Farbbilder zu verwenden. Basierend auf ihrer meist engen räumlichen Beziehung kann das Ergebnis der Bewegungserkennung von Farb- auf Tiefenkamera übertragen werden.Dem Filtern selbst geht ein Entfernen der Ausreißer voraus. Dafür beschreiben wir starke Abweichungen in der räumlich-zeitliche Nachbarschaft von Tiefenpixel mit Hilfe von 6D linearer Regression. Eine wesentliche Forschungsfrage dabei ist, wie das robuste Least-Median-of-Squares-Regressionsverfahren, das wir hier einsetzen wollen, in Echtzeit implementiert werden kann. Nach der Beseitigung der Ausreißer verwenden wir einen 3D-Filter zur Eliminierung von Rauschen.Das neue Verfahren wird in einen Telepresence-Prototypen integriert, der eine Reihe von Tiefenkameras in einem Gitter anordnet. Die verbesserten Tiefendaten dieser Kameras sollen hier im letzten Schritt gegeneinander abgeglichen werden. Dazu planen wir die Erweiterung unserer vorangegangenen Arbeit, welche die Erzeugung dynamischer 3D-Repräsentationen zum Ziel hatte. Zur Evaluation des Prototypen werden wir Testdaten mit zugehöriger Ground Truth erzeugen, die entweder aus Vorwissen über die Szene oder aus künstlichen Bilddaten mit mathematisch modellierten Störungen abgeleitet wird.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung