Detailseite
Sprecherunabhängige Gebärdenspracherkennung mit großem Vokabular auf der Basis von Untereinheiten-Modellen
Antragsteller
Professor Dr.-Ing. Karl-Friedrich Kraiss
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2005 bis 2010
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 13983024
Gegenwärtig wird ein bestehendes System zur Erkennung der deutschen Gebärdensprache weiterentwickelt, welches simultan Gestik und Mimik eines Gebärdensprechers videobasiert erfassen kann. Unter Verwendung von Ganzwortmodellen werden kontinuierliche Gebärdensätze sprecherabhängig mit einer Akkuratheit von 91,9% erkannt. Es wird erwartet, dass sich durch eine Unterteilung von Gebärden in kleinere Untereinheiten – ähnlich den Phonemen in der Lautsprache – der Trainingsaufwand erheblich reduzieren lässt. Im Rahmen des Projekts konnten auf dem Weg zur sprecherunabhängigen Erkennung eines großen Vokabulars auf Basis von Untereinheiten-Modellen bereits viele Teilziele erfolgreich umgesetzt werden. Der im Aufbau befindliche Gebärdensprachkorpus ist in seinem Umfang, was die Größe des Vokabulars und der Trainingspopulation betrifft, weltweit einzigartig. Eine Merkmalsnormierung und -selektion führte zu einer Steigerung der sprecherunabhängigen Erkennungsleistung von 45,5 % auf 68,1 %. Eine weitere Steigerung ergibt sich durch den Einsatz eines kombinierten Ansatzes zur Sprecheradaption, der eine schnelle Adaption der Modelle an einen unbekannten Sprecher gewährleistet. Das entwickelte Verfahren zur automatischen Transkription von Gebärden in Untereinheiten ermöglicht derzeit, für einen Sprecher bei verschiedenen Ausführungen derselben Gebärde eine recht stabile Unterteilung zu erhalten. Zwischen den Sprechern allerdings unterscheiden sich die Transkriptionen bislang noch teils sehr deutlich. Die Behandlung dieses Problems ist daher das primäre Ziel des vorliegenden Fortsetzungsantrags. Die Umsetzung erfordert eine weiterführende Erforschung sprecherinvarianter Merkmale sowie geeigneter Verfahren zur Sprechernormierung. Zudem muss der Gebärdensprachkorpus um weitere Trainingssprecher erweitert werden, um ein stabiles Aussprachelexikon schätzen zu können. Die automatische Transkription von Gebärden soll zukünftig nicht mehr rein datengetrieben erfolgen sondern auch Erkenntnisse aus manuell durchgeführten Unterteilungen einbeziehen. Ferner wird ein Speaker Clustering Verfahren zur schnellen Sprecheradaption implementiert, das von einer erweiterten Trainingspopulation profitiert.
DFG-Verfahren
Sachbeihilfen