Sprecherunabhängige Gebärdenspracherkennung mit großem Vokabular auf der Basis von Untereinheiten-Modellen
Zusammenfassung der Projektergebnisse
Gebärdensprachen stellen vollwertige und lebendige Sprachen dar, die Gehörlose und Schwerhörige für die tägliche Kommunikation untereinander verwenden. Die Vermittlung linguistischer Inhalte erfolgt dabei durch die Kombination manueller und nicht-manueller Ausdrucksmittel. Leider beherrschen nur sehr wenige Hörende eine Gebärdensprache. Dolmetscher können wegen beschränkter Verfügbarkeit und hoher Kosten nur selten eingesetzt werden. Die Folge für die Gehörlosen sind Integrationsprobleme und starke Einschränkungen bezüglich eines unabhängigen, selbstbestimmten Lebens. Um die Kommunikation zwischen Hörenden und Gehörlosen zu verbessern, wurde ein mobiles System zur automatischen Gebärdenspracherkennung entwickelt, das Gestik und Mimik eines Gebärdensprechers nicht-intrusiv erfassen und kontinuierliche Äußerungen in Gebärdensprache sprecherunabhängig klassifizieren kann. Das System soll von Gehörlosen als einfacher Dolmetscher bei Alltagsgeschäften (z.B. Banken oder Ämter) und für den gebärdengesteuerten Zugriff auf elektronische Medien wie Computer und Internet eingesetzt werden. Im Hinblick auf eine weite Verbreitung kommt mit einem Laptop und einer frontalen Webcam nur Standard-Hardware zum Einsatz. Bisher wurden folgende Ergebnisse erzielt: Gebärdensprachkorpus Das erstellte Gebärdensprachkorpus ist in seinem Umfang, was die Größe des Vokabulars sowie der Trainingspopulation anbelangt, weltweit einmalig. In Hinblick auf eine möglichst breite Anwendung des Erkennungssystems dient als Vokabular der Grundwortschatz der Deutschen Gebärdensprache, der auf Grundlage diverser Lehrmaterialien ermittelt wurde. Das Gebärdensprachkorpus umfasst 780 Gebärdensätze in abgestufter Komplexität, die auf einem Vokabular von 450 elementaren Gebärden basieren. Sämtliche Einzelgebärden und kontinuierliche Gebärdensätze wurden von 25 Gebärdensprechern unterschiedlichen Alters, Geschlechts und Körpergröße ausgeführt. Insgesamt wurden somit 33.210 Videosequenzen aufgenommen. Die Distribution des Sprachkorpus erfolgt gemeinsam durch das Bayerische Archiv für Sprachsignale (BAS) in München und die Evaluations and Language resources Distribution Agency (ELDA) in Paris. Mit dem Linguistic Data Consortium (LDC) als weiterem Distributionspartner wird derzeit noch verhandelt. Merkmalsberechnung Eine sprecherunabhängige Spracherkennung erfordert robuste Merkmale, welche möglichst nur den linguistischen Inhalt der im Eingangsignal enthaltenen Äußerungen beschreiben. Die entwickelten Verfahren zur Merkmalsnormierung, -transformation und -selektion führen zu einer deutlichen Steigerung der sprecherunabhängigen Erkennungsleistung. Auf der Suche nach robusteren Merkmalen zur Beschreibung der menschlichen Handform und –stellung wurden verschiedene MPEG-7 Deskriptoren dahingehend untersucht, ob mit ihnen eine höhere Klassifikationsleistung zu erzielen ist als mit den sonst üblichen ansichtenbasierten Merkmalen zur geometrischen Beschreibung der Handflächen. Es zeigte sich, dass einzig durch die Verwendung des Edge Histogram Descriptors sich die Erkennungsrate steigern lässt. Die absolute Steigerung beträgt 6,0%. Gebärden-Untereinheiten Das entwickelte Verfahren zur automatischen Transkription von Gebärden in Untereinheiten erzeugt bei verschiedenen Gebärdensprechern unterschiedliche Einteilungen. Ein stabiles Aussprachelexikon, das für jeden Sprecher identisch ist, konnte leider nicht ermittelt werden. Im Falle der sprecherunabhängigen Erkennung bleibt folglich die Klassifikationsleistung, die sich auf Basis von Untereinheiten-Modellen erzielen lässt, hinter derjenigen unter Verwendung von Ganzwortmodellen noch zurück. Lediglich bei der sprecherabhängigen Erkennung liefern beide Modellierungsansätze ähnlich Ergebnisse. Sprecheradaption Der im ersten Förderabschnitt entwickelte Ansatz zur schnellen Sprecheradaption erzielte durch die Kombination von Maximum Likelihood Linear Regression (MLLR) und Maximum A Posteriori (MAP) bereits gute Ergebnisse. Dieser wurde dahingehend weiterentwickelt, dass auch mit sehr wenigen Adaptionsgebärden eines unbekannten Gebärdensprechers eine deutlich höhere Klassifikationsleistung erreicht wird. Hierzu wurde dem bestehenden Ansatz eine weitere Adaptionsstufe, die auf dem Prinzip der Eigenvoices (EV) beruht, vorgeschaltet. Der kombinierte EV+MMLR+ MAP-Ansatz gestattet eine schnelle Adaption der Referenzmodelle, ohne dass ein schneller Sättigungseffekt eintritt. Bereits zehn Adaptionsgebärden reichen aus, damit die sprecherunabhängige Erkennungsrate um absolute 13,2% ansteigt. Der erweiterte Ansatz übertrifft alle bekannten Ansätze zu Sprecheradaption, und zwar unabhängig von der Anzahl der zur Verfügung stehenden Adaptionsgebärden. Weiterer Forschungsbedarf besteht derzeit bei der Identifikation von für die automatische Gebärdenspracherkennung geeigneten Untereinheiten. Für Gebärdensprachen muss ein detailliertes Modell der Spracherzeugung und –wahrnehmung entwickelt werden, so wie es für Lautsprachen bereits existiert. Ausgehend von einem solchem Sprachmodell ließe sich die Suche nach Untereinheiten zielgerichteter und somit wesentlich effizienter durchführen. Für die Modellierung ist ein interdisziplinäres Team von Wissenschaftlern mit Kenntnissen auf dem Gebiet der Linguistik, Neurolinguistik und Neuropsychologie erforderlich. Die Gebärdenspracherkennung bietet vielfältige Anwendungsmöglichkeiten. Primär sollen die technischen Voraussetzungen für computergestützte Übersetzungssysteme geschaffen werden, welche die Kommunikation zwischen Hörenden und Gehörlosen verbessern sollen. Die Gebärdenspracherkennung lässt sich zudem u.a. zur automatischen Indexierung von Videos mit Gebärdensprachinhalten und bei intuitiv gestalteten Benutzerschnittstellen für Gehörlose einsetzen. Weitere Anwendungen ergeben sich auf dem Gebiet der multimodalen Mensch-Maschine Interaktion. Die nicht-intrusive Merkmalsextraktion erschließt hierbei neue Modalitäten für die Interaktion mit komplexen Systemen. Während die Dateneingabe bisher mittels Tastatur, Maus oder Sprache erfolgen musste, können nun ebenfalls die gestischen und mimischen Kanäle des Menschen genutzt werden.
Projektbezogene Publikationen (Auswahl)
- Advanced Man-Machine Interaction. Fundamentals and Implementation (2006). In: Series: Signals and Communication Technology, Springer, ISBN 978-3-540-30618-4
K.-F. Kraiss
- Non-Intrusive Acquisition of Human Action (2006). In: K.-F. Kraiss (Ed.): Advanced Man-Machine Interaction. Fundamentals and Implementation, Springer, pp. 7-94, ISBN 978-3-540-30618-4
J. Zieren, U. Canzler
- Rapid Signer Adaptation for Isolated Sign Language Recognition (2006). In: Proceedings of the 24th IEEE International Conference on Computer Vision and Pattern Recognition, June 17-22, New York, ISBN 0-7695-2646-2
U. von Agris, D. Schneider, J. Zieren, K.-F. Kraiss
- Sign Language Recognition (2006). In: K.-F. Kraiss (Ed.): Advanced Man-Machine Interaction. Fundamentals and Implementation, Springer, pp. 95-140, ISBN 978-3-540-30618-4
J. Zieren, U. Canzler, B. Bauer, K.-F. Kraiss
- Visual Hand Posture Recognition in Monocular Image Sequences (2006). In: K. Franke, K.-R. Müller, B. Nickolay, R. Schäfer (Eds.): Pattern Recognition, Proceedings of the 28th DAGM Symposium, Vol: Lecture Notes in Computer Science, Vol. 4174, Springer, pp. 566-575, September 12-14, Berlin, ISBN 3-540-44412-2
T. Dick, J. Zieren, K.-F. Kraiss
- Interacting with Gestures and Facial Expressions. Implementation and Applications (2007). In: Pre-Proceedings of the 10th IFAC/IFIP/IFORS/IEA Symposium on Analysis, Design, and Evaluation of Human-Machine Systems, September 4-6, Seoul, Korea
K.-F. Kraiss
- Towards a Video Corpus for Signer-Independent Cont. Sign Language Recognition (2007). In: Proceedings of Gesture in Human-Computer Interaction and Simulation. International Gesture Workshop, May 23-25, 2007, Lisbon, Portugal, ISBN 978-972-8862-06-0
U. von Agris, K.-F. Kraiss
- Visuelle Erkennung von Handposituren für einen interaktiven Gebärdensprachtutor (2007), Dissertation
J. Zieren
- Gestures, Mimics and User Assistance for Usability Enhancement (2008). In: L. Schmidt, C. M. Schlick und J. Grosche (Eds.): Ergonomie und Mensch-Maschine-Systeme, Springer, pp. 17-31, ISBN 978-3-540-78330-5
K.-F. Kraiss
- Rapid Signer Adaptation for Continuous Sign Language Recognition Using a Combined Approach of Eigenvoices, MLLR, and MAP (2008). In: Proceedings of the 19th IAPR International Conference on Pattern Recognition, December 8-11, 2008, Tampa, Florida, ISBN: 978-1-4244-2154-1
U. von Agris, C. Blömer, K.-F. Kraiss
- Recent Developments in Visual Sign Language Recognition (2008). In: Universal Access in the Information Society, Springer Verlag, Special Issue “Emerging Technologies for Deaf Accessibility in the Information Society”, Vol. 6, Issue 4, February 2008, pp. 323-362, ISSN 1615-5289
U. von Agris, J. Zieren, U. Canzler, B. Bauer, K.-F. Kraiss
- The Significance of Facial Features for Automatic Sign Language Recognition (2008). In: Proceedings of the 8th IEEE International Conference on Automatic Face and Gesture Recognition, September 17-19, 2008, Amsterdam, ISBN: 978-1-4244-2175-6
U. von Agris, M. Knorr, K.-F. Kraiss