Strukturierte hybride Modelle für die audiovisuelle Sprachverarbeitung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Zusammenfassung der Projektergebnisse
Schon länger gab es Hinweise darauf, dass Spracherkennungsanwendungen davon profitieren, dass zusätzlich zu den üblichen Mikrofonsignalen auch andere Informationen in den Erkennungsprozess mit einbezogen werden. Größtenteils unklar blieb jedoch die Frage, nach welchen Regeln und mit welchen Methoden eine optimale Informationsintgration erfolgen sollte. Hierzu konnte das vorliegende DFG-Projekt wesentliche neue Beiträge und Antworten liefern. Im ersten Förderzeitraum stand die Frage im Vordergrund, wie es möglich ist, Informationen über die zeitvariante Zuverlässigkeit von Audiosignalen einzubeziehen, um audiovisuelle Spracherkennung gegenüber dynamischen Umgebungseinflüssen robuster zu gestalten. Dabei sollten Modifikationen der Erkennungsphase und der Trainingsphase genauso berücksichtigt werden wie die Möglichkeit der dynamischen Streamgewichtung. Hierzu wurden verschiedene Modelltopologien sowohl für rein statistische Modelle als auch für hybride Architekturen - Kombinationen aus statistischen und neuronalen Teilsystemen - entwickelt und analysiert. So ließen sich audio-visuelle Systeme entwickeln, die in jeder akustischen Situation bessere oder mindestens genauso gute Ergebnisse wie das für die jeweilige Situation beste Einzelmodell erreichen und die zeitliche Asynchronität der Merkmalsströme berücksichtigen, die ja dynamisch sowohl von dem Inhalt der Sprache als auch von der Aufnahme-Hardware abhängig ist. Nachdem die erste Projektphase zeigen konnte, dass für beide Typen von Modellen - rein probabilistische und hybride Architekturen - die Verwendung von Merkmalsunsicherheiten für die audiovisuelle Spracherkennung von großem Wert ist, stand im zweiten Förderzeitraum die Frage im Vordergrund, welche probabilistischen und neuronalen Systemarchitekturen für die multimodale Spracherkennung mit großen Vokabularien am geeignetsten sind. Weil sich in den letzten Jahren zunehmend das Ende-zu-Ende-Training, also die Optimierung eines vollständigen Erkennersystems mit allen Komponenten auf die maximale Erkennungsrate hin, als vorteilhaft erwiesen hat, wurden die entworfenen Systeme satzweise diskriminativ trainiert, wobei auch die Kopplung der Merkmalsströme sowie die Verwendung und Schätzung der Merkmalsunsicherheiten im Training angepasst wurden. Außerdem hat der Erfolg der akustischen Merkmalsunsicherheiten die Frage aufgeworfen, wie die Zuverlässigkeit von Videomerkmalen auch in die audiovisuelle Erkennung einfließen kann und sollte. Da in einem anderen Projekt unserer Arbeitsgruppe bereits Zuverlässigkeitsmaße für Videomerkmale entwickelt wurden, die für eine audiovisuelle Sprecheridentifikation äußerst wertvoll waren, sind diese für den Zweck der Spracherkennung weiterentwickelt worden und stehen nun nach Abschluss der zweiten Projektphase für alle Modelltopologien und Trainingsmethoden zur Verfügung. Die Gesamtarchitektur, die so entwickelt wurde, kombiniert alle gegebenen akustischen und visuellen Informationen und berücksichtigt dabei dynamisch die Unsicherheitsinformationen für die beiden Merkmalsströme. Beispielsweise berücksichtigt das System, ob und wann die Lippen des Sprechers mit hinreichender Qualität sichtbar sind und wie groß der Signal-Störabstand im akustischen Signal zu jedem Zeitpunkt ist. Mit Hilfe eines Ende-zu-Ende-Trainings konnten wir damit in der besten, gefundenen Systemarchitektur eine sehr zuverlässige, audiovisuelle Spracherkennung entwickeln. Diese verringert für fließend gesprochene, englische Sprache bei einem offenen Vokabular die Wortfehlerrate im Mittel von 8.2% auf 5.1% und kann sogar auf ungestörten akustischen Daten noch stark von den Videoinformationen profitieren. Damit halten wir die erreichten Ergebnisse auch für wirtschaftlich erfolgversprechend, gerade wenn privatsphäreachtende Erkennungssysteme auf Nutzerseite dank der zunehmenden Leistung der Endgeräte zur Option werden. Wir sehen gleichzeitig die Möglichkeit, äquivalente Architekturen für die Stream-Integration in anderen Aufgabenstellungen, beispielsweise in biomedizinischen Anwendungen, zum Einsatz zu bringen. Dies ist umso interessanter, als unser Projekt nachhaltig zeigen konnte, dass es möglich ist, bei multimodalen Daten auch einen wesentlichen Nutzen aus solchen Modalitäten zu ziehen, die für sich allein genommen nur eine geringe Erkennungsleistung versprechen.
Projektbezogene Publikationen (Auswahl)
- “Learning Dynamic Stream Weights For Coupled-HMM- based Audio-visual Speech Recognition,” IEEE Trans. Audio Speech and Language Processing, vol. 23, no. 5, pp. 863-876, May 2015
A. Hussen Abdelaziz, S. Zeiler, and D. Kolossa
(Siehe online unter https://doi.org/10.1109/TASLP.2015.2409785) - “Uncertainty Propagation through Deep Neural Networks,” in Proc. Interspeech, Dresden, Germany, September 2015
A. Hussen Abdelaziz, S. Watanabe, J. Hershey, E. Vincent, D. Kolossa
(Siehe online unter https://doi.org/10.21437/Interspeech.2015-706) - “Dynamic Stream Weighting for Turbo-Decoding-Based Audiovisual ASR,” Proc. Interspeech 2016, San Francisco, Sept. 2016
S. Gergen, S. Zeiler, A. Hussen Abdelaziz, R. Nickel and D. Kolossa
(Siehe online unter https://doi.org/10.21437/Interspeech.2016-166) - “General Hybrid Framework for Uncertainty-decoding-based Automatic Speech Recognition Systems,” Speech Communication, vol. 79, pp. 1-13, May 2016
A. Hussen Abdelaziz, D. Kolossa
(Siehe online unter https://doi.org/10.1016/j.specom.2016.02.002) - “Robust audiovisual speech recognition using noise-adaptive linear discriminant analysis,” Proc. ICASSP 2016, Shanghai, March 2016
S. Zeiler, R. Nickel, N. Ma, G. J. Brown, D. Kolossa
(Siehe online unter https://doi.org/10.1109/ICASSP.2016.7472187) - “Improving Audio-visual Speech Recognition using Deep Neural Networks with Dynamic Stream Reliability Estimates,” Proc. ICASSP 2017, New Orleans, March 2017
H. Meutzner, N. Ma, R. Nickel, Ch. Schymura, and D. Kolossa
(Siehe online unter https://doi.org/10.1109/ICASSP.2017.7953172) - “Multimodal integration for large-vocabulary audio-visual speech recognition,” Proc. European Signal Processing Conference (EUSIPCO) 2020
W. Yu, S. Zeiler, D. Kolossa
(Siehe online unter https://doi.org/10.23919/Eusipco47968.2020.9287841) - “Fusing Information Streams in End-to-End Audio-Visual Speech Recognition,” Proc. ICASSP, June 2021
W. Yu, S. Zeiler, and D. Kolossa
(Siehe online unter https://doi.org/10.1109/ICASSP39728.2021.9414553) - “Large-vocabulary Audio-visual Speech Recognition in Noisy Environments,” Proc. IEEE MMSP, October 2021
W. Yu, S. Zeiler, and D. Kolossa
(Siehe online unter https://doi.org/10.1109/MMSP53017.2021.9733452) - “Towards Reliability-guided information integration in Audio-Visual Speech Recognition,” Proc. ESSV, March 2021
W. Yu, S. Zeiler, D. Kolossa