Ein systematischer Ansatz zur Ausnutzung von Korrelationen aufeinander folgender Merkmalsvektoren in der automatischen Spracherkennung
Zusammenfassung der Projektergebnisse
Bekannte Schwachstellen heutiger automatischer Spracherkennungssysteme sind die mangelnde Robustheit gegenüber gestörten (z.B. verrauschten) Eingangssignalen, sowie die unzulängliche Modellierung einer Merkmalsvektortrajektorie aufgrund der üblichen conditional independence Annahme, die besagt, dass die Wahrscheinlichkeit für einen Merkmalsvektor lediglich vom momentanen Hidden Markov Modellzustand abhängt. Der Ausgangspunkt für dieses Projekt war eine Erweiterung der Herleitung des Spracherkenners aus der Bayes’schen Entscheidungsregel, welche das Vorhandensein von gestörten Merkmalsvektoren und Korrelationen zwischen aufeinander folgenden Sprachrahmen explizit berücksichtigt. Die Interrahmenkorrelation von Merkmalsvektoren sollte dabei zum einen zur Erhöhung der Rauschrobustheit ausgenutzt werden, und zum anderen zu einer Verbesserung der Erkennungsrate selbst bei ungestörten Eingangssignalen führen. Kernelement der rauschrobusten Erkennung durch Ausnutzung von Interrahmenkorrelation ist die Bestimmung der Posteriorverteilung des ungestörten Merkmalsvektors, gegeben den momentanen und die vergangenen gestörten Merkmalsvektoren. Die Schätzung dieser Posteriorverteilung erfolgt in einem Bayes’schen Inferenzverfahren, welches ein a priori Modell für ungestörte Merkmalsvektortrajektorien und ein Beobachtungsmodell, welches die ungestörten mit den gestörten Merkmalsvektoren in Beziehung setzt, auswertet. Hierzu wurden im Berichtszeitraum folgende Fortschritte erzielt: Schaltende lineare dynamische Modelle (SLDM) als a priori Modell für die Merkmalstrajektorien unverrauschter Sprache sind, im Gegensatz zu Gauß-Mischungsverteilungen (GMM), in der Lage, die Interrahmenkorrelation zu erfassen. Für das unüberwachte Training dieser Modelle mit dem EM-Algorithmus wurde ein neues Verfahren zur Auswahl der Initialmodelle basierend auf dem k-means++ Algorithmus entwickelt, welches insgesamt zu einer verbesserten Erkennungsrate führte. Es wurde ein phasensensitives Beobachtungsmodell entwickelt, welches den Zusammenhang zwischen den Merkmalsvektoren der Sprache und des Rauschens und denen der verrauschten Sprache genauer beschreibt als die bisher in der Literatur vorgeschlagenen phaseninsensitiven und alternativen phasensensitiven Modelle. Der Linearisierungsfehler des Beobachtungsmodells wurde reduziert, indem die Gaußverteilung vor der Nichtlinearität durch ein GMM ersetzt wurde. Damit wird der Fehler durch die Taylorreihenapproximation der nichtlinearen Beziehung zwischen dem Sprach- und Rauschmerkmalsvektor und dem Merkmalsvektor der verrauschten Sprache reduziert. Die beiden letzten Maßnahmen haben insbesondere die Erkennungsgenauigkeiten bei niedrigen Signal-zu-Rauschleistungsverhältnissen (SNR um 0 dB) deutlich verbessert. Bei den Untersuchungen zur Verbesserung der Erkennung bei ungestörten Merkmalsvektoren durch Ausnutzung von Interrahmenkorrelation wurden folgende Ergebnisse erzielt: Es wurde ein hybrider Phonemklassifikator entwickelt, in dem bei vorgegebenen Segmentgrenzen die Bewertung des Phonems zum einem mit dem akustischen Modell eines traditionellen HMM-basierten Erkenners und zum anderen mit linearen dynamischen Modellen (LDM) erfolgt. Verschiedene Alternativen zur Kombination der Likelihoods oder Posteriorwahrscheinlichkeiten wurden untersucht. Auf TIMIT wurden Klassifikationsraten erzielt, die über denen eines LDM- oder HMM-basierten Erkenners alleine lagen. Es wurden Spracherkennungstests mit einem hybriden LDM/HMM Erkenner auf der Aurora IV Datenbasis durchgeführt. Während der hybride Erkenner die Erkennungsrate eines Monophon HMM-Erkenners verbessert, war er nicht in der Lage, die Ergebnisse eines triphonbasierten HMM-Erkenners zu verbessern. Dazu müssten vermutlich auch kontextabhängige LDM-Modelle verwendet werden, was jedoch die Komplexität des Erkenners deutlich erhöht hätte und daher verworfen wurde. Von den beiden eingangs erwähnten Zielen, der Ausnutzung der Interrahmenkorrelation zur Verbesserung der Rauschrobustheit einerseits und zur Verbesserung der Erkennungsgenauigkeit selbst bei ungestörter Sprache andererseits, kann zusammenfassend festgestellt werden, dass das erste Ziel eindeutig erreicht wurde, während die Untersuchungen zeigten, dass das zweite nicht zu erreichen war. Wir glauben, dass wir mit diesem Projekt einen wichtigen Schritt hin zu einer allgemeinen Theorie der robusten Erkennung gestörter Sprache mittels Merkmalsvektorverbesserung getan haben. Die bereits erwähnte Schätzung der Posteriorverteilung des ungestörten Sprachmerkmalsvektors, gegeben die beobachteten gestörten Merkmalsvektoren, kann als Merkmalsentstörung aufgefasst werden, denn der Mittelwert der Posteriorverteilung ist gleich dem Minimum Mean Squared Error (MMSE) Schätzwert für den ungestörten Merkmalsvektor. Dieser Ansatz ist im Prinzip bei beliebigen Arten von Störungen anwendbar. Mittlerweile haben wir ihn auch für die Erkennung von verhallter Sprache angewendet. Mit diesem Ansatz konnten bis zu 75% der durch den Hall verursachten Erkennungsfehler vermieden werden. Damit zählt das Verfahren nach unserem Kenntnisstand zu den leistungsfähigsten Ansätzen für die Erkennung verhallter Sprache. Da bei der Übertragung des Verfahrens zur Erkennung verrauschter Sprache auf die Erkennung verhallter Sprache lediglich das Beobachtungsmodell, welches ungestörte und gestörte Merkmalsvektoren in Beziehung setzt, ausgetauscht werden muss, war es naheliegend, die beiden Beobachtungsmodelle zu kombinieren, um damit auch die Erkennung verhallter und verrauschter Sprache zu ermöglichen. Erste Untersuchungen in diese Richtung sind erfolgt. Allerdings ist das Potenzial noch bei weitem nicht ausgeschöpft, und weitere Untersuchungen sollen folgen. Als besonderen Vorteil unseres Ansatzes zur robusten Spracherkennung sehen wir an, dass die Merkmalsverbesserung zwischen die Merkmalsextraktion und die Spracherkennung geschaltet wird und damit im Prinzip beide Blöcke, Merkmalsextraktion und Dekoder, nicht modifiziert werden müssen. Damit kann das Verfahren auch unmittelbar auf sehr große Erkennungsaufgaben mit aufwändigen akustischen und Sprachmodellen angewendet werden, was bei Robustheitsansätzen, die das akustische Modell modifizieren, sicherlich nicht ohne Weiteres möglich wäre. Künftige Arbeiten sollen verifizieren, dass diese Hypothese in der Tat korrekt ist. Anwendungen sehen wir daher vor allem bei Spracherkennungssystemen mit einer Freispecheinrichtung, d.h. Szenarien, in denen ein großer Abstand zwischen Sprecher und Sensor vorhanden ist, etwa in der Gerätesteuerung oder in intelligenten Umgebungen. Diese Anwendungen erfordern Erkenner mit einer hohen Hall- und Rauschrobustheit.
Projektbezogene Publikationen (Auswahl)
-
“An Analytic Derivation of a Phase-Sensitive Observation Model for Noise Robust Speech Recognition”, in Proc. Interspeech 2009, Brighton, U.K., Sept. 2009
V. Leutnant, R. Haeb-Umbach
-
“On the Exploitation of Hidden Markov Models and Linear Dynamic Models in a Hybrid Decoder Architecture for Continuous Speech Recognition”, in Proc. Interspeech 2010, Makuhari, Japan, Okt. 2010
V. Leutnant, R. Haeb-Umbach
-
“On the Initialization of Dynamic Models for Speech Features”, in ITG Fachtagung Sprachkommunikation, Bochum , Okt. 2010
A. Krueger, V. Leutnant, R. Haeb-Umbach, M. Ackermann, J. Blömer
-
“Options for Modelling Temporal Statistical Dependencies in an Acoustic Model for ASR”, in Proc. 36. Deutsche Jahrestagung für Akustik, DAGA-2010, Berlin, März 2010
V. Leutnant, R. Haeb-Umbach
-
Robust Speech Recognition of Uncertain or Missing Data – Theory and Applications, Springer 2011
D. Kolossa, R. Haeb-Umbach
-
“Conditional Bayesian Estimation Employing a Phase- Sensitive Observation Model for Noise Robust Speech Recognition”, in D. Kolossa und R. Haeb-Umbach (Hrsg.) Robust Speech Recognition of Uncertain or Missing Data – Theory and Applications, Springer, 2011
V. Leutnant, R. Haeb-Umbach