Invariante Merkmale für die automatische Spracherkennung auf der Basis von komplexen Modellen der Spracherzeugung und der auditorischen Wahrnehmung
Zusammenfassung der Projektergebnisse
Während sprecherspezifische Systeme zur automatischen Spracherkennung bereits vielfach eingesetzt werden (z. B. für Diktieraufgaben), ist die Verwendbarkeit der sprecherunabhängigen automatischen Spracherkennung für die allgemeine Mensch-Maschine-Kommunikation noch stark eingeschränkt. Als Gründe sind neben einer zu geringen Robustheit gegenüber äußeren Einflüssen, wie Hintergrundgeräuschen und Nachhall, die großen Variationen zwischen den Sprechern (Vokaltraktdimension, Geschlecht, Alter, Dialekt usw.) zu nennen, an die sich heutige Systeme nur unzureichend anpassen können. In Vorarbeiten des Antragstellers konnte bereits nachgewiesen werden, dass die Robustheit gegenüber Sprecher-Eigenschaften durch den Einsatz von Methoden der Invariantengewinnung deutlich gesteigert werden kann. Im vorliegenden Forschungsvorhaben sollte die Erzeugung invarianter Merkmale weiter verbessert werden, indem die Invariantenberechnung auf der Basis einer genaueren physikalischen Modellierung der Vokaltrakteinflüsse und unter Verwendung von komplexen Modellen der auditorischen Wahrnehmung des Menschen erfolgt. Globales Ziel war es, die Erkennungsleistung in sprecherunabhängigen Anwendungen und unter dem Einfluss äußerer Störungen zu verbessern und die automatische Spracherkennung als Modus für die Mensch-Maschine-Kommunikation besser nutzbar zu machen. Die zum Zeitpunkt der Antragstellung bekannten Methoden zur Extraktion von vokaltraktlängenunabhängigen Merkmalen basierten auf der Annahme, dass sich Unterschiede in den Vokaltraktlängen in Form einer nahezu linearen Verzerrung der Frequenzachse ausdrücken, die sich durch eine Logarithmierung der Frequenzvariablen in eine Translation überführen lässt. Es existierten allerdings auch grundlegende Arbeiten, in denen gezeigt wurde, dass die Einflüsse der Vokaltraktlängen durchaus komplexer sind. Im Rahmen des Projekts sollte daher die übliche Frequenzverzerrung durch eine den physikalischen Zusammenhängen nähere Transformation ersetzt werden. Hierzu wurden sowohl ein modell- als auch ein datengetriebener Ansatz verfolgt. Ein wesentliches Ergebnis der Arbeiten ist die Erkenntnis, dass eine vom Phonemkontext abhängige Verwendung der gewonnenen Transformationen zu erheblich größeren Verbesserungen der Erkennungsleistung führt als die Verwendung einer globalen Warpingfunktion. Die datengetriebene Vorgehensweise erwies sich gegenüber dem modellbasierten Ansatz als deutlich überlegen. In einem weiteren Teil der Arbeiten wurde das Prinzip der invarianten Integration auf ein komplexeres auditorisches Modell erweitert. Das auditorische Modell erzeugt ein sogenanntes stabilisiertes auditorisches Bild, welches das Eingangssprachsignal innerhalb eines dreidimensionalen skalen-kovarianten Raumes darstellt. Im Projekt konnte erstmals gezeigt werden, dass die auf diesem Raum basierenden invarianten Merkmale die Erkennungsleistung besonders bei gestörten Sprachsignalen signifikant verbessern. Insgesamt konnte mit den im Projekt entwickelten Methoden die Erkennungsleistung der sprecherunabhängigen automatischen Spracherkennungssysteme weiter gesteigert und näher an die menschliche Leistung gebracht werden. Dies gilt besonders für Anwendungen, in denen keine umfangreiche Sprecheradaptation ausgeführt werden kann, weil entweder der Aufwand zu groß wäre oder weil nur kurze Äußerungen zu erkennen sind, bei denen nicht genügend viel Adaptationsmaterial vorliegt.
Projektbezogene Publikationen (Auswahl)
-
Enhancing vocal tract length normalization with elastic registration for automatic speech recognition. In Proc. Interspeech-2012, Portland, USA, Sept. 2012
Florian Müller and Alfred Mertins
-
On using the auditory image model and invariantintegration for noise robust automatic speech recognition. In Proc. Int. Conf. Audio, Speech, and Signal Processing, pages 4905–4908, Kyoto, Japan, Mar. 2012
Florian Müller and Alfred Mertins
-
Noise robust speaker-independent speech recognition with invariant-integration features using power-bias subtraction. In Proc. Int. Conf. Spoken Language Processing (Interspeech 2011-ICSLP), pages 1677–1680, Florence, Italy, Aug. 2011
Florian Müller and Alfred Mertins