Project Details
Projekt Print View

Reverberation Modelling for Robust Speech Recognition in Reverberant Environments

Subject Area Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering
Acoustics
Term from 2008 to 2016
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 76981564
 
Final Report Year 2016

Final Report Abstract

In diesem Projekt wurde robuste Spracherkennung in halligen Umgebungen auf der Grundlage von Nachhallmodellierung angestrebt. Aufgrund des dramatischen Einflusses der tiefen neuronalen Netze (’Deep Neural Networks’, DNNs) auf den Stand der Technik der automatischen Spracherkennung, der von den Projektbearbeitern an vorderster Front mitverfolgt wurde, wurden einige Arbeitspakete angepasst um dieser Entwicklung Rechnung zu tragen. Danach können die Projektarbeiten und -ergebnisse zwei Teilen zugeordnet werden. Im ersten Teil wurde Nachhallmodellierung in GMM(’Gaussian Mixture Model’)-basierten Spracherkennungssystemen untersucht, für deren Grundlage vorbereitende Untersuchungen zur Evaluation des Einflusses von Nachhall auf die Fehlklassifikationsraten durchgeführt wurden. Aufbauend auf diesen Untersuchungen wurde das in der Gruppe des Antragstellers zuvor entwickelte REMOS(’REverberation MOdeling for Speech recognition’)-Konzept für nachhallrobuste Spracherkennung in mehreren Schritten weiterentwickelt. Bei den einzelnen Entwicklungsstufen galt es hierbei auf das jeweilige Optimierungsproblem zugeschnittene Lösungsverfahren zu entwickeln, um neben einer Reduktion der Rechenkomplexität auch verbesserte Spracherkennungsraten mittels global optimaler Lösungen des Optimierungsproblems zu erzielen. In diesem Sinne wurde das REMOS-Konzept an die Extraktion dekorrelierter Merkmale, die durch Annahme diagonaler Kovarianzmatrizen in GMM-basierten Spracherkennungssystemen weit verbreitet sind, angepasst, sowie zur Robustheit gegenüber additiven Störungen erweitert. Außerdem waren die Schätzung der Parameter des Nachhallmodells und die Verwendung von HMMs (’Hidden Markov Models’) höherer Ordnung Teil intensiver Forschungsaktivitäten. Schließlich konnten die gewonnenen Erkenntnisse mit Ansätzen des maschinellen Lernens zur Entwicklung des sogenannten REMOS-FMA(’REMOS Frame-wise Model Adaptation’)-Konzepts vereint werden, welches die Vorteile des REMOS-Verfahrens und der HMMs höherer Ordnung kombiniert. Im zweiten Projektabschnitt wurden die Projektziele an DNNs angepasst, die mittlerweile die GMMs in allen forschungsrelevanten Spracherkennungssystemen nahezu völlig verdrängt hatten. Zunächst konnte die räumlich diffuse Modellierung von spätem Nachhall zur Extraktion sogenannter ’Diffuseness’-Merkmale und dem Entwurf eines Enthallungsalgorithmus als vielversprechender Ansatz für DNN-basierte Spracherkennungssysteme identifiziert werden. Trotz der Verbesserung der Fehlklassifikationsraten unter Berücksichtigung dieses Nachhallmodells blieben Schätzfehler in der Signalvorverarbeitung und Unterschiede zwischen Test- und Trainingsbedingungen zwei Hauptgründe für eine Verschlechterung der Erkennungsraten gegenüber hallarmen Anwendungsfällen. Vor diesem Hintergrund wurde ein neues ’Uncertainty Decoding’-Verfahren entwickelt, welches Merkmale als Zufallsvariablen modelliert, um Beobachtungsunsicherheiten oder fehlende Informationen im Merkmalbereich zu erfassen. Dieses probabilistische Modell konnte mithilfe eines numerischen Samplingverfahrens beim Dekodiervorgang DNN-basierter Spracherkennungssysteme berücksichtigt werden. Das so entstandene Uncertainty Decoding-Verfahren ist ein sehr allgemeiner Ansatz, der unmittelbar zu Verbesserungen der Fehlklassifikationsraten verschiedener konkurrenzfähiger DNN-basierter Spracherkennungssysteme (relative Verbesserung der Erkennungsraten um etwa 7%) führte und aufgrund seiner Rechenzeiteffizienz und Flexibilität hinsichtlich Vorverarbeitungsalgorithmen und DNN-Architekturen auch eine vielversprechende Grundlage für weitere Forschungsaktivitäten darstellt.

Publications

 
 

Additional Information

Textvergrößerung und Kontrastanpassung