Nachhallmodellierung für die robuste Spracherkennung in halligen Umgebungen
Akustik
Zusammenfassung der Projektergebnisse
In diesem Projekt wurde robuste Spracherkennung in halligen Umgebungen auf der Grundlage von Nachhallmodellierung angestrebt. Aufgrund des dramatischen Einflusses der tiefen neuronalen Netze (’Deep Neural Networks’, DNNs) auf den Stand der Technik der automatischen Spracherkennung, der von den Projektbearbeitern an vorderster Front mitverfolgt wurde, wurden einige Arbeitspakete angepasst um dieser Entwicklung Rechnung zu tragen. Danach können die Projektarbeiten und -ergebnisse zwei Teilen zugeordnet werden. Im ersten Teil wurde Nachhallmodellierung in GMM(’Gaussian Mixture Model’)-basierten Spracherkennungssystemen untersucht, für deren Grundlage vorbereitende Untersuchungen zur Evaluation des Einflusses von Nachhall auf die Fehlklassifikationsraten durchgeführt wurden. Aufbauend auf diesen Untersuchungen wurde das in der Gruppe des Antragstellers zuvor entwickelte REMOS(’REverberation MOdeling for Speech recognition’)-Konzept für nachhallrobuste Spracherkennung in mehreren Schritten weiterentwickelt. Bei den einzelnen Entwicklungsstufen galt es hierbei auf das jeweilige Optimierungsproblem zugeschnittene Lösungsverfahren zu entwickeln, um neben einer Reduktion der Rechenkomplexität auch verbesserte Spracherkennungsraten mittels global optimaler Lösungen des Optimierungsproblems zu erzielen. In diesem Sinne wurde das REMOS-Konzept an die Extraktion dekorrelierter Merkmale, die durch Annahme diagonaler Kovarianzmatrizen in GMM-basierten Spracherkennungssystemen weit verbreitet sind, angepasst, sowie zur Robustheit gegenüber additiven Störungen erweitert. Außerdem waren die Schätzung der Parameter des Nachhallmodells und die Verwendung von HMMs (’Hidden Markov Models’) höherer Ordnung Teil intensiver Forschungsaktivitäten. Schließlich konnten die gewonnenen Erkenntnisse mit Ansätzen des maschinellen Lernens zur Entwicklung des sogenannten REMOS-FMA(’REMOS Frame-wise Model Adaptation’)-Konzepts vereint werden, welches die Vorteile des REMOS-Verfahrens und der HMMs höherer Ordnung kombiniert. Im zweiten Projektabschnitt wurden die Projektziele an DNNs angepasst, die mittlerweile die GMMs in allen forschungsrelevanten Spracherkennungssystemen nahezu völlig verdrängt hatten. Zunächst konnte die räumlich diffuse Modellierung von spätem Nachhall zur Extraktion sogenannter ’Diffuseness’-Merkmale und dem Entwurf eines Enthallungsalgorithmus als vielversprechender Ansatz für DNN-basierte Spracherkennungssysteme identifiziert werden. Trotz der Verbesserung der Fehlklassifikationsraten unter Berücksichtigung dieses Nachhallmodells blieben Schätzfehler in der Signalvorverarbeitung und Unterschiede zwischen Test- und Trainingsbedingungen zwei Hauptgründe für eine Verschlechterung der Erkennungsraten gegenüber hallarmen Anwendungsfällen. Vor diesem Hintergrund wurde ein neues ’Uncertainty Decoding’-Verfahren entwickelt, welches Merkmale als Zufallsvariablen modelliert, um Beobachtungsunsicherheiten oder fehlende Informationen im Merkmalbereich zu erfassen. Dieses probabilistische Modell konnte mithilfe eines numerischen Samplingverfahrens beim Dekodiervorgang DNN-basierter Spracherkennungssysteme berücksichtigt werden. Das so entstandene Uncertainty Decoding-Verfahren ist ein sehr allgemeiner Ansatz, der unmittelbar zu Verbesserungen der Fehlklassifikationsraten verschiedener konkurrenzfähiger DNN-basierter Spracherkennungssysteme (relative Verbesserung der Erkennungsraten um etwa 7%) führte und aufgrund seiner Rechenzeiteffizienz und Flexibilität hinsichtlich Vorverarbeitungsalgorithmen und DNN-Architekturen auch eine vielversprechende Grundlage für weitere Forschungsaktivitäten darstellt.
Projektbezogene Publikationen (Auswahl)
- (2011), “Extension of the REMOS concept to frequency-filtering-based features for reverberation-robust speech recognition”, in Proc. Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA), Edinburgh (UK), Mai 2011, S. 13-18
R. Maas, M. Wolf, A. Sehr, C. Nadeu und W. Kellermann
- (2011), “Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition”, in IEEE Transactions on Audio, Speech, and Language Processing, Bd. 18, Nr. 7, September 2011, S. 1676-169
A. Sehr, R. Maas und W. Kellermann
- (2012), ”Making machines understand us in reverberant rooms: robustness against reverberation for automatic speech recognition“, in IEEE Signal Processing Magazine, Bd. 29, Nr. 6, November 2012, S.114-126
T. Yoshioka, A. Sehr, M. Delcroix, K. Kinoshita, R. Maas, T. Nakatani und W. Kellermann
- (2012), ”On the application of reverberation suppression to robust speech recognition“, in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), Kyoto (Japan), März 2012, S. 297-300
R. Maas, E.A.P. Habets, A. Sehr und W. Kellermann
- (2013), “An uncertainty decoding approach to noise- and reverberation-robust speech recognition“, in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver (Kanada), Mai 2013, S. 7388-7392
R. Maas, A. Thippur, A. Sehr und W. Kellermann
- (2014), “Efficient training of acoustic models for reverberation-robust medium-vocabulary automatic speech recognition”, in Proc. Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA), Nancy (Frankreich), Mai 2014, S. 117-181
A. Sehr, H. Barfuss, C. Hofmann, R. Maas und W. Kellermann
(Siehe online unter https://doi.org/10.1109/HSCMA.2014.6843275) - (2015), “A Bayesian view on acoustic modelbased techniques for robust speech recognition”, in EURASIP Journal on Advances in Signal Processing, Nr. 103, Dezember 2015, S. 1-16
R. Maas, C. Hümmer, A. Sehr und W. Kellermann
(Siehe online unter https://doi.org/10.1186/s13634-015-0287-x) - (2015), “Spatial diffuseness features for DNN-based speech recognition in noisy and reverberant environments”, in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), South Brisbane (Australien), April 2015, S. 4380-4384
A. Schwarz, C. Hummer, R. Maas und W. Kellermann
(Siehe online unter https://doi.org/10.1109/ICASSP.2015.7178798) - (2015), “Uncertainty decoding for DNN-HMM hybrid systems based on numerical sampling”, in Proc. Interspeech, Dresden (Deutschland), September 2015, S. 3556-3560
C. Hümmer, R. Maas, A. Schwarz, R. Astudillo und W. Kellermann
- (2016), “A new uncertainty decoding scheme for DNN-HMM hybrid systems with multichannel speech enhancement”, in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), Shanghai (China), Marz 2016, S. 5760-5764
C. Hümmer, A. Schwarz, R. Maas, H. Barfuss, R. Astudillo und W. Kellermann
(Siehe online unter https://doi.org/10.1109/ICASSP.2016.7472781)