Detailseite
Projekt Druckansicht

Nachhallmodellierung für die robuste Spracherkennung in halligen Umgebungen

Fachliche Zuordnung Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Akustik
Förderung Förderung von 2008 bis 2016
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 76981564
 
Erstellungsjahr 2016

Zusammenfassung der Projektergebnisse

In diesem Projekt wurde robuste Spracherkennung in halligen Umgebungen auf der Grundlage von Nachhallmodellierung angestrebt. Aufgrund des dramatischen Einflusses der tiefen neuronalen Netze (’Deep Neural Networks’, DNNs) auf den Stand der Technik der automatischen Spracherkennung, der von den Projektbearbeitern an vorderster Front mitverfolgt wurde, wurden einige Arbeitspakete angepasst um dieser Entwicklung Rechnung zu tragen. Danach können die Projektarbeiten und -ergebnisse zwei Teilen zugeordnet werden. Im ersten Teil wurde Nachhallmodellierung in GMM(’Gaussian Mixture Model’)-basierten Spracherkennungssystemen untersucht, für deren Grundlage vorbereitende Untersuchungen zur Evaluation des Einflusses von Nachhall auf die Fehlklassifikationsraten durchgeführt wurden. Aufbauend auf diesen Untersuchungen wurde das in der Gruppe des Antragstellers zuvor entwickelte REMOS(’REverberation MOdeling for Speech recognition’)-Konzept für nachhallrobuste Spracherkennung in mehreren Schritten weiterentwickelt. Bei den einzelnen Entwicklungsstufen galt es hierbei auf das jeweilige Optimierungsproblem zugeschnittene Lösungsverfahren zu entwickeln, um neben einer Reduktion der Rechenkomplexität auch verbesserte Spracherkennungsraten mittels global optimaler Lösungen des Optimierungsproblems zu erzielen. In diesem Sinne wurde das REMOS-Konzept an die Extraktion dekorrelierter Merkmale, die durch Annahme diagonaler Kovarianzmatrizen in GMM-basierten Spracherkennungssystemen weit verbreitet sind, angepasst, sowie zur Robustheit gegenüber additiven Störungen erweitert. Außerdem waren die Schätzung der Parameter des Nachhallmodells und die Verwendung von HMMs (’Hidden Markov Models’) höherer Ordnung Teil intensiver Forschungsaktivitäten. Schließlich konnten die gewonnenen Erkenntnisse mit Ansätzen des maschinellen Lernens zur Entwicklung des sogenannten REMOS-FMA(’REMOS Frame-wise Model Adaptation’)-Konzepts vereint werden, welches die Vorteile des REMOS-Verfahrens und der HMMs höherer Ordnung kombiniert. Im zweiten Projektabschnitt wurden die Projektziele an DNNs angepasst, die mittlerweile die GMMs in allen forschungsrelevanten Spracherkennungssystemen nahezu völlig verdrängt hatten. Zunächst konnte die räumlich diffuse Modellierung von spätem Nachhall zur Extraktion sogenannter ’Diffuseness’-Merkmale und dem Entwurf eines Enthallungsalgorithmus als vielversprechender Ansatz für DNN-basierte Spracherkennungssysteme identifiziert werden. Trotz der Verbesserung der Fehlklassifikationsraten unter Berücksichtigung dieses Nachhallmodells blieben Schätzfehler in der Signalvorverarbeitung und Unterschiede zwischen Test- und Trainingsbedingungen zwei Hauptgründe für eine Verschlechterung der Erkennungsraten gegenüber hallarmen Anwendungsfällen. Vor diesem Hintergrund wurde ein neues ’Uncertainty Decoding’-Verfahren entwickelt, welches Merkmale als Zufallsvariablen modelliert, um Beobachtungsunsicherheiten oder fehlende Informationen im Merkmalbereich zu erfassen. Dieses probabilistische Modell konnte mithilfe eines numerischen Samplingverfahrens beim Dekodiervorgang DNN-basierter Spracherkennungssysteme berücksichtigt werden. Das so entstandene Uncertainty Decoding-Verfahren ist ein sehr allgemeiner Ansatz, der unmittelbar zu Verbesserungen der Fehlklassifikationsraten verschiedener konkurrenzfähiger DNN-basierter Spracherkennungssysteme (relative Verbesserung der Erkennungsraten um etwa 7%) führte und aufgrund seiner Rechenzeiteffizienz und Flexibilität hinsichtlich Vorverarbeitungsalgorithmen und DNN-Architekturen auch eine vielversprechende Grundlage für weitere Forschungsaktivitäten darstellt.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung