Project Details
Projekt Print View

Verbesserung der automatischen Erkennung gestörter Sprachsignale durch Verwendung robuster akustischer Merkmale und einer Adaption der Referenzmuster

Subject Area Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering
Term from 2004 to 2008
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 5417499
 
Final Report Year 2008

Final Report Abstract

Es wurde ein Verfahren zur automatischen Spracherkennung entwickelt, mit dem die Erkennungsraten bei einer Spracheingabe im Freisprechmodus in einer gestörten räumlichen Umgebung im Vergleich zu bisherigen Verfahren verbessert werden können. Das Verfahren beruht auf einer Adaption der zur Erkennung verwendeten Referenzmuster, die als Hidden Markov Modelle (HMMs) zur Mustererkennung herangezogen werden. Speziell werden die in den HMMs enthaltenen spektralen und energetischen Parameter auf die Hintergrundstörung und den Nachhall des Raumes bei jeder neuen Spracheingabe adaptiert. Neu ist dabei die Adaption auf den Nachhall, der auf Grund der Vielfachreflexionen des Schalls in einem Raum zu einem zeitlich ausgedehnten Auftreten der spektralen und energetischen Merkmale der Sprache führt Dies wird bei der Adaption der Merkmale eines HMM Zustands durch eine additive, gemäß dem jeweiligen Nachhallverhalten gewichtete Überlagerung der Merkmale vorheriger Zustände kompensiert. Des Weiteren wurde ein neues Verfahren zur Adaption der zeitlichen Ableitungen der akustischen Parameter, die häufig als Delta und Delta-Delta Parameter bezeichnet werden, entwickelt. Zur Durchführung von Erkennungsexperimenten wurde ein Simulationswerkzeug entwickelt, um die Aufnahme in einer gestörten und verhallten Umgebung sowie eine mögliche Übertragung über einen Mobilfunkkanal nachzuempfinden. Damit wurden Versionen der ungestörten TIDigits Sprachdatenbasis erzeugt, die die zu untersuchenden Aufnahmebedingungen beinhalten. Diese Sammlung von Sprachdaten steht allen Forschungsgruppen als so bezeichnete „Aurora-5" Datenbasis zur Verfügung, die von der für die Verteilung von Sprachdaten zuständige Organisation ELRA bezogen werden kann. Mit Hilfe von Erkennungsexperimenten mit der neu geschaffenen Sprachdatenbasis als auch mit real in Räumen aufgenommenen Sprachdaten konnte die Effizienz der neuen Verfahren zur Verbesserung der Erkennungsraten aufgezeigt werden. Abschließend konnte ebenfalls gezeigt werden, dass durch eine Kombination bekannter Erkennungsverfahren, die auf einer Extraktion robuster akustischer Merkmale beruhen, und der Adaption der Referenzmuster auf den Nachhall eines Raumes, die Leistungsfähigkeit der bestehenden Verfahren bei einer Spracheingabe im Freisprechmodus verbessert werden kann.

Publications

  • "The Simulation of Realistic Acoustic Input Scenarios for Speech Recognition Systems". Interspeech conference 2005, S. 2697-2700, Lissabon, Portugal, 2005
    H.G. Hirsch, H. Finster
  • A New HMM Adaptation Approach for the Case of a Hands-free Speech Input in Reverberant Rooms. Interspeech conference 2006, S. 2697-2700, Pittsburgh, USA
    H.G. Hirsch, H. Finster
  • Sprachdatenbasis „Aurora-5", Sammlung künstlich gestörter und in verhallter Umgebung aufgenommener Sprachdaten, die im Rahmen des Projekts erzeugt wurde. ELRA (European Language Ressource Association), 2007
    H. Finster, H.G. Hirsch
  • A New Approach for the Adaptation of HMMs to Reverberation and Background Noise. Speech Communication, Vol.50, S. 244-263, März 2008
    H.G. Hirsch, H. Finster
  • Automatic Speech Recognition in Adverse Acoustic Conditions. In: Advances in Digital Speech Transmission, Herausgeber: R. Martin, U. Heute, C. Antweiler, Verlag John Wiley & Sons, S. 461-496, Januar 2008
    H.G. Hirsch
  • Automatic Speech Recognition in Adverse Acoustic Conditions. Schriftenreihe des Fachbereichs Elektrotechnik und Informatik, Hochschule Niederrhein, Shaker Verlag, Mai 2008
    H.G. Hirsch
 
 

Additional Information

Textvergrößerung und Kontrastanpassung