Untersuchungen zur automatischen Erkennung gestörter Sprachsignale unter Verwendung von modifizierten Referenzmodellen und einer Bestimmung stimmhafter Abschnitte
Final Report Abstract
Es wurde ein neuartiger Ansatz zur Berechnung der Wahrscheinlichkeiten im Bereich der automatischen Spracherkennung untersucht. Dazu werden die stimmhaften energiereichen Abschnitte in einem Sprachsignal bestimmt, wobei das dazu benötigte Verfahren im Rahmen des Vorhabens entwickelt wurde. Zudem wird die Berechnung auf die zeitlichen Abschnitte mit einem guten SNR beschränkt. Bei ungestörten Signalen können damit etwa 80% der stimmhaften Laute detektiert werden. Bei weniger als 2% der nicht stimmhaften Laute kommt es zu einer fehlerhaften Detektion. Bei gestörten Signalen verringert sich in Abhängigkeit der Störung und des SNR die Detektionsrate auf Werte unter 60%. Ausgehend von den Zentren der detektierten stimmhaften Abschnitte erfolgt dann eine Wahrscheinlichkeitsberechnung sowohl zeitlich vorwärts als auch zeitlich rückwärts gerichtet, wobei ein Trainingsverfahren zur Bestimmung der dazu benötigten Teilwort- oder Teillaut-HMMs entwickelt wurde. Zunächst wurde ein Erkennungsansatz entwickelt, der sich zunächst auf die Erkennung isoliert gesprochener Wörter beschränkte. Damit konnten relativ gute Ergebnisse erzielt werden. Bei dem Versuch der Erweiterung des Algorithmus zur Erkennung von Wortketten zeigte sich, dass bei der ausschließlichen Verwendung des Ansatzes keine Verbesserungen erreicht werden konnten. Erst in Kombination mit einer herkömmlichen Erkennung konnten wieder vergleichbare Ergebnisse erzielt werden. Allerdings stellten sich nur in wenigen Störsituationen Verbesserungen gegenüber einer herkömmlichen Erkennung ein. Das grundsätzliche Problem besteht in der Schwierigkeit, die stimmhaften und energiereichen Laute bei einem relativ geringen SNR zu einem hohen Prozentsatz bestimmen zu können. Bei einem vergleichsweise leise gesprochenen Wort in einer Wortkette ist das SNR so gering, dass die zuverlässige Detektion des stimmhaften Lauts schwierig und teilweise nicht möglich ist. Daher konnten leider keine oder nur geringe Verbesserungen gegenüber den mit der herkömmlichen Vorgehensweise erzielten Erkennungsraten erreicht werden, obwohl eine Vielzahl unterschiedlicher Ansätze zur Erkennung der weniger „zuverlässigen“ Signalabschnitte untersucht wurden. Die bei der Bearbeitung des Vorhabens gewonnenen Erkenntnisse zur Detektion und Analyse stimmhafter Abschnitte können allerdings im Rahmen anderer Untersuchungen gut und gewinnbringend eingesetzt werden. So wird damit ein Ansatz zur Sprachverbesserung, der auf der Abbildung der gestörten Spektren auf ungestörte mit Hilfe neuronaler Netze beruht, zur Korrektur der Phaseninformation in den stimmhaften Bereichen verwendet. Des Weiteren wird damit ein einfaches Verfahren zur Sprechererkennung entwickelt, das auf einer spektralen Analyse der stimmhaften Abschnitte beruht.
Publications
- “Combining different recognition schemes by analyzing the noise condition”, 10. ITG Fachtagung Sprachkommunikation, Bochum, 2012
H.G. Hirsch, A. Kitzig, A. Ringl
- “Comparison of different approaches for speech recognition in hands-free mode”, 10. ITG Tagung Sprachkommunikation, Bochum, 2012
H.G. Hirsch, S. Ganapathy, H. Hermansky
- “Pitch synchronous spectral analysis for a pitch dependent recognition of voiced phonems – PISAR”, 14. Fachtagung Interspeech, F-Lyon, 2013
H.-G. Hirsch
- „Detektion stimmhafter Sprachabschnitte zur robusten Spracherkennung“, 43. Tagung der Gesellschaft für Informatik, S. 2902-2916, Koblenz, 2013
H.-G. Hirsch, A. Kitzig, F. Kremer
- “Extraction of robust features by combining noise reduction and FDLP for the recognition of noisy speech signals in hands-free mode”, Workshop Reverb-Challenge, I-Florenz, 2014
H.G. Hirsch
- „Recognition of noisy speech by starting the likelihood calculation at voiced segments”, 11. ITG Tagung Sprachkommunikation, Erlangen, 2014
H.G. Hirsch, F. Kremer
- „Robuste Spracherkennung ausgehend von stimmhaften Abschnitten mit hohem SNR“, 40. Tagung der Deutschen Gesellschaft für Akustik, Oldenburg, 2014
H.G. Hirsch, F. Kremer