Model-based Analysis-by-Synthesis for the Dereverberation of Speech and Audio Signals
Electronic Semiconductors, Components and Circuits, Integrated Systems, Sensor Technology, Theoretical Electrical Engineering
Final Report Abstract
Hall und Umgebungsgeräusche stellen ein großes Problem für moderne Kommunikationssysteme dar, da sie die wahrgenommene Sprachqualität beeinträchtigen und zu großen Verlusten in der automatischen Spracherkennung führen. In diesem Projekt wurden blinde Verfahren zur mehrkanaligen Enthallung und Geräuschunterdrückung entwickelt, die auf der iterativen Verknüpfung von Algorithmen der Kanalentzerrung und blinden Kanalidentifikation basieren. Der erste Projektabschnitt diente zunächst der Untersuchung von Entzerrungsalgorithmen und blinden Kanalschätzverfahren. Dabei wurde gezeigt, dass in der MMSE-Lösung (engl., minimum mean square error ) zur Schätzung des Quellensignals bekannte Entzerrungsverfahren enthalten sind, die sich jedoch aufgrund ihres hohen Rechenaufwands nur schwer auf Systemen mit begrenzter Rechenkapazität realisieren lassen. Uns gelang es, die hohe Komplexität durch eine zweistufige Approximation zu reduzieren. Sie führte zu einem effizienten und skalierbaren Algorithmus, der ein Matched Filter Array zur Phasenentzerrung und einen einkanaligen Betragsentzerrer seriell kombiniert. Im Anschluss betrachteten wir blinde Kanalschätzverfahren. Hier zeigte sich, dass bestehende Algorithmen unter schwierigen Bedingungen keine zufriedenstellenden Ergebnisse liefern. Wir konnten nachweisen, dass dies auf einkanalige Faltungsfehler zurückzuführen ist, die mit Hilfe eines FIR-Filters (engl., finite impulse response) beschrieben werden können. Diese Erkenntnisse mündeten in die Definition eines Faltungsfehler-kompensierten Systemabstandes – kurz NFPM – als ein neues Werkzeug, welches in Zukunft tiefere Einblicke in das Konvergenzverhalten der jeweiligen Algorithmen für die blinde Kanalschätzung ermöglicht. Der Hauptteil des Projekts diente der systematischen Entwicklung eines iterativen Enthallungsverfahrens basierend auf Maximum-Likelihood, Maximum-a-Posteriori und Variational-Bayesian Schätzverfahren. Die vorgestellten Algorithmen greifen auf ein mehrkanaliges Zustandsraummodell für die akustischen Kanäle zurück, das lineare Beobachtungsgleichungen im Frequenzbereich mit einem Markov-Modell erster Ordnung kombiniert und so das zeitliche Verhalten der Raumimpulsantworten explizit berücksichtigt. Unser Ansatz behandelt die Kanäle und das Quellensignal als Zufallsvariablen und alle anderen Schätzgrößen als Modellparameter. Dies ermöglicht die Definition einer unteren Schranke an eine Likelihood-Funktion, die wir iterativ mit Hilfe eines Expectation-Maximization-Algorithmus maximieren. Mit Hilfe des Zustandsraummodells leiteten wir Schätzgleichungen für die Kanal-Posterior -Verteilung, die Quellen-Posterior -Verteilung und alle verbleibenden Modellparameter her. Die iterative Verkopplung der Teilsysteme führte schließlich zu einem Algorithmus, der auch in schwierigen akustischen Umgebungen die Schätzung des ungestörten Quellensignals ermöglicht. Unsere Untersuchungen mit instrumentellen Maßen, Spracherkennungsergebnissen und einer Echtzeitimplementierung demonstrieren die Leistungsfähigkeit der entwickelten Verfahren für eine große Bandbreite an Hall- und Geräuschszenarien.
Publications
- „Robust Subsystems for Iterative Multichannel Blind System Identification and Equalization“, IEEE Pacific Rim Conference on Communications, Computers and Signal Processing, Victoria, BC, Kanada, August 2009, S. 889–893
D. Schmid und G. Enzner
- „A Parametric Least-Squares Approximation for Multichannel Equalization of Room Acoustics“, International Workshop on Acoustic Echo and Noise Control (IWAENC), Tel Aviv, Israel, September 2010
D. Schmid und G. Enzner
- „A Real-Time Speech Dereverberation Environment Based on Multichannel Parametric Room Equalization“, ITG Fachtagung Sprachkommunikation, Bochum, Deutschland, Oktober 2010
D. Schmid, P. Thüne und G. Enzner
- „Evaluation of Adaptive Blind SIMO Identification in Terms of a Normalized Filter-Projection Misalignment“, IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Prag, Tschechische Republik, Mai 2011, S. 4140–4143
D. Schmid und G. Enzner
- „A Maximum A Posteriori Approach to Multichannel Speech Dereverberation and Denoising“, International Workshop on Acoustic Signal Enhancement (IWA-ENC), Aachen, Deutschland, September 2012 (Best Paper Award)
D. Schmid, S. Malik und G. Enzner
- „An Expectation-Maximization Algorithm for Multichannel Adaptive Speech Dereverberation in the Frequency-Domain“, IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Kyoto, Japan, März 2012, S. 17-20
D. Schmid, S. Malik und G. Enzner
- „Cross-Relation-Based Blind SIMO Identifiability in the Presence of Near-Common Zeros and Noise“, IEEE Transactions on Signal Processing, Vol. 60, No. 1, S. 60–72, Januar 2012
D. Schmid und G. Enzner
(See online at https://doi.org/10.1109/TSP.2011.2169410) - „Dereverberation Preprocessing and Training Data Adjustments for Robust Speech Recognition in Reverberant Environments“, ITG Fachtagung Sprachkommunikation, Braunschweig, Deutschland, September 2012
D. Schmid, P. Thüne, D. Kolossa und G. Enzner