Quellentrennung und Störreduktion für die automatische Spracherkennung in dynamischen akustischen Szenarien
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Zusammenfassung der Projektergebnisse
Die Verbesserung der Robustheit von automatischen Spracherkennungssystemen in schwierigen akustischen Umgebungen ist eine seit Jahren intensiv untersuchte Fragestellung. Die Problematik hat in den letzten Jahren durch das Aufkommen von sog. digitalen Assistenten (auch intelligente Lautsprecher genannt), die über Sprache aus einer Entfernung bedient werden, an Aktualität hinzugewonnen. Die Firma VIC entwickelt Sprachschnittstellen für Smart Home, aber auch für viele andere Anwendungen im industriellen Umfeld und in Nutzfahrzeugen. Sie setzt dabei auf lokale Verarbeitung statt Verarbeitung in der Cloud, was für viele Firmenkunden sehr attraktiv und für einige der genannten Anwendungsfälle essentiell ist. Bei diesen Anwendungen befindet sich der Sprecher nicht in unmittelbarer Nähe zum Mikrofon, so dass das aufgenommene Signal verhallt und von unabsichtlich aufgenommenen Störgeräuschen überlagert ist. Ausgangspunkt für die Entwicklung einer effektiven Signalverbesserungseinheit war ein in einem DFG-Vorgängerprojekt entwickeltes Verfahren zur blinden Quellentrennung. Dieses hatte als Kernkomponente ein räumliches Mischungsmodell zur Schätzung der Sprach- bzw. Sprecherpräsenzwahrscheinlichkeit für jeden einzelnen Zeit-Frequenzpunkt der Kurzzeit-Fourieranalyse des Signals. In diesem Projekt wurde dieses Verfahren weiterentwickelt und unter anderem erfolgreich beim internationalen CHiME-5 Wettbewerb eingesetzt. Der als "Guided Source Separation" bekanntgewordene Algorithmus wurde sogar in das Baselinesystem des Nachfolgewettbewerbs, CHiME-6, im Frühjahr 2020 aufgenommen. Darüber hinaus wurden während der Projektlaufzeit Entstörverfahren, die auf neuronalen Netzen beruhen, immer wichtiger. Der am Fachgebiet des Berichters entwickelte akustische Strahlformer mit einer auf einem neuronalen Netz basierenden Sprachaktivitätsschätzung wurde in Hinblick auf die Anforderungen beim Projektpartner weiterentwickelt, wobei insbesondere folgende Aspekte zu nennen sind: Das ursprüngliche O ine-Verfahren wurde zu einem Block-online-Verfahren weiterentwickelt, um die Latenz von der Spracheingabe bis zur Ausgabe der erkannten Wortfolge zu verringern und um sich bewegende Sprecher verfolgen zu können. - War das Verfahren ursprünglich zur Störgeräuschunterdrückung entwickelt worden, konnte es durch Hinzufugen einer sprecherabhängigen Netzwerkschicht zur Extraktion eines Zielsprechers aus einem Sprachgemisch verwendet werden. Dieser Ansatz wurde hier weiterentwickelt, indem räumliche Information zur besseren Trennung von Sprachsignalen von Sprechern gleichen Geschlechts verwendet wurden und indem auch hier eine Block-online Variante entwickelt wurde. - Das Zusammenspiel mit einer vorgeschalteten Enthallungskomponente wurde untersucht, und es wurden ausführliche Tests auf international verbreiteten Datenbasen, aber auch auf vom Projektpartner zur Verfügung gestellten Daten durchgeführt. Beispielimplementierungen wurden dem Projektpartner zur Verfügung gestellt.
Projektbezogene Publikationen (Auswahl)
-
Benchmarking Neural Network Architectures for Acoustic Sensor Networks, in ITG 2018, Oldenburg, Germany, 2018
J. Ebbers, J. Heitkaemper, J. Schmalenstroeer, R. Haeb-Umbach
-
Front-End Processing for the CHiME-5 Dinner Party Scenario, in CHiME-5 Workshop, Hyderabad, India, 2018
C. Boeddeker, J. Heitkaemper, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach
-
Smoothing along Frequency in Online Neural Network Supported Acoustic Beamforming, in ITG 2018, Oldenburg, Germany, 2018
J. Heitkaemper, J. Heymann, R. Haeb-Umbach
-
The RWTH/UPB System Combination for the CHiME 2018 Workshop, in CHiME-5 Workshop, Hyderabad, India, 2018
M. Kitza, W. Michel, C. Boeddeker, J. Heitkaemper, T. Menne, R. Schlüter, H. Ney, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach
-
A Study on Online Source Extraction in the Presence of Changing Speaker Positions, in International Conference on Statistical Language and Speech Processing 2019, Ljubljana, Slovenia, 2019
J. Heitkaemper, T. Feher, M. Freitag, R. Haeb-Umbach
-
Guided Source Separation Meets a Strong ASR Backend: Hitachi/Paderborn University Joint Investigation for Dinner Party ASR, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019
N. Kanda, C. Boeddeker, J. Heitkaemper, Y. Fujita, S. Horiguchi, R. Haeb-Umbach
-
Multi-Channel Block-Online Source Extraction based on Utterance Adaptation, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019
J. M. Martin-Donas, J. Heitkaemper, R. Haeb-Umbach, A. M. Gomez, A. M. Peinado
-
SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition. 2019
L. Drude, J. Heitkaemper, C. Boeddeker, R. Haeb-Umbach:
-
Demystifying Tasnet: A Dissecting Approach, in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020
J. Heitkaemper, D. Jakobeit, C. Boeddeker, L. Drude, R. Haeb-Umbach