Detailseite
Tiefe Neuronale Netzwerke für die nichtlineare mehrkanalige Sprachverbesserung
Antragsteller
Professor Dr.-Ing. Timo Gerkmann
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 508337379
In diesem Projekt untersuchen wir wie die Leistung von mehrkanaligen Sprachverbesserungsalgorithmen durch den Einsatz von tiefen neuronalen Netzen verbessert werden kann. Die nichtlinearen Modellierungskapazitäten von tiefen neuronalen Netzen sollen hierbei genutzt werden um die einem traditionellen linearen Beamforming-Ansatz inhärenten Grenzen zu überwinden. Eine wachsende Zahl von hörgeschädigten Menschen in unserer alternden Gesellschaft ebenso wie Mensch-Maschine-Schnittstellen, sind auf Algorithmen zur Sprachverbesserung angewiesen um Sprache in verrauschten Umgebungen zu verstehen. Sprachverbesserungsalgorithmen zielen darauf ab, die Sprachqualität und Verständlichkeit zu verbessern, indem Hintergrundgeräusche und andere unerwünschte Effekte wie Nachhall unterdrückt werden. Wenn die verrauschten Daten mit mehreren statt nur einem einzigen Mikrophon aufgenommen werden, dann können die Algorithmen zusätzlich zu den tempo-spektralen Eigenschaften des verrauschten Signals auch räumliche Informationen nutzen. Traditionell wird hierzu ein lineares räumliches Filter, ein sogenannter Beamformer, mit einem einkanaligen spektralen Postfilter hintereinandergeschaltet. Allerdings zeigen theoretische Analysen und die experimentellen Auswertungen in unseren Vorarbeiten, dass ein kombinierter räumlich-spektraler nichtlinearer Filter den traditionellen Ansatz übertreffen kann, wenn das Rauschen nicht gaußverteilt ist. Die Schätzung der nötigen Parameter für die verwendeten analytischen Methoden hat sich jedoch in der Praxis als schwierig erwiesen. Daher zielt dieses Projekt auf die Entwicklung und die Analyse von robusten kombinierten räumlich-spektralen nichtlinearen Filtern ab, die tiefe neuronale Netze als flexible und leistungsfähige nichtlineare Funktionsapproximatoren verwenden. Hierfür werden Konzepte aus der Informationstheorie, der statistischen Signalverarbeitung und dem maschinellen Lernen kombiniert. Bei Erfolg kann dieses Projekt den Weg zu einer neuartigen Klasse von nichtlinearen mehrkanaligen Sprachsignalverarbeitungsansätzen ebnen und ist daher sowohl für die Wissenschaft als auch für die Industrie von hoher Relevanz.
DFG-Verfahren
Sachbeihilfen