Detailseite
Robuste Geräuschreduktion durch neuartige Einbringung von Phasenverarbeitung
Antragsteller
Professor Dr.-Ing. Timo Gerkmann
Fachliche Zuordnung
Akustik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Förderung
Förderung von 2014 bis 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 247465126
Technische Geräte zur Sprachkommunikation, wie Smartphones, Hörgeräte und Mensch-Maschine Schnittstellen, sind in der heutigen Welt allgegenwärtig. In vielen alltäglichen Situationen werden Sprachsignale aber durch Störgeräusche verzerrt, z.B. in einer Cafeteria oder beim Spazieren an einer vielbefahrenen Straße. Um den negativen Einfluss dieser Störungen auf die Sprachkommunikation zu mindern werden Sprachverbesserungsalgorithmen eingesetzt. In besonders schwierigen akustischen Situationen, in denen die Algorithmen am meisten gebraucht würden, führen sie jedoch oft nur zu begrenzten Gewinnen. Unser Ziel in diesem Projekt ist es daher, Sprachverbesserungsalgorithmen robuster zu machen um Sprachkommunikation auch in akustisch schwierigen Situationen zu vereinfachen.Die Geräuschreduktion wird dabei typischerweise in einem Spektralbereich durchgeführt, in dem die Signalkoeffizienten komplexwertig sind, also durch Amplitude und Phase dargestellt werden. Die Mehrzahl existierender Algorithmen modifiziert dazu allerdings nur die Amplituden der komplexwertigen spektralen Transformationskoeffizienten und nutzt dafür auch nur Informationen, die aus der Amplitude gewonnen wurden. Die verrauschte Phase wird hingegen weder verändert, noch nach relevanten Informationen untersucht, was eine konzeptionelle Begrenzung vieler existierender Algorithmen und der von ihnen erzielten Sprachverbesserung darstellt. In der ersten Förderperiode konnten wir mittels instrumentellen Maßen und Hörversuchen zeigen, dass durch das Einbeziehen von Phaseninformationen eine verbesserte Geräuschreduktion erzielt werden kann, und zwar gerade in nichtstationären Geräuschtypen, in denen traditionelle einkanalige Sprachverbesserung an ihre Grenzen stößt. Motiviert von diesen Ergebnissen wollen wir hier anknüpfen und verschiedene verbesserte Phasenschätzer erforschen. Forschungsgegenstand ist dabei unter anderem die Entwicklung und Optimierung von individuellen Phasenschätzern für die verschiedenen Klassen von Sprachlauten, wie stimmhafte Laute und Transienten, sowie die Kombination dieser Schätzer. Darüber hinaus werden wir moderne Verfahren des maschinellen Lernens zur Phasenverarbeitung einsetzen. Im Gegensatz zur überwältigenden Mehrheit existierender Ansätze, die Phaseninformationen komplett vernachlässigen und nur auf spektralen Amplituden arbeiten, werden wir hier explizit neue Phasenrepräsentationen entwickeln und nutzen. Die Forschung in diesem Projekt wird nicht nur neue und tiefere Einblicke in die Bedeutung der spektralen Phase für die Sprachverbesserung erlauben, sondern auch neuartige, phasensensitive Algorithmen liefern, mit dem Ziel die Robustheit von Sprachkommunikationsgeräten deutlich zu erhöhen.
DFG-Verfahren
Sachbeihilfen