Detailseite
Generative und prädiktive Modelle zur binauralen Sprachextraktion und -wiedergabe in Hörsystemen unter Nutzung akustischer Informationen
Antragsteller
Professor Dr.-Ing. Timo Gerkmann
Fachliche Zuordnung
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Akustik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Akustik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 561088164
Hearables sind tragbare Geräte wie Kopfhörer oder Ohrstöpsel, die typischerweise mit verschiedenen Sensoren ausgestattet sind, insbesondere mehrere Mikrofone. Sie bieten fortschrittliche drahtlose Konnektivität, meist über Bluetooth. Der Marktanteil kabelloser Geräte am Kopfhörermarkt steigt kontinuierlich. Aufgrund der weiten Verfügbarkeit von Hearables besteht ein großer Bedarf an ausgefeilten Algorithmen, die auf deren Funktionalität zugeschnitten sind. Dieses Projekt konzentriert sich speziell auf die Verbesserung der Hörunterstützung von Hearables. Wesentliches für Hearables ist die Bewahrung binauraler Cues, die für die korrekte räumliche Wahrnehmung notwendig sind. Daher geht das Ziel dieses Projekts über die Entwicklung modernster Algorithmen zur Sprechertrennung und Geräuschunterdrückung hinaus; es strebt auch die Erhaltung des auditiven Raumeindrucks für die Nutzer an. Wir werden zunächst datengetriebene Methoden zur Lokalisierung und Verfolgung von Schallquellen untersuchen. Die Erkennung der Richtung von Quellen in einer akustischen Umgebung wird durch schnelle Kopfbewegungen der Träger erschwert, da sie zu schnellen Veränderungen in der gesamten akustischen Szene führen. Daher streben wir die Entwicklung einer schnellen und effizienten Richtungsschätzung an, die moderne Techniken aus der Zeitreihenanalyse nutzt. Weiterhin erfordert eine treue binaurale Wiedergabe sowie eine räumlich informierte Sprecherextraktion und -trennung den Zugang zu individualisierten kopfbezogenen Übertragungsfunktionen (HRTFs). Traditionelle Verfahren zur Messung von HRTFs sind aufwendig und erfordern spezialisierte Hardware in einem schalltoten Raum. Unser Ziel ist es, Methoden zu erforschen, die die Messung von HRTFs in normalen Raumumgebungen ermöglichen und dabei die Anzahl der Messungen minimieren, ohne die Qualität zu beeinträchtigen. Letztendlich möchten wir die Integration von individuell gemessenen HRTFs in zukünftige Hearables durch ein benutzerfreundliches Verfahren erleichtern. Darüber hinaus werden wir zwei Paradigmen für die binaurale Sprachextraktion und -wiedergabe untersuchen: prädiktive und generative Modelle. Während prädiktive Methoden häufig für die Sprachextraktion genutzt werden, gewinnen generative Modelle, insbesondere bei Anwendungen mit einem Mikrofon, zunehmend an Bedeutung. Durch den Einsatz akustischer Modelle wollen wir diese datengetriebenen prädiktiven und generativen Methoden für den binauralen Kontext anpassen. Dabei liegt der Fokus auf der Erhaltung von binauralen Cues und der Verbesserung der räumlichen Interpretierbarkeit beim Netzwerkdesigns. Wir werden die Vor- und Nachteile beider Ansätze bewerten und wertvolle Erkenntnisse ableiten. Neben den wissenschaftlichen Fortschritten entwickeln wir eine Demoplattform, die alle relevanten Module integriert. Alle Algorithmen und deren Integration werden umfassend ausgewertet, wobei öffentlicher Datenbanken und speziell für dieses Projekt erhobene Daten verwendet werden.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Israel
Partnerorganisation
The Israel Science Foundation
Kooperationspartner
Professor Sharon Gannot, Ph.D.
