Detailseite
Projekt Druckansicht

Akustik-bewusstes tiefes Lernen für die Sprachverarbeitung mithilfe verteilter Mikrofonarrays

Fachliche Zuordnung Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Akustik
Förderung Förderung seit 2025
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 568930428
 
In den letzten zehn Jahren hat tiefes Lernen die Audiosignalverarbeitung grundlegend verändert und ermöglicht, Aufgaben wie die Verbesserung von Sprachaufnahmen in Umgebungen mit moderatem Rauschen und Nachhall erfolgreich zu lösen. Die Anwendung tiefenlernbasierter Verfahren unter schwierigeren und weniger vorhersehbaren realen Bedingungen bleibt jedoch eine große Herausforderung, da hierfür in der Regel große Datenmengen erforderlich sind, die den angestrebten Anwendungsfällen sehr ähnlich sind. Die Erstellung solcher Datensätze erfordert einen Ausgleich zwischen konkurrierenden Anforderungen: ausreichende Datenmenge, Vielfalt und Realitätsnähe bei begrenzten Rechenressourcen und Aufnahmezeiten. Obwohl Ansätze wie akustische Simulation, Datenaugmentation und Transferlernen untersucht wurden, fehlt es bislang an einem klaren Verständnis darüber, wie diese Anforderungen optimal ausbalanciert werden können, um eine gute Generalisierbarkeit auf reale Bedingungen zu erreichen. Diese Herausforderung zeigt sich insbesondere in Innenraumszenarien mit räumlich verteilten Mikrofonen, deren Positionen unbekannt und potenziell zeitlich variabel sind. Das Hauptziel dieses Projekts ist die Entwicklung und Evaluation neuer algorithmischen Verfahren zur Bewältigung solcher Szenarien durch die Integration von geometrischem und akustischem Vorwissen, physikalischer Modellierung und Deep Learning, mit besonderem Fokus auf die Anwendbarkeit unter anspruchsvollen akustischen Bedingungen. Ein besonderes Augenmerk gilt dabei den akustischen und geometrischen Eigenschaften von Schallquellen, Mikrofonen und reflektierenden Oberflächen im Raum – ein Aspekt, der in der bisherigen Literatur weitgehend vernachlässigt wurde. Die Fortschritte des Projekts werden nicht nur Anwendungen wie Hörgeräten, Konferenzsystemen und Smart Speakern zugutekommen, sondern auch wesentlich zum wissenschaftlichen Verständnis beitragen, wie physikbasierte Modelle mit rein datengetriebenen Ansätzen im Bereich der Audiosignalverarbeitung ausgewogen kombiniert werden können. Der Projekterfolg wird durch die starke Komplementarität der drei Partner getragen, die über ausgewiesene Expertise in den Bereichen Deep Learning, akustische Modellierung, verteilte Mikrofonarray-Verarbeitung und Audio-Datenerfassung verfügen.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Frankreich
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung