Quellentrennung und Störreduktion für die automatische Spracherkennung in dynamischen akustischen Szenarien

Antragsteller Professor Dr.-Ing. Reinhold Häb-Umbach

Fachliche Zuordnung Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing

Förderung Förderung von 2016 bis 2021

Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 316471544

In diesem Projekt soll die Robustheit eines Spracherkennungssystems für Sprachbedienung im Freisprechmodus mit Anwendungen im Smart Home Bereich verbessert werden. Aufbauend auf den Ergebnissen aus dem DFG-Vorgängerprojekt sollen die dort entwickelten mehrkanaligen Quellentrennungs- und Störreduktionsverfahren unter realistischen Randbedingungen hinsichtlich Störszenarien, erlaubter Latenz der Verarbeitung und Realisierbarkeit auf eingebetteten Systemen weiterentwickelt werden. Es soll ein Prototyp entwickelt werden, der unter praktischen raumakustischen Umgebungsbedingungen und typischen Anwendungsszenarien in Echtzeit mit geringer Latenz lauffähig ist und ein bereits beim Anwendungspartner existierendes Spracherkennungssystem in der erreichbaren Erkennungsrate schlägt. Als Alternative zu dem parametrischen Quellentrennungs- und Störreduktionsverfahren soll weiterhin ein Signalverbesserungsverfahren basierend auf einem neuronalen Netzwerk entwickelt werden und die Vor- und Nachteile der jeweiligen Verfahren in realistischen Anwendungsszenarien hinsichtlich erreichbarer Signalqualität, Latenz, Rechen- und Speicherressourcenbedarf, sowie Robustheit gegenüber variierenden akustischen Umgebungsbedingungen herausgearbeitet werden.

DFG-Verfahren Sachbeihilfen (Transferprojekt)

Anwendungspartner voice INTER connect GmbH

Servicenavigation

Hauptnavigation

Quellentrennung und Störreduktion für die automatische Spracherkennung in dynamischen akustischen Szenarien

Zusatzinformationen

Servicenavigation

Hauptnavigation

Quellentrennung und Störreduktion für die automatische Spracherkennung in dynamischen akustischen Szenarien

Zusatzinformationen

Textvergrößerung und Kontrastanpassung