Detailseite
Quellentrennung und Störreduktion für die automatische Spracherkennung in dynamischen akustischen Szenarien
Antragsteller
Professor Dr.-Ing. Reinhold Häb-Umbach
Fachliche Zuordnung
Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2016 bis 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 316471544
In diesem Projekt soll die Robustheit eines Spracherkennungssystems für Sprachbedienung im Freisprechmodus mit Anwendungen im Smart Home Bereich verbessert werden. Aufbauend auf den Ergebnissen aus dem DFG-Vorgängerprojekt sollen die dort entwickelten mehrkanaligen Quellentrennungs- und Störreduktionsverfahren unter realistischen Randbedingungen hinsichtlich Störszenarien, erlaubter Latenz der Verarbeitung und Realisierbarkeit auf eingebetteten Systemen weiterentwickelt werden. Es soll ein Prototyp entwickelt werden, der unter praktischen raumakustischen Umgebungsbedingungen und typischen Anwendungsszenarien in Echtzeit mit geringer Latenz lauffähig ist und ein bereits beim Anwendungspartner existierendes Spracherkennungssystem in der erreichbaren Erkennungsrate schlägt. Als Alternative zu dem parametrischen Quellentrennungs- und Störreduktionsverfahren soll weiterhin ein Signalverbesserungsverfahren basierend auf einem neuronalen Netzwerk entwickelt werden und die Vor- und Nachteile der jeweiligen Verfahren in realistischen Anwendungsszenarien hinsichtlich erreichbarer Signalqualität, Latenz, Rechen- und Speicherressourcenbedarf, sowie Robustheit gegenüber variierenden akustischen Umgebungsbedingungen herausgearbeitet werden.
DFG-Verfahren
Sachbeihilfen (Transferprojekt)
Anwendungspartner
voice INTER connect GmbH