Detailseite
Iterative Informationsfusion in der automatischen Spracherkennung nach dem Turbo-Prinzip
Antragsteller
Professor Dr.-Ing. Tim Fingscheidt
Fachliche Zuordnung
Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Förderung
Förderung von 2019 bis 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 414091002
Die intelligente Fusion von Informationen spielt in zwei gegenläufigen Megatrends der Informationstechnik eine herausragende Rolle: (1) Dezentralisierung (Internet, Internet der Dinge, dezentrales Netzmanagement, Sensornetzwerke, Industrie 4.0, ...), und in jüngerer Zeit im Bereich der Spracherkennung auch (2) Zentralisierung (Siri, Google Home, Amazon Alexa, YouTube). Beiden Trends ist gemeinsam, dass mehrere Informationsquellen genutzt werden: Hierbei kann es sich um multimodale Ansätze handeln (z.B. audiovisuelle Spracherkennung: Mikrofon, Kamera), oder unimodale (Spracherkennung nur mit Mikrofonsignalen). Letztere können mehrkanalig ausgelegt sein, oder einkanalig, dafür aber z.B. Information aus zwei unterschiedlichen Merkmalsrepräsentationen nutzen.In den Vorarbeiten des Antragstellers konnte das aus der Kommunikationstechnik bekannte Turbo-Prinzip zur iterativen Informationsfusion bereits erfolgreich übertragen werden auf die automatische Spracherkennung (automatic speech recognition, ASR).Ein Ziel des beantragten Vorhabens ist es nun, das noch lange nicht erschlossene Potential der Turbo-Informationsfusion am Beispiel der automatischen Spracherkennung weiter zu entfalten. So ist sie nicht nur zur Fusion von Merkmalsrepräsentationen geeignet, sondern auch zur Fusion von Modellen. Da die Modellierung im Bereich ASR mittlerweile mit tiefen neuronalen Netzen erfolgt, und vielfältige Netzwerk-Modelltopologien intensiv erforscht werden, ist deren Fusion ein aktuelles Thema, zu dem jedoch bislang kaum performante Lösungen bekannt sind, die gleichzeitig modular sind. Da die Modularität der Informationsfusion jedoch in beiden Trends (1) und (2) nahezu unverzichtbar ist, soll in diesem Vorhaben die Turbo-Informationsfusion vollständig modularisiert werden und damit ihre hohe Flexibilität und Praxisrelevanz unter Beweis stellen.Ein weiteres Ziel ist es, ein vertieftes Verständnis der iterativ arbeitenden Turbo-Informationsfusion zu erlangen. Warum funktioniert sie so gut? Und wie ist der Zusammenhang von Performanz und der statistischen Abhängigkeit der Informationsquellen? Antworten sollen hier kontrollierte Experimente mit synthetischen Daten geben, die perfekt modelliert werden können. Außerdem sollen die aus der Kommunikationstechnik so nützlichen wie theoretisch anspruchsvollen sog. EXIT-Charts weiterentwickelt werden mit dem Ziel, die Performanz einer Turbo-Informationsfusion vorhersagen zu können bzw. sie mithilfe dieser Tools von Anfang an so auszulegen, dass sie nach einigen Iterationen ein hochperformantes Ergebnis liefert.Schließlich soll die ASR mittels Turbo-Informationsfusion auf mehr als zwei Informationsquellen bzw. Erkenner ausgedehnt werden. Neben der Fusion einer Vielzahl komplementärer Modelle ist hier auch das Szenario räumlich verteilter Mikrofone und ASR-Prozesse von Interesse: Ist die Turbo-Informationsfusion imstande, einen Gewinn aus räumlich verteilten Mikrofonen z.B. in halliger Umgebung zu erzielen?
DFG-Verfahren
Sachbeihilfen