Detailseite
Projekt Druckansicht

Strukturierte hybride Modelle für die audiovisuelle Sprachverarbeitung

Fachliche Zuordnung Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2014 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 253379932
 
Erstellungsjahr 2021

Zusammenfassung der Projektergebnisse

Schon länger gab es Hinweise darauf, dass Spracherkennungsanwendungen davon profitieren, dass zusätzlich zu den üblichen Mikrofonsignalen auch andere Informationen in den Erkennungsprozess mit einbezogen werden. Größtenteils unklar blieb jedoch die Frage, nach welchen Regeln und mit welchen Methoden eine optimale Informationsintgration erfolgen sollte. Hierzu konnte das vorliegende DFG-Projekt wesentliche neue Beiträge und Antworten liefern. Im ersten Förderzeitraum stand die Frage im Vordergrund, wie es möglich ist, Informationen über die zeitvariante Zuverlässigkeit von Audiosignalen einzubeziehen, um audiovisuelle Spracherkennung gegenüber dynamischen Umgebungseinflüssen robuster zu gestalten. Dabei sollten Modifikationen der Erkennungsphase und der Trainingsphase genauso berücksichtigt werden wie die Möglichkeit der dynamischen Streamgewichtung. Hierzu wurden verschiedene Modelltopologien sowohl für rein statistische Modelle als auch für hybride Architekturen - Kombinationen aus statistischen und neuronalen Teilsystemen - entwickelt und analysiert. So ließen sich audio-visuelle Systeme entwickeln, die in jeder akustischen Situation bessere oder mindestens genauso gute Ergebnisse wie das für die jeweilige Situation beste Einzelmodell erreichen und die zeitliche Asynchronität der Merkmalsströme berücksichtigen, die ja dynamisch sowohl von dem Inhalt der Sprache als auch von der Aufnahme-Hardware abhängig ist. Nachdem die erste Projektphase zeigen konnte, dass für beide Typen von Modellen - rein probabilistische und hybride Architekturen - die Verwendung von Merkmalsunsicherheiten für die audiovisuelle Spracherkennung von großem Wert ist, stand im zweiten Förderzeitraum die Frage im Vordergrund, welche probabilistischen und neuronalen Systemarchitekturen für die multimodale Spracherkennung mit großen Vokabularien am geeignetsten sind. Weil sich in den letzten Jahren zunehmend das Ende-zu-Ende-Training, also die Optimierung eines vollständigen Erkennersystems mit allen Komponenten auf die maximale Erkennungsrate hin, als vorteilhaft erwiesen hat, wurden die entworfenen Systeme satzweise diskriminativ trainiert, wobei auch die Kopplung der Merkmalsströme sowie die Verwendung und Schätzung der Merkmalsunsicherheiten im Training angepasst wurden. Außerdem hat der Erfolg der akustischen Merkmalsunsicherheiten die Frage aufgeworfen, wie die Zuverlässigkeit von Videomerkmalen auch in die audiovisuelle Erkennung einfließen kann und sollte. Da in einem anderen Projekt unserer Arbeitsgruppe bereits Zuverlässigkeitsmaße für Videomerkmale entwickelt wurden, die für eine audiovisuelle Sprecheridentifikation äußerst wertvoll waren, sind diese für den Zweck der Spracherkennung weiterentwickelt worden und stehen nun nach Abschluss der zweiten Projektphase für alle Modelltopologien und Trainingsmethoden zur Verfügung. Die Gesamtarchitektur, die so entwickelt wurde, kombiniert alle gegebenen akustischen und visuellen Informationen und berücksichtigt dabei dynamisch die Unsicherheitsinformationen für die beiden Merkmalsströme. Beispielsweise berücksichtigt das System, ob und wann die Lippen des Sprechers mit hinreichender Qualität sichtbar sind und wie groß der Signal-Störabstand im akustischen Signal zu jedem Zeitpunkt ist. Mit Hilfe eines Ende-zu-Ende-Trainings konnten wir damit in der besten, gefundenen Systemarchitektur eine sehr zuverlässige, audiovisuelle Spracherkennung entwickeln. Diese verringert für fließend gesprochene, englische Sprache bei einem offenen Vokabular die Wortfehlerrate im Mittel von 8.2% auf 5.1% und kann sogar auf ungestörten akustischen Daten noch stark von den Videoinformationen profitieren. Damit halten wir die erreichten Ergebnisse auch für wirtschaftlich erfolgversprechend, gerade wenn privatsphäreachtende Erkennungssysteme auf Nutzerseite dank der zunehmenden Leistung der Endgeräte zur Option werden. Wir sehen gleichzeitig die Möglichkeit, äquivalente Architekturen für die Stream-Integration in anderen Aufgabenstellungen, beispielsweise in biomedizinischen Anwendungen, zum Einsatz zu bringen. Dies ist umso interessanter, als unser Projekt nachhaltig zeigen konnte, dass es möglich ist, bei multimodalen Daten auch einen wesentlichen Nutzen aus solchen Modalitäten zu ziehen, die für sich allein genommen nur eine geringe Erkennungsleistung versprechen.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung