Detailseite
Projekt Druckansicht

Strukturierte hybride Modelle für die audiovisuelle Sprachverarbeitung

Fachliche Zuordnung Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2014 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 253379932
 
Die menschliche Spracherkennung wird unter schwierigen akustischen Bedingungen deutlich leichter, wenn das Gesicht des Sprechers sichtbar ist. Die Bilddaten helfen nicht nur bei der Lokalisierung des Sprechers, sondern sie enthalten auch komplementäre Informationen über den Artikulationsort und die Segmentierung des Gesprochenen. Bis vor wenigen Jahren war eine umfassende Verwendung von Videoinformationen wegen mangelnder Sensorik und der notwendig höheren Rechenleistung aber kaum möglich. Die zunehmende Verfügbarkeit von multimodalen und speziell audiovisuellen Sprachdaten - sei es in der Internettelefonie, bei aktuellen Smartphones, in sprach- und gestengesteuerten Computerspielen, oder in den vielfach neu hinzukommenden Multimediadaten im Netz - machen die Nutzung von Videodaten in traditionellen Audiosignalverarbeitungs- und Audioklassifikationsaufgaben aktuell jedoch hochinteressant. Diese zusätzlichen Informationen können auch für die maschinelle Spracherkennung von großem Wert sein, wie neben vielen anderen aktuellen Arbeiten auch die erste Phase dieses Projekts deutlich gezeigt hat. Motiviert von den signifikanten Verbesserungen, die wir in der ersten Förderperiode erreichen konnten, und von den rapiden Entwicklungen des maschinellen Lernens, insbesondere im Bereich der tiefen neuronalen Netze, verfolgen wir daher mit dem vorliegenden Fortsetzungsantrag das Ziel, neue hybride, also neuronal/probabilistische Modelle für die Erkennung multimodaler Sprachdaten zu entwickeln. Hierbei zielen wir auf eine optimale Integration neuronaler Lernmethoden und probabilistisch motivierter Zustandsraummethoden, immer unter Einbeziehung der zeitvarianten Zuverlässigkeiten des akustischen und visuellen Signals. So sollen methodische Grundlagen für eine hochgradig robuste audiovisuelle Spracherkennung gelegt werden.Dies verspricht perspektivisch auch ein breites Feld von Anwendungen: Die audiovisuelle Spracherkennung kann beispielsweise für Sprachsteuerungen in akustisch schwierigen Umgebungen, für eine zuverlässigere Transkription von Multimediadaten, und für die audiovisuelle Sprecheridentifikation eingesetzt werden. Weiterhin kann sie als Grundlage für eine audiovisuelle Sprachsignalverarbeitung dienen, die auf Basis einer multimodalen Erkennung des phonetischen Zustands große Verbesserungen in der Sprachverständlichkeit verspricht.Gleichzeitig werden auf theoretischer Ebene Aussagen erwartet zur optimalen Integration neuronaler und probabilistischer Komponenten für die Mustererkennung. Diese Integration soll durch die Verwendung von Zuverlässigkeitsinformationen und durch die Betrachtung der zugrundeliegenden (expliziten oder impliziten) Zustandsräume erfolgen und abschließend auch einer Ende-zu-Ende-Optimierung zugänglich gemacht werden.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung