Detailseite
Projekt Druckansicht

Robuste Analyse, Erkennung und Interpretation gesprochener Eingaben auf der Basis eines einstufigen stochastischen Decodierungsverfahrens

Fachliche Zuordnung Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Förderung Förderung von 2001 bis 2004
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5288925
 
Das Projekt setzt sich zum Ziel, frei gesprochene Eingaben im Rahmen der Mensch-Maschine-Kommunikation zu erkennen und eine inhaltliche Interpretation im Kontext der festgelegten Aufgabe durchzuführen. Neben der Sprache soll auch die Information aus der Erkennung der Gestik und Mimik des Benutzers sowie graphische Bild- und Textinformation zur Erhöhung der Interpretierbarkeit gleichzeitig ausgewertet werden. Die Spracherkennug führt die Suche nach erwarteten Schlüsselwörtern und Schlüssel-Phrasen durch, die eine Zuordnung zu semantischen Einheiten ermöglichen. Für die akustische Realisierung der Sprachlaute samt ihrer Aussprachevarianten wird auf bekannte Methoden der "Hidden-Markov"-Modelle zurückgegriffen. Die Behandlung der postulierten Wortfolge-Relationen soll z.B. in Form von n-Grammen und Lücken-n-Grammen geschehen. Kennzeichen des Vorhabens ist ein einstufiger, durchgehend stochastischer Ansatz, der die akustische Modellierung, die Interpretation und die Erzeugung der gewünschten Aktion umfasst. Als Anwendungsdomäne wird die Spracheingabe im Automobil gewählt, wo sie die Steuerung von Telefon, Navigationssystem und Radio übernehmen soll. Das Training erfolgt weitgehend durch statistische Analyse von Trainingsmaterial aus dieser Domäne durch "Lernen an Beispielen."
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung