Project Details
Projekt Print View

Sparse Coding Approaches to Language Acquisition

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term from 2011 to 2016
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 200293401
 
Ziel dieses Projektes ist die Entwicklung eines Systems zum Lernen von Referenzmustern für das unüberwachte Erlernen einer Sprache. Die Maschine soll wiederkehrende Muster in dem kontinuierlich gesprochenen Eingangssprachsignal entdecken und ein Inventar von Einheiten erlernen, und zwar auf zwei verschiedenen Abstraktionsebenen: zum Einen auf der Ebene der Laute und zum Anderen auf der Ebene der Wörter. Es sollen Verfahren aus dem Gebiet der spärlichen Kodierung eingesetzt werden, um eine Repräsentation des Sprachsignals zu finden, bei der die Darstellung des Sprachsignals im Kurzzeit-Spektralbereich durch eine Linearkombination von Basisvektoren angenähert wird. Während nichtnegative Matrixfaktorisierung (NMF) auf Sprache bereits eingesetzt worden ist, gibt es andere Verfahren, welche nicht die Nichtnegativität der Matrixelemente voraussetzen, so dass sie besser geeignet sind, um sie auf die üblichen Parametrisierungen von Sprachsignalen, etwa die Mel-Frequenz Cepstralen Koeffizienten, anzuwenden. Ein vielversprechendes Verfahren ist die k-Singulärwertzerlegung (k-SVD), die bisher vornehmlich im Computersehen eingesetzt worden ist. Alle diese Lernverfahren müssen jedoch erweitert werden, damit sie, zusätzlich zu dem Erlernen der typischen spektralen Muster, auch die zeitliche Korrelation von Sprachsignalen erfassen können. Dazu sollen Ansätze aus dem Bereich der dynamischen Zeitanpassung und der ”hidden” Markovmodell-basierten Spracherkennung verwendet werden. Auf der ersten, unteren Stufe der Dekomposition des Eingangssprachsignals sollen wiederkehrende Lauteinheiten entdeckt werden. Auf der zweiten, höheren Abstraktionsebene werden mit ähnlichen Verfahren wie auf der ersten Ebene Wort- oder Phraseneinheiten erlernt, basierend auf einer Beschreibung der unteren Ebene mit Hilfe von n-Grammen, d.h. von Häufigkeiten von Lautfolgen. Die untere Ebene soll dabei Posteriorwahrscheinlichkeiten an die obere Ebene weitergeben, um eine vorzeitige definitive Entscheidung über Laute zu vermeiden.
DFG Programme Priority Programmes
 
 

Additional Information

Textvergrößerung und Kontrastanpassung