Blinde Separierung akustischer Quellensignale in reflexionsbehafteter Umgebung
Zusammenfassung der Projektergebnisse
Die zum Zeitpunkt der Antragstellung bekannten Methoden für die konvolutive Quellentrennung waren nur für Mischungssysteme mit relativ kurzen Impulsantworten geeignet und versagten meist in realistischen akustischen Szenarien, wo mit extrem langen Nachhallzeiten zu rechnen ist. Ein wesentlicher Grund für das Versagen ist das so genannte Permutationsproblem, das immer dann auftritt, wenn das im Zeitbereich vorliegende konvolutive Quellentrennungsproblem in den Frequenzbereich überführt und durch eine Vielzahl separat zu bearbeitender instantaner Quellentrennungsprobleme ersetzt wird. Zu den zum Zeitpunkt der Antragstellung bereits bekannten Ansätzen zur Lösung bzw. Vermeidung des Permutationsproblems gehörten die Forderung nach einer maximalen Länge der Entmischungsfilter, der dazu äquivalenten Forderung einer "Glattheit" der Übertragungsfunktionen der Entmischungsfilter und nach einer Unkorreliertheit der Einhüllenden der entmischten Signale. Neben der Beschränkung der Filterlängen der Entmischungsfilter sollten im Forschungsvorhaben erstmals objektbildende Merkmale der entmischten Signale und der Entmischungssysteme zur Lösung des Permutationsproblems herangezogen werden, wie sie zum Beispiel vom menschlichen Gehör bekannt sind. Hierzu gehören Common Onsets, Comodulationen und Lokalisationsinformationen. Zudem sollte untersucht werden, ob eine gehörgerechte Frequenzaufteilung bei der Konvertierung des konvolutiven in ein instantanes Quellentrennungsproblem zu Verbesserungen der Quellentrennung führt. Bezüglich der Lösung des Permutationsproblems durch Einschränkung der Filterlängen im Zeitbereich konnte ein neuartiges Verfahren entwickelt und etabliert werden, bei dem zunächst die zur Beurteilung der Güte der Quellentrennung nötige Kontrastfunktion im Frequenzbereich formuliert wird, dann aber eine Integration über alle Frequenzen erfolgt und die resultierende Funktion hinsichtlich der Zeitbereichs-Filterkoeffizienten optimiert wird. Die Wirksamkeit dieses Ansatzes wurde für verschiedene Kontrastfunktionen nachgewiesen und als allgemeines Prinzip etabliert. In Experimenten unter realistischen Bedingungen konnte gezeigt werden, dass die Methode den herkömmlichen Ansätzen deutlich überlegen ist. Zu den Ergebnissen der Arbeit gehört u. A. auch der Nachweis dafür, unter welchen Bedingungen die erzielte Lösung für die Entmischungsfilter eindeutig ist und wann sichergestellt ist, dass bei einer Einschränkung der Filterlängen tatsächlich keine Permutationen auftreten können. Bislang beruhte der Ansatz einer begrenzten Filterlänge lediglich auf plausiblen Annahmen, und es existierte kein Beweis der Eindeutigkeit. Hinsichtlich der expliziten Methoden zur Lösung des Permutationsproblems konnte ein neuartiges Verfahren entwickelt und vorgestellt werden, bei dem die Verteilungsdichten der getrennten Spektralkomponenten modelliert und für die Angleichung der Permutationen in den Frequenzbändern genutzt werden. Dieser Ansatz stellt eine Alternative, aber auch eine Ergänzung zur Lokalisationsmethode dar, bei der Komponenten, die aus der gleichen Raumrichtung eintreffen, der gleichen Quelle zugeordnet werden. Andere objektbildende Eigenschaften der Signale wie Common Onsets oder Amplitudenmodulationen haben sich bei Verwendung als alleiniges Kriterium als nur bedingt geeignet erwiesen, sie konnten aber als ergänzende Merkmale erfolgreich genutzt werden. Neben dem Permutationsproblem war auch das Skalierungsproblem zu untersuchen, das darin besteht, dass die korrekten Skalierungen der Spektralkomponenten der Quellen nicht bekannt sind und ohne Weiteres auch nicht aus den gemessenen Daten abgeleitet werden können. Hierzu konnten wir neue Methoden entwickeln, bei denen die Güte der Quellentrennung durch Beeinflussung der Skalierung weiter gesteigert werden kann, ohne dass wesentliche lineare Verzerrungen hingenommen werden müssen. Alle entwickelten Verfahren haben sich als robust gegenüber einer Fehleinschätzung der Quellenanzahl erwiesen, so dass sie für den praktischen Einsatz in unbekannten Umgebungen gut geeignet sind. Für die angestrebte Nutzung in Hörgeräten muss noch die Konvergenzgeschwindigkeit verbessert werden, so dass die Quellentrennung den in realen Cocktail-Party-Situationen auftretenden zeitveränderlichen Bedingungen folgen kann. Künftige Arbeiten sollen sich mit Kombinationen der im Projekt entwickelten neuen Methoden mit anderen viel versprechenden Ansätzen befassen. Weitere Arbeiten sind hinsichtlich der Echtzeit-Fähigkeit und der Trennung beweglicher akustischer Quellen geplant. Zudem sind Kooperationen mit der Neurologie im Bereich der Kernspintomographie geplant. Denkbare Anwendungen sind die Verbesserung von Hörgeräten durch Unterdrückung von Hintergrund- Sprechern, die Trennung von Sprechern für Überwachungsaufgaben, die Vorverarbeitung für die Spracherkennung mit konkurrierenden Sprechern und Hintergrundgeräuschen und die Analyse funktioneller Kernspintomographie-Daten.
Projektbezogene Publikationen (Auswahl)
- R. Mazur & A. Mertins. Reducing Reverberation Effects in Convolutive Blind Source Separation. In Proc. European Signal Processing Conference, Sept. 2006, Florence, Italy.
- R. Mazur & A. Mertins. Solving the Permutation Problem in Convolutive Blind Source Separation. In Independent Component Analysis and Signal Separation, 4666:512-519, Springer, 2007.
- T. Mei, A. Mertins & F. Yin. On the Generalization of Blind Source Separation Algorithms from Instantaneous to Convolutive Mixtures, IEEE Sensor Array and Multi-Channel Signal Processing Workshop (SAM2008), Darmstadt, Juli 2008.
- T. Mei, A. Mertins, F. Yin, J. Xi, & J. F. Chicharo (2008). Blind Source Separation for Convolutive Mixtures Based on the Joint Diagonalization of Power Spectral Density Matrices, Signal Processing, 88:1990-2007, 2008
- T. Mei, J. Xi, F. Yin, A. Mertins & J. F. Chicharo. Blind Source Separation Based on Time-domain Optimizations of a Frequency-domain Independence Criterion, IEEE Trans. Audio Speech and Language Processing, no.6, 14:2075-2085, Nov. 2006.