Robuste Identifizierung abhängiger Komponenten in mehreren hochdimensionalen Datensätzen basierend auf wenigen Beobachtungen
Zusammenfassung der Projektergebnisse
In diesem Projekt haben wir systematische und theoriegestützte Verfahren zur robusten Identifizierung abhängiger und korrelierter Komponenten in mehreren hochdimensionalen Datensätzen entwickelt. Die Identifizierung abhängiger Komponenten in mehreren Datensätzen ist ein grundlegendes Problem in vielen praktischen Anwendungen, die von der Nachrichtentechnik (z. B. Schätzung der Anzahl der Quellen, die auf eine Gruppe von Sensoranordnungen einwirken) über die Klimawissenschaft (z. B. Identifizierung gekoppelter Klimamuster) bis hin zur Biomedizin (z. B. Suche nach korrelierten Merkmalen für die Fusion von Hirnbilddaten aus verschiedenen Modalitäten) reichen. Die Herausforderung bei diesen Anwendungen besteht darin, dass die Datensätze oft hochdimensional sind, nur wenige Beobachtungen oder Stichproben zur Verfügung stehen und latente Komponenten mit unbekannten Wahrscheinlichkeitsverteilungen enthalten. Wir haben gezeigt, dass die Bestimmung der vollständigen Korrelationsstruktur, d. h. welche Komponenten über welche Datensätze hinweg korreliert sind, die Abhängigkeit zweiter Ordnung zwischen den Datensätzen vollständig charakterisiert. Das Projekt war in zwei Teile gegliedert. Im Rahmen des ersten Teils wurden Algorithmen zur Ermittlung der Korrelationen zwischen Komponenten in zwei hochdimensionalen Datensätzen entwickelt. Die Komponenten können entweder unkorreliert oder zwischen beiden Datensätzen korreliert sein. Im darauf aufbauenden gemeinsamen DFG-Projekt wurde die Identifizierung von Korrelationsstrukturen zwischen mehr als zwei Datensätzen untersucht. Dieses allgemeinere Problem ist komplexer, da einige Komponenten völlig unkorreliert sein können, einige zwischen einigen Datensätzen und einige zwischen allen Datensätzen korreliert sein können. Im Vergleich zu den in der Literatur vorhandenen Verfahren setzen die entwickelten Verfahren keine bestimmte Korrelationsstruktur aus und funktionieren gut bei einer großen Anzahl von Datensätzen, bei Unsicherheiten bezüglich der Wahrscheinlichkeitsmodelle, Rauschverteilungen mit schweren Rändern und Ausreißern. Aufgrund ihrer statistischen Garantien können die Methoden ohne weiteres auf eine Vielzahl praktischer Probleme angewandt werden. Zu den Anwendungen im Rahmen dieses Projekts gehörten drahtlose akustische Netzwerke, Array-Signalverarbeitung, Neurowissenschaften und Epilepsie, wo die Identifizierung der vollständigen Korrelationsstruktur und die Quantifizierung der Stärke des Zusammenhangs zwischen mehreren Datensätzen die Stärke der Assoziation zwischen mehreren Datensätzen zu erheblichen Leistungssteigerungen und zur Identifizierung potenzieller Biomarker führen. Die von uns entwickelten Techniken sind öffentlich zugänglich, damit andere Forscher sie für die Entwicklung verbesserter Algorithmen nutzen und abändern können.
Projektbezogene Publikationen (Auswahl)
-
Bootstrap-based detection of the number of signals correlated across multiple data sets. 2016 50th Asilomar Conference on Signals, Systems and Computers, 610-614. IEEE.
Hasija, Tanuj; Song, Yang; Schreier, Peter J. & Ramirez, David
-
Canonical correlation analysis of high-dimensional data with very small sample support. Signal Processing, 128, 449-458.
Song, Yang; Schreier, Peter J.; Ramírez, David & Hasija, Tanuj
-
Detecting the dimension of the subspace correlated across multiple data sets in the sample poor regime. 2016 IEEE Statistical Signal Processing Workshop (SSP), 1-5. IEEE.
Hasija, Tanuj; Song, Yang; Schreier, Peter J. & Ramirez, David
-
Sample-poor estimation of order and common signal subspace with application to fusion of medical imaging data. NeuroImage, 134, 486-493.
Levin-Schwartz, Yuri; Song, Yang; Schreier, Peter J.; Calhoun, Vince D. & Adalı, Tülay
-
A sparse CCA algorithm with application to model-order selection for small sample support. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4721-4725. IEEE.
Lameiro, Christian & Schreier, Peter J.
-
Determining the Dimension of the Improper Signal Subspace in Complex-Valued Data. IEEE Signal Processing Letters, 24(11), 1606-1610.
Hasija, Tanuj; Lameiro, Christian & Schreier, Peter J.
-
Exercise-Induced Changes of Multimodal Interactions Within the Autonomic Nervous Network. Frontiers in Physiology, 10.
Vieluf, Solveig; Hasija, Tanuj; Jakobsmeyer, Rasmus; Schreier, Peter J. & Reinsberger, Claus
-
Source Enumeration and Robust Voice Activity Detection in Wireless Acoustic Sensor Networks. 2019 53rd Asilomar Conference on Signals, Systems, and Computers, 1257-1261. IEEE.
Hasija, Tanuj; Gölz, Martin; Muma, Michael; Schreier, Peter J. & Zoubir, Abdelhak M.
-
Determining the dimension and structure of the subspace correlated across multiple data sets. Signal Processing, 176, 107613.
Hasija, Tanuj; Marrinan, Timothy; Lameiro, Christian & Schreier, Peter J.
-
Generalized tonic-clonic seizures are accompanied by changes of interrelations within the autonomic nervous system. Epilepsy & Behavior, 124, 108321.
Vieluf, Solveig; Hasija, Tanuj; Schreier, Peter J.; El Atrache, Rima; Hammond, Sarah; Mohammadpour, Touserkani Fatemeh; Sarkis, Rani A.; Loddenkemper, Tobias & Reinsberger, Claus
-
A GLRT for estimating the number of correlated components in sample-poor mCCA. 2022 30th European Signal Processing Conference (EUSIPCO), 2091-2095. IEEE.
Hasija, Tanuj & Marrinan, Timothy
-
Estimating Test Statistic Distributions for Multiple Hypothesis Testing in Sensor Networks. 2022 56th Annual Conference on Information Sciences and Systems (CISS), 90-95. IEEE.
Golz, Martin; Zoubir, Abdelhak M. & Koivunen, Visa
-
Improving Inference for Spatial Signals by Contextual False Discovery Rates. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5967-5971. IEEE.
Golz, Martin; Zoubir, Abdelhak M. & Koivunen, Visa
-
Multiple Hypothesis Testing Framework for Spatial Signals. IEEE Transactions on Signal and Information Processing over Networks, 8, 771-787.
Golz, Martin; Zoubir, Abdelhak M. & Koivunen, Visa
-
Identifying the Complete Correlation Structure in Large-Scale High-Dimensional Data Sets with Local False Discovery Rates
Gölz, M., Hasija, T., Muma, M. & Zoubir, A.M.
