Statistisches Lernen aus abhängigen Daten: Lerntheorie, Robuste Algorithmen und Anwendungen
Zusammenfassung der Projektergebnisse
In dem sich schnell entwickelnden Forschungsfeld des maschinellen Lernens befassen wir uns mit einer entscheidenden Herausforderung, die sich bei der Analyse von realen Daten ergibt: Nicht alle Daten, die uns begegnen, sind unabhängig. Viele der Daten in Bereichen wie Bioinformatik oder Computersicherheit weisen komplizierte Abhängigkeitsmuster auf. Die Datenpunkte sind durch Zeit, Raum oder äußere Bedingungen miteinander verbunden. Diese Abhängigkeiten können die Ergebnisse herkömmlicher Algorithmen für maschinelles Lernen verfälschen, die in der Regel davon ausgehen, dass die Datenpunkte unabhängig voneinander sind. Wir haben einen umfassenden Ansatz für statistisches Lernen entwickelt, der diese Abhängigkeiten addressiert. Unsere Arbeit ermöglicht genauere Vorhersagen und Erkenntnisse in verschiedenen wissenschaftlichen und technologischen Bereichen. Darüber hinaus haben wir Methoden zur automatischen Interpretation der Ergebnisse dieser Modelle integriert, die es Expertinnen und Experten in verschiedenen Bereichen erleichtern, unsere Ergebnisse für ihre eigene Forschung oder Anwendungen zu nutzen. Ein wichtiger Anwendungsbereich unserer Forschung sind genetische Assoziationsstudien, bei denen unsachgemäß behandelte Datenabhängigkeiten leicht ganze Studien ungültig machen können. Ein weiterer Schwerpunkt unserer Untersuchung war es, eine solide theoretische Grundlage für das Verständnis der Funktionsweise des Lernens aus abhängigen Daten zu schaffen. Dieses Verständnis stellt sicher, dass die von uns entwickelten Algorithmen nicht nur innovativ, sondern auch unter verschiedenen Bedingungen zuverlässig sind. Wir haben unsere Ergebnisse auf renommierten Forschungskonferenzen und in wissenschaftlichen Zeitschriften vorgestellt. Wir haben auch Open-Sourcelmplementierungen unserer Algorithmen veröffentlicht, damit Forschende und Praktizierende unsere Arbeit nutzen und darauf aufbauen können. Unsere Arbeit stellt einen bedeutenden Fortschritt dar, maschinelles Lernen anpassungsfähiger und effektiver für komplexe, reale Datenherausforderungen zu machen. Indem wir uns mit den Feinheiten abhängiger Daten befassen, eröffnen wir neue Wege für Entdeckungen und Fortschritte in verschiedenen wissenschaftlichen Disziplinen.
Projektbezogene Publikationen (Auswahl)
-
“Machine learning with interdependent and nonidentically distributed data (dagstuhl seminar 15152)”. In: Dagstuhl Reports. Vol. 5. 4. Schloss Dagstuhl- Leibniz-Zentrum fuer Informatik. 2015
T. Darrell; M. Kloft; M. Pontil; G. Rätsch & E. Rodner
-
“Multi-class svms: From tighter data-dependent generalization bounds to novel algorithms”. In: Advances in neural information processing systems 28 (2015)
Y. Lei; Ü. Dogan; A. Binder & M. Kloft
-
Combining Multiple Hypothesis Testing with Machine Learning Increases the Statistical Power of Genome-wide Association Studies. Scientific Reports, 6(1).
Mieth, Bettina; Kloft, Marius; Rodríguez, Juan Antonio; Sonnenburg, Sören; Vobruba, Robin; Morcillo-Suárez, Carlos; Farré, Xavier; Marigorta, Urko M.; Fehr, Ernst; Dickhaus, Thorsten; Blanchard, Gilles; Schunk, Daniel; Navarro, Arcadi & Müller, Klaus-Robert
-
Sparse probit linear mixed model. Machine Learning, 106(9-10), 1621-1642.
Mandt, Stephan; Wenzel, Florian; Nakajima, Shinichi; Cunningham, John; Lippert, Christoph & Kloft, Marius
-
“Local rademacher complexity based learning guarantees for multi-task learning”. In: The Journal of Machine Learning Research 19.1 (2018), pp. 1385–1431
N. Yousefi; Y. Lei; M. Kloft; M. Mollaghasemi & G. C. Anagnostopoulos
-
“Scalable generalized dynamic topic models”. In: International Conference on Artificial Intelligence and Statistics. PMLR. 2018, pp. 1427–1435
P. Jahnichen; F. Wenzel; M. Kloft & S. Mandt
-
Data-Dependent Generalization Bounds for Multi-Class Classification. IEEE Transactions on Information Theory, 65(5), 2995-3021.
Lei, Yunwen; Dogan, Urun; Zhou, Ding-Xuan & Kloft, Marius
-
“Extreme classification (dagstuhl seminar 18291)”. In: Dagstuhl Reports. Vol. 8. 7. Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik. 2019
S. Bengio; K. Dembczynski; T. Joachims; M. Kloft & M. Varma
-
“Two-sample testing using deep learning”. In: International Conference on Artificial Intelligence and Statistics. PMLR. 2020, pp. 1387–1398
M. Kirchler; S. Khorasani; M. Kloft & C. Lippert
-
transferGWAS: GWAS of images using deep transfer learning. Bioinformatics, 38(14), 3621-3628.
Kirchler, Matthias; Konigorski, Stefan; Norden, Matthias; Meltendorf, Christian; Kloft, Marius; Schurmann, Claudia & Lippert, Christoph
-
“Training normalizing flows from dependent data”. In: International Conference on Machine Learning. PMLR. 2023, pp. 17105–17121
M. Kirchler; C. Lippert & M. Kloft
-
“Zero-Shot Anomaly Detection via Batch Normalization”. In: Thirty-seventh Conference on Neural Information Processing Systems. 2023
A. Li; C. Qiu; M. Kloft; P. Smyth; M. Rudolph & S. Mandt
