Detailseite
Lokalisiertes statistisches Lernen mit Kernen
Antragsteller
Professor Dr. Andreas Christmann; Professor Dr. Ingo Steinwart
Fachliche Zuordnung
Mathematik
Förderung
Förderung von 2016 bis 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 317622002
Statistisch fundierte Verfahren des maschinellen Lernens und insbesondere regularisierte kernbasierte Lernverfahren haben sich nicht nur als äusserst erfolgreich in diversen Datenanalyseproblemstellungen erwiesen, sondern genießen mittlerweile auch eine reiche mathematische Theorie. In den letzten Jahren sind sogenannte Big-Data-Anwendungen, die typischerweise die statistische Analyse von riesigen, hochdimensionalen Daten mit zum Teil recht schlechter Datenqualität beinhalten, in den Vordergrund der Forschung getreten. Leider skalieren die unmodifizierten regularisierten kernbasierten Lernverfahren jedoch sehr schlecht mit der Datensatzgröße, so dass sie für Big-Data-Anwendungen momentan nicht in Frage kommen. Das Ziel dieses Projektes ist es, dieses Problem zu lösen, in dem wir Datenzerlegungsmethoden für kernbasierte Lernverfahren entwickeln, die einerseits auf einer soliden Theorie fußen und andererseits empirisch wirklich funktionieren. Auf der empirischen Seite stellen wir uns dabei vor, dass selbst auf einem einzelnen Desktop-Rechner Millionen von hochdimensionalen Daten in akzeptabler Zeit verarbeitet werden können. Unsere theoretische Analyse dieser Zerlegungsmethoden wiederum sollte Ergebnisse erzielen, die denen der unzerlegten regularisierte kernbasierte Lernverfahren entsprechen. Unsere Ziele gliedern sich somit in die folgenden Aspekte:(i) Die Identifikation von räumlich-basierten Zerlegungsmethoden, die die Bearbeitungszeit erheblich reduzieren ohne dabei die Güte der gelernten Funktionen zu schmälern. Dies ist im Gegensatz zu mehreren neueren Ansätzen aus der Literatur, wo zufällig Teilstichproben aus dem Originaldatensatz gezogen werden. (ii) Eine rigorose mathematische Analyse der als erfolgreich identifizierten Zerlegungsmethoden. Diese Analyse umfasst das Beweisen von universeller Konsistenz, der Herleitung von, wenn möglich, optimalen Lernraten sowie die Untersuchung der statistischen Robustheit.(iii) Die Beschreibung des mögliche Zielkonflikts zwischen den benötigten Computerresourcen einerseits und der Güte der gelernten Funktionen andererseits.(iv) Die Implementierung von Softwareprototypen, um zu demonstrieren, dass die entwickelten Methoden in Big-Data-Anwendungen tatsächlich einsetzbar sind.Wegen der Fokussierung auf das theoretische Verständnis von räumlich-basierten Zerlegungsmethoden sprechen wir in diesem Projekt von lokalisiertem statistischen Lernen mit Kernen (LSLK).
DFG-Verfahren
Sachbeihilfen