Detailseite
Projekt Druckansicht

Daten- und Dimensionsreduktion für Probleme des statistischen und maschinellen Lernens mit massiven Daten

Antragsteller Dr. Alexander Munteanu
Fachliche Zuordnung Theoretische Informatik
Mathematik
Förderung Förderung seit 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 535889065
 
Die Vision dieses Projekts ist es, eine einheitliche Sicht auf Algorithmen zur Datenreduktion für statistische und maschinelle Lernprobleme für massive Datenmengen zu erarbeiten. Viele statistische Lernalgorithmen wurden für eine effiziente Datenanalyse im klassischen Sinne entwickelt. Angesichts großer Datenmengen können selbst Linearzeitalgorithmen nicht mehr als effizient angesehen werden, da die zur Verfügung stehenden Speicher- und Rechenzeitressourcen in Relation zum Datenvolumen stark eingeschränkt sind. Wir möchten statistisches und maschinelles Lernen für große Datenmengen ermöglichen, ohne die im letzten halben Jahrhundert erzielten Fortschritte verwerfen oder neu erfinden zu müssen. Dazu ist es unser Ziel, so genannte Coresets und Sketches zu entwickeln, welche die Daten auf eine kleinere Menge reduzieren, die effizient verarbeitet werden kann. Dabei erhalten wir ihre statistische Struktur, sodass das Ergebnis der Analyse der reduzierten Datenmenge beweisbar sehr nah an dem Ergebnis liegt, welches wir durch eine Analyse der vollständigen Daten erhalten hätten. Coreset Konstruktionen und Sketchingalgorithmen wurden für grundlegende statistische Probleme, wie lineare Regression, entwickelt und hinsichtlich ihrer wichtigsten Komplexitätsmaße, wie Zielgröße und Updatezeit beim Einfügen neuer Punkte, optimiert. Vergleichsweise wenig ist darüber bekannt, wie man effizient Coresets und Sketches für verallgemeinerte lineare Modelle, Bayesianische Regression und komplexere Modelle konstruiert, welche weniger gut erforscht sind. Es besteht eine große Lücke zwischen Problemen, die effizient gesketcht werden können und komplexen statistischen und maschinellen Lernverfahren, welche tatsächlich in der modernen Datenanalyse eingesetzt werden. Die einfachen Modelle kommen oft als Bausteine vor, aber wir wissen, dass selbst leichte Verallgemeinerungen linearer Probleme bereits auf Grenzen stoßen. An dieser Schwelle ergeben sich viele offene Probleme, um diese Einschränkungen über den Worst-Case hinaus durch parametrisierte theoretische Analysen zu überwinden. Zu diesem Zweck verfolgen wir die Erforschung von Coresets und Sketching 1) für verallgemeinerte und Bayesianische Regressionsmodelle, 2) für hochdimensionale Probleme und Kernel Methoden, 3) für hochvolumige Copula Modelle. Das Projekt wird diese Aspekte untersuchen und uns letztendlich zu einer umfassenden Perspektive auf die Möglichkeiten und Grenzen von Coreset- und Sketching-Ansätzen führen. Dies wird eine einheitliche Sicht auf die Fülle von methodischen Ansätzen bieten und es ermöglichen, Richtlinien dafür zu entwickeln, welche Methoden in verschiedenen Situationen und Problemstellungen zielführend sind.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung