Detailseite
Projekt Druckansicht

Komplexitätsverringerung durch moderne Datenreduktionsmethoden

Fachliche Zuordnung Mathematik
Förderung Förderung seit 2024
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 533875539
 
Im heutigen digitalen Zeitalter sehen wir uns mit immer größeren Datenmengen konfrontiert, welche an vielen Stellen gesammelt, übertragen und verarbeitet werden müssen, beispielsweise in Anwendungen des Maschinellen Lernens (ML). Dabei ist es wichtig, überflüssige Teile von Daten automatisch identifizieren zu können, um relevante Informationen gezielt aus ihnen zu extrahieren. Obwohl ML in den letzten Jahren bereits in vielen Bereichen mit großem Erfolg zur Anwendung gekommen ist, bestehen weiterhin einige grundlegende Schwierigkeiten. Für die meisten ML-basierten Algorithmen werden riesige Mengen an Trainingsdaten benötigt, um ihren Erfolg zu garantieren. In der Praxis ist das Sammeln von Trainingsdaten aber oft schwierig oder schlicht sehr teuer, z.B. wenn hochpreisige Sensorik zur Anwendung kommt. Der Trainingsschritt selbst ist zudem sehr rechenaufwändig. Aus diesen Gründen wollen wir mit unserem Projekt zur Entwicklung neuer Verfahren beitragen, mit denen sowohl die Samplingkomplexität als auch die Datenkomplexität von ML-basierten Modellen reduziert wird. Unser Fokus liegt dabei nicht auf der Konzeption neuer ML-Methoden, sondern auf dem grundsätzlichen Problem der Datenreduktion. In der Praxis hat sich gezeigt, dass sich zahlreiche Arten von Daten ohne erheblichen Informationsverlust deutlich „subsamplen“ lassen. Dabei wird ausgenutzt, dass die in ihnen enthaltene Information in gewisser Weise „dünn“ (engl. „sparse“) verteilt ist. Die entsprechende Thematik der „Sparsifizierung“ taucht in vielen Szenarien auf. Mathematisch kann man die Hauptaufgabe wie folgt formulieren. In einer gegebenen Datenmatrix ist die Anzahl der Datenvektoren so zu verringern, dass die wesentlichen spektralen Eigenschaften der Matrix erhalten bleiben. In diesen spektralen Eigenschaften sind nämlich meist die für Anwendung relevanten Informationen kodiert. Eng verwandt mit dieser Aufgabe ist das sogenannte „frame subsampling“. Hier gab es in jüngster Vergangenheit große Fortschritte basierend auf der Lösung des Kadison-Singer-Problems mit Bezug zu Operatoralgebren. Aufbauend auf derartigen Fortschritten ist unser Plan, neue Methoden zum Erreichen von optimaler Dünnbesetztheit in Datensätzen zu entwickeln und zu analysieren. Dieses Ziel ist eng verwandt mit der aus der Samplingtheorie bekannten Aufgabe der Verringerung der Anzahl benötigter Knotenpunkte bei der Diskretisierung von Funktionen. Eine Verbesserung bekannter Resultate würde es uns hier unter anderem erlauben, neue Abschätzungen des Fehlers bei der außerordentlich schwierigen aber wichtigen Aufgabe der Funktionsrekonstruktion aus unvollständigen Messdaten herzuleiten. Ein weiteres Ziel unserer Forschung ist es, die momentan bestehende Lücke zwischen konstruktiven und nicht-konstruktiven Verfahren zu schließen. Dies ist für die praktische Anwendung der Verfahren relevant. Fortschritte in dieser Richtung werden zukünftig sicherlich ein Grundbaustein bei der Konzeption neuer Methoden sein.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung