Detailseite
Klassifikation -- Vorverarbeitete und hochdimensionale Datensätze
Antragstellerin
Professorin Dr. Angelika Rohde
Fachliche Zuordnung
Mathematik
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 460867398
Wir studieren das Problem der Klassifikation für zwei Arten von vorverarbeiteten Daten, speziell entwickelt für unausgeglichene und sensible Daten, sowie die Konsequenzen von hochdimensionalen erklärenden Variablen. Unausgeglichene Datensätze sind dafür bekannt, die Leistung von Klassifikatoren im statistischen Lernen erheblich zu reduzieren. Lernalgorithmen, die für ausgeglichene Datensätze entworfen wurden, tendieren zu Verfälschung in Richtung der stärker vertretenden Klasse. Wir werden einen theoretischen Rahmen einführen, um diesen Bias-towards-the-majority-class-Effekt zu studieren. Gemeinsam mit Projekt IV werden wir dann statistisch effiziente Datenreduktion-Vorverarbeitung innerhalb der stärker vertretenden Klasse entwickeln. Gleichzeitig untersuchen wir das Klassifikationsproblem basierend auf vorverarbeiteten Trainingsdaten, die die Bedingung der local differential privacy erfüllen. Der besonders herausfordernde Fall funktionaler privatisierter Daten wird in Zusammenarbeit mit Projekt III entwickelt. Schließlich studieren wir den Klassifikationsfehler im Falle von hochdimensionalen erklärenden Variablen. Hier verbietet sich praktisch die Berechnung bei klassischen statistischen Verfahren. Gemeinsam mit Projekt II bestimmen wir die statistische Genauigkeit iterativer Gradient-Descent-Methoden und entwickeln rechnerisch effiziente und vollkommen datengetriebene Lernalgorithmen.
DFG-Verfahren
Forschungsgruppen
Teilprojekt zu
FOR 5381:
Mathematische Statistik im Informationszeitalter - Statistische Effizienz und rechentechnische Durchführbarkeit
Internationaler Bezug
Österreich
Partnerorganisation
Fonds zur Förderung der wissenschaftlichen Forschung (FWF)
Kooperationspartner
Professor Dr. Lukas Steinberger