Soft-Clustering - From Heuristics To Approximation Algorithms

Applicant Professor Dr. Johannes Blömer

Subject Area Theoretical Computer Science

Term from 2017 to 2021

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 324506751

Final Report Year 2021

Final Report Abstract

Im digitalen Zeitalter entstehen täglich große Datenmengen - Big Data ist allgegenwärtig. Effiziente Werkzeuge zur Analyse solcher Massen an Daten sind wichtiger denn je zuvor. Eine beliebte Technik, auch zur erstmaligen Vorverarbeitung, sind Methoden des unüberwachten Lernens. In diesem Projekt haben wir uns mit einer solchen Technik, dem Clustering, beschäftigt. Clustering besteht aus einer Vielzahl verschiedener Problemstellungen, Modellen und Algorithmen. Die grundlegende Idee ist es, Gruppen ähnlich geformter Elemente zu identifizieren und so (wenige) geeignete Repräsentanten eines großen Datensatzes zu finden. Eine beliebte Zielfunktion aus diesem Bereich ist das Fuzzy k-Means Problem. Gegenüber anderen Problemen zeichnet es sich durch eine vergleichsweise hohe Resilienz gegenüber Ausreißern im Datensatz aus. Aus mathematischer Sicht hat es eine interessante Struktur, die klassische Analysetechniken schnell an ihre Grenzen stoßen lassen. Wir haben das Problem eingehend komplexitätstheoretisch und algorithmisch untersucht. Dabei haben wir einen Algorithmus entworfen, der sich einer optimalen Lösung des Problems beliebig annähert und dies in einer Laufzeit, die unabhängig von der eingegebenen Gewichtung der Datenpunkte ist. In Kombination mit anderen, ebenfalls von uns neu entwickelten Techniken ist es uns gelungen, einen Algorithmus zu formulieren, dessen Laufzeit nah an die Laufzeit der schnellsten Algorithmen für andere beliebte Clustering Probleme heranreicht. Diese positiven, algorithmischen Ergebnisse haben wir durch eine untere Laufzeitschranke eines anderen beliebten Algorithmus für dieses Problem komplementiert. Ein anderes, ebenfalls von uns untersuchtes, Problem ist das sogenannte MLE Problem für Gaußmixturen. Hier haben wir unsere theoretische und empirische Forschung ausgebaut und weiter verbessert.

Publications

Coresets for Fuzzy K-Means with Applications. In 29th International Symposium on Algorithms and Computation (ISAAC 2018). Schloss Dagstuhl - Leibniz-Zentrum fuer Informatik GmbH, Wadern/Saarbruecken, Germany
Blömer, J., Brauer, S., und Bujna, K.
Classiﬁcation and approximation of geometric location problems. Dissertation, Paderborn University
Brauer, S.
Complexity of single-swap heuristics for metric facility location and related problems. Theoretical Computer Science, 754:88–106
Brauer, Sascha
How well do SEM algorithms imitate EM algorithms? A non-asymptotic analysis for mixture models. Advances in Data Analysis and Classiﬁcation, 14(1):147–173
Blömer, Johannes; Brauer, Sascha; Bujna, Kathrin & Kuntze, Daniel
A Complexity Theoretical Study of Fuzzy K-Means. ACM Transactions on Algorithms, 16(4):1–25
Blömer, Johannes; Brauer, Sascha & Bujna, Kathrin

Servicenavigation

Hauptnavigation

Soft-Clustering - From Heuristics To Approximation Algorithms

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Soft-Clustering - From Heuristics To Approximation Algorithms

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung