Effiziente und effektive Data-Mining Lösungen für hochdimensionale Daten
Zusammenfassung der Projektergebnisse
Die Position der Gruppe als eine weltweit bekannte Forschungsgruppe im Bereich des “Data Mining” konnte unter anderem mit Hilfe der DFG- Förderung weiter ausgebaut werden, was sich an zahlreichen Einladungen zur Veranstaltung von Tutorials auf den einschlägigen Konferenzen zeigt. Diese regelmäßige und starke Präsenz wirkt sich international positiv auf die Wahrnehmung des Wissenschaftsstandortes Deutschland aus. In den Bereichen des Subspace-/Projected- sowie des Correlation-Clustering – der Suche nach Clustern, die nur in unterschiedlichen Unterräumen des Datenraumes vorhanden sind – wurden zahlreiche neue Verfahren entwickelt und veröffentlicht. Parallel wurde hierbei an Verfahren für achsenparallele (“Subspace”) und für beliebig orientierte (“Correlation”) Cluster geforscht und vergleichbare Fortschritte erzielt. Wichtige Publikationen beinhalten die Erkennung von hierarchischem Clustering und erhöhte Toleranz gegenüber irrelevanten Datenpunkten. Hervorzuheben ist das Verfahren CASH, das einen völlig neuartigen Ansatz basierend auf der Hough- Transformation verfolgt und damit auf zwei der wichtigsten Konferenzen ausgezeichnet wurde. Die Hough-Transformation war in der Bildverarbeitung (d.h. in 2 Dimensionen) bereits verwendet worden, die Anwendung zur Erkennung in hochdimensionalen Daten zur Suche nach Korrelationen jedoch ist neu. Zusätzlich wurden innovative Ansätze vorgestellt, um dies in realistischer Zeit approximativ berechnen zu können. Nicht Teil des ursprünglichen Forschungsantrags war das Thema der “Outlier Detection”. Die Erkennung von Ausreißern ist jedoch offensichtlich eine eng verwandte Fragestellung zur Erkennung von charakteristischen Gruppen in den Daten. Arbeiten in diesem Bereich wurden durch die Förderung der DFG stimuliert. Alle genannten Ergebnisse wurden bereits auf hochrangigen internationalen Tagungen veröffentlicht.
Projektbezogene Publikationen (Auswahl)
-
“DeLiClu: Boosting robustness, completeness, usability, and ef?ciency of hierarchical clustering by a closest pair ranking,” in Proceedings of the 10th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), Singapore, 2006
E. Achtert, C. Böhm, and P. Kröger
-
“Deriving quantitative models for correlation clusters,” in Proceedings of the 12th ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD), Philadelphia, PA, 2006
E. Achtert, C. Böhm, H.-P. Kriegel, P. Kröger, and A. Zimek
-
“Finding hierarchies of subspace clusters,” in Proceedings of the 10th European Conference on Principles of Knowledge Discovery and Data Mining (PKDD), Berlin, Germany, 2006
E. Achtert, C. Böhm, H.-P. Kriegel, P. Kröger, I. Müller-Gorman, and A. Zimek
-
“Mining hierarchies of correlation clusters,” in Proceedings of the 18th International Conference on Scientific and Statistical Database Management (SSDBM), Vienna, Austria, 2006
E. Achtert, C. Böhm, P. Kröger, and A. Zimek
-
“Detecting clusters in moderate-to-high dimensional data: Subspace clustering, patternbased clustering, and correlation clustering.” Tutorial at the 7th International Conference on Data Mining (ICDM), Omaha, NE, 2007
H.-P. Kriegel, P. Kröger, and A. Zimek
-
“Detection and visualization of subspace cluster hierarchies,” in Proceedings of the 12th International Conference on Database Systems for Advanced Applications (DASFAA), Bangkok, Thailand, 2007
E. Achtert, C. Böhm, H.-P. Kriegel, P. Kröger, I. Müller-Gorman, and A. Zimek
-
“Future trends in data mining,” Data Mining and Knowledge Discovery, vol. 15, no. 1, pp. 87–97, 2007
H.-P. Kriegel, K. M. Borgwardt, P. Kröger, A. Pryakhin, M. Schubert, and A. Zimek
-
“On exploring complex relationships of correlation clusters,” in Proceedings of the 19th International Conference on Scientific and Statistical Database Management (SSDBM), Banff, Canada, 2007
E. Achtert, C. Böhm, H.-P. Kriegel, P. Kröger, and A. Zimek
-
“Robust, complete, and ef?cient correlation clustering,” in Proceedings of the 7th SIAM International Conference on Data Mining (SDM), Minneapolis, MN, 2007
E. Achtert, C. Böhm, H.-P. Kriegel, P. Kröger, and A. Zimek
-
2] H.-P. Kriegel, P. Kröger, and A. Zimek, “Detecting clusters in moderate-to-high dimensional data: Subspace clustering, patternbased clustering, and correlation clustering.” Tutorial at the 12th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), Osaka, Japan, 2008
H.-P. Kriegel, P. Kröger, and A. Zimek
-
“A general framework for increasing the robustness of PCA-based correlation clustering algorithms,” in Proceedings of the 20th International Conference on Scientific and Statistical Database Management (SSDBM), Hong Kong, China, 2008
H.-P. Kriegel, P. Kröger, E. Schubert, and A. Zimek
-
“Angle-based outlier detection in high-dimensional data,” in Proceedings of the 14th ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD), Las Vegas, NV, 2008
H.-P. Kriegel, M. Schubert, and A. Zimek
-
“Detecting clusters in moderate-to-high dimensional data: subspace clustering, patternbased clustering, and correlation clustering,” Proceedings of the VLDB Endowment, vol. 1, no. 2, pp. 1528–1529, 2008
H.-P. Kriegel, P. Kröger, and A. Zimek
-
“Detecting clusters in moderate-to-high dimensional data: Subspace clustering, patternbased clustering, and correlation clustering.” Tutorial at the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2008), Las Vegas, NV, 2008
H.-P. Kriegel, P. Kröger, and A. Zimek
-
“ELKI: a software system for evaluation of subspace clustering algorithms,” in Proceedings of the 20th International Conference on Scientific and Statistical Database Management (SSDBM), Hong Kong, China, 2008
E. Achtert, H.-P. Kriegel, and A. Zimek
-
“Robust clustering in arbitrarily oriented subspaces,” in Proceedings of the 8th SIAM International Conference on Data Mining (SDM), Atlanta, GA, 2008
E. Achtert, C. Böhm, J. David, P. Kröger, and A. Zimek
-
“Clustering high dimensional data: A survey on subspace clustering, pattern-based clustering, and correlation clustering,” ACM Transactions on Knowledge Discovery from Data (TKDD), vol. 3, no. 1, pp. 1–58, 2009
H.-P. Kriegel, P. Kröger, and A. Zimek
-
“CoCo: coding cost for parameter-free outlier detection,” in Proceedings of the 15th ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD), Paris, France, pp. 149–158, 2009
C. Böhm, K. Haegler, N. S. Müller, and C. Plant
-
“ELKI in time: ELKI 0.2 for the performance evaluation of distance measures for time series,” in Proceedings of the 11th International Symposium on Spatial and Temporal Databases (SSTD), Aalborg, Denmark, 2009
E. Achtert, T. Bernecker, H.-P. Kriegel, E. Schubert, and A. Zimek
-
“LoOP: local outlier probabilities,” in Proceedings of the 18th International Conference on Information and Knowledge Management (CIKM), Hong Kong, China, 2009
H.-P. Kriegel, P. Kröger, E. Schubert, and A. Zimek
-
“Outlier detection techniques.” Tutorial at the 13th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), Bangkok, Thailand, 2009
H.-P. Kriegel, P. Kröger, and A. Zimek