Clusterstabilität
Konzepte und Einflussfaktoren
von Andreas BaumgartClusterverfahren erfreuen sich im Rahmen des Data Mining einer großen Beliebtheit und werden in diesem Kontext besonders oft angewendet. Häufig wird jedoch außer Acht gelassen, dass die dabei erzielten Ergebnisse ohne eine theoretische Fundierung nicht über die Stichprobe hinaus auf die Grundgesamtheit verallgemeinert werden können.
Um eine solche Verallgemeinerung aus statistischer Sicht tätigen zu können, ist zunächst eine Betrachtung von Clusterverfahren im Allgemeinen unumgänglich, wobei die unterschiedlichen Ansätze der Verfahren besonders interessant sind. Aber auch eine saubere stochastische Spezifikation der Ausgangssituation, sowie die Analyse der Methoden zur Clustervalidierung sind Teil einer solchen Untersuchung.
Entscheidend für eine Verallgemeinerung ist die Veränderung der Clusterergebnisse beim statistischen Schluss von der Stichprobe auf die Population. Handelt es sich um einen stabilen Clusteralgorithmus, so kann davon ausgegangen werden, dass die Veränderungen gering sind. Neben einer formalen Definition von Stabilität werden als Analysegrundlage die klassischen Werkzeuge der robusten Statistik benötigt.
Bei der Analyse erweist sich die Datenrepräsentation als ein maßgeblicher Einflussfaktor. Am Beispiel der Netzwerkanalyse wird die Anwendbarkeit des entwickelten Clusterstabilitätsbegriffes gezeigt. Mit Hilfe von Wahrscheinlichkeitsnachbarschaften ist es möglich, einen verallgemeinerten Kommunitätsbegriff zu definieren.
Andreas Baumgart, Jahrgang 1982, studierte Wirtschaftsinformatik an der Universität Leipzig und der Westfälischen Wilhelms-Universität Münster. Im Anschluss war er als wissenschaftlicher Mitarbeiter am European Research Center for Information Systems (ERCIS) in Forschung und Lehre tätig. Im November 2013 erfolgte die Promotion zum Doktor der Wirtschaftswissenschaften.