Wahl der geeigneten Clustering-Methode
Ziel dieses Tutoriums
Das Ziel dieses Tutoriums besteht darin, XLSTAT-Benutzern zu helfen, ein geeignetes Clusteranalyse-Tool zur Analyse ihrer Daten auszuwählen.
Was ist eine Clusteranalyse?
Clusteranalyse-Methoden ermöglichen das Gruppieren von Objekten (Beobachtungen oder Individuen) in Klassen (Clustern), sodass Objekte, die zu derselben Klasse gehören, einander mehr ähneln als Objekten, die zu anderen Klassen gehören. Die Nähe zwischen Objekten basiert auf einer Reihe von Variablen, die bei allen Objekten gemessen werden. Clusteranalyse-Methoden werden häufig in explorativen Data-Mining-Techniken verwendet. Hier finden Sie einige Beispiele: Bei Expressionsdaten (Transkriptomik, Proteomik, Metabolomik, usw.) ermöglichen diese Methoden das Erkennen von Individuen mit ähnlichen Expressionsprofilen oder Merkmalen mit ähnlichen Expressionsmustern. In der Marktforschung ermöglichen Clustering-Methoden das Erkennen verschiedener Verbraucherprofile anhand von Umfragedaten. In der Ökologie helfen diese Methoden, Gruppen von Standorten mit ähnlichen Gemeinden zu identifizieren.
Verfügbare Methoden in XLSTAT
XLSTAT bietet vier verschiedene Clustering-Methoden, die unter dem Button Analyse der Daten gespeichert sind: k-Means-Clustering Agglomeratives hierarchisches Clustering (AHC) Gaußsche Mischmodelle Univariates Clustering Und eine Methoden in der Option XLSTAT-LG: Latent Class-Cluster-Modelle Diese Methoden funktionieren nur bei quantitativen Variablen (außer bei Latent Class-Cluster-Modellen). Binäre Variablen könnten auch in AHC verwendet werden. Falls Sie Objekte basierend auf qualitativen Variablen clustern müssen, empfehlen wir zuerst die Durchführung einer Multiplen Korrespondenzanalyse und die Verwendung von Beobachtungsscores auf den ersten Achsen (Faktoren) als Datensatz für das Clustering. Im gleichen Sinne könnte man auch Beobachtungsscores aus jeder beliebigen explorativen Analyse verwenden, einschließlich der Hauptkomponentenanalyse und derKorrespondenzanalyse.
Wahl der geeigneten Clustering-Methode
Jede Methode hat ihre eigenen Merkmale, die in der nachstehenden Tabelle zusammengefasst sind. | | AHC | k-means | Gaussian Mixture | Univariates Partionieren | Latente Klassen-Cluster-Modell | |---|---|---|---|---|---| | Anzahl der Variablen | Mindestens 1 | Mindestens 1 | Mindestens 1 | Höchstens 1 | Mindestens 1 | | Eingangsvariablentyp | Quantitativ kontinuierlich | Quantitativ kontinuierlich | Quantitativ kontinuierlich | Quantitativ kontinuierlich | Quantitativ kontinuierlich, Quantitativ ordinal, nominal | | Sollte die Anzahl von Klassen vor den Berechnungen ausgewählt werden? | Optional | Obligatorisch | Obligatorisch | Obligatorisch | Obligatorisch (aber die optimale Anzahl von Klassen kann durch das Modell bestimmt werden) | | Ergebnisse: Klassenmitgliedschaft* | Deterministisch | Deterministisch | Probabilistisch | Deterministisch | Probabilistisch | | Ergebnisse: Besondere Merkmale | Dendrogramm, Profil der Klassen | Profil der Klassen | Parameterschätzung der Klassen, Mischmodelldiagramme, MAP-Klassifikationsdiagramm | - | Variablenbeitrag zu jeder Klasse, Möglichkeit der Vorhersage der Klassenmitgliedschaft neuer Beobachtungen (Wertegleichung) |
*Nach den Berechnungen wird die Klassenmitgliedschaft jeder Beobachtung auf verschiedene Weisen entsprechend der Clustering-Methode bereitgestellt. Die deterministische Methode umfasst die Zuweisung jedes Objekts zu einer einzigen Klasse wohingegen die probabilistische Methode die Wahrscheinlichkeit der Mitgliedschaft einer Beobachtung in jeder Klasse anzeigt.
Weiteres
Sehr große Datensätze könnten durch Kombination verschiedener Methoden bewältigt werden. Beispielsweise könnten Cluster, die über die k-means-Methode erzielt wurden, als Beobachtungen innerhalb eines agglomerativen hierarchischen Clustering verwendet werden. Dieses Tutorium dient Ihnen als Leitfaden.
Was this article useful?
- Yes
- No