Pasar al contenido principal

Clasificación Ascendente Jerárquica (AHC) en Excel

Este tutorial muestra cómo configurar e interpretar una Clasificación ascendente jerárquica (Agglomerative Hierarchical Clustering, AHC) en Excel usando el software XLSTAT.

¿No está seguro sobre si esta es la herramienta de clusterización que necesita? Consulte esta guía.

Datos para ejecutar una clasificación ascendente jerárquica (Agglomerative Hierarchical Clustering) en XLSTAT

Puede descargar una hoja de Excel con los datos y resultados haciendo clic en el botón de arriba.

Los datos proceden del US Census Bureau. Corresponden a la medición de parámetros demográficos en 51 Estados de los Estados-Unidos en 2000 y 2001. En el marco de este tutorial, solo los datos del año 2001 fueron conservados, y con el fin de suprimir los efectos de escala, las variables iniciales fueron convertidas en à­ndices por 1000 habitantes. El objetivo aquà­ es de crear grupos homogéneos de estados. Estos datos son también utilizados por el tutorial del análisis de Componentes Principales (ACP).

Configuración de una clasificación ascendente jerárquica

Una vez que XLSTAT éste activado, haga clic en el menú XLSTAT/ Análisis de datos/ Clasificación Ascendente Jerárquica (CAH), o haga clic en el botón correspondiente de la barra Análisis de datos (ver a continuación).

Una vez el botón pulsado, el cuadro de diálogo correspondiente a la CAH aparece. Puede entonces seleccionar los datos en la hoja Excel. Hay varias manera de seleccionar los datos en el cuadro de diálogo de XLSTAT (ver el tutorial del asunto). En el ejemplo estudiado aquà­ los datos empiezan desde la primera là­nea; Es entonces más rápido elegir el modo de selección por columnas. Por esta razón, en el cuadro de diálogo a continuación las selecciones aparecen en forma de columnas.

La variable "Población total" no fue seleccionada ya que solos los aspectos dinámicos de la población nos interesa aquà­. La última columna no fue seleccionada tampoco, ya que hemos visto con el análisis de componentes principales que las dos últimas columnas están perfectamente correlacionadas. La opción "Etiquetas de las columnas" es activada, ya que la primera là­nea de datos incluye el nombre de las variables.

Las opciones Centrar/Reducir es activada de manera a evitar que algunas variables no influyen demasiado sobre el resultado con problemas de escala. La opción "Truncamiento automático" es activada para obtener el dendrograma (o árbol de clasificación) truncado.

Los cálculos empiezan cuando haga clic en el botón OK.

Interpretación de los resultados de una clasificación ascendente jerárquica

El primer resultado es el diagrama de los niveles. Su forma proporciona informaciones sobre la estructura de los datos. Cuando son observadas unas variaciones importantes, tenemos una agregación de estructuras homogéneas. Es en parte, sobre esta base, que está creado el truncamiento automático que permite determinar el número de grupos homogéneos.

El gráfico a continuación es el dendrograma. Representa cómo funciona el algoritmo para agrupar las observaciones, y luego los subgrupos de observaciones. Como puedes ver, el algoritmo ha agrupado con éxito todas las observaciones. La là­nea de puntos representa el truncamiento y permite visualizar que dos grupos homogéneos fueron identificados.

El primer grupo (mostrado en color azul) es más homogéneo que el segundo (es más plano en el dendrograma). Esto se confirma cuando se observa la varianza dentro de la clase. Es mucho más alta para el segundo grupo que para el primero.

La siguiente tabla muestra los estados que se han clasificado en cada grupo.

En la hoja de resultados se muestra una tabla con la identificación de la clase para cada Estado. A continuación se muestra una muestra. Esta tabla es útil, ya que puede fusionarse con la tabla inicial para análisis posteriores, por ejemplo, el análisis discriminante o el trazado de coordenadas paralelas.

Este video muestra cómo hacer este tutorial.

Was this article useful?

  • Yes
  • No