5 TecnicasMineria (Cluster)

Minería de Datos:
Cluster
Act. Sonia Yoselin Ovando Retiz
OBJETIVOS BÁSICOS:
• Forma parte del análisis NO supervisado y se basa en las similitudes de las

variables de entrada.
• Sirve para realizar dos tares fundamentales:
• Análisis "taxonómico" con fines exploratorios o confirmatorios.

(Clasificación)
• Cambio (simplificación) de la dimensión de los datos: agrupación de

objetos individuales en nuevas estructuras grupales.
 Cada grupo debe ser homogéneo

 Los grupos deben ser lo más distintos posible
• Es útil también como un paso para un modelo predictivo. Por ejemplo: ciertos
clientes pueden clasificarse en grupos homogéneos y luego un modelo puede
predecir a los miembros de un cluster basado en las características
• ya establecidas.
PASOS PARA EL ANÁLISIS
1. Selección de la muestra: Se cuenta con información de n casos y k variables
2. Selección y transformación de variables a utilizar.
3. Se establece una distancia o similaridad que indique en qué medida cada par d
observaciones se parece entre sí. Se recomienda estandarizar la distancia.
En este paso se realiza una Matriz de distancias (obteniendo las distancias
entre todas las posibles combinaciones de parejas de las variables a analizar.
4. Se crean los grupos de acuerdo a la medida de distancia mediante el método

jerárquico o de k-means.
5. Se describen los grupos obtenidos y se comparan unos con otros
6. Se valida el análisis.
MEDIDAS PARA CALCULAR
LA DISTANCIA
𝐷= (𝑥𝑖𝑝 −𝑥𝑗𝑝 )2
• Distancia Euclidiana
𝐷= (𝑥𝑖𝑝 −𝑥𝑗𝑝 )2
• Distancia al cuadrado:
menos exigente que la
anterior
1
𝐷=[ (𝑥𝑖𝑝 −𝑥𝑗𝑝 )2 ] 𝑛
• Distancia de Minkowski:
• Distancia city block o 𝐷= (𝑥𝑖𝑝 −𝑥𝑗𝑝 )

Manhatan:
DISTANCIA PARA VARIABLES BIDIMENCIONALES (0,1)
* Se realiza una tabla cruzada de frecuencias entre dos registros, obteniendo

los valores a,b,c,d para la aplicación de las fórmulas siguientes.
Registro2: 0 Registro2: 1
Registro1: 0 a b
Registro1: 1 c d
Distancias: 𝐷 = 𝑏+𝑐
𝑏−𝑐 2
*Diferencia de tamaño: D= 𝑎+𝑏+𝑐+𝑑 2
𝑏∗𝑐
*Diferencia de configuración: D = 𝑎+𝑏+𝑐+𝑑 2
𝑎+𝑏+𝑐+𝑑 ∗ 𝑏+𝑐 − 𝑏−𝑐 2

*Diferencia de forma: D= 𝑎+𝑏+𝑐+𝑑 2
Trabajador Ecologista Deportista Soltero Esudios
Joel 1 1 0 0
Ejemplo: Ismael 0 1 1 1
Carla 1 1 0 1
Juan 0 0 0 1
Martha 1 1 1 0
Tabla Cruzada
Joel
de frecuencias
1 0
Ismael 1 1a 2b
0 1c 0d
Distancias: Dij= 2 + 1 = 1.73205
2−1 2
*Diferencia de tamaño: D= 1+2+1+0 2
= 0.0625
2∗1
*Diferencia de configuración: D = = 0.125
4 2
1+2+1+0 ∗ 2+1 − 2−1 2

*Diferencia de forma: D= = 0.6875
4 2
MÉTODOS DE ANÁLISIS CLUSTER
• Análisis jerárquico:
Inicialmente cada caso es un grupo en sí mismo y se van fusionando sucesivamente

grupos cercanos hasta que todos los individuos compartan un solo grupo.
Se pueden utilizar varios métodos entre los q destacan el método del centroide,
vinculación promedio y Ward.
• Análisis no jerárquico:
Inicialmente se establece el número de grupos y cada caso se asigna a uno

de ellos.
Se pueden utilizar varios métodos entre los q destacan: vecino más

cercano, vecino más lejano
Método del centroide:
• Se calcula la matriz de distancias.
• Comienza uniendo las dos observaciones más cercanas.
• El grupo se sustituye por una observación que lo representa(centroide) y en el que
todas las variables toman un valor medio.
• Se vuelve a calcular la matriz de distancias, se unen otro par de observaciones y
se recalcula la matriz.
• Así hasta que todas las observaciones quedan en un solo grupo.
Método No-jerárquico:
- Se define el número de k grupos

- Cada observación es asignada a un grupo
- Minimiza la homogeneidad dentro de los grupos
- Maximiza la heterogeneidd entre grupos.
- ETAPAS:
1. Determinar los centroides iniciales para los k grupos
2. Formación de los grupos
3. Recalcular los centroides y formar grupos hasta lograr la estabilidad.
1. Determinar los centroides iniciales para los k grupos
Se utilizan las k primeras observaciones del fichero como centroides de partida.
Se calculan las distancias entre las k observaciones (matriz de distancias) y se

retiene la correspondiente a las dos observaciones más cercanas (O1- O2)
Se determina si alguna de las dos observaciones puede ser sustituida por el

centroide con la observación Ok+1
Si la distancia de Ok+1 a la observación más cercana Ok es mayor que la

distancia entre las dos observaciones mas cercanas, Ok+1 sustituye a O1 o a
O2 (la mas cercana)
2. Formación de los nuevos grupos
-Se calcula la distancia de cada observación a los k centroides y se asigna el más

cercano.
3.Se recalculan los centroides y se vuelve a asignar las observaciones.
El proceso finaliza cuando las observaciones no cambian de grupo o cuando se

alcanza un determinado número de interacciones pre-establecidas
JERÁRQUICO VS NO JERÁQUICO
• Depende de los objetivos de estudio y de las propiedades que requiere cada

método
• Lo ideal es el enfoque jerárquico inicial y complementarlo a un enfoque no

jerárquico porque :
El jerárquico inicial determina cuál es el número de grupos y los centroides
iniciales de posterior análisis no jerárquico.
El análisis jerárquico maximiza la homogeneidad dentro de grupos y la

heterogeneidad entre gupos.
TECNICAS DE EVALUACIÓN DEL CLUSTER
Para cualquier análisis cluster se debe partir del número de grupos con el cual se
quedará al final el análisis.
Para toma una decisión acertada se tienen los siguientes parámetros:

Tecnica Indica Se busca que:
homogeneidad clusters
Distancia de conglomerados (DC) Pequeño
fusionados
Tasa de variación del coeficiente de
conglomeración:El coef de congl omera ci ón pérdida homogeneidad Pequeño
refl eja l a di s tanci a a l a que es taba n l os en la fusion
grupos fus i ona dos en ca da etapa .
Raiz Cuadrada de la media de las homogeneidad del

Pequeño
distancias del nuevo cluster (RC) nuevo cluster
pérdida homogeneidad
R^2 semiparcial (R2S) Pequeño
en la fusión
heterogeneidad entre
R cuadrado (R2) Grande
clusters
Ejemplo:
Para este ejemplo, se considera la base de datos Museo que contiene la siguiente
información:
Encuesta a 25 niños al salir de un museo, las respuestas a las preguntas van del 1 al
7 , donde 7 es totalmente de acuerdo y 1 es totalmente en desacuerdo.
La base de datos contiene la siguiente información:
1. Niño_Museo: Número con el que se identifica al niño.

2. Sexo: 1 masculino, 0 femenino
3. Edad: Edad del niño encuestado.
4. Divertido: ¿Es divertido ir al museo?
5. Compro_prod:Siempre que asisto pido que me compren algún objeto de la tienda
del museo.
6. Aprendo: Aprendo más al ir al museo que en la escuela.
7. Excursion: Prefiero ir al museo en excursiones de la escuela
8. Quita_tiempo: El museo me quita tiempo para jugar.
9. No_interesa: No me interesa ir al museo.
10. Gusto_Museo: 1=Si, 0=No
Realizar un análisis rápido de las variables.
Seleccionar el nodo Cluster y arrastrarlo para crear un flujo de proceso.

Elección de variables a
considerar en el cluster
Rol de las variables del cluster
En caso de no tener misma
Jerárquico= escala
Automático
No jerárquico=
Especificado
Técnica elegida
para hacer el
cluster
Para el ejercicio con la base Museo utilizar modo jerárquico y técnica

de centroide y excluir variables ID, edad y binarias.
Muestra la lista de
Distribución de las estadísticas
variables por cluster descriptivas por cluster
Muestra el Muestra el output de

tamaño de cada los procedimientos de
cluster formado SAS
El numero de clusters es
revelado por los pico
entre el criterio CCC
contra el numero de
clusters.
En este caso podemos

observar que las
variables se distribuyen
en 3 CCC y 6 Clusters
Hacemos un análisis No Jerárquico cambiando a número de clusters
especificado por el usuario.
En este caso elegiremos 6.
Obtenemos ahora un tota de 6 clusters.
Cerramos la ventana de resultados, en la ventana de
propiedades del nodo, seleccionamos «Datos Exportados»
Seleccionamos los datos de entrenamiento y luego explorar.

Podemos graficar los clusters con ayuda de la herramienta de gráfico de
dispersión.

5 TecnicasMineria (Cluster)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

5 TecnicasMineria (Cluster)

Cargado por

Copyright:

Formatos disponibles

Minería de Datos:

• Forma parte del análisis NO supervisado y se basa en las similitudes de las

• Análisis "taxonómico" con fines exploratorios o confirmatorios.

• Cambio (simplificación) de la dimensión de los datos: agrupación de

 Cada grupo debe ser homogéneo

1. Selección de la muestra: Se cuenta con información de n casos y k variables

2. Selección y transformación de variables a utilizar.

4. Se crean los grupos de acuerdo a la medida de distancia mediante el método

5. Se describen los grupos obtenidos y se comparan unos con otros

• Distancia city block o 𝐷= (𝑥𝑖𝑝 −𝑥𝑗𝑝 )

* Se realiza una tabla cruzada de frecuencias entre dos registros, obteniendo

𝑎+𝑏+𝑐+𝑑 ∗ 𝑏+𝑐 − 𝑏−𝑐 2

Distancias: Dij= 2 + 1 = 1.73205

1+2+1+0 ∗ 2+1 − 2−1 2

Inicialmente cada caso es un grupo en sí mismo y se van fusionando sucesivamente

Inicialmente se establece el número de grupos y cada caso se asigna a uno

Se pueden utilizar varios métodos entre los q destacan: vecino más

- Se define el número de k grupos

Se utilizan las k primeras observaciones del fichero como centroides de partida.

Se calculan las distancias entre las k observaciones (matriz de distancias) y se

Se determina si alguna de las dos observaciones puede ser sustituida por el

Si la distancia de Ok+1 a la observación más cercana Ok es mayor que la

-Se calcula la distancia de cada observación a los k centroides y se asigna el más

3.Se recalculan los centroides y se vuelve a asignar las observaciones.

El proceso finaliza cuando las observaciones no cambian de grupo o cuando se

• Depende de los objetivos de estudio y de las propiedades que requiere cada

• Lo ideal es el enfoque jerárquico inicial y complementarlo a un enfoque no

El análisis jerárquico maximiza la homogeneidad dentro de grupos y la

Para toma una decisión acertada se tienen los siguientes parámetros:

Raiz Cuadrada de la media de las homogeneidad del

1. Niño_Museo: Número con el que se identifica al niño.

Seleccionar el nodo Cluster y arrastrarlo para crear un flujo de proceso.

Para el ejercicio con la base Museo utilizar modo jerárquico y técnica

Muestra el Muestra el output de

En este caso podemos

Seleccionamos los datos de entrenamiento y luego explorar.

También podría gustarte