Está en la página 1de 26

Minería de Datos:

Cluster
Act. Sonia Yoselin Ovando Retiz
OBJETIVOS BÁSICOS:

• Forma parte del análisis NO supervisado y se basa en las similitudes de las


variables de entrada.
• Sirve para realizar dos tares fundamentales:

• Análisis "taxonómico" con fines exploratorios o confirmatorios.


(Clasificación)

• Cambio (simplificación) de la dimensión de los datos: agrupación de


objetos individuales en nuevas estructuras grupales.

 Cada grupo debe ser homogéneo


 Los grupos deben ser lo más distintos posible
• Es útil también como un paso para un modelo predictivo. Por ejemplo: ciertos
clientes pueden clasificarse en grupos homogéneos y luego un modelo puede
predecir a los miembros de un cluster basado en las características
• ya establecidas.
PASOS PARA EL ANÁLISIS

1. Selección de la muestra: Se cuenta con información de n casos y k variables

2. Selección y transformación de variables a utilizar.

3. Se establece una distancia o similaridad que indique en qué medida cada par d
observaciones se parece entre sí. Se recomienda estandarizar la distancia.
En este paso se realiza una Matriz de distancias (obteniendo las distancias
entre todas las posibles combinaciones de parejas de las variables a analizar.

4. Se crean los grupos de acuerdo a la medida de distancia mediante el método


jerárquico o de k-means.

5. Se describen los grupos obtenidos y se comparan unos con otros

6. Se valida el análisis.
MEDIDAS PARA CALCULAR
LA DISTANCIA

𝐷= (𝑥𝑖𝑝 −𝑥𝑗𝑝 )2
• Distancia Euclidiana

𝐷= (𝑥𝑖𝑝 −𝑥𝑗𝑝 )2
• Distancia al cuadrado:
menos exigente que la
anterior
1
𝐷=[ (𝑥𝑖𝑝 −𝑥𝑗𝑝 )2 ] 𝑛
• Distancia de Minkowski:

• Distancia city block o 𝐷= (𝑥𝑖𝑝 −𝑥𝑗𝑝 )


Manhatan:
DISTANCIA PARA VARIABLES BIDIMENCIONALES (0,1)

* Se realiza una tabla cruzada de frecuencias entre dos registros, obteniendo


los valores a,b,c,d para la aplicación de las fórmulas siguientes.

Registro2: 0 Registro2: 1
Registro1: 0 a b
Registro1: 1 c d

Distancias: 𝐷 = 𝑏+𝑐

𝑏−𝑐 2
*Diferencia de tamaño: D= 𝑎+𝑏+𝑐+𝑑 2

𝑏∗𝑐
*Diferencia de configuración: D = 𝑎+𝑏+𝑐+𝑑 2

𝑎+𝑏+𝑐+𝑑 ∗ 𝑏+𝑐 − 𝑏−𝑐 2


*Diferencia de forma: D= 𝑎+𝑏+𝑐+𝑑 2
Trabajador Ecologista Deportista Soltero Esudios
Joel 1 1 0 0
Ejemplo: Ismael 0 1 1 1
Carla 1 1 0 1
Juan 0 0 0 1
Martha 1 1 1 0

Tabla Cruzada
Joel
de frecuencias
1 0
Ismael 1 1a 2b
0 1c 0d

Distancias: Dij= 2 + 1 = 1.73205

2−1 2
*Diferencia de tamaño: D= 1+2+1+0 2
= 0.0625

2∗1
*Diferencia de configuración: D = = 0.125
4 2

1+2+1+0 ∗ 2+1 − 2−1 2


*Diferencia de forma: D= = 0.6875
4 2
MÉTODOS DE ANÁLISIS CLUSTER

• Análisis jerárquico:

Inicialmente cada caso es un grupo en sí mismo y se van fusionando sucesivamente


grupos cercanos hasta que todos los individuos compartan un solo grupo.
Se pueden utilizar varios métodos entre los q destacan el método del centroide,
vinculación promedio y Ward.
• Análisis no jerárquico:

Inicialmente se establece el número de grupos y cada caso se asigna a uno


de ellos.

Se pueden utilizar varios métodos entre los q destacan: vecino más


cercano, vecino más lejano
Método del centroide:
• Se calcula la matriz de distancias.
• Comienza uniendo las dos observaciones más cercanas.
• El grupo se sustituye por una observación que lo representa(centroide) y en el que
todas las variables toman un valor medio.
• Se vuelve a calcular la matriz de distancias, se unen otro par de observaciones y
se recalcula la matriz.
• Así hasta que todas las observaciones quedan en un solo grupo.
Método No-jerárquico:

- Se define el número de k grupos


- Cada observación es asignada a un grupo
- Minimiza la homogeneidad dentro de los grupos
- Maximiza la heterogeneidd entre grupos.

- ETAPAS:
1. Determinar los centroides iniciales para los k grupos
2. Formación de los grupos
3. Recalcular los centroides y formar grupos hasta lograr la estabilidad.
1. Determinar los centroides iniciales para los k grupos

Se utilizan las k primeras observaciones del fichero como centroides de partida.

Se calculan las distancias entre las k observaciones (matriz de distancias) y se


retiene la correspondiente a las dos observaciones más cercanas (O1- O2)

Se determina si alguna de las dos observaciones puede ser sustituida por el


centroide con la observación Ok+1

Si la distancia de Ok+1 a la observación más cercana Ok es mayor que la


distancia entre las dos observaciones mas cercanas, Ok+1 sustituye a O1 o a
O2 (la mas cercana)
2. Formación de los nuevos grupos

-Se calcula la distancia de cada observación a los k centroides y se asigna el más


cercano.

3.Se recalculan los centroides y se vuelve a asignar las observaciones.

El proceso finaliza cuando las observaciones no cambian de grupo o cuando se


alcanza un determinado número de interacciones pre-establecidas
JERÁRQUICO VS NO JERÁQUICO

• Depende de los objetivos de estudio y de las propiedades que requiere cada


método

• Lo ideal es el enfoque jerárquico inicial y complementarlo a un enfoque no


jerárquico porque :
El jerárquico inicial determina cuál es el número de grupos y los centroides
iniciales de posterior análisis no jerárquico.

El análisis jerárquico maximiza la homogeneidad dentro de grupos y la


heterogeneidad entre gupos.
TECNICAS DE EVALUACIÓN DEL CLUSTER

Para cualquier análisis cluster se debe partir del número de grupos con el cual se
quedará al final el análisis.

Para toma una decisión acertada se tienen los siguientes parámetros:


Tecnica Indica Se busca que:
homogeneidad clusters
Distancia de conglomerados (DC) Pequeño
fusionados
Tasa de variación del coeficiente de
conglomeración:El coef de congl omera ci ón pérdida homogeneidad Pequeño
refl eja l a di s tanci a a l a que es taba n l os en la fusion
grupos fus i ona dos en ca da etapa .

Raiz Cuadrada de la media de las homogeneidad del


Pequeño
distancias del nuevo cluster (RC) nuevo cluster
pérdida homogeneidad
R^2 semiparcial (R2S) Pequeño
en la fusión
heterogeneidad entre
R cuadrado (R2) Grande
clusters

Ejemplo:
Para este ejemplo, se considera la base de datos Museo que contiene la siguiente
información:

Encuesta a 25 niños al salir de un museo, las respuestas a las preguntas van del 1 al
7 , donde 7 es totalmente de acuerdo y 1 es totalmente en desacuerdo.
La base de datos contiene la siguiente información:

1. Niño_Museo: Número con el que se identifica al niño.


2. Sexo: 1 masculino, 0 femenino
3. Edad: Edad del niño encuestado.
4. Divertido: ¿Es divertido ir al museo?
5. Compro_prod:Siempre que asisto pido que me compren algún objeto de la tienda
del museo.
6. Aprendo: Aprendo más al ir al museo que en la escuela.
7. Excursion: Prefiero ir al museo en excursiones de la escuela
8. Quita_tiempo: El museo me quita tiempo para jugar.
9. No_interesa: No me interesa ir al museo.
10. Gusto_Museo: 1=Si, 0=No
Realizar un análisis rápido de las variables.

Seleccionar el nodo Cluster y arrastrarlo para crear un flujo de proceso.


Elección de variables a
considerar en el cluster
Rol de las variables del cluster
En caso de no tener misma
Jerárquico= escala
Automático
No jerárquico=
Especificado

Técnica elegida
para hacer el
cluster

Para el ejercicio con la base Museo utilizar modo jerárquico y técnica


de centroide y excluir variables ID, edad y binarias.
Muestra la lista de
Distribución de las estadísticas
variables por cluster descriptivas por cluster

Muestra el Muestra el output de


tamaño de cada los procedimientos de
cluster formado SAS
El numero de clusters es
revelado por los pico
entre el criterio CCC
contra el numero de
clusters.

En este caso podemos


observar que las
variables se distribuyen
en 3 CCC y 6 Clusters
Hacemos un análisis No Jerárquico cambiando a número de clusters
especificado por el usuario.
En este caso elegiremos 6.
Obtenemos ahora un tota de 6 clusters.
Cerramos la ventana de resultados, en la ventana de
propiedades del nodo, seleccionamos «Datos Exportados»

Seleccionamos los datos de entrenamiento y luego explorar.


Podemos graficar los clusters con ayuda de la herramienta de gráfico de
dispersión.

También podría gustarte