Está en la página 1de 47

Doctorado en Ciencias Económicas (FCE-UNC)

Estadística Aplicada a la Investigación

Profesora: Dra. Hebe Goldenhersch


Alumnos: Lic. Juan Munt- Lic. Jeremías Utrera

Octubre 2010
• Definición de Análisis de Cluster
• Métodos Jerárquicos
 Problema Matemático
 Ejemplo de Aplicación en Marketing.

• Métodos no jerárquicos: K-medias.


 Problema Matemático
 Ejemplo de Aplicación al estudio del delito.

• Ejercicio en SPSS, variables sociales de provincias


argentinas.
 Objeto: agrupar elementos en grupos homogéneos
en función de las similitudes o similaridades entre
ellos. También conocido como método de
clasificación automática o no supervisada, y de
reconocimiento de patrones sin supervisión.
 Su finalidad es revelar concentraciones en los
datos(casos o variables) para su agrupamiento
eficiente en clusters (o conglomerados) según su
homogeneidad.
 Los agrupamientos pueden realizarse tanto para
variables cuantitativas como cualitativas.
 El número de clusters no es conocido de antemano y
los grupos se crean en función a la naturaleza de los
datos. “Técnica de clasificación post hoc.”
 Si las variables están en escala muy diferentes será
necesario estandarizar previamente las variables.
 Tratar la problemática de los valores atípicos o
perdidos.
 Menor correlación posible entre las variables.
 La solución por distintos métodos no tiene porque
ser única pero no debe ser contradictoria.
 Los conglomerados no deben variar mucho de
muestra en muestra, y se les debe poder asignar un
sentido conceptual.
• La caracterización de los individuos según las variables
consideradas por el investigador, se diagraman en una matriz de
datos.
• Las filas resumen los valores asumidos por un individuo i en cada
una de las variables.
• Las columnas resumen los valores asumidos por todos los
individuos para una variable determinada.

 a11 a12 a13 a14 a1m 


a a22 a23 a24 a2 m 
 21
 a31 a32 a33 a34 a3m   A(aij )
 
 a41 a42 a43 a44 a4 m 
 an1 an 2 an 3 an 4 anm 
• Problema: Necesitamos entonces pasar de una
matriz de datos a definir distancia entre
individuos.
• Para ello, primero diremos que estamos en
presencia de un “Espacio Métrico” (Rm), de
dimensión m. (N° de coordenadas=variables en
consideración para cada individuo).
• Cada individuo representa entonces un punto en el
Espacio Rm, y mediante la utilización de alguna
métrica podremos asociar una distancia.
• ¿Qué es una métrica?
Si X es un Conjunto d: X*X  R ≥ 0 si satisface las
siguientes condiciones:
 d(x,y)≥ 0
 d(x,y)=d(y,x)
 d(x,x)=0
 Si se cumple la desigualdad triangular:
d(x,y)≤d(x,z) + d(z,y)
 La finalidad básica del análisis de
conglomerados es generar clasificaciones
jerarquizadas para definir el nivel de Jerarquía
mas apropiado.
 Para ello necesitaremos conocer el concepto de
Jerarquía Indexada y de Distancia
Ultramétrica.
Diremos que un subconjunto H del conjunto de partes de
F es Jerarquía de F si satisface dos axiomas:

 Axioma de Intersección: que concluye que dado


dos elementos; o son disjuntos o uno esta contenido en
otro.
 Axioma de Reunión: H esta conformado por la
Unión de los elementos que la conforman.
 Conclusión: Si “H” es una Jerarquía total, entonces
los subconjuntos de “H” son conglomerados, clusters
o clases.
• Para definir una jerarquía indexada que permite
cuantificar las diferencias entre las clases o grupos
de una Jerarquía H, se define el Índice de
Jerarquía:
• D: H  R+ U {0}= [0, ∞)
• h D (h)
• Este índice no es exactamente una medida de
disimilitud , pero si podemos convertirlo mediante
una definición:
• “LA DISIMILITUD ENTRE DOS INDIVIDUOS ES
EL ÍNDICE DE JERARQUÍA ASOCIADO A LA
MENOR CLASE QUE LOS CONTIENE”
Para definir una ultramétrica cambiamos del
concepto de métrica la desigualdad triangular
por el axioma ultramétrico:
 u(x,y)≤ sup{d(x,z), d(z,y)}

 Esto nos permite arribar al algoritmo


fundamental de clasificación.
• Distancias: Siendo la mas común la distancia
euclídea.
• Coeficientes de asociación: Concordancia
entre dos columnas.
• Coeficientes angulares: Mide independencia
entre dos vectores. El mas común es de
coeficiente de correlación.
• Coeficientes de similitud probabilística:
miden la homogeneidad del sistema por
particiones.
 Éstos dependen de las diferentes formas de llevar a
cabo la agrupación entre los individuos, es decir
dependen del algoritmo seleccionado.

• Métodos aglomerativos- divisivos


• Métodos jerárquicos- no jerárquicos
• Métodos solapados-exclusivos (los primeros admiten que en
una parte del proceso un individuo permanezca a dos
grupos )
• Métodos secuenciales-simultáneos
• Métodos monotéticos – politéticos (una variable, varias
variables)
• Métodos directos-iterativos
• Métodos ponderados- no ponderados (igual importancia o
no a las variables)
• Métodos adaptativos- no adaptativos (aprende o no)
Aquí plantearemos tres casos:

 Método de unión simple o vecino


mas próximo.

 Método del Centroide

 Método de Ward o de mínima


varianza
• Éste método busca la mayor similitud entre los
elementos.
• Los dos primeros casos que se combinan son
aquellos cuya distancia es la menor. La
distancia entre el nuevo conglomerado y un
caso individual se calcula como la mínima
distancia entre el caso individual y un caso del
conglomerado. La distancia entre dos casos que
no han sido unidos no cambia. En cada caso la
distancia entre dos conglomerados se toma
entre la de los dos puntos mas cercanos.
 Los dos primeros casos que se combinan son
aquellos cuya distancia es la menor. La
distancia entre dos clusters se calcula como la
distancia entre sus medias.
• Para este método se considera la distancia euclidea
al cuadrado como medida de disimilitud. Se define
una masa del total y una varianza, como también
así una masa y varianza para los grupos.

• Se define un término que permite reducir el valor


de la varianza, utilizando la métrica seleccionada.

• Hacer conglomerados con este método consiste en


encontrar los individuos xi y xj con la condición de
que hagan mínimo el incremento de la varianza.
Por tanto, puede considerarse al incremento de la
varianza como nuevo índice de disimilitud.
Encuesta de preferencias al comprar para segmentar consumidores

• Se valua entre 1-7 en una escala de Agrado – Desagrado a:

– V1: Comprar es divertido


– V2: Comprar es malo para el presupuesto
– V3: Combino comprar con salir a comer fuera
– V4: Trato de conseguir las gangas cuando mientras compro
– V5: No me interesa comprar
– V6: Puedes ahorrar mucho dinero comparando precios

• ¿Es recomendable estandarizar?


• Se trabaja con Distancia Euclídea y método de Ward

Fuente: Cluster Analysis-Application Segmenting Consumers on the basis of Attitudes to Shopping. Prof. K.
Sudhir Yale SOM, Fall 2001 19
Distance
312.95

208.63

104.32

0.00
5 17 16 9 7 13 4 8 1 10 18 20 2 6 12 3 15 11 14 19

Observations

20
Cluster Centroids
Variable Cluster1 Cluster2 Cluster3 Grand centrd
V1 3.6250 5.7500 1.7500 4.1000
V2 6.1250 3.6250 3.2500 4.5500
V3 3.2500 6.1250 2.0000 4.1500
V4 6.1250 3.1250 3.2500 4.3500
V5 3.3750 1.6250 6.0000 3.2000
V6 5.8750 4.1250 3.2500 4.6500

V1: Comprar es divertido


V2: Comprar es malo para el presupuesto
V3: Combino comprar con salir a comer fuera
V4: Trato de conseguir las gangas cuando mientras compro
V5: No me interesa comprar
V6: Puedes ahorrar mucho dinero comparando precios

22
Centroids of Clusters

7 V1: Comprar es divertido

6 V2: Comprar es malo para el


presupuesto
5
V3: Combino comprar con salir a comer
Centroid

4 Cluster1
fuera
Cluster2
3 Cluster3 V4: Trato de conseguir las gangas
cuando mientras compro
2
V5: No me interesa comprar
1
V6: Puedes ahorrar mucho dinero
0 comparando precios
V1 V2 V3 V4 V5 V6

• Cluster 1: Comprador economizador


• Cluster 2: Le importa y disfruta comprar
• Cluster 3: Comprador apático 23
 Alude a la no estructura vertical de dependencia entre
grupos

 Precisa que el investigador elija de antemano el # de clusters

 La asignación de individuos a clusters requiere definir algún


criterio a optimizar

 Normalmente, criterio de varianza: Minimizar Var(dentro


de c/grupo)

 El método más usados: algoritmo de K – medias


El algoritmo de K – medias. Planteo matemático.

 Criterio de optimalidad: Minimizar Suma de


Cuadrados dentro de Grupos

SCDG   xijg  x jg 


G p ng
2

g 1 j 1 i 1

• En otros términos
G p
min SCDG  min  ng s 2jg
g 1 j 1
El algoritmo de K – medias. Planteo matemático.
 Análogamente, podemos definir un criterio tomando
como distancia la norma euclídea

min  xig  xg  xig  xg   min  d 2 i, g 


G ng G ng
T

g 1 i 1 g 1 i 1

• En base a lo anterior, surge el criterio de la traza:


 G ng T 
min tr W   min tr   xig  xg xig  xg  
 g 1 i 1 
• Ambos criterios son equivalentes:
min SCDG  min tr W 
El algoritmo de K – medias.

 Paso 1: Partir de una asignación inicial de K grupos y


sus medias (SPSS toma K puntos más distanciados).
 Paso 2: Comprobar si moviendo algún elemento entre
grupos se reduce tr(W).
 Paso 3: Si es posible reducir tr(W) moviendo un
elemento, hacerlo y recalcular la media de los grupos
afectados. Si no es posible, terminar.
El algoritmo de K – medias. Puntos a considerar.

 El resultado del algoritmo puede depender de la


asignación inicial y del orden de los elementos. Repetir
el algoritmo con distintas asignaciones iniciales.

 El criterio de la traza no es invariante ante cambios de


escala, entonces: es recomendable estandarizar cuando
variables están en unidades distintas, pero no cuando
las variables están en igual unidad
El algoritmo de K – medias. Puntos a considerar.
• El número de grupos: ¿Cómo elegir K?
– El criterio del analista es importante: ¿Qué número de clusters
tiene sentido y como se puede interpretar cada grupo?
– Un criterio para orientar

SDCG( K )  SDCG( K  1)
Fp; p ( n K 1) 
SDCG( K  1) /( n  K  1)

En la práctica se suele considerar significativo F > 10


• Trabajo: “IDENTIFICACIÓN Y DETECCION DE
PATRONES DELICTIVOS”.
• Perversi (et al) IX Workshop de Investigadores en
Ciencias de la Computación (2007)

Objetivos:

• Armar los conglomerados relevantes en función a


los homicidios cometidos.

• Analizar los datos obtenidos y validarlos con los


usuarios.
 Registro: Se cuenta con una base de 1810
registros de “homicidios dolosos” acontecidos
en Argentina en 2005.

 Datos: Provincia- Día-Mes- hora-lugar-arma-


existencia de otro delito.
 Se cuenta con datos para las 23 provincias
Argentinas más la Ciudad Autónoma de Buenos
Aires, de las siguientes variables:

 % Población con NBI;


 % Mortalidad Infantil;
 Esperanza de Vida;
 Años de Educación Formal.

 Buscamos que la base nos permita identificar


grupos con distinto nivel de vulnerabilidad social
Cluster 1 Cluster 2 Cluster 3
Media Vulnerabilidad Baja Vulnerabilidad Alta Vulnerabilidad
BUENOS AIRES CAPITAL CHACO
CATAMARCA CORDOBA CORRIENTES
CHUBUT LA PAMPA FORMOSA
ENTRE RIOS SANTA CRUZ JUJUY
LA RIOJA TIERRA DEL FUEGO MISIONES
MENDOZA SALTA
NEUQUÉN SANTIAGO DEL ESTERO
RIO NEGRO
SAN JUAN
SAN LUIS
SANTA FE
TUCUMAN
Cluster 1 Cluster 2 Cluster 3
Media Vulnerabilidad Baja Vulnerabilidad Alta Vulnerabilidad
CATAMARCA BUENOS AIRES CHACO
LA RIOJA CAPITAL CORRIENTES
MISIONES CHUBUT FORMOSA
TUCUMAN CORDOBA JUJUY
ENTRE RIOS SALTA
LA PAMPA SANTIAGO DEL ESTERO
MENDOZA
NEUQUÉN
RIO NEGRO
SAN JUAN
SAN LUIS
SANTA CRUZ
SANTA FE
TIERRA DEL FUEGO
• Paso 1: Cargar datos en SPSS (Ojo el rango)
• Paso 2: Ir a Analyze\Classify\Hierarchical Cluster

• Paso 3: Configurar el Análisis


• Paso 4: Estadística
• Paso 5: Gráfico
• Paso 6: Método

También podría gustarte