Está en la página 1de 61

Dr.

Cristóbal Fernández Robin &
Carlos Toulá

Análisis Cluster - Investigación de Mercados - Universidad Técnica Federico Santa María

ÍNDICE
Índice…………………………………………………………………………………………..........2
Introducción…………………………………………………………………………………………3
Datos y Desemejanzas…………………………………………………………………………….4
Matrices Desemejantes…………………………………………………………………...5
Métodos Repartidores……………………………………………………………………………11
K-Means…………………………………………………………………………………...11
Repartición alrededor de los Medoids……………………………………………........13
Grandes Aplicaciones del Clustering…………………………………………….........20
Análisis Fuzzy…………………………………………………………………………….23
Métodos Jerárquicos……………………………………………………………………………..29
Anidando en Conglomerados…………………………………………………………...29
Análisis Divisivo…………………………………………………………………………..33
Análisis Monothetic………………………………………………………………………36
Agrupaciones Jerárquicas Model-Based………………………………………………42
Conclusiones……………………………………………………………………………………...50
Bibliografía…………………………………………………………………………………………51
Apéndice…………………………………………………………………………………………...52

Análisis Cluster - Investigación de Mercados - Universidad Técnica Federico Santa María

INTRODUCCIÓN
El análisis del racimo (Cluster), es una búsqueda de grupos (clusters) en los datos, de una
manera tal que los objetos que pertenecen al mismo racimo se asemejen, mientras que
los objetos en diversos racimos sean disímiles. En dos o tres dimensiones, los racimos
pueden ser visualizados. Con más de tres dimensiones, o en el caso de los datos de la
desemejanza (véase abajo), necesitamos una cierta clase de ayuda analítica.
Generalmente hablando, los algoritmos que agrupan datos, caen en dos categorías:
1. Algoritmos Repartidores: Un algoritmo que reparte, describe un método que divide los
datos en los k racimos, donde el número entero k necesita ser especificado por el usuario.
Típicamente, el usuario corre el algoritmo para un rango de k-valores. Para cada k, el
algoritmo realiza la agrupación y también rinde un "índice de la calidad", el cual permite
que el usuario seleccione el "mejor" valor de k. Los algoritmos de este tipo, descritos en
este trabajo, son utilizados por las funciones Kmeans, Pam, Clara y Fanny.
2. Algoritmos Jerárquicos: Un algoritmo jerárquico, describe un método que rinde una
jerarquía entera de las agrupaciones, para el grupo de datos entregado. Los Métodos
Aglomerativos, comienzan con la situación en donde cada objeto en el grupo de datos
forma su propio pequeño racimo y, después sucesivamente combinan racimos hasta que
permanece solamente un racimo grande que es el grupo de datos entero. Las funciones
Agnes, Mclust y Hclust, usan métodos aglomerativos. Los Métodos Divisivos comienzan
considerando el grupo de datos entero (como un racimo), y después dividen los racimos
hasta que cada objeto está separado. Los Algoritmos de este tipo se utilizan en las
funciones Diana y Mona.
Las funciones de agrupación en racimos: Daisy, Pam, Clara, Fanny, Agnes, Diana y
Mona, hacen una biblioteca del racimo, la cual implementa los algoritmos descritos en
Kaufman & Rousseeuw (1990).

Análisis Cluster - Investigación de Mercados - Universidad Técnica Federico Santa María

Las funciones Kmeans. 2.Universidad Técnica Federico Santa María . Matriz de desemejanzas de n x n: Donde d (i.j) = d (j. DATOS Y DESEMEJANZAS Los datos para las agrupaciones.i) mide la "diferencia" o “disimilitud” entre los objetos i y j. pueden tener cualquiera de las siguientes estructuras: 1. Mclust y Hclust. Análisis Cluster .Investigación de Mercados . Matriz de datos de n x p: Donde las filas representan los objetos y las columnas son las variables. Tienen una sintaxis levemente distinta que las funciones de la biblioteca del racimo. no son parte de la biblioteca del racimo. Esta clase de datos ocurre frecuentemente en las ciencias sociales y en la comercialización.

MATRICES DE DESEMEJANZAS La función Daisy construye una matriz de desemejanza. funcionan encendiendo una matriz de desemejanza. incluso cuando los diversos tipos ocurren en el mismo grupo de datos. solamente los siguientes tres axiomas de una métrica están satisfechos: Computación Análisis Cluster . Clara. Diana y Agnes. nominal. Las funciones Kmeans. Las funciones Pam. Si los datos consisten en matriz de datos de n x p. con atributos adicionales dando información tal como el número de observaciones. es realmente un vector que representa los elementos debajo-diagonales de tal matriz. Podemos utilizar a veces un métrico real (función de distancia) entre los objetos. ya sea de datos o de desemejanza. Comparado con la más vieja función. funcionan sobre una matriz de datos. pero una función de desemejanza no es necesariamente una métrica. “Dist”.Investigación de Mercados . Mona y Mclust. capítulo 1). tomarán cualquier matriz. deben ser variables numéricas. binario asimétrico). La función Hclust opera sobre una matriz de desemejanza. el algoritmo primero construye la matriz correspondiente de la desemejanza. cuyas entradas. (Aunque nos referimos al objeto producido por el Daisy o Dist como una matriz de disimilitudes. A menudo. Fanny. Daisy acepta otros tipos variables (por ejemplo. ordinal. El algoritmo usado por Daisy se describe por completo en Kaufman y Rousseeuw (1990.) Desemejanzas La desemejanza entre dos objetos mide "cuan diferentes" son.Universidad Técnica Federico Santa María .Muchos de los algoritmos de cluster considerados aquí.

como por ejemplo: Se observa que la opción de las unidades de la medida. El argumento del tipo Daisy. Los ejemplos típicos son: temperatura. depende del tipo que sean las variables originales. peso. Por defecto. se tratan como variables ordinales. altura. Si todas las variables fueran Intervalo-escalada. se puede utilizar para especificar que una columna se debe tratar de una manera distinta que el defecto. entonces los datos necesitan ser estandardizados. Análisis Cluster . y energía. La variable con la dispersión más grande. afecta fuertemente la agrupación resultante. Si las variables son consideradas igualmente importantes. 1. Las variables lntervalo-escaladas Las variables Intervalo-escaladas. las columnas numéricas son tratadas como variables intervalo-escaladas.Investigación de Mercados . podemos utilizar una métrica real.Cómo computamos la desemejanza entre dos objetos. son medidas continuas en una escala lineal.Universidad Técnica Federico Santa María . los factores se tratan como variables nominales y los factores pedidos. tendrá el impacto mayor en la agrupación por racimos.

visibles en la agrupación). las z-cuentas de los afloramientos. la desviación absoluta mala en vez de la desviación estándar común. 2.Primero. pero no la magnitud real. Por supuesto. se computan las desemejanzas como se muestra a continuación: Análisis Cluster . tales como la desviación absoluta mediana (la función enojada). hay medidas más robustas de dispersión. La ventaja de usar una medida robusta de dispersión es que. o donde solamente se sabe el orden. son medidas continuas en una escala desconocida. el efecto de afloramientos se reduce algo. Luego. Las variables ordinales continuas Las variables ordinales continuas.Investigación de Mercados . no llegan a ser demasiado pequeñas. por lo tanto. porque el anterior es más robusto: puesto que las desviaciones no se ajustan. las medidas estandarizadas son definidas así: Aquí hemos utilizado el Sƒ.Universidad Técnica Federico Santa María . por lo tanto. se definen: Y luego. los afloramientos siguen siendo perceptibles (y.

Las variables nominales Las variables nominales tienen M valores posibles. que no se piden. iguales al tiempo. 5. La variable ordinal discreta Una variable ordinal discreta. multiplique la población por ese mismo cuociente. Hay diversas maneras de computar las desemejanzas para las variables cocienteescaladas: 1.Universidad Técnica Federico Santa María . 4.Investigación de Mercados . La desemejanza entre los objetos i y j. Simplemente como variables intervalo-escaladas. Con estos intervalos modelo. 3. Primero transformando los datos (quizás tomando logaritmos). aunque esto no se recomienda porque puede torcer la escala medida. Las desemejanzas se computan de la misma manera que para las variables ordinales continuas. tiene M posibles valores (cuentas) las cuales son ordenadas.3. en una escala no lineal. Las variables Cuociente-escaladas Las variables Cuociente-escaladas son medidas continuas positivas. tal como una escala exponencial. Como datos ordinales continuos. se define generalmente como: Análisis Cluster . Un ejemplo sería el crecimiento de una población bacteriana (con una gran función de crecimiento). y en seguida tratando los resultados como variables intervalo-escaladas. 2.

Las variables binarias asimétricas Las variables binarias asimétricas tienen dos valores posibles. por lo tanto. O y 1. uno de los cuales lleva más importancia que el otro.Universidad Técnica Federico Santa María . Las variables binarias simétricas Las variables binarias simétricas tienen dos valores posibles. que son importantes igualdades (tal como hombre y mujer o. El resultado más significativo se cifra como 1 y el resultado menos significativo como 0. 6. y 0 para su ausencia. También consideremos la tabla de la contingencia de los objetos i y j: Podemos entonces reescribir el Coeficiente Emparejador Simple como: 7. La desemejanza entre i y j se define entonces como: Análisis Cluster . vertebrado e invertebrado). Típicamente 1 está parado para la presencia de cierta cualidad (por ejemplo. una enfermedad particular).Investigación de Mercados . utilizamos otra vez el Coeficiente Emparejador Simple dado arriba para las variables nominales. Las variables binarias simétricas son variables nominales.Esto se llama Coeficiente Emparejador Simple (Simple Matching Coefficient).

esto se convierte en: El cual es llamado. Las variables de tipo mezcladas Las fórmulas dichas arriba. la tabla de contingencia. el Coeficiente Jaccard (Jaccard Coefficient). Para esta función Daisy se usa la fórmula: Análisis Cluster .Investigación de Mercados . 8. sostienen que las variables de los grupos de datos son del mismo tipo. queremos un método que compute desemejanzas entre los objetos. muchos grupos de datos contienen variables de diferentes tipos.Universidad Técnica Federico Santa María . Por lo tanto. cuando el grupo de datos contiene las p variables que pueden ser de diferentes tipos.Usando de nuevo. Sin embargo.

Investigación de Mercados . donde las filas están en los primeros cinco números enteros. hasta un cierto equilibrio. tal como se presenta a continuación: MÉTODOS REPARTIDORES Los métodos repartidores son métodos que se basan en especificar un número inicial de grupos e iterando.Universidad Técnica Federico Santa María . Análisis Cluster .Ejemplo: Calculando Desemejanzas Como un ejemplo simple para usar el Daisy. calcularemos las disimilitudes para los datos enmarcamos. se logra la reasignación de la observación entre los grupos.

Ejemplo: K-means Los datos resumen fueron utilizados originalmente por Ruspini (1970). El uso del método “least-squares” hace que el K-means sea menos resistente a los afloramientos que los métodos medoid-based. se obtienen los centros de figura iniciales usando el algoritmo que agrupa jerárquicamente. Es una de las más viejas funciones que no tiene un diagrama especial o métodos de resumen.Investigación de Mercados . véase el cuadro 4. El algoritmo K-means alterna entre calcular los centros de figura basados en las calidades de miembro de grupo actuales y reasignar observaciones a los grupos basados en los centros de figura nuevos. La función Kmeans realiza Kmeans agrupaciones.Universidad Técnica Federico Santa María . una matriz de entrada de centros de figura puede ser especificada en lugar del número de centros de figura. es determinada calculando el centro de cada grupo (la versión multidimensional del medio) y asignando cada observación al grupo con el centro de figura. La calidad de miembro de grupo. basándose también en el método de mínimos cuadrados. para ilustrar técnicas que agrupaban en racimos borrosos (Fuzzy Clustering Techniques). Si los valores que comienzan no se especifican. las observaciones están clasificadas como perteneciendo a uno de los k grupos. Los centros de figura son calculados usando el método de los mínimos cuadrados (least-squares) y. con la función Hclust. Alternativamente. son desemejanzas: como lo producido por el Daisy o Dist y el número de racimos.1. Las discusiones principales a los kmeans.K-MEANS Es uno de los métodos repartidores más conocidos. En el algoritmo K-means. las observaciones son asignadas a los centros de figura más cercanos. Utilizaremos el k-means para arracimar las observaciones en cuatro grupos: Análisis Cluster . El grupo de datos consiste en 75 puntos.

Universidad Técnica Federico Santa María .REPARTIENDO ALREDEDOR DE LOS MEDOIDS Análisis Cluster .Investigación de Mercados .

que juntos determinan un conglomerado. deben reducir al mínimo la suma de las desemejanzas de todos los objetos a su medoid más cercano: Análisis Cluster . Algoritmo La función Pam opera sobre una matriz de desemejanza. El Método Pam se describe completamente en el capítulo 2 de Kaufman y de Rousseeuw (1990). Pam primero calculará una matriz de desemejanza.El algoritmo “Partitioning Around Medoids”. es similar al K-means. el Pam tiene las siguientes características: a) Acepta una matriz de desemejanza. en vez de una suma de distancias euclidíanas ajustadas.Investigación de Mercados . Cuando se presenta como una matriz de datos de n x p. El número k de racimos. b) Es más robusto porque reduce al mínimo una suma de desemejanzas. c) Proporciona exhibiciones gráficas nóveles (los diagramas de silueta). hecha a partir del grupo de datos entregado. el objeto i se pone en el racimo Vi. pero los Medoids son usados de mejor manera que los centros de figura. Es decir. Cada objeto entonces se asigna al racimo que corresponde al “Medoid” más cercano.Universidad Técnica Federico Santa María . llamados los “Medoids”. Comparado a la función kmeans. cuando el medoid mvi está más cercano que cualquier otro medoid mw: Los k objetos representativos. El algoritmo computa los k objetos representativos. es un argumento de la función.

se toma el más pequeño de ésos: El racimo B. es llamado el vecino (neighbor) del objeto i. y se calcula así: a(i) = La desemejanza media desde i hasta todos los otros objetos de A Ahora consideremos cualquier racimo C.Universidad Técnica Federico Santa María . 2. Análisis Cluster . tales como el arracimar (encontrado por la función Pam). puede ser exhibida por medio del Diagrama de Silueta (Rousseeuw 1987). Para definir s(i). se realiza el intercambio. Este es el segundo-mejor racimo para el objeto i. diferente de A.B) = b(i). Exhibiciones Gráficas: Diagramas de la Silueta Una partición de los datos.C) = La desemejanza media desde i hasta todos los objetos de C Después que se computa d(i. a saber d(i. Construir: Este paso selecciona secuencialmente los k objetos localizados al centro para ser utilizados como medoids iniciales. el valor silueta s(i) se computa y luego se representa en el diagrama como una barra de longitud s(i). hasta que ninguna función objetivo tenga grandes disminuciones. Intercambiar: Si la función objetivo puede ser reducida intercambiando un objeto seleccionado con un objeto no seleccionado. Se define: d(i. Esto se continúa haciendo. A denota el racimo al cual el objeto i pertenece.El algoritmo procede en dos pasos: 1.C) para todos los racimos C no iguales a A. el cual logra este mínimo.Investigación de Mercados . Para cada objeto i.

Es posible correr el Pam varias veces. El valor s(i) puede ser interpretado como se muestra a continuación: La silueta de un racimo es un diagrama de el s(i).25. alineado en orden decreciente.El valor s(i). uno puede concluir que no se ha encontrado ninguna estructura substancial. La anchura media total de la silueta.Universidad Técnica Federico Santa María . El usuario puede entonces seleccionar ese valor de k.2). muestra las siluetas de todos los racimos siguientes a cada uno. El diagrama de la silueta completo. de todos sus objetos i. cada vez para un k distinto.Investigación de Mercados . del diagrama de la silueta. que rinde la anchura media más alta de la silueta. Exhibiciones Gráficas: Los Clusplots Análisis Cluster . así la calidad de los racimos puede ser comparada. Si la anchura más alta está por debajo de 0. y comparar los diagramas de silueta resultantes (como se muestra en la figura 4.3). es el promedio del s(i) sobre todo los objetos i del set de datos (figura 4. puede ahora ser definido: Vemos que s(i) siempre fluctúa entre -1 y 1.

da el Producto Nacional Bruto (bbp) en 1992 y el porcentaje del Producto Nacional Bruto.Investigación de Mercados . publicado por Eurostat (la agencia europea de estadística). son un extracto del folleto "Cijfers en feiten: Een statistisch portret van de Europese Unie” (1994). usando componentes principales o escalamiento multidimensional.El Clusplot A. Análisis Cluster . Alrededor de cada racimo se dibuja una elipse. Aquí. tanto el método de repartición como el método jerárquico. Para cada país perteneciente a la unión europea durante 1994. Ejemplo: Países Europeos Los grupos de datos europeos. producen la misma división de los países europeos en dos racimos. es un diagrama bivariado que exhibe una partición (el arracimar) de los datos (cuadro 4. con un racimo consistiendo en cuatro países que se orientan más hacia la agricultura y cuyo Producto Nacional Bruto es relativamente bajo.Universidad Técnica Federico Santa María .2). con una indicación de la calidad de miembro del racimo. derivado de la agricultura (landbouw). Todas las observaciones son representadas por los puntos en el diagrama. en relación a los otros países. El clusplot proporciona una proyección conveniente de los puntos en un espacio de dos dimensiones.

Investigación de Mercados .Análisis Cluster .Universidad Técnica Federico Santa María .

Universidad Técnica Federico Santa María .Investigación de Mercados .> plot ( pam ( euro. 2) ) Análisis Cluster .

es un poco más pequeño cuando se forman cinco clusters.2). Ejemplo: Datos Resumen Compararemos los diagramas de la silueta para dos diferentes particiones de los datos de resumen (datos de Ruspini). Primero utilizamos el Pam para repartir los datos en cuatro racimos. Análisis Cluster .Universidad Técnica Federico Santa María .Investigación de Mercados .Figura 4. son puntos en los centros de los cuatro racimos. La segunda llamada al Pam. y toma un objeto intermedio como el quinto medoid. Después de eso. produce los mismos cuatro medoids. El valor mínimo alcanzado por la función objetivo.2: Clusplot and silhouette plot of pam (euro. una partición en cinco racimos se construye. Los cuatro medoids que resultan de la primera llamada.

Mirando los diagramas de la silueta (véase el cuadro 4. ambas estructuras clustering son aproximadamente de la misma calidad.4. k = 4 es levemente preferible a k = 5. Por otra parte. Análisis Cluster . no están tan bien separados como ésos de la primera llamada. la conclusión es similar. Es decir. los racimos que resultan de la segunda llamada. Pero algunas de las anchuras de la silueta del segundo y tercer racimo han disminuido. Según la anchura media total de la silueta. El segundo clustering rinde anchuras de la silueta muy grandes para el racimo nuevo con tres objetos. en un racimo separado.Sin embargo.Investigación de Mercados . eso no implica necesariamente.3). que la segunda agrupación sea mejor. Con el primer clustering (agrupación). puede ser visto que ambas agrupaciones son similares. Desde el vector que arracima. esos objetos oscilan en alguna parte entre dos racimos. y de la salida numérica por racimo. Este racimo nuevo es aislado.Universidad Técnica Federico Santa María . todos los s(i) están sobre 0. La segunda partición pone los tres puntos más lejanos del tercer racimo.

Universidad Técnica Federico Santa María . mientras que su tiempo de cómputo va Análisis Cluster . esto es alcanzado considerando subconjuntos de datos de tamaño fijo.Figura 4. de modo que el tiempo total y los requisitos de almacenaje. Clara puede tratarse con grupos de datos más grandes. Comparado a otros métodos que reparten tales como el Pam. La función Pam necesita almacenar la matriz de desemejanza del grupo de datos entero (que tiene O(n^2) entradas) en la memoria central. Internamente. El método Clara se describe completamente en el capítulo 3 de Kaufman y de Rousseeuw (1990). entre todos los pares de observaciones. llegan a ser lineares en el número total de los objetos. 5). Esto puede ser prohibitivo cuando el número de observaciones es grande.Investigación de Mercados . en vez de cuadráticos. Las grandes aplicaciones del clustering utilizan un algoritmo menos intensivo en la memoria.3: silhouette plots generated by pam (ruspini. sus requisitos de la memoria son cuadráticos en el número de observaciones. el K-means y el repartir alrededor de los medoids. GRANDES APLICACIONES DEL CLUSTERING Como las técnicas de construcción de desemejanzas.4) and pam (ruspini.

Los objetos restantes del grupo de datos original. y después le aplica el algoritmo Pam. El primer subconjunto de datos se dibuja aleatoriamente. Este procedimiento se repite para varios subconjuntos de datos. el diagrama de la silueta se da solamente para el mejor subconjunto de datos. son luego asignados al medoid más cercano. De esta manera. la función objetivo es computada para el grupo de datos entero. que haga la orden completa de complejidad lineal en n. Por lo tanto. Para evitar este problema. Ejemplo: Un Gran Set de Datos Análisis Cluster . Cada uno de los subconjuntos de datos siguientes se fuerza a contener los medoids actualmente mejores. y el arracimar con la función objetivo total más baja se conserva. Para grupos de datos más grandes (opinión.Investigación de Mercados . De esta manera. Algoritmo El algoritmo toma un subconjunto de datos.mvi). sumando todos los n términos d(i.Universidad Técnica Federico Santa María . Luego. a saber. esta función acepta solamente la entrada de matrices de datos de n x p. la función Clara no computa la matriz de desemejanza entera.por arriba de lo acordado. descritos en la sección anterior en el Pam. se puede también representar por los medios de clusplots y el diagrama de la silueta. con más de 250 objetos) esto llega a ser menos conveniente. Debido a los tamaños potenciales de los grupos de datos. se asignan todos los n objetos. suplantados con los objetos aleatoriamente dibujados. Exhibición Gráfica El clustering obtenido por Clara. necesitamos solamente computar y almacenar la matriz de desemejanza de un subconjunto de datos en cualquier una hora. Éste divide el subconjunto de datos en k racimos.

124750 (= 500*499/2) desemejanzas tendrían que ser consideradas.Investigación de Mercados . Clara todavía encuentra la agrupación correcta. 0.Este grupo de datos. desde que el tamaño de muestra es por defecto 40 + 2*k = 40 + 2*2 = 44.Universidad Técnica Federico Santa María . indica una buena estructura de clustering. La anchura media de la silueta. Análisis Cluster . Los objetos en el grupo de datos son claramente divididos en dos clusters.82.4. La función Clara usa sólo 946 (= 44*43/2) desemejanzas. consistente en 500 puntos de dos dimensiones. es generado en SPLUS usando el comando siguiente: Un diagrama de los puntos es mostrado en la figura 4. Si el Pam hubiera sido utilizado con este grupo de datos.

Análisis Cluster .Investigación de Mercados .Universidad Técnica Federico Santa María .

cada observación está dada como miembro fraccionario en racimos múltiples.Universidad Técnica Federico Santa María .Investigación de Mercados . Esto significa que cada objeto del grupo de datos está asignado exactamente a un racimo. se debe asignar a uno de ellos. Por ejemplo. En clustering borroso (fuzzy). Análisis Cluster . un objeto que fluctúa entre dos clusters. Pam y Clara son métodos Crisp clustering.ANÁLISIS FUZZY (BORROSO) Las funciones K-means.

habrá un miembro Uiv que indica cómo el objeto i pertenece fuertemente al racimo v.El método Fanny se describe completamente en el capítulo 4 de Kaufman y de Rousseeuw (1990). Comparado a otros métodos que arraciman borroso.Investigación de Mercados . que toma en cuenta las condiciones expuestas arriba: que las calidades de los miembros necesitan obedecer.j) son conocidas y las calidades de los miembros Uiv son desconocidas. las desemejanzas d(i. c) La exhibición gráfica está en la forma de un clusplot o diagrama de silueta. b) Es más robusto que la supocisión del “spherical cluster” (véase Kaufman y Rousseuw). Las calidades de los miembros tienen que satisfacer las siguientes condiciones: Algoritmo Las calidades de los miembros se definen con la minimización de: En esta expresión. Para cada objeto i y cada racimo v. Análisis Cluster .Universidad Técnica Federico Santa María . el Fanny tiene las características siguientes: a) Acepta una matriz de desemejanza. La minimización es llevada a cabo numéricamente por medio de un algoritmo iterativo.

1].Para tener una idea de “cuan borrosa” es la agrupación resultante. se computa: El coeficiente de partición Dunn logra sus valores extremos en las situaciones siguientes: La versión normalizada de este coeficiente es: La cual siempre oscila en la rango [0.Universidad Técnica Federico Santa María . el coeficiente de partición Dunn. Exhibición Gráfica Análisis Cluster .Investigación de Mercados .

el método “nearest crisp clustering” debe ser considerado para la salida gráfica.Investigación de Mercados . Análisis Cluster . la agrupación quebradiza (crisp clustering) más cercana. cuando el Pam era de un k = 5. los diagramas de la silueta son idénticos.6). la estructura que arracima (conglomera) es menos clara (figura 4. Por lo tanto. El segundo racimo ha sido separado en vez hacer el tercer cluster. ahora se clasifican de una manera borrosa. Concluimos que la mayoría de los datos puede ser dividida en cuatro racimos. pero algunos objetos están situados entre los clusters. Cuando llamamos a Fanny con k = 5. Pero éste no es siempre el caso. tal como la que es producida por Fanny.Universidad Técnica Federico Santa María . Éste crisp clustering entonces se representa gráficamente por medio de un clusplot o un diagrama de silueta. casi todos los objetos tienen una gran calidad de miembro en uno de los racimos. puesto que ninguna de sus calidades de miembro era mucho más alta que las otras calidades de miembro. en el cual tiene la calidad de miembro más alta Uiv. Ejemplo: Datos Resumen Cuando llamamos a Fanny con los datos de ruspini y con k = 4. es diferente de ése producido por el Pam. Porque la anchura media de la silueta es más pequeña que antes. El crisp clustering más cercano es igual que ése del Pam con k = 4. Los tres objetos que fueron puestos en un racimo separado.Para cualquier agrupación borrosa. Éste asigna cada objeto i al racimo v.

Investigación de Mercados .Universidad Técnica Federico Santa María .Análisis Cluster .

Investigación de Mercados .Universidad Técnica Federico Santa María .Análisis Cluster .

Investigación de Mercados . se basan en especificar un número del inicial de grupos. En contraste. produciendo una estructura jerárquica que muestra el orden en la cual los grupos son fusionados o divididos. Los Métodos Aglomerativos comienzan con cada observación en un grupo separado. y proceden hasta que todas las observaciones están en un sólo grupo. los algoritmos jerárquicos proceden combinando o dividiendo los grupos existentes.MÉTODOS JERÁRQUICOS Los algoritmos repartidores que se discutieron previamente. ANIDANDO EN CONGLOMERADOS Análisis Cluster .Universidad Técnica Federico Santa María . e iterativamente redistribuir las observaciones entre los grupos hasta que algún equilibrio es alcanzado. Los Métodos Divisivos comienzan con todas las observaciones en un sólo grupo y proceden hasta que cada observación está en un grupo separado.

La función Agnes proporciona diagramas más sofisticados que el Mclust. los racimos se combinan. cada objeto se considera como un racimo separado. hasta (después de n–1 pasos) sólo quedar un remanente del racimo grande.Investigación de Mercados . Agnes tiene las siguientes características: a) Entrega el coeficiente aglomerativo. b) Aparte de la agrupación de árbol tradicional. En los pasos subsecuentes. Sin embargo.Universidad Técnica Federico Santa María . tiene tres funciones para hacer agrupaciones jerárquica aglomerativas: Hclust.Las dos técnicas que arraciman más grandes. Inicialmente (en el paso 0). tales como Hclust. y sus capacidades han sido incluidas en gran parte por el Mclust y el Agnes. y tiene un consistente interfaz con las otras funciones en la biblioteca del racimo (cluster library). Comparado con otros métodos de agrupación aglomerativos. Como la función Agnes es un método de agrupación jerárquico aglomerativo. Si se entra una matriz de datos. En el primer racimo cada uno de los n objetos. produce una secuencia de racimos. Algoritmo El algoritmo se basa solamente en desemejanzas. Mclust y Agnes. también utiliza el diagrama de la bandera (banner plot). compuesto de todos los objetos. El resto de la computación consiste en la iteración de los pasos siguientes: Análisis Cluster . son el K-means y la agrupación jerárquica aglomerativa. Mclust ofrece algunos métodos de cómputo no disponibles en Agnes. El método Agnes se describe completamente en el capítulo 5 de Kaufman y Rousseeuw (1990). y es de interés en su propia bien. la función comienza computando la matriz de desemejanzas. (La función Mclust se discutirá más tarde). La más vieja es Hclust. forma su propio racimo. que mide la cantidad de estructura de clustering encontrada. S-PLUS.

La función Agnes también proporciona el coeficiente aglomerativo (Rousseeuw 1986). que mide la estructura de clustering del grupo de datos. se toma como el defecto. El método del vecino más lejano = método del acoplamiento completo: El método del grupo medio. dividido por la desemejanza de la fusión en el paso pasado del algoritmo. se define como el promedio de todos los d(i). Análisis Cluster . El método del grupo medio: 2. La desemejanza entre racimos se puede definir de varias maneras: 1.Investigación de Mercados .1. Para cada objeto i. 2. El método del vecino más cercano = método del acoplamiento simple: 3. El coeficiente aglomerativo (CA).Universidad Técnica Federico Santa María . Compute la desemejanza entre el racimo nuevo y todos los racimos restantes. d(i) denota su desemejanza con el primer racimo que se combina. basado en argumentos de robustez y de consistencia. Combine los dos clusters con la desemejanza más pequeña entre racimos.

) Los objetos se enumeran desde el inicio al fondo. Las fusiones (que comienzan en la desemejanza entre racimos). puede ser gráficamente exhibida de dos maneras. La bandera contiene así la misma información que el árbol que arracima. Análisis Cluster . Esta matriz contiene el porcentaje de la gente en los 50 estados de USA. es la desemejanza entre los racimos correspondientes. que votaron en las 31 elecciones presidenciales entre 1856 y 1956. La coordenada vertical del lugar en donde dos ramas ensamblan iguales. Ejemplo: Datos de Votos Republicanos El grupo de datos de votos republicanos. se da un valor de N A. (Imagine las piezas desiguales de la bandera en la izquierda. Observe que el coeficiente aglomerativo (CA) definido arriba. esta medida no se debe utilizar para comparar los sets de datos de tamaños muy diversos. 2. es estándar en el S-PLUS. Exhibición Gráfica: La Agrupación Árbol y La Agrupación Bandera La jerarquía obtenida del Agnes. Clustering Tree: Este es un árbol en el que se van representando los objetos. como la anchura media (o el porcentaje completo) del diagrama de la bandera. Si un estado no lo hizo y perteneciendo a los USA en el año en cuestión. se puede definir también.Universidad Técnica Federico Santa María .Porque el CA crece con el número de objetos.Investigación de Mercados . por medio de un Clustering Tree (Agrupación Árbol) o un Clustering Banner (Agrupación Bandera): 1. son representadas por las barras horizontales de la longitud derecha. Clustering Banner: La bandera muestra las fusiones sucesivas desde la izquierda a la derecha. y las iguales en la derecha.

se encuentra la misma estructura que arracima. se ve que los estados que se combinan en los pasos finales son exactamente esos estados que los otros métodos consideraban como un racimo separado. El método de acoplamiento simple. es algo diferente de ése en los otros estados. discutida en la próxima sección. Puesto que todos estos métodos jerárquicos se parecen convenir en la división del set de datos en dos racimos. Análisis Cluster . la agrupación del árbol indica una división de los datos en dos racimos bien separados. Cuando se utiliza el método completo de acoplamiento.Cuando Agnes se aplica a este set de datos. La división posterior de los racimos no es tan clara: diversos métodos rinden estructuras más o menos diversas. la conclusión pudo ser que el comportamiento de la votación en los estados meridionales de USA. Sobre un escrutinio más cercano.Investigación de Mercados . encuentra la misma estructura principal de clustering: Los ocho estados meridionales ya están divididos en la primera etapa. Un racimo que contiene ocho de los estados meridionales. parece muy diferente. se combina con los otros estados en el último paso. La desemejanza entre los dos racimos es grande en comparación con las desemejanzas de las fusiones en las otras etapas. La función Diana. que causa las diferencias entre los árboles en este ejemplo.Universidad Técnica Federico Santa María . tiene una tendencia hacia cadenas de clusters. El árbol que arracima obtenido sólo por el método del acoplamiento.

Análisis Cluster .Universidad Técnica Federico Santa María .Investigación de Mercados . Es probablemente el único en computar una jerarquía divisiva. que mide la cantidad de estructura encontrada que arracima. porque la mayoría de los otros softwares son para arracimar jerárquicamente son aglomerativos. Diana proporciona: a) El coeficiente divisivo. b) El diagrama de la bandera.EL ANÁLISIS DIVISIVO Mientras que el clustering aglomerativo comienza con muchos grupos y los combina para formar un grupo. el análisis divisivo comienza con un grupo y divide repetidamente los grupos para formar muchos conjuntos. Por otra parte. El método Diana se describe completamente en el capítulo 6 de Kaufman y Rousseeuw (1990).

La función Diana es un método jerárquico divisivo. el racimo disponible más grande está partido en dos clusters más pequeños. El último número es mucho más grande que el primero y no es factible en la práctica. Encuentre el objeto más dispar. hasta que finalmente todos los racimos contienen un solo objeto. hay: Posibles maneras de combinar dos racimos. intentar todas las fracturas posibles. En el primer paso de un método aglomerativo. Para cada objeto i fuera del grupo de la astilla. análogo a una fracción disidente de un partido político. En cada paso subsiguiente. Algoritmo Para evitar de considerar todas las fracturas posibles. Este objeto inicia el grupo de la astilla.Investigación de Mercados . tenemos en frente con 2n-1-1 posibilidades para dividir el set de datos en el dos clusters. Pero en el primer paso de un método divisivo. Diana divide el grupo de datos de la manera siguiente (basada solamente en desemejanzas): 1. 2. el cual es uno con la desemejanza media más alta de los otros objetos.Universidad Técnica Federico Santa María . El clustering inicial (en el paso 0) consiste en un racimo grande que contiene todos los n objetos. compute: Análisis Cluster .

Para encontrar el objeto h para el cual esta diferencia es la más grande; si Vh > 0,
entonces h está en promedio más cercano al grupo de la astilla que al resto.
Agregue el objeto h al grupo de la astilla.
3. Repita el paso 2 hasta que todas las diferencias Vh sean negativas. Entonces, el
set de datos está partido en dos racimos.
4. Seleccione el racimo con el diámetro más grande. (El diámetro de un racimo es
la desemejanza más grande entre cualesquiera dos de sus objetos.) Entonces
divida este racimo como en los pasos 1 al 3.
5. Repita el paso 4 hasta que todos los racimos contengan solamente un sólo
objeto.
La función Diana también proporciona el coeficiente divisivo (Rousseeuw 1986), que mide
la estructura de clustering del set de datos.
Para cada objeto i, d(i) denota el diámetro del último racimo al cual pertenece (antes de
estar partido como un sólo objeto), dividido por el diámetro del set de datos entero.
El coeficiente divisivo (DC), se define como el promedio de todo los d(i).
Como el AC en la sección anterior sobre Agnes, el DC también crece con el número de
objetos. Por lo tanto, el DC no se debe utilizar para comparar los grupos de datos de
tamaños muy distintos.
Exhibición Gráfica
La jerarquía obtenida por Diana puede otra vez ser exhibida gráficamente como un
clustering árbol o como una bandera.

Análisis Cluster - Investigación de Mercados - Universidad Técnica Federico Santa María

Observe que el coeficiente divisivo (DC) definido arriba, se puede también definir como la
anchura media (o el porcentaje completo) del diagrama de la bandera.

Ejemplo
Mencionamos en la sección anidando en conglomerados, que Diana da un clustering de
árbol absolutamente similar a los Agnes, sobre los datos republicanos de la votación:

Análisis Cluster - Investigación de Mercados - Universidad Técnica Federico Santa María

ANÁLISIS MONOTHETIC
Cuando todas las variables en el grupo de datos son binarias, una manera natural para
dividir las observaciones, es por partir los datos en dos grupos, basados en los dos
valores de una variable binaria particular. El Análisis Monothetic produce una jerarquía de
racimos en los cuales en cada paso un grupo es partido en dos, basándose en el valor de
una de las variables binarias.
El método Mona se describe completamente en el capítulo 7 de Kaufman y Rousseeuw
(1990). Es un tipo diferente del método jerárquico divisivo. Contrario a Diana, el cual
puede procesar una matriz de desemejanza tan bien como una matriz de datos con
variables de intervalo-escaladas, Mona opera sobre una matriz de datos con variables
binarias. Para cada división, Mona utiliza una sola variable (bien escogida), de ahí el por
qué es llamado un método Monothetic. La mayoría de los otros métodos jerárquicos,
incluyendo Agnes y Diana, son Polythetic (eso es, que ellos usan todas las variables
simultáneamente).
Algoritmo
Primero, todos los valores que faltan en la matriz binaria de datos (todos esos valores no
iguales a 0 o 1), son sustituidos por los valores estimados, obtenidos como se muestra a
continuación.
Suponga que falta Xij. Entonces consideramos cualquier otra variable g, y construimos la
tabla de la contingencia:

La asociación entre f y g es definida como:

Análisis Cluster - Investigación de Mercados - Universidad Técnica Federico Santa María

Los valores que faltan de f. está dada arriba por la expresión Afg. el método para con un mensaje de error. pero ahora la tabla de contingencia utiliza solamente los objetos del racimo que se partirá. En cada paso. (Si la matriz de datos no se puede completar totalmente. comenzando con un racimo grande. La variable usada para partir un racimo es la variable con la asociación total más grande de las otras variables.La variable t para que: Es la más correlacionada con f.) El algoritmo Mona construye una jerarquía de agrupaciones.Universidad Técnica Federico Santa María . se define como: Análisis Cluster . debido también a que hay muchos valores faltantes en los datos originales. cada racimo disponible se divide según una variable. de la manera siguiente: Cuando se han sustituido todos los valores que faltantes. la actual división puede comenzar. La asociación entre las variables f y g. La asociación total de una variable f. se estiman por medio de la variable t. El racimo se divide en dos: un racimo con todos los objetos que tienen valor 1 para esa variable. y otro racimo con todos los objetos que tienen valor O para esa variable.Investigación de Mercados .

Continuamos dividiendo racimos de esta manera. que satisface que: Se selecciona para partir el racimo. se enumera la variable que era responsable de la fractura. sin embargo. Dentro de la barra. Exhibición Gráfica La agrupación jerarquizada construida por Mona se puede representar por medio de una Bandera.La variable f.Universidad Técnica Federico Santa María . Análisis Cluster . Esto es otra vez una Bandera Divisiva. hasta que cada racimo contenga objetos que tienen valores idénticos para todas las variables.Investigación de Mercados . Tales racimos no se pueden partir más. Ejemplo: Datos de animales Seis atributos binarios se consideran para veinte animales. la longitud de una barra está dada ahora por el número de los pasos divisivos necesitados para hacer esa fractura. Un racimo final es así un Singleton o un racimo indivisible.

en donde los animales han sido clasificados de una buena manera según sus atributos. Finalmente. tienen el mismo valor para las seis variables (en la bandera. se diferenciarán de la agrupación anterior. ellas no utilizan las variables individuales.diss=T).Universidad Técnica Federico Santa María . (Continuación) Este ejemplo ilustra el uso del Mona.Table 4. y el segundo racimo en animales voladores y no voladores. los animales pertenecientes al mismo grupo. La instrucción es: agnes(daisy(animals). tendríamos que computar las desemejanzas con el Daisy. los animales de sangre fría y caliente se ponen en racimos separados. La función Mona es probablemente más conveniente para este ejemplo. en que Agnes y Diana funcionan sólo sobre las desemejanzas. el primer racimo es dividido en animales vertebrados e invertebrados. Análisis Cluster . y seis (melenudo o no melenudo) como binario asimétrico. porque las variables no son numéricas. la llamada se convierte en: Las agrupaciones que resultan. Si deseáramos aplicar Agnes o Diana a este grupo de datos.Investigación de Mercados . después del quinto paso. Luego.2: Atributos de Animales. En el primer paso. Cuando consideramos la variable dos (voladores o no voladores). La bandera demuestra que Mona clasifica los animales según los seis atributos. no se dibuja ninguna barra entre estos animales).

Universidad Técnica Federico Santa María .3: Los animales y las abreviaciones de tres letras usadas en los datos.Tabla 4. Análisis Cluster .Investigación de Mercados .

Análisis Cluster .Investigación de Mercados .Universidad Técnica Federico Santa María .

AGRUPACIONES JERÁRQUICAS MODEL-BASED Otro acercamiento a la agrupación jerárquica es el Model-based. la distancia entre dos grupos se define para ser la distancia más pequeña entre cualesquiera dos miembros de diversos grupos. El método completo del acoplamiento (también conocido como el acuerdo o el método del vecino más lejano) es similar. y tiene una semántica algo diferente a los métodos discutidos previamente. que se basa en la suposición de que los datos son generados por una mezcla de las distribuciones de probabilidades subyacentes. por ejemplo. La función Mclust se ajusta a los modelos de agrupación Model-based. a menos que esa distancia entre cualesquiera dos grupos se defina para ser la distancia más grande entre cualesquiera dos miembros de diversos grupos. El número de iteraciones es igual al número de objetos menos uno. El Método del Rastro. Se conoce también como el Método de la Sala (Ward’s Method). mientras que el método del centro de figura define la distancia entre dos grupos para ser la distancia entre sus centros de figura. Criterio Heurístico El algoritmo de aglomeración jerárquica básico. y en el extremo de todos los objetos se juntan en un sólo grupo. El algoritmo jerárquico de la aglomeración se puede utilizar con criterios con excepción del criterio de la suma de los cuadrados. la unión elegida es la que conduce al aumento más pequeño en la suma de las sumas de los grupos al cuadrado.Universidad Técnica Federico Santa María . en el sólo método de acoplamiento (o del vecino más cercano). En cada iteración los grupos se fusionan para formar a un nuevo grupo. El Método de la suma de los cuadrados o. comienza con cada objeto en su grupo propio. El método cargado medio del acoplamiento. y en cada iteración en que los dos grupos más cercanos sean fusionados.Investigación de Mercados . También el modelo está basado en los criterios jerárquicos similares a ésos usados por Pam. utiliza el Análisis Cluster . La función Mclust está separada de la biblioteca del racimo.

Si Σk = σ^2*I.θ) para cualquier vector desconocido de parámetros θ. Así.. Éstos son todos los criterios heurísticos. θ y γ se eligen para maximizar la probabilidad. La clave para especificar esto es la Análisis Cluster . se asume que la población de interés consta de G diversas subpoblaciones. donde I es la matriz identidad. γn) denotan los niveles de identificación. Consideramos principalmente la situación donde Fk(x. el método de la sala tenderá a romperlos para arriba en gotas hiperesféricas. Específicamente. para cada K. si son finos y alargados). Criterio del Model-Based La agrupación Model-based se basa en el supuesto que los datos son generados por una mezcla de distribuciones de probabilidades.….promedio de las distancias entre los objetos de un grupo y los objetos del otro grupo. luego maximizando la probabilidad (4. decimos que γ = (γ1. Dado los datos D = (X1. En el procedimiento de la clasificación de la máxima probabilidad.11). y que la densidad de una observación x de la subpoblación Kth es Fk(x. véase a Banfield y Raftery (1992).. es igual que reduciendo al mínimo la suma de sumas de los grupos al cuadrados que es la base del método de la sala..Universidad Técnica Federico Santa María .Investigación de Mercados .θ) es una densidad normal multivariada con media Uk y matriz de varianza Σk. Si los racimos no están de esta clase (por ejemplo. Xn). donde γi = k si X^i viene de la Kth subpoblación. el método de la sala corresponde a la situación donde están las agrupaciones hiperesféricas con la misma varianza.. Otras formas Σk rinden los métodos de clustering que son apropiados en diversas situaciones.

tamaño y forma) que sean iguales a través de racimos. Los vectores propios de Σk especifican la orientación del Kth racimo. Aquí el usuario debe especificar la forma. son los valores propios pedidos de la más grande a la más pequeña. el más grande especifica su forma. Por ejemplo.descomposición del valor propio de Σk. Especificando cada αj = 0. resulta de obligar solamente a la forma para que sean iguales a través de racimos. si decimos que: El criterio corresponde a los racimos hiperesféricos de diversos tamaños. y los cuocientes de los otros valores propios. λp}.….Universidad Técnica Federico Santa María . Podemos obligar a alguno pero no a todas estas características (orientación. representada por el cuociente de valores propios. Análisis Cluster . Fijando cada αj = 1 da el criterio esférico como caso especial. presentado a continuación: Donde: {λ1. mientras que eligiendo cada αj = 0.01. esto es denotado por S*. éste es el criterio "esférico". el valor propio más grande especifica su variación o tamaño. se generan producciones muy concentradas y los racimos lineares.2 conduce a los racimos elípticos que se concentran moderado sobre una línea en el espacio p. Un criterio que aparece para trabajar bien en una variedad de situaciones.Investigación de Mercados .

Universidad Técnica Federico Santa María .La opción del usuario será determinada por la clase de datos con los cuales él o ella esté trabajando.2 a menudo. para ser una buena primera conjetura.4 muestra los diversos criterios de clustering del Model-based y las suposiciones que incorporan. pero hemos encontrado fijar cada αj = 0.Investigación de Mercados . Escogiendo el Número de Racimos Análisis Cluster . La tabla 4.

allí pueden estar otros puntos de referencias que no siguen este patrón. igual que cuando un grupo de datos se compone principalmente de clusters del tipo prescrito. para elegir un solo número de clusters... se ha asumido que cada objeto pertenece a un racimo. K. se elige el número de racimos igual como se elige un modelo para los datos. k = 2. y cualquier valor que interviene. Si este el caso. Esto es calculado por Mclust. así que todos los AWEk (k = 2..AWEk-1.. Un acercamiento estándar a esto es el cálculo del factor Bayes.. El más grande AWEk. más evidencia hay para la existencia de k clusters. y pequeño o negativo después de eso. dados los datos (a condición de que uno no tiene ninguna preferencia inicial por cualquier modelo). Una cosa.Investigación de Mercados . todos los objetos que pertenecen al mismo grupo). AWE1 = 0. Agrupación Robusta Hasta ahora. así como el valor de k que maximiza AWEk. véase Banfield y Raftery (1992). es el número de los racimos para el cual hay la mayor evidencia.. a menos que la evidencia esté abrumando. no recomendamos usar el criterio AWEk.. n) son negativos. Por definición. más evidencia la existencia de k clusters. Sin embargo. Así el Bk más grande. El cambio en el peso aproximado de evidencia. para el modelo definido por k clusters contra el modelo definido por un solo racimo (es decir. AWEk .En la agrupación Model-based. por ejemplo. Bk. El factor Bayes es la probabilidad para un modelo contra otro. es a menudo grande y positivo para los primeros valores de k. sugerimos que el diagrama AWEk sea examinado con el objeto de escoger varias posibilidades que se investigarán más a fondo. Esta posibilidad Análisis Cluster . El valor de k que maximice AWEk.Universidad Técnica Federico Santa María . no hay evidencia para ninguna agrupación.. El peso aproximado de evidencia para los k clusters (AWEk) es una aproximación a 2LogBk. las ideas sugieren la consideración de la clasificación en los K grupos. Sin embargo.

o los afloramientos. habrá una agrupación robusta (disponible para los criterios Model-based solamente). esto se utiliza para determinar el número de clusters. Para los criterios Model-based. Eso realiza la agrupación jerárquica aglomerativa usa los seis criterios Model-based mostrados en la tabla 4. Las funciones relatadas para el Model-based son enumeradas en la tabla 4. asumidos para ocurrir según un proceso de Poisson con una intensidad que es constante sobre la región desde la cual los datos han sido dibujados. Esto rinde una clase de algoritmos de agrupación diseñada para estar robusta para los afloramientos.11). La probabilidad (4. Si se sospecha la existencia de afloramientos. Las diferencias importantes entre las clasificaciones resultantes sugerirían que hay afloramientos que están contaminando los resultados.puede ser permitida para extender el modelo (4.Investigación de Mercados . Análisis Cluster . para incluir tales observaciones aisladas.11) se modifica por consiguiente. véase Banfield y Raftery (1992).4. vuelve el estadístico AWE para cada número de clusters k. o los resultados de la agrupación robusta (con noise = T) pueden ser usados. Observe que el número de racimos indicado por el AWE en el caso no robusto (noise = F) tenderá a ser más grande que en el caso robusto (noise = T). Ejecución de la Agrupación Model-based. algunos afloramientos pueden ser clasificados como grupos de un solo miembro. y también los cinco criterios heurísticos discutidos en el comienzo de esta sección. puede ser una buena idea correr el Mclust con noise = F y noise = T y comparar los resultados.5. Si noise = T se especifica en Mclust. porque en el caso del no robusto. en este caso cualquiera de estos afloramientos se podrían quitar del set de datos y estudiar por separado. La función Mclust ejecuta los análisis descritos en esta sección.Universidad Técnica Federico Santa María .

Mclust es mucho más general y es preferido por muchos propósitos. pero sólo para tres de los criterios heurísticos incluido el Mclust. La función Mclass toma la salida del Mclust o del Mreloc y produce una clasificación de los objetos de los datos. Toma como argumento una matriz de distancia en vez que una matriz de datos. y “crutee” crea grupos usando el árbol.La relocalización iterativa para cualquiera de los once criterios usados. Hclust tiene dos características que pueden ser ventajosas en ciertas situaciones. se puede hacer usando la función Mreloc. La función Plclust traza el árbol. También. Mclust y Hclust devuelven la altura en la cual cada fusión fue hecha. esto puede rendir diagramas más informativos del árbol de clasificación. Análisis Cluster . y es aplicable incluso cuando los datos no se pueden representar por los puntos en el espacio Euclidiano. “labclust” las etiquetas del árbol. la sub-estructura extrae la parte del árbol. acepta una matriz de desemejanza que no necesita ser una matriz de distancia en estricto sentido.Investigación de Mercados . La función Hclust también hace agrupaciones aglomerativo jerárquicas. Tabla 4.5: Funciones para agrupaciones Model-based. “clorder” reordena las ramas del árbol. La salida del Mclust y del Mreloc se puede utilizar para trazar y para manipular árboles de clasificación.Universidad Técnica Federico Santa María . Una matriz de distancia se puede calcular de una matriz de datos usando la función “Dist”. Sin embargo.

En los datos de los votos republicanos.Investigación de Mercados . las filas representan los estados y las columnas las 31 elecciones.Universidad Técnica Federico Santa María . Análisis Cluster .Un ejemplo de uso simple Podemos utilizar el clustering Model-based para explorar los porcentajes de votos dados al candidato republicano en las elecciones presidenciales desde 1856 a 1976.

Investigación de Mercados . algunos objetos se sitúen entre los clusters.CONCLUSIONES • La mayoría de los datos se pueden agrupar en clusters. Análisis Cluster .Universidad Técnica Federico Santa María . aunque a veces. En estos casos. las observaciones se asignan a los clusters más cercanos.

por ende. crece a medida que aumenta el número de objetos. el cual automáticamente entregará el número de grupos más apropiado.• Los diferentes Métodos Jerárquicos expuestos anteriormente. • La función Clara no computa matrices de desemejanzas. • El Coeficiente Divisivo (DC). los clusters resultantes de la segunda fase. visibles en la agrupación. por ende. el DC no debe utilizarse para comparar los grupos de datos de tamaños muy grandes y distintos. los afloramientos siguen siendo perceptibles y. al igual que el Coeficiente Aglomerativo (AC). por lo que. • En el Método Repartiendo alrededor de los Medoids. sería interesante aplicarlos y analizarlos en conjunto. no quedan tan bien separados como los de la primera etapa. para sacar conclusiones más potentes. por lo que es recomendable realizar el proceso de agrupación de datos una sola vez.Universidad Técnica Federico Santa María . es que las z-cuentas de afloramientos no llegan a ser demasiado pequeñas y. • Si desconoce cuál es el número ideal de racimos (clusters). el cual se define como el promedio de todos los d(i). por lo tanto. Daniel Peña. • La ventaja de utilizar una Medida Robusta de Dispersión. BIBLIOGRAFÍA Ø “Análisis de Datos Multivariantes”. entregan resultados más o menos distintos. utilice el Análisis Cluster de Dos Fases. por lo que dicha función sólo acepta la entrada de matrices de datos de n x p.Investigación de Mercados . Análisis Cluster .

Peter Harman & Alan Shapiro – Science – 2002. Banfield & Raftery (1992).Ø “Encontrando Grupos en los Datos: Una Introducción al Análisis Cluster”. Kaufman & Rousseeuw (1990). Ø Paper 2: “Heuristic and Optimization for Knowledge Discovery”. Hubert & Rousseeuw (1997). Michael Baker – Business & Economics – 2002. Ø “Estadística Computacional y Análisis de Datos”. Ruhul Sarker. Ø Paper 3: “The Investigation of Difficult Things: Essays on Newton and the History of the Exact Sciences”. Ø Paper 1: “The Marketing Book”.Universidad Técnica Federico Santa María . APÉNDICE: ARQUITECTURA DE LA BIBLIOTECA DEL RACIMO Análisis Cluster . Ø “Model-based Gaussian and non-Gaussian clustering”. Hussein Abbass & Charles Newton – Computers – 2002.Investigación de Mercados . Struyf.

Universidad Técnica Federico Santa María .Investigación de Mercados .Análisis Cluster .

Universidad Técnica Federico Santa María .Análisis Cluster .Investigación de Mercados .

Universidad Técnica Federico Santa María .Investigación de Mercados .Análisis Cluster .

Universidad Técnica Federico Santa María .Investigación de Mercados .Análisis Cluster .