Está en la página 1de 11

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE INGENIERÍA GEOLÓGICA, MINERA,


METALÚRGICA Y GEOGRÁFICA
E.A.P. INGENIERÍA GEOLÓGICA

ANÁLISIS CLÚSTER
GEOESTADÍSTICA

ALUMNOS

Álvarez Alfaro Phill


Brañes Ordoñez Bryan Gerson
Correa Córdova Maycol
Gonzales Salas Ricky Martin
Guevara Montenegro Brayam Anderson
Lopez Arpa Rafael Augusto
Ramírez Carhuaricra Bryan

PROFESOR A CARGO

FELIX ABRAHAM CORNELIO ORBEGOSO


ÍNDICE
I. INTRODUCCIÓN..............................................................................................................................3

II. DEFINICIÓN......................................................................................................................................3

III. MÉTODOS CLÚSTERS................................................................................................................4

1. MÉTODO JERÁRQUICO............................................................................................................4

2. MÉTODO NO JERÁRQUICO.....................................................................................................6

3. MÉTODO CLÚSTER EN DOS FASES.......................................................................................7

IV. ANÁLISIS DE CONGLOMERADOS PARA VARIABLES.....................................................8

1. TÉCNICA DE AGRUPACIÓN DE VARIABLES......................................................................8

2. TÉCNICA DE AGRUPACIÓN DE CASOS................................................................................9

V. BIBLIOGRAFÍA...............................................................................................................................11
ANÁLISIS CLÚSTER

I. INTRODUCCIÓN
En la actualidad el análisis estadístico de datos incluye un conjunto de métodos y
técnicas univariantes y multivariantes que permiten estudiar y tratar en bloque una o
varias variables medidas u observadas en una colección de individuos. Existe la
posibilidad de que estas variables sean sólo cuantitativas, sólo cualitativas, o
simultáneamente de ambos tipos. Apoyan varios dominios científicos como la
sociología, la epidemiología, la ecología, la lingüística, la psicometría, el análisis de
mercados, la arqueología, en la banca y los seguros y en la mayoría de las situaciones en
que deban analizarse grandes ficheros de datos.
El objetivo de este trabajo es profundizar en un método estadístico en particular: El
análisis cluster, como método de clasificación de data.

II. DEFINICIÓN
El análisis cluster es un método estadístico multivariante de clasificación automática de
datos. A partir de una tabla de casos-variables, trata de situar los casos (individuos) en
grupos homogéneos, conglomerados o clústers, no conocidos de antemano pero
sugeridos por la propia esencia de los datos, de manera que individuos que puedan ser
considerados similares sean asignados a un mismo cluster, mientras que individuos
diferentes (disimilares) se localicen en clusters distintos. Los individuos que queden
clasificados en el mismo grupo serán tan similares como sea posible
El análisis clúster se puede utilizar para agrupar individuos (casos) y también para
agrupar variables. Aunque el proceso es idéntico tanto si se agrupan individuos como
variables.
Existen dos grandes tipos de análisis de clústers: Aquéllos que asignan los casos a
grupos diferenciados que el propio análisis configura, sin que unos dependan de otros,
se conocen como no jerárquicos, y aquellos que configuran grupos con estructura
arborescente, de forma que clústers de niveles más bajos van siendo englobados en otros
de niveles superiores, se denominan jerárquicos.
Antes de iniciar un análisis clúster deben tomarse tres decisiones:
 Selección de las variables relevantes para identificar a los grupos: de acuerdo
con el objetivo que se pretenda lograr en el estudio
 Elección de la medida de proximidad entre los individuos: uso de los tipos de
medidas como similitudes y distancias
 Elección del criterio para agrupar individuos en conglomerados: conocer, como
mínimo los principales métodos de análisis clúster.

III. MÉTODOS CLÚSTERS

1. MÉTODO JERÁRQUICO
DENDOGRAMA
Se usa para clasificar datos en grupos con una estructura arborescente de dependencia y
diferentes niveles de jerarquía. Se parte de tantos grupos iniciales como individuos se
estudian, tratando de conseguir agrupaciones sucesivas entre ellos, de forma que
progresivamente se vayan integrando en clústers. Los cuales se unirán entre sí en un
nivel superior formando grupos mayores que más adelante llegarán al cluster final que
contiene a todos los casos analizados. La representación gráfica de esta formación de
grupo, modo de árbol invertido.
La decisión de agrupaciones se toma en función a la similaridad multivariante
proporcionada por el conjunto de variables estudiadas ya que en cada nivel de jerarquía
se unen los 2 clusters más cercanos para ello es importante la elección de una métrica
adecuada de similitud o diferencia. Suele distinguirse entre métodos aglomerativos y
métodos disociativos.
Entre los métodos aglomerativos tenemos los siguientes:
 Método de las distancias mínimas o enlace simple
Consiste en ir agrupando los individuos que tienen menor distancia o mayor
similitud, considerando como distancia entre dos clusters la distancia entre sus
dos puntos más próximos. Si bien presenta buenas propiedades teóricas, su
eficacia no ha sido la esperada en estudios de validación comparativa por su
tendencia al encadenamiento (une clusters realmente diferentes, si están
próximos) y porque solo considera la información de individuos extremos.
 Método de las distancias máximas o enlace completo
Considera la distancia máxima entre un cluster y otro, presenta una excesiva
tendencia a producir grupos de igual diámetro y los valores se ven muy
distorsionados ante algunos valores atípicos.
 Método del promedio entre grupos o enlace promedio
Considera como distancia entre 2 clusters la distancia promedio entre 2
individuos, no la más cercana ni las más lejanas. Tiende a producir clusters
compactos por lo que es muy utilizado y suele ser el método por defecto en
algunos softwares.
 Método del centroide o enlace centroide
Considera la distancia entre 2 grupos la existente entre sus centros de gravedad,
está definida por las medias aritméticas de las variables de los individuos. Entre
los métodos jerárquicos es el más robusto ante la presencia de casos atípicos.
 Método de la mediana
Considera la distancia entre 2 grupos la existente entre las medianas de las
variables, de esta manera al combinarse 2 clusters se ponderan en forma
equivalente al método del centroide, pero es independientemente del número de
individuos.
 Método de Ward o enlace por mínima varianza
El método Ward calcula la media de todas las variables de cada cluster para
luego calcular la distancia euclídea al cuadrado entre cada individuo y la media
de su grupo y después se suman las distancias de todos los casos.
 Método de enlace por densidad
El enlace por densidad es capaz de encontrar clusters irregulares y elongados,
aunque ha demostrado menos eficacia en la configuración de clusters
compactos. Se han descrito diversas técnicas basadas en este algoritmo de
clasificación.
Fórmula de Lance y Williams para la distancia entre grupos

Lance y Williams desarrollaron una fórmula general que puede ser utilizada para
describir los distintos tipos de enlaces de los métodos jerárquicos aglomerativos. La
fórmula es la siguiente:

DondeD ij es la distancia entre los grupos i y j, y α, β y γ son los tres parámetros del
modelo. Se observa lo siguiente:
2. MÉTODO NO JERÁRQUICO

El análisis no jerárquico, a diferencia del análisis jerárquico, parte de la matriz original


de las puntuaciones y no de la matriz de proximidades, y los clusters resultantes no
están anidados unos en otros, sino que son independientes. Muchos autores consideran
que los métodos no jerárquicos son los que mejor se adaptan a los estudios sociológicos
y de mercados caracterizados por el empleo de grandes conjuntos de datos. En este
sentido, se aconseja su utilización cuando se desea, no tanto analizar la estructura
jerárquica de los individuos, sino conocer el número de grupos construidos y las
características de cada uno. En muchas situaciones conviene realizar el análisis de
conglomerados no jerárquico aplicando puntuaciones factoriales. Una de las ventajas de
utilizar puntuaciones factoriales es la facilidad para conseguir que los datos cumplan los
requisitos imprescindibles para utilizar el Análisis Cluster. Estos métodos calculan en
cada etapa las distancias entre los casos y el centroide de los conglomerados, a
diferencia de los métodos jerárquicos que calculan las distancias entre todos los pares de
objetos.
Entre los métodos no jerárquicos, se utiliza el K‐medias sin especificar los centros de
los conglomerados. Con centros desconocidos, el método K‐medias comienza con una
división del conjunto de los datos en (x) grupos configurados al azar y posteriormente
busca mejorar esta primera clasificación reasignando los elementos al centroide del
cluster más cercano, tratando de reducir la distancia media entre cada elemento de un
grupo y su centroide. El proceso de funcionamiento de este método es el siguiente:
1. Se comienza con una partición inicial de los datos en un especifico número de
agrupamientos, para calcular posteriormente el centroide de cada uno. Esta partición
inicial comienza con los casos más alejados entre sí.
2. El siguiente paso trata de reasignar cada caso al agrupamiento más cercano, aquel
cuya distancia al centro de gravedad del conglomerado sea menor. No hay que olvidar
que en el método de K‐ medias, al formar parte de los métodos de reasignación, un caso
asignado a un conglomerado en una determinada iteración puede ser reasignado a otro
caso en una iteración posterior
3. Calcula los nuevos centroides de los conglomerados cada vez que se incorpora un
nuevo caso.
4. Repite alternativamente el segundo y el tercer paso hasta que ninguna reasignación de
un caso a un nuevo cluster permita reducir más la distancia entre los individuos dentro
de cada agrupamiento, ni aumentar la distancia entre los distintos clusters.

Ventajas:
1. Rapidez.
2. Permite el procesamiento de gran número de datos.
Inconvenientes:
1. Hay que determinar el número óptimo de cluster a priori.
2. Muy sensible ante la presencia ante datos externos.
3. Sensible respecto de la ordenación de los datos.

3. MÉTODO CLÚSTER EN DOS FASES


El procedimiento Análisis de clústeres en dos fases es una herramienta de exploración
diseñada para descubrir las agrupaciones naturales (o clústeres) de un conjunto de datos
que, de otra manera, no sería posible detectar.
En algunas aplicaciones, se puede seleccionar como método el Análisis de
conglomerados en dos fases. Ofrece una serie de funciones únicas que se detallan a
continuación:
 Selección automática del número más apropiado de conglomerados y medidas
para la selección de los distintos modelos de conglomerado.
 Posibilidad de crear modelos de conglomerado basados al mismo tiempo en
variables categóricas y continuas. Asimismo, el Análisis de conglomerados en
dos fases puede analizar archivos de datos grandes.

 Tratamiento de variables categóricas y continuas. Al suponer que las variables


son independientes, es posible aplicar una distribución normal multinomial
conjunta en las variables continuas y categóricas.
 Selección automática del número de clústeres. Mediante la comparación de los
valores de un criterio de selección del modelo para diferentes soluciones de
agrupación en clústeres, el procedimiento puede determinar automáticamente el
número óptimo de clústeres.
 Escalabilidad. Mediante la construcción de un árbol de características de
clústeres (CF) que resume los registros, el algoritmo en dos fases puede analizar
archivos de datos de gran tamaño.

IV. ANÁLISIS DE CONGLOMERADOS PARA VARIABLES


El método sirve para encontrar grupos homogéneos de variables, donde la medida de
similitud es el coeficiente de correlación, teniendo en cuenta el grado de asociación
lineal entre cada par de variables, independientemente de la dirección de dicha
asociación, entonces dos variables serán proximales si es cercana a 1 y distantes si es
cercana a 0. Por lo demás, el criterio seguirá siendo similar al de agrupación por casos.
Técnica de agrupación de variables y de casos:
1. TÉCNICA DE AGRUPACIÓN DE VARIABLES
El análisis clúster es similar al análisis factorial. Pero, mientras que el análisis
factorial es poco flexible en algunos de sus supuestos (linealidad, normalidad,
variables cuantitativas, etc.) y estima de la misma manera la matriz de distancias, el
análisis clúster es menos restrictivo en sus supuestos (no exige linealidad, ni simetría,
permite variables categóricas, etc.) y admite varios métodos de estimación de la
matriz de distancias.
2. TÉCNICA DE AGRUPACIÓN DE CASOS
El análisis clúster es similar al análisis discriminante. Pero mientras que el análisis
discriminante se centra en la agrupación de variables, es decir efectúa la clasificación
tomando como referencia un criterio o variable dependiente (los grupos de
clasificación), el análisis clúster se centra en agrupar objetos, es decir permite
detectar el número óptimo de grupos y su composición únicamente a partir de la
similaridad existente entre los casos; además, el análisis de clúster no asume ninguna
distribución específica para las variables.
En el caso de que se cuente con “n” datos y “p” variables observadas, la matriz n*p,
tendrá “n” filas y “p” columnas.A partir de la representación de las n filas y teniendo
en cuenta la distancia entre ellos, el método trata de agruparlos en conglomerados, de
tal manera que, por un lado, las distancias dentro de un mismo conglomerado serán
pequeñas y, por otro lado, las distancias entre los conglomerados sean grandes.
Entre los métodos para el análisis de conglomerados se puede citar: El método no
jerárquico de las K medias y el método jerárquico aglomerativo promedio entre
grupos.
 Método no jerárquico de la k medias
Los métodos no jerárquicos para la generación de conglomerados hacen una partición
de los individuos en K grupos, a priori. El procedimiento a seguir es el siguiente:
1. Se elige el número de conglomerados, a priori, K.
2. Se especifican los centros de la K conglomerados iniciales y de conocerlos se
tiene que estimar.
3. En función del centro más próximo, se agrupan los individuos en
conglomerados.
4. Se calculan los centros de los conglomerados obtenidos en el paso anterior.
5. Se repiten los pasos 3 y 4 hasta que se dé alguno de los criterios de parada.

 Método jerárquico aglomerativo promedio entre grupos


En los métodos jerárquicos el análisis comienza partiendo del hecho que cada individuo
es un conglomerado. A raíz de estas unidades se van formando nuevos conglomerados,
agrupando en cada etapa a las observaciones de los 2 conglomerados más próximos, al
final del proceso todos los individuos estarán agrupados en un único conglomerado.
El método del promedio entre grupos, la distancia entre los 2 conglomerados está dada
por el promedio de las distancias entre todos los pares de individuos, en los que cada
componente del par pertenece a un conglomerado distinto. En este método, el número
de conglomerados que se desea se puede elegir a posteriori.
Cuando el número de datos y variables es elevado, para agilizar el proceso, en lugar de
la distancia euclídea, podemos usar, el cuadrado de la distancia euclídea.
V. BIBLIOGRAFÍA

 Peréz C. Técnicas de Análisis multivariable – Aplicación con SPSS. Pearson.


Prentice Hall. Universidad Complutense de Madrid. Instituto de estudios
fiscales. Madrid, España.
 Villanueva R.(2001). Estadísticas aplicadas y Análisis factorial. UNMSM.
Facultad de Geología, Minas, Metalurgia y Ciencias Geogrñaficas.
 De la Fuenta S. Análisis de conglomerados - Análisis cluster. Instrumentos
estadísticos avanzados. Facultad de ciencias económicas y empresariales.
Departamento de economía aplicada
 Peréa J. Análisis multivariante para investigación – Análisis cluster. Curso de
postgrado en herramientas de estadísticas avanzadas. Universidad Nacional de
La Palma.

También podría gustarte