Está en la página 1de 28

ANLISIS DE

CONGLOMERADOS

ANLISIS DE CONGLOMERADOS
Otros nombres son:
En Ingls Cluster anlisis
Anlisis de cmulos
Anlisis de agrupacin

ANLISIS DE CONGLOMERADOS
Objetivos
El objetivo del anlisis de conglomerados es agrupar las
unidades en subgrupos SIGNIFICATIVOS. A partir de las
distancias existentes entre los vectores de las observaciones

La idea central es llegar a una organizacin ende grupos que


desplieguen la mayor variacin ENTRE ellos y la menor
variacin DENTRO de ellos.

Al final todas las unidades pertenecen aun slo grupo.

ANLISIS DE CONGLOMERADOS
Aplicaciones en Biologa
En biologa se ha usado mucho sobre todo en
taxonoma numrica, pero tambin en ecologa en la
llamada Escuela de la clasificacin de las comunidades
(opuesta a la ordenacin), tambin es muy usado en
Biogeografa para determinar las relaciones entre
ambientes o zonas. En general en todo proceso que
requiera agrupacin de unidades a las que se le hayan
medido varias variables.

ANLISIS DE CONGLOMERADOS
Definicin
No existe una definicin clara de lo que es un
conglomerado o Cluster. En ingls se refiere a una
agrupacin (en ocasiones informe) de unidades que
slo se pueden visualizar en 2D o 3D
Un ejemplo tpico sera un Mugano una bola
formada por subunidades adheridas.

ANLISIS DE CONGLOMERADOS
Definicin Cont.
No se imponen restricciones a priori ( como lo hace
el Anlisis Discriminante). Se parte de la base que
todas las unidades pueden ser independientes o bien
todas las unidades pueden tener algo en comn para
formar un solo cmulo.

ANLISIS DE CONGLOMERADOS

ANLISIS DE CONGLOMERADOS
Problemas
Por ser tan laxa la definicin de un cmulo existen
muchos algoritmos que pretenden resolver e problema
sin embargo la mayora de ellos slo se aboca a la
bsqueda de conglomerado esfricos y es difcil
detectar conglomerados no esfricos.

ANLISIS DE CONGLOMERADOS
Problemas

ANLISIS DE CONGLOMERADOS
Criterios
Hay un sin-nmero de algoritmos la distancia ENTRE-CLUSTER
se puede determinar por las distancia entre centroides
Como el objetivo es reducir de n unidades a g grupos donde

n>g

ANLISIS DE CONGLOMERADOS
Similaridades
El anlisis de cmulos esta ligado a las medidas de similaridad (que
tan cerca o lejos se encuentran las unidades en el espacio ndimensional.
Cuando se trata de medidas mtricas (que siguen la distribucin
normal) se usan las Medidas de distancia. Mientras que si se cuenta
con distancias no- paramtricas los llamados tipos de acercamiento
son mejores.

ANLISIS DE CONGLOMERADOS
Medidas de distancia

ANLISIS DE CONGLOMERADOS
Distancia Euclidiana Concepto.

Ejemplo de dos dimensiones con p= 2 (similar al teorema de Pitgoras)

ANLISIS DE CONGLOMERADOS
Distancia Euclidiana Concepto.

Ejemplo de tres dimensiones con p= 3

ANLISIS DE CONGLOMERADOS
Distancia de Manhatan .
La distancia de Manhatan o distancia de cuadras se
maneja como una distancia alternativa en la que la distancia
se mide como unidades fijas de distancia. Como lo son las
cuadras de una ciudad.
Este es una medida que se encuentra disponible en el
NCSS.

ANLISIS DE CONGLOMERADOS
Variables Nominales

En el caso de la variables nominales o dicotmicas se


presentan varios ndices, llamados generalmente
ndices de asociacin (estos son las bases de medidas
de similaridad de Sorensen o Jacard entre otros).

ANLISIS DE CONGLOMERADOS
Variables Nominales

Speci
e

ANLISIS DE CONGLOMERADOS
Coeficientes mas usados.

ANLISIS DE CONGLOMERADOS
Coeficientes mas usados.

ANLISIS DE CONGLOMERADOS
Tcnicas de asociacin Jerrquica
Las tcnicas jerrquicas desarrollan un fusin sucesiva (o
divisiones) de los datos. Una de las principales ventajas es que la
asignacin de una unidad es irrevocable (una vez que se asocian
no tiene otra opcin)
Mtodos aglomerativos proceden desarrollando una serie de
fusiones
Mtodos Divisivos parten de un grupo de objetos y lo van
dividiendo poco a poco.
Ambos se presentan en forma de un dendrograma (diagrama de
rbol)

ANLISIS DE CONGLOMERADOS
Mtodos aglomerativos 1
LIGA SIMPLE (Single Linkage) o VECINO MS PRXIMO:
Este mtodo utiliza la DISTANCIA mnima procede encontrando
las dos unidades que poseen la menor distancia. Estas conforman
el primer conglomerado (cluster) y trabajan juntos como una sola
unidad para los subsiguientes anlisis. En el siguiente ciclo dos
cosas pueden pasar, que una tercera unidad se una al ciclo o bien
que otras dos unidades independientes tengan la menor distancia
restante. Este proceso continua hasta que todas las unidades se
encuentran en un solo cluster.

ANLISIS DE CONGLOMERADOS
Mtodos aglomerativos 1

ANLISIS DE CONGLOMERADOS
Tcnicas de asociacin Jerrquica 1

ANLISIS DE CONGLOMERADOS
Mtodos aglomerativos 2
LIGA COMPLETA (Complete Linkage) o el MTODO DEL
VECINO MS LEJANO:
Este mtodo es exactamente lo opuesto del anterior en el sentido
que la distancia buscado es la mayor que exista entre un par de
unidades. A pesar de que los dendrogramas son similares las
distancias pueden cambiar rpidamente.

ANLISIS DE CONGLOMERADOS
Mtodos aglomerativos 2

ANLISIS DE CONGLOMERADOS
Mtodos aglomerativos 3
MTODO DE LA LIGA PROMEDIO (Average Linkage) Otro
mtodo alternativo a los anteriores es el mtodo promedio. Este
algoritmo sigue la misma aproximacin excepto que la
distancia entre los conglomeraos es definida por el promedio de
la distancia entre dos conglomerados.

ANLISIS DE CONGLOMERADOS
Mtodos aglomerativos 4

Mtodo de Ward o de la Suma de cuadrados del Error:


Este Mtodo (Desarrollado por Ward(1963) se basa en la
prdida de informacin resultante de la agrupacin de
individuos en conglomerados en medida como por el total de la
suma de cuadrados a partir de las desviaciones de cada
observacin a la media del conglomerado al que pertenece. La
regla de asignacin procede por el incremento en la suma de
cuadrados del error inducido por la combinacin de cada
posible par de cluster. Este valor es usada como una funcin
objetiva.

ANLISIS DE CONGLOMERADOS
Mtodos aglomerativos 4 Cont.
El algoritmo desarrollado por Ward es usado como mtodo
jerrquico. El proceso de agrupamiento procede de la siguiente
manera,. Empieza por considerar K grupos de sujetos , un sujeto
por grupo, el primer grupo es formado por la seleccin de dos
de esos K grupos que, cuando se unen, producen el menor
desapareamiento en el valor de la funcin objetiva. Estos K-1
grupos es reexaminados para determinar los siguientes dos de
esos K-1 grupos para unirse mientras minimizan el incremento
en la funcin objetiva. As se repite el proceso hasta tener un
slo grupo. En cada paso se reevala funcin objetiva. Los
cambios en esta funcin es importante para determinar cual es el
nmero de grupos naturales.

También podría gustarte