Está en la página 1de 57

AnlisisConglomerados

SantiagodelaFuenteFernndez
AnlisisConglomerados
SantiagodelaFuenteFernndez
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 1
ANLISISDECONGLOMERADOS
ElAnlisisCluster,conocidocomoAnlisisdeConglomerados,esunatcnicaestadstica
multivariantequebuscaagruparelementos(ovariables)tratandodelograrlamxima
homogeneidadencadagrupoylamayordiferenciaentrelosgrupos.
ElAnlisisClustertieneunaimportantetradicindeaplicacinenmuchasreasdeinvestigacin.Sin
embargo,juntoconlosbeneficiosdelAnlisisClusterexistenalgunosinconvenientes.ElAnlisis
Clusteresunatcnicadescriptiva,atericaynoinferencial.
ElAnlisisClusternotienebasesestadsticassobrelasquededucirinferenciasestadsticasparauna
poblacinapartirdeunamuestra,esunmtodobasadoencriteriosgeomtricosyseutiliza
fundamentalmentecomounatcnicaexploratoria,descriptivaperonoexplicativa.
Lassolucionesnosonnicas,enlamedidaenquelapertenenciaalconglomeradoparacualquier
nmerodesolucionesdependedemuchoselementosdelprocedimientoelegido.Porotraparte,la
solucinclusterdependetotalmentedelasvariablesutilizadas,laadicinodestruccindevariables
relevantespuedetenerunimpactosubstancialsobrelasolucinresultante.
Losalgoritmosdeformacindeconglomeradosseagrupanendoscategoras:
Algoritmosdeparticin:Mtododedividirelconjuntodeobservacionesenkconglomerados
(clusters),endondeklodefineinicialmenteelusuario.
Algoritmosjerrquicos:Mtodoqueentregaunajerarquadedivisionesdelconjuntode
elementosenconglomerados.
Unmtodojerrquicoaglomerativoparteconunasituacinenquecadaobservacinforma
unconglomeradoyensucesivospasossevanuniendo,hastaquefinalmentetodaslas
situacionesestnenunnicoconglomerado.
Unmtodojerrquicodisociativosigueelsentidoinverso,partedeungranconglomeradoy
enpasossucesivossevadividiendohastaquecadaobservacinquedaenunconglomerado
distinto.
Elanlisisdeconglomeradosnosvaapermitircontestarapreguntastalescomo:
Esposibleidentificarculessonlasempresasenlasqueseramsdeseableinvertir?
Esposibleidentificargruposdeclientesalosquelespuedainteresarunnuevoproductoque
unaempresavaalanzaralmercado?
SepuedenclasificarlasbodegasdeLaRiberadelDueroenfuncindelascaractersticas
qumicasypticasdelvinoqueproducen?
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 2
PROBLEMA
Dadounconjuntodemobjetos(animales,plantas,minerales...),cadaunodeloscualesviene
descritoporunconjuntodepcaractersticasovariables,deducirunadivisintilenunnmerode
clases.Sehandedeterminartantoelnmerodeclasescomolaspropiedadesdedichasclases.
SOLUCIN
Particindelosmobjetosenunconjuntodegruposdondeunobjetopertenezcaaungruposloyel
conjuntodedichosgruposcontengaatodoslosobjetos.
PLANTEAMIENTODELPROBLEMA
PUNTODEPARTIDA:SeaXunamuestrademindividuossobrelosquesemidenpvariables.
Xesunconjuntodevaloresnumricosquesepuedenordenarenunamatriz:

=
mp 2 m 1 m
p 2 22 21
p 1 12 11
x x x
x x x
x x x
X
L
M M M M
L
L
: x
11
Valorquepresenteelprimerindividuoenlaprimeravariable
: x
12
Valorquepresenteelprimerindividuoenlasegundavariable
: x
ij
Valorquepresenteelindividuoisimoenlavariablejsima
Cadacolumnacontienelosvaloresquetomantodoslosindividuosparacadavariablequeseestudia.
OBJETIVO
Encontrarunaparticindelosmindividuosencgruposdeformaquecadaindividuopertenezcaa
ungrupoysolamenteauno.
ANLISISCONGLOMERADOS(CLUSTERS)
Esunprocedimientoestadsticoquepartedeunconjuntodedatosquecontieneinformacinsobre
unamuestradeentidadeseintentareorganizarlasengruposrelativamentehomogneosalosque
sellamaconglomerados(clusters).
ETAPASDELANLISISDECONGLOMERADOS(CLUSTERS)
1)Eleccindelasvariables
2)Eleccindelamedidadeasociacin
3)EleccindelatcnicaCluster
4) Validacindelosresultados
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 3
1.ELECCINDELASVARIABLES
Dependiendodelproblemalasvariablespuedenser:
Cualitativas

ales min No
Ordinales
Cuantitativas

Continuas
Discretas
ANLISISCONGLOMERADOSPORVARIABLESOPORINDIVIDUOS
Sisepretendeagruparalosindividuosengrupossehaderealizarunanlisiscluster
(conglomerados)delosindividuos
Sisepretendeagruparlasvariablesmsparecidassedeberealizarunanlisisclusterdelas
variables,paraellobastaconsiderarlamatrizdedatosinicial
'
X
2.ELECCINDELAMEDIDADEASOCIACIN
Parapoderunirvariablesoindividuosesnecesarioteneralgunasmedidasnumricasque
caractericenlasrelacionesentrelasvariablesolosindividuos.
Cadamedidareflejaasociacinenunsentidoparticularyesnecesarioelegirunamedidaapropiada
paraelproblemaconcretoqueseesttratando.
Lamedidadeasociacinpuedeserunadistanciaounasimilaridad.
Cuandoseeligeunadistanciacomomedidadeasociacin(porejemplo,ladistanciaeucldea)
losgruposformadoscontendrnindividuosparecidosdeformaqueladistanciaentreellosha
deserpequea.
Cuandoseeligeunamedidadesimilaridad(porejemplo,elcoeficientedecorrelacin)los
gruposformadoscontendrnindividuosconunasimilaridadaltaentreellos.
DISTANCIAMTRICA
Unafuncin R U x U : d sellamadistanciamtricas U z , y , x severifica:

+
=
= =

) z , y ( d ) y , x ( d ) z , x ( d
) x , y ( d ) y , x ( d
y x 0 ) y , x ( d
0 ) x , x ( d
SIMILARIDAD
Unafuncin R U x U : s sellamasimilaridads U y , x severifica:

=
=

) x , y ( s ) y , x ( s
s ) x , x ( s
s ) y , x ( s
arbitrario finito real nmero s
0
0
0
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 4
SIMILARIDADMTRICA
Unafuncin R U x U : s sellamasimilaridadmtricas U z , y , x severifica:

+
= =
=
=

) z , y ( s ) y , x ( s ) z , x ( s ) z , y ( s ) y , x ( s
y x s ) y , x ( s
) x , y ( s ) y , x ( s
s ) x , x ( s
s ) y , x ( s
0
0
0
NOTA.Dependiendodeltipodeanlisis(porvariablesoporindividuos)queserealiza,existen
distintasmedidasdeasociacinaunque,tcnicamente,todaslasmedidaspuedenutilizarseen
amboscasos.
MEDIDASDEASOCIACINPARAVARIABLES
Cosenodelngulodedosvectores(invarianza,salvosigno,frenteahomotecias)
Coeficientedecorrelacin(invarianzafrenteatraslacionesysalvosignofrenteahomotecias)
Medidasparadatosdicotmicos
j i
X \ X 1 0 Totales
1 a b a+b
0 c d c+d
Totales a+c b+d m=a+b+c+d
MedidadeOchiai
) c a ( ) b a (
a
+ +
Medida
) d b ( ) c a ( ) d c ( ) b a (
bc ad
+ + + +

MedidadeRussellyRao
m
a
d c b a
a
=
+ + +
MedidadeParejassimples
m
d a
d c b a
d a +
=
+ + +
+
MedidadeJaccard
c b a
a
+ +
MedidadeDice
c b a 2
a 2
+ +
MedidadeRogersTanimoto
) c b ( 2 d a
d a
+ + +
+
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 5
MEDIDASDEASOCIACINPARAINDIVIDUOS
DistanciaEucldea:

=
=
p
1 c
2
jc ic j i
) x x ( ) x , x ( d
DistanciadeMinkowski:
q
1
q
p
1 c
jc ic j i q
x x ) x , x ( d

=

=
donde 1 q
Distanciad
1
ociudad(CityBlock):

=
=
p
1 c
jc ic j i
x x ) x , x ( d
DistanciadeTchebychevodelmximo(q=):
jc ic j i
x x ) p , , 1 c ( mx ) x , x ( e d = =

L
DistanciadeMahalanobis: ) x x ( S ) x x ( ) x , x ( D
j i
1
j i j i S
'
=

Distancia
2
:

=

= =

p
1 i
q
1 j
j i
2
ij 2
1
m m
n
m
3.ELECCINDELATCNICACLUSTER
3.1 MTODOSJERRQUICOS
OBJETIVO:Agruparclusterparaformarunonuevoosepararalgunoyaexistenteparadarorigena
otrosdosdeformaquesemaximiceunamedidadesimilaridadoseminimicealgunadistancia.
CLASIFICACIN:
AsociativosoAglomerativos:Separtedetantosgruposcomoindividuoshayenelestudioyse
vanagrupandohastallegaratenertodosloscasosenunmismogrupo.
Disociativos:Separtedeunsologrupoquecontienetodosloscasosyatravsdesucesivas
divisionesseformangruposcadavezmspequeos.
Losmtodosjerrquicospermitenconstruirunrboldeclasificacinodendograma.
3.2MTODOSNOJERRQUICOS
Estndiseadosparalaclasificacindeindividuos(nodevariables)enKgrupos.Elprocedimientoes
elegirunaparticindelosindividuosenKgruposeintercambiarlosmiembrosdelosclusterspara
tenerunaparticinmejor.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 6
MTODOSDEANLISISCLUSTER

Asociacin de Anlisis
Ward de Mtodo
Mediana la de Mtodo
Centroide del Mtodo
Grupos entre omedio Pr
Completo Linkage
Simple Linkage
os Disociativ
Ward de Mtodo
Mediana la de Mtodo
Centroide del Mtodo
Grupos entre omedio Pr
) lejano ms Vecino ( Linkage Complete
) prximo ms Vecino ( Linkage Simple
vos Aglomerati
cos Jerrqui


Q tipo Factorial Anlisis : ductivos Re Mtodos
Clustering Block : Directos Mtodos
Wolf de Mtodo
Fortin de Mtodo
Taxap Mtodos
Modal Anlisis
densidad de
Bsqueda
Dinmicas Nubes
Medias K
asignacin Re
cos Jerrqui
No
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 7
DISTANCIASENTRECONGLOMERADOS
Lasdistanciasentrelosconglomeradossonfuncionesdelasdistanciasentreobservaciones,hay
variasformasdedefinirlas:
SeanAyBdosconglomerados:
Vecinomscercano:
) j , i ( d mn ) B , A ( d
B j , A i
=
Vecinomslejano
) j , i ( d mx ) B , A ( d
B j , A i
=
Promediodegrupo
) j , i ( d
n . n
1
) B , A ( d
B j , A i
B A


=
Centroide(centrogravedad)
) x , x ( d ) B , A ( d
B A
=
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 8
MTODOLINKAGESIMPLEAGLOMERATIVO(Vecinomscercano)
Unavezqueseconocenlasdistanciasexistentesentrecadadosindividuosseobservaculessonlos
individuosmsprximosencuantoaestadistanciaosimilaridad(qudosindividuostienenmenor
distanciaomayorsimilaridad).Estosdosindividuosformanungrupoquenovuelveasepararse
duranteelproceso.
Serepiteelproceso,volviendoamedirladistanciaosimilaridadentretodoslosindividuosde
nuevo(tomandoelgrupoyaformadocomosdeunsoloindividuosetratara)delasiguiente
forma:
Cuandosemideladistanciaentreelgrupoformadoyunindividuo,setomaladistancia
mnimadelosindividuosdelgrupoalnuevoindividuo.
Cuandosemidelasimilitudosimilaridadentreelgrupoformadoyunindividuo,setomala
mximadelosindividuosdelgrupoalnuevoindividuo.
Ejemplo.Setienenlassiguientesdistanciasentreindividuos:
Distancia A B C D
A 0
B 9 0
C 4 5 0
D 7 3 11 0
tablasimtricapuestoqued(A,B)=d(B,A)
3 ) D , B ( d =
Distanciamnima
BDformanungrupo
Semidenlasdistanciasdenuevo:
Distancia A BD C
A 0
BD 7 0
C 4 5 0
4 ) A , C ( d =
Distanciamnima
ACformanungrupo
Semidenlasdistanciasdenuevo:
Distancia AC BD
AC 0
BD 5 0
5 ) D B , C A ( d =
Distanciamnima
ACBDformanungrupo
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 9
Elprocesoseguidoserepresentaen
unrboldeclasificacinllamado
DENDOGRAMA
Elnmerodegrupossepuededecidiraposteriori.
SIsedeseaclasificarestoselementosendosgrupos,laclasificacinresultantees:BDyAC
Sisedeseantresgrupos,setomalaclasificacinenelpasoanterior:BD,AyC.
MTODOLINKAGECOMPLETOAGLOMERATIVO(Vecinomslejano)
Conocidaslasdistanciasosimilaridadesexistentesentrecadadosindividuosseobservaculesson
losindividuosmsprximosencuantoaestadistanciaosimilaridad(qudosindividuostienen
menordistanciaomayorsimilaridad).Estosdosindividuosformarnungrupoquenovuelvea
separarseduranteelproceso.Posteriormente,serepiteelproceso,volviendoamedirladistanciao
similaridadentretodoslosindividuosdelasiguienteforma:
Cuandosemideladistanciaentreelgrupoformadoyunindividuo,setomaladistanciamxima
delosindividuosdelgrupoalnuevoindividuo.
Cuandosemidelasimilitudosimilaridadentreelgrupoformadoyunindividuo,setomala
mnimadelosindividuosdelgrupoalnuevoindividuo.
Ejemplo.Setienenlassiguientessimilaridades(coeficientedecorrelacinentrevariables):
Distancia A B C D E
A 1
B 0,39 1
C 0,75 0,24 1
D 0,56 0,63 0,42 1
E 0,81 0,72 0,12 0,93 1
tablasimtricapuestoqued(A,B)=d(B,A)
93 , 0 ) E , D ( s =
Similaridadmxima
DEformanungrupo
Semidenlassimilaridadesdenuevo:
Distancia A B C DE
A 1
B 0,39 1
C 0,75 0,24 1
DE 0,56 0,63 0,42 1
75 , 0 ) A , C ( s =
Similaridadmxima
ACformanungrupo
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 10
Semidenlassimilaridadesdenuevo:
Distancia AC B DE
AC 1
B 0,24 1
DE 0,12 0,63 1
63 , 0 ) E D , B ( s =
Similaridadmxima
BDEformanungrupo
Semidenlassimilaridadesdenuevo:
Distancia AC BDE
AC 1
BDE 0,12 1
12 , 0 ) E D B , C A ( s =
Similaridadmxima
ABCDEformanungrupo
Elprocesoseguidoserepresentaen
unrboldeclasificacinllamado
DENDOGRAMA
ELDENDOGRAMA:REPRESENTACINGRFICADEUNACLASIFICACINJERRQUICA
Undendogramaesunarepresentacingrficaenformaderbolqueresumeelprocesode
agrupacinenunanlisisdeclusters.
Losobjetossimilaresseconectanmedianteenlacescuyaposicineneldiagramaestdeterminada
porelniveldesimilitud/disimilitudentrelosobjetos.
Paraclarificarlaconstruccindeundendogramaysusignificadoseutilizaunejemplosencillocon5
objetosydosvariables:
objeto v1 v2
1 1 1
2 2 1
3 4 5
4 7 7
5 5 7
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 11
Apartirdeestosdatos,seconsideralamatrizdedistanciaseucldeas

=
=
p
1 c
2
jc ic j i
) x x ( ) x , x ( d entre
losobjetos.
objetos 1(1,1) 2(2,1) 3(4,5) 4(7,7) 5(5,7)
1(1,1)
0
2(2,1) 1
0
3(4,5) 5
20 5 , 4
0
4(7,7)
72 5 , 8 61 8 , 7 13 6 , 3
0
5(5,7)
52 2 , 7 45 7 , 6 5 2 , 2 4 2 =
0
Inicialmentehay5clusters,unoparacadaunodelosobjetosaclasificar.Deacuerdoconlamatrizde
distancias,losobjetos(clusters)mssimilaressonel1yel2(condistancia1),porloquesefusionan
losdosconstruyendounnuevoclusterA(12).
Serepiteelproceso,volviendoamedirladistanciadelclusterAalrestodelosobjetos(clusters).
Paraello,setomacomorepresentantedelgrupoelcentroidedelospuntosqueformanelcluster,es
decir,elpuntoquetienecomocoordenadaslasmediasdelosvaloresdelasvariablesparasus
componentes.Estoes,lascoordenadasdelclusterAson: [ ] ) 1 , 5 , 1 ( A 2 / ) 1 1 ( , 2 / ) 2 1 ( A + + .
cluster v1 v2
A(12) 1,5 1
3 4 5
4 7 7
Latabladedatoses:
5 5 7
Apartirdelanuevatablasecalculalanuevamatrizdedistanciasentrelosclustersquehayeneste
momento:
cluster A(1,5,1) 3(4,5) 4(7,7) 5(5,7)
A(1,5,1)
0
3(4,5) 25 , 22 7 , 4 0
4(7,7) 25 , 66 1 , 8 13 6 , 3
0
5(5,7)
25 , 48 9 , 6 5 2 , 2 4 2 =
0
Losclustersmssimilaressonel4yel5(condistancia2),quesefusionanenunnuevocluster
B(45),cuyocentroideeselpunto(6,7).
cluster v1 v2
A(12) 1,5 1
B(45) 6 7
Latabladedatoses:
3 4 5
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 12
Sevuelvearepetirelprocedimientoconlanuevatabladedatos:
cluster A(1,5,1) B(6,7) 3(4,5)
A(1,5,1)
0
B(6,7) 25 , 56 5 , 7 = 0
3(4,5) 25 , 22 7 , 4 8 8 , 2
0
LadistanciamspequeaestentreelclusterB(45)yel3(distancia2,8),quesefusionanenun
nuevoclusterC(345),cuyocentroideser [ ] ) 3 , 6 , 3 , 5 ( C 3 / ) 7 7 5 ( , 3 / ) 5 7 4 ( C + + + + .
cluster v1 v2
A(12) 1,5 1 Latabladedadoses:
C(345) 5,3 6,3
Recalculandocomoanteslamatrizdelasdistancias,setiene:
cluster A(1,5,1) C(5,3,6,3)
A(1,5,1)
0
C(5,3,63) 53 , 42 5 , 6 0
Elprocesocompletodefusionesseresumemedianteundendograma:
Eneldendogramapareceevidentequetenemosdosclusters,denominadosAyC.
Engeneral,sisecortaeldendogramamedianteunalneahorizontal(grficosiguiente),sedetermina
elnmerodeclustersenquesedivideelconjuntodeobjetos.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 13
Seobservaqueseobtienen2clusters.
Ahorabien,sisecortacomoenlafiguradeabajo,seobtendran3clusters:
Ladecisinsobreelnmeroptimodeclustersssubjetiva,especialmentecuandoseincrementael
nmerodeobjetospuessiseseleccionanpocos,losclustersresultantessonheterogneosy
artificiales,mientrasquesiseseleccionandemasiados,lainterpretacindelosmismossueleresultar
complicada.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 14
Paratomarunadecisinsobreelnmerodeclustersse
suelenrepresentarlosdistintospasosdelalgoritmoyla
distanciaalaqueseproducelafusin.
Enlosprimerospasoselsaltoenlasdistanciases
pequeo,mientrasqueenlosltimoselsaltoentrepasos
sermayor.Elpuntodecorteseraquelenelque
comienzanaproducirsesaltosbruscos.
Elsaltobruscoseproduceentrelospasos3y4elpunto
ptimoserel3,endondehaba2clusters.
Algunasvecessepresentaeldendogramayelgrficodeevolucindelasfusiones:
ALGORITMOSPARAELANLISISDECLUSTER:
DISTINTASFORMASDEMEDIRLADISTANCIAENTRECLUSTERS
Existendiversasformasdemedirladistanciaentreclustersqueproducendiferentesagrupacionesy
diferentesdendogramas.Noexisteuncriterioparaseleccionarcualdelosalgoritmosesmejor.La
decisinesnormalmentesubjetivaydependedelmtodoquemejorreflejelospropsitosdecada
estudioparticular.
Enprimerolugar,secomienzaconunaexposicingeneraldelosmtodosparacontinuarcon
expresionesparticularesdelosmismos:
SidosobjetosogruposAyBsehanagrupado,ladistanciadegruposconotroobjetoCpuede
calcularsecomounafuncindelasdistanciasentrelostresobjetosogruposdelasiguiente
forma:
) B , C ( d ) A , C ( d ) B , A ( d ) B , C ( d ) A , C ( d ) B A , C ( d
4 3 2 1
+ + + = +
donde n ponderaci tes tan cons
i
.
Enlatablasiguientesemuestranlospesosparaalgunosdelosmtodosmscomunes.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 15
Mtodo
1

Saltomnimo
2
1
2
1
0
2
1

Saltomximo
2
1
2
1
0
2
1
Media
B A
A
n n
n
+
B A
B
n n
n
+
0 0
Centroide
B A
A
n n
n
+
B A
B
n n
n
+
2
B A
B A
) n n (
n n
+

0
Mediana
2
1
2
1
4
1
0
Ward
B A C
A C
n n n
n n
+ +
+
B A C
B C
n n n
n n
+ +
+
B A C
C
n n n
n
+ +

0
MtodoFlexible
2
1
2
1

0
donde
B A C
n , n , n denotanelnmerodeobjetosencadaunodelosgruposy esunvalorarbitrario
1 0 < <
MTODODELAMEDIA(AVERAGELINKAGE)
Enelmtododelamedia,ladistanciaentreclusterssecalculacomoladistanciamediaentrepares
deobservaciones,unadecadacluster.
) B , C ( d
2
1
) A , C ( d
2
1
) B A , C ( d + = +
Sealamatrizdedistancias:
objetos 1 2 3 4 5
1
0
2
1
0
3 5 5 , 4 0
4 5 , 8 8 , 7 6 , 3 0
5 2 , 7 7 , 6 2 , 2
2
0
Despusdeagruparelobjeto1y2enelclusterA(12).
SecalculanlasdistanciasdeAa(3,4y5)
objetos 1 2 distancia
3 5 5 , 4 75 , 4 2 / ) 5 , 4 5 ( = + 4,75
4 5 , 8 8 , 7 15 , 8 2 / ) 8 , 7 5 , 8 ( = + 8,15
5 2 , 7 7 , 6 95 , 6 2 / ) 7 , 6 2 , 7 ( = + 6,95
Lamatrizdelasdistanciasesentonces:
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 16
objetos A(12) 3 4 5
A(12)
0
3 4,75 0
4 8,15 6 , 3 0
5 6,95 2 , 2
2
0
Denuevo,ladistanciamspequeaesentre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos 4 5 distancia
A 8,15 6,95 55 , 7 2 / ) 95 , 6 15 , 8 ( = + 7,75
3 3,6 2,2 9 , 2 2 / ) 2 , 2 6 , 3 ( = + 2,9
Lamatrizdelasdistanciases:
objetos A(12) B(45) 3
A(12)
0
B(45) 7,55 0
3 4,75 2,9 0
Elvalormspequeoes2,9,luegosefusionanBcon3formandoelclusterC(345).
SecalculaladistanciaentreCyA:
objetos 3 4 5 distancia
A(12) 4,75 8,15 6,95 62 , 6 3 / ) 95 , 6 15 , 8 75 , 4 ( = + + 6,62
Lamatrizdelasdistanciases:
objetos A C
A 0
C 6,62 0
Elprocesotermina.Eldendogramaobtenido:
Enelprocesosehanutilizadonicamentelasdistancias,deformaqueparaesteprocedimientono
esnecesariodisponerdelosvaloresoriginalesdelasvariables.
Elmtododelasmediasproporcionaclustersnidemasiadograndesnipequeos,tendiendoa
fusionarclustersconvarianzaspequeasyaproporcionarclustersconlamismavarianza.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 17
MTODODELVECINOMSPRXIMO(AVERAGELINKAGE)
Enelmtododelvecinomsprximoladistanciaentredosclusterseselmnimodelasdistancias
entreunobjetodeunclusteryunobjetodelotro.
[ ] ) B , C ( d ), A , C ( d mn ) B A , C ( d = +
Sealamatrizdedistancias:
objetos 1 2 3 4 5
1
0
2
1
0
3 5 5 , 4 0
4 5 , 8 8 , 7 6 , 3 0
5 2 , 7 7 , 6 2 , 2
2
0
Ladistanciamspequeaes1,entre1y2,quesefusionanenelclusterA(12).
SecalculanlasdistanciasdeAa(3,4,5):
objetos 1 2 distancia
3 5 5 , 4 5 , 4 ) 5 , 4 , 5 ( mn = 4,5
4 5 , 8 8 , 7 8 , 7 ) 8 , 7 , 5 , 8 ( mn = 7,8
5 2 , 7 7 , 6 7 , 6 ) 7 , 6 , 2 , 7 ( mn = 6,7
Lamatrizdelasdistanciasesentonces:
objetos A(12) 3 4 5
A(12)
0
3 4,5 0
4 7,8 6 , 3 0
5 6,7 2 , 2
2
0
Denuevo,ladistanciamspequeaes2,entre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos 4 5 distancia
A 7,8 6,7
7 , 6 ) 7 , 6 , 8 , 7 ( mn = 6,7
3 3,6 2,2
2 , 2 ) 2 , 2 , 6 , 3 ( mn = 2,2
Lamatrizdelasdistanciases:
objetos A(12) B(45) 3
A(12)
0
B(45) 6,7 0
3 4,5 2,2 0
Elvalormspequeoes2,2,luegosefusionanBcon3formandoelclusterC(3B).
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 18
SecalculaladistanciaentreCyA:
objetos 3 B(45) distancia
A(12) 4,5 6,7
5 , 4 ) 7 , 6 , 5 , 4 ( mn = 4,5
Lamatrizdelasdistanciases:
objetos A C
A 0
C 4,5 0
Elprocesotermina.Eldendogramaobtenido:
Elmtododelvecinomsprximotiendeaconstruirclustersdemasiadograndesysinsentido.Es
tilparadetectaroutliers(estarnenlosltimosenunirsealajerarqua).Noestilpararesumir
datos.
MTODODELVECINOMSLEJANO(COMPLETELINKAGE)
Enelmtododelvecinomslejanoladistanciaentredosclusterseselmximodelasdistancias
entreunobjetodeunclusteryunobjetodelotro.
[ ] ) B , C ( d ), A , C ( d mx ) B A , C ( d = +
Sealamatrizdedistancias:
objetos 1 2 3 4 5
1
0
2
1
0
3 5 5 , 4 0
4 5 , 8 8 , 7 6 , 3 0
5 2 , 7 7 , 6 2 , 2
2
0
Ladistanciamspequeaes1,entre1y2,quesefusionanenelclusterA(12).
SecalculanlasdistanciasdeAa(3,4,5):
objetos 1 2 distancia
3 5 5 , 4 5 ) 5 , 4 , 5 ( mx = 5
4 5 , 8 8 , 7 5 , 8 ) 8 , 7 , 5 , 8 ( mx = 8,5
5 2 , 7 7 , 6 2 , 7 ) 7 , 6 , 2 , 7 ( mx = 7,2
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 19
Lamatrizdelasdistanciasesentonces:
objetos A(12) 3 4 5
A(12)
0
3 5 0
4 8,5 6 , 3 0
5 7,2 2 , 2
2
0
Denuevo,ladistanciamspequeaes2,entre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos 4 5 distancia
A 8,5 7,2
5 , 8 ) 2 , 7 , 5 , 8 ( mx =
8,5
3 3,6 2,2
6 , 3 ) 2 , 2 , 6 , 3 ( mx =
3,6
Lamatrizdelasdistanciases:
objetos A(12) B(45) 3
A(12)
0
B(45) 8,5 0
3 5 3,6 0
Elvalormspequeoes3,6,luegosefusionanBcon3formandoelclusterC(3B).
SecalculaladistanciaentreCyA:
objetos 3 B(45) distancia
A(12) 5 8,5
5 , 8 ) 5 , 5 , 8 ( mn = 8,5
Lamatrizdelasdistanciases:
objetos A C
A 0
C 8,5 0
Elprocesotermina.Eldendogramaobtenido:
Elmtododelvecinomslejanotiendeaconstruirclustersdemasiadopequeosycompactos.Estil
paradetectaroutliers.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 20
ANLISISDECONGLOMERADOSJERRQUICOENSPSS
REQUISITOS Despusdedescribirlasvariables,secomienzaconunprimeranlisisdelainformacin
paraeliminarlainfluenciadecasosatpicos(Analizar/Estadsticosdescriptivos/Descriptivos),
observadosenGrficodeCaja(Analizar/Estadsticosdescriptivos/Explorar).
Dossolucionespermitensolventarelproblemadeloscasosatpicos:
(a) Cambiarlosdatosinicialesdelejemplopordatospromedio(porejemplo,nmerodesalasde
cinepormilhabitantes).
(b) Realizartransformacionesdeladistribucindedatos(enespecialcuandohayimposibilidadde
disponerdedatospromedio,obiencuandosehainvertidounagrancantidaddedineroen
conseguirlosdatosyespocofactibleotrarecogidadedatos),utilizandolaescalerade
transformacionesdeTukey.
Laasimetrapositivasepuedecorregirseconracescuadradasylogaritmosnaturales
cuandotienenvaloresbajos,yconfuncionesinversasoinversoscuadrticoscuandolosvalores
sonelevados.Demenoramayorpotencia:larazcuadrada,latransformacinlogartmica,yel
negativodelinversodelarazcuadrada.
Laasimetranegativasecorrigemedianteantilogaritmoscuandoesmuyelevada,ycon
elevacionescbicasycuadrticascuandoesmssuave.
PararealizarestastransformacionesenSPSS
[Transformar/Calcularvariable]
Traseliminarlainfluenciadeloscasosatpicos,antesdeprocederalAnlisisClusteres
necesariocomprobarhastaqupuntolosdatoscumplenlossupuestosdelanlisisdeclasificacin.
Sabemosqueesteanlisisestudialascaractersticasestructuralesdeunconjuntodeobservaciones
conelfindeagruparlasenconjuntoshomogneos,demodoquealnoserpropiamenteunatcnica
deinferenciaestadsticaapenastienenimportancialasexigenciasdenormalidad,linealidady
homocedasticidadtanimportantesenprocedimientosdeinferencia.
Sinembargo,unacorrectaaplicacindelAnlisisClusterrequierequelosdatoscumplantres
condicionesbsicas:
(a) Ausenciadecorrelacinentrelasvariables.
(b) Nmerodevariablesnomuyelevado.
(c) Quelasvariablesnoestnmedidasenunidadesdiferentes.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 21
(a)Laexistenciadecorrelacin(Analizar/Correlaciones/Bivariadas)entrelasvariablesimplicaque
unasvariablessoncombinacioneslinealesdeotras,quecomparteninformacinconotrasvariables;
loqueimplicaqueestainformacincompartidatieneunamayorimportancia(ponderacin).
Adems,cuandolasvariablesestncorrelacionadassecorreelpeligrodeincluirinformacin
redundanteenelmodelo,algoquesedebeevitar(principiodeparsimonia).
Porestemotivoesimportantequeelinvestigadoranalicecuidadosamentelamatrizdecorrelaciones
antesdellevaracaboelAnlisisCluster,colocandounmismonmerodevariablesdecadatemtica
outilizandounamedida(comoladistanciadeMahalanobis)quecompenseestacorrelacin.Cuando
noexistecorrelacinentrevariablesestadistanciaessimilaraladistanciaeucldea.
Otrasolucinposible,cuandolasvariablesestncorrelacionadas,esaplicarunAnlisisFactorialque
reduzcatodoelconjuntodevariablesobservadasaunnmeromenordefactorescomunes
incorrelacionadosentres.Estemismoprocedimientopuedeutilizarsecuandoelnmerode
variablesutilizadasesmuyelevado.
(c)Elrequisitodequelasvariablesnoestnmedidasenunidadesdiferentessesolucionamediante
laestandarizacin(otipificacin)detodaslasunidadesatratar.Existeciertacontroversiasobresila
tipificacindebedeserunprocedimientoautilizarentodoanlisisdeconglomerados.
EntrelosautoresquenodefiendenelprocesodeestandarizacinEveritt(1993),Edelborck(1979)
sesostienetresposiblessolucionesparasolucionarelproblemadetenervariablescondistinta
unidad:(1)Recategorizartodaslasvariablesenvariablesbinarias,yaplicarastasunadistancia
apropiadaparaesetipodemedidas.(2)Realizardistintosanlisisdeclustercongruposdevariables
homogneas(encuantoasumtrica),ysintetizardespuslosdiferentesresultados.(3)Utilizarla
distanciadeGower,queesaplicableconcualquiertipodemtrica.
Pesealafaltadeacuerdoycantidaddealternativasquesurgenanteesteproblema,lamayorade
losexpertosaconsejanrealizarelanlisisconvariablesestandarizadas.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 22
DEFINICINDELPROBLEMAAINVESTIGAR.Elobjetivodelanlisisdeconglomeradoses
identificargruposhomogneosdecasosconsiderandounaseriedecriterios.
Losmtodosjerrquicossecaracterizanporquecomienzanconcasosindividualesquevansiendo
clasificadoshastaformarunnicoconglomerado.
Ejemplo1.EnlatablasepresentalaactividaddelassalasdeproyeccinporComunidades
Autnomas,datosINEde1998.
Nespectadores
CCAA NCines NPelculas
Pelculas
Espaolas
Pelculas
Extranjeras
Recaudacin
(milespesetas)
1 Andaluca 448 330 1380202 13976149 7709721
2 Aragn 76 310 580526 3513294 2370874
3 Asturias 55 383 207100 1524423 1000709
4 Baleares 68 523 280851 2081987 1496299
5 Canarias 94 394 345213 4056725 2288764
6 Cantabra 26 315 190540 1149257 847231
7 Cast.Mancha 211 295 1049698 5319556 3464668
8 Cast.Len 102 234 404716 2406798 1490303
9 Catalua 585 502 2179229 19324988 14234196
10 Valencia 300 435 1267581 9849692 6061359
11 Extremadura 69 309 226139 1614986 912405
12 Galicia 166 341 570921 4465381 2680531
13 Madrid 474 764 3188742 1926469 15282573
14 Murcia 88 358 326445 2669391 1647870
15 Navarra 37 441 245750 1403940 981839
16 PasVasco 171 385 730241 5277214 3673712
17 LaRioja 22 309 120135 769674 526496
2992 6.628 13.294.029 81.329.924 66.669.550
LoscasosaagruparsonlasComunidadesAutnomas(CCAA)yloscriteriospararealizaresta
agrupacinestnrelacionadosconlaactividaddeloscinesdurante1998.
Laactividadserefiere:alnmerodecines,nmerodepelculasproyectadas(ttulos),nmerode
espectadoresdepelculasespaolas,nmerodeespectadoresdepelculasextranjerasyrecaudacin
obtenidaenmilesdepesetas.
1.PRIMERANLISISDEINFORMACIN
Elanlisiscomienzaconunaprimeradescripcindelfenmenoainvestigar.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 23
Elanlisisreflejaqueelnmerodecinesoscilaentre22delaRiojay585cinesdeCatalua,que
proporcionaunamediade176salasdecineporComunidadAutnoma.EncadaComunidadse
proyectaronunamediade390nuevaspelculas(ttulos),quefueronvistaspor94.623.953
(13.294.029+81.329.924) espectadores.Elnmeromediodeespectadoresdelaspelculas
extranjerasesmuysuperioraldepelculasespaolas;enestesentido,lacuotadepantalladelcine
espaolesdel14%(13.294.029/94.623.953).Deotraparte,los66.669.550milesdepesetas
recaudados,proporcionaungastomediode705pesetas.
Considerarlosnmerosabsolutos(totaldecines,depelculas,deespectadoresyderecaudacin)en
lugardelosnmerospromedioporhabitantegeneraquelasComunidadesconmshabitantes
tenganunmayorequipamiento,proyectenmsttulos,recibanmsespectadoresyconsiganmayor
recaudacin.Estehechogeneracasosatpicoscomoseobservaenelgrficodecajadelasvariables
analizadas(Analizar/Estadsticosdescriptivos/Explorar).
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 24
Enelgrficoseobservacomoelnmerodecinespresentatrescasosatpicosidentificadosconlos
nmeros1(Andaluca),9(Catalua)y13(Madrid),quesonlasComunidadesconmayornmerode
cines.Anlogamente,tambinsepresentauncasoatpicoenelnmerodettulosestrenados,
identificadoconel13(Madrid).
Deotraparte,respectoalnmerodeespectadoresylarecaudacinobtenida,sereflejandenuevo
casosatpicosenlosnmeros1,9y13.
Lalocalizacindeloscasosatpicosenlapartesuperiordeladistribucinindicaquesetratade
distribucionesconasimetrapositiva(comosereflejaenlatabladeEstadsticosdescriptivos),
distribucionesquesernecesariosimetrizarantesdeaplicarelAnlisisCluster.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 25
Considerandolaescaleradelas
transformacionesdeTukey,laasimetra
positivasecorrigesustituyendolosdatos
recogidosporsurazcuadradaosulogaritmo,
enelcasodequelastransformaciones
proporcionenresultadosmuysimilaresseopta
porlamenospotente.
Enestecasoseoptaporrealizaruna
transformacinrazcuadradaalasvariablescon
valoresatpicos.Enestesentido,lasnuevas
variablestransformadassedenominanconel
mismonombreterminandoenR.
Trasdescribirlasvariablesyeliminarlainfluenciadeloscasosatpicos,antesdeprocederconel
AnlisisClusteresnecesariocomprobarhastaqupuntolosdatoscumplenconlossupuestosdel
anlisisdeclasificacin.UnacorrectaaplicacindelAnlisisClusterrequierequesecumplantres
requisitosbsicos:(a)Ausenciadecorrelacinentrelasvariables.(b)Nmerodevariablesnomuy
elevado.(c)Quelasvariablesnoseencuentrenmedidasenunidadesdiferentes.
(a)Silasvariablesseencuentrancorreladassecorreelpeligrodeincluirinformacinredundanteque
sedebeevitarentodomomento.Porestemotivoesimportanteanalizarlamatrizdecorrelaciones
antesdeproseguirconelestudio.Cuandoexistecorrelacinentrelasvariablesseutilizaunamedida
(distanciadeMahalanobis)paracompensarlacorrelacin.Cuandonoexistecorrelacinentre
variablesestadistanciaessimilaraladistanciaeucldea.
Paraanalizarlaexistenciadecorrelacin(Analizar/Correlaciones/Bivariadas):
SedetectaunaelevadarelacindelavariableRecaudacinconelrestodelasvariablesdelmodelo,
relacionessignificativasal0,01porloqueseprecedeaeliminarlasdelmodelo.Paraello,enlugarde
lavariableRecaudacinseutilizalavariableGastomedioporespectador.
(d) Lamtricadelasvariablessesolucionaestandarizando(otipificando)todaslasunidadesatratar.
[Analizar/Estadsticosdescriptivos/Descriptivos]
Lasvariablesguardadasestandarizadas
comienzanconlaletraZ:
ZCinesR,ZPeliculasR,ZPelis_EspaaR,
ZPelis_ExtranR,ZGasto_medio
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 26
2.ANLISISDECLUSTERCONSPSS
LasComunidadesAutnomasespaolassernclasificadasconsiderandoelnmerodecines
(ZCinesR),elnmerodepelculasproyectadas(ZPeliculasR),elnmerodeespectadoresdepelculas
espaolas(ZPelis_EspaaR),elnmerodeespectadoresdepelculasextranjeras(ZPelis_ExtranR)yel
gastomedioporespectador(ZGasto_medio).
CCAA ZCinesR ZPeliculasR ZPelis_EspaaR ZPelis_ExtranR ZGasto_medio
1 Andaluca 1,5409 0,4846 0,9484 1,8129 1,7626
2 Aragn 0,5340 0,6803 0,0792 0,1008 0,2651
3 Asturias 0,7510 0,0071 0,8428 0,7576 0,6904
4 Baleares 0,6126 1,1620 0,6565 0,5438 0,5767
5 Canarias 0,3711 0,1048 0,5132 0,0427 0,2096
6 Cantabra 1,1372 0,6308 0,8890 0,9245 0,7609
7 Cast.Mancha 0,4341 0,8313 0,5744 0,3427 0,1446
8 Cast.Len 0,3037 1,4890 0,3922 0,4324 0,4959
9 Catalua 2,0444 0,9996 1,6984 2,4879 2,8694
10 Valencia 0,8999 0,4575 0,8265 1,1969 0,9994
11 Extremadura 0,6025 0,6903 0,7919 0,7205 0,6706
12 Galicia 0,1604 0,3795 0,0950 0,1443 0,0954
13 Madrid 1,6418 2,8325 2,4686 0,6002 0,0812
14 Murcia 0,4235 0,2203 0,5535 0,3478 0,4627
15 Navarra 0,9732 0,5076 0,7417 0,8087 0,7051
16 PasVasco 0,1925 0,0250 0,1513 0,3333 0,0795
17 LaRioja 1,2053 0,6903 1,1128 1,1244 0,8419
ParaefectuarunAnlisisClusterutilizandoSPSSseentraenAnalizar/Clasificar/
Haytresopcionesposibles:Conglomeradoendosfases/Conglomeradodekmedias/Conglomerados
jerrquicos.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 27
CONGLOMERADOENDOSFASES:Estpensadoparaanlisisconunnmerograndede
individuos,quepuedentenerproblemasdeclasificacinconotrosprocedimientos.
Tienelaparticularidadquepermitetrabajarconjuntamenteconvariablesdetipomixto
(cualitativasycuantitativas).
Puederealizarsecuandoelnmerodecluster(conglomerado)esconocidoaprioriy
tambincuandonoseconoce.
CONGLOMERADOSNOJERRQUICOS:Sepuedeaplicarsloavariablescuantitativasyrequiere
conocerelnmerodeconglomeradosapriori.
Puederealizarseparaunnmerodeobjetosrelativamentegrandepuesnorequiereelclculo
detodaslasposiblesdistancias.
CONGLOMERADOSJERRQUICOS:Seutilizaparavariablescuantitativasocualitativas.
Noseconoceelnmerodeconglomeradosaprioriycuandoelnmerodeobjetosnoesmuy
grande.
SeoptaporConglomeradosjerrquicos
SecomienzapulsandoelbotnMtodoquees
elmsimportante,puestoquepermite
seleccionarelprocesodeagrupamiento,la
distanciaautilizar,yeltipodetransformacina
llevaracaboenelcasoqueseprecisealguna.
Elprocesocomienzaconlaeleccindela
distanciaaconsiderar,puestoqueelmtodode
agrupamientoserealizasobreestamatrizde
distancias.
Porello,losprimeroqueserealizaesmedirqu
gradodesimilitudodediferenciatienenloscasos
seleccionados.
Laeleccindelamedidadedistanciavaraen
funcindelamtricadelasvariablesutilizadas.
CLASIFICACINDELASPRINCIPALESMEDIDASDEDISTANCIA:

Tanimoto y Rogers
Sneath y Sokal
Rao y Rusel
Jaccard
Binarios Datos

cuadrado Phi
cuadrado Chi
Discretas Variables
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 28

Minkowski de cia tan Dis


block City o tan Manhat , Bloque
Chebynev de mtrica cia tan Dis
) asociacin ( Pearson de n Correlaci
vectores de Coseno
cuadrado al eucldea cia tan Dis
eucldea cia tan Dis
Continuas Variables
Determinadalamedidadedistancia(Distanciaeucldeaalcuadrado)seprocedeaelegirelmtodo
deagrupamiento:
Vinculacinintergrupos
Vinculacinintragrupos
Vecinomsprximo
Vecinomslejano
Agrupacindecentroides
Agrupacindemedianas
MtododeWard
Vinculacinintergrupos(promedioentregrupos):Ladistanciaentrelosgruposeslamedia
aritmticadelasdistanciasexistentesentretodosloscomponentesdecadagrupo,consideradosdos
ados.Seconsiguengruposconvarianzassimilaresypequeas.
Vinculacinintragrupos(promediointragruposomediaponderada):Esunavariantedelanterior,
aunqueenestecasosecombinanlosgruposbuscandoqueladistanciapromediodentrodecada
conglomeradosealamenorposible.Asenlugardeconsiderarlosparesdeloselementosque
pertenecenacadaunodelosgrupos,seconsiderantodoslosparesresultantesencasodequelos
dosgruposseuniesen.
Vecinomsprximo(distanciasmnimas):Agrupaaloscasosqueseencuentranamenordistancia.
Unidosdoscasos,acontinuacinseformaeltercerconglomeradobuscandoladistanciamscorta
entrelostreselementos.Elproblemadeestemtodoesquesueleprovocarunefectolneaalunir
loscasosmscercanos,altiempoqueesmuysensiblealapresenciadecasosextremos.
Vecinomslejano(distanciasmximas):Similaralvecinomsprximo,aunqueaquseprocedea
unirloscasosqueseencuentranamayordistancia,siendounmtodomsrestrictivoqueel
anterior.Eliminaelefectolnea,aunquetambinesmuysensiblealapresenciadecasosextremos.
Agrupacindecentroides:Ladistanciaentredosgruposesladistanciaexistenteentresuscentrosde
gravedad(centroides).Elprocesocomienzacalculandoelcentrodegravedaddecadaconglomerado,
paraagruparlosconglomeradoscuyadistanciaentrecentroidesseamnima.Trasunirdos
conglomeradossecalculoelnuevocentrodegravedadyseprocededeformasimilar.Coneste
procedimientosereducelainfluenciadecasosextremos.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 29
Agrupacindemedianas:Esunavariacindelaagrupacindecentroides,dondenoseconsiderael
nmerodeindividuosqueformancadaunodelosagrupamientos.Enelmtodoanteriorsecalcula
elcentroideenfuncindelnmerodeindividuosdecadaconglomerado,demodoquecuandose
uneungranconglomerado(porejemplo10casos)conotromuypequeo(porejemplo2casos),este
ltimoapenasvaralasituacindelcentroideinicial.Enelmtododelamediananoseconsiderael
nmerodeelementosdecadaconglomerado,sinoelnmerodeconglomerados.
MtododeWard(omtododeprdidadelainerciamnima):Cuandoseunendosconglomerados,
conindependenciadelmtodoutilizado,lavarianzaaumenta.ElmtododeWarduneloscasos
buscandominimizarlavarianzadentrodecadagrupo.Paraellosecalcula,enprimerlugar,lamedia
detodaslasvariablesencadaconglomerado.Acontinuacin,secalculaladistanciaentrecadacaso
ylamediadelconglomerado,sumandodespuslasdistanciasentretodosloscasos.Posteriormente
seagrupanlosconglomeradosquegeneranmenosaumentosenlasumadelasdistanciasdentrode
cadaconglomerado.Esteprocedimientocreagruposhomogneosycontamaossimilares.
Sealarlanecesidaddeestandarizalasvariables
cuandoestnmedidasendistintasunidades.En
laparteinferiordelcuadrodedilogoaparece
unacmodaopcinparaefectuarestatarea,
realizandounatransformacindelosvalores
antesdeprocederconelclculodelasdistancias.
Enestecaso,seseleccionaNingunoporqueyase
hanestandarizadolosdatosutilizandolaopcin
Guardarvalorestipificadosaplicandolaopcin
Analizar/Estadsticosdescriptivos/Descriptivos
Porltimo,existelaposibilidaddetransformarlasmedidasdedistancia,pudiendoelegirentre:
Valoresabsolutos:Consideraelvalorabsolutodeladistancia,eliminandoelsigno.Interesante
cuandointeresalamagnituddeladistanciaynosusigno.
Cambiarelsigno:Transformamedidasdedistanciaenmedidasdesimilitud,yviceversa.
Cambiarescalaalrango01:estandarizalosvaloresrestandoelvalordeladistanciamenory
dividiendodespusentreelrango,consiguiendodeestaformaconvertirtodaslasmedidasal
rango01.
ElbotnEstadsticosfacilitaelcuadrodedilogo
adjunto.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 30
Historialdeconglomeracin:Presentaelprocesodeelaboracindelosagrupamientos,
mostrandoloscasos(ovariables)combinadosencadaetapayladistanciaentrecadauno.
Matrizdedistancias:Proporcionalasdistanciasosimilaridadesentreloscasos(ovariables).
Conglomeradodepertenencia:Indicaelconglomeradoalqueseasignacadacaso.El
investigadorpuedeseleccionarunasolucinnica,ounrangodesolucionesparaconocercmo
varalacomposicindelosgruposenfuncindelnmerofinaldeconglomerados.Eneste
ejemplosehaoptadoporlasegundaopcin,buscandoconocerelconglomeradode
pertenenciadecadaComunidadAutnomacuandosesolicitan3,4y5grupos.
ElbotnGrficospermiteelegirentredostipos:
Dendograma:Grficodondesemuestraelprocesode
agrupamientoentreloscasosyladistanciaenquese
producecadaagrupamiento.Eslarepresentacingrfica
delhistorialdeconglomeracinvistoenlaopcin
estadsticos,yproporcionainformacinmuyvaliosasobre
elnmerofinaldeconglomeradosaconservar.
Tmpanos:Presentaundiagramadetmpanosdondesemuestraelprocesodecombinacindelos
casosencadaconglomerado.Existelaposibilidaddemostrartodoslosconglomeradosoun
determinadorango.
ConlaopcinGuardarsecreanlasnuevas
variablesCLUS3_1,CLUS4_1yCLUS5_1.
EnelVisordeSPSScomienzaproporcionandolamatrizdedistanciasentrelasComunidades
Autnomas,calculandolas
2
) 1 n ( n
medidasdeproximidadentrelos(n)casostomadosdedosen
dos.Enestecaso,elanlisisdelas17ComunidadesAutnomasproporciona136medidasde
distancia 136
2
) 1 17 ( 17
=

Enlatablasiguientesemuestranloscoeficienteselaboradosutilizandoladistanciaeucldeaal
cuadrado(sumadelasdiferenciasalcuadradoentredoselementosdeunavariable).Considerando
laspuntuacionestransformadasestandarizadasmostradasalprincipiodelAnlisisdeCluster,la
distanciade13,173entreAndalucayAragnseobtienedelaexpresin:

[ ] [ ] [ ]
[ ] [ ] 173 , 13 ) 2651 , 0 ( 7626 , 1 ) 1008 , 0 ( 8129 , 1
) 0792 , 0 ( 9484 , 0 ) 6803 , 0 , 0 ( 4846 , 0 ) 5340 , 0 ( 5409 , 1 D
2 2
2 2 2 2
= + +
+ + + =
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 31
LoscoeficientesdelamatrizdedistanciasindicanladistanciaentrelasComunidadesAutnomas
considerandolasvariablesdelanlisis,demodoquecuantomayorseaelcoeficienteentredos
Comunidadesexistirmayordistanciaentreellas,yenconsecuenciasernmsdiferentes.
Unanlisisdetalladodeloscoeficientesdelatablarevelaunagransimilitudenlaactividaddelos
cinesdeCantabrayLaRioja(conunadistanciade0,105).OtrasComunidadesconpautasparecidas
sonGaliciayPasVasco(conunadistanciade0,292).LasComunidadesmsdiferentesencuantoala
actividadcinematogrficasonCataluayCantabra(conunadistanciade44,3).
Convieneretenerestainformacinpararealizarunseguimientodelprocesodeformacindelos
agrupamientos,conlaayudadelHistorialdeAglomeracin,ascomosurepresentacingrfica
(Dendograma).ResaltarquelasComunidadesmssimilaressonCantabria(nmero6)yLaRioja
(nmero17),yporestosonlasprimerasqueseunenenelHistorialdeAglomeracin.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 32
SeobservaqueCantabria(6)yLaRioja(17)sonlasprimerasComunidadesqueseunenenel
HistorialdeAglomeracin.Delaltimacolumna(Prximaetapa)sedesprendequeesteprimer
agrupamientovolveraserutilizadoenlaetapa5.
Unavezrealizadoelprimerconglomerado,elprogramavuelvearecalcularunanuevamatrizde
distanciasentrelos16elementosrestantes,esdecirlos15elementosylaagrupacin
(CantabriaLaRioja).Esteprimerclustervolveraserutilizadoenlaetapa5.
EnlasegundaetapaseefectaunagrupamientoconlasComunidades12y16(Galicia,Pas
Vasco),aunadistanciade0,198.Estesegundoconglomerado(cluster)volveraserutilizadoen
laetapa7.
EnlaterceraetapaseunenlasComunidadesdeAsturias(3)yNavarra(15),aunadistanciade
0,355,estetercerclustervolveraserutilizadoenlaetapa8.
EnlacuartaetapaseproducelaunindeCanarias(5)yMurcia(14),aunadistanciade0,518,
clusterquevolveraserutilizadoenlaetapa6.
EnlanovenaetapaseproducelaunindeAndaluca(1)yValencia(10),aunadistanciade
3,586,clusterquevolveraserutilizadoenlaetapa13.
HastaahorasehatratadodeagrupamientossimplesformadospordosComunidades,peroes
posibletambinformarclustersconlaunindeagrupamientosanteriores.
- Estoseproduceporprimeravezenlaetapa5,dondeelconglomerado6(Cantabria)quese
unial17(LaRioja)enlaprimeraetapaseunealconglomerado11(Extremadura).Demodo
queenestemomentoseproduceunagrupamientoentre(CantabriaLaRiojaExtremadura),a
unadistancia0,836,clusterquevolveraserutilizadoenlaetapa12.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 33
- Enlaetapa6seunenlosconglomerados2(Aragn)y5(queseunial14enlacuartaetapa),
produciendoelagrupamiento(AragnCanariasMurcia),aunadistanciade1,250,cluster
queserutilizadodenuevoenlaetapa10.
- Enlaetapa7seunenlosconglomerados7(CastillaLaMancha)y12(queseunial16enla
segundaetapa),produciendoelagrupamientoCastillaLaManchaGaliciaPasVasco,auna
distancia1,801,clusterquevolveraserutilizadoenlaetapa11.
- Enlaetapa8seunenlosconglomerados3(Asturias)queseunialconglomerado15(Navarra)
enlaterceraetapay4(Baleares),produciendoelagrupamientoAsturiasNavarraBaleares,
aunadistancia2,448,clusterquevolveraserutilizadoenlaetapa12.
QUINTAYSEXTACOLUMNA:Parafacilitarlainterpretacin,elprogramaayudaarecordarestos
aspectosutilizandodoscolumnasdondeseindicalaetapaenlaqueelconglomeradohaaparecido
porprimeravez(5y6columna).
Enlaetapa5conlaquintacolumna(Conglomerado1)apareceun1queindicaqueelprimer
conglomeradoqueseune,enestecasoel6,yaseutilizenlaprimeraetapa.Enlasextacolumna
(Conglomerado2)seindicaqueelsegundoconglomerado,enestecasoel0,noseutiliztodava.
Enlaetapa6conlaquintacolumna(Conglomerado1)apareceun0queindicaqueelprimer
conglomeradonoseutiliztodava.Enlasextacolumna(Conglomerado2)apareceun4queindica
queelsegundoconglomeradoqueseune,enestecasoel5,yaseutilizenlacuartaetapa.
DENDOGRAMA:Lalecturaserealizadeizquierdaaderecha,yensuinterioraparecenlneas
horizontalesyverticales,utilizandoestasltimasparaindicarelpuntodeuninentredos
Comunidades.Aslaposicindelalneaverticalrespectoalareglasituadaenlapartesuperior
indicaladistanciadondesehanrealizadolaunindedosgrupos,demodoquecuantomsala
derechaseproduzcaunaagrupacinexistirmsdiferenciaentreloscasos,formandogruposms
heterogneos.
Enlaregladelapartesuperiormuestraladistanciaentrelosagrupamientos,sibiensehacambiado
la'escala'delasdistanciasaunosvaloresqueoscilanentre0y25,mientrasquelaamplituddelas
distanciasdelHistorialdeConglomeracinoscilaentre0,52y80.Esdecir,laamplituddelas
distancias(0,5280)secalculaparaadoptarlaalaescala(025)bastaconmultiplicarcada
amplitudpor0,3125.Respectoalanuevaescala,enladistancia3(9,388)seproduceelprimergran
incrementoenlasdistanciasparaunirse(AsturiasNavarraBaleares)con(CantabriaLaRioja
Extremadura).Enladistancia4(13,084)seunen(AndalucaValencia)conCatalua.Enladistancia
6,25(20,201)seunen(CanariasMurciaAragnCastilla_LenGaliciaPasVascoCastilla_La
Mancha)con(CantabraLaRiojaExtremaduraAsturiasNavarraBaleares).Estegran
aumentoconduceadetenerelprocesodeagrupamientoenladistancia67.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 34
ElobjetivoesagruparlasComunidadesconsiderandolaactividaddelassalasdecine,peronose
puedereducirtodasaunsologrupo,demodoqueserprecisodetenerelprocesodeagrupamiento
enunpuntodeterminado.
Considerandoquedistanciaspequeasindicanconglomeradoshomogneosyquegrandes
distanciasdefinenconglomeradosheterogneos,esconvenientedetenerelprocesodeunin
cuandolaslneashorizontalesseanmuylargas.
Deteniendoelprocesoenladistancia15seobtendrandosconglomerados:unocon16
conglomeradosyotrocon1conglomerado;siseeligeladistancia7seformantresconglomerados;
mientrasquealhacerloconladistancia4seformarancuatroconglomerados.
TraselDENDOGRAMAelprogramaofrecela
composicindecadaunodelosconglomerados,
presentandoelrangodesolucionessolicitadoenel
cuadrodeEstadsticos,quemuestratres,cuatroy
cincoconglomerados.
Segnloexpuesto,lasolucinptimaeslaque
presentatresconglomerados.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 35
Setienelaclasificacinsiguiente:
Conglomerado1:Andaluca,Catalua,Valencia.
Conglomerado2:Aragn,Asturias,Baleares,
Canarias,Cantabra,Castilla_LaMancha,
Castilla_Len,Extremadura,Galicia,Murcia,
Navarra,PasVasco,LaRioja.
Conglomerado3:Madrid.
3.INTERPRETACINDELACLASIFICACIN
Elobjetivoesanalizarlosvaloresdelnmerodesalasdecine,nmerodepelculasproyectadas,etc,
enlostresconglomerados,yasdeterminarlasdiferenciasenlaspautascinematogrficasencada
unodelosagrupamientosdelasComunidadesAutnomas.
Paraelloseutilizalanuevavariabledondeserecoge
elconglomeradodepertenenciaacadaComunidad,
variableCLU3_1creadaenlaopcinGuardardel
AnlisisdeConglomerados.
Comosetratadevariablesmedidasaniveldeintervalosedebeutilizarelprocedimientoexplorar
conlavariableCLU3_1comofactor,olacomparacindemedias.
Analizar/Compararmedias/Medias
Enelcuadrodedilogodelacomparacindemedias,lasvariablesCines,Pelculas,Pelis_Espaa,
Pelis_ExtranyRecaudacinsecolocanenlaventanadeDependientes,ylavariableCLU3_1en
Independientes.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 36
ElbotnOpcionespermiteelegirlosestadsticosunivariantes,
aunqueenestecasosedejan:media,desviacintpica,mnimo,
mximo,nmerodecasosyporcentajedelasumatotal.
Elprimerconglomerado,formadoportresComunidadesAutnomas,presentaunacuotade
pantalladepelculasespaolas(pelculasespaolas/totaldeespectadores)del10%.Elgastomedio
porespectadoresde584pesetas.
Elsegundoconglomerado,formadoportreceComunidadesAutnomas,destacaporelpequeo
nmerodesalasdecine(pordebajodelamedianacional),siendolaquemenospelculasestrena,
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 37
presentaunacuotadepantalladepelculasespaolas(pelculasespaolas/totaldeespectadores)
del12,7%.Elgastomedioporespectadoresde563pesetas,elmsbajodetodoslos
conglomerados.
Eltercerconglomerado,formadoporunaComunidadAutnoma,presentaunacuotadepantalla
depelculasespaolas(pelculasespaolas/totaldeespectadores)del6,2%,elmsbajodetodoslos
conglomerados.Elgastomedioporespectadoresde2988pesetas,elmsaltodelos
conglomerados.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 38
ANLISISDECONGLOMERADOSNOJERRQUICOSENSPSS
Elanlisisnojerrquico,adiferenciadelanlisisjerrquico,partedelamatrizoriginaldelas
puntuacionesynodelamatrizdeproximidades,ylosclustersresultantesnoestnanidadosunosen
otros,sinoquesonindependientes.Muchosautoresconsideranquelosmtodosnojerrquicossonlos
quemejorseadaptanalosestudiossociolgicosydemercadoscaracterizadosporelempleodegrandes
conjuntosdedatos.Enestesentido,seaconsejasuutilizacincuandosedesea,notantoanalizarla
estructurajerrquicadelosindividuos,sinoconocerelnmerodegruposconstruidosylas
caractersticasdecadauno.
Enmuchassituacionesconvienerealizarelanlisisdeconglomeradosnojerrquicoaplicando
puntuacionesfactoriales.Unadelasventajasdeutilizarpuntuacionesfactorialeseslafacilidadpara
conseguirquelosdatoscumplanlosrequisitosimprescindiblesparautilizarelAnlisisCluster.
Estosmtodoscalculanencadaetapalasdistanciasentreloscasosyelcentroidedelosconglomerados,
adiferenciadelosmtodosjerrquicosquecalculanlasdistanciasentretodoslosparesdeobjetos.
Sntesisdelasdiferenciasentrelosclustersjerrquicosynojerrquicos:
JERRQUICO NOJERRQUICO
Noexigenunadefinicinpreviadelnmero
deconglomerados.
Exigendefinirpreviamenteelnmerode
clusters.
Llevanacabounprocesoiterativo,de
abajohaciaarribacon(n1)pasos,
partiendodengruposparaterminaren1
(aglomerativos).
Poseenalgunosndicesqueindicanel
nmeroptimodeconglomerados.
Permiteobtenerdistintostiposde
resultadosgrficosynumricosque
facilitanlainterpretacindelosresultados.
Proporcionanlosvaloresdeloscentroides
delosgrupos,loquefacilitala
interpretacin.
Precisanunagrancantidaddeclculos,que
enocasioneslimitalaposibilidadde
aplicacinconmuestrasmuygrandes.
Ofrecenresultadosadicionalesquepermiten
seleccionarlasvariablesparala
interpretacindelosconglomerados.
Puedenaplicarsesobreloscasosysobrelas
variables.
Slopuedenaplicarsesobrecasos.Dan
solucionesdetipoptimo.
Entrelosmtodosnojerrquicos,seutilizaelKmediassinespecificarloscentrosdelosconglomerados.
Concentrosdesconocidos,elmtodoKmediascomienzaconunadivisindelconjuntodelosdatosen
(x)gruposconfiguradosalazaryposteriormentebuscamejorarestaprimeraclasificacinreasignando
loselementosalcentroidedelclustermscercano,tratandodereducirladistanciamediaentrecada
elementodeungrupoysucentroide.Elprocesodefuncionamientodeestemtodoeselsiguiente:
1. Secomienzaconunaparticininicialdelosdatosenunespecificonmerodeagrupamientos,para
calcularposteriormenteelcentroidedecadauno.Estaparticininicialcomienzaconloscasosms
alejadosentres.
2. Elsiguientepasotratadereasignarcadacasoalagrupamientomscercano,aquelcuyadistanciaal
centrodegravedaddelconglomeradoseamenor.NohayqueolvidarqueenelmtododeK
medias,alformarpartedelosmtodosdereasignacin,uncasoasignadoaunconglomeradoen
unadeterminadaiteracinpuedeserreasignadoaotrocasoenunaiteracinposterior.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 39
3. Calculalosnuevoscentroidesdelosconglomeradoscadavezqueseincorporaunnuevocaso.
4. Repitealternativamenteelsegundoyeltercerpasohastaqueningunareasignacindeuncasoa
unnuevoclusterpermitareducirmsladistanciaentrelosindividuosdentrodecada
agrupamiento,niaumentarladistanciaentrelosdistintosclusters.
Ejemplo(InvestigacindeMercados).Sedeseasaberlaactituddelosconsumidorescuandosalende
compras,seleccionandounamuestraalazarpararesponderauncuestionario.Deacuerdoala
investigacinpreviaseseleccionanseisvariablesdeactitud,solicitandoalosentrevistadosque
expresasensugradodeacuerdoconlasafirmacionesexpuestas,seutilizaunaescaladesietepuntos.
Losdatosobtenidosenlamuestra:
V1 V2 V3 V4 V5 V6
6 4 7 3 2 3
2 3 1 4 5 4
7 2 6 4 1 3
4 6 4 5 3 6
1 3 2 2 6 4
6 4 6 3 3 4
5 3 6 3 3 4
7 3 7 4 1 4
2 4 3 3 6 3
3 5 3 6 4 6
1 3 2 3 5 3
5 4 5 4 2 4
2 2 1 5 4 4
4 6 4 6 4 7
6 5 4 2 1 4
3 5 4 6 4 7
4 4 7 2 2 5
3 7 2 6 4 3
4 6 3 7 2 7
2 3 2 4 7 2
V1:Salirdecomprasesdivertido
V2:Salirdecomprasafectaalpresupuesto
V3:Combinarsalirdecomprasconcomida
fueradecasa
V4:Salirdecompras,parahacerlasmejorescompras
V5:Nomeimportasalirdecompras
V6:Sepuedeahorrarmuchodinerosisecomparan
precios
OBJETIVO:Agruparconsumidoreshomogneosfrenteasuactitudhacialascompras.
MTODO:Sedesarrollaunanlisisjerrquicoynojerrquico(Kmedias).
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 40
PRIMERANLISISDEINFORMACIN
Elanlisiscomienzaconunaprimeradescripcindelfenmenoainvestigar(investigacion
mercados.sav),observandosihaycasosatpicosenelgrficodecajadelasvariablesanalizadas
(Analizar/Estadsticosdescriptivos/Explorar)
Noselocalizaningncasoatpico
I.ANLISISDECLUSTERCONGLOMERADOSJERRQUICOSCONSPSS
ConlaopcinAnalizar/Clasificar/Conglomeradosjerrquicos.
Introducidaslasvariables(V1,V2,V3,V4,
V5,V6).
SecomienzapulsandoelbotnMtodo
queeselmsimportante,puestoque
permiteseleccionarelprocesode
agrupamiento,ladistanciaautilizar,yel
tipodetransformacinallevaracaboen
elcasoqueseprecisealguna.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 41
ElMtododeconglomeracinelegidoeselMtodo
deWard,lamedidadeladistancia(Distancia
eucldeaalcuadrado)
Wardpropusoquelaprdidadeinformacinqueseproducealintegrarlosdistintosindividuosen
clusterspuedemedirseatravsdelasumatotaldeloscuadradosdelasdesviacionesentrecadapunto
(individuo)ylamediadelclusterenelqueseintegra.
Paraqueelprocesodeclusterizacinresulteptimo,encadapasodelanlisis,consideralaposibilidad
delaunindecadapardegruposyoptarporlafusindeaquellosdosgruposquemenosincrementen
lasumadeloscuadradosdelasdesviacionesalunirse.
ElMtododeWardesunodelosmsutilizadosenlaprctica;poseecasitodaslasventajasdelMtodo
delaKmediasysuelesermsdiscriminativoenladeterminacindelosnivelesdeagrupacin.Una
investigacinllevadaacaboporKuiperyFisherprobqueestemtodoeracapazdeacertarmejorcon
laclasificacinptimaqueotrosmtodos(mnimo,mximo,mediaycentroide).
ElbotnGrficospermiteelegirentredostipos:
Dendograma:Grficodondesemuestraelprocesode
agrupamientoentreloscasosyladistanciaenqueseproduce
cadaagrupamiento.Eslarepresentacingrficadelhistorial
deconglomeracinvistoenlaopcinestadsticos,y
proporcionainformacinmuyvaliosasobreelnmerofinalde
conglomeradosaconservar.
Tmpanos:Presentaundiagramadetmpanosdondesemuestraelprocesodecombinacindelos
casosencadaconglomerado.Existelaposibilidaddemostrartodoslosconglomeradosoun
determinadorango.
ConlaopcinGuardarsecreanlasnuevas
variablesCLUS3_1,CLUS4_1yCLUS5_1.
EnelVisordeSPSScomienzaproporcionandolamatrizdedistanciasentrelosindividuos,calculandolas
2
) 1 n ( n
medidasdeproximidadentrelos(n)casostomadosdedosendos.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 42
Enestecaso,elanlisisdelosindividuosproporciona190medidasdedistancia 190
2
) 1 20 ( 20
=

Enlatablasiguientesemuestranloscoeficienteselaboradosutilizandoladistanciaeucldeaalcuadrado
(sumadelasdiferenciasalcuadradoentredosindividuos).Porejemplo,ladistanciaentreelindividuo1
y6secalculara:
[ ] [ ] [ ] [ ] [ ] [ ] 3 4 3 3 2 3 3 6 7 4 4 6 6 ) 6 , 1 ( D
2 2 2 2 2 2 2
= + + + + + =
Seobservaqueelindividuomsprximoal1esel6,yelmslejanoesel20.
Losindividuosmsprximosentressonel6conel7,el10conel16,yel14conel16,todosconuna
distanciaentreellosdedosunidades.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 43
Separtede20conglomerados
formadoscadaunoporunindividuo.
Enlaprimeraetapaseunenel
conglomeradoformadoporel
individuo14conelformadopor
el16.Elcoeficiente(1)indica
unamedidaenladispersindel
clusterformado.
Enlasegundaetapaseunenel
conglomeradoformadoporel
individuo6conelformadoporel
7.Elcoeficiente(2)indicauna
medidaenladispersindel
clusterformado.
COLUMNAS56(Etapaenlaqueelconglomeradoapareceporprimeravez)
Conglomerado1:EslaetapaenlaqueelobjetodelacolumnaConglomerado1seuneconalguien
porprimeravez.Sabemosqueelindividuo6seuneconel7enlasegundaetapa,yvolveraunirse
conotroelementoenlaetapa7(reflejadoenlaCOLUMNA7).
Enlaetapa7seunenlosindividuos6y12,yaelindividuo6sehabaunidoporprimeravezenla
etapa2conelindividuo7.
Conglomerado2:LomismoperoparalosobjetosdelascolumnasConglomerado2.
PRXIMAETAPA:Etapaenlaqueloselementosunidosenlaetapaactualseunenconalgnotro.
Seobservaqueenlaetapa1seunenlosindividuos14y16,seunirnconel10enlaetapa6yno
antes(comosereflejaenlaCOLUMNA7).
Estediagramadetmpanospermitevercomosehanidouniendolosindividuosetapaaetapa.Seleede
abajoaarriba.Elnmerodefilarepresentaelnmerodeconglomeradosquehayenesemomento.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 44
Porejemplo,enlaetapa1,con19conglomeradosseunieronlosindividuos14y16,poresoapareceuna
cruzdeuninentreesosdosindividuos,losdemsnoestnconectados.
Enlaetapa2,con18conglomerados,ademsdelosanteriores(14,16)seunieronel6yel7,aparece
unacruzdeuninentreestosindividuos,losdemsestndesconectados.
Enlaetapa3,con17conglomerados,ademsdelosindividuos14,16,6y7,seunieronel2yel13,
apareciendoconectados,yassucesivamentehastaque,enlaltimaetapacon1conglomeradotodos
estnunidos.
DENDOGRAMA:Lalecturaserealizadeizquierdaaderecha,yensuinterioraparecenlneas
horizontalesyverticales,utilizandoestasltimasparaindicarelpuntodeuninentredosComunidades.
Aslaposicindelalneaverticalrespectoalareglasituadaenlapartesuperiorindicaladistancia
dondesehanrealizadolaunindedosgrupos,demodoquecuantomsaladerechaseproduzcauna
agrupacinexistirmsdiferenciaentreloscasos,formandogruposmsheterogneos.
Enlaregladelapartesuperiormuestraladistanciaentrelosagrupamientos,sibiensehacambiadola
'escala'delasdistanciasaunosvaloresqueoscilanentre0y25,mientrasquelaamplituddelas
distanciasdelHistorialdeConglomeracinoscilaentre1y329.Esdecir,laamplituddelasdistancias(1
329)secalculaparaadoptarlaalaescala(025)bastaconmultiplicarcadaamplitudpor0,075.
Respectoalanuevaescala,enladistancia172,667(12,95)seproduceelprimergranincrementoenlas
distancias.Estegranaumentoconduceadetenerelprocesodeagrupamientoenladistancia1213.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 45
Considerandoquedistanciaspequeasindicanconglomeradoshomogneosyquegrandesdistancias
definenconglomeradosheterogneos,esconvenientedetenerelprocesodeunincuandolaslneas
horizontalesseanmuylargas.
Deteniendoelprocesoenladistancia16seobtendrandosconglomerados:unocon18conglomerados
yotrocon1conglomerado;siseeligeladistancia13seformantresconglomerados.
Paraconfirmarelnmeroaconsejabledeclusterstambinsepuederealizarotrogrfico.Paraello,se
creaunficherodedatosconloscoeficientesdelatablaHistorialdeconglomeracin,introducidosde
mayoramenor(desdedebajodelatablahaciaarriba).
Posteriormente,enelmenGrficos/Generadordegrficos/Lnea,enelejedeordenadasseintroduce
lavariableCoeficientesyenelejedeabscisaslaEtapa.
Elejedeabscisasrepresentaelnmero
deconglomeradosencadamomento.
Seobservauncambiosignificativoenel
perfilcontresconglomerados,conlo
quesedecidepararelprocesocon3
conglomerados.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 46
TraselDENDOGRAMAelprogramaofrecela
composicindecadaunodelosconglomerados,
presentandoelrangodesolucionessolicitadoenel
cuadrodeEstadsticos,quemuestratres,cuatroy
cincoconglomerados.
Segnloexpuesto,lasolucinptimaeslaque
presentatresconglomerados.
Comosepuedeobservar,setienenlossiguientes
conglomerados:
Conglomerado1 { } 17 , 15 , 12 , 8 , 7 , 6 , 3 , 1 =
Conglomerado2 { } 20 , 13 , 11 , 7 , 9 , 5 , 2 =
Conglomerado3 { } 19 , 18 , 16 , 14 , 10 , 4 =
Todoslosconglomeradostienenuntamaosignificativo.Si
algunodeelloshubieraquedadoconslounoodos
elementoshabraquereconsiderarlaeleccinsobreel
nmeroapropiadodeconglomerados.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 47
INTERPRETACINDELACLASIFICACIN
DesdeelmenAnalizar/Compararmedias/Mediasserealizaunresumendescriptivosobreestos
conglomerados.Introduciendocomovariablesdependientes(V1,V2,V3,V4,V5,V6)ycomovariable
independiente(CLU3_1)generadoporelsistemaenlafaseanterior.Seobtendrunatablaconlamedia,
desviacintpicayelnmerodeelementosdecadacluster.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 48
Loscentroidesdelosclustersson:
Centroide(Cluster1): ) 88 , 3 , 88 , 1 , 13 , 3 , 00 , 6 , 63 , 3 , 75 , 5 (
Centroide(Cluster2): ) 33 , 3 , 50 , 5 , 50 , 3 , 83 , 1 , 00 , 3 , 67 , 1 (
Centroide(Cluster3): ) 00 , 6 , 50 , 3 , 00 , 6 , 33 , 3 , 83 , 5 , 50 , 3 (
Losvaloresmediosdelasvariablesencadagrupo(centroide)ayudanadefinirelperfildelosclusters:
- ElCluster1estformadoporcompradoresquesepodranclasificarcomodivertidosypreocupados
(puntuacionesaltasenV1yV3).
- ElCluster2quedaformadoporcompradoresquepodranclasificarsecomoapticos(puntuaciones
bajasenV1V3,yaltasenV5).
- ElCluster3quedaformadoporcompradoresahorrativos(puntuacionesaltasenV2,V4,yV6).
Paracompararresultadosposterioresconprocedimientosnojerrquicossecreaunficheroconlos
centroidesdelostresclustersobtenidos(centrosinvestigacionmercados.sav).
Laprimeravariableindicandoelnmerodecadaclusterdebellamarsenecesariamentecluster_
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 49
II.ANLISISDECLUSTERCONGLOMERADOSNOJERRQUICOSCONSPSS
Enestaventanaelprogramaofrecedos
posibilidadespararealizarelagrupamiento:
Iteraryclasificar:Actualizaloscentrosde
losconglomeradosdeformaiterativa.Se
utilizapararealizarunanlisisclusterde
nubesdinmicas.
Soloclasificar:Clasificaloscasosen
funcindelosclustersespecificados
previamente(mtododeloscentroides).
Alaizquierda,elnmerodeconglomeradospor
defecto(queson2).
HaydosformasdiferentesdeprocederutilizandoonoelbotninferiorizquierdaCentrosde
conglomerados.Encasodeactivarse,seutilizaelmtododeloscentroidesalespecificarloscentros
inicialesdelosconglomerados.Paraellodebecontarseconunarchivoquecontengalosvaloresdelos
centrosdeconglomerados(centrosinvestigacionmercados.sav).
MTODO:ACTIVARCENTROSDELOSCONGLOMERADOS.Separtedecentrosinicialesde
conglomerados(analizadosconmtodojerrquico).
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 50
MarcandoCentrosdeconglomeradosse
despliegaundilogocondosbotones:
Leeriniciales:Indicaelarchivodedatos
dondeestnloscentrosdelos
conglomerados,deformaquealmarcar
laopcinelbotnArchivodedatos
externocambiadecolorparaquese
indiqueelnombredelarchivoconlos
centrosdelosconglomerados.
Escribirfinales:Teniendoelficherode
datosoriginalesactivo,enestefichero
secreanlasnuevasvariablesQCL_1
(nmeroinicialdecasos)yQCL_2
(Distanciadelcasodesdesucentro)
CuandoseconocenloscentrosdelosconglomeradosdebemarcarselaopcinSloclasificardentrode
laopcinMtodo.
Enlaparteinferiorhaydosbotones:GuardaryOpciones.
ElbotnOpcionespresentauncuadradodivididoendospartes.Enlapartesuperior(Estadsticos)se
puedeelegirCentrosdeconglomeradosiniciales(antesdelaiteracin),elConglomeradodepertenencia
decadacaso,altiempoqueelaboraunaTabladeANOVAparaconocersilasmediasdecadavariableen
cadaunodelosconglomeradosdifierensignificativamente.
Enlaparteinferior,lasposibilidadesdetratamientodelosvaloresperdidos:permitiendoelegirentre
eliminarcasosconvaloresperdidosencadapardevariables(Excluircasossegnpareja),oexcluir
aqullosconvaloresperdidosencualquiervariable(Excluircasossegnlista).
ANLISISDELOSRESULTADOS
Aparecenlosvaloresmediosdelasvariablesdecada
conglomerado(centroide)quesehafacilitadoconel
fichero(centrosinvestigacionmercados.sav).
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 51
Unavezquesetienenlosvaloresmediosdelasvariablesde
cadaconglomerado(centroide),secalculaladistanciadecada
individuoacadaconglomeradoyseleasignaaquelcuya
distanciaeucldeaalcentroidedelconglomeradoseamenor.
Finalmente,serecalculanloscentroidedelosnuevosclusters:
Enestecaso,loscentroidesdelosclustersnohancambiado
respectoalosinicialesobtenidosenelprocedimiento
jerrquico,puestampocohavariadolacomposicinalestar
formadosporlosmismosindividuos.
Conocidosloscentrosdelosconglomerados,esinteresanteconocerelgradodediferenciaentreellos
considerandoladistanciaentreloscentroides.ElmtodoKmediasutilizaladistanciaeucldeapara
calcularlasdistancias.
Lamediacuadrtica(variabilidad)
entregruposapareceenlasegunda
columnaylamediacuadrticadentro
decadagrupoenlacuartacolumna.
Elratioentreambasmediassepresentaenlasextacolumna,deformaquelosaltosvaloresdel
estadsticoFindicanquelavariabilidadentrelosgruposesmuchomayorquelavariabilidaddentrode
cadagrupo ) 888 , 47 608 , 0 / 108 , 29 ( = ,indicandoquelosconglomeradoselaboradosson
homogneos.
Apesardelosresultadosobtenidos,hayquetenerprudenciaensuinterpretacinpuestoqueelpropio
programaadviertequeestetestnicamentedebeutilizarseconunafinalidaddescriptiva,queyalos
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 52
conglomeradoshansidopreviamenteelegidosparamaximizarlasdiferenciasentreloscasosen
diferentesconglomerados.Encualquiercaso,suutilizacinfacilitavalorarlarelevanciadelasvariables
seleccionadasycompararlasdiferentesagrupaciones.
MTODO:NOACTIVARCENTROSDELOSCONGLOMERADOS
Nmeromximodeiteracionesquepuederealizarel
anlisisensusclculos.Pordefectoaparecen10,
aunquepuedecolocarseunnmeroentre1y999.
Uncriteriodeconvergenciade0,porejemplo,indicaqueelprocesosedetienecuandounaiteracin
nologredesplazarloscentrosinicialesenunadistanciasuperiora0deladistanciamenorentre
cualquieradeloscentrosiniciales.
Altratarsedeunaproporcinestevaloroscilaentre01,ycuantomspequeoseaelcriteriose
realizarnmsiteraciones.
Usarmedidasactualizadas,realizandounaactualizacindeloscentroidesdelosconglomeradostras
laasignacindecadacasoaunconglomerado.
Cuandoseseleccionaestaopcinloscentrosdelosconglomeradossecalculantraslaasignacinde
todosloscasos.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 53
ANLISISDELOSRESULTADOS
EnlosCentrosinicialesdelosconglomeradossemuestranlasestimacionesinicialesdeloscentrosde
cadacluster.SealarqueelprocedimientoKmediasconcentrosdesconocidoscomienzaconuna
particininicialdelosdatosenunespecficonmerodeagrupamientos,tresenestecaso,paraelegir
comocentroidesinicialesaquelloscasosquetenganunadistanciamximaentreellos.Estosvalores
sernutilizadoscomoestimadoresiniciales.
Acontinuacin,secalculanlaspuntuacionesdelrestodeloscasosquesernunidosalagrupamiento
mscercano,aquelcuyadistanciaeucldeaalcentroidedelconglomeradoseamenor.Cadavezqueun
nuevocasoesincluidoenunclustervuelvearecalcularseelcentroidedelcluster.Elprocesoserepite
alternativamentehastaqueningunareasignacindeuncasoaunnuevogrupopermitereducirla
distanciaentrelosindividuosdecadaagrupamiento.
Recordarqueestemtodopermitequeuncasoasignadoaunconglomeradoenunadeterminada
iteracinpuedeserreasignadoaotroconglomeradoenunaiteracinposterior.
EnlatablaHistorialdeiteracionesseaprecianloscambiosenloscentrosdelosconglomeradosfrutode
esteprocesoiterativo.
Seobservaquetampocohavariadolacomposicindelos
clustersrespectoalosprocedimientosanteriores,sealaral
grupoqueantesllamaConglomerado1ahoralollama
Conglomerado3,perolacomposicineslamisma.
Cuandotodosloscasoshansidoasignadosseobtienenlos
centrosdelosconglomeradosfinales,resultantesdelamedia
delosindividuosencadaunadelasvariablesconsideradas.
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 54
Loscentroidesrecalculadosvuelvenaserlosmismosqueenlosotrosanlisis.
Lamediacuadrtica(variabilidad)entre
gruposapareceenlasegundacolumnay
lamediacuadrtica(variabilidad)dentro
decadagrupoenlacuartacolumna.
Elratioentreambasmediassepresentaenlasextacolumna,deformaquelosaltosvaloresdel
estadsticoFindicanquelavariabilidadentrelosgruposesmuchomayorquelavariabilidaddentrode
cadagrupo ) 888 , 47 608 , 0 / 108 , 29 ( = ,indicandoquelosconglomeradoselaboradosson
homogneos.
Apesardelosresultadosobtenidos,hayquetenerprudenciaensuinterpretacinpuestoqueelpropio
programaadviertequeestetestnicamentedebeutilizarseconunafinalidaddescriptiva,queyalos
conglomeradoshansidopreviamenteelegidosparamaximizarlasdiferenciasentreloscasosen
diferentesconglomerados.Encualquiercaso,suutilizacinfacilitavalorarlarelevanciadelasvariables
seleccionadasycompararlasdiferentesagrupaciones.
Finalmente,seobservaquelostresprocedimientosconducenalos
mismosresultados.
Enlatablasiguienteaparecenademsdelasvariablesutilizadasenelanlisis,lassiguientesvariables
creadasporSPSSconelmtododeKmedias:
AnlisisdeConglomerados
SantiagodelaFuenteFernndez 55
QCL_1:Pertenenciaalcluster.
QCL_2:Distanciadecadaindividuoaloscentroidesfinales.

También podría gustarte