Está en la página 1de 14

Escaladomultidimensional

EliseoMartnez
(Basadoenel libroAnlisisdeDatosMultivariantesdeDaniel Pea, edit.
MacGrawHill, 2002)
1. La matriz de distancia
Supongamos, comoantes, quelamatrizdedatosXesden filaspor p columnas. Sabemos
quela forma decentrar estamatriz, esto es dequesus columnas tengan media cero es
haciendo
e
X =

I
1
n
11
t

X = P X
donde1 el vector dedimensinn conentradasdeunos, I eslamatrizidentidaddeorden
n n. Conestamatriz
e
Xpodemosformar dosmatricessimtricasdefinidaspositivas. A
saber, lamatrizdevarianzasycovarianzasS definidapor X
t
X/(n 1), queesdep p,
ylamatriz deproductoscruzados, Q, definidapor
Q =
e
X
e
X
t
Estamatrizesdeordennn, yseinterpretacomounamatrizdesimilitud(covarianza)entre
losn individuos. Comoveremosahora, lasentradasdelamatrizQnospermitenrealizar
losclculosdelasdistanciaeuclideasentrelasrespuestasdelosindividuos(distanciaentre
losvectoresfilas). Enefectola(i, j) simaentradadelamatriz Qestdadapor
q
ij
=
p
X
k=1
x
ik
x
jk
= x
t
i
x
j
dondex
i
yx
j
sonlosvectoresfilasisimoyjsimorespectivamentedelamatriz X.
Observemosqueq
ij
eslaresultantedel productopuntoentrex
i
yx
j
, estoes
qij = |x
i
| |x
j
| cos
ij
Ahorasi las coordenadas dex
i
y x
j
sonmuy similares entonces cos
ij
1, y encon-
secuenciaq
ij
sermuy grande. Por el contrario, si las corrdenadas dex
i
y x
j
difieren
en mucho entonces cos
ij
= 0, y en consecuenciaq
ij
serpequeo. Teniendo esto en
mentepodemosinterpretar alamatriz Q comolamatriz desimilitudentreloselementos
(individuos).
Laideadesimilitudtambinestasociadaalaideadedistancia, enefecto, podemos
pensar quedos elementos o individuos sernms similares si sudistanciaentreellos es
pequea. Puesbien, lamatriz Qpuedegenerar rpidamenteladistanciaentreindividuos.
Sabemosqueladistanciauecldeaal cuadradoentredoselementosestdadapor
d
2
ij
=
p
X
k=1
(x
ik
x
jk
)
2
=
p
X
k=1
x
2
ik
+
p
X
k=1
x
2
jk
2
p
X
i=1
x
ik
x
jk
1
detal modoqueestadistanciacuadrticapuedecalcularsemediantelasentradasdelamatriz
Q, asaber
d
2
ij
= q
ii
+ q
jj
2q
ij
(1)
Enresumen, conlamatriz
e
X calculamos lamatriz desimilitudQ, y luego lamatriz de
distanciasal cuadradoDconayudadelaexpresinanterior.
Lageneracindeunalgoritmosencilloparael clculodelamatrizDescomosigue. Sea
diag(Q) el vector quecontieneladiagonal delamatriz Q, y 1 el vector ndimensional
quecontieneunos, entonces
D = diag(Q) 1
t
+1diag(Q)
t
2Q
2. El problema inverso
Entenderemos, enestecontexto, el problemainversocomolareconstruccindelamatriz
e
Xapartir deunamatriz dedistanciasal cuadradoD. Esclaroqueparalaobtencindela
matriz
e
Xdebemosprimeroobtener lamatriz Q.
Supongamos quetenemos unamatriz D dedistancias al cuadrado. Notemos queno
hayprdidadegeneralidadal suponer quelasvariablestienenmediacero, todavezquelas
distanciasnovaransi expresamoslasvariablesdesviadasrespectodelamedia. Enefecto,
d
2
ij
=
p
X
k=1
(x
ik
x
jk
)
2
=
p
X
k=1
((x
ik
x
k
) (x
jk
x
s
))
2
Ahorabien, suponiendo quelamatriz que
e
X quedebemos encontrar estcentradaenel
vector demedias, tenemosque
e
X
t
1 = 0
ypuestoqueQ =
e
X
e
X
t
, setienequetambinQ1 = 0. Loquesignificaquelasumade
loselementos deunafiladelamatriz Q debeser cero, estoes
P
n
i=1
q
ij
= 0, y comoes
simtricatambinocurrequelasumadeloselementosdeunacolumnadebeser cero. Por
otrolado, sabemos, quelarelacinquedebeexistir entrelosvaloresd
2
ij
ylasentradasde
q
ij
delamatriz Qestdadapor laecuacin(1). Si enestaecuacin(1) sumamosatravs
delasfilas, nosqueda
n
X
i=1
d
2
ij
=
n
X
i=1
q
ii
+ nq
jj
= t + nq
jj
(2)
dondedefinimost = traza(Q) =
P
n
i=1
q
ii
.
Ahorasumaremos(1) atravsdelascolumnas, estoes
n
X
j=1
d
2
ij
= nq
ii
+ t (3)
Notemosqueenlasexpresiones(2) y(3) podemosdespejar q
ii
yq
jj
. Sumandoatravsde
2
i en(3), obtenemos
n
X
i=1
n
X
j=1
d
2
ij
= 2 nt (4)
Ahoraenlaecuacin(1) reemplazamosel ladoderecholosvaloresq
ii
y q
jj
encontrados
en(2) y(3), tenemosque
d
2
ij
=
1
n
n
X
i=1
d
2
ij

t
n
+
1
n
n
X
j=1
d
2
ij

t
n
2q
ij
=
1
n
n
X
i=1
d
2
ij
+
1
n
n
X
j=1
d
2
ij

2 t
n
2q
ij
yreemplazando2 t al despejar en(4), tenemos
d
2
ij
=
1
n
n
X
i=1
d
2
ij
+
1
n
n
X
j=1
d
2
ij

1
n
n
X
i=1
n
X
j=1
d
2
ij
2q
ij
Y hemos conseguido unaexpresinparalas entradas q
ij
enfuncindelas entradas d
ij
.
Estoes
q
ij
=
1
2

d
2
ij

1
n
n
X
i=1
d
2
ij

1
n
n
X
j=1
d
2
ij
+
1
n
n
X
i=1
n
X
j=1
d
2
ij

Si hacemos
d
2
j
=
1
n
n
X
i=1
d
2
ij
d
2
i
=
1
n
n
X
j=1
d
2
ij
d
2

=
1
n
n
X
i=1
n
X
j=1
d
2
ij
obtenemosunaigualdadmscompacta,
q
ij
=
1
2

d
2
ij
d
2
j
d
2
i
+ d
2

(5)
Y sonestosvaloresq
ij
quedeterminanalamatriz Q.
Ahoranos faltadeterminar lamatriz X. Supongamos queQ es unamatriz definida
positivaderangop, entoncesestamatrizsepuedediagonalizar. Estoes,
Q = VV
t
(6)
siendo lamatriz diagonal deordenp p constituidapor los autovalores no nulos de
Q, y V es unamatriz deordenn p y contieneensus columnas alos vectores propios
correspondientealosvalorespropiosnonulosdeQ. Puestoque =
1/2

1/2
, tenemos
que
Q = (V
1/2
)(
1/2
V
t
) = (V
1/2
)(V
1/2
)
t
3
Si hacemosY = (V
1/2
), tenemosque
Q= YY
t
Estamatriz Y den p tienesus columnas nocorrelacionadas (sonortogonales) quere-
producen, por supropiaconstruccin, lamtricaoriginal. Esestalamatriz
e
Xbuscada?
Verifiquemosconunejemplo. DeunamatrizX vamosaobtener lanatrizdelasdistan-
ciascuadrticasD, yluegoapartir deestamatrizrealizaremosel procedimientoanterior y
veremossi efectivamentellegamosalamatrizX.
Ejemplo. Consideremoslamatrizdedatos
X =

0.301 0.301
0.176 0.301
0.155 0.301
0.301 0.176
0.301 0.155
0.155 0.155

cuyamatriz centrada
e
Xes
e
X =

0.3735 0.3735
0.2485 0.2285
0.0825 0.2285
0.2285 0.2485
0.2285 0.0825
0.0825 0.0825

Calculandolamatrizdistanciacuadrtica, D, deestosdatos, obtenemos


D =

0 0.378029 0.57034 0.378029 0.57034 0.415872


0.378029 0 0.109561 0.455058 0.248845 0.130877
0.57034 0.109561 0 0.248845 0.042632 0.021316
0.378029 0.455058 0.248845 0 0.109561 0.130877
0.57034 0.248845 0.042632 0.109561 0 0.021316
0.415872 0.130877 0.021316 0.130877 0.021316 0

Todos estos tediosos clculos los puederealizar con un sencillo programa llamado dis-
tancia.mth y queestadisposicinenel Internet
1
. A partir deestamatriz dedistancias
cuadrticas, construimoslamatriz Qcuyasentradasestarndadaspor larelacin(5).
Q =

0.27900 0.00747 0.11615 0.00747 0.11615 0.06162


0.00747 0.11396 0.03171 0.11356 0.03793 0.00165
0.11615 0.03171 0.05901 0.03793 0.03770 0.02565
0.00747 0.11356 0.03793 0.11396 0.03171 0.00165
0.11615 0.03793 0.03770 0.03171 0.05901 0.02565
0.06162 0.00165 0.02565 0.00165 0.02565 0.01361

Sepuedeverificar fcilmentequeestamatriz es exactamentelamismaquesepuede


obtener medianteQ =
e
X
e
X
t
. Ahorabien, alamatriz Q lecalcularemos los autovalores
1
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/distancia.html
4
nonulosysuscorrespondientesautovectoresasociadosafindedeterminar lasmatricesV
ydelarelacin(6).
Los autovalores nonulos delamatriz Q son
1
= 0.389738 y
2
= 0.248845 y sus
respectivosautovectoresasociados
a
1
=

0.84609 0.02265 0.35225 0.02265 0.35225 0.18688

t
a
2
=

0 0.676143 0.20695 0.676143 0.20695 0

t
Y as estamosencondicionesdeformar Vy
1/2
V =

0.84609 0
0.02265 0.676143
0.35225 0.20695
0.02265 0.676143
0.35225 0.20695
0.18688 0

1/2
=

0.389738 0
0

0.248845

Demaneraque
Y = V
1/2
=

0.5282087655 0
0.01414213561 0.3372899345
0.2199102089 0.1032375900
0.01414213561 0.3372899345
0.2199102089 0.1032375900
0.1166726188 0

Sepuedeverificar quelasscolumnasdeY efectivamentesonortogonales(si noesceroel


productosercasi ceropor problemasderedondeo), peroel casoesquelamatrizY noes
igual alamatriz dedatosX. Sinembargo, todavez queQ =
e
X
e
X
t
podemosconcluir que
estamatriz Y eslamatrizdeloscomponentesprincipalesdeX.
Calcularemosloscomponentesprincipalesdelamatriz X. Enefecto, seaR lamatriz
decorrelacin
R =

1 0.2206338095
0.2206338095 1

Esteclculoylosquevienenacontinuacinsepuedenhacer conel programamultiv.mth


realizado conel DERIVE y ubicado en laredInternet
2
. Los autovalores deestamatriz
son
1
= 1.220633809 y
2
= 0.7793661904 ylosrespectivosautovectoresasociados(-
0.7071067785, -0.7071067838)
t
y(-0.7071067812, 0.7071067811)
t
. Calculandoloscon-
ponentesprincipalesdelamatrizcentrada
e
X, tenemos
2
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/multiv.html
5
z
1
=

0.3735 0.3735
0.2485 0.2285
0.0825 0.2285
0.2285 0.2485
0.2285 0.0825
0.0825 0.0825

0.7071067785
0.7071067838

. 52821
1. 4142 10
2
. 21991
1. 4142 10
2
. 21991
. 11667

:
z
2
=

0.3735 0.3735
0.2485 0.2285
0.0825 0.2285
0.2285 0.2485
0.2285 0.0825
0.0825 0.0825

0.7071067812
0.7071067812

0
. 33729
. 10324
. 33729
. 10324
0

Y podemos observar que, esencialmente, el problemainverso, esto es labsquedadela


matrizdedatosapartir delamatrizdedistanciascuadrticas, nosllevaalamatrizdecom-
ponentesprincipalesnormalizadasdelamatrizdedatoscentrada(quesiemprepermanecer
desconocida).
Finalmente, delarelacinQ =
e
X
e
X
t
si consideramoscualquier matrizortogonal Ase
tieneque
Q =
e
X
e
X
t
= Q =
e
XAA
t
e
X
t
detal maneraquelamatriz Q solotieneinformacindel espaciogenerado por lamatriz
X (por las variables), y puesto quelamatriz A solo haceun efecto derotacin y estas
preservanladistancia, enconsecuenciacualquier rotacindelasvariablesoriginalespuede
ser lasolucin. Deotraformalamatriz Y esunarotacindelamatrizX.
6
3. El objetivo del escalado multidimensional
3
Las tcnicas de escalado multidimensional son una generalizacin de la idea de compo-
nentes principales cuando en lugar de disponer de una matriz de observaciones por vari-
ables, como en componentes principales, se dispone de una matriz D, cuadrada n n
de distancias o disimilaridades entre los n elementos de un conjunto. Por ejemplo, esta
matriz puede representar las similitudes o distancias entre n productos fabricados por una
empresa, las distancias percibidas entre n candidatos polticos, las diferencias entre n pre-
guntas de un cuestionario o las distancias o similitudes entre n sectores industriales. Estas
distancias pueden haberse obtenido a partir de ciertas variables, o pueden ser el resultado
de una estimacin directa, por ejemplo preguntando a un grupo de jueces por sus opiniones
sobre las similaridades entre los elementos considerados.
El objetivo que se pretende es representar esta matriz mediante un conjunto de vari-
ables ortogonales, y
1
, .., y
p
, que llamaremos coordenadas principales donde p < n, de
manera que las distancias eucldeas entre las coordenadas de los elementos respecto a es-
tas variables sean iguales (o los ms prximas posibles) a las distancias o disimilaridades
de la matriz original. Es decir, a partir de la matriz D se pretende obtener una matriz
X, de dimensiones n p, que pueda interpretarse como la matriz de p variables en los
n individuos, y donde la distancia eucldea entre los elementos reproduzca, aproximada-
mente, la matriz de distancias D inicial. Cuando p > 2, las variables pueden ordenarse
en importancia y suelen hacerse representaciones grficas en dos y tres dimensiones para
entender la estructura existente.
Este planteamiento presenta dos interrogantes: es siempre posible encontrar estas
variables? Cmo construirlas? En general, no es posible encontrar p variables que
reproduzcan exactamente las distancias iniciales, sin embargo es frecuente encontrar vari-
ables que reproduzcan aproximadamente las distancias iniciales. Por otro lado, si la matriz
de distancias se ha generado calculando las distancias eucldeas entre las observaciones
definidas por ciertas variables, recuperaremos las componentes principales de estas vari-
ables.
El escalado multidimensional comparte con componentes principales el objetivo de de-
scribir e interpretar los datos. Si existen muchos elementos, la matriz de similaridad ser
muy grande y la representacin por unas pocas variables de los elementos nos permitir
entender su estructura: qu elementos tienen propiedades similares, si aparecen grupos
entre los elementos, si hay elementos atpicos, etctera. Adems, si podemos interpretar
las variables aumentar nuestro conocimiento del problema, al entender cmo se han gen-
erado los datos. Por ejemplo, supongamos que se realiza una encuesta para determinar
qu similitudes encuentran los consumidores entre n productos o servicios, y que la infor-
macin se resume en una matriz cuadrada de similitudes entre los productos. Supongamos
que descubrimos que estas similitudes pueden generarse por dos variables. Entonces, es
razonable suponer que los consumidores han estimado la similitud entre dos productos
utilizando estas dos variables.
El escalado multidimensional representa un enfoque complementario a componentes
3
Citatextual del librodeDaniel Pea
7
principales en el sentido siguiente. Componentes principales considera la matriz p p
de correlaciones (o covarianzas) entre variables, e investiga su estructura. El escalado
multidimensional considera la matriz n n de distancias entre individuos e investiga su
estructura. Ambos enfoques estn claramente relacionados, y existen tcnicas grficas que
aprovechan esta dualidad para representar conjuntamente las variables y los individuos en
un mismo grfico.
4. Coordenadas principales
A laluz delasseccionesanteriores, podemosresumir losiguiente. SetieneunamatrizD,
deordennn, quemidelasdistanciasodisimilaridadesden individuos. Conestamatriz
construimoslamatrizQdesimilaridadmediantelarelacindadaen(5). Luegocalculamos
las matrices V y , donde es lamatriz diagonal deorden p p constituidapor los
autovaloresnonulosdeQ, yV esunamatriz deordenn p ycontieneensuscolumnas
alos vectores propios correspondientealos valores propios no nulos deQ. Entonces la
matriz
Y = (V
1/2
) (7)
tienecomocolumnasalasllamadascoordenadas principales.
Observequeparapoder calcular las coordenadas principales, es absolutamentenece-
sarioque, segn(7), losautovaloresdelamatriz Qseannonegativos, yestoseconsigue
necesariamentesi Qessemidefinidapositiva. Estonosconduceaverificar cundolama-
trizdedistanciasescompatibleconlamtricaeucldea. Enefecto, diremosqueunamatriz
dedistancias D es compatibleconlamtricaeucldeasi lamatriz desimilitudgenerada
por ella,
Q =
1
2
PDP (8)
essemidefinidapositiva, dondeP = I
1
n
11
t
. Lointeresantedeestaproposicindequesi
Qesefectivamenteunamatrizdefinidapositiva, podemosencontrar entoncesunamtrica
eucldeaquereproduzcaalamatrizD.
Vamos a demostrar esto ltimo. Supongamos quetenemos unamatriz semidefinida
positivaQ, entoncesvamosaencontrar variablesy
1
, ..., y
p
quereproduzcanlasdistancias
observadas. Si Q essemidefinidapositivaderangop entoncesadmitalasiguienterepre-
sentacin
Q =
p
X
i=1

i
v
i
v
t
i
donde
i
sonlosautovaloresyv
i
losautovectorescorrespondientes. Si definimos
y
i
=
p

i
v
i
entoncespodemosescribir
Q =
p
X
i=1
y
i
y
t
i
Estasy
i
representanlasolucinbuscadadeserunconjuntodep variablesincorrelacionadas
entres y tales queel cuadrado deladistanciaeucldeainducidaes igual aladistancia
8
cuadrticaoriginal. Enefecto, si Qesobtenidapor (8) noresultacomplicadoverificar que
secumplelarelacin(1).
4
5. Construccin de las coordenadas principales
SeaDlamatrizdedistanciasal cuadrado
5
. A partir deestamatriz realicelosiguiente:
Construyalamatriz desimilaridadQmediante
Q =
1
2
PDP
omedianteel clculodirectodesusentradas
q
ij
=
1
2

d
2
ij
d
2
j
d
2
i
+ d
2

Calcular losvalorespropiosdeQ.
Seleccionarlosr valorespropiosmayores, donder seescogedemaneraquelosrestantes
nr seanmuyprximosacero. Notequesiempreel 0serunautovalor deQ, puesto
queP1 = 0, demaneraqueQ1 = 0 y enconsecuencia0es unautovalor deQ con
autovector asociado1.
Obtenerlascoordenadasprincipalesmediantev
i

i
. Odemaneraequivalentecalcular
Q

V
r

1/2
r

1/2
r
V
t
r

dondeV
r
eslamatriz quetieneensuscolumnaslosr autovectoresasociadosalosr
autovalorescorespondientesdefnidosen
r
. Deestaformalascoordenadasprincipales
seobtienenmediante
Y
r
= V
r

1/2
r
(9)
6. Aplicaciones: geografa y literatura
Vamos aestudiar dos aplicaciones
6
. En la primeraaplicacin seentregarladistancia
entreochociudadeseuropeas, ydeestamatriz dedistanciacalcularemoslascoordenadas
principalesparadeterminar laestructurasubyacente, quecomoyaloimaginamosser, en
definitiva, el mapaoubicacinrelativadeestassieteciudades. El segundoejemplo, nos
permitirdeterminar algunaestrucruraquedetermineladiferenciadeestilos entrecinco
libros. Enesteltimoejemplonotenemosantecedentesdeunestudiosimilar.
4
Msdetallesprecisosdeestademostracin, puedeconsultar el librodeDaniel Pea, pginas177-178.
5
Cuidado, debeverificarsesi Desunamatriz dedistanciasoesunamatriz dedistanciasal cuadrado.
6
Estaseccinseapartacompletamentedel libroquehemostenidocomobase, si bienesciertoqueall sepre-
sentaunejemplogeogrfico similar al denuestrasciudadeseuropeas, peronohayuntratamientoliterario
comoel queaqu presentamos.
9
6.1 Las ciudades de europa
Enlatablasiguienteseentreganlasdistancias, enkilmetros, entrelasochociudadeseu-
ropeasindicadas,
Mad. Pars Brus. Amst. Berln Roma Lisboa Lon.
Mad. 0 1260 1556 1735 2360 2066 644 1725
Pars 1260 0 296 475 1100 1437 1792 465
Brus. 1556 296 0 198 789 1545 2088 374
Amst. 1735 475 198 0 685 1766 2267 344
Berln 2360 1100 789 685 0 1529 2892 996
Roma 2066 1437 1545 1766 1529 0 2730 1902
Lisboa 644 1792 2088 2267 2892 2730 0 2257
Lon. 1725 465 374 344 996 1902 2257 0
Elevando al cuadrado cadaentradadeestamatriz demaneradeformar lamatriz dedis-
tanciascuadrticasD, y calculandolamatriz desimilaridadmediante
7
Q =
1
2
PDP.
Puestoqueestamatriztendrsusentradasmuygrandes, dividimoscadaentradapor el fac-
tor 10
7
, yobtenemoslamatrizdesimilaridad(quepor abusodenotacindenotaremoscon
lamismaletraQ)
Q=

0.141 0.0108 0.0433 0.0599 0.141 0.0408 0.206 0.0517


0.0108 0.0042 0.0005 0.0065 0.0038 0.0034 0.0058 0.0134
0.0433 0.0005 0.0139 0.0249 0.0422 0.0104 0.0541 0.0263
0.0599 0.0065 0.0249 0.0397 0.0628 0.0341 0.0802 0.0403
0.141 0.0038 0.0422 0.0628 0.132 0.0514 0.194 0.0431
0.0408 0.0034 0.0104 0.0341 0.0514 0.203 0.113 0.0526
0.206 0.0058 0.0541 0.0802 0.194 0.113 0.313 0.0715
0.0517 0.0134 0.0263 0.0403 0.0431 0.0526 0.0715 0.0526

Noresultacomplicadoencontrar losautovaloresdeestamatriz, ysegnnuestroprograma


losdosmayoresautovaloresson

1
= 0.6613132012 ;
2
= 0.2352207888
Y loscorrespondientesautovectoresasociadosaestosautovaloresrespectivamenteson
v
1
=

0.4579
0.0197
0.1264
0.1710
0.4419
0.2280
0.6871
0.1491

y v
2
=

0.1279
0.0475
0.1482
0.2943
0.0763
0.8516
0.0387
0.3745

7
Ennuestro caso lacalculamos medianteq
ij
=
1
2

d
2
ij
d
2
j
d
2
i
+d
2

. Sepuedeconsultar el pro-
gramamapaeuropa.dfw ubicadoenlaredInternet:
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/mapaeuropa.mth
10
Detal formaqueformamoslasmatricesV
2
y
2
queindicalarelacin(9), estoes
V
2
=

0.4579
0.0197
0.1264
0.1800
0.4419
0.2280
0.6871
0.1491
0.1279
0.04753
0.1482
0.2943
0.0763
0.8516
0.0387
0.3745

1/2
2
=

0.6613 0
0

0.2352

ydeestamaneracalculamos
Y
2
= V
2

1/2
2
=

0.4579 0.1279
0.0197 0.0475
0.1264 0.1482
0.1800 0.2943
0.4419 0.0763
0.2280 0.8516
0.6871 0.0387
0.1491 0.3745


0.6613 0
0

0.2352

. 37237 6. 2028 10
2
.0 1602 2. 3036 10
2
. 10279 7. 1873 10
2
. 14638 . 14273
. 35935 3. 7004 10
2
. 18541 . 413
. 55875 1. 8769 10
2
. 12125 . 18162

Demaneraque, lasciudadestendrnlassiguientescoordenadas:
Madrid 0.37237 0.06 20
Pars 0.01602 0.02 30
Brusela 0.10279 0.0718
Amsterdan 0.14638 0.14273
Berln 0.35935 0.03 70
Roma 0.18541 0.413
Lisboa 0.55875 0.01 87
Londres 0.12125 0.18162
Ahorasi graficamos estas coordenadas enlos ejes formado por laprimeray segunda
coordenada, comoloindicalafigura1, yleechamosunarpidavisitaaunatlasgeogrfico,
nosdamoscuantaqueaproximadamentetenemoslaconfiguracinespacial deladistribu-
cindelasciudadesenal mapadeEuropa.
11
Figura1
Labondaddeesteejemploesquevislumbralosfactoreslatentesqueestabanescondidos
antenuestrosojosperoquesinembargosubyacenenlamatriz dedistancia. Por lodems
esteejemplonosdaconfianzaparalautilizacindel escaladomultidimensional, estoesque
muestralaestructurasubyacenteenunamatrizdedistanciaoenunamatrizdesimilaridad.
6.2 Los libros
Vamosaconsiderarcincolibrosdeescritoressudamericanos, asaber: Rayuela (J . Cortzar),
Eva Luna (Isabel Allende), El tnel (ErnestoSbato), El coronel no tiene quien le escriba
(Gabriel GarcaMarquez) y Palomita Blanca (EnriqueLafourcade). Sobrecadauno de
estoslibrosvamosacalcular lafrecuenciarelativadecadaunadelas27letrasdel alfabeto
espaol (a, b, c, ..., x, y, z). Y sobreestamatrizdedatosvamosacalcular lasdistanciaseu-
cldeasentrelos5libros, enR
27
, luegocalcularemoslamatrizdesimilaridadyfinalmente
lasdosprimerascoordenadasprincipales, paradetectar unaeventual estructurasubyacente
deestilo entreestoslibros
Losdatosdelasfrecuenciasabsolutasyrelativasparacadaletraencadalibrolopuede
obtener del sitioInternet (fuentepropia)
8
, tantoenformatoExcel (.xls) oenformatotexto
(.txt). Lamatriz delas distancias cuadrticas D as como lamatriz desimilaridadQ se
puedencalcular conel programadistancia.mth realizadoenel softwareDERIVE y tam-
bindisponibleenlaredInternet
9
, opor lodemslosclculoslospuederealizar enSTAT-
GRAPHICS, MINITAB o SPSS. Enel programadistancia.mthobtenemos los siguientes
autovaloresasociadosalamatriz desimilaridadQ

1
= 0.001511200970
8
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/libros.xls
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/libritos.txt
9
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/distancia.mth
12

2
= 0.0004483010966

3
= 0.0002597095561

4
= 4.024370405 10
5

5
= 7.257711498 10
16
Como podemos observar, los autovalores estnordenados demayor amenor y, enla
prctica, losdosltimossonnulos. Vamosaencontrar losautovectoresasociadosalosdos
primerosautovalores. Estosson
v
1
=

0.06736836919
0.03015966605
0.04481713837
0.7720335746
0.6296884000

; v
2
=

0.06971179556
0.4845320351
0.8462580176
0.1178983993
0.1741157876

Demaneraquesi definimosV
2
y
1/2
, obtenemosel producto
V
2

1/2
=

0.002618889329 0.001476016354
0.001172431937 0.01025905590
0.001742228984 0.01791792427
0.03001216320 0.002496277195
0.02447861291 0.003686574818

quenos entreganlas coordenadas principales. Graficamos estos puntos enel plano con-
stituido por laprimeray segundacoordenada, ejehorizontal y vertical, respectivamente
(Figura2)
Figura2
Podemosobservar que, enrelacinalaprimeracomponenteEva Luna, Rayuela y El
tnel estnal mismonivel. El coronel no tiene quien le escriba yPalomita Blanca, se
13
ubicanenunasuertedeantpodas...
10
10
Juzgeel atentolector qulibroesmejor.
14

También podría gustarte