Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EliseoMartnez
(Basadoenel libroAnlisisdeDatosMultivariantesdeDaniel Pea, edit.
MacGrawHill, 2002)
1. La matriz de distancia
Supongamos, comoantes, quelamatrizdedatosXesden filaspor p columnas. Sabemos
quela forma decentrar estamatriz, esto es dequesus columnas tengan media cero es
haciendo
e
X =
I
1
n
11
t
X = P X
donde1 el vector dedimensinn conentradasdeunos, I eslamatrizidentidaddeorden
n n. Conestamatriz
e
Xpodemosformar dosmatricessimtricasdefinidaspositivas. A
saber, lamatrizdevarianzasycovarianzasS definidapor X
t
X/(n 1), queesdep p,
ylamatriz deproductoscruzados, Q, definidapor
Q =
e
X
e
X
t
Estamatrizesdeordennn, yseinterpretacomounamatrizdesimilitud(covarianza)entre
losn individuos. Comoveremosahora, lasentradasdelamatrizQnospermitenrealizar
losclculosdelasdistanciaeuclideasentrelasrespuestasdelosindividuos(distanciaentre
losvectoresfilas). Enefectola(i, j) simaentradadelamatriz Qestdadapor
q
ij
=
p
X
k=1
x
ik
x
jk
= x
t
i
x
j
dondex
i
yx
j
sonlosvectoresfilasisimoyjsimorespectivamentedelamatriz X.
Observemosqueq
ij
eslaresultantedel productopuntoentrex
i
yx
j
, estoes
qij = |x
i
| |x
j
| cos
ij
Ahorasi las coordenadas dex
i
y x
j
sonmuy similares entonces cos
ij
1, y encon-
secuenciaq
ij
sermuy grande. Por el contrario, si las corrdenadas dex
i
y x
j
difieren
en mucho entonces cos
ij
= 0, y en consecuenciaq
ij
serpequeo. Teniendo esto en
mentepodemosinterpretar alamatriz Q comolamatriz desimilitudentreloselementos
(individuos).
Laideadesimilitudtambinestasociadaalaideadedistancia, enefecto, podemos
pensar quedos elementos o individuos sernms similares si sudistanciaentreellos es
pequea. Puesbien, lamatriz Qpuedegenerar rpidamenteladistanciaentreindividuos.
Sabemosqueladistanciauecldeaal cuadradoentredoselementosestdadapor
d
2
ij
=
p
X
k=1
(x
ik
x
jk
)
2
=
p
X
k=1
x
2
ik
+
p
X
k=1
x
2
jk
2
p
X
i=1
x
ik
x
jk
1
detal modoqueestadistanciacuadrticapuedecalcularsemediantelasentradasdelamatriz
Q, asaber
d
2
ij
= q
ii
+ q
jj
2q
ij
(1)
Enresumen, conlamatriz
e
X calculamos lamatriz desimilitudQ, y luego lamatriz de
distanciasal cuadradoDconayudadelaexpresinanterior.
Lageneracindeunalgoritmosencilloparael clculodelamatrizDescomosigue. Sea
diag(Q) el vector quecontieneladiagonal delamatriz Q, y 1 el vector ndimensional
quecontieneunos, entonces
D = diag(Q) 1
t
+1diag(Q)
t
2Q
2. El problema inverso
Entenderemos, enestecontexto, el problemainversocomolareconstruccindelamatriz
e
Xapartir deunamatriz dedistanciasal cuadradoD. Esclaroqueparalaobtencindela
matriz
e
Xdebemosprimeroobtener lamatriz Q.
Supongamos quetenemos unamatriz D dedistancias al cuadrado. Notemos queno
hayprdidadegeneralidadal suponer quelasvariablestienenmediacero, todavezquelas
distanciasnovaransi expresamoslasvariablesdesviadasrespectodelamedia. Enefecto,
d
2
ij
=
p
X
k=1
(x
ik
x
jk
)
2
=
p
X
k=1
((x
ik
x
k
) (x
jk
x
s
))
2
Ahorabien, suponiendo quelamatriz que
e
X quedebemos encontrar estcentradaenel
vector demedias, tenemosque
e
X
t
1 = 0
ypuestoqueQ =
e
X
e
X
t
, setienequetambinQ1 = 0. Loquesignificaquelasumade
loselementos deunafiladelamatriz Q debeser cero, estoes
P
n
i=1
q
ij
= 0, y comoes
simtricatambinocurrequelasumadeloselementosdeunacolumnadebeser cero. Por
otrolado, sabemos, quelarelacinquedebeexistir entrelosvaloresd
2
ij
ylasentradasde
q
ij
delamatriz Qestdadapor laecuacin(1). Si enestaecuacin(1) sumamosatravs
delasfilas, nosqueda
n
X
i=1
d
2
ij
=
n
X
i=1
q
ii
+ nq
jj
= t + nq
jj
(2)
dondedefinimost = traza(Q) =
P
n
i=1
q
ii
.
Ahorasumaremos(1) atravsdelascolumnas, estoes
n
X
j=1
d
2
ij
= nq
ii
+ t (3)
Notemosqueenlasexpresiones(2) y(3) podemosdespejar q
ii
yq
jj
. Sumandoatravsde
2
i en(3), obtenemos
n
X
i=1
n
X
j=1
d
2
ij
= 2 nt (4)
Ahoraenlaecuacin(1) reemplazamosel ladoderecholosvaloresq
ii
y q
jj
encontrados
en(2) y(3), tenemosque
d
2
ij
=
1
n
n
X
i=1
d
2
ij
t
n
+
1
n
n
X
j=1
d
2
ij
t
n
2q
ij
=
1
n
n
X
i=1
d
2
ij
+
1
n
n
X
j=1
d
2
ij
2 t
n
2q
ij
yreemplazando2 t al despejar en(4), tenemos
d
2
ij
=
1
n
n
X
i=1
d
2
ij
+
1
n
n
X
j=1
d
2
ij
1
n
n
X
i=1
n
X
j=1
d
2
ij
2q
ij
Y hemos conseguido unaexpresinparalas entradas q
ij
enfuncindelas entradas d
ij
.
Estoes
q
ij
=
1
2
d
2
ij
1
n
n
X
i=1
d
2
ij
1
n
n
X
j=1
d
2
ij
+
1
n
n
X
i=1
n
X
j=1
d
2
ij
Si hacemos
d
2
j
=
1
n
n
X
i=1
d
2
ij
d
2
i
=
1
n
n
X
j=1
d
2
ij
d
2
=
1
n
n
X
i=1
n
X
j=1
d
2
ij
obtenemosunaigualdadmscompacta,
q
ij
=
1
2
d
2
ij
d
2
j
d
2
i
+ d
2
(5)
Y sonestosvaloresq
ij
quedeterminanalamatriz Q.
Ahoranos faltadeterminar lamatriz X. Supongamos queQ es unamatriz definida
positivaderangop, entoncesestamatrizsepuedediagonalizar. Estoes,
Q = VV
t
(6)
siendo lamatriz diagonal deordenp p constituidapor los autovalores no nulos de
Q, y V es unamatriz deordenn p y contieneensus columnas alos vectores propios
correspondientealosvalorespropiosnonulosdeQ. Puestoque =
1/2
1/2
, tenemos
que
Q = (V
1/2
)(
1/2
V
t
) = (V
1/2
)(V
1/2
)
t
3
Si hacemosY = (V
1/2
), tenemosque
Q= YY
t
Estamatriz Y den p tienesus columnas nocorrelacionadas (sonortogonales) quere-
producen, por supropiaconstruccin, lamtricaoriginal. Esestalamatriz
e
Xbuscada?
Verifiquemosconunejemplo. DeunamatrizX vamosaobtener lanatrizdelasdistan-
ciascuadrticasD, yluegoapartir deestamatrizrealizaremosel procedimientoanterior y
veremossi efectivamentellegamosalamatrizX.
Ejemplo. Consideremoslamatrizdedatos
X =
0.301 0.301
0.176 0.301
0.155 0.301
0.301 0.176
0.301 0.155
0.155 0.155
cuyamatriz centrada
e
Xes
e
X =
0.3735 0.3735
0.2485 0.2285
0.0825 0.2285
0.2285 0.2485
0.2285 0.0825
0.0825 0.0825
Todos estos tediosos clculos los puederealizar con un sencillo programa llamado dis-
tancia.mth y queestadisposicinenel Internet
1
. A partir deestamatriz dedistancias
cuadrticas, construimoslamatriz Qcuyasentradasestarndadaspor larelacin(5).
Q =
0.84609 0
0.02265 0.676143
0.35225 0.20695
0.02265 0.676143
0.35225 0.20695
0.18688 0
1/2
=
0.389738 0
0
0.248845
Demaneraque
Y = V
1/2
=
0.5282087655 0
0.01414213561 0.3372899345
0.2199102089 0.1032375900
0.01414213561 0.3372899345
0.2199102089 0.1032375900
0.1166726188 0
0.3735 0.3735
0.2485 0.2285
0.0825 0.2285
0.2285 0.2485
0.2285 0.0825
0.0825 0.0825
0.7071067785
0.7071067838
. 52821
1. 4142 10
2
. 21991
1. 4142 10
2
. 21991
. 11667
:
z
2
=
0.3735 0.3735
0.2485 0.2285
0.0825 0.2285
0.2285 0.2485
0.2285 0.0825
0.0825 0.0825
0.7071067812
0.7071067812
0
. 33729
. 10324
. 33729
. 10324
0
i
v
i
v
t
i
donde
i
sonlosautovaloresyv
i
losautovectorescorrespondientes. Si definimos
y
i
=
p
i
v
i
entoncespodemosescribir
Q =
p
X
i=1
y
i
y
t
i
Estasy
i
representanlasolucinbuscadadeserunconjuntodep variablesincorrelacionadas
entres y tales queel cuadrado deladistanciaeucldeainducidaes igual aladistancia
8
cuadrticaoriginal. Enefecto, si Qesobtenidapor (8) noresultacomplicadoverificar que
secumplelarelacin(1).
4
5. Construccin de las coordenadas principales
SeaDlamatrizdedistanciasal cuadrado
5
. A partir deestamatriz realicelosiguiente:
Construyalamatriz desimilaridadQmediante
Q =
1
2
PDP
omedianteel clculodirectodesusentradas
q
ij
=
1
2
d
2
ij
d
2
j
d
2
i
+ d
2
Calcular losvalorespropiosdeQ.
Seleccionarlosr valorespropiosmayores, donder seescogedemaneraquelosrestantes
nr seanmuyprximosacero. Notequesiempreel 0serunautovalor deQ, puesto
queP1 = 0, demaneraqueQ1 = 0 y enconsecuencia0es unautovalor deQ con
autovector asociado1.
Obtenerlascoordenadasprincipalesmediantev
i
i
. Odemaneraequivalentecalcular
Q
V
r
1/2
r
1/2
r
V
t
r
dondeV
r
eslamatriz quetieneensuscolumnaslosr autovectoresasociadosalosr
autovalorescorespondientesdefnidosen
r
. Deestaformalascoordenadasprincipales
seobtienenmediante
Y
r
= V
r
1/2
r
(9)
6. Aplicaciones: geografa y literatura
Vamos aestudiar dos aplicaciones
6
. En la primeraaplicacin seentregarladistancia
entreochociudadeseuropeas, ydeestamatriz dedistanciacalcularemoslascoordenadas
principalesparadeterminar laestructurasubyacente, quecomoyaloimaginamosser, en
definitiva, el mapaoubicacinrelativadeestassieteciudades. El segundoejemplo, nos
permitirdeterminar algunaestrucruraquedetermineladiferenciadeestilos entrecinco
libros. Enesteltimoejemplonotenemosantecedentesdeunestudiosimilar.
4
Msdetallesprecisosdeestademostracin, puedeconsultar el librodeDaniel Pea, pginas177-178.
5
Cuidado, debeverificarsesi Desunamatriz dedistanciasoesunamatriz dedistanciasal cuadrado.
6
Estaseccinseapartacompletamentedel libroquehemostenidocomobase, si bienesciertoqueall sepre-
sentaunejemplogeogrfico similar al denuestrasciudadeseuropeas, peronohayuntratamientoliterario
comoel queaqu presentamos.
9
6.1 Las ciudades de europa
Enlatablasiguienteseentreganlasdistancias, enkilmetros, entrelasochociudadeseu-
ropeasindicadas,
Mad. Pars Brus. Amst. Berln Roma Lisboa Lon.
Mad. 0 1260 1556 1735 2360 2066 644 1725
Pars 1260 0 296 475 1100 1437 1792 465
Brus. 1556 296 0 198 789 1545 2088 374
Amst. 1735 475 198 0 685 1766 2267 344
Berln 2360 1100 789 685 0 1529 2892 996
Roma 2066 1437 1545 1766 1529 0 2730 1902
Lisboa 644 1792 2088 2267 2892 2730 0 2257
Lon. 1725 465 374 344 996 1902 2257 0
Elevando al cuadrado cadaentradadeestamatriz demaneradeformar lamatriz dedis-
tanciascuadrticasD, y calculandolamatriz desimilaridadmediante
7
Q =
1
2
PDP.
Puestoqueestamatriztendrsusentradasmuygrandes, dividimoscadaentradapor el fac-
tor 10
7
, yobtenemoslamatrizdesimilaridad(quepor abusodenotacindenotaremoscon
lamismaletraQ)
Q=
1
= 0.6613132012 ;
2
= 0.2352207888
Y loscorrespondientesautovectoresasociadosaestosautovaloresrespectivamenteson
v
1
=
0.4579
0.0197
0.1264
0.1710
0.4419
0.2280
0.6871
0.1491
y v
2
=
0.1279
0.0475
0.1482
0.2943
0.0763
0.8516
0.0387
0.3745
7
Ennuestro caso lacalculamos medianteq
ij
=
1
2
d
2
ij
d
2
j
d
2
i
+d
2
. Sepuedeconsultar el pro-
gramamapaeuropa.dfw ubicadoenlaredInternet:
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/mapaeuropa.mth
10
Detal formaqueformamoslasmatricesV
2
y
2
queindicalarelacin(9), estoes
V
2
=
0.4579
0.0197
0.1264
0.1800
0.4419
0.2280
0.6871
0.1491
0.1279
0.04753
0.1482
0.2943
0.0763
0.8516
0.0387
0.3745
1/2
2
=
0.6613 0
0
0.2352
ydeestamaneracalculamos
Y
2
= V
2
1/2
2
=
0.4579 0.1279
0.0197 0.0475
0.1264 0.1482
0.1800 0.2943
0.4419 0.0763
0.2280 0.8516
0.6871 0.0387
0.1491 0.3745
0.6613 0
0
0.2352
. 37237 6. 2028 10
2
.0 1602 2. 3036 10
2
. 10279 7. 1873 10
2
. 14638 . 14273
. 35935 3. 7004 10
2
. 18541 . 413
. 55875 1. 8769 10
2
. 12125 . 18162
Demaneraque, lasciudadestendrnlassiguientescoordenadas:
Madrid 0.37237 0.06 20
Pars 0.01602 0.02 30
Brusela 0.10279 0.0718
Amsterdan 0.14638 0.14273
Berln 0.35935 0.03 70
Roma 0.18541 0.413
Lisboa 0.55875 0.01 87
Londres 0.12125 0.18162
Ahorasi graficamos estas coordenadas enlos ejes formado por laprimeray segunda
coordenada, comoloindicalafigura1, yleechamosunarpidavisitaaunatlasgeogrfico,
nosdamoscuantaqueaproximadamentetenemoslaconfiguracinespacial deladistribu-
cindelasciudadesenal mapadeEuropa.
11
Figura1
Labondaddeesteejemploesquevislumbralosfactoreslatentesqueestabanescondidos
antenuestrosojosperoquesinembargosubyacenenlamatriz dedistancia. Por lodems
esteejemplonosdaconfianzaparalautilizacindel escaladomultidimensional, estoesque
muestralaestructurasubyacenteenunamatrizdedistanciaoenunamatrizdesimilaridad.
6.2 Los libros
Vamosaconsiderarcincolibrosdeescritoressudamericanos, asaber: Rayuela (J . Cortzar),
Eva Luna (Isabel Allende), El tnel (ErnestoSbato), El coronel no tiene quien le escriba
(Gabriel GarcaMarquez) y Palomita Blanca (EnriqueLafourcade). Sobrecadauno de
estoslibrosvamosacalcular lafrecuenciarelativadecadaunadelas27letrasdel alfabeto
espaol (a, b, c, ..., x, y, z). Y sobreestamatrizdedatosvamosacalcular lasdistanciaseu-
cldeasentrelos5libros, enR
27
, luegocalcularemoslamatrizdesimilaridadyfinalmente
lasdosprimerascoordenadasprincipales, paradetectar unaeventual estructurasubyacente
deestilo entreestoslibros
Losdatosdelasfrecuenciasabsolutasyrelativasparacadaletraencadalibrolopuede
obtener del sitioInternet (fuentepropia)
8
, tantoenformatoExcel (.xls) oenformatotexto
(.txt). Lamatriz delas distancias cuadrticas D as como lamatriz desimilaridadQ se
puedencalcular conel programadistancia.mth realizadoenel softwareDERIVE y tam-
bindisponibleenlaredInternet
9
, opor lodemslosclculoslospuederealizar enSTAT-
GRAPHICS, MINITAB o SPSS. Enel programadistancia.mthobtenemos los siguientes
autovaloresasociadosalamatriz desimilaridadQ
1
= 0.001511200970
8
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/libros.xls
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/libritos.txt
9
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/magister/distancia.mth
12
2
= 0.0004483010966
3
= 0.0002597095561
4
= 4.024370405 10
5
5
= 7.257711498 10
16
Como podemos observar, los autovalores estnordenados demayor amenor y, enla
prctica, losdosltimossonnulos. Vamosaencontrar losautovectoresasociadosalosdos
primerosautovalores. Estosson
v
1
=
0.06736836919
0.03015966605
0.04481713837
0.7720335746
0.6296884000
; v
2
=
0.06971179556
0.4845320351
0.8462580176
0.1178983993
0.1741157876
Demaneraquesi definimosV
2
y
1/2
, obtenemosel producto
V
2
1/2
=
0.002618889329 0.001476016354
0.001172431937 0.01025905590
0.001742228984 0.01791792427
0.03001216320 0.002496277195
0.02447861291 0.003686574818
quenos entreganlas coordenadas principales. Graficamos estos puntos enel plano con-
stituido por laprimeray segundacoordenada, ejehorizontal y vertical, respectivamente
(Figura2)
Figura2
Podemosobservar que, enrelacinalaprimeracomponenteEva Luna, Rayuela y El
tnel estnal mismonivel. El coronel no tiene quien le escriba yPalomita Blanca, se
13
ubicanenunasuertedeantpodas...
10
10
Juzgeel atentolector qulibroesmejor.
14