Material Multivariado

UNIVERSIDAD ANDINA DEL CUSCO
Escuela de Posgrado
MAESTRIA EN ESTADISTICA E
INVESTIGACION
CURSO: ANALISIS MULTIVARIADO
DR. CLETO DE LA TORRE DUEAS
metodosepg@gmail.com
Dr. Cleto De La Torre - Anlisis multivariado
Pgina 1
MAESTRIA EN ESTADISTICA E INVESTIGACION

CURSO: ANALISIS MULTIVARIADO
DR. CLETO DE LA TORRE DUEAS
Pgina 2
CAPITULO I
EL METODO DE ANLISIS POR COMPONENTES PRINCIPALES
1.1 INTRODUCCION.
El propsito del mtodo de Anlisis por Componentes Principales es:
i).-
Generar nuevas variables no correlacionadas y con variables decrecientes que

puedan expresar la informacin contenida en el conjunto, original de datos.
ii).- Reducir la dimensionalidad del problema original que se est estudiando. Como
paso previo para futuros anlisis.
iii).- Eliminar, cuando sea posible, algunas de las variables originales, si ellas aportan
poca informacin.
Las nuevas variables generadas se denominan componentes principales y poseen
algunas caractersticas estadsticas deseables tales como: independencia (cuando se
asume multinormalidad) y en todos los casos no-correlacin; esto significa que s las
variables originales no estn correlacionadas, el anlisis por componentes principales no
ofrece ventaja alguna.
Cada componente principal sintetiza la mxima variabilidad residual contenida en los
datos.
1.2
POBLACION DE COMPONENTES PRINCIPALES
Algebraicamente, Componentes principales son combinaciones lineales particulares de

las P variables aleatorias X1, X2,...Xp. Geomtricamente, estas combinaciones lineales
representan la seleccin de un nuevo sistema de coordenadas obtenido por la rotacin
del sistema original con X1, X2,...Xp. Como los ejes de coordenadas. Los nuevos ejes
representan las direcciones con mxima variabilidad y proporciona una descripcin
simple y ms parsimoniosa de la estructura de la covarianza.
Como veremos los componentes principales dependen nicamente de la matriz
covarianza (o la matriz de correlacin ) de X1, X2,...Xp. Su desarrollo no requiere de
la suposicin de la normal Multivariada. Por otro lado componentes principales
derivados para poblaciones Normales Multivariadas tienen tiles interpretaciones en
trminos de las elipsoides de densidad constante Adems, Inferencias pueden ser hechas
de las componentes muestrales como la poblacin es normal multivariada.
Pgina 3
1.2.1 OBTENCION DE LAS COMPONENTES PRINCIPALES EN LA

POBLACION
Las componentes principales son obtenidas de la forma siguiente:
De la ecuacin de autovalores:
( pxp)
i I ( pxp) 0
Tomando la parte positiva y multiplicando por e i y usando la restriccin e' i e i 1 tenemos :
e 'i ( pxp) i I ei 0

e 'i ( pxp) ei i e 'i ei i
e 'i ei i
(14)

Donde la ecuacin (14) significa que el vector ei satisface la ecuacin (9) y e'i ei 1,
entonces, la varianza de Yi e'i X es i , de tal manera, que para maximizar tal varianza
debemos de usar en (8), el mximo autovalor de la matriz es, 1 , para tal autovalor tenemos
la ecuacin :
( pxp)
1 I e1 0

e'1e1 1
(15)
Donde Y2 , recibe el nombre de segunda componente principal el cual es ortogonal a

Y1. Generalizando con la obtencin de las componentes principales, supongamos
con el vector e1 se define la combinaci n lineal con mxima varianza, es decir :
Y1 e'1 X

e'1 e1 1
que satisface :

Var(Y1 ) V( e1 X) e'1 e1 1
(16)
Pgina 4
definidas las i primeras, de la siguiente manera.
yi ei X

e'i ei 1
con
Donde Y1 recibe el nombre de Primer Componente Principal, por otra parte se cumple :
Var ( yi ) e'i ei i
(17)
e1 1e1
De la misma forma tomando el siguiente autovalor en forma decrecient e, es decir
2 1 , con su respectivo autovector e2

Se define la combinaci n lineal de mxima varianza residual, es decir :
Y2 e ' 2 X

e' 2 e 2 1
que satisface
V (Y2 ) e ' 2 e2 2
e 2 2 e 2
entonces

e ' 2 e1 e ' 2 1e1 1e ' 2 e1 0
Por consiguien te :
Cov( y 2 , y1 ) e ' 2 e1 0
Cov (Yj, Yi) = 0
1.2.2
con
ij
1ei
DEFINICION
Sea el vector aleatorio X=(X1, X2,...Xp) con matriz de covarianza con valores
caractersticos 1 2 ... p 0
Es posible definir una matriz L como el arreglo de las (P x P) constantes L(jk)
l (11)
l
( 21)
L

l ( p1)
l (12)
l ( 22)
l( p 2)
l (1 p )
l ( 2 p )

l ( pp)
Pgina 5
Y que satisface la condicin de ortogonalidad.

LL = LL = L-1 L = I,
Esto es:
0 k i
l ( jk ) l ( ji )
1 k i
k, i 1,2,, p
La matriz ortogonal L, puede expresarse la transformacin lineal de componentes

principales en trminos de esta matriz:
Y(nxp) = X(nxp) L(pxp)
Y1 l '1 X l11 X 1 l 21 X 2 l p1 X p
Y2 l ' 2 X l12 X 1 l 22 X 2 l p 2 X p
(18)
Y p l ' p X l1 p X 1 l 2 p X 2 l pp X p
considrese las combinaciones lineales.

Entonces,

Var (Yi ) l 'i li
i 1,2,, p

Cov(Yi , Yk ) l 'i l k
i, k 1,2,, p
Las componentes principales son aquellas combinaciones lineales no correlacionadas
Y1, Y2,...Yp cuyas varianzas en la ecuacin anterior son tan grandes como sea posible.
La primera componente principal es la combinacin lineal con la mxima varianza.

Es decir esta maximiza Var(Yi) = l 'i li es claro que Var(Yi)= l 'i li puede ser
incrementada por la multiplicacin por li por cualquier constante. Para eliminar esta
indeterminacin, es conveniente restringir nuestra atencin a vectores coeficientes de
longitud uno.
1.2.3
DEFINICIN
Primera Componente Principal = Combinacin Lineal l1 X que maximiza:

Var( l '1 X) sujeto a l '1 l1 1
Segunda Componente Principal = Combinacin Lineal l 2 X que maximiza:
Pgina 6

Var( l ' 2 X) sujeto a l ' 2 l2 1 y la
Cov( l '1 X, l ' 2 X) 0
En la i-sima etapa tenemos

i-sima componente principal = combinacin lineal l1X que maximiza

Var( l 'i X) sujeto a l 'i li 1 y la
Cov( l 'i X, lk X) 0
1.2.4
para k i
POSTULADO 1
Sea la matriz covarianza asociada con el vector aleatorio X=(X 1, X2,...Xp). sea
con sus pares de valores y vectores caracters ticos (1 , e1 ), (2 , e 2 ),, (p , e p ) donde :

1 2 ... p 0 la i-sima componente principal est dada por:
Yi e 'i X e1i X 1 e2i X 2 e pi X p
1.2.5
POSTULADO 2
Sea la matriz covarianza asociada con el vector aleatorio X=(X 1, X2,...Xp). Sea con
sus pares de valores y vectores caractersticos (1, 1), (2, 2),..., (p, p)
donde 1 2 ... p 0
Sean las componentes principales Y1= 1 X,
Y2=2X,...
Yp = pX
Entonces:
p
11 22 pp Var ( X i ) 1 2 p i 1Var (Yi )

p
(20)
i 1
Comentario del Postulado 2

Este postulado 2 nos indica que.
Varianza poblacional Total
= 11 + 22 +...+pp = 1 +2 +...+ p
Y consecuentemente, la proporcin de la varianza total debido (explicada por) la

k-sima componente principal es proporcin de la varianza poblacional total debida
a la k - sima componente principal

k
1 2 p
Pgina 7
k= 1, 2,...., p
Por ejemplo el 80 90% de la variacin poblacional total, para P grande puede ser
atribuible a una, dos tres componentes, entonces estas componentes pueden
reemplazar las P variables originales sin mucha prdida de informacin.
Cada componente del vector coeficiente 1=(e11,........, ek1,... ep1), tambin merece
atencin. La magnitud de ki mide la importancia de la k-sima variable a la i-sima
componente principal en particular, ki es proporcional al coeficiente de correlacin
entre Yi e Xk.
1.2.6
POSTULADO 3
Si:
Y1=1X
Y2=2X,
...
Yp = pX son las componentes principales
obtenidas de la matriz covarianza entonces:
Yi , X k
eki i
kk
i, k 1,2,, p
(21)
Son los coeficientes de correlacin entre las componentes Yi y las variables Xk.
Donde: (1, 1), (2, 2),... , (p, p) son los autovalores autovectores de los pares
para .
1.3
ANALISIS DE LA VARIACION MUESTRAL POR COMPONENTES

PRINCIPALES
Supongamos que los datos X1, X2,..., Xn representan independientes extracciones de

alguna poblacin P-dimensional con vector promedio y matriz covarianza . Estos
datos producen x , S y R
1.3.1 ESTIMACION DE LOS POSTULADOS 1,2 y 3
Construir combinaciones lineales no correlacionadas de las caractersticas medidas que
explican una gran proporcin de la variacin de la muestra. Las combinaciones no
correlacionadas con las varianzas ms grandes sern denominadas las componentes
muestrales principales.
Pgina 8
Si:
S(pxp) es la matriz covarianza muestral con sus pares de valores y vectores
estimados correspondientes.
(1 , e1 ), (2 , e2 ),, ( p , e p ) la i-sima componente principal muestral estimada est

dada por:
y i e 'i X e 1i X1 e 2i X 2 e pi X p
i 1,2,, p
donde 1 2 p 0 y X cualquier observacin en las variables x1, x 2 ,x p

Tambin, la varianza muestral estimada (Yk ) k k=1,2,...,p
i, Y
k) 0
Covarianza Muestralestimada (Y
ik
Adicionalmente:
p
Varianza MuestralTotal Estimada sii i 2 p k-simos coeficientes de

i 1
correlacin muestral
r( yi , xk )
eki i
skk
i, k 1, 2,, p
(22)
Denotaremos las componentes principales por Y1, Y2, ... Yp sin considerar si ellas
fueron obtenidas de S o R. Las componentes construidas de S y R no son las mismas,
en general indicndose la matriz que est siendo usada y la notacin simple es
conveniente.
Pgina 9
CAPITULO II :
METODO DEL ANALISIS FACTORIAL
2.1 INTRODUCCIN
El Anlisis Factorial es una tcnica Multivariante que nos permite identificar
variables subyacentes con un numero relativamente pequeo de factores que expliquen
la mayora de la varianza observada en un numero mayor de variables manifestantes ,
los que pueden ser utilizados para representar la informacin contenida en la estructura
de la matriz de correlaciones entre un conjunto de variables observadas
El objetivo del Anlisis Factorial es encontrar variables subyacentes no observables ni
medibles directamente pero que se pueden identificar en funcion de las variables
observables, tal es el caso en el rea de Psicologa de la variable subyacente coeficiente
de inteligencia medida por los investigadores a partir de un conjunto de variables .
El mtodo de Anlisis Factorial nos permitir realizar un estudio detallado de la matriz
de correlaciones para su posterior anlisis e interpretacin y por medio de este estudio
construir las variables subyacentes
2.2 EL MODELO FACTORIAL ORTOGONAL

Sea el vector aleatorio observable X, de orden px1, de p componentes, tiene
media y matriz de covarianza . El modelo factorial postula que X es linealmente
dependiente de algunas variables aleatorias no observables F1, F2, ... , Fm llamadas
factores comunes y p fuentes de variaciones adicionales 1, 2, ... , p, llamados
errores o factores especficos relacionados a cada variable en estudio.
El modelo de Anlisis Factorial es:
X - = LF +
(2.1)
Xpx1 = px1 + Lpxm Fmx1 + px1

Lo que tambin se puede expresar como:
X 1 1 l11F1 l12 F2 l1m Fm 1
X 2 2 l 21F1 l 22 F2 l 2m Fm 2
(2.2)
Pgina 10
X i i li1 F1 li 2 F2 lim Fm i
X p p l p1 F1 l p 2 F2 l pm Fm p
De donde se puede identificar las siguientes matrices:
i)
1

i

p
1 p
i 1... p
i : media de la i-esima variable

ii)
l11
.
L
.
l p1
.
lij
.
.
. l1m
. .
. .
. l pm
p m
i 1... p , j 1...m
La matriz L es la matriz de los factores de carga o coeficientes de aprovechamiento

Donde el coeficiente lij es llamado la carga o peso de la i-sima variable sobre el
j-simo factor.
iii)
F1

F Fj

Fm
1m
j 1...m
F j : es el j-esimo factor comun.
iv)
1

i

p

i 1... p
1 p
i : i-esimo factor especifico el cual esta relacionado con la i-esima variable

Pgina 11
Las p desviaciones X1 - 1, X2 - 2, ... , Xp - p, estn expresadas en trminos de

p + m variables aleatorias : F1, F2, ... , Fm, 1, 2, ... , p las cuales son no observables.
Con las siguientes suposiciones:
1) Los p factores comunes son no correlacionadas con varianza 1 y esperanza 0
E(F) = 0mx1
................( 2.3)
Cov(F) = Imxm
2) Los factores especificos son independientes con media 0 y varianza p p
E() = Opx1
...................( 2.4)
Cov()= pxp
.
11 0
0
.
22
. ii
.
.
.
.
0
0
.
.
.
.
.
.
0
0
.
.
pp p p
ii : varianza especifica de la i-esima variable
3) Cada factor no comun es independiente con cada factor comun

Cov(,F) = E(F) = 0pxm
.....................( 2.5)
Estas suposiciones y la expresin (1) constituyen el modo factorial ortogonal.

El modelo Factorial es oblicuo cuando los factores F se pueden correlacionar de manera
que Cov(F) es no diagonal . Este modelo presenta algunas dificultades en la estimacin
adicional.
2.2.1 RESULTADOS DEL MODELO FACTORIAL

2.2.1.1 RESULTADO 1
El modelo factorial ortogonal implica una covarianza para X tal que:
Pgina 12
= LL +
.................( 2.6)
2.2.1.2 RESULTADO 2
La covarianza entre la matriz de datos y la matriz de factores es la matriz de cargas
factoriales.
.(2.7)
Cov(X,F) = L
2.2.2
ESTRUCTURA
DE
LA
COVARIANZA
PARA
EL
MODELO
FACTORIAL ORTOGONAL
De los resultados anteriores se puede concluir que la estructura de la covarianza para el
modelo Factorial Ortogonal esta dado por:
1.
Cov(X) = LL +
De donde:
Var(Xi) = l2il + ... + l2im + ii
.(2.8)
Cov(Xi ,Xk) = lil lkl + ... + lim lkm
2.
Cov(X,F) = L
De donde:
Cov(Xi ,Fj) = lij
.....................( 2.9)
El modelo siguiente es lineal en los factores comunes

X - = LF +
................... ( 2.10)
Pero si las p respuestas X estn, relacionadas a los factores fundamentales de manera

no lineal , el modelo factorial estara dado por :
X1 - 1 =l11F1F3 + 1
...( 2.11)
X2 - 2 =l21F2F3 + 2
.
Pgina 13
entonces la estructura covarianza LL + dada por ( 19) puede ser la no adecuada. La

suposicin muy importante de linealidad es inherente en la formulacin del modo
factorial.
2.2.3 COMUNALIDAD
Se denomina comunalidad hi2 a la proporcin de la varianza de la i-sima variable,
atribuible a los m factores comunes.
La parte de la varianza debida al factor especfico a menudo se llama varianza
especfica.
Var(Xi) = Comunalidad + Varianza especfica

ii = hi2 + ii
ii = lil2 + li22 + ... + lim2 + ii
lij2+ ii
j 1
donde : hi2 = lil2 + li22 + ... + lim2 = lij2

j 1
es la comunalidad de la i-esima variable

La comunalidad hi2 es la suma de los pesos factoriales al cuadrados de la de la i-sima
variable sobre los factores comunes.
La comunalidad oscila entre 0 y 1 , 0 indica que los factores no explican nada de la
variable y 1 que explica el 100% de la variable , la variabilidad total es igual a :
ii = hi2 + ii
donde:
hi2 :comunalidad
ii: variabilidad de acuerdo al factor especifico.
La tcnica del Anlisis Factorial toma los valores de la correlacin mltiple al
cuadrado como los valores iniciales de la comunalidad .
2.2.4 LA NO UNICIDAD DE LAS CARGAS FACTORIALES

Para estudiar la no unicidad de las cargas factoriales , se toma una matriz ortogonal G
tal que
GG = GG = I
La expresin (1) se puede escribir:
X - = LF +
Pgina 14
= LG GF +
X - = L*F* +
..(( 2.12)
L* = LG
donde
y
F* = GF
como
E[F*] = TE[F] = 0
y
Cov[F*] = GCov[F]G
= GG
Cov[F*] = Imxn
..(( 2.13)
entonces es imposible, sobre la base de las observaciones en X distinguir las cargas L de

las cargas L* . Esto es, los factores F y F* = TF tienen las mismas propiedades
estadsticas y an cuando las cargas L* son, en general, diferentes de las cargas L,
ambas generan la misma matriz de covarianzas . Esto es:
= LL +
= LGGL +
= (L*)(L*) +
...( ( 2.14)
Esta ambigedad en la definicin de las cargas factoriales nos proporciona lo razonable

de la rotacin factorial, puesto que las matrices ortogonales corresponden a las
rotaciones del sistema de coordenadas para X.
2.2.1. OBTENCIN DE LAS CARGAS FACTORIALES

Los factores de carga L se determinan nicamente a partir de una matriz
ortogonal G. As, las cargas:
L* = LG
nos dan la misma representacin. As mismo las comunalidades, dadas por los
elementos diagonales de LL = (L*)( L*) no estn afectadas por la eleccin de G.
2.3 PRUEBAS ESPECIFICAS PARA EL ANLISIS FACTORIAL

El primer paso en el Anlisis Factorial sera calcular la matriz de correlaciones entre
todas las variables que se toman en el anlisis .
Una vez que se dispone de esta matriz concierne examinarla para comprobar si sus
caractersticas son adecuadas para realizar un
Anlisis Factorial , uno de los

Pgina 15
requisistos que debe cumplirse para que el Anlisis Factorial tenga sentido es que las
variables esten altamnete correlacionadas.
Pueden utilizarse diferentes metodos para comprobar el grado de asociacin entrelas
variables .
2.3.1 EXAMEN DE LA MATRIZ DE CORRELACIN

El objetivo de analizar la matriz de correlacin es estudiar la caracterstica de los
factores los cuales vienen condicionadas por dicha matriz. Si hay muchas correlaciones
altas entre las variables es indicativo de informacin redundante y pocos factores
explicaran gran parte de la variabilidad total, por el contrario correlaciones pequeas
entre las variables son indicativos de poca informacin redundante por lo tanto
necesitaremos muchos factores para explicar una parte sustancial de la variabilidad.
La correlacin mltiple deber ser alto para realizar un Anlisis Factorial
2.3.2
ANLISIS
DE
LA
DETERMINANTE
DE
LA
MATRIZ
DE
CORRELACIN
La determinante de la matriz de correlacin es un ndice de varianza
generalizada de dicha matriz . Un determinante muy bajo indicara altas
intercorrelaciones entre las variables pero no debe ser cero (matriz no singular ), pues
esto indicara que alguna de las variables son linealmente dependientes y no se podra
realizar ciertos clculos necesarios en el Anlisis Factorial.
2.3.3
PRUEBA DE ESFERICIDAD DE BARTLETT

Se utiliza para verificar si la matriz de correlaciones se ajusta a la matriz
identidad (I),
Es decir ausencia de correlaciones significativas entre las variables , esto significa que
la nube de puntos se ajustara a una esfera n-dimensional perfecta , expresando as la
hiptesis nula por:
H 0 :R=I
...............(29)
Es decir que la determinante de la matriz de correlaciones es igual a 1
H0 : R 1
Pgina 16
Para la prueba correspondiente de dicha hiptesis se toma el siguiente estadstico de

Bartlett la cual se distribuye con una chi-cuadrado con
1
n 1 2 p 5 * ln R
6
1
p p 1
2
...................(2.15)
Donde:
n : es el tamao muestral
p : es el numero de variables
Si se acepta la hiptesis nula con una confianza del 95% ( p-value >0.05)
Significa que las variables no estan intercorrelacionadas por tanto no tiene mucho
sentido llevar a cabo un anlisis factorial .
En cambio si se rechaza la hiptesis nula ( p-value 0.05) evidencia que no se trata de
una matriz identidad
2.3.4 NDICE DE KAISER- MEYER-OLKIN (KMO)

El ndice KMO nos compara los coeficientes de correlacin de pearson con los
coeficientes de correlacin parcial entre variables .
La formula correspondiente es:
KMO
r
i j
r
i j
2
ij
2
ij
a
i j
..................(2.16)
2
ij
Donde :
rij : es la correlacion simple.

a ij : es la correlacion parcial.
Si los coeficientes de correlacion parcial son muy pequeos , esto nos indica que la
relacion entre cada par de las mismas se debe o puede ser explicado por el resto y por
tanto llevara a cabo un anlisis factorial de los datos no deja de ser una buena solucion.
En este supuesto , si la suma de los coeficientes de correlacion parcial al cuadrado es
muy pequea KMO sera un indice muy proximo a la unidad y por tanto el Anlisis
Pgina 17
Factorial es un procedimiento adecuado ,en cambio valores pequeos en este indice

nos dan a entender todo lo contrario
KMO 0.5 , malos o inaplicables al anlisis factorial
0.5<KMO<0.7 , medio o regulares
KMO 0.7 , buenos y excelentes
2.3.5 MEDIDA DE ADECUACION DE LA MUESTRA (MSA)

Viene a ser el indice de Kaiser-Meyer-Olkin pero en este caso para cada variable
por separado y se obtiene de la siguiente forma :
MSAi
r
i j
2
ij
...................(2.17)
r a
i j
2
ij
i j
2
ij
En lugar de incluir las sumatorias de los pares solamente se incluye la sumatoria de la

variable para la se calcula el coeficiente ,por lo demas la interpretacin de sus valores
es idntica a la realizada para los KMO.
2.4 METODOS DE ESTIMACION

Dadas las observaciones X1, X2 , ... , Xn con p variables generalmente correlacionadas,
el anlisis factorial procura responder a la siguiente pregunta: El modelo factorial (14),
con un pequeo nmero de factores, representa a los datos adecuadamente? En esencia,
maniobramos este problema de construccin del modelo estadstico intentando verificar
la relacin de covarianza en (19).
La matriz de covarianzas muestral S es un estimador de la matriz de covarianzas
poblacional desconocida. Si los elementos fuera de la diagonal de S son pequeos o
aquello de la matriz de correlacin muestral R son esencialmente ceros, las variables no
estn relacionadas y una anlisis factorial no probar ser de utilidad. En estas
circunstancias, los factores especficos juegan un rol dominante, mientras que el
propsito mayor del anlisis factorial es el determinar algunos factores comunes
importantes.
Pgina 18
Consideremos dos mtodos de estimacin de los parmetros: El mtodo de la

componente principal y el mtodo de mxima verosimilitud. La solucin de uno u otro
mtodo, puede ser rotado a fin de simplificar la interpretacin de los factores.
2.4.1 MTODO DE LA COMPONENTE PRINCIPAL

La descomposicin espectral nos proporciona una factorizacin de la matriz de
covarianzas . Sea , la cual tiene los pares de valor propio vector propio (i, ei), con
1 2 ... p 0 . Entonces:
= 1e1e1 + 2e2e2 + ... +pepep
1 e1 '
1 e1 , 2 e 2 ,..., p e p .
p e p '
..............(2.18)
Esto adapta la estructura de la covarianza prescrita para el modelo de anlisis factorial,

teniendo tantos factores como variables (m=p) y varianzas especficas ii=0, para todo i.
En la matriz de carga, la j-sima columna est dada por
j e j . Esto es, podemos
escribir:
pxp = Lpxp Lpxp + Opxp = LL
A parte del factor
.....................(2.19)
j , los factores de carga del j-simo factor son los coeficientes para
la j-sima componente principal poblacional.
Si bien la expresin (34) es exacta no es de utilidad particularmente. Empleamos tanto

factores comunes como variables hay o no se permite cualquier variacin en los factores
especficos dados en (14) preferimos modelos que expliquen
la estructura de la
covarianza en trminos de justamente algunos factores comunes. Una aproximacin

cuando los ltimos p-m autovalores (o valores propios) son pequeos, es omitir la
contribucin de:
m+1em+1em+1+ ... + pepep
Pgina 19
a en la expresin (33), obtenindose:
1 e1 '
L L'
1 e1 ,..., m e m .
pxm
mxp
m e m '
................. (2.20)
Esta representacin aproximada, asume que los factores especficos en (4) son de
importancia secundaria y que tambin se pueden ignorar en la factorizacin de . Si los
factores especficos se incluyen en el modelo, sus varianzas se pueden asumir, ser los
elementos de la diagonal de - LL, donde LL est definido en (12). Considerando los
factores especficos, la aproximacin ser:
= LL +
1 ei '
11 0 . 0
.
.
. .
.
1 ei ,..., m e m .
.
. .
.
.

0 0 . pp
m e m '
.................(2.21)
donde ii ii l ij2 , i = 1, ..., p

j 1
Si deseamos aplicar esta aproximacin a un conjunto de datos x 1, x2, ... , xn, se

acostumbra primero hallar las derivaciones de las observaciones con respecto a su
media muestral X , tal que:
X1j X1 X1j X 1

X 2 j X 2 X 2 j X 2
. . .
, j = 1, ....,n
Xj X
. . .
. . .
X Pj X P X Pj X P
(2.22)
tenga la misma matriz de covarianzas muestral S, como las observaciones originales.

En casos donde, las unidades de las variables no sean conmensurables, por lo comn es
preferible trabajar con las variables estandarizadas.
Pgina 20
X ij X 1
S 11
z j .
X X
p
pj
S pp
, j = 1,2, ... , n
Cuya matriz de covarianza muestral es la matriz de correlacin muestral R, de las

observaciones X1, X2, ...., Xn . La estandarizacin evita los problemas de que al tener un
problema con varianza grande, indebidamente influya en la determinacin de los
factores de carga.
La expresin en (36), aplicada a la matriz de covarianzas muestral S a la matriz de

correlacin muestral R, se conoce como la solucin de la componente principal.
2.4.1.1
SOLUCIN DE LA COMPONENTE PRINCIPAL DEL MODELO
FACTORIAL
La componente principal del Anlisis Factorial de la matriz de covarianza muestral S,
est especificada en trminos de los pares autovalor-autovector (1 , e1 ),....., ( p , e p )
donde 1 2 .... p . Sea m<p nmero de factores comunes. La matriz de los
factores de carga estimados estn dados por:
~
L
e ,
1 1
2 e2 ,......, m em
(2.23)
Las varianzas especficas estimadas estn dadas por los elementos de la diagonal de la
~L
~' , de manera que:
matriz S L
~
11
0
~
.
~
.
.
.
0
.
.
22
0
0
~2
con
~ S
lij
ii
ii
.
~
pp
Las comunalidades se estiman segn:

~
hi 2 lil2 li 22 ..... lim2
(2.24)
(2.25)
Pgina 21
La componente principal del anlisis Factorial de la Matriz de correlacin muestral se

obtiene comenzando con R en lugar de S.
Para la solucin de la componente principal, los factores de carga estimados para un

factor dado no varan cuando se incrementa el nmero de factores. Por ejemplo:
e , si m=1.
~ e , e , si m=2,
L
~
L
1 1
1 1
donde:
(1 , e1 ) y(2 , e2 ) son los dos primeros pares autovalor-autovector para S (o para R).
De la definicin de ~ ii , los elementos de la diagonal de S son iguales a los elementos de
~L
~'~ . Sin embargo, los elementos fuera de la diagonal de S no estn
la diagonal de L
~L
~'~ . Entonces Cmo seleccionamos el nmero de
generalmente reproducidos por L
factores m?.
Si el nmero de factores comunes no esta determinado por consideraciones a priori,
tales como por la teora o por trabajos de otros investigadores, la eleccin de m se puede
basar en los autovalores estimados de manera anloga como con las componentes
principales.
Consideremos la matriz residual:
~L
~'~]
S [L
(2.26)
resultante de la aproximacin de S mediante la solucin de la componente principal. Los

elementos de la diagonal son ceros si los otros elementos son pequeos tambin.
Podemos considerar subjetivamente apropiado el modelo de m factores. Analticamente
tenemos que:
~L
~'~] 2 ..... 2 (2.27)
Suma de cuadrados admitidas de S [ L
m 1
p
Por consiguiente, un valor pequeo para la suma de cuadrados de los auto-valores
omitidos implica un valor pequeo para la suma de cuadrados de los errores de
aproximacin.
Lo ideal es que, las contribuciones de algunos de los primeros factores o las varianzas
muestrales de las variables pudiera ser grande. La contribucin a la varianza muestral s ii
Pgina 22
~
a partir del primer factor comn es li12 . La contribucin a la varianza muestral total, s11
+ s22 + .... + spp = tr(S), del primer factor comn, es entonces:
~2 ~2
~
l11 l21 .... l p21
e ' e
1 1
puesto que el auto-vector e1 tiene longitud unitaria.
proporcin de la varianza muestral
s11 .....s pp
, para S
=
.............(44)
total debida al j-simo factor
j
p
, para un anlisis factorial de R
El criterio (44) se usa frecuentemente como un artculo heurstico para determinar el

nmero apropiado de factores comunes. El nmero de factores comunes reservados en
el modelo se incrementa hasta que una proporcin apropiada de la varianza muestral
haya sido explicada.
Existen otros criterios los cuales se encuentran en los paquetes estadsticos.
2.5 ROTACION DE FACTORES

La finalidad de las Rotaciones Factoriales no es otra cosa sino de ayudarnos a
interpretar en el supuesto que no quede claro en la matriz de pesos factoriales no rotadas
Existen varios procedimientos para las rotaciones factoriales como
VARIMAX ,
EQUAMAX y QUARTIMAX que son procedimientos ortogonales es decir que los

factores se mantienen incorrelacionados y los ejes forman angulos rectos .El PROMAX
y EL DIRECT OBLIMIN pertenecen al grupo de los denominados oblicuos o no
ortogonales , sealan a su vez que la rotacin no afecta a la comunalidad y el porcentaje
de varianza explicada por el modelo, aunque si puede cambiar de cada factor.
Lo mas recomendable es la rotacin ortogonal , aunque en el caso que exista razones
para pensar que los factores estn correlacionados ,entonces utilizaremos la rotacin
oblicua .
Pgina 23
En la rotacin oblicua las ponderaciones factoriales no coinciden con las correlaciones

entre el factor y la variable , puesto que los factores estn correlacionados entre si ,por
eso se hace la rotacin oblicua la matriz factorial no rotada se convierte en dos matrices
diferentes : la matriz de ponderaciones (la que se utiliza en la interpretacin ) y la matriz
de correlaciones entre factores y variables .
A continuacin definiremos cada uno de estos mtodos :
2.5.1 MTODOS DE ESTIMACIN

2.5.1.1 VARIMAX
Es el procedimiento ortogonal mas utilizado ,el mismo que trata de minimizar el
numero de variables que hay con pesos o saturaciones elevadas en cada factor
2.5.1.2 QUARTIMAX
Este procedimiento Ortogonal trata de minimizar el numero de factores necesarios para
explicar un conjunto de variables .
2.5.1.3 EQUAMAX
Es un procedimiento Ortogonal el cual es una combinacin de los dos anteriores, es
decir trata de simplificar factores y variables.
2.5.1.4 PROMAX
Es una rotacin oblicua que se utiliza cuando las ponderaciones factoriales no coinciden
con la correlacion entre el factor y la variable .
2.5.1.5 DIRECT OBLIMIN

Es un procedimiento oblicuo similar al anterior , si utilizamos este mtodo al final
tendremos una matriz de correlacin entre los factores pero no ser identidad
Pgina 24
CAPITULO III
ANALISIS DE CORRESPONDENCIAS
3.1
INTRODUCCIN
El anlisis de correspondencia, es un mtodo multivariado que reduce la
dimensin (Tamao de la tabla de contingencia), para el estudio de las relaciones de

interdependencia entre variables categricas. Convierte las categoras de la tabla de
frecuencias (filas y columnas) en un menor nmero de dimensiones, indicando que
porcentaje del valor Chi-cuadrado de la asociacin puede ser explicado por las nuevas
dimensiones. Por ello guarda cierta analoga con la prueba Chi-cuadrado y con el
coeficiente de concordancia de Kendall, Visauta (1998).
Pero el anlisis de correspondencias, adems de analizar la relacin existente

entre variables, permite analizar como est estructurada esta asociacin, describiendo
proximidades que permite identificar categoras causas de asociacin.
Con la prueba de Chi-cuadrado de independencia, se puede observar si dos

variables son independientes o no y se puede determinar el grado de dependencia de las
mismas. Pero, dichas medidas no permite encontrar en que consisten las similitudes
entre las categoras de cualquiera de las dos variables o la dependencia entre ellas.
El anlisis de Correspondencias nos aportar informacin que de ningn modo

nos proporcionaba la Chi-cuadrado y los coeficientes de correlacin (Otros ratios) (en
trminos de existencia o no de relacin entre las variables, su intensidad y nivel de
significacin). El Anlisis de correspondencia calcular; perfiles, inercias,
contribuciones, etc., de las diversas filas y/o columnas de la tabla y adems nos
permitir analizar esta posible relacin entre las variables de un modo grfico en un
espacio bidimensional de modo que, previo clculo por filas y columnas de las
puntuaciones de la tabla, las diversas categoras de las variables estarn representadas
en el grafico ms prximas o alejadas en las diversas dimensiones en funcin de su
grado de similitud o diferencias. De manera que:
Pgina 25
Prximas al origen del espacio bidimensional o pluridimensional estarn las

categoras de las variables que menos discriminan cada una de las dimensiones de la
solucin y en las categoras mas alejadas del origen es mayor la discriminacin.
Mayor o menor proximidad entre las categoras en el plano equivale a un mayor o

menor grado de relacin o interdependencia entre las mismas.
El anlisis de correspondencia, es como realizar dos veces Anlisis de

Componentes Principales (ACP). En el primero, los perfiles filas desempean el papel
de unidades bajo estudio, en el segundo, son los perfiles columnas las que desempean
el papel de unidades bajo estudio. En resumen el AC es un doble ACP cuyas unidades
son representadas simultneamente, el anlisis de correspondencias se divide en dos
campos anlisis de correspondencias simple y mltiple.
Simple: Es el modelo general, se aplica al tratamiento de tablas de contingencia
obtenidas del cruce de dos variables nominales.
Mltiple: Es una generalizacin del caso anterior al caso de dos o ms variables
nominales. Se aplica a tablas de la forma individuos por variables nominales en
codificacin disyuntiva completa.
3.2
OBJETIVOS DEL ANLISIS FACTORIAL DE CORRESPONDENCIA

Permitir estudiar la asociacin mutua entre las categoras de dos o ms variables
cualitativas o cuantitativas categorizadas.
Reducir la dimensin del caso estudiado, de manera que permita un estudio ms

simple del problema investigado.
Visualizar, mediante proyecciones sobre planos, llamados factoriales, las

proximidades entre perfiles lneas, entre perfiles columnas y entre perfiles filas y
columnas.
Permite extraer nuevas variables o factores que resuman de manera organizada la

informacin significativa contenida en las tablas y permite crear grficos que
muestren la identificacin de los objetos en filas y/o en columnas.
Pgina 26
En el presenta trabajo abordaremos solamente el anlisis de correspondencias

simple, con su respectiva aplicacin en desnutricin infantil, en nios menores de 5
aos.
3.3
TABLA DE CONTINGENCIA
Una tabla de contingencia resume la observacin simultanea de dos
caractersticas X e Y .
Donde la variable cualitativa X est dividida en n categoras mutuamente

excluyentes y la variable Y dividida en p categoras.
Tabla N 3.1
Tabla de contingencia
Variable Y
k11
k1 j
k1 p
k 1.
k i1
k ij
k ip
k i.
k n1
k nj
k np
k n.
Total
k .1
k. j
k. p
k ..
Caractersticas
Variable X
Total
Donde:
k ij : Frecuencia absoluta Y, representa la cantidad de individuos observados que

presentan simultneamente la categora i de la variable X y la categora j de la
variable Y .
k i . : Es la frecuencia marginal de X , y est dado por:

p
k i. k ij
j 1
k . j : Es la frecuencia marginal de Y , definida por la expresin:
Pgina 27
k. j k ij
i 1
k .. : Es el tamao de la muestra:
n
i 1
j 1
k.. kij ki. k. j

i 1 j 1
Con el propsito de realizar un anlisis descriptivo, frecuentemente se considera la

tabla de frecuencias relativas, para tal propsito previamente se define.
Tabla N 3.2
Tabla de frecuencias relativas
Variable Y
Total
f 11
f1 j
f1 p
f 1.
f i1
f ij
f ip
f i.
f n1
f nj
f np
f n.
Total
f .1
f. j
f. p
f ..
Caractersticas
Variable X
La frecuencia relativa conjunta f ij se define mediante la relacin:
f ij
k ij
k ..
El valor de cada celda corresponde a la proporcin de individuos observados en la

poblacin que presentan simultneamente la categora i de la variable X y la categora
j de la variable Y .
Frecuencias Marginales
f i.
p k
p
k i.
ij
f ij i p 1,2,..., p
k.. j 1 k.. j 1
f. j
n k
n
k. J
ij
fij j n 1,2,..., n
k.. i 1 k.. i 1
Pgina 28
La suma total o la suma de las mrgenes es evidentemente igual a uno, puesto

que la tabla de frecuencias relativas se obtiene dividiendo la tabla de
contingencia por k .. .
n
f..
i 1 j 1
3.4
kij
k..
1 n p
k
kij .. .. 1
k.. i 1 j 1
k..
ANLISIS ESTADSTICO DE UNA TABLA DE CONTINGENCIA

El anlisis estadstico ms conocido para tablas de contingencia es la prueba de
Chi cuadrado, la misma que tienen principalmente tres aplicaciones, prueba de

independencia, prueba de homogeneidad y bondad de ajuste; en el presente trabajo
abordaremos la prueba de independencia.
3.5
ANLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLE (ACS)

El Anlisis de correspondencias simple es una tcnica para representar las
categoras de las dos variables en un espacio de pequea dimensin que permita

interpretar las similitudes entre categoras de una variable respecto a las categoras de la
otra, las relaciones entre las categoras de ambas variables.
Igual que el anlisis de componentes principales, el ACS trata de explicar la

dispersin de la matriz de varianzas - covarianzas (aunque en este caso se denomina
matriz de inercia) a travs de un nmero menor de variables (factores), pero este anlisis
debe realizarse tanto para las filas como para las columnas. Por tanto es un caso
particular del anlisis de componentes principales y se tienen que llevar acabo dos
anlisis de componentes principales, uno para el espacio que definen las filas y otro para
el espacio que definen las columnas.
En muchos estudios es frecuente que el investigador precise utilizar

simultneamente variables medidas tanto en escalas no mtricas como mtricas. En tal
caso, resulta interesante transformar las variables mtricas en otras que no sean de este
modo, todas las variables estarn medidas en la misma escala (no mtrica) y ser
posible operar con ellas conjuntamente aplicando ACS o Anlisis de Correspondencia
Mltiple (ACM).
Pgina 29
3.5.1 Tabla de perfiles filas y columnas

Reflejan las proporciones que el nmero de individuos de cada
celda
representan sobre el total de la fila y sobre el total de la columna respectivamente. El

grado de similitud entre estos perfiles tanto por filas como por columnas quedar
reflejado en cada grfico en trminos de proximidad o lejana entre las categoras de las
variables.
La tabla inicial no se analiza directamente, si no mediante tabla perfiles fila y
columna:
a) Perfil Fila
En el estudio de las filas, la tabla de datos se transforma dividiendo cada trmino f ij de
la fila i por la marginal f i. de esta fila i . La nueva fila se denomina perfil-fila.
Tabla N 3.3
Perfiles fila
Variable Y
f11 / f1.
f i1 / f i .
n/ p
Variable X
Total
f 1 p / f 1.
f ij / f i.
f ip / f i.
f n1/ f n.
f np / f n.
j
f 1 j / f 1.
f nj / f n.
Donde:
f ij
f i.
Representa el porcentaje de elementos de la poblacin que cumplen la categora j
sabiendo que poseen la condicin i de la primera variable.

Se denomina perfil fila i a la distribucin de frecuencias de las categoras del
factor X condicionadas a las categoras del factor Y , esto est dado por:
f ip
f f
, i 1,2,3,...n
H i i1 , i 2 ,...,
f i.
f i. f i.
Pgina 30
b) Perfil Columna
En el estudio de las columnas, la tabla de datos se transforma dividiendo cada
trmino f ij de la columna j por la marginal f . j de esta columna j . La nueva columna
se denomina perfil-columna.
Tabla N 3.4
Perfiles columna
Variable Y
f 11 / f .1
f 1 j / f .1
f 1 p / f .1
fi1 / f. j
fij / f. j
fip / f. j
f n1 / f. p
f nj / f. p
f np / f. p
Total
n/ p
Variable X
Donde:
f ij
f. j
Representa el porcentaje de elementos de la poblacin que cumplen la categora i
sabiendo que poseen la condicin j de la primera variable.

Se denomina perfil de la columna j a la distribucin de frecuencias de las
categoras del factor Y condicionadas a las categoras del factor X .
f1 j f 2 j
f nj
Fj
,
,...,
f
f
f
.
j
.
j
.
j
j 1,2,3,..., p
Los perfiles columnas pueden compararse con la distribucin de las frecuencias

del factor X .
El resultado de la asociacin se da en doble sentido y representa lo mismo, si los
perfiles fila o columna de categoras distintas tienen igual comportamiento las variables
son independientes, en caso contrario estn asociados. Este proceso es un anlisis de
componentes principales por filas y columnas.
Pgina 31
3.5.2 Distancia entre los elementos fila y columna

En cualquier espacio multidimencional puede definirse una distancia entre dos
puntos (categoras), para analizar la semejanza entre ellos.
Para ello es necesario introducir el tipo de distancia a usarse.
a) Distancia Euclidiana
La expresin general de esta distancia en el marco de las tablas de contingencia,
entre dos elementos fila de una tabla de contingencias es.
d i ,i '
k
p
j 1
k i ' j i, i'
2
ij
La distancia entre dos elementos columna de una tabla de contingencia es la

siguiente.
d j , j '
k
n
i 1
k ij ' j, j '
2
ij
Propiedades de Distancia Euclidea
Cuando comparamos dos elementos fila o columna de una tabla establecemos una
relacin de similitud o desimilitud de diferencias entre dos categoras de X , si
esta distancia es cerca de cero entonces las categoras son similares, caso contrario
son diferentes.
d (i ,i ') 0, i, i'
d ( j , j ') 0, j, j '
Si los elementos comparados por fila son idnticos, para todo par de elementos de la
tabla, entonces
d i, i' 0 i i' , Similarmente para el caso de columnas d j, j ' 0 j j '
d i, i' d i' , i , i, i' y d j, j ' d j ' , j , j, j '
Si consideramos tres elementos de una tabla de frecuencias, se verifica que:
d i, i' d i, k d i' , k , i, i' , k
d j, j ' d j, m d j ' , m, j, j ' , m
Pgina 32
b) Distancia Chi cuadrado

Establecer la semejanza entre dos perfiles fila, vendra determinado por
establecer la distancia eucldea entre los dos perfiles, sin embargo si procedemos as la
diferencia solo reflejara la diferencia entre las frecuencias marginales f i. o f . j
manifestando el efecto talla, lo que va a caracterizar al anlisis de correspondencias
simple es la ponderacin que supone los denominadores de las expresiones de los
perfiles.
Si introducimos las ponderaciones
1
1
o
en caso de filas o columnas
f. j
f i.
estamos equilibrando los perfiles y dando la misma importancia a cada uno de ellos,
aumenta los trminos a priori ms dbiles, referente a las categoras raras, juega un
papel analgico al de la divisin de la desviacin tpica en el caso de las variables
numricas. En definitiva, supone tomar como referencia el perfil medio.
El carcter cualitativo de las variables obliga a usar una distancia distinta a la euclidea,
en nuestro caso para medir la distancia entre dos filas o entre las dos columnas se
recurre a la denominada distancia 2 . En realidad es una distancia eucldea ponderada
por la inversa del peso de la j sima columna en caso de que estemos midiendo la
distancia entre dos filas o ponderada por la inversa del peso de la i sima fila, en caso
de que estemos midiendo la distancia entre dos columnas. La expresin de distancia
entre dos filas i e i es igual a:
p
d (i, i )
2
j 1
1 f ij f ij
f . j f i. f i
Similarmente, la distancia entre dos columnas j
j se obtiene aplicando la
siguiente expresin es:

n
d ( j , j )
2
i 1
f ij
1 f ij
f i. f . j f . j
De acuerdo con esta distancia, las categoras de los perfiles fila estn
representadas por una configuracin de j puntos en un espacio euclideo
R p , de
coordenadas.
pi :
f ij
f . j f i.
,...,
f . p f i.
f ip
Pgina 33
Las categoras de los perfiles columna est representada por una configuracin i
de puntos en un espacio euclideo de R n , de coordenadas.
pj :
f ij
,...,
f i. f . j
f n. f . j
f nj
3.5.3 Nube de puntos

Cada perfil-fila es un conjunto de p valores numricos y puede ser representado
por un punto en el espacio R p en el que cada uno de las p dimensiones est asociado a
una categora de la segunda variable.
La distancia 2 que define la semejanza entre perfiles-fila posee las
propiedades de una distancia eucldea y confiere a R p la estructura de espacio eucldeo.
Esta distancia conduce a asignar a la j sima dimensin del R p el peso f . j .
La suma de las coordenadas de cada perfil-fila vale 1; resultando que la nube de
puntos fila ( N I ) pertenece a un hiperplano denotado por H I . En caso de R 3
tendramos la siguiente figura:
Grafico N 3.1
Representacin de la nube en el espacio tridimensional
En la figura:
El punto i tiene por coordenada sobre el eje j ,
Su peso es f i.
f ij
f i.
Pgina 34
La distancia entre dos perfiles es la distancia 2
El baricentro ( G ) de la nube N I tiene por coordenadas sobre el eje j la

frecuencia marginal f . j .
La nube N I pertenece a un hiperplano H I
En el anlisis de correspondencias los pesos de cada punto de la nube vienen

impuestos, el punto i tiene un peso igual a la frecuencia marginal f i. , este peso es
proporcional al efectivo de la clase de individuos que representa.
El baricentro de los puntos N I dotados de estos pesos se denota por G I . Su
j sima coordenada es la media ponderada de las
j simas coordenadas de los
puntos N I .
f ij
GI
( f
i 1
f i. )
f. j
i.
f
i 1
i.
G I es el centro de gravedad y se interpreta como el perfil medio.

As al estudiar en qu medida y de qu manera una clase de individuos i difiere
del conjunto de poblacin, conduce a estudiar la desviacin entre el perfil de esta clase y
el perfil medio.
Similarmente la nube de perfiles columna es:
GJ
f ij
j 1
.j
( f
f. j )
f i.
f
j 1
.j
La distancia de cada columna y de cada fila al centro de gravedad se expresa

como sigue:
p
d 2 i, G I
j 1
d 2 j, G J
i 1
2
p
f ij
1 f ij
f . j
f . j f i.
f
f
j
i. . j
f. j
f ij
1 f ij
f i.
f
f i. f . j
f
i 1
.
j
i
.
f .i.
Para filas
(1)
Para columnas
(2)
Pgina 35
3.6
EL AJUSTE DE LAS NUBES

Desde el punto de vista del anlisis de datos, interesa reducir la nube de puntos
de manera que se obtenga una representacin a la vez accesible a nuestra visin y fiel,
en el sentido de que la representacin de la nube mantenga la mayor informacin que
ella contiene.
La representacin ser accesible si se proyecta la nube sobre un subespacio de
pequea dimensin y ser completa si la dispersin de la nube proyectada es casi igual a
la de la nube propiamente dicha.
En general se trata de buscar un subespacio de dimensin q en R p , q p la
misma que nos permite encontrar un sistema de vectores u1 ,..., u q y q ' es el tamao
del sub espacio generado en el espacio R n , q' n , encontrando el sistema de vectores
v ,..., v ortonormado para la mtrica R

1
q'
, R p que tiene el subespacio de manera que
sea mxima la inercia de las nubes sobre los subespacios.
3.6.1
AJUSTE Y REPRESENTACIN DE LA NUBE DE PERFILES-FILA
N I . ANLISIS EN
RP .
En R p , el ajuste trata de obtener un conjunto de imgenes planas aproximadas

de la nube N I , donde I 1,2,3,..., i , dotados de pesos pi f .1 ,..., f .i . Al igual
que en anlisis de componentes principales, el anlisis de correspondencias simples
consiste en buscar un conjunto de ejes ortogonales sobre los que ser proyectada la nube
(Grfico N 3.1).
Las imgenes planas de N I deben ser tales que las distancias entre los puntos
de la imagen se asemejen lo ms posible a las distancias entre los puntos de N I . Este
objetivo es completamente anlogo al del ajuste de la nube de individuos en anlisis de
componentes principales, en la prctica implica que la nube analizada sea centrada, es
decir, que su baricentro sea elegido como origen de los ejes.
En la nube centrada de la clase definida por la categora i est representada por
un punto cuya coordenada sobre el j simo eje es
f ij
fi.
f. j (diferencia entre la
coordenada del perfil fila y G I Baricentro de N I ).

La posicin de este punto expresa la diferencia entre la distribucin de la clase i
y de la poblacin total sobre el conjunto de las categoras de la segunda variable.
Pgina 36
Determinar las direcciones de la inercia mxima de la nube centrada es obtener

las clases, que ms se desvan del perfil del conjunto de la poblacin, esto es:
n
Inercia...N I inercia i
i 1
Inercia...N I
i 1
ij
f . j f i.
f . j . f i.
j 1
Similarmente el ajuste y representacin de la nube de perfiles-columna en la

nube centrada, de la clase definida por la categora j est representada por un punto
cuya coordenada sobre el i simo eje es
fij
f.j
fi. (diferencia entre la coordenada del
perfil fila y G J Baricentro de N J ).

La posicin de este punto expresa la diferencia entre la distribucin de la
categora j y la de la poblacin total sobre el conjunto de las categoras de la segunda
variable.
Determinar las direcciones de la inercia mxima de la nube es generar las clases,
que ms se desvan del perfil del conjunto de la poblacin, esto es:
p
Inercia...N J inercia j
j 1
Inercia...N J
i 1
ij
j 1
f i . f. j
f i . . f. j
La inercia es una medida de dispersin total de la nube de puntos respecto a su

centro de gravedad.
Cada perfil est dotado de un peso igual a su frecuencia marginal f i. . Este peso
interviene en primer lugar en el clculo del centro de gravedad de la nube y tambin
interviene en la inercia y, por tanto, en el criterio de ajustes de los ejes.
Si consideramos la informacin proporcionada en una tabla de contingencia;
cada perfil tiene unas caractersticas dadas por la fila que le corresponde.
Los p valores de los perfiles fila configuran un vector x xi1 ,..., xip que se
representa como un punto en el espacio R p y los n perfiles fila forman una nube de n
puntos en R p .
Pgina 37
Un conjunto de perfiles fila puede caracterizarse por su gravedad e inercia. La

inercia de una nube de puntos es una medida resumida de dispersin, se define como la
suma para todo los puntos del producto de sus masas por los cuadrados de sus distancias
al centro de gravedad, y esta dado por:
Inercia f i d 2 i, G f
n
i 1
La inercia es el punto que seala la posicin central de la nube, caracterizando al

perfil medio respecto a los perfiles fila.
Uno de los objetivos del anlisis de correspondencias es reducir la nube de

puntos, es decir, encontrar un sistema de vectores en R p , de manera que el ajuste trate
de obtener un conjunto de imgenes planas aproximadas de la nube N I .
Al igual que en anlisis de componentes principales, el anlisis de
correspondencia simple consiste en buscar un conjunto de ejes ortogonales sobre los
que ser proyectada la nube, geomtricamente se tiene:
Grfico N 3.2
Representacin de la inercia en los ejes ortogonales
Eje factorial
Inercia alta
Inercia baja
Eje factorial
Representacin de N I .
La representacin de las categoras de la primera variable (perfil fila) en
dimensin reducida, determinadas por las
pi coordenadas con referencia a las

Pgina 38
categoras de la segunda variable (perfil columna), se puede interpretar como un

problema de representacin de datos mediante anlisis de componentes principales.
Sea:
f ij
X
f . j f i.
(3)
Una matriz de orden
n p cuyas filas son las coordenadas pi , las medias de las
variables - calculadas sobre la matriz de datos X , ponderadas por las frecuencias

relativas
f1. ,..., f n. , se tienen el vector de medias

f.1 , f.2 , f.3 ,..., f.n
fij
M fi.
f. j f i .
i 1
i 1
fij
f. j
f. j
f. j
f. j
f. j
f. j
f. j
f. j
f. j
(4)
f. j
La covarianza entre las categoras

n
C j ' j f i. .
i 1
n
C j' j
i 1
fij fij '

f. j f i . f . j ' f i .
fij fij
f. j f. j ' f i .
j y j ' , ponderado por las frecuencias relativas es:
f. j f. j '
f. j f. j '
(5)
En trminos matriciales la covarianza es:
C p X ' Dn X MM '
(6)
Donde:
Dn diagonal f1. ,..., f n.

Se verifica entonces:
1.
M es el autovector de C p para el autovalor 0 , esto es:

En efecto: basta probar que
C1 j ' fi. ,..., Cnj ' f.n 0
j ' 1,..., n entonces:
Pgina 39
Reemplazando las ecuaciones (6) y el valor M se tiene:
C p M X ' Dn X MM '
f.1 , f.2 , f.3 ,..., f.n
C p .M .M 0 0
2.
Los autovectores de
C p son tambin vectores propios de X ' Dn X .
Si V es vector propio de
ortogonal a
C p distinto de M de valor propio , entonces V es
M ' , es decir: M '.V 0
C p .V V
(7)
Sustituyendo la ecuacin (5) en (7) se tiene:
X ' Dn X MM 'V V
Operando llegamos a
X ' Dn X .V MM 'V V
Como:
M '.V 0 X ' Dn X .V V
f ij f ij '
3.
M es autovector de X ' Dn X
f. j
i 1
para el autovalor
f . j ' f i.
Donde
X ' Dn X .M .M
Sustituyendo,
tenemos:
n
fij fij '
.M
i 1 f. j f. j ' fi.
f.1 , f.2 , f.3 ,..., f.k
p n
fij fij '

. f
.j
f
f
f
j 1 i 1
.
j
.
j
'
i
.

j 1 i 1
f ij f ij '
f . j ' f i.
f. j'
f. j'
f. j'
Luego como:
Pgina 40
f . j ' .M 1
Como consecuencia de estas propiedades, bastara diagonalizar
X ' Dn X y
considerar solo los vectores propios de valor propio distinto de uno. Como el valor
propio uno corresponde al valor propio cero de
C p , los dems valores propios de
X ' Dn X son menores que 1.
Diagonalizando
X ' Dn X cuyo trmino general es:

n
f ij . f ij '
i 1
f i. f . j . f . j '
t jj '
D diagonal 1, 2 ,..., p , donde cada
Obtenemos los valores propios, de
valor propio (inercia) tiene asociado un vector propio

obtendremos la matriz de vectores propios
u , como consecuencia
U , de manera que a u 2 se le llama primer
eje factorial o primer eje principal de inercia
2 .
3.6.2 TASAS DE INERCIA

Las tasas de inercia permite evaluar la calidad global del ajuste y esta asociada al
eje factorial ( ) indica la parte de la inercia total de la nube proyectada sobre este eje.
En forma general ser:
El porcentaje de la inercia explicada por el segundo y tercer eje factorial ser:
2 ...
2 ... p
El nmero de ejes factoriales de la

cantidades
N I no puede superar a la menor de las dos
n 1 , p 1 .
q min n 1, p 1
Pgina 41
El subespacio obtenido por los
q - ejes factoriales se denomina soporte de N I
3.6.3 COORDENADAS FACTORIALES DE LOS PUNTOS PERFILES - FILA

Las coordenadas de los perfiles-fila vendrn dadas a partir del producto de la
matriz de los perfiles transformados por la matriz de los vectores propios, es decir:
F X .U
Donde el trmino general es:
p
Fi
j 1
f ij
f i.
f ij
Fj
i 1
3.6.4
f. j
f. j
f i.
.uj
(8)
.vi
(9)
AJUSTE Y REPRESENTACIN DE LA NUBE DE PERFILES COLUMNA
N J ANLISIS EN R n .
Debido al papel simtrico que juegan las filas y las columnas en el anlisis de
correspondencias, el ajuste en
R n se plantea en los mismos trminos y posee las mismas
propiedades que el ajuste en
R p `. Es decir:
N J deben ser tales que las distancias entre los perfiles
Las imgenes planas de
proyectados se asemejen lo ms posible a las distancias entre los perfiles en

ah se deriva la necesidad de analizar la nube
La inercia total de
R p . De
N J con relacin a su baricentro G J .
N J con respecto a G J proviene de las diferencias entre los
perfiles de las diferentes clases y el perfil conjunto de la poblacin.
f ij
Las coordenadas de los puntos j es
El peso de los puntos
j es f . j
El centro de gravedad
G tiene de coordenadas g f . j
La matriz de perfiles columna transformadas y centradas es:
f.j
Pgina 42
f ij
~
X
f f
i. . j
(10)
La proyeccin de un punto
f ij
Gi
i 1
f i. f . j
j sobre el eje cuyo vector director de v es:
.vi
(11)
Similarmente para proyeccin de perfil fila se tiene, cuyo vector director de

p
Gj
j 1
f ij
f. j f i.
u es:
.uj
(12)
Matricialmente las coordenadas de los puntos perfiles columna ser:
G X~.V
Recordemos que tambin se puede obtener las coordenadas de los puntos
perfiles columna a travs de las relaciones de transicin; trabajadas en el anlisis de
componentes principales. Es decir:
vi
uj
(13)
. X ij .uj
(14)
. X ij '.vi
Es decir que:
Coord ( j , ) Gi
f. j
.uj
Demostracin:
n
Sustituyendo en la ecuacin (14) el valor de X 'ij

i 1
u j
.
i 1
fij
f i . . f. j
.
i 1
fi.
f. j
se tiene:
.v i
Multiplicando en el numerador y denominador por
u j
fij
fij
f. j
f i . . f. j
f. j
f. j
.v i
Pgina 43
f ij
f. j
fi.
i 1
f. j
fij
f i. f . j
i 1
.v i
.vi . f . j
Sustituyendo por la ecuacin (11) se tiene:
uj
.Gi . f . j
Despejando Gi llegamos a la expresin: Gi
f. j
.uj
Sin embargo, lo que nos interesa con fines de una interpretacin ms importante
de las nubes es representar las dos nubes en un mismo plano.
3.6.5 REPRESENTACIN DE LAS NUBES EN UN MISMO PLANO

Las relaciones existentes entre los dos subespacios permiten representar
simultneamente las dos nubes en un mismo plano.
As partiendo de:
Gi
i 1
f ij
fi.
.vi y vi 1 .Fi . f i.
f. j
Sustituyendo se tiene:
f ij
Gj
f i. f . j
i 1
Gj
f ij
i 1
f. j
.
i 1
f ij
f i. f . j
.Fi . f i.
. f i. .Fi
(15)
.Fi
Similarmente, sustituyendo la ecuacin uj
.Fj .
f . j en la ecuacin (12) se
tiene:
Gi
j 1
f ij
f. j f i .
.Fj .
f. j
Pgina 44
Gi
f ij
j 1
f i.
j 1
f ij
f . j f i.
. f . j .Fj
.Fj
(16)
Esto significa que la proyeccin de los puntos i sobre el espacio formado por los
factores es igual a la proyeccin de los puntos j ponderados por un coeficiente
f ij
fi.
que
es el peso que tiene cada fila y por un coeficiente que es la raz del autovalor. Para el
caso de las proyecciones de los puntos
j , las relaciones permiten representar
simultneamente sobre el mismo plano los puntos fila y columna, permitiendo la

interpretacin de las relaciones entre lneas y columnas.
3.6.6 DEFINICIN DE LOS EJES E INTERPRETACIN DE LA INERCIA

En anlisis de componentes principales, para asignar un nombre a los factores,
se debe tomar en cuenta las correlaciones entre las variables (contribuciones). En el
anlisis de correspondencias simples, una vez obtenidas las coordenadas del perfil fila y
perfil columna, representados los puntos en el mismo plano se debe conocer que
categoras son las que ms han contribuido en la construccin de los ejes, es decir el
peso que tiene cada categora en la definicin de cada eje.
Por otro lado, la inercia de una nube de puntos se descompone sobre toda base
ortogonal, es la suma de sus inercias sobre cada uno de los ejes de esa base.
El ajuste de las nubes N I y N J descompone su inercia segn las
direcciones principales, debido a la ortogonalidad de los ejes, la suma de las inercias de
una nube sobre cada uno de los ejes es igual a la inercia total de la nube.
Contrariamente al caso del anlisis de componentes principales, en el que la

inercia de las nubes es igual al nmero de las variables, en el anlisis de
correspondencias simples esta inercia expresa la estructura de la tabla.
Pgina 45
La inercia de cada una de las dos nubes de perfiles fila y perfiles columna es
igual al estadstico 2 . El anlisis de correspondencias simples es por tanto, una
descomposicin de este estadstico y cada factor representa una parte de la relacin
entre las variables.
3.6.7 CONTRIBUCIN ABSOLUTA Y RELATIVA DE LOS PERFILES FILA
a) Contribuciones absolutas por filas.- Expresan la proporcin de la varianza

explicada por un eje debida a un perfil i, j . Es decir, permiten saber que variables
son las responsables de la contribucin de un factor, determina cuanto aporta el
punto i, j en la inercia (variabilidad) de la proyeccin de un factor.
Las contribuciones absolutas representan porcentualmente la importancia que tiene
cada categora en la definicin de cada eje, que est definido por cada categora de la
variable y permite interpretar los ejes. La contribucin absoluta se define:
Cta (i, )
f i. coord 2 i,
f i. .F2 i
Puesto que:
n
f
i 1
.coord 2 (i, )
i.
Dado que la contribucin absoluta de una fila o columna es un porcentaje de la

inercia que explica un factor, la suma de las contribuciones absolutas para todas las filas
o todas las columnas en un determinado factor debe ser 1 o expresar el 100% de la
inercia del eje. No solo depende de la distancia a la que se encuentra el punto, sino
tambin de su peso o ponderacin.
b) Contribucin relativa por filas.- Expresan la contribucin de un factor en la

explicacin de la dispersin de un elemento, esta medida nos proporciona la calidad
de la representacin de la categora.
Las contribuciones relativas muestran cuales son las caractersticas exclusivas de ese
factor, cuantifica la parte del punto i, j en la inercia explicada por el eje factorial.
Ctr i,
F2 i
coord 2 i,
d 2 i, G
d 2 i, G
Como
Pgina 46

d 2 i, G
j 1
f ij
f . j f i.
f. j
Por otra parte:

coord i, d i,0
3.6.8 CONTRIBUCIN ABSOLUTA Y RELATIVA DE LOS
PERFILES
COLUMNA
En forma similar se puede definir las contribuciones para perfil columna
a)
Contribuciones absolutas por columnas.-. La contribucin absoluta est dado

por:
Cta ( j, )
f . j coord 2 j,
Como:
f
i 1
b)
.j
f . j .F2 j
.coord 2 ( j, )
Contribucin relativa por columnas; se define mediante:
F2 j
coord 2 j,
Ctr j,
2
d 2 j, G
d j, G
Como
d 2 j, G
j 1
f ij
f i. f . j
f i.
Tambin se tiene:
coord j, d j,0
La contribucin relativa es un porcentaje de la distancia que separa a una fila o

columna en cada uno de los factores y mide la calidad de representacin de la fila o la
columna sobre el factor , la suma de la contribucin relativa para cada uno de los
factores es igual a la unidad.
Pgina 47
Las filas o las columnas tendrn mayor contribucin relativa en un factor a

medida que ese factor sea responsable de la distancia que separa a la misma del origen
de coordenadas.
Mientras las contribuciones absolutas permitan saber que variables son las
responsables de la contribucin del eje, las contribuciones relativas consideran cuales
son las caractersticas exclusivas de ese factor.
Pgina 48
CAPITULO IV:
ANALISIS DISCRIMINANTE
El Anlisis Discriminante es una tcnica estadstica cuya finalidad es analizar si existen

diferencias significativas entre grupos de objetos respecto a un conjunto de variables
medidas sobre los mismos. En el caso de que existan, explicar en qu sentido se dan y
proporcionar procedimientos de clasificacin sistemtica de nuevas observaciones de
origen desconocido en uno de los grupos analizados.
La finalidad del anlisis discriminante es clasificar individuos u objetos en grupos

mutuamente excluyentes, previamente establecidos, llevando en cuenta los valores
observados de un conjunto de variables independientes..
Por otra parte, esta tcnica tambin sirve para:
Analizar si existen diferencias entre los grupos en cuanto a su comportamiento

con respecto a las variables consideradas y averiguar en qu sentido se dan
dichas diferencias
Elaborar procedimientos de clasificacin sistemtica de individuos de origen

desconocido, en uno de los grupos analizados.
El anlisis discrimnate se utiliza para clasificar individuos en grupos o
poblaciones alternativos a partir de valores de un conjunto de variables sobre los
individuos a los que se pretende clasificar.
Para estos sirve el anlisis discriminante. Dada una poblacin que tenemos
dividida en grupos, el anlisis discriminante encuentra una funcin que permite,
con un determinado grado de acierto, explicar esa divisin en grupos (visin
explicativa). Una vez obtenida, puede utilizarse para clasificar a nuevos
individuos en alguno de los grupos (visin predicativa)
4.1
ANALISIS DISCRIMINANTE
El anlisis discriminante (DA) es una tcnica orientada a encontrar aquellos
factores (o combinaciones lineales de las variables de partida) que mejor separan o

discriminan entre varios grupos homogneos. El anlisis discriminante no supone
Pgina 49
ningn modelo a priori, tratando de encontrar las proyecciones ms idneas a efectos

de la separacin entre los g grupos existentes en la poblacin.
4.1.1 PLANTEAMIENTO DEL PROBLEMA

El problema que vamos resolver en el presente trabajo de investigacin es el
siguiente:
Sabiendo que un objeto, individuo o persona X procede de uno de los grupos Gi
de una poblacin P debemos de clasificarlo a uno de estos grupos, en base a las p
medidas asociadas (variables) a cada individuo. Debemos de construir una regla de
clasificacin ptima en algn sentido, por ejemplo que minimice los costos de mala
clasificacin.
La solucin al problema planteado es la siguiente:
Si los g grupos concurrentes G1 ,, Gg de la poblacin P , podemos pensar de
una observacin X como un punto en el espacio de dimensin p , R p .
Tal
espacio
muestral
se
divide
en
g regiones
disjuntas
R1, , Rg R1 R2 Rg R p . Si la observacin X cae en la regin Rk ,

el individuo es clasificado como procedente de G k .
Cuando tratamos de construir una regla para clasificar individuos, se debe
distinguir las cuatro posibles situaciones.
1.
La distribucin de X es completamente conocida.
2.
Se conoce la distribucin de X pero no se conocen los parmetros.
3.
La distribucin de X es parcialmente conocida.
4.
La distribucin de X es completamente desconocida.
Pgina 50
4.1.2 PROCEDIMIENTOS DE CLASIFICACIN

Existen varios mtodos de clasificacin dependiendo del nmero de grupos a
clasificar (dos o ms grupos),de las hiptesis hechas acerca del comportamiento de las
variables en cada grupo (normalidad conjunta, homocedasticidad) as como del criterio
utilizado para llevar a cabo dicha clasificacin.
La clasificacin puede desarrollarse bajo diferentes perspectivas, que en algunos
casos dan lugar a la misma regla de decisin, la clasificacin se resuelve construyendo
ciertas funciones de variables f g ( X 1 , X n ) llamadas funciones discriminantes, la
decisin se toma a partir de ellas.
4.2
REGLAS GENERALES DE CLASIFICACION

El propsito bsico de un anlisis discriminante (AD) puede describirse como
sigue: Suponga que nosotros tenemos las muestras de k poblaciones de tamao n g
g 1,, k , con p medidas en cada uno. Usando los datos queremos determinar de
cual de las K poblaciones es ms probable seleccionar la unidad (N+1) asumiremos
que la forma de las funciones de densidad es el mismo para todas las poblaciones de k:
por ejemplo, que ellos son todas normal multivariantes. Denotemos con f a la funcin
de densidad comn. Entonces la regla de mxima probabilidad es:
Asigne la unidad u a la poblacin g si la probabilidad del vector observacin,
X , . Es mayor para el grupo g que para cualquier otro grupo. Esta regla puede
declararse como sigue:
f ( X g ) f ( X g)
para g g
La regla puede darse en trminos de
(4.1)
algunas condiciones llamadas
probabilidades Resulta que P( X g ) es, en el lmite, proporcional a f ( X g ) , por

consiguiente, una segunda regla de mxima probabilidad puede darse por lo que se
refiere a estas probabilidades tpicas:
P( X g ) P( X g)
para g g
(4.2)
Otra regla se toma considerando la probabilidad de la unidad u que pertenece al

grupo g esto dado que la unidad tiene un vector observacin particular, X . Esta
probabilidad, denotado por P( g / X ) , se llama la probabilidad posterior de el nmero
Pgina 51
de miembros en la poblacin g , "posterior" en el sentido que sta es una probabilidad

condicional de mala clasificacin en X . Con esta visin asumimos, que la unidad a ser
clasificada pertenece de hecho a una de las k poblaciones.
4.2.1
REGLA DE DISCRIMINACION DE MAXIMA PROBABILIDAD

Denotamos las densidades de cada poblacin
por fi (x) . La regla de
discriminacin de probabilidad mxima (regla de ML) es dada por la asignacin de x a
maximizando la probabilidad. L j ( x) f j ( x) max i f i ( x)

Si varios f ii tienen el mismo mximo entonces cualquiera de ellos puede ser
seleccionado. Matemticamente la coleccin R j dado por la regla de discriminacin de

probabilidad mxima se define como sigue:
R j x : L j ( x) Li ( x), i 1, J , i j
Clasificando las observaciones dentro de
(4.3)
cierto grupo nosotros podemos
encontrar un error de mala clasificacin:
Para J=2 grupos la probabilidad de poner x dentro del grupo 2 aunque este sea de
la poblacin 1 puede calcularse como:
P2 1 P( X R2 1 )
f ( x)dx
(4.4)
R2
Similarmente la probabilidad condicional de clasificar un objeto como

perteneciente a la poblacin 1 aunque esta realmente venga de la poblacin 2 es:
P1 2 P( X R1 2 )
( x)dx
(4.5)
R1
Las observaciones con un error de mala clasificacin crean un costo C (i / j )

cuando una observacin
es asignada a Ri .
La matriz de costos esta dado por:
Asignado \ verdadero
G1
G2
G1
C(1/2)
G2
C(2/1)
Pgina 52
Cuadro 1: Costos de Clasificacin

Permitamos que j sea la probabilidad anterior de la poblacin
media de una probabilidad anterior sea seleccionar un individuo al azar de
, donde la
(esto
es antes de parecer el valor x) Las probabilidades anteriores pueden considerarse si es

claro que una observacin provenga probablemente de una poblacin
El costo esperado por error de mala clasificacin (ECM) esta dada por:
ECM C (21) P2 1 1 C (1 2) P1 2 2
(4.6)
Nosotros estamos interesados en las reglas de clasificacin que guardan los

ECM que minimizan encima de una clase de reglas. Las reglas de discriminacin que
minimizan el ECM (2.11) para dos poblaciones esta dada por:
TEOREMA 1.- Para dos poblaciones dadas, la regla que minimiza el ECM se da por
f ( x) C (1 2) 2
R1 x : 1
f 2 ( x) C (2 1) 1
f ( x) C (1 2) 2

R2 x : 1
f 2 ( x) C (21) 1
(4.7)
La regla de discriminacin ML es as un caso especial de la regla de ECM para el error

de mala igual y los costos y las probabilidades anteriores iguales. Para su simplicidad
del caso de costo de la unidad C(1/2) = C(2/1) = 1, y las probabilidades anteriores
iguales, 2 1 .
CASO 1: Supongamos que
representa la poblacin de 1 que crean el costo C (2/1)
si ellos son clasificados como los elementos de la poblacin
. Anlogamente, se
define C (1/2) como el costo de clasificar mal a un elemento de la poblacin 1 como

perteneciente a la poblacin 2
Denotemos la ganancia para la correcta clasificacin de elementos
La ganancia total es entonces:
Pgina 53
G( R2 ) C (2 1)1 I ( x R2 ) f1 ( x)dx C (1 2) 2 1 I ( x R2 ) f 2 ( x)dx 2 I ( x R2 ) f 2 ( x)dx

C (21) 2 I ( x R2 )C (21)1 f1 ( x) C (12) f 2 ( x)dx
(4.8)
Desde el primer trmino en esta ecuacin es constante, el mximo se obtiene

obviamente para:
R2 x : C (21) 1 f1 ( x) C (1 2) 2 f 2 ( x) 0
(4.9)
Esto es equivalente a
C (2 1) 1
f ( x)
R2 x : 2
f1 ( x) C (1 2) 2
(4.10)
Qu corresponde al R2 fijo en el Teorema 12.1 para una ganancia de = 0:

CASO 2: Supongamos que x 0,1
1 : P( X 0) P( X 1) 1 / 2
2 : P( X 0) 1 / 4 1 P( X 1)
(4.11)
El espacio muestral es {0,1}

La regla de discriminacin ML asigna:
x 0 1
y
x 1 2
Definiendo los grupos tenemos
R1 0, R2 1
Y
R1 R2 0,1
R1 0 y R1 R2 0,1
CASO 3: Consideremos dos poblaciones normales
1 : N ( 1 , 12 )
2 : N ( 2 , 22 )
Luego
Pgina 54
Li ( x) (2 )
2 1 / 2
i
1 x i
exp
2
i
(4.12)
De x se asigna a:
1 ( x R1 )
Si:
L1 ( x) L2 ( x)
Es equivalente a
2
1 x 1 x 2

exp
1
2 1 2
21 2 2
1
x 2 2 2 2 x 12 22 2 2 2 log 2
1
2
1 2
1 2 1
(4.13)
Al simplificar la situacin en el caso de varianzas iguales 1 2 la regla de

discriminacin (12.5) esta dada (para 1 2 )
Si x R1 x : x 1 / 2(1 2 )
x 1,
x 2,
Si
(4.14)
x R2 x : x 1 / 2(1 2 )
(4.15)
El teorema 1 nos muestra que las reglas de discriminacin ML
para las
observaciones multinormales estn ntimamente conectadas con la distancia de

Mahalanobis. Las reglas de discriminacin estn basadas
en las combinaciones
lineales y pertenecen a la familia de los mtodos de Anlisis de Discriminacin

Lineal (LDA).
TEOREMA 2 Supongamos que:
i N p (i , )
(a) La regla de ML asigna x a
j dnde j 1,....J es el valor que minimiza la
distancia al cuadrado de Mahalanobis entre x i i :
2 ( x, i ) ( x i )T 1 ( x i ) i 1,, J
(4.16)
(b) En el caso de J=2
x R1 T ( x ) 0
(4.17)
Donde
Pgina 55
1
2
1 ( 1 2 ) y ( 1 2 )
4.2.2
(4.18)
CLASIFICACION CON DIFERENTES MATRICES DE COVARIANZA

El ECM mnimo depende de la proporcin de las densidades
f1 ( x)
f 2 ( x)
equivalentemente en la diferencia:
ln f1 ( x) ln f 2 ( x)
(4.19)
Cuando la covarianza para ambos funciones de densidad difiere, la regla de

asignacin se vuelve ms complicada:
C (1 2) 2
1
R1 x : x T (11 21 ) x ( 1T 11 2T 21 ) x k ln

2
C
(
2
1
)
C (1 2) 2
1

R2 x : x T (11 21 ) x ( 1T 11 2T 21 ) x k ln

2
C (2 1) 1
(4.20)
(4.21)
Donde:
k
1 1 1 T 1
ln
( 1 1 1 2T 21 2
2 2 2
Las regiones de clasificacin estn definidas
(4.22)
por funciones cuadrticas. Por
consiguiente ellos pertenecen a la familia de los Mtodos del Anlisis de

Discriminacin Cuadrtico (QDA). Esta regla de clasificacin cuadrtica coincide
con las reglas usadas cuando 1 2 , cuando desaparece el trmino
1 T 1
x (1 21 ) x
2
(4.23)
4.3 CRITERIOS DE CLASIFICACION PARA DOS GRUPOS.

La misin del anlisis discriminante es obtener un criterio de clasificacin que reduzca
el error. Es decir, encontrar una funcin discriminante que separe lo mejor posible las
dos poblaciones
Anlisis Discriminante en dos grupos
X x1, x 2 ,..... x p ' , cada grupo tendr ( i , i ) ;
i = 1, 2
Pgina 56
Supongamos que tenemos 2 poblaciones
G1, con proporcin p(G1)= 1

G 2 , con proporcin P(G2)= 2 1 1
X es un nuevo vector de datos
Si x R1
x G1 , el individuo es clasificado como procedente

del grupo G1
Si x R 2
x G2 , clasificado en G 2
Las regiones cumplen:
R1 R 2 RP
R1 R 2
fg ( x ) funcin de densidad de probabilidad de x si proviene del grupo G g

Rg
: Regin de clasificacin de G g
: Regla de clasificacin particular.
Pi / j;R : Probabilidad de clasificar una observacin en la poblacin i,

siendo que procede de j segn la Regla R.
Pi / j;R : Probabilidad de mala clasificacin.

Pi / i ; R :Probabilidad de clasificacin correcta
g :Probabilidad a priori, de que la observacin x procede del grupo G g .

Para g = 2
P(clasificacin correcta en G1)=P(XR1/ G1)P(G1)=P(1/1) 1
P(clasificacin correcta en G2)=P(XR2/ G2)P(G2)=P(2/2) 2
P(clasificacin incorrecta en G1)=P(XR1/ G2)P(G2)=P(1/2) 2
P(clasificacin incorrecta en G2)=P(XR2/ G1)P(G1)=P(2/1) 1
P(2/1)= P(XR2/ G1)= f1 ( x)dx
R2
P(1/2)= P(XR1/ G2)= f 2 ( x)dx

R1
de donde :
2
P(Total de mala clasificacin) =
P( Asignar equivocadamente x al grupo Gi )
i 1
P(Total de mala clasificacin) = P1/ 22 P2 / 11

Pgina 57
p(2 / 1)
p(1 / 2)
f 2 ( x)
f 1 ( x)
R2
R1
G1
4.3.1 CRITERIO
G2
QUE
MINIMIZA
PROBABILIDAD
DE
MALA
CLASIFICACION
2
P(Total de mala clasificacin) =
P( Asignar equivocadamente x al grupo Gi )
i 1
P(Total de mala clasificac in) P1 / 2 2 P2 / 1 1
(4.24)
TPM = P1/ 22 P2 / 11
TPM = 1 f1 ( x)dx 2 f 2 ( x)dx
R2
(4.25)
R1
Se trata de hallar R1 y R2 que hace mnima a TPM

TEOREMA 3
Sea 1 y 2 probabilidades a priori de que un individuo provenga de G1 Y G2 con
densidades f1(x) y f2(x) entonces las regiones de clasificacin R1 y R2 satisfacen las
condiciones:
f1 ( x) 2
f 2 ( x) 1
R1:
R2:
f1 ( x) 2
regiones que minimizan la probabilidad total de mala Clasificacin

f 2 ( x) 1
(TPM)
La regla de clasificacin es
Pgina 58
Regla1
X es clasificado en G1 cuando
f1 ( x) 2
f 2 ( x) 1
(2.35)
En caso contrario en G2
4.3.1.1 DISTRIBUCIONES ESPECIALES

A) Poblaciones normales homocedsticos.
La regla de clasificacin optima basada en la regla 1 tenemos las funciones de
densidad.
Poblacin 1: x ~ N(u1, 1 )
Poblacin 2: x ~ N(u2 , 2 )
Previamente
Donde
As
H01:
1 2
No rechazar
H02:
1 2
Rechazar
matriz de covarianza poblacional y u i vector de medias i = 1, 2

f1( x )
1
1
'
'
exp x u1 1 x u1 x u 2 1 x u 2
2
f2 ( x )
2
(4.26)
Desarrollando
1
1
1
1
1
1
1
1
x' 1 x 1' 1 x x' 1 1 1' 1 1 x' 1 x 2' 1 x x' 1 2 2' 1 2
2
2
2
2
2
2
2
2
Como
1' 1 x x' 1 1
1' 1 2 2' 1 1
De donde se tiene
1
x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 )
2
remplazando se tiene:
f1( x )
1
'
'
exp u1 u 2 1 x u1 u 2 1 u1 u 2
2
f2 ( x )
(4.27)
Tomando logaritmos y usando la regla (1) tendremos la siguiente regla de

clasificacin.
Asignar x a la poblacin G1 si
Pgina 59
D(x) = ' x u1 u 2 log 2

2
(4.28)
y en caso contrario a G 2
donde = 1 u1 u 2
Observacin

La ecuacin D( x ) log 2 define un hiperplano que se para los dos grupos.
1
B)
Poblaciones normales heterocedasticas

Con dos poblaciones normales heterocedasticos podemos obtener la regla de
clasificacin ptima basada en la Regla1.
f i ( x)
y Q(x) = log
Q(x) = C0 -
2 p / 2 1 / 2
1
2
x u i '
1 x ui
(4.29)
f1( x )
f2 ( x )
1
x'
21
1
1
21 x x'
u 21u 2 x
1
1 1
(4.30)
Es funcin cuadrtica
Donde C
1 2 1 '
ln
u1 11u1 u 2' 21u 2
2 1 2
(2.44)
Finalmente se propone la siguiente regla asignar x a la poblacin G1 si

Q( x ) log 2 y en caso contrario asignar a G1 .
1
4.3.2
CRITERIO DE LA RAZN DE VEROSIMILITUD

Cuando se desconoce la probabilidad a priori g .
Una regla intuitiva consiste en escoger el grupo g, como aquel que maximiza la
funcin de verosimilitud de la muestra.
Esto nos lleva a la siguiente regla de clasificacin.
Regla 2
Asignar x al grupo G1 si
Pgina 60
f1 ( x)
1
f 2 ( x)
(2.45)
y en caso contrario a G 2
si 1 2 Re gla 1
4.3.3 CRITERIO QUE MINIMIZA EL COSTO ESPERADO TOTAL DE MALA

CLASIFICACIN (CEM)
Sean C(2/1) y C(1/2) los costos de mala clasificacin de los grupos G1 y G2

respectivamente. Entonces se define el costo esperado de mala clasificacin como:
CEM C2 1P2 1 1
C1 2P1 2 2
(4.31)
Los costos de mala clasificacin se pueden representar por una matriz de costos
TEOREMA 4
Sea 1 y 2 probabilidades a priori de que un individuo provenga de G1 Y G2 con
densidades f1(x) y f2(x) si los costos de mala clasificacin son c(1/2) y c(2/1)
entonces las regiones de clasificacin R1 y R2 satisfacen las condiciones:
f1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
R1:
(2.47)
R2:
f1 ( x) 2 C (1 / 2)
regiones que minimizan el CEM.

f 2 ( x) 1C (2 / 1)
La regla de clasificacin es
Regla3 (Criterio de Bayes)
X es clasificado en G1 cuando
f1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
(2.48)
Si c(1/2)=c(2/1) Regla2
Prueba
CEM
= 1C(2/1)P(2/1 , R) + 2C(1/2)P(1/2 ,R)

= 1C(2/1)[1-P(1/1 , R) ]+ 2C(1/2)P(1/2 ,R)
Pgina 61
= 1C(2/1)- 1 C(2/1).P(1/1 , R) + 2.C(1/2).P(1/2 ,R)

= 1.C(2/1).- 1 C(2/1) f1 ( x).dx + 2C(1/2) f 2 ( x).dx
R1
= 1C(2/1)+
R1
C (1 / 2). f 2 ( x) 1 .C (2 / 1). f1 ( x).dx
R1
(2.49)
el costo esperado de mala clasificacin debe ser mnimo, de donde.
2C(1/2) f 2 ( x) 1 .C (2 / 1). f1 ( x)
(2.50)
f 1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
R1:
R2:
(4.32)
f 1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
Regiones
CEM
f1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
que
miminizan
el
La regla de clasificacin
X es clasificado en G1 cuando:
f 1 ( x) 2 C (1 / 2)
f 2 ( x) 1C (2 / 1)
En caso contrario a G2
NOTA: i. y C(i/j) es informacin previa, si no se tiene se trabaja con costos de
mala clasificacin iguales.
4.3.3.1
1.
CASOS ESPECIALES DE REGIONES QUE MINIMIZAN EL ECM

Si 1= 2 probabilidades apriori iguales
R1:
f1 ( x) C (1 / 2)
f 2 ( x) C (2 / 1)
R2:
2.
(4.33)
f1 ( x) C (1 / 2)
f 2 ( x) C (2 / 1)
Si C(1/2)=C(2/1) costos iguales

R1:
f1 ( x) 2
f 2 ( x) 1
(4.34)
Pgina 62
R2:
f1 ( x) 2
f 2 ( x) 1
3. Si 1= 2 y C(1/2)=C(2/1)
R1:
R2:
f1 ( x)
1
f 2 ( x)
(4.35)
f1 ( x)
1
f 2 ( x)
RESULTADO 6
Dado dos poblaciones Normales multivariadas, con igual estructura de covarianza y
diferente vector de medias (A.D. lineal) luego
X G1 si
C (1 / 2)
1
x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 ) ln k donde k 1 .
2
2 C (2 / 1)
En caso contrario a G2
Prueba
G1 :
X ~ N (1, 1)
G2 :
X ~ N (2, 2)
Previamente se debe verificar:

Ho1 : 1 = 2
Aceptar
Ho1 : 1 = 2
Rechazar
Entonces:
1
G1 : f1 ( x)
p
2
(2 )
1/ 2
G2 : f 2 ( x)
p
2
(2 )
1/ 2
1
exp( ( x 1 )' 1 ( x 1 )
2
(4.36)
1
exp( ( x 2 )' 1 ( x 2 ))
2
1, 2 , C(1/2), C(2/1).son conocidos

k
1 C (1 / 2)
.
2 C (2 / 1)
Pgina 63
f 1 ( x)
1
1
exp ( x 1 )' 1 ( x 1 ) ( x 2 )' 1 ( x 2 ) k

f 2 ( x)
2
2
(4.37)
tomando logaritmos :
1
1
1
1
2 ( x 1 )' ( x 1 ) 2 ( x 2 )' ( x 2 ) ln k
Desarrollando
1
1
1
1
1
1
1
1
x' 1 x 1' 1 x x' 1 1 1' 1 1 x' 1 x 2' 1 x x' 1 2 2' 1 2 ln k
2
2
2
2
2
2
2
2
Como
1' 1 x x' 1 1
1' 1 2 2' 1 1
De donde se tiene
1
x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 ) ln k
2
X G1
1
si x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 ) ln k
2
Caso contrario en G2
Cuando 1 2
X G1
C(1/2)=C(2/1)
1
cuando x' 1 ( 1 2 ) ( 1 2 )' 1 ( 1 2 ) 0
2
(4.38)
X G2 en caso contrario
Observaciones
Si no se conoce u1, u2 y
entonces se remplaza por sus estimadores.
x1 , x 2 y S pooled
Donde S pooled
(n1 1) S1 (n2 1) S2
n1 n2 2
(4.39)
luego estimamos los parmetros se tiene:

Pgina 64
1
1
1
x' S pooled
( x1 x 2 ) ( x1 x 2 )' S pooled
( x1 x 2 ) ln k
2
1
1
1
x' S pooled
( x1 x 2 ) ( x1 x 2 )' S pooled
( x1 x 2 ) ln k
2
X G1
(4.40)
Caso contrario en G2
Si ln(k)=0 es decir
1 C (1 / 2)
.
1
2 C (2 / 1)
Entonces
1
1
1
x' S pooled
( x1 x 2 ) ( x1 x 2 )' S pooled
( x1 x 2 ) 0
2
(4.41)
1
( x1 x 2 )' S pooled
x
1
1
( x1 x 2 )
2
La regla de mnimo ECM para comparar dos poblaciones normales en relacin con la
variable escalar.
1
y ( x1 x 2 )' S pooled
x a' x , evaluado en x.
La cantidad
1
1
( x1 x 2 )
2
(4.42)
( y1 y 2 )
2
1
x1 a' x1
donde y1 ( x1 x 2 )' S pooled
1
y 2 ( x1 x 2 )' S pooled
x 2 a' x 2
(4.43)
X G1
si y >m
En el caso de 3 grupos
S pooled
(n1 1) S1 (n2 1) S 2 (n3 1) S 3

n1 n2 n3 3
Pgina 65
1
1
1
luego Wij ( x) x' S pooled
( x i x j ) ( x i x j )' S pooled
(xi x j )
2
(4.44)
x G1
si W12 0 W13 0
(4.45)
x G3
si W13 0 W23 0
x G2
si W12 0 W23 0
4.4 DISCRIMINANTE LINEAL

Consideremos que nuestra muestra de entrenamiento tiene la siguiente estructura.
data
X1
X2
..
..
..
n1
..
XP
Grupo
1
2
..
n2
Cuadro 3: Organizacin de la informacin.
Es decir tenemos solo dos grupos de objetos G1 y G2 y p caractersticas que se miden

en ellos par asignarlos aun grupo respectivo.
Hay n1 objetos en el grupo G1 y n2 en el grupo G2 .
Sea x1 y x2 vector de medias de las p caractersticas en los grupos G1 Y G2
respectivamente.
Supongamos que la matriz de varianzas poblacionales son iguales.
1 2
Pgina 66
La discriminacin lineal se basa en el siguiente hecho.

Un objeto x es asignado al grupo G1 si:
D( x, G1 ) D( x, G2 )
donde
D( x, Gi ) ( x i )' 1 ( x i )
i 1,2
(4.46)
distancia de Mahalanobis de x al centro del grupo Gi.

La ecuacin anterior se puede escribir como:
1
2( 1 2 )' 1[ x ( 1 2 )] 0
2
1
( 1 2 )' 1[ x ( 1 2 )] 0
2
(4.47)
usando la muestra de entrenamiento x1 y x2 estiman als medias poblacionales y

es estimada por
(n 1) S1 (n2 1) S 2
S pooled 1
n1 n2 2
(4.48)
luego en versin muestral
1
1
( x1 x2 )' S pooled
[ x ( x1 x2 )] 0 Funcin discriminante lineal
2
4.4.1 FUNCIN DISCRIMINANTE LINEAL DE FISHER (1936)

X
2
x1
y0
Fig. 2: Clasificacin de 2 Grupos
G1
X
G2
Pgina 67
G1 :
X1 ~ N (1, )
G2 :
X2 ~ N (2, )
En esas poblaciones se supone matrices de covarianza iguales 1= 2.

Fisher sugiri encontrar una combinacin lineal del vector X en cada poblacin.
Yi aX i de manera que sea mxima la razn del cuadrado de la diferencia de

medias de las combinaciones lineales respecto a su varianza.
(a' x1 a' x 2 ) 2
Maximizar D
, luego el problema es encontrar `a .
a' S pooleda
(n 1) S1 (n2 1) S 2
Donde S pooled 1
n1 n2 2
La solucin al problema se encuentra utilizando la desigualdad de Cauchy Schwarts
max
a
(a' x1 a ' x2 ) 2
(a' d ) 2
max
a
a' S pooleda
a' S pooleda
d ' S pooledd
Donde d x1 x2
1
a cS pooled
d
(4.49)
c 0
( x1 x2 )' S pooled ( x1 x2 ) D 2
(4.50)
Para c=1
1
x1 x2
a S pooled
(4.51)
Equivalentemente
discriminacin de Fisher
luego G1 si
Pgina 68
Y ' 1 x1 x2
1 '
a x1 a ' x2
2
donde Y0=
1
a' x1 a ' x2 es la media de la
2
combinacin de medias.
Finalmente reemplazando a en la ecuacin anterior
1 x1 x2
1
x1 x2 1 x1 x2
2
G1 si 1 x1 x2
1
x1 x2 1 x1 x2 0
2
(4.52)
caso contrario en G2
donde Y0 1 x1 x2 1 x1 x2
2
equivalentemente
X es clasificado en G1 si : Y > Y0
4.4.2 MTODO DE FISHER

Existe diversos mtodos para resolver el problema de asignacin a dos o ms
grupos, entre los cuales se tiene el mtodo de Fisher, el mtodo de la distancia de
mahalanobis, el procedimiento basado en la teora de decisin.
El mtodo de Fisher para dos grupos reduce las variables originales a una sola y
que es combinacin de las anteriores de tal manera que los elementos pertenecientes a
los dos grupos mencionados quedan altamente discriminados por esa combinacin.
Para el caso de dos grupos y para dos variables originales X1,x2, con fines de
simplificar el problema se reduce a encontrar la combinacin.
Y K1 X 1 K 2 X 2
(4.53)
Y es la variable mximo poder discriminante
El mtodo se realiza considerando como hiptesis que las varianzas en cada

grupo son iguales. El objetivo se completa si se encuentra una regla de clasificacin a
partir de la variable Y, del tal manera que las probabilidad de una mala clasificacin sea
menor.
Pgina 69
G1
G2
F. Disc.lineal Fisher
Fig. 3: Discriminacin de Fisher.
Consideremos dos grupos G1 y G2. los objetos se consideran que son separados
en cada grupo de acuerdo a p variables aleatorias X=(X 1,........Xp). supondremos que
los valores de cada uno de los grupos provienen, respectivamente, de dos poblaciones
cuyas funciones de densidad son f1(x) y f2(x).
La idea de fisher fue transformar las observaciones multivariadas a
observaciones Y univariadas de tal manera que los valores que le corresponden al
observar las p variables en cada grupo estn lo mas separadas posibles. Fisher sugiri
tomar combinaciones de las observaciones pues estan son fcilmente manejables.
Fisher selecciono la combinacin lineal de tal manera que si 1Y es la media
correspondiente a los valores de Y en el grupo G1 y 2Y es la media de los valores de Y
en el grupo G2, entonces la distancia entre estas dos medias relativa a la variabilidad de
los valores de Y, sea mxima.
Comenzaremos denotando con 1 al vector de medias de las p variables
X1,Xp. en el primer grupo G1 y con 2 a la media de estas p variables en el segundo
grupo.
Supondremos que la matriz de varianzas covarianzas de las p variables es
igual en ambos grupos.
Consideremos la combinacin lineal.
Y1x1 a1' xp X px1 donde a' [a1 ,.........a p ]

segn lo anterior las medias de Y en cada grupo son iguales, respectivamente a
1Y a' 1 y
2Y a' 2
la varianza de todo los valores de Y es igual
Y2 a' a
Pgina 70
la combinacin lineal de fisher que hace mxima a la expresin
distancia al cuadrado entre las medias de Y a' ( 1 2 )(1 2 )' a
varianza de Y
Y2
tiene como coeficientes a a c 1 ( 1 2 )
(4.54)
c 0
escogiendo se tiene la combinacin.
a 1 (1 2 )
Y a' X (1 2 )' 1 X
(4.55)
que se conoce como funcin discriminante lineal de Fisher .

se puede emplear la funcin discriminante de fisher como una regla de clasificacin
sea Y0 1 2 1 x0
el valor de la funcin discriminante para una observacin x0
y sea
1
1 2 1 1 2
2
(4.56)
el punto medio entre las dos medias de las poblaciones univariadas determinadas
por Y.
Se demuestra que E(Y0/G1)-m0
Mientras que
X0
E(Y0/G2)-m<0
es clasificado en G1 Y0>m
Los parmetros poblacionales 1 , 2 y rara vez se conocen por lo que se debe

estimar a partir de las observaciones que ya han sido correctamente clasificadas.
Pgina 71
(n 1) S1 (n2 1) S 2
El valor de se aproxima con S pooled 1
donde S1 y S2 son
n1 n2 2
las varianzas mustrales respectivamente de cada uno de los grupos.

Para dos grupos la mxima separacin relativa que puede ser obtenida considerando
combinaciones lineales de las observaciones lineales es igual a la distancia D donde
D 2 ( x1 x2 )' S 1 ( x1 x2 )
Esta distancia D se usa para probar si las medias de dos poblaciones difieren
significativamente. Por consiguiente ,una prueba de diferencia de medias puede ser
visto como una prueba de separacin entre dos grupos.
Si se supone que las poblaciones G1 y G2 son normales multivariadas con matriz de
covarianza Spooled entonces para probar:
H0:u1=u2
HA: u1u2
Puede realizarse mediante el estadstico de prueba
(n1 n2 p 1) (n1 n2 )
D2
(n1 n2 2) p (n1 n2 )
(4.57)
Que tiene distribucin F con p, n1+n2-p-1 grados de libertad

Si la hiptesis nula se rechaza se puede concluir que la separacin de las dos
poblaciones es significativa.
4.5
ANALISIS DISCRIMINANTE CUADRATICO

La suposicin de igualdad de las matrices de covarianzas raras veces se cumple
.Supongamos que hay normalidad de las dos poblaciones C1 Y C2 pero que la

suposicin de homogeneidad de varianza no se cumple. Entonces por la ecuacin (3.5)
el objeto x es asignado a la clase C1 si
1/ 2
2
1
exp 1 / 2x 1 ' 11 x 1
exp 1 / 2x 2 '
1
2
x 2
2
1
(4.58)
Tomando logaritmos en ambos lados se obtiene:
1 / 2 Ln
2
1
1 / 2 x ' 1 x x ' 1 x Ln 2
1 1
1
2 2
2

(4.59)
Pgina 72
Haciendo simplificaciones se obtiene:
2 Ln 1

2
2
La versin muestral de lo anterior considerando adems que las probabilidades a priori
x'
x 2 x'
1
2
1
1
1
2
2 11 1 ' 2 21 2 '1 11 1 Ln
1 y 2 son iguales es la siguiente:

S1
x' S 21 S11 x 2 x' ( S 21 x2 S11 x1 ) ( x ' 2 S 21 x2 x '1 S11 x1 ) Ln
S
2
(4.59)
Aqu la frontera entre las dos clases son curvas cuadrticas (elipses, hiprbolas, etc.)
Usando simulacin se ha demostrado que cuando hay normalidad la discriminacin
cuadrtica es ms eficiente que la lineal para muestras grandes, pero no para muestras
pequeas. En el caso de muestras pequeas debe haber una marcada diferencia entre las
matrices de covarianza para que la discriminacin cuadratica sea eficiente ( Marks y
73una, JASA 1974).
Tambin ha quedado probado que cuando no hay normalidad la discriminacin
cuadrtica tiene un pobre rendimiento.
4.6 CONDICIONES DE APLICABILIDAD DEL ANALISIS DISCRIMINANTE.
Dos son las hiptesis a las que el anlisis discriminante se muestra especialmente
sensible:
normalidad
multivariante
de
las
variables
independientes
homocedasticidad.
Si no se cumple la normalidad, aparecen problemas en la estimacin de la funcin

discriminante y por otro lado el procedimiento de clasificacin hace que haya una
marcada tendencia a clasificar a los individuos en aquellos grupos que tienen una
matriz de covarianza mayor.
Pruebas de hiptesis iniciales.
H 02 : 1 2
H 01 : 1 2
H a 2 : 1 2
No hacer anlisis discriminante(un solo GRUPO)
H 02 : 1 2
H a1 : 1 2
H a 2 : 1 2
A.D. Cuadrtico en base matrices de covarianza
Anlisis Discriminante Lineal
.
A.D. Cuadrtico con respecto a vector de medias
Pgina 73
4.7 ANALISIS DISCRIMINACIN EN g GRUPO
4.7.1 CRITERIO:
DEL
MNIMO
COSTO
ESPERADO
POR
MALA
CLASIFICACIN.
G: poblaciones G1..Gg
g: funciones de densidad f1..fg
i 1,..., g probabilidades a priori

costos c(k/i): colocar x en G k de manera incorrecta.
RK: Regiones:
X/X se clasifica como elemento de Gk
K,i=1,2,g
P(k / i) P(clasificar x en Gk dado que esta en Gi )
(4.60)
f ( x)dx
i
Rk
P(i / i ) 1 p(k / i )
(4.61)
i 1
i j
El costo esperado condicional de clasificar X de G1 incorrectamente
en G2 o
G3,..o Gg es:
g
ECM (1) p(k / 1)c(k / 1)

k 2
g 1
ECM ( g ) p(k / g )c(k / g )
(4.62)
k 1
generalizando ,el costo esperado condicional de clasificar X de Gi en otro grupo se

define.
g
ECM (i ) p(k / i )c(k / i )
(4.63)
k 1
k i
Costo esperado total

g
ECM 1 ECM (1) .... g ECM ( g ) i ECM (i)

k 1
i 1
i 1
ik
ECM i p(k / i)c(k / i)
(4.64)
El problema esta en hallar R1 .Rk tal que ECM sea minima

Pgina 74
RESULTADO 7
R1 .Rg son tales que:
x es clasificado en Rk si
g
i 1
ik
f i ( x)c(k / i ) es mnimo
(2.92)
RESULTADO 8
La regla de clasificacin que minimiza el ECM, con igual costos es
X es clasificado Gk si:
k f k ( x) i f i ( x)
i k
(4.65)
f k ( x) i
f i ( x) k
i k
ln( k f k ( x)) ln( i f i ( x))
i k
(4.66)
4.8 INTERPRETACION DE LAS FUNCIONES DISCRIMINANTES.

Los resultados obtenidos se interpretan desde dos pticas:
Significado de las dimensiones de discriminacin entre los grupos proporcionadas por
las funciones discriminantes mediante el anlisis de la matriz de estructura y de la de
los coeficientes estandarizados de las funciones discriminantes.
Anlisis del sentido de la discriminacin entre dichos grupos, es decir, averiguar qu
grupos separa cada funcin discriminante y en qu sentido. Este anlisis se lleva a
cabo mediante representaciones grficas del espacio de discriminacin as como de
perfiles multivariantes correspondientes a cada grupo.
4.8.1 MATRIZ DE ESTRUCTURA

Es una matriz que contiene, por filas, los coeficientes de
correlacin de las
funciones discriminantes con las variables originales. De esta forma es posible

Pgina 75
interpretar el significado de las mismas utilizando, para cada una de ellas, aqullas
variables con las que est ms correlacionada. De cara a facilitar dicha
interpretacin se
suelen realizar rotaciones ortogonales del
espacio de
discriminacin similares a las utilizadas por el Anlisis Factorial

La matriz de estructura es una herramienta para el anlisis de las variables
originales con las funciones discriminantes.
4.8.2 LAMBDA DE WILKS PARA LAS FUNCIONES DISCRIMINANTES

Es un estadstico que mide el poder discriminante de un conjunto de variables.
Viene dado por
W B
min g 1, p
1
i
i 1
Y toma valores entre 0 y 1 de forma que, cuanto ms cerca de 0 est, mayor es el

poder discriminante de las variables consideradas y cuanto ms cerca de 1, menor es
dicho poder.
4.8.3 CORRELACIN
CANNICA
ASOCIADO
LAS
FUNCIONES
DISCRIMINANTES
La correlacin cannica y el autovalor asociado a una funcin discriminante, son
dos medidas, relacionadas con lamda de Willks, que permiten evaluar la
informacin que aportara cada funcin discriminante en particular.
La correlacin cannica mide las desviaciones de las puntuaciones discriminantes
entre grupos respecto a las desviaciones totales sin distinguir grupos.
El autovalor mide las desviaciones de las puntuaciones discriminantes entre los
grupos respecto a las desviaciones dentro de los grupos.
En ambos casos si el valor obtenido es grande la dispersin ser debida a las
diferencias entre grupos y en consecuencia la funcin discriminara mucho los
grupos
La k-sima correlacin cannica viene dada por:
CRk
k
1 k
k 1,, s
Pgina 76
y mide, en trminos relativos, el poder discriminante de la k-sima funcin

discriminante ya que es el porcentaje de la variacin total en dicha funcin que
es explicada por las diferencias entre los grupos.
Toma valores 0 y 1 de forma que, cuanto ms cerca de 1 est su valor, mayor es
la potencia discriminante de la k-sima funcin discriminante.
Es una medida de asociacin entre las puntuaciones discriminantes y los grupos.
El autovalor asociado a una funcin se interpreta como la parte de la variabilidad
total de la nube de puntos proyectada sobre el conjunto de todas las funciones
atribuible a la funcin correspondiente.
4.9
EVALUACIN DE LAS FUNCIONES DE CLASIFICACIN.
Una de las formas de juzgar una funcin de clasificacin es calcular su tasa de

error o probabilidad de mala clasificacin. esta probabilidad se puede calcular
si se conoce la distribucin de cada poblacin.
Otra manera de evaluar una funcin de clasificacin se obtiene calculando el

porcentaje de elementos correctamente ubicados, a partir de la matriz de
confusin, (es una tabla de frecuencias cruzadas que refleja los resultados de
aplicar dicho procedimiento a los casos observados). As, en el caso de la
discriminacin de dos grupos dicha
Tabla sera de la forma:

1
n11
n12
n21
n22
Cuadro4.
Matriz de confusin
n11: es el nmero de objetos del primer grupo correctamente clasificados

n12: es el nmero de objetos del primer grupo que estn mal clasificados
n22: es el nmero de objetos del segundo grupo correctamente clasificados
n21: es el nmero de objetos del segundo grupo que estn mal clasificados
La proporcin de clasificados correctamente vendr dada por:
Pgina 77
100
4.9.1
n11 n22
%
n
ESTIMACIN DE LA TASA DE CLASIFICACIN ERRADA

La tasa de clasificacin errada , es la probabilidad de que la regla de
clasificacin (o simplemente el clasificador) d clasifique mal a
una observacin
proveniente de una muestra obtenida posteriormente a la muestra usada, para establecer

el clasificador. Tambin es llamado error verdadero o error actual. Hay varios mtodos
para estimar esta tasa de clasificacin.
Pgina 78
CAPITULO V:
ANLISIS CLUSTER
5.1
EL ANLISIS CLUSTER.
Anlisis Cluster es un procedimiento estadstico multivariante que comienza con
un conjunto de datos conteniendo informacin sobre una muestra de entidades e intenta

reorganizarlas en grupos relativamente homogneos a los que llamaremos clusters.
El principal objetivo del anlisis cluster es agrupar un conjunto de observaciones

o de datos de forma que cada elemento contenido en el grupo sea lo ms parecido
posible al resto de elementos del mismo grupo. Adems los grupos formados debern
ser lo ms distintos posible los unos de los otros. Aqu nos vamos a ocupar del Anlisis
cluster de observaciones.
En el caso de Anlisis cluster aplicado a las variables podemos sealar que

mientras que otras tcnicas como el Anlisis de Componentes Principales o el Anlisis
Factorial utilizan la matriz de correlacin de los datos para reducir la dimensin, la
mayor parte de tcnicas cluster utilizan medidas de distancia para hacer la clasificacin.
Los mtodos cluster se han diseado para crear grupos homogneos de casos o
entidades. La mayor parte de los usos del Anlisis Cluster pueden ser resumidos bajo
cuatro objetivos principales:
1. Desarrollar una tipologa o clasificacin.

2. Investigar esquemas conceptuales tiles para agrupar entidades.
3. Generar hiptesis a travs de la exploracin de los datos.
4. Contrastar hiptesis o intentar determinar si tipos definidos por otros
procedimientos estn de hecho presentes en un conjunto de datos.
De estos objetivos, la creacin de clasificaciones, probablemente, resulta el objetivo

ms frecuente de los mtodos cluster, pero en la mayor parte de los casos muchos de
estos objetivos se combinan para formar la base de estudio.
Pgina 79
5.1.1
CLUSTER POR INDIVIDUOS Y POR VARIABLES

El punto de partida para el Anlisis Cluster es, en general, una matriz
que
proporciona los valores de las variables para cada uno de los individuos objeto de
estudio, o sea:
(
La
fila de la matriz
)
contiene los valores de cada variable para el
individuo, mientras que la j-sima columna muestra los valores

pertenecientes a la j-sima variable a lo largo de todos los individuos de la muestra.
5.1.2
CLASIFICACIN DE LAS TCNICAS CLUSTER

Se distinguen dos grandes categoras de mtodos clusters: mtodos jerrquicos y
mtodos no jerrquicos.
5.1.2.1 MTODOS JERRQUICOS

Estos mtodos tienen por objetivo agrupar clusters para formar uno nuevo o
bien separar alguno ya existente para dar origen a otros dos, de tal forma que se
minimice alguna funcin distancia o bien se maximice alguna medida de similitud.
Los mtodos jerrquicos se subdividen a su vez en aglomerativos y
disociativos. Los aglomerativos comienzan el anlisis con tantos grupos como
individuos haya en el estudio. A partir de ah se van formando grupos de forma
ascendente, hasta que, al final del proceso, todos los casos estn englobados en un
mismo conglomerado. Los mtodos disociativos o divisivos realizan el proceso inverso
al anterior. Empiezan con un conglomerado que engloba a todos los individuos. A
partir de este grupo inicial se van formando, a travs de sucesivas divisiones, grupos
cada vez ms pequeos. Al final del proceso se tienen tantos grupos como individuos
en la muestra estudiada.
Independientemente del proceso de agrupamiento, hay diversos criterios para ir
formando los conglomerados; todos estos criterios se basan en una matriz de distancias
o similitudes. Por ejemplo, dentro de los mtodos aglomerativos destacan:
Pgina 80
1. Mtodo del amalgamamiento simple.

2. Mtodo del amalgamamiento completo.
3. Mtodo del promedio entre grupos.
4. Mtodo del centroide.
5. Mtodo de la mediana.
6. Mtodo de Ward.
Dentro de los Mtodos disociativos, destacan, adems de los anteriores, que

siguen siendo vlidos:
1. El anlisis de asociacin.
2. El detector automtico de interaccin.
5.1.2.2 MTODOS NO JERRQUICOS

En cuanto a los mtodos no jerrquicos, tambin conocidos como partitivos o de
optimizacin, tienen por objetivo realizar una sola particin de los individuos en K
grupos.
Ello implica que el investigador debe especificar a priori los grupos que deben
ser formados, siendo sta, posiblemente, la principal diferencia respecto de los mtodos
jerrquicos, (no obstante hay que sealar que hay diversas versiones de estos
procedimientos que flexibilizan un tanto el nmero final de clusters a obtener).
La asignacin de individuos a los grupos se hace mediante algn proceso que optimice
el criterio de seleccin.
Mtodos de Reasignacin.
Permiten que un individuo asignado a un grupo en un determinado paso del proceso sea
reasignado a otro grupo en un paso posterior, si ello optimiza el criterio de seleccin. El
proceso acaba cuando no quedan individuos cuya reasignacin permita optimizar el
resultado que se ha conseguido. Dentro de estos mtodos estn:
Pgina 81
a) El mtodo K-Medias.
b) El Quick-Cluster anlisis.
c) El mtodo de Forgy.
d) El mtodo de las nubes dinmicas.
Vecino ms Cercano
Vecino ms Lejano
Aglomerativos
Promedio entre grupos

Mtodo del Centroide
Mtodo de la Mediana
Mtodo de Ward
Jerrquicos
Vecino ms Cercano
Vecino ms Lejano
Disociativos
Promedio entre grupos

Mtodo del Centroide
Mtodo de la Mediana
Mtodo de Ward
Mtodos de
Anlisis
Cluster
K-Medias
No Jerrquicos
Centroide
Quick-Cluster
Mtodo de Forgy
5.1.3
ETAPAS DEL ANLISIS CLUSTER

Las etapas a seguir en el empleo de una tcnica cluster pueden ser resumidas en
los siguientes puntos:
Pgina 82
1. Eleccin de las variables.

2. Eleccin de la medida de asociacin.
3. Eleccin de la tcnica cluster a emplear en el estudio.
4. Validacin de los resultados e interpretacin de los mismos.
5.2
MEDIDAS DE ASOCIACIN
Una vez considerado que el objetivo del Anlisis Cluster consiste en encontrar
agrupaciones naturales del conjunto de individuos de la muestra, es necesario definir

qu se entiende por agrupaciones naturales y, por lo tanto, con arreglo a qu criterio se
puede decir que dos grupos son ms o menos similares. Esta cuestin conlleva otras
dos, a saber:
1.
Cmo se puede medir la similitud entre dos individuos de la muestra.
2.
Cmo se puede evaluar cundo dos clusters pueden ser o no

agrupados.
A continuacin vamos a centrarnos en las posibles funciones que pueden elegirse para
medir la similitud entre los grupos que sucesivamente se van formando, distinguiendo
primeramente entre distancias mtricas y similaridades.
5.2.1. DISTANCIAS Y SIMILARIDADES

5.2.1.1. DISTANCIA
DEFINICIN 2.1. Sea U un conjunto finito o infinito de elementos. Una funcin d:
U U R se llama una distancia mtrica si x, y U se tiene:
1. d(x, y) 0
2. d(x, y) = 0 x = y
3. d(x, y) = d(y, x)
(5.1)
4. d(x, z) d(x, y) + d(y, z) , z U

5.
Pgina 83
La definicin anterior de distancia mtrica puede exponerse sin

necesidad de tantos axiomas. En efecto se puede comprobar que una
distancia mtrica es una funcin:
d: U U R que verifica los siguientes axiomas:
1. d(x, y) = 0 x = y
2. d(y, z) d(x, y) + d(x, z) , x, y, z U
(5.2)
Ciertos autores realizan una cierta distincin entre lo que es una funcin
distancia y lo que es una distancia mtrica. Para ello definen una
distancia como aquella funcin d: U U R que verifica:
1.
d(x, y) 0
2.
d(x, x) = 0
3.
d(x, y) = d(y, x)
(5.3)
Y reservan el nombre de distancia mtrica a aquellas distancias que

adems verifican
1.
d(x, y) = 0 = x = y
2.
d(x, z) d(x, y) + d(y, z) , z U
(5.4)
Extendiendo el concepto clsico de distancia plasmado anteriormente,

algunos autores definen distancias mtricas que pueden tomar valores
negativos. De esta manera una funcin distancia mtrica sera una
funcin d: U U R tal que cumple los siguientes axiomas:
1.
d(x, y) d0
2.
d(x, y) = d0 x = y
3.
d(x, y) = d(y, x)
4.
d(x, z) d(x, y) + d(y, z) , z U
(5.5)
Donde d0 puede ser menor que cero. Tal definicin la realizan

amparndose en el hecho de que, dada una tal funcin distancia mtrica
d, se puede definir otra d a partir de ella, de la forma:
d(x, y) = d(x, y) d0, demostrndose fcilmente que d es una distancia
mtrica en el sentido expuesto en la definicin 5.1.
Pgina 84
Ahora:
1. Una funcin que verifique los tres primeros apartados de la
definicin 2.1, pero no as la desigualdad triangular, es llamada
semimtrica.
2. Se llama ultramtrica a toda mtrica que verifique adicionalmente
la propiedad
d(x, z) Max {d(x, y), d(y,z)}
5.2.2
(5.6)
SIMILARIDADES
De forma similar a las distancias, tenemos la siguiente definicin de similaridad.
Definicin 2.2. Sea U un conjunto finito o infinito de elementos. Una funcin s: U

U R se llama similaridad si cumple las siguientes propiedades: x, y U
1. s(x, y) s0
2. s(x, x) = s0
3. s(x, y) = s(y, x)
Donde s0 es un nmero real finito arbitrario.
Definicin 2.3 Una funcin s, verificando las condiciones de la definicin 2.2, se llama
similaridad mtrica si, adems, verifica:
1. s(x, y) =s0 x = y
2. |s(x, y) + s(y, z)|s(x, z) s(x, y)s(y, z), z U
(5.7)
Notemos que el segundo apartado de la definicin anterior corresponde al hecho de que

la mxima similaridad slo la poseen dos elementos idnticos.
En las siguientes secciones expondremos algunas de las distancias y similaridades ms
usuales en la prctica.
Consideraremos, en general, m individuos sobre los cuales se han medido n variables
X1,...,Xn. Con ello tenemos m n datos que colocaremos en una matriz m n
dimensional
Pgina 85
La i-sima fila de la matriz X contiene los valores de cada variable para el i-simo
individuo, mientras que la j-sima columna muestra los valores pertenecientes a la jsimo variable a lo largo de todos los individuos de la muestra.
Distinguiremos entre medidas de asociacin para individuos y para variables, aunque,

tcnicamente hablando, son vlidas tanto para individuos como para variables (basta,
para ello, considerar dichas medidas en un espacio n-dimensional o m-dimensional, esto
es, trasponer la matriz).
5.3
COSENO DEL NGULO DE VECTORES

Consideremos dos variables Xi y Xj, muestreadas sobre m individuos, y sean xi y
xj los vectores cuyas ksimas componentes indiquen el valor de la variable

correspondiente en el ksimo individuo:
(
) ;
Como es conocido, el producto escalar de dos vectores es:
Que en Estadstica se conoce como la suma de los productos cruzados entre xi y xj,
mientras que el producto escalar de un vector por s mismo, norma al cuadrado del
vector, se llama suma de cuadrados. As se tiene:

( )
(5.9)
Donde es el ngulo entre los vectores xi y xj.

A partir de (2.7) se tiene:
( )
(5.10)
Pgina 86
El coseno del ngulo es una medida de similaridad entre xi y xj, con valores entre
1 y 1 en virtud de la desigualdad de Schwarz. Adems es la mejor medida para
establecer el paralelismo entre dos vectores, ya que dos vectores son paralelos cuando el
coseno del ngulo que forman es uno en valor absoluto. Esta medida es independiente,
salvo signo, de la longitud de los vectores considerados. Algebraicamente, sean b y c
dos escalares cualesquiera y definamos
Entonces:
( )
( )
)
(
|(
Con lo cual el coseno entre xi y xj es invariante ante homotecias, excepto un eventual

cambio de signo (
).
5.3.1. COEFICIENTE DE CORRELACIN

Consideremos ahora las variables Xi y Xj, anteriores y centrmoslas respecto de sus
medias, obteniendo unas nuevas variables cuyos valores para la muestra de los m
individuos sern:
El producto escalar de las dos variables
se llama dispersin (scatter en la
literatura anglosajona) de xi y xj. El producto escalar de por s mismo es llamado la

dispersin de xi o la suma de los cuadrados de las desviaciones respecto a . Dividiendo
por m ambas expresiones obtenemos la covarianza y la varianza, respectivamente.
(
)(
Pgina 87
( )
La correlacin muestral entre xi y xj se define como:

(
(
( )
( ))
)(
)
)
(
) )
Lo cual muestra que r es el coseno del ngulo entre los vectores centrados
Alternativamente, si se tipifican las variables anteriores:
( ))
( ))
Entonces la correlacin entre xi y xj es la covarianza entre

Puesto que el coeficiente de correlacin es el coseno del ngulo entre los vectores
centrados, posee la propiedad vista con anterioridad, de invarianza, salvo signo, del
coseno. Adems, es invariante a las adiciones de una constante a cada elemento de xi y
xj. En efecto, si llamamos
5.4
se tiene:
MEDIDAS PARA DATOS BINARIOS O DICOTMICOS
En ocasiones encontramos variables que pueden tomar dos valores (blanco-negro, sino, hombre-mujer, verdadero-falso, etc.). En tales casos se emplea, con frecuencia, el
convenio de usar los valores dicotmicos 1 y 0 para ambos valores. Al relacionar dos
variables binarias, se forma una tabla de contingencia 2 2, que se puede esquematizar
de la forma
Tabla 5.1
Xi/Xj
1
0
Totales
1
a
c
a+c
0
b
d
b+d
Totales
a+b
c+d
m = a+b+c+d
Pgina 88
En la anterior tabla se tiene:
a representa el nmero de individuos que toman el valor 1 en cada variable

de forma simultnea.
b indica el nmero de individuos de la muestra que toman el valor 1 en la

variable Xi y 0 en la Xj.
c es el nmero de individuos de la muestra que toman el valor 0 en la

variable Xi y 1 en la Xj.
d representa el nmero de individuos que toman el valor 0 en cada

variable, al mismo tiempo.
a+c muestra el nmero de veces que la variable Xj toma el valor 1,

independientemente del valor tomado por Xi.
b+d es el nmero de veces que la variable Xj toma el valor 0,

independientemente del valor tomado por Xi.
a+b es el nmero de veces que la variable Xi toma el valor 1,

independientemente del valor tomado por Xj.
c+d es el nmero de veces que la variable Xi toma el valor 0,

independientemente del valor tomado por Xj.
A continuacin presentamos la versin binaria de las medidas introducidas

anteriormente:
5.4.1
MEDIDA DE OCHIAI
En el caso particular de variables dicotmicas, se tiene:

Con lo cual el coseno del ngulo entre xi y xj queda en la forma:
Pgina 89
,(
)(
)-
0.
/.
/1
(2.15)
Medida que es atribuida al zologo japons Ochiai.
En el proceso seguido con las variables dicotmicas puede surgir una situacin
ambigua, como es el hecho de por qu y cmo asignar los valores 1 y 0 a los
valores binarios. Puede ocurrir el caso de que intercambiando los papeles de
dichos valores se llegue a resultados distintos, lo cual no es deseable. Por ello, en
ocasiones, se toma la media geomtrica de los cosenos obtenidos tomando
ambos criterios y, ms concretamente, se toma el cuadrado de dicha media
geomtrica, obtenindose:
0.
/.
/.
/.
/1
(2.16)
Hagamos notar que cada uno de los trminos de la expresin anterior es una
probabilidad condicionada; As:
es la probabilidad condicionada de que un individuo tome el

valor 1 en la variable Xj dado que ha tomado el valor 1 en la variable Xi.
es la probabilidad condicionada de que un individuo tome el valor 1

en la variable Xi dado que ha tomado el valor 1 en la variable Xj.

en la variable Xi dado que ha tomado el valor 0 en la variable Xj.

en la variable Xj dado que ha tomado el valor 0 en la variable Xi.
De esta forma, la medida de Ochiai es la media geomtrica de las probabilidades

condicionadas asociadas con la celda con el valor a, mientras que la expresin (2.16)
muestra el cuadrado de la media geomtrica de las probabilidades condicionadas
asociadas con la diagonal de la tabla (2.1).
Pgina 90
5.4.2 MEDIDA
Esta medida se obtiene haciendo uso del coeficiente de correlacin sobre
dos variables dicotmicas.
02
) 3 2
) 31
Y teniendo en cuenta que:
Se tiene:
(
)
[{(
)(
)
)*
)(
)+(
} {(
(
,(
)
)
)
)*
(
,(
)(
)(
)(
}]
)-
)+-
Notemos, para finalizar, que, puesto que r es invariante bajo transformaciones

lineales, los valores 0 y 1 son arbitrarios, ya que pueden ser transformados de
forma lineal a otro par de valores.
5.5
MEDIDAS BASADAS EN COINCIDENCIAS
Una forma intuitiva de medir la similaridad en variables dicotmicas es contar el

nmero de veces que ambas variables toman el mismo valor de forma simultnea. Con
ello dos variables seran ms parecidas en tanto en cuanto mayor fuera el nmero de
coincidencias a lo largo de los individuos.
Pgina 91
No obstante, algunos factores influyen en las medidas que se pueden definir. Por
ejemplo, una primera cuestin es que hacer con las parejas del tipo 0 0, ya que si las
dicotomas son del tipo presencia-ausencia, los datos de la casilla d no poseen ningn
atributo y no deberan tomar parte en la medida de asociacin. Otra cuestin que surge
es cmo ponderar las coincidencias y cmo las no coincidencias, o lo que es lo mismo,
una diagonal u otra de la tabla (2.1).
A continuacin exponemos algunas de las medidas que han ido surgiendo, atendiendo a
varios criterios como los anteriormente expuestos.
5.5.1 MEDIDA DE RUSSELL Y RAO

(5.19)
Este coeficiente mide la probabilidad de que un individuo elegido al azar tenga el valor
1 en ambas variables. Notemos que este coeficiente excluye la pareja 0 0, al contar el
nmero de coincidencias pero no lo hace as al contar el nmero de posibles parejas.
Asimismo, esta medida proporciona igual peso a las coincidencias y a las no
coincidencias.
5.5.2 MEDIDA DE PAREJAS SIMPLES

(5.20)
Este coeficiente mide la probabilidad de que un individuo elegido al azar presente una
coincidencia de cualquier tipo, pesando de igual forma las coincidencias y las no
coincidencias.
5.5.3 MEDIDA DE JACCARD

(5.21)
Pgina 92
Esta medida mide la probabilidad condicionada de que un individuo elegido al azar

presente un 1 en ambas variables, dado que las coincidencias del tipo 0 0 han sido
descartadas primero y por lo tanto han sido tratadas de forma irrelevante.
5.5.4 MEDIDA DE DICE

52.22)
Esta medida excluye el par 0 0 de forma completa, pesando de forma doble las
coincidencias del tipo 1 1. Se puede ver este coeficiente como una extensin de la
medida de Jaccard, aunque su sentido probabilstico se pierde.
5.5.5 MEDIDA DE ROGERS - TANIMOTO

(
(5.23)
Este coeficiente puede interpretarse como una extensin de la medida de parejas

simples, pesando con el doble valor las no coincidencias.
5.5.6
MEDIDA DE KULCYNSKI
(5.24)
Esta medida muestra el cociente entre coincidencias y no coincidencias, excluyendo los

pares 0 0.
No son stas las nicas medidas de este tipo que existen. Podramos seguir citando
muchas ms y, entre ellas, a modo de ejemplo:
(
(
(
)
)
)
(
Pgina 93
5.6
MEDIDAS BASADAS EN PROBABLIDADES CONDICIONALES

Notemos que, de entre las medidas citadas con anterioridad, (2.14), (2.16) y
(2.17) poseen interpretaciones probabilsticas razonables. Hay otras medidas que

tambin poseen fundamentos probabilsticos. As, como ya se ha comentado con
anterioridad,
es la probabilidad condicionada de que un individuo elegido al azar
presente el valor 1 en la variable Xj dado que ha presentado un 1 en la variable Xi.

Asimismo,
es la probabilidad condicionada de que un individuo elegido al azar
presente un 1 en la variable Xi dado que lo ha presentado en la variable Xj.
As podramos pensar en una medida que marcara la probabilidad de que un individuo

presente un 1 en una variable, dado que ha presentado un 1 en la otra, surgiendo la
medida:
0
(5.25)
Como sabemos, no es claro que la codificacin hecha sea la mejor. Por ello se puede
optar por tener en cuenta tambin las otras coincidencias, dando lugar a la medida:
0
(5.26)
Estas expresiones son similares a las obtenidas a partir del coseno del ngulo entre
variables en el caso de datos binarios, salvo que en lugar de tomar medias geomtricas
se toman medias aritmticas.
Por ltimo se puede citar la medida de Hamann

(
) (
(5.27)
Que indica la probabilidad de que un caso elegido al azar presente una coincidencia
menos la probabilidad de que presente una diferencia en alguna de las variables.
5.7
MEDIDAS DE ASOCIACIN ENTRE INDIVIDUOS
5.7.1 DISTANCIAS EUCLDEA, DE MINKOWSY Y DE MAHALANOBIS

Consideremos ahora dos individuos tomados de la poblacin, lo cual
corresponde a tomar dos filas en la matriz de datos X:
Pgina 94
La mtrica ms conocida, que corresponde a la generalizacin a ms de dos

dimensiones de la distancia entre dos puntos en el plano, es la derivada de la norma L2
de un vector: [1]
Obtenindose, a partir de ella, la distancia eucldea:

(
)(
Esta mtrica tiene la propiedad, al igual que la norma L2, de que todos sus valores son
invariantes respecto de las transformaciones ortogonales de la forma
es una matriz n x n que verifica:
, donde
En efecto:
Y as se tiene:
(
Adems se verifica que estas transformaciones, adems de las traslaciones, son las
nicas para las cuales d2 es invariante [1].
En cuanto a las distancias de Minkowsky, stas proceden de las normas Lp:

(|
| )
Dando origen a:
(
(|
| )
Pgina 95
Es fcil comprobar que esta distancia es invariante ante traslaciones, siendo stas las
nicas funciones para las cuales dp posee esta propiedad.
Adems se verifica la conocida relacin:
(
Algunos casos particulares para valores de p concretos son [3]:

1. Distancia d1 o distancia ciudad (City Block) (p = 1)
(
|
(5.31)
2. Distancia de Chebychev o distancia del mximo

(
)
|
|
Por otra parte, se puede generalizar la distancia eucldea, a partir de la norma:

52.32)
Donde B es una matriz definida positiva. La mtrica correspondiente a dicha norma es:
(
) (
En el caso particular en que B sea una matriz diagonal, sus elementos son pesos
positivos para las componentes del vector que corresponde a las variables en la matriz
de datos. Esta distancia se mantiene invariante frente a transformaciones (semejanzas)
efectuadas por una matriz P que verifique P BP = B. En efecto:
(
(
)
)
(
(
) (
)
)
) (
La llamada mtrica de Mahalanobis se obtiene tomando en 2.27 una matriz B

determinada. Dicha matriz es la llamada matriz de varianzas-covarianzas de las
Pgina 96
variables (columnas de la matriz X de datos). Los elementos de la matriz S, matriz de

varianzas-covarianzas, se definen de la siguiente forma:
)(
Matricialmente tenemos dicha matriz expresada en la forma:

( )
A partir de la matriz S se puede definir la matriz de correlaciones, R, cuyos elementos

son:

Notemos que si m n, entonces la matriz de varianzas-covarianzas S es definida
positiva y tiene sentido definir la distancia de Mahalanobis, para individuos, como:
(
(5.36)
Esta distancia es invariante frente a transformaciones regidas por una matriz Cnxn no
singular. En efecto,[4] si, en particular, C es una matriz diagonal con los elementos no
nulos, la transformacin de X por C significa que el valor de cada variable en X es
multiplicado por una constante, o sea, se ha hecho un cambio de escala. Por ello la
mtrica de Mahalanobis es invariante frente a cambios de escala, propiedad que no
posee, por ejemplo, la mtrica eucldea.
En la aplicacin de las tcnicas cluster la mtrica de Mahalanobis presenta la desventaja

de que el clculo de la matriz S est basado en todos los individuos de forma conjunta y
no trata, como sera de desear, de manera separada los objetos de cada cluster; adems,
su clculo es mucho ms laborioso que el de otras mtricas. Por estas razones no suele
emplearse en las tcnicas cluster, si bien puede utilizarse dentro de cada cluster formado
en una etapa determinada.
5.7.2
CORRELACIN ENTRE INDIVIDUOS
Formalmente hablando, el coeficiente de correlacin entre vectores de individuos puede

ser usado como una medida de asociacin entre individuos.
Pgina 97
)(
(5.37)
Donde se ha definido:
El principal problema de este coeficiente radica en el hecho de que en un vector de

datos correspondiente a un individuo hay muchas unidades de medida diferentes, lo cual
hace muy difcil comparar las medias y las varianzas. No obstante, Cronbach y Gleser,
en 1953, demostraron que este coeficiente posee un carcter mtrico.
En efecto, sea xik el valor de la k-sima variable sobre el i-simo individuo y
transformemos ese dato en:
Entonces, la distancia eucldea al cuadrado entre dos individuos sobre los que se ha
efectuado ese tipo de transformacin ser:
(
6
)
7
)(
Observemos que las dos medidas de la variable k-sima, xik y xjk son sometidas a
transformaciones distintas:
Por lo que los nuevos valores no son comparables. Adems, se observa que 1 r,
complemento a uno del coeficiente de correlacin, es una mtrica si
Pgina 98
( )
pero lo es en el espacio en el que los datos se han transformado al
tipificarlos.
Otra observacin a hacer es que si se cambia la unidad de medida de una variable,

cambia una componente en cada uno de los vectores de individuos: as si cambiamos la
unidad de medida en la variable k-sima, cambian los datos xik y xjk; en consecuencia,
cambian
y as cambia el coeficiente de correlacin. As pues, rij, es
dependiente de cambios en unidades de medida. Es decir, estos cambios sopesan de

manera distinta a las variables. Por ltimo, los valores de cada individuo pueden ser
transformados de la siguiente manera:
Al igual que antes se puede demostrar, lo cual se deja como ejercicio al lector, que:
(
))
Donde:
(
)
(
Y por lo tanto,
(
) (
) es una mtrica.
5.7.3 DISTANCIAS DERIVADAS DE LA DISTANCIA 2

Hay muchas medidas de asociacin que se basan en el estadstico 2, de uso familiar en
el anlisis de tablas de contingencia. Notemos:
oij = valor observado en la celda i, j
eij = valor esperado bajo la hiptesis de independencia
Con dicha notacin se define el estadstico 2 como:
(5.40)
Donde p y q son el nmero de modalidades de las variables estudiadas.
Tabla 5.2
Var A\Var
B
Pgina 99
Bajo la hiptesis de independencia de ambas variables, el valor esperado en la

celda i, j es:
Pero, por otra parte:

Con lo cual:
Ahora bien, esta cantidad, que es muy til para contrastes en tablas de
contingencia, no lo es tanto como medida de asociacin, puesto que aumenta
cuando n crece. Por ello se considera la medida 2, llamada contingencia
cuadrtica media, definida como:
(5.42)
Sin embargo, este coeficiente depende del tamao de la tabla. Por ejemplo,
supongamos que p = q y que las variables estn asociadas de forma perfecta, o
sea,
(notemos que en tal caso slo hay p casillas con valores
distintos de cero). En este caso:

(
Pgina 100
En el caso de una tabla rectangular con las variables perfectamente relacionadas,

el nmero de casillas no nulas es Min(p,q), por lo que:
(
Con estas ideas en mente, se han hecho algunos intentos para normalizar la
medida 2 al rango [0, 1]. Por ejemplo:
4
,(
)(
)-
(5.43)
Obviamente, este tipo de medidas son empleadas en los casos en los que los
datos que se poseen son conteos de frecuencias. As, supongamos que tenemos
m individuos sobre los que se han observado n variables. Sea xij la frecuencia
observada de la j-sima variable sobre el i-simo individuo.
Tabla 5.3
Consideremos dos individuos xi y xj y sea la tabla 2 x n formada a partir de ellos:

Tabla 2.4
Pgina 101
Obviamente, cada individuo presenta un total de frecuencia marginal distinto (x.i

y x.j), por lo que no son comparables uno a uno. En este caso hay que buscar la
semejanza teniendo en cuenta la proporcionalidad entre ambos. Por ello el
empleo de distancias basadas en la distancia X2 es til.
En nuestro caso, la forma que adopta el estadstico es:

[
Donde:
Y as, si X2 0 se tiene la proporcionalidad buscada entre las dos filas y, por lo

tanto, los dos individuos presentan el mismo perfil a lo largo de las variables,
con lo cual dichos individuos sern parecidos.
5.7.4 MEDIDAS NO MTRICAS
COEFICIENTE DE BRAY-CURTIS
Dados dos individuos:
(
El coeficiente de Bray-Curtis viene definido por la expresin:
El numerador no es otra cosa que la mtrica L1, mientras que el denominador puede ser
interpretado como una medida de la magnitud total de los dos individuos.
Hay que hacer notar que es aconsejable usar esta medida con datos no negativos,
ya que pudiera haber cancelaciones en el denominador, pudindose obtener resultados
Pgina 102
poco aconsejables; por ejemplo, usando esta medida, no es aconsejable centrar los datos
previamente. Adems, puesto que para cada par de individuos se
emplea
un
denominador distinto, esta medida no satisface siempre la desigualdad triangular.
5.7.5 MEDIDAS PARA DATOS BINARIOS

Con alguna excepcin, las medidas de asociacin que se mencionaron para variables de
tipo binario pueden ser aplicadas para medir la asociacin entre individuos. En este caso
la tabla de contingencia que se tiene es:
Tabla 2.5
Evidentemente, ahora a representa el nmero de veces que los individuos i y j presentan,

de forma simultnea, un 1 sobre una misma variable.
Pgina 103
CAPITULO VI :
MTODOS DEL ANLISIS CLUSTER
6.1
MTODOS JERRQUICOS.
Los llamados mtodos jerrquicos tienen por objetivo agrupar clusters para formar un
nuevo o bien separar alguno ya existente para dar origen a otros dos, de tal forma que, si
sucesivamente se va efectuando este proceso de aglomeracin o divisin, se minimice
alguna distancia o bien se maximice alguna medida de similitud. Los mtodos
jerrquicos se subdividen en aglomerativos y disociativos.
Los mtodos jerrquicos utilizan el Dendograma como representacin grfica.
Figura .1: Dendrograma
6.2
MTODOS JERRQUICOS AGLOMERATIVOS

Los mtodos aglomerativos, tambin conocidos como ascendentes, comienzan el
anlisis con tantos grupos como individuos haya. A partir de estas unidades iniciales se
van formando grupos, de forma ascendente, hasta que al final del proceso todos los
casos tratados estn englobados en un mismo conglomerado.
Pgina 104
A continuacin vamos a presentar algunas de las estrategias que pueden ser empleadas a
la hora de unir los clusters en las diversas etapas o niveles de un procedimiento
jerrquico. Ninguno de estos procedimientos proporciona una solucin ptima para
todos los problemas que se pueden plantear, ya que es posible llegar a distintos
resultados segn el mtodo elegido.
6.2.1.1 ESTRATEGIA DEL VECINO MAS CERCANO

En este mtodo se considera que la distancia o similitud entre dos clusters viene dada,
respectivamente, por la mnima distancia (o mxima similitud) entre sus componentes.
As, si tras efectuar la etapa K-sima, tenemos ya formados n K clusters, la distancia
entre los clusters Ci (con ni elementos) y Cj (con nj elementos) sera:
(
* (
)+
(6.1)
Mientras que la similitud, si estuviramos empleando una medida de tal tipo, entre los
dos clusters sera:
(
* (
)+
(6.2)
Con ello, la estrategia seguida en el nivel K + 1 sera:

En el caso de emplear distancias, se unirn los clusters C i y Cj si:
(
{ (
)}
{
(
1.
* (
)+}
En el caso de emplear similitudes, se unirn los clusters C i y Cj si: donde,

como es natural, se ha seguido la norma general de maximizar las
similitudes o bien minimizar las distancias.
(
{ (
)}
Pgina 105
* (
)+}
6.2.1.2 ESTRATEGIA DEL VECINO MAS LEJANO

En este mtodo, tambin conocido como el procedimiento de amalgamamiento
completo (complete linkage), se considera que la distancia o similitud entre dos clusters
hay que medirla atendiendo a sus elementos ms dispares, o sea, la distancia o similitud
entre clusters viene dada, respectivamente, por la mxima distancia (o mnima
similitud) entre sus componentes.
As pues, al igual que en la estrategia anterior, si estamos ya en la etapa K-sima, y por

lo tanto hay ya formados n K clusters, la distancia y similitud entre los clusters C i y Cj
(con ni y nj elementos respectivamente), sern:
Con ello, la estrategia seguida en el siguiente nivel, K + 1, ser:
(
* (
)+
* (
(6.5)
)+
(6.6)
1. En el caso de emplear distancias, se unirn los clusters C i

y Cj si:
(
{ (
* (
)}
)+}
(6.7)
2. En el caso de emplear similitudes, se unirn los clusters Ci

y Cj si:
(
{ (
* (
)+}
)}
(6.8)
Pgina 106
6.2.1.3 ESTRATEGIA DEL PROMEDIO NO PONDERADO

En esta estrategia la distancia, o similitud, del cluster
con el
se obtiene como la
media aritmtica entre la distancia, o similitud, de las componentes de dichos clusters.
As, si el cluster
(con
(con
elementos) est compuesto, a su vez, por dos clusters
elementos respectivamente), y el cluster
posee
elementos, la
distancia, o similitud, entre ellos se calcula como:

(
(6.9)
Notemos que en este mtodo no se tiene en cuenta el tamao de ninguno de los clusters
involucrados en el clculo, lo cual significa que concede igual importancia a la distancia
(
) que a la distancia (
).
6.2.1.4 ESTRATEGIA DEL PROMEDIO PONDERADO

Se considera que la distancia, o similitud, entre dos clusters, viene definida por el
promedio ponderado de las distancias, o similitudes, de los componentes de un cluster
respecto a los del otro.
Sea dos clusters,

dos clusters,
; supongamos que el cluster

, con
Sea:
elementos respectivamente.
el nmero de elementos de
componen
est formado, a su vez, por otros
el nmero de elementos que
. Entonces, en trminos de distancias (igual puede hacerse para
similitudes), la distancia promedio ponderada seria, notando:
Pgina 107
)
(
Con lo cual la distancia (
(
)
)
)
(6.10)
) es el promedio ponderado de las distancias de cada
uno de los dos clusters previos,
, con respecto al cluster
6.2.1.5 MTODOS BASADOS EN EL CENTROIDE

En estos mtodos, la semejanza entre dos clusters viene dada por la semejanza entre sus
centroide, esto es, los vectores de medias de las variables medidas sobre los individuos
del cluster. Entre ellos distinguiremos dos:
1.
Mtodo del centroide ponderado, en el que los tamaos de los clusters son
considerados a la hora de efectuar los clculos.
2.
Mtodo del centroide no ponderado, o mtodo de la mediana, en el cual los

tamaos de los clusters no son considerados. Veamos cada uno de ellos por
separado:
En cuanto al primero de ellos y centrndonos en la distancia eucldea al cuadrado,

supongamos que pretendemos medir la distancia entre los clusters
elementos) y
(formado a su vez por dos clusters,
respectivamente). Sean
(compuesto por
, con
elementos,
los centroides de los clusters anteriormente
citados (obviamente, esos centroides son vectores n dimensionales).
As, el centroide del cluster
vendr dado en notacin vectorial por:
Cuyas componentes sern:
Con ello, la distancia eucldea al cuadrado entre los clusters
vendr dada por:
Pgina 108
[(
(
) (
) (
(
(
0(
(
(
] ]
(
(
)
)
1]
(
(
[(
] ]
Pgina 109
6.2.1.6 MTODO DE WARD

El mtodo de Ward es un procedimiento jerrquico en el cual, en cada etapa, se unen los
dos clusters para los cuales se tenga el menor incremento en el valor total de la suma de
los cuadrados de las diferencias, dentro de cada cluster, de cada individuo al centroide
del cluster. Notemos por:
al valor de la jsima variable sobre el isimo individuo del

ksimo cluster, suponiendo que dicho cluster posee
individuos.
al centroide del cluster k, con componentes
a la suma de cuadrados de los errores del cluster k, o sea, la
distancia eucldea al cuadrado entre cada individuo del cluster k a su

centroide.
(
E a la suma de cuadrados de los errores para todos los clusters, o sea, si

suponemos que hay h clusters centroide del cluster k, con componentes
.
(
El proceso comienza con m clusters, cada uno de los cuales est compuesto por un solo
individuo, por lo que cada individuo coincide con el centro del cluster y por lo tanto en
este primer paso se tendr
para cada cluster y con ello, E = 0. El objetivo del
mtodo de Ward es encontrar en cada etapa aquellos dos clusters cuya unin
proporcione el menor incremento en la suma total de errores, E.
Supongamos ahora que los clusters
se unen resultando un nuevo cluster
Entonces el incremento de E ser:
Pgina 110
[ (
) ]
[ (
[ (
) ]
) ]
Ahora bien:
De donde:
(
)(
Y como:
(
Se tiene:
(
Dado que
, dividiendo por
(
)(
se obtiene:
)
Con lo cual se obtiene la siguiente expresin de

(
:
(
) 7
Pgina 111
As el menor incremento de los errores cuadrticos es proporcional a la distancia

eucldea al cuadrado de los centroides de los clusters unidos. La suma E es no
decreciente y el mtodo, por lo tanto, no presenta los problemas de los mtodos del
centroide anteriores.
Veamos, para finalizar, cmo se pueden calcular los distintos incrementos a partir de
otros calculados con anterioridad.
Sea
el cluster resultado de unir
y sea
otro cluster distinto a los otros dos.
El incremento potencial en E que se producir con la unin de
es:
Teniendo en cuenta que:
Y la expresin:
(
Se deduce:
(
(
(
)
(
)
(
(
(
Pgina 112
Con lo cual:
(
[(
) 7
) 7
Al igual que en los anteriores mtodos del centroide se puede demostrar que la relacin
anterior se sigue verificando para una distancia que venga definida a partir de una
norma que proceda de un producto escalar o que verifique la ley del paralelogramo.
6.2.1.7 FRMULA DE RECURRENCIA DE LANCE Y WILLIAMS

A continuacin vamos a exponer una expresin debida a Lance y Williams en 1967 que
intenta aglutinar todos los mtodos anteriores bajo una misma frmula. Concretamente
la expresin que dedujeron dichos autores proporciona la distancia entre un grupo K y
otro grupo (I, J) formado en una etapa anterior por la fusin de dos grupos. Obviamente
dicha expresin tiene importantes aplicaciones desde el punto de vista computacional ya
que permite una reduccin considerable en los clculos.
La frmula en cuestin es la siguiente:

(
))
| (
)|
De esta manera el clculo de las distancias entre grupos usadas por las tcnicas
jerrquicas descritas anteriormente son casos particulares de la expresin anterior, para
una eleccin conveniente de los parmetros
y . Algunos de estos coeficientes
han sido ya deducidos en la descripcinlos mtodos anteriores (mtodos del promedio

Pgina 113
ponderado y no ponderado, mtodo del centroide, mtodo de la mediana y mtodo de

Ward).
Veamos ahora cmo el mtodo del amalgamamiento simple y el del amalgamamiento

completo pueden ser tambin englobados bajo esta filosofa.
I. AMALGAMIENTO SIMPLE
Supongamos que en una etapa se dispone de un cluster
fruto de la unin de otros dos clusters,
y de otro
que es
en una etapa anterior. El
mtodo del amalgamamiento simple determina que la distancia entre ambos

clusters se establece como la menor distancia existente entre los elementos de
ambos clusters; evidentemente, al estar constituido el cluster
clusters
por otros dos
, dicho criterio equivale a calcular el mnimo de las distancias
entre el cluster
y entre
. Teniendo en cuenta la siguiente
igualdad (de fcil comprobacin).
) (
)}
Se tiene:
(
(
)
(
{ (
)
| (
)| (5.18)
Que corresponde a la expresin anterior con:
II. AMALGAMIENTO COMPLETO

En las mismas hiptesis que en el caso anterior y usando la expresin:
(
(5.19)
Se tiene para el mtodo del amalgamamiento completo:

Pgina 114
(
(
)
)
{ (
(
) (
| (
)}
)
)|
(5.20)
Que corresponde a la frmula de Lance y Williams con:
Extrayendo los resultados obtenidos en apartados anteriores para otros procedimientos

se puede comprobar la validez de la frmula de recurrencia para dichos parmetros.
Concretamente:
1. Mtodo del promedio no ponderado
2. Mtodo del promedio ponderado
3. Mtodo del centroide

Para la distancia eucldea al cuadrado se tiene:
4. Mtodo de la mediana
5. Mtodo de Ward
Para la distancia eucldea al cuadrado se tiene:
Pgina 115
6.2.2 MTODOS JERRQUICOS DISOCIATIVOS

Los mtodos disociativos, tambin llamados descendentes, constituyen el proceso
inverso al anterior. Comienzan con un conglomerado que engloba a todos los casos
tratados y, a partir de este grupo inicial, a travs de sucesivas divisiones, se van
formando grupos cada vez ms pequeos. Al final del proceso se tienen tantas
agrupaciones como casos han sido tratados.
En cuanto a la clasificacin de estos mtodos se puede decir que la filosofa de los

mtodos aglomerativos puede mantenerse para este otro tipo de procedimientos en lo
que concierne a la forma de calcular la distancia entre los grupos, si bien, como es
lgico, al partir de un grupo nico que hay que subdividir, se seguir la estrategia de
maximizar las distancias, o minimizar las similaridades, puesto que buscamos ahora los
individuos menos similares para separarlos del resto del conglomerado.
Esta clase de mtodos son esencialmente de dos tipos:

1. Monotticos, los cuales dividen los datos sobre la base de un solo atributo y
suelen emplearse cuando los datos son de tipo binario.
2. Politticos, cuyas divisiones se basan en los valores tomados por todas las
variables.
Esta clase de procedimientos es bastante menos popular que los ascendentes por lo que
la literatura sobre ellos no es muy extensa. Una cuestin importante que puede surgir en
su desarrollo es el hecho de cundo un cluster determinado debe dejar de dividirse para
proceder con la divisin de otro conglomerado distinto. Dicha cuestin puede resolverse
con la siguiente variante expuesta por MacNaughton-Smith en 1964 y que est
concebida para aquellas medidas de asociacin que sean positivas.
Dicho procedimiento comienza con la eliminacin del grupo principal de aquel

individuo cuya distancia sea mayor, o cuya similaridad sea menor, al cluster formado
por los restantes individuos, tomando como base para calcular dichas distancias o
Pgina 116
similaridades cualquiera de los procedimientos anteriormente descritos en los mtodos

ascendentes. As se tiene un cluster unitario y otro formado por los restantes individuos.
A continuacin se aadir al cluster unitario aquel elemento cuya distancia (similaridad)

total al resto de los elementos que componen su actual cluster menos la distancia
(similaridad) al cluster anteriormente formado sea mxima (mnima). Cuando esta
diferencia sea negativa dicho elemento no se aade y se repite el proceso sobre los dos
subgrupos.
Las tcnicas Monotticos son generalmente empleadas cuando los datos son de tipo
binario. Ahora la divisin se inicia en aquellos individuos que poseen y aquellos que no
poseen algn atributo especfico. Teniendo en cuenta este criterio, para un conjunto de
datos con
variables binarias hay
divisiones potenciales del conjunto inicial,
para cada uno de los dos subgrupos formados y as sucesivamente; de ello se deduce
que hay que determinar algn criterio para elegir la variable sobre la cual se va a
proceder a la divisin. El criterio que suele ser ms usual es el basado en los estadsticos
del tipo
obtenidos a partir de la tabla de doble entrada para cada par de variables:

(
(
)(
)(
)(
Otros criterios alternativos pueden ser:
Pgina 117
6.2.3
LA
MATRIZ
COFENTICA.
COEFICIENTE
DE
CORRELACIN
COFENTICO
Los mtodos jerrquicos imponen una estructura sobre los datos y es necesario con
frecuencia considerar si es aceptable o si se introducen distorsiones inaceptables en las
relaciones originales. El mtodo ms usado para verificar este hecho, o sea, para ver la
relacin entre el dendrograma y la matriz de proximidades original, es el coeficiente de
(
correlacin cofentico, el cual es simplemente la correlacin entre los
elementos
de la parte superior de la matriz de proximidades observada y los correspondientes en la

llamada matriz cofentica, C, cuyos elementos,
determinan la proximidad entre los elementos
, se definen como aquellos que

cuando stos se unen en el mismo
cluster.
As, si tras el empleo de varios procedimientos cluster distintos, stos conducen a

soluciones parecidas, surge la pregunta de qu mtodo elegiremos como definitivo. La
respuesta la da el coeficiente cofentico, ya que aquel mtodo que tenga un coeficiente
cofentico ms elevado ser aquel que presente una menor distorsin en las relaciones
originales existentes entre los elementos en estudio.
6.2.4
MTODOS MULTIVARIADOS DE CLUSTER
Los siguientes mtodos que vamos a comentar ahora proceden en su mayora de la

abstraccin de procedimientos inherentes en su mayora al anlisis multivariante
paramtrico. Para su desarrollo, definimos las siguientes matrices:
)(
)(
)(
Estas matrices representan, respectivamente, la dispersin total de todos los individuos

respecto de su centroide, la suma de las dispersiones en cada grupo (desviacin intra
clusters) y la dispersin entre los grupos (desviacin entre clusters).
Pgina 118
Asimismo
(
representa el nmero total de clusters y
es el tamao total de la muestra
).
Se puede comprobar que se cumple la igualdad T = W + B. Dicha igualdad es la

extensin al caso multivariante de la conocida descomposicin de la variabilidad del
anlisis de la varianza de una va. Para fijar ideas y particularizando al caso
unidimensional, es obvio que en tales circunstancias un criterio lgico para determinar
el nmero de clusters seria elegir aquella particin que tuviera el menor valor en la
desviacin intra-clusters o, equivalentemente, el mayor valor en la desviacin entreclusters.
Siguiendo con esta idea se puede extender dicha situacin al caso multivariante, si bien
el empleo de las matrices antes reseadas no hace tan inmediata dicha extensin. Por
ello surgen diversos procedimientos, entre los cuales podemos citar los siguientes:
1. Minimizacin de la traza de W
Esta es la extensin ms inmediata al criterio anteriormente comentado
para el caso unidimensional. Evidentemente esto es equivalente a
minimizar la suma de los cuadrados de las distancias eucldeas entre cada
individuo a la media del cluster al que ha sido asignado.
Hay que hacer notar que este criterio est implcito en diversos mtodos no
jerrquicos que sern descritos en el captulo siguiente, como el de Forgy,
Jancey y el de las k-medias, as como, dentro de los mtodos jerrquicos,
el de Ward.
Notemos asimismo que como T = W + B

Entonces:
, -
, -
, -
(5.25)
Por lo que minimizar la traza de W equivale a maximizar la traza de B ya

que, sea cual sea la configuracin de clusters que se establezca, la matriz T
no vara y, por tanto, tampoco su traza.
Pgina 119
2. Minimizacin de k2|W |
Marriot en 1971 sugiere el empleo de
| |, tomndose el valor de
tal
que haga esa cantidad mnimo.
3. Minimizacin del determinante de W

En el anlisis de la varianza multivariante de una va (MANOVA) son
diversos los criterios empleados basados en la distribucin de la razn de
verosimilitudes. Entre ellos destaca el criterio de Wilks, el cual considera
el cociente:
| |
| |
| |
|
Rechazndose la hiptesis nula de igualdad de las medias poblacionales si

ese cociente es menor que un valor predeterminado o, lo que es
equivalente, si el cociente:
| |
| |
Es mayor que un determinado valor.
Es evidente que en nuestro ambiente no podemos aplicar este contraste ya
que carecemos de las hiptesis de normalidad multivariante, pero se puede
abstraer la filosofa de dicho contraste y aplicarlo para nuestros propsitos,
lo cual no deja de ser un mtodo puramente heurstico. As pues y puesto
que para todas las particiones de los individuos en
grupos la matriz T
permanece constante, Friedman y Rubin sugirieron en 1967 la

maximizacin de dicho cociente, lo cual equivale a la minimizacin de |W
|.
4. Maximizacin de la traza de BW-1
Siguiendo con la misma idea anterior, otro de los criterios que se pueden
aplicar en el anlisis de la varianza multivariante de una va es el debido a
Lawley y Hotelling, quienes proponen el empleo del estadstico:
,
Siendo rechazada la hiptesis nula cuando dicha traza supere un cierto

valor impuesto de antemano. En nuestro caso, y siempre abstrayendo la
Pgina 120
filosofa del criterio expuesto, debemos seleccionar aquella particin que

produzca la maximizacin de esa traza.
5. Por otro lado, Calinski y Harabasz (1974)

Proponen el estadstico:
, , -
Tomando como nmero ptimo de clusters aquel que produzca el mayor

valor de C.
6.3
MTODOS NO JERRQUICOS.
Los mtodos jerrquicos, para un conjunto de m individuos, parten de m clusters de un

miembro cada uno hasta construir un solo cluster de m miembros (mtodos
aglomerativos) o viceversa (mtodos disociativos).
Los mtodos que se presentan ahora estn diseados para clasificar individuos (no son
vlidos para variables) en una clasificacin de K clusters, donde K se especifica a priori
o bien se determina como una parte del proceso.
La idea central de la mayora de estos procedimientos es elegir alguna particin inicial

de individuos y despus intercambiar los miembros de estos clusters para obtener una
particin mejor.
Los diversos algoritmos existentes se diferencian sobre todo en lo que se entiende por
una particin mejor y en los mtodos que deben usarse para conseguir mejoras. La idea
general de estos mtodos es muy similar a la sealada en los algoritmos descendentes en
ms de un paso empleados en la optimizacin sin restricciones en programacin no
lineal. Tales algoritmos empiezan con un punto inicial y generan una secuencia de
movimientos de un punto a otro hasta que se encuentra un ptimo local de la funcin
objetivo.
Pgina 121
Los mtodos estudiados ahora comienzan con una particin inicial de los individuos en
grupos o bien con un conjunto de puntos iniciales sobre los cuales pueden formarse los
clusters. En muchos casos, la tcnica para establecer una particin inicial es parte del
algoritmo cluster, aunque estas tcnicas usualmente son proporcionadas por s solas ms
que como una parte del algoritmo cluster.
6.3.1 ELECCIN DE PUNTOS SEMILLA

Supuesto que el nmero de clusters a formar es k, un conjunto de k puntos semilla no es
ms que un conjunto de puntos que puede emplearse como ncleo de los clusters sobre
los cuales el conjunto de individuos puede agruparse. Los procedimientos, todos
subjetivos, que pueden emplearse para tal hecho son:
1. Elegir los primeros k individuos del conjunto de datos, como propone

McQueen (1967). Este mtodo es el ms simple, siempre y cuando la
secuenciacin en la que los datos han sido introducidos no influencie el
resultado final.
2. Etiquetar los casos de 1 a m y elegir aquellos etiquetados como:
0 1 [
(
6
Donde [x] representa la parte entera de x. Con este sistema se pretende

compensar la tendencia natural de ordenar los casos en el orden de
introduccin o alguna otra secuencia no aleatoria.
3. Etiquetar los casos de 1 a m y elegir los casos correspondientes a k nmeros
aleatorios diferentes, (McRae, 1971).
4. Tomar una particin de casos en k grupos mutuamente excluyentes y usar sus
centroides como semillas.
5. Emplear el algoritmo de Astrahan segn el cual se elegiran las semillas de tal
forma que abarcaran todo el conjunto de datos, o sea, los datos estarn
relativamente prximos a un punto semilla, pero las semillas estarn bien
separadas unas de otras. Astrahan propuso el siguiente algoritmo para ello:
Para cada individuo se calcula la densidad, entendiendo por tal el nmero

de casos que distan de l una cierta distancia, digamos
Pgina 122
Ordenar los casos por densidades y elegir aquel que tenga la mayor
densidad como primer punto semilla.
Elegir de forma sucesiva los puntos semilla en orden de densidad

decreciente sujeto a que cada nueva semilla tenga al menos una distancia
mnima,
con los otros puntos elegidos anteriormente. Continuar
eligiendo semillas hasta que todos los casos que faltan tengan densidad
cero, o sea, hay al menos una distancia
de cada punto a otro.
En el caso de que, por este procedimiento, se produjera un exceso de

puntos generados, se agruparn de forma jerrquica hasta que haya
exactamente K. Por ejemplo, el mtodo del centroide puede ser elegido
para tal cuestin.
6. Tomar el vector de medias de los datos como el primer punto semilla;

posteriormente se seleccionan los puntos semilla examinando los individuos
sucesivamente, aceptando uno de ellos como siguiente punto semilla siempre
y cuando est, por lo menos, a alguna distancia, d, de todos los puntos
elegidos anteriormente Se contina de esta forma hasta completar los k puntos
deseados o el conjunto de datos se agota.
Notemos que este mtodo es tan simple que permite probar con diversos
valores de la distancia d si los anteriormente empleados proporcionaran
pocas semillas o examinaran una parte pequea del conjunto de datos.
6.3.2 ELECCIN DE PARTICIONES INICIALES

En algunos mtodos cluster, el nfasis del mtodo recae en generar una particin inicial
de los individuos en K clusters exclusivos ms que en encontrar un conjunto de puntos
semilla. Algunos procedimientos para generar tales particiones son:
1. Para un conjunto de puntos semilla dado, se asigna cada caso al cluster

construido
sobre
el
punto
semilla
ms
prximo,
(Forgy,
1965),
permaneciendo los puntos semilla estacionarios durante la asignacin. Con

ello el conjunto de clusters resultante es independiente de la secuencia en la
cual los individuos han sido introducidos.
Pgina 123
Procedimiento de Forgy:
Se asigna cada caso al cluster construido sobre el punto semilla ms prximo.
Los puntos semilla quedan estacionarios durante el proceso.
( ) ( )
( )
( )
( )
( )
( )
2. Dado un conjunto de puntos semilla, sea cada uno de ellos, inicialmente, un

cluster unitario. A continuacin se asigna cada individuo al cluster con el
centroide ms prximo. Tras asignarlo, se actualiza el centroide del cluster.
Este mtodo tiene una gran semejanza con el mtodo descrito en el tema de
mtodos jerrquicos. Al igual que en el mtodo del centroide, los clusters
pueden irse moviendo, por lo que la distancia entre un individuo y un
centroide puede ir variando durante el proceso. Adems, el conjunto de
clusters resultante es independiente del orden en el que los individuos fueron
asignados.
3. Emplear un mtodo jerrquico para producir una particin inicial idnea.
Wolfe (1970) emplea el mtodo de Ward para proporcionar un conjunto
inicial de clusters para su algoritmo.
6.3.3 MTODOS QUE FIJAN EL NMERO DE CLUSTER

En primer lugar notemos que, dada una configuracin de clusters, se pueden tomar
como puntos semilla los centroides de los clusters as como se puede construir un
conjunto de clusters asignando cada individuo al cluster con el punto semilla ms
prximo. El mtodo ms simple, iterativo, consiste en alternar estos dos procesos hasta
que se converja a una configuracin estable. A continuacin veremos varios de estos
mtodos siguiendo el problema bsico de ordenar los individuos en un nmero fijo de
clusters de tal forma que cada individuo pertenezca a un solo cluster. Asimismo
plantearemos algunas variantes de estos procedimientos.
6.3.3.1 MTODO DE FORGY Y VARIANTE DE JANCEY

Forgy, en 1965, sugiere un algoritmo simple consistente en la siguiente secuencia de
pasos:
Pgina 124
1.
Comenzar con una configuracin inicial. Ir al paso segundo si se

comienza con un conjunto de puntos semilla. Ir al paso tercero si
se comienza con una particin de los casos.
2.
Colocar cada individuo en el cluster con la semilla ms prxima.

Las semillas permanecen fijas para cada ciclo completo que
recorra el conjunto de datos.
3.
Calcular los nuevos puntos semilla como los centroides de los

clusters.
4.
Alternar los pasos segundo y tercero hasta que el proceso

converja, o sea, continuar hasta que ningn individuo cambie de
cluster en el paso segundo.
Notemos que no es posible decir cuntas repeticiones de los pasos segundo y tercero
sern precisas para alcanzar la convergencia en un problema concreto; no obstante,
evidencias empricas indican que en la mayora de los casos no suelen ser necesarios
ms de 10 ciclos.
En cada ciclo la asignacin de K clusters requiere mK clculos de distancias y m(K 1)
comparaciones de distancias. Puesto que K es frecuentemente menor que m y el nmero
de ciclos hasta alcanzar la convergencia es pequeo, el analista puede con frecuencia
examinar conjuntos de clusters asociados con varios valores de K, con un coste bastante
menor del asociado a un anlisis jerrquico completo.
Jancey, en 1966, sugiere el mismo mtodo excepto una modificacin en el paso tercero.
As, el primer conjunto de clusters formado por puntos semilla viene dado o bien se
calcula como los centroides de los clusters de la particin inicial; en cada etapa, cada
nuevo punto semilla se encuentra reflejando el antiguo punto semilla a travs del nuevo
centroide del cluster, lo cual puede ser visto como una aproximacin al gradiente local,
o sea, la direccin en la cual el punto semilla debiera moverse para tener un mejor
aprovechamiento de la particin, en tanto en cuanto se desplaza en el mismo sentido que
lo hace el cluster en su totalidad.
Pgina 125
Figura 4.1: Mtodo de Forgy. Variante de Jancey

Dar
configuracin
Inicial
Particin
o
Semillas
Asignar individuos al
Clster con semilla
ms prxima
Convergencia
Calcular centroides
Semillas = centroides
Fi
n
MTODO DE FORGY
6.3.3.2 MTODO DE LAS K - MEDIAS

La clave de este procedimiento radica en que el centroide se calcula a partir de los
miembros del cluster tras cada asignacin y no al final de cada ciclo, como ocurre en los
mtodos de Forgy y Jancey.
El algoritmo que propuso es el siguiente:
1.
Tomar los K primeros casos como clusters unitarios.
2.
Asignar cada uno de los m K individuos restantes al cluster con el

centroide ms prximo. Despus de cada asignacin, recalcular el
centroide del cluster obtenido.
3.
Tras la asignacin de todos los individuos en el paso segundo, tomar

los centroides de los clusters existentes como puntos semilla fijos y
hacer una pasada ms sobre los datos asignando cada dato al punto
semilla ms cercano.
Pgina 126
El ltimo paso es el mismo que el del mtodo de Forgy, excepto que la recolocacin se
efecta una vez ms sin esperar a que se produzca la convergencia.
Notemos que, usando los K primeros individuos como puntos semilla, este mtodo tiene
la virtud de ser el menos caro de todos los mtodos discutidos. El cmputo total de
operaciones desde la configuracin inicial hasta la final involucra slo lo siguiente:
K(2m K) clculos de distancias, (K 1)(2m K) comparaciones de distancias y m
K clculos de centroides.
Hay que comentar que el conjunto de clusters construido en el paso segundo del
algoritmo depende de la secuencia en la que los individuos han sido procesados.
MacQueen (1967) efectu algunos estudios preliminares en este sentido; su experiencia
indic que la ordenacin de los datos tiene solamente un efecto marginal cuando los
clusters estn bien separados.
A partir del algoritmo anterior se puede implementar un procedimiento convergente,

que llamaremos mtodo de las K-medias convergente:
1.
Comenzar con una particin inicial de los individuos en clusters. Si se

desea, la particin puede ser construida usando los pasos primero y
segundo del mtodo de MacQueen ordinario, si bien cualquier mtodo
de los establecidos para particiones iniciales puede emplearse
2.
Tomar cada caso sucesivamente y calcular las distancias a todos los

centroides de los clusters; si el centroide ms prximo no es el del
cluster padre de dicho caso, reasignar dicho caso al cluster con
centroide ms prximo y recalcular los centroides de los clusters
afectados en el proceso.
3.
Repetir el paso segundo hasta que se obtenga la convergencia, o sea,

continuar hasta que un ciclo completo a travs de todos los casos no
proporcione ningn cambio en los miembros de los clusters.
Pgina 127
6.3.3.3 PROPIEDADES DE CONVERGENCIA

Antes de comenzar con este punto hay que hacer notar que no abordaremos de forma
exhaustiva demostraciones relacionadas con la convergencia de los mtodos debido a
que son muy largas y tediosas, corrindose el riesgo de oscurecer ms que iluminar las
conclusiones principales. Ms bien haremos comentarios sobre dichas convergencias,
comentarios a partir de los cuales se pueden obtener demostraciones rigurosas.
Para un cluster dado, la suma de los cuadrados de las desviaciones sobre un punto de
referencia es mnima cuando ese punto de referencia es el centroide del cluster. La suma
de los cuadrados de las desviaciones sobre el centroide para el K-simo cluster viene
dada por:
(
Para una particin dada de un conjunto de individuos en h clusters, la suma de los

cuadrados de los errores intragrupos es:
(
Y E posee un valor caracterstico para dicha particin. Notemos que:

(
Es el cuadrado de la distancia eucldea entre el centroide del cluster K y el j-simo

individuo en dicho cluster.
Pgina 128

Material Multivariado

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material Multivariado

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD ANDINA DEL CUSCO

Dr. Cleto De La Torre - Anlisis multivariado

MAESTRIA EN ESTADISTICA E INVESTIGACION

Dr. Cleto De La Torre - Anlisis multivariado

Generar nuevas variables no correlacionadas y con variables decrecientes que

POBLACION DE COMPONENTES PRINCIPALES

Algebraicamente, Componentes principales son combinaciones lineales particulares de

Dr. Cleto De La Torre - Anlisis multivariado

1.2.1 OBTENCION DE LAS COMPONENTES PRINCIPALES EN LA

Tomando la parte positiva y multiplicando por e i y usando la restriccin e' i e i 1 tenemos :

Donde Y2 , recibe el nombre de segunda componente principal el cual es ortogonal a

con el vector e1 se define la combinaci n lineal con mxima varianza, es decir :

Dr. Cleto De La Torre - Anlisis multivariado

definidas las i primeras, de la siguiente manera.

2 1 , con su respectivo autovector e2

Dr. Cleto De La Torre - Anlisis multivariado

Y que satisface la condicin de ortogonalidad.

La matriz ortogonal L, puede expresarse la transformacin lineal de componentes

considrese las combinaciones lineales.

Primera Componente Principal = Combinacin Lineal l1 X que maximiza:

Segunda Componente Principal = Combinacin Lineal l 2 X que maximiza:

Dr. Cleto De La Torre - Anlisis multivariado

Cov( l '1 X, l ' 2 X) 0

En la i-sima etapa tenemos

con sus pares de valores y vectores caracters ticos (1 , e1 ), (2 , e 2 ),, (p , e p ) donde :

Yi e 'i X e1i X 1 e2i X 2 e pi X p

11 22 pp Var ( X i ) 1 2 p i 1Var (Yi )

Comentario del Postulado 2

Y consecuentemente, la proporcin de la varianza total debido (explicada por) la

a la k - sima componente principal

Yp = pX son las componentes principales

obtenidas de la matriz covarianza entonces:

ANALISIS DE LA VARIACION MUESTRAL POR COMPONENTES

Supongamos que los datos X1, X2,..., Xn representan independientes extracciones de

Dr. Cleto De La Torre - Anlisis multivariado

S(pxp) es la matriz covarianza muestral con sus pares de valores y vectores

(1 , e1 ), (2 , e2 ),, ( p , e p ) la i-sima componente principal muestral estimada est

donde 1 2 p 0 y X cualquier observacin en las variables x1, x 2 ,x p

Varianza MuestralTotal Estimada sii i 2 p k-simos coeficientes de

Dr. Cleto De La Torre - Anlisis multivariado

2.2 EL MODELO FACTORIAL ORTOGONAL

Xpx1 = px1 + Lpxm Fmx1 + px1

Dr. Cleto De La Torre - Anlisis multivariado

i : media de la i-esima variable

La matriz L es la matriz de los factores de carga o coeficientes de aprovechamiento

F j : es el j-esimo factor comun.

i : i-esimo factor especifico el cual esta relacionado con la i-esima variable

Las p desviaciones X1 - 1, X2 - 2, ... , Xp - p, estn expresadas en trminos de

1) Los p factores comunes son no correlacionadas con varianza 1 y esperanza 0

ii : varianza especifica de la i-esima variable

3) Cada factor no comun es independiente con cada factor comun

Estas suposiciones y la expresin (1) constituyen el modo factorial ortogonal.

2.2.1 RESULTADOS DEL MODELO FACTORIAL

El modelo siguiente es lineal en los factores comunes

Pero si las p respuestas X estn, relacionadas a los factores fundamentales de manera

Dr. Cleto De La Torre - Anlisis multivariado

entonces la estructura covarianza LL + dada por ( 19) puede ser la no adecuada. La

Var(Xi) = Comunalidad + Varianza especfica

ii = lil2 + li22 + ... + lim2 + ii

donde : hi2 = lil2 + li22 + ... + lim2 = lij2

es la comunalidad de la i-esima variable

2.2.4 LA NO UNICIDAD DE LAS CARGAS FACTORIALES

entonces es imposible, sobre la base de las observaciones en X distinguir las cargas L de

Esta ambigedad en la definicin de las cargas factoriales nos proporciona lo razonable