Documentos de Académico
Documentos de Profesional
Documentos de Cultura
0 SPSS - Introduccion Análisis Multivariante
0 SPSS - Introduccion Análisis Multivariante
En la mayor parte de los trabajos aplicados, la tabla de datos será del tipo
individuos por variables. Cada fila contiene los datos de un individuo, y cada
columna los de una variable. Si el método requiere otro tipo de matriz de datos,
normalmente el propio programa informática la calcula a partir de la de individuos
por variables, como paso previo del análisis.
X X1 X2 ... Xj . . . Xp
1 x11 x12 ... x1j . . . x1p
2 x21 x22 ... x2j . . . x2p
. . . ... . ... .
. . . ... . ... .
. . . ... . ... .
i xi1 xi2 ... xij . . . xip
. .
. .
. .
n xn1 xn2 . . . xni . . . xnp
pero esto es simplemente una matriz, en sentido matemático, sobre el cuerpo de los
números reales suponiendo que las variables son de tipo continuo, medidas en la
escala ratio. Matricialmente se representa por una matriz de n filas (n individuos) y p
columnas (p variables).
X = (X 1 , X 2 , " , X p )
Una buena práctica consiste en analizar cada variable por separado, mediante
la metodología del Análisis Exploratorio de Datos (EDA), haciendo el
correspondiente análisis unidimensional, calculando los estadísticos que se crean
convenientes para un mejor conocimiento de cada variable, así como proceder al
cálculo de covarianzas entre pares de variables, haciendo incluso análisis de
correlación entre ellas y representaciones gráficas. Todo ello con el objetivo de tener
un mayor conocimiento estadístico de cada variable por separado
X = (X1, X 2 , " , X p )
1 1 1
1 − − " −
n n n
− 1 1− 1 " − 1
H = n n n
" " " "
1 1 1
− − " 1−
n n n
1 n 1 n 2
si2 = var( X i ) = ∑
n k =1
( x ki − X i ) 2
= ∑
n k =1
x ki − X i2
1 n 1 n
sij = cov( X i , X j ) = ∑ ki i kj j n ∑
n k =1
( x − X )( x − X ) =
k =1
x ki x kj − X i X j
1 t
Q= X X
n
1 t 1 1 1
V= X c X c = ( HX ) t ( HX ) = X t ( H t H ) X = X t HX
n n n n
1 t
V= X HX
n
~ n
V = V
n −1
s ij ~sij
rij = = ~~
s i s j si s j
y haciendo:
s1 0 " 0
0 s2 " 0
Ds = diag ( s1 , s 2 , " , s p ) =
" " " "
0 0 0 s
p
se puede escribir:
siendo: rii = 1 y rij = r ji , se trata pues de una matriz simétrica con los elementos de la
diagonal iguales a 1.
X = ( X 1 , X 2 ,", X p )
en otras:
Y = (Y1 , Y2 , " , Y p )
y kj = t1 j x k 1 + t 2 j x k 2 + " + t pj x kp , j = 1,2," , p
Y = XT
VY = T tVT
o bien:
x kj − X j
z kj = , j = 1, " , p y k = 1, ", n
sj
Z j = 0 , var(Z j ) = 1 , j = 1, " , p
1 t
R= Z Z
n
Las coordenadas del centro de gravedad de la nube de puntos viene dado por:
1 n
gj = ∑ xkj = X j ,
n k =1
j=1,...,p
1 n 2
I= ∑ d ( Ai , X )
n i =1
Una nube de puntos muy dispersa tendrá una inercia grande, mientras que una nube de
puntos muy concentrada, alrededor de su cdg, tendrá una inercia pequeña.
1 n p p
1 n 2
p
I= ∑∑ ik k ∑
n i =1 k =1
( x − X ) 2
=
k =1 n
∑
i =1
( x ik − X k ) = ∑
k =1
s k2 = traza V
I Z = traza R = p
u1
u = # , u t = (u1 , ", u p )
u
p
la proyección de dicho vector sobre la dirección definida por el vector unitario vale:
u1
G G G
proy u OAi = OA, u = OAi cos α = xi1u1 + xi 2 u 2 + " + xip u p = ( xi1 , " , xip ) #
u
p
por tanto la proyección de cada punto sobre la dirección u se puede escribir
matricialmente:
Xu
1 1
( Xu ) t ( Xu ) = u t ( X t X )u
n n
En particular si partimos de la matriz de datos centrada, sería:
1
u t ( X ct X c )u = u tVu
n
y si partimos de la matriz de datos tipificados:
u t Ru
en cualquiera de los casos la suma de cuadrados de las proyecciones de los puntos sobre
la dirección u se expresa como una forma cuadrática de las componentes del vector u.
Partimos de una tabla de datos de individuos por variables, suponiendo que todas
las variables X1, X2,…, Xp son cuantitativas, y n es el número de individuos.
Si las mediciones de las variables sobre los individuos viene dada por la tabla:
X1 X2 . . . Xk . . . Xp X1’ e1
1 x11 x12 . . . x1k . . . x1p x’11 x11 - x’11
2 x21 x22 . . . x2k . . . x2p x’21 x21- x’21
. . . ... . ... . . .
. . . ... . ... . . .
. . . ... . ... . . .
n xn1 xn2 . . . . . . . xnp x’n1 xn1 - x’n1
donde la columna de los valores X1’ son los valores pronosticados mediante el funcional
anterior y la columna de los e1 son los errores como diferencia entre el valor teórico
pronosticado, X’1, y el valor real, X1.
donde los coeficientes del hiperplano se determinan con la condición de que la suma
cuadrática de los errores sea mínima:
n n n
SCE = Φ = ∑ ei21 = ∑ ( xi1 − xi′1 ) 2 = ∑ ( xi1 − b11 − b12 xi 2 − " − b1 p xip ) 2
i =1 i =1 i =1
[ ]
n
Φ = ∑ ( xi1 − X 1 ) − b12 ( xi 2 − X 2 ) − " − b1 p ( xip − X p )
2
i =1
L1k
b1k = − , k = 2," , p
L11
siendo L11= (-1)1+1.det V11, L1k=(-1)1+k.det V1k, se trata pues de los cofactores. Estos
coeficientes, b1k, se denominan coeficientes de regresión parcial de X1 respecto de Xk e
indican o representan lo que cambia la variable de regresión, X’1 , por unidad de cambio
de la variable predictiva Xk.
X 1′ = X 1 −
1
L11
[
L12 ( X 2 − X 2 ) + " + L1 p ( X p − X p ) ]
o
X 1′ = X 1′ − X 1 , X k = X k − X k , k = 2, " , p
se obtiene:
Para que existe plano de regresión debe ser L11≠0, suponiendo que el sistema es
no homogéneo. El sistema homogéneo corresponde al caso: s12=s13=…=s1p=0, lo que
significa que la variable X1 está incorrelacionada con las restantes. En este supuesto, si
L11≠0, entonces no hay solución. Si L11=0, entonces habría al menos una infinidad de
soluciones para los coeficientes del hiperplano, no habiendo por tanto solución única.
Por tanto podemos concluir que cuando la variable a pronosticar está incorrelacionada
con las restantes, aquella no puede explicarse o pronosticarse, a través de un hiperplano
de regresión, a partir de las restantes variables.
1 n 1 n
cov(e1 , X k ) = cov(e1 , X k ) = ∑ x ik ei1 = ∑ x ik ( x i1 − x i′1 ) =
n i =1 n i =1
1 n L L1 p L L1 p
= ∑ x ik x i1 + 12 x i 2 + " +
n i =1
x ip = s1k + 12 s 2 k + " + s pk =
L11 L11 L11 L11
=
1
(s1k L11 + s2 k L12 + " + s pk L1 p ) = 1 .0 = 0
L11 L11
n
De: ∑e
i =1
x = 0, k = 2,3," , p , se deduce:
i1 ik
n
b1k ∑ ei1 x ik = 0
i =1
p n
∑e ∑b
i =1
i1
k =2
1k x ik = 0
n
∑e
i =1
i1 i1x ′ = 0
por tanto:
cov(e1 , X 1′ ) = cov(e1 , X 1′ ) = 0
= s11 +
L12
s12 + " +
L1 p
s1 p =
1
(L11 s11 + L12 s12 + " + L1 p s1 p ) = 1 L ≠ 0
L11 L11 L11 L11
es decir que los errores y los valores observados de la variable a pronosticar presentan
correlación.
1 n 1 n
cov( X 1 , X 1′ ) = cov( X 1 , X 1′ ) = ∑ x i1 x i′1 = ∑ x i1 (b12 x i 2 + " + b1 p x ip ) =
n i =1 n i =1
= b12 s12 + " + b1 p s1 p
1 n 2 1 n 1 n L R
s = ∑ ei1 = ∑ ei1 ( xi1 − xi1 ) = ∑ ei1 x i1 =
2
e1
′ = s11
n i =1 n i =1 n i =1 L11 R11
donde R y R11 tiene el mismo significado que L y L11 pero referidos a la matriz de
correlaciones, ya que:
1
ECM = SCE
n
s e21 = cov(e1 , X 1 )
1 n 1 n 1 n
s e21 = ∑
n i =1
ei1 x i1 = ∑ x i1 ( x i1 − x i′1 ) = s11 − ∑ x i1 x i′1
n i =1 n i =1
X 1 = X 1′ + e1
se tiene:
s X2 1 = s X2 1′ + s e21
resultando:
R11 R
s X2 1′ = s X2 1 − s e21 = s11 − s11 = s11 1 − 11
R R
s X2 1′ s e21 R
D2 = 2
= 1− = 1−
s X1 s11 R11
D = corr ( X 1 , X 1′ )
por tanto tendremos las mismas propiedades que cualquier coeficiente de correlación
lineal de Pearson. Representa la correlación entre la variable real y las demás o
regresores consideradas en conjunto a través del correspondiente hiperplano de
regresión.
1.11.- EJEMPLOS
X1 X2 X3
1 2 4
2 3 1
2 1 3
4 3 5
5 5 2
4 7 3
Ejemplo 1.3.- Como continuación del ejemplo anterior considerar una tercera
variable X3 incorrelacionada con las dos anteriores. Escribir las matrices de
varianzas y de correlaciones. Analizar los planos de regresión.
1.11.- APLICACIONES
1. peso corporal en Kg
2. grasa en gr por Kg corporal
3. agua en gr por Kg corporal
4. agua en gr por Kg de masa corporal magra
5. N en gr/Kg de masa corporal magra
6. Na en meq/Kg “
7. K “ “
8. Cl “ “
9. Ca en gr/Kg “
10. Mg “ “
11. P “ “
12. Fe en mgr/Kg “
13. Ca “ “
14. Zn “ “
Los datos han sido obtenidos del investigador Widdowson (1955), resultando la
siguiente matriz de datos:
CASO 3.- Análisis del “tamaño” de una muestra de individuos de una población de
Allium sativum.
2.1.- INTRODUCCIÓN
Figura 2.1
Como que OAi es constante cualquiera que sea la orientación del eje, será necesario
2 2 2
que OPi sea lo más grande posible, ya que OAi = OPi + Ai Pi . Para tener en cuenta
todos los puntos se toma la suma de los cuadrados de todos los puntos, es decir se
n
∑ OP
2
pretende buscar aquella dirección u que maximiza el valor i . Una dirección que
i =1
cumple esta condición se llama eje factorial o eje principal de inercia, y es tal que
proyectando la nube de puntos sobre él, estos se hallan muy separados o muy
discriminados.
Pero según vimos en el capítulo 1, apartado 1.8, para una matriz de datos
tipificados, la suma de cuadrados de las proyecciones vale:
u t Ru , siendo u = 1 o u t u = 1
∂ϕ
= 2u1 + 2r12 u 2 + " + 2r1 p u p − 2λu1 = 0
∂u1
(1 − λ )u1 + r12 u 2 + " + r1 p u p = 0
1 − λ r12 " r1 p
r12 1 − λ " r2 p
det =0
" " " "
r1 r2 p " r pp
p
o bien:
det(R-λI)=0
λk
100
p
mientras que la inercia explicada por los m (< p) primeros factores sería:
∑λ
i =1
i
100
p
λ1 ≥ λ2 ≥ … ≥ λp
Figura 2.2
Figura 2.3
Sea T la matriz cuyas columnas son las componentes de los vectores propios en
la base inicial o matriz del cambio de base, y supongamos que la hemos elegido
ortogonal, es decir: T-1 = Tt, y sea Λ la matriz diagonal de valores propios, entonces:
Λ = T t RT
u1 = (t11 , t 21 , " , t p1 )
u 2 = (t12 , t 22 ," , t p 2 )
"
u p = (t1 p , t 2 p , " , t pp )
por tanto:
z i1 y i1
zi 2 yi 2
# = T #
z y
ip ip
o bien, trasponiendo:
(z i1 z i 2 " z ip ) = (y i1 y i 2 " y ip )T t
(y i1 y i 2 " y ip ) = (z i1 z i 2 " z ip )T
obteniéndose por tanto las coordenadas de los individuos en los nuevos ejes factoriales a
partir de la matriz de datos tipificados.
Y = ZT = 0
y
VY = T t RT = Λ
por tanto los nuevos ejes principales están centrados, sus varianzas son los valores
propios y sus covarianzas son nulas (están incorrelacionados). Es decir:
E (Yi ) = 0
1 n 2
var(Yi ) = λi = ∑ y ki
n k =1
1 n
cov(Yi , Y j ) = 0 = ∑ y ki y kj
n k =1
con i,j=1,2,…,p.
1 n 1 n p p
1 n p
cov(Y j , Z i ) = ∑ y kj z ki = ∑ y kj ∑ y kr t ir = ∑ t ir ∑ y kj y kr = ∑ t ir cov(Y j , Yr )
n k =1 n k =1 r =1 r =1 n k =1 r =1
cov(Y j , Z i ) = t ij λ j
t ij λ j
ρ ij = = t ij λ j
λ j .1
en forma de matriz:
las columnas se refieren a las variables Yj, mientras que las filas a las variables Zi, por
tanto en la intersección de columna con fila tenemos el coeficiente de correlación lineal
entre ambas variables. Notese que la correlación entre ambas es tanto mayor cuanto
mayor sea el valor propio (varianza) del factor Yi, ya que es proporcional a:
d .t.(Yi ) = λi
Interesa por tanto aquellos factores de alta d.t. pues serán los que están más
fuertemente correlacionados con las variables originales. Se podrá prescindir de
aquellos factores escasamente correlacionados con las originales, pudiendo considerarse
como variables independientes.
Yi − E (Yi ) Yi − 0 1
Fi = = = Yi
d .t.(Yi ) λi λi
Z1 F1
Z2 F2
# = F #
Z F
p p
o
( Z 1 , Z 2 , " , Z p ) = ( F1 , F2 ," , F p ) F t
y en componentes:
esta es una propiedad relativa a las filas de la matriz de cargas factoriales, F: las filas
de la matriz F son vectores unitarios.
La inercia que explica cada factor es numéricamente igual a su valor propio, que
expresada en porcentaje de la inercia total es:
λi
100
p
Si los valores propios son λ1>…>λp, cada factor explica distinta proporción de la
inercia total de manera que cuantos más factores retengamos mejor será la calidad de la
representación, pero entonces no simplificamos el problema ya que retenemos todos los
factores.
Es preciso por tanto definir un criterio para fijar el número de factores a retener.
Existen varios criterios que enumeramos a continuación:
i) retener aquellos factores cuyos valores propios sean mayores que 1.
ii) retener aquellos factores cuyos valores propios sean superiores a un valor fijo
previamente fijado por el investigador.
iii) retener un número fijo de factores.
∑λ
i =1
i
100
p
Ym = ZTm
1 0 " 0
0 1 " 0
R=
" " " "
0 0 " 1
y los factores principales son las variables original y todas explican la misma cantidad
de inercia, no siendo posible la reducción.
rotaciones ortogonales, pues de esta manera los nuevos ejes siguen estando
incorrelacionados entre sí, mantienen las comunanlidades (la capacidad conjunta de
cada factor para retener la información de cada variable), sin embargo se altera las
correlaciones entre factores y variables, Así como el porcentaje de inercia condensada
por cada factor. Después de la rotación hay que calcular la nueva matriz de factores que
contiene las correlaciones entre los factores rotados y las variables originales, que se
obtiene multiplicando la matriz de factores obtenida antes de la rotación por la matriz de
correlaciones entre los factores rotados y no rotados, que algunos llaman matriz de
transformación de los factores.
2.8.- EJEMPLOS
Ejemplo 2.1.- Con los datos del ejemplo 1.1 efectuar un análisis de componentes
principales
Ejemplo 2.2.- Con los datos del ejemplo 1.2 determinar los ejes principales y la inercia
de cada uno de ellos. Hacer una representación gráfica
Ejemplo 2.3.- Con los datos del ejemplo 1.3 determinar los ejes principales de inercia,
así como la inercia de cada uno de ellos. Hacer una representación gráfica
2.9.- APLICACIONES
Caso 3.- Análisis del tamaño de una muestra de arbustos de una población de
Allium sativum.
3.1.- INTRODUCCIÓN
Las ideas básicas del AF fue sugerido por Francis Galton y Charles
Spearman, así como otros autores, al principio de siglo y se origina principalmente
en los esfuerzos de los sicólogos en tener un mejor conocimiento de la inteligencia.
Los test de inteligencia contienen principalmente una gran variedad de cuestiones
que dependen en gran medida de la habilidad verbal, habilidad matemática,
capacidad memorística, etc. El AF fue desarrollado para analizar las puntuaciones de
estos test y poder determinar si la inteligencia viene determinado por un único factor
o un pequeño grupo de factores más reducido que los debidos a todos los test
disponibles. En este terreno se sabe que hay tres factores: a) inteligencia verbal, b)
inteligencia lógica y c) inteligencia espacial tales que cualquier otro conjunto de
puntuaciones queda explicada a través de las anteriores.
Xj = λj1f1+ … + λjmfm + εj , j = 1, …, p
X = ΛF + E
siendo:
X1 f1 ε1
X2 f2 ε2
. . .
X = F = E =
. . .
. . .
X f ε
p m m
λ11 λ12 . . . λ1 m
λ 21 λ 22 . . . λ2m
. . . . . .
Λ=
. . . . . .
. . . . . .
λ 1 λ p2 . . . λ pm
p
siendo Λ la matriz factorial. Uno de los principales problemas del análisis factorial es la
determinación de dicha matriz, cuyos elementos se obtienen a partir de los coeficientes
de correlación entre las variables, además de la determinación del número de factores m
a emplear.
m
x rj = ∑ λ jk f rk + ε rj
k =1
X = ΛF + E
ahora tenemos:
de aquí se sigue que la varianza de los observables se explican por la suma de los
cuadrados de las correspondientes cargas factoriales, más la varianza debida al factor
residual. Se llama comunalidad del observable Xj a:
V = ΛΛt + Ν
Por tanto las cargas factoriales determinan las covarianzas, y en gran medida
las varianzas pues para estas sólo falta tener en cuenta la varianza de las variables
residuales. La ecuación matricial anterior es crucial en el AF. En esta ecuación hay
pm+p parámetros desconocidos (factores de carga y varianza de residuos) y
½(p+1)p ecuaciones. Es necesario, por tanto, para que haya solución, que m<1/2(p-
1); puede no haber solución o incluso no ser única, pues si Λ es una solución y T es
una matriz ortogonal, entonces ΛT también es solución pues: (ΛT)(ΛT)t=ΛΛt. Por
tanto siempre que se obtiene una solución se pueden efectuar rotaciones y analizar
las nuevas soluciones. La acotación anterior de m nos proporciona el número
máximo de factores a extraer.
Se puede partir de una matriz de datos, donde las variables estén tipificadas,
entonces la matriz de covarianzas pasa a ser la matriz de correlaciones, siendo
entonces las comunalidades iguales a la unidad:
m
1 = ∑ λ2jk + ν j
k =1
m
rij = ∑ λ ik λ jk
k =1
R = ΛΛt + N
1
Y = −(n − 1 − (2 p + 5)) log R
6
Ya hemos dicho que una acotación del número de factores emplear es m<1/2(p-
1), siendo p el número de variables observables.
V1 = λ11
2
+ λ221 + " + λ2p1
m
rij = ∑ λik λ jk , con rij = r ji , rii = hi2
k =1
donde los rij se calculan a partir de la tabla de datos y las comunalidades hi2 deben
estimarse como mas adelante indicaremos.
h12 − α "
r12 r1 p
r21 h −α "
2
r2 p
=0
2
# # " #
rp1 rp 2 " h p2 − α
o escrito en componentes:
∑a
i =i
2
ik = αk
p
∑a
i =1
ij aik = 0
k , j = 1,2,..., m; j≠k
Esta primera solución factorial obtenida estimando las comunalidades a través de los
coeficientes de determinación se utiliza para iterar el proceso tomando ahora como
comunalidades las obtenidas de la solución anterior, y repitiendo el proceso. La
solución final se obtiene incorporando al proceso un criterio de parada.
Hasta ahora nos hemos preocupado de la obtención del modelo lineal factorial
de un conjunto de variables en función de unos factores comunes. El problema que
aparece a continuación se refiere a la descripción de los factores en función de las
variables observadas.
Aquí vamos a utilizar métodos de regresión convencionales para obtener una
representación o medida de los factores en las variables. Para ello supondremos que
cada factor se puede expresar como la regresión de dicho factor respecto de las variables
observadas. Es decir que el factor actúa como variable pronosticada o estimada y las
variables observadas como regresores o variables predictivas, por tanto tendremos:
Teniendo en cuenta:
donde los coeficientes de los parámetros de regresión son los coeficientes de correlación
lineal obtenidos de la matriz de datos y las covarianzas son las cargas factoriales. La
resolución de este sistema permite obtener los parámetros del hiperplano de regresión
El grado de correlación entre las dos variables: fˆk y f k , viene dado por el
coeficiente de correlación múltiple, cuyo cuadrado es el coeficiente de determinación, y
se demuestra que vale:
Los métodos dados para obtención de los factores no siempre conduce a una
solución más clara y convincente para una interpretación científica de los factores,
procediéndose a obtener otra solución como “rotación” de la solución obtenida. Se trata
de obtener matrices factoriales “con significado” que cumplan unos requisitos que
llamamos de estructura simple (Thurstone, 1947):
4.1.- INTRODUCCIÓN
y1 y2 . . . yp
x1 n11 n12 ……. n1p n1.
x2 n21 n22 ……. n2p n2.
. … .
. … .
. … .
xq nq1 nq2 ……… nqp nq.
n.1 n.2 …….. n.p N
X x1 x2 . . . xq
n. n.1 n.2 . . . n.q
Y y1 y2 . . . yp
n. n1. n2. . . . np.
X/y1 frecuencias
x1 n11/n.1
x2 n21/n.2
. .
. .
. .
xq nq1/n.q
para obtener esta distribución de frecuencias se puede emplear las frecuencias relativas,
ya que:
n11
n11 N = f 11 ,
= etc.
n⋅1 n⋅1 f ⋅1
N
pesos
y1 y2 . . . yp fila
x1 f11 f12 . . . f1p f1.
x2 f21 f22 . . . f2p f2.
. ……………….. .
. ……………….. .
. ………………. .
xq fq1 fq2 . . . fqp fq.
pesos f.1 f.2 . . . f.p 1
columna
donde hemos incluido las distribuciones marginales. Estos valores se les da el nombre
de pesos fila, {f1.,…,fq.}, para los valores marginales por fila, y pesos columna,
{f.1,…,f.p}, para los valores marginales por columna. Evidentemente la suma de los
pesos fila o pesos columna valen 1.
Para seguir el proceso numérico es preciso introducir una distancia entre filas o
entre columnas. Vamos a referirnos en lo que sigue a las filas, pero teniendo en cuenta
que ambas ideas son intercambiables.
y1 y2 . . . yp Σ
Y/x1 f11/f1. f12/f1. … f1p/f1. 1
Y/x2 f21/f2. f22/f2. … f2p/f2. 1
. …… .
. …… .
. …… .
Y/xq fq1/fq. fq2/fq. … fqp/fq. 1
2
p
2
p
1 f ik f jk f ik f jk
d 2 (i, j ) = ∑ − = ∑ −
f •k f f
k =1 i• f j • k =1
i• f •k f j• f •k
esta distancia que algunos denominan ji-cuadrado, por motivos que veremos más
adelante, presenta algunas propiedades fundamentales que nos permite realizar ciertas
transformaciones con la matriz de datos.
f ik f jk f ik f jk
− = − f •k − + f •k =
f i• f •k f j• f •k f i• f •k f j• f •k
f ik f i• f •k f jk f j• f •k f ik − f i• f • k f jk − f j • f •k
= − − + = −
f i• f •k f i• f •k f j• f •k f j• f •k f i• f •k f j• f •k
f ik
y ik =
f i• f •k
f ik − f i• f •k f ik
z ik = = − f •k = y ik − f •k , k = 1,2,..., p
f i• f •k f i• f •k
resulta:
p p
d 2 (i, j ) = ∑ ( y ik − y jk ) 2 = ∑ ( z ik − z jk ) 2
k =1 k =1
la distancia entre perfiles fila tal como se ha definido al inicio entre los puntos de Rp es
una distancia euclidea en Rp.
f i1 j + f i2 j = f i0 j
no quedando afectados los pesos fila y dejando invariante la distancia. De este modo la
agregación de categorías muy próximas tendrá poca influencia sobre el resultado final.
vamos a calcular el cdg, Y G = ( y1G , " , y Gp ) , de esta nube de puntos ponderando con los
pesos columna.
y kG = f 1• y1k + f 2• y 2 k + " + f q• y qk =
1
(f 1k + f 2 k + " + f qk ) = f •k
f •k
por tanto:
Y G = ( f •1 , f • 2 , " , f • p )
en consecuencia cuando la nube de puntos se expresa a través de las variables Zk, resulta
una nube de puntos centrada en el origen.
Finalmente de:
f ij
y ij =
f i• f• j
se sigue que:
p p
f ik
∑ yik
i =1
f k• = ∑
i =1 f i•
=1
f •1 Y1 + f •2 Y2 + " + f• p Yp = 1
Por tanto es natural efectuar un cambio de variable de manera que las nuevas
queden centradas en el c.d.g., tomando como nuevo origen:
f ik f i• f •k f ij − f i• f •k
z ik = y ik − f k• = − =
f i• f •k f i• f •k f i• f •k
estas son las variables centradas, que dejan invariante la distancia definida
anteriormente.
X = ( f ij )i , j
f 1• 0 " 0
0 f 2• " 0
D pf =
# # " #
0 0 " f q •
Es importante conocer que categorías son las que más contribuyen a cada factor,
es decir que peso tiene cada categoría en la definición de cada uno de los ejes. Este peso
se denomina contribución absoluta y dicho valor representa porcentualmente la
importancia que tiene cada categoría en la definición de cada eje. La contribución
absoluta viene dada por:
f i•ϕ i2α
Ca (i, α ) =
λα
Tras analizar los ejes sobre la base de las categorías absolutas, también
resulta importante calcular las contribuciones relativas de cada eje sobre cada
categoría. Este es un índice que nos indica hasta que punto cada eje representa a
cada una de las categorías. La suma de las distintas contribuciones relativas de cada
eje sobre una categoría debe ser 1, y su cálculo viene dado por el cociente entre el
cuadrado de la coordenada de la categoría i sobre el eje α y la suma de cuadrados de
las coordenadas de la categoría i.