0 SPSS - Introduccion Análisis Multivariante

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante
CAPÍTULO 1.- INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE
1.1.- Utilidad del análisis estadístico multivariante. 1.2.- Objetivos y

clasificación de los diferentes métodos. 1.3.- Individuos y variables. 1.4.- Matrices de
datos. 1.5.- La matriz de covarianza y de correlaciones. 1.6.- Transformación lineal de
variables. 1.7.- Centro de gravedad e inercia de una nube de puntos. 1.8.-
Representaciones gráficas y proyecciones. 1.9.- Multiregresión y multicorrelación.
1.10.- Programas informáticos de análisis multivariante. 1.11.- Ejemplos. 1.12.-
Aplicaciones
1.1.- UTILIDAD DEL ANÁLISIS ESTADÍSTICO MULTIVARIANTE
La utilidad del análisis estadístico multivariante (Análisis de Datos

Multivariantes) en la investigación biológica se ha puesto de gran interés, pues los
diversos objetivos de los diferentes campos biológicos quedan bastantes cubiertos
por las técnicas multivariantes. Por este motivo la mejor manera de poner de
manifiesto la necesidad de esta metodología es precisamente mencionando
problemas y casos concretos, ya sean extraídos de revistas científicas como de
trabajos realizados por los estudiantes.
En el campo de la biología se pueden formular muchas preguntas sobre

determinados fenómenos que se producen en un contexto de complejidad, pues en
general dispondremos de muchos individuos sobre los que se miden muchos valores.
Pero estas preguntas tienen en común que su respuesta ha de basarse en el análisis
conjunto de muchas variables, es decir en el contexto del análisis estadístico
multivariante.
El Análisis Multivariante (Multivariate Analysis) ofrece un conjunto de

métodos apropiados para resolver problemas que se presentan en situaciones
complejas, tal como hemos indicado anteriormente, pero no son métodos exclusivos
de las ciencias biológicas, biomédicas o biométricas, aunque su utilidad en estos
ámbitos es muy grande. Tiene gran incidencia en el campo de las Ciencias Sociales
y del Comportamiento, así como en el campo Económico, Comercial e Industrial. Se
trata por tanto de una metodología de uso general.
1.2.- OBJETIVOS Y CLASIFICACIÓN DE LOS DIFERENTES MÉTODOS
El Análisis Multivariante es «la rama de la estadística que estudia las

relaciones entre conjuntos de variables dependientes y los individuos para los cuales
se han medido dichas variables» (Kendall). Sus métodos analizan conjuntamente p
variables, medidas sobre un conjunto de n individuos u objetos. Una primera
diferenciación entre los distintos métodos se basa en los objetivos que persiguen.
Genéricamente, distinguimos cuatro posibles objetivos:
a) Simplificación estructural: se trata de describir la información original de

forma sintética o resumida. Se busca la simplicidad a base de conseguir una
reducción de la complejidad del problema. El método consiste en condensar las p
Angel Igelmo Ganzo 1

variables originales en un número menor de nuevas variables creadas por el propio

análisis, que contienen sin embargo gran parte de la información original. A este
tipo de objetivo, y de método, se denomina reducción de la dimensión ya que los
datos originales se expresan en un espacio de dimensión p mientras que como
resultado del análisis podemos expresarles en otro espacio de menor dimensión. Las
nuevas variables creadas por el análisis se denominan ejes, factores, o componentes
principales. Son variables sintéticas, que estarán en función de las p variables
originales. Generalmente, estos factores tienen una interpretación o significado que
el investigador debe descubrir.. El Análisis de Componentes Principales (ACP), el
Análisis Factorial (AF), y el Análisis de Correspondencias (AC) son métodos de
reducción de la dimensión.
b) b) Clasificación o agrupación: estos métodos incluyen los de agrupamiento

(Análisis Cluster) y los de Segmentación. La agrupación de individuos consiste en
formar grupos de individuos homogéneos en cuanto a las p variables, y heterogéneos
respecto a los otros grupos. La agrupación de variables busca la formación de
grupos de variables similares en cuanto a su comportamiento en un colectivo de
objetos.
c) Análisis de interdependencia: se trata de buscar la interdependencia entre

grupos de variables, sin que a priori se suponga relación de causalidad entre ellas.
El método más conocido es el Análisis de Correspondencias, que es una
generalización del Análisis de Correspondencias Bivariante.
d) Análisis de dependencia: explica las relaciones entre grupos de variables,

donde se supone que unas pueden ser causas de otras. El Análisis de Regresión
pertenece a este grupo de métodos.
Un tipo interesante de análisis de dependencia consiste en buscar un criterio
que permita separar o discriminar entre objetos pertenecientes a priora a grupos
diferentes. Dicho criterio es una función de las variables originales. En último
término, se trata de usar los resultados en el futuro para predecir a qué grupo
pertenecen nuevos objetos que no formaban parte de la información original y para
los cuales se han medido las p variables. El Análisis Discriminante y la Regresión
Logística son métodos que persiguen este objetivo.
1.3.- INDIVIDUOS Y VARIABLES
¿Quiénes son los individuos y cómo se miden las variables? Debemos

entender la palabra individuos en sentido amplio. Los n objetos o individuos pueden
ser personas o familias (por ejemplo, si trabajamos con datos recogidos a través de
una encuesta de salud realizada a n personas). Sin embargo, el concepto de
individuo u objeto es más amplio. Pueden ser zonas geográficas (comarcas, regiones,
países); objetos (marcas comerciales en un estudio de marketing farmacéutico,
programas electorales enfermedades,...) organizaciones (hospitales, centros de
salud,...), plantas, animales, etc. Por otra parte, estos n objetos o individuos cuyos
datos analizamos pueden constituir todo el colectivo o población de interés, o bien
pueden ser una muestra representativa de dicha población. Si se trata de una
muestra aleatoria, el análisis multivariante permite realizar inferencia, es decir, hacer
afirmaciones sobre las características del todo (población) tras analizar la parte
(muestra). Aunque nosotros nos limitaremos fundamentalmente al caso descriptivo,

ya que la inferencia implicaría unos desarrollos matemáticos previos que no entran

dentro del alcance de este texto.
Generalmente, los datos son estáticos, en el sentido de que son mediciones

realizadas en un momento o periodo dado de tiempo. Sin embargo, el Análisis
Multivariante se puede aplicar también para analizar la evolución temporal del
fenómeno en estudio. En este caso, los n individuos son n momentos de tiempo. A
veces, se emplean métodos multivariantes para comparar una determinada situación
en dos momentos de tiempo.
Hasta ahora hemos llamado genéricamente «variables» a los datos que

tenemos sobre nuestros n individuos, expresados numéricamente. Sin embargo, la
información intrínseca de esos datos depende de su escala de medida. Las p
variables pueden venir medidas a escala nominal, ordinal, intervalo o ratio. Las
dos primeras se emplean para datos de tipo cualitativo, mientras que las dos últimas
son adecuadas para datos cuantitativos. Esta clasificación ya es conocida pero se
insiste en ella, pues tener una buena clasificación de variables facilita la
comprensión de los problemas.
La escala nominal expresa caracteres cualitativos no ordenados. Todos los

datos de presencia/ausencia de una característica son nominales. Los números con
que codificamos las diferentes modalidades son arbitrarios, utilizándose únicamente
como etiquetas o nombres (de ahí que se hable de escala «nominal»), y no tiene
sentido efectuar ninguna operación algebraica con ellos.
La escala ordinal expresa también caracteres cualitativos, pero las

modalidades presentan un orden natural. Los números con que codificamos esas
modalidades son arbitrarios, pero respetan ese orden, de forma que podemos hacer
comparaciones de tipo «mayor que», «igual a», o «menor que».
La escala intervalo expresa datos cuantitativos que se pueden sumar y restar

pero no multiplicar ni dividir, ya que su origen o nivel cero es arbitrario. La
temperatura es un buen ejemplo de variable medida a nivel intervalo. Como la
definición de «cero grados» de temperatura es arbitraria, si hoy estamos a 20 grados
centígrados y ayer estábamos a 10 grados, podemos afirmar que la temperatura de
hoy es superior a la de ayer en 10 grados, pero no que hoy estemos al «doble» de
temperatura. La prueba es que en la escala Fahrenheit hay 18 grados de diferencia
entre ayer y hoy, y la relación es de 1,36 a 1.
La escala ratio traduce medidas cuantitativas que poseen un punto cero u

origen no arbitrario. Permiten hacer todo tipo de operaciones algebraicas,
incluyendo productos y cocientes
La elección del método multivariante a aplicar y la definición de distancia

para medir el grado de similitud (o disimilitud) entre objetos y entre variables
depende fuertemente de la escala de medida. Unos métodos son más exigentes que
otros, en el sentido de que, por ejemplo, sólo tienen validez si se aplican a datos
cuantitativos. Por lo tanto, la elección del método de análisis más adecuado no debe
basarse solamente en los objetivos del estudio, sino también en el tipo de
información de que se dispone.

1.4.- MATRICES DE DATOS
Las técnicas estadísticas utilizan datos de conjuntos de varias variables

medidas en múltiples individuos y estos datos se escriben en forma de tabla o
matriz, siendo procesados por medio de programas estadísticos de ordenador
leyendo dicha matriz y operando con ella. Sería impensable el desarrollo del
Análisis Multivariante sin la ayuda de la Informática, pues dichos métodos procesan,
en general, gran cantidad de datos. Los métodos multivariantes no sólo se
diferencian según los objetivos que persiguen, sino también según los datos que
pueden procesar, es decir, según el tipo de matriz de datos de entrada. Generalmente
nos encontramos con los siguientes tipos de matrices:
1) Matriz n x p de individuos por variables, cuyas filas (individuos)

pertenecen a un solo grupo. Cada fila de la tabla representa a un individuo,
proporcionando sus datos, y cada columna corresponde a una variable. El elemento
xij de esta tabla, que ocupa la fila i y la columna j, es el valor de la variable j para el
individuo i.
2) Matriz n x p de individuos por variables., cuyos individuos pertenecen a

dos o más grupos definidos por el “valor” o atributo de una variable cualitativa. Esta
tabla es similar a la anterior, pero una de la p variables define grupos diferenciados
de individuos. Por ejemplo cuando consideramos mediciones sobre un grupo
humano y deseamos distinguir por el sexo.
3) Matriz n x n de distancias entre individuos. Su elemento xij representa el

grado de diferenciación o de parecido, según el caso, entre el individuo i y el
individuo j. Se trata de una matriz cuadrada y simétrica, ya que la distancia entre i y
j es la misma que entre j e i. La matriz de distancias contiene ceros en su diagonal
principal (xii : distancia entre el individuo i y él mismo).
Cuando trabajamos con una matriz de similaridades, en la diagonal principal
escribimos unos para representar el índice de máxima similaridad.
A veces el investigador escribe una tabla de individuos por variables y define

una distancia entre individuos que tenga en cuenta todas sus variables, de forma que
el programa como paso previo del análisis calcula la matriz de distancias a partir de
la tabla dada.
4) Tabla de frecuencias o de contingencia. La tabla de frecuencias simple

contiene las frecuencias absolutas conjuntas de cada una de las modalidades o
categorías de las dos variables categóricas o cualitativas.
¿Cómo se crea la matriz de datos? Una vez que el investigador ha

conseguido definir claramente el problema, establecer objetivos y concretar qué
variables puede ser relevantes y cómo seleccionar los casos o individuos que se
analizarán, el primer paso del trabajo consiste en recoger la información. Esta puede
obtenerse de fuentes existentes, o bien necesitar un experimento diseñado
específicamente para el estudio. En cualquier caso, en el momento de empezar la
recogida de información se deben haber concretado ya los objetivos del trabajo y los
métodos estadísticos a utilizar, si bien muchas veces los resultados de la aplicación

de un método sugieren al investigador ideas sobre la aplicación de otros

complementarios que aporten más luz al tema.
En la mayor parte de los trabajos aplicados, la tabla de datos será del tipo
individuos por variables. Cada fila contiene los datos de un individuo, y cada
columna los de una variable. Si el método requiere otro tipo de matriz de datos,
normalmente el propio programa informática la calcula a partir de la de individuos
por variables, como paso previo del análisis.
Las variables nominales y ordinales han de codificarse previamente. Por

ejemplo, escribir un 1 para el caso de “presencia”, y un 0 en caso contrario,
“ausencia”. Son estos números o códigos los que se introducen en la tabla de datos.
Escribir la tabla de datos en el ordenador es tarea fácil. Puede emplearse

cualquier editor de textos con el que el usuario esté familiarizado, aunque es
recomendable utilizar una hoja de cálculo. Los datos se graban en fichero que el
programa estadístico leerá y procesará.
En general para una tabla de datos de variables numéricas tendremos:
X X1 X2 ... Xj . . . Xp
1 x11 x12 ... x1j . . . x1p
2 x21 x22 ... x2j . . . x2p
. . . ... . ... .
. . . ... . ... .
. . . ... . ... .
i xi1 xi2 ... xij . . . xip
. .
. .
. .
n xn1 xn2 . . . xni . . . xnp
pero esto es simplemente una matriz, en sentido matemático, sobre el cuerpo de los
números reales suponiendo que las variables son de tipo continuo, medidas en la
escala ratio. Matricialmente se representa por una matriz de n filas (n individuos) y p
columnas (p variables).
 x11 x12 " x1 p 

 
 x 21 x 22 " x2 p 
X =
. . " . 
 
x xn 2 " x np 
 n1
También es útil referirse a la variable estadística p-dimensional:
X = (X 1 , X 2 , " , X p )
donde Xi es el observable i-ésimo, y el conjunto de valores que toma cada observable

están dados en la correspondiente columna de la tabla. Por ejemplo:

X i = {x1i , x 2 i , " , x ni } i = 1,2,…,p
Es evidente que tal como estamos planteando el problema nuestros conjuntos

de datos serán discretos y finitos aunque puedan provenir de variables continuas.
Una buena práctica consiste en analizar cada variable por separado, mediante
la metodología del Análisis Exploratorio de Datos (EDA), haciendo el
correspondiente análisis unidimensional, calculando los estadísticos que se crean
convenientes para un mejor conocimiento de cada variable, así como proceder al
cálculo de covarianzas entre pares de variables, haciendo incluso análisis de
correlación entre ellas y representaciones gráficas. Todo ello con el objetivo de tener
un mayor conocimiento estadístico de cada variable por separado
1.5.- LA MATRIZ DE COVARIANZAS Y DE CORRELACIONES
A partir de la matriz de datos, X, se calcula la matriz de varianzas-

covarianzas, V, así como la matriz de correlaciones.
La media para cada variable se obtiene promediando por columnas la matriz de

datos:
1 n
Xi = ∑ xki
n k =1
de donde definimos la matriz fila, (1xp), de medias:
X = (X1, X 2 , " , X p )
e introduciendo la matriz columna (nx1):

1
 
1 = #
1
 
se puede escribir la relación matricial:
1
X = 1t X
n
donde el supraíndice t significa traspuesta
Ahora se puede centrar la matriz de datos, restando a cada columna su valor

medio:
1 1
X c = X − 1X = X − (1.1t . X ) = ( I − .1.1t ) X = H . X
n n
siendo H la matriz centradora de datos, I la matriz unidad nxn y Xc la matriz de datos

centrada.
La matriz centradora es:

 1 1 1 
1 − − " − 
 n n n 
 − 1 1− 1 " − 1 
H = n n n 
 " " " " 
 1 1 1
− − " 1− 
 n n n
esta matriz es evidentemente simétrica, y fácilmente se comprueba que es idempotente

(H2 = H).
Para calcular varianzas y covarianzas hay que efectuar sumas de productos

cruzados, de acuerdo con las fórmulas:
1 n 1 n 2
si2 = var( X i ) = ∑
n k =1
( x ki − X i ) 2
= ∑
n k =1
x ki − X i2
1 n 1 n
sij = cov( X i , X j ) = ∑ ki i kj j n ∑
n k =1
( x − X )( x − X ) =
k =1
x ki x kj − X i X j
donde los primeros sumandos se pueden escribir en forma matricial:
1 t
Q= X X
n
mientras que los sustraendos se escriben: X t X ; por tanto la matriz de

varianzas/covarianzas es:
1
V =Q− XtX = XtX − XtX
n
Si empleamos la matriz de datos centrada, entonces:
1 t 1 1 1
V= X c X c = ( HX ) t ( HX ) = X t ( H t H ) X = X t HX
n n n n
evidentemente la matriz V es simétrica ya que Vt = V:
 s11 s12 " s1 p 

 
 s 21 s 22 " s2 p 
V =
" " " "
 
s 1 s p2 " s pp 
 p
con sii = s i2 y s ij = s ji , i, j = 1, " , p
Tenemos por tanto la siguiente fórmula de cálculo:

1 t
V= X HX
n
Si se necesitan las cuasivarianzas y cuasicovarianzas basta aplicar:
~ n
V = V
n −1
Finalmente se calcula la matriz de correlaciones, R, teniendo en cuenta:
s ij ~sij
rij = = ~~
s i s j si s j
y haciendo:
 s1 0 " 0 
 
 0 s2 " 0 
Ds = diag ( s1 , s 2 , " , s p ) = 
" " " "
 
0 0 0 s 
 p 
se puede escribir:
 r11 r12 " r1 p 

 
 r21 r22 " r2 p 
R = Ds−1VDs−1 =
" " " "
 
r 1 r 2 " rpp 
 p p
siendo: rii = 1 y rij = r ji , se trata pues de una matriz simétrica con los elementos de la
diagonal iguales a 1.
A partir de estas matrices se definen los escalares:
det V que representa la varianza generalizada

traza V que representa la variación o dispersión total
det R que es una medida de la interdependencia de las variables.
1.6.- TRANSFORMACIÓN LINEAL DE VARIABLES
Una situación habitual dentro del análisis multivariante es la de la

transformación lineal de variables para simplificar la representación de la nube de
puntos.
Se trata pues de la transformación de las variables originales:
X = ( X 1 , X 2 ,", X p )
en otras:

Y = (Y1 , Y2 , " , Y p )
mediante transformaciones lineales:
Y j = t1 j X 1 + t 2 j X 2 + " + t pj X p , j = 1,2, ", p
o sea que cada individuo, el k-ésimo por ejemplo, se transformaría así:
y kj = t1 j x k 1 + t 2 j x k 2 + " + t pj x kp , j = 1,2," , p
y en forma matricial se obtendría:
Y = XT
siendo X la matriz de datos originales e Y la matriz de datos transformados, y donde las

columnas de T son los coeficientes de la transformación.
Fácilmente se comprueba que la matriz fila de medias y la matriz de varianzas se

transforman de la siguiente manera:
Y = XT
VY = T tVT
Un caso importante es el de la tipificación de variables mediante la

transformación:
Xj −Xj
Zj = , j = 1, " , p
sj
o bien:
x kj − X j
z kj = , j = 1, " , p y k = 1, ", n
sj
ya sabemos que estas variables cumplen:
Z j = 0 , var(Z j ) = 1 , j = 1, " , p
En forma matricial sería:

Z = X c .Ds−1
siendo Xc la matriz de datos centrada.
Ahora la matriz de correlaciones, R, viene dada por:
1 t
R= Z Z
n

1.7.- CENTRO DE GRAVEDAD E INERCIA DE LA NUBE DE PUNTOS
Las p mediciones asociadas a cada individuo las consideramos como las

coordenadas del individuo en el espacio Rp. Las coordenadas del individuo i-ésimo
serán:
Ai = ( xi1 , xi 2 , " , xip ) , i = 1,2, ! , n
obteniéndose en el espacio Rp la imagen de una nube de n puntos.
Las coordenadas del centro de gravedad de la nube de puntos viene dado por:
1 n
gj = ∑ xkj = X j ,
n k =1
j=1,...,p
por tanto el cdg, G, es el centro de las medias: G = X .
Si se emplea la matriz de datos centrada el cdg es el (0,…,0).
En Rp , considerado como espacio vectorial, los vectores son de la forma:
OAi = ( xi1 , xi 2 , " , xip )
definiéndose el módulo del vector:
OA i = xi21 + xi22 + " + xip2
el producto escalar de dos vectores:

G G
OAi , OA j = xi1 x j1 + xi 2 x j 2 + " + xip x jp
y el ángulo que forman α:

G G
OAi , OA j
cos α = G G
OAi . OA j
La distancia euclidea, entre dos individuos, deducida de la norma anterior, es:
d ( Ai , A j ) = ( xi1 − x j1 ) 2 + " + ( xip − x jp ) 2
que como sabemos esta distancia (euclidea) verifica las propiedades:
i) d(Ai,Aj)=0 si y solo si Ai=Aj.

ii) d(Ai,Aj)=d(Aj,Ai), (propiedad simétrica)
iii) d(Ai,Aj)≤d(Ai,Ak)+d(Ak,Aj), (propiedad triangular)

Ahora estamos en condiciones de definir la inercia de una nube de puntos. La

inercia es el promedio de distancias al cuadrado de cada individuo respecto del cdg:
1 n 2
I= ∑ d ( Ai , X )
n i =1
Una nube de puntos muy dispersa tendrá una inercia grande, mientras que una nube de
puntos muy concentrada, alrededor de su cdg, tendrá una inercia pequeña.
Teniendo en cuenta la definición de distancia euclidea, podemos escribir:
1 n p p
1 n 2
p
I= ∑∑ ik k ∑
n i =1 k =1
( x − X ) 2
= 
k =1  n
∑
i =1
( x ik − X k )  = ∑
 k =1
s k2 = traza V
es decir que la inercia de la nube de puntos es la traza de V.
Si se emplea la matriz de datos tipificados, resulta:
I Z = traza R = p
1.8.- REPRESENTACIONES GRÁFICAS Y PROYECCIONES
Otro aspecto que debemos considerar es la proyección de los puntos de la nube

sobre una dirección definida por un vector unitario u:
 u1 
 
u =  #  , u t = (u1 , ", u p )
u 
 p
Si consideramos el individuo Ai, representado por el vector:

G
OAi = ( xi1 , xi 2 , " , xip )
la proyección de dicho vector sobre la dirección definida por el vector unitario vale:
 u1 
G G G  
proy u OAi = OA, u = OAi cos α = xi1u1 + xi 2 u 2 + " + xip u p = ( xi1 , " , xip ) # 
u 
 p
por tanto la proyección de cada punto sobre la dirección u se puede escribir
matricialmente:
Xu
También interesa considerar la suma de cuadrados de las proyecciones, valor que

intervendrá posteriormente, ponderados con 1/n:

1 1
( Xu ) t ( Xu ) = u t ( X t X )u
n n
En particular si partimos de la matriz de datos centrada, sería:
1
u t ( X ct X c )u = u tVu
n
y si partimos de la matriz de datos tipificados:
u t Ru
en cualquiera de los casos la suma de cuadrados de las proyecciones de los puntos sobre
la dirección u se expresa como una forma cuadrática de las componentes del vector u.
1.9.- MULTIREGRESIÓN Y MULTICORRELACIÓN
Partimos de una tabla de datos de individuos por variables, suponiendo que todas
las variables X1, X2,…, Xp son cuantitativas, y n es el número de individuos.
Supongamos que deseamos pronosticar el valor de la variable X1 a partir del

valor de las restantes: X2,…,Xp mediante una función g(X2,…,Xp) determinada de alguna
manera. Si representamos los valores pronosticados por X1’ será X1’=g(X2,…,Xp).
Un caso importante es cuando el funcional g es de la forma:
X1’ = b11 + b12X2 + … + b1pXp
es decir se trata de un hiperplano de Rp, y es un caso de regresión lineal. La variable

teórica o variable pronosticada o variable de regresión es la X’1, mientras que X2,…,Xp
son las variables predictivas o regresores.
Si las mediciones de las variables sobre los individuos viene dada por la tabla:
X1 X2 . . . Xk . . . Xp X1’ e1
1 x11 x12 . . . x1k . . . x1p x’11 x11 - x’11
2 x21 x22 . . . x2k . . . x2p x’21 x21- x’21
. . . ... . ... . . .
. . . ... . ... . . .
. . . ... . ... . . .
n xn1 xn2 . . . . . . . xnp x’n1 xn1 - x’n1
donde la columna de los valores X1’ son los valores pronosticados mediante el funcional
anterior y la columna de los e1 son los errores como diferencia entre el valor teórico
pronosticado, X’1, y el valor real, X1.
Los valores pronosticados sobre cada individuo serán:
x’11 = b11 + b12x12 + . . . + b1px1p

x’21 = b11 + b12x22 + . . . + b1px1p
………………………………….
x’n1 = b11 + b12xn2 + . . . + b1px1p

donde los coeficientes del hiperplano se determinan con la condición de que la suma
cuadrática de los errores sea mínima:
n n n
SCE = Φ = ∑ ei21 = ∑ ( xi1 − xi′1 ) 2 = ∑ ( xi1 − b11 − b12 xi 2 − " − b1 p xip ) 2
i =1 i =1 i =1
derivando respecto de b11 se obtiene después de agrupar:
X 1 = b11 + b12 X 2 + " + b1 p X p
lo cual pone de manifiesto que el centroide o cdg, ( X 1 ," , X p ) , se halla en el

hiperplano de regresión. Despejando b11 de la anterior igualdad y sustituyendo en SCE,
se obtiene:
[ ]
n
Φ = ∑ ( xi1 − X 1 ) − b12 ( xi 2 − X 2 ) − " − b1 p ( xip − X p )
2
i =1
que es una forma cómoda de expresar la suma cuadrática de los errores.
Derivando respecto de cada parámetro desconocido: b12, …, b1p, e igualando a

cero, se obtiene el sistema:
s12 = b12 s 22 + " + b1 p s 2 p

s13 = b12 s 23 + " + b1 p s3 p
""
s1 p = b12 s 2 p + " + b1 p s pp
que puesto en forma matricial:
 s12   s 22 s 23 " s 2 p  b12 

    
 s13   s 23 s 33 " s 3 p  b13 
 # = # # " #  # 
    
 s1 p   s 2 p s3 p " s pp  b1 p 
  
Si consideramos la matriz de varianzas:
 s11 s12 " s1 p 

 
 s 21 s 22 " s2 p 
V = , sii = s i2 , sij = s ji , i, j = 1,2, ", p
# # " # 
 
s 1 s p2 " s pp 
 p
la matriz del sistema anterior es el adjunto V11 de V, y el término independiente es la

primera columna prescindiendo del primer elemento.

Si det V11 ≠ 0, entonces el sistema es compatible y determinado, suponiendo que

algún si1 ≠ 0, i ≠ 1, porque entonces el sistema no es homogéneo.
Resolviendo el sistema por Cramer se obtiene:
L1k
b1k = − , k = 2," , p
L11
siendo L11= (-1)1+1.det V11, L1k=(-1)1+k.det V1k, se trata pues de los cofactores. Estos
coeficientes, b1k, se denominan coeficientes de regresión parcial de X1 respecto de Xk e
indican o representan lo que cambia la variable de regresión, X’1 , por unidad de cambio
de la variable predictiva Xk.
La ecuación del hiperplano se escribe ahora:
X 1′ = X 1 −
1
L11
[
L12 ( X 2 − X 2 ) + " + L1 p ( X p − X p ) ]
o
L11 ( X 1′ − X 1 ) + L12 ( X 2 − X 2 ) + " + L1 p ( X p − X p ) = 0
e introduciendo las variables centradas:
X 1′ = X 1′ − X 1 , X k = X k − X k , k = 2, " , p
se obtiene:
L11 X 1′ + L12 X 2 + " + L1 p X p = 0
Para que existe plano de regresión debe ser L11≠0, suponiendo que el sistema es
no homogéneo. El sistema homogéneo corresponde al caso: s12=s13=…=s1p=0, lo que
significa que la variable X1 está incorrelacionada con las restantes. En este supuesto, si
L11≠0, entonces no hay solución. Si L11=0, entonces habría al menos una infinidad de
soluciones para los coeficientes del hiperplano, no habiendo por tanto solución única.
Por tanto podemos concluir que cuando la variable a pronosticar está incorrelacionada
con las restantes, aquella no puede explicarse o pronosticarse, a través de un hiperplano
de regresión, a partir de las restantes variables.
De forma general, si tomamos como variable de regresión una cualquiera: X’k,

correspondiente a los valores reales: Xk = {x1k, x2k, …, xnk} (columna k-ésima en la
tabla), y siendo las variables predictivas: X1,…,Xk-1,Xk+1,…,Xp, la ecuación del
hiperplano de regresión será:
Lk 1 ( X 1 − X 1 ) + " + Lkk ( X k′ − X k ) + " + Lkp ( X p − X p ) = 0
o con variables centradas:

Lk 1 X 1 + " + Lkk X k′ + " + Lkp X p = 0
donde los coeficientes es la fila k-ésima de la matriz de los cofactores de V:
 L11 L12 " L1 p 

 
 L21 L22 " L2 p 
 # # " # 
 
L 1 Lp2 " L pp 
 p
evidentemente existe hiperplano de regresión si Lkk ≠ 0 .
Los p hiperplanos de regresión serán:
L11 X 1′ + L12 X 2 + " + L1 p X p = 0

L21 X 1 + L22 X 2′ + " + L2 p X p = 0
""
L p1 X 1 + L p 2 X 2 + " + L pp X ′p = 0
Analizamos a continuación las covarianzas y varianzas de cada una de las

variables que intervienen, considerando la regresión de X1/X2,…,Xp.
La variable residual e1 esta incorrelacionada con las variables predictivas,

X2,…,Xp, y con la variable de regresión X’1, aunque no tiene porqué estarlo con la
variable real u observada X1.
Previamente veamos que la media de los residuales es cero, ya que fácilmente se

deduce que X 1′ = X 1 , y por tanto e1 = 0
En efecto, para k > 1 se tiene:
1 n 1 n
cov(e1 , X k ) = cov(e1 , X k ) = ∑ x ik ei1 = ∑ x ik ( x i1 − x i′1 ) =
n i =1 n i =1
1 n  L L1 p  L L1 p
= ∑ x ik  x i1 + 12 x i 2 + " +
n i =1 
x ip  = s1k + 12 s 2 k + " + s pk =
L11 L11  L11 L11
=
1
(s1k L11 + s2 k L12 + " + s pk L1 p ) = 1 .0 = 0
L11 L11
así pues la variable error y las variables predictivas están incorrelacionadas.
n
De: ∑e
i =1
x = 0, k = 2,3," , p , se deduce:
i1 ik

n
b1k ∑ ei1 x ik = 0
i =1
p n
∑ b1k ∑ ei1 xik = 0

k =2 i =1
n p
∑e ∑b
i =1
i1
k =2
1k x ik = 0
n
∑e
i =1
i1 i1x ′ = 0
por tanto:
cov(e1 , X 1′ ) = cov(e1 , X 1′ ) = 0
es decir que también la variable error y la variable de regresión están incorrelacionadas.
Por tanto, para la última propiedad se tiene:

1 n 1 n  L L1 p 
cov(e1 , X 1 ) = cov(e1 , X 1 ) = ∑ x i1 ( x i1 − x i′1 ) = ∑ x i1  x i1 + 12 x i 2 + " + x ip  =
n i =1 n i =1  L11 L11 
= s11 +
L12
s12 + " +
L1 p
s1 p =
1
(L11 s11 + L12 s12 + " + L1 p s1 p ) = 1 L ≠ 0
L11 L11 L11 L11
es decir que los errores y los valores observados de la variable a pronosticar presentan
correlación.
La covarianza de la variable de regresión y la variable real vale:
1 n 1 n
cov( X 1 , X 1′ ) = cov( X 1 , X 1′ ) = ∑ x i1 x i′1 = ∑ x i1 (b12 x i 2 + " + b1 p x ip ) =
n i =1 n i =1
= b12 s12 + " + b1 p s1 p
cada sumando representa la contribución de cada regresor a la covarianza entre la

variable real y la pronosticada.
Analicemos ahora la varianza de cada variable. Calculemos primero la varianza

de la variable error, que llamamos varianza residual:
1 n 2 1 n 1 n L R
s = ∑ ei1 = ∑ ei1 ( xi1 − xi1 ) = ∑ ei1 x i1 =
2
e1
′ = s11
n i =1 n i =1 n i =1 L11 R11
donde R y R11 tiene el mismo significado que L y L11 pero referidos a la matriz de
correlaciones, ya que:
L = s11 ⋅ ! ⋅ s pp R y L11 = s 22 ⋅ ! ⋅ s pp R11
Tener en cuenta que esta varianza residual es el error cuadrático medio:

1
ECM = SCE
n
además numéricamente se cumple:
s e21 = cov(e1 , X 1 )
Otra expresión útil para la varianza residual se obtiene:
1 n 1 n 1 n
s e21 = ∑
n i =1
ei1 x i1 = ∑ x i1 ( x i1 − x i′1 ) = s11 − ∑ x i1 x i′1
n i =1 n i =1
obsérvese que el sustraendo es la covarianza de la variable de regresión y la variable

real, resultando:
s e21 = s11 − (b12 s12 + " + b1 p s1 p )

y también:
s11 − s e21 = cov( X 1 , X 1′ )
Como que la variable residual y la variable regresión están incorrelacionadas, y
X 1 = X 1′ + e1
se tiene:
s X2 1 = s X2 1′ + s e21
resultando:
R11  R 
s X2 1′ = s X2 1 − s e21 = s11 − s11 = s11 1 − 11 
R  R 
que también se puede escribir:
s X2 1′ = b12 s12 + " + b1 p s1 p
lo que nos indica la aportación de cada regresor a la varianza de la regresión.
Ahora se pueden definir algunos coeficientes de correlación.
En primer lugar definimos el coeficiente de determinación como el cociente

entre la varianza de la variable de regresión y la correspondiente variable observada:
s X2 1′ s e21 R
D2 = 2
= 1− = 1−
s X1 s11 R11

de donde resultan las relaciones:
s X2 1′ = D 2 s11 y s e21 = s11 (1 − D 2 )
El coeficiente de determinación es el tanto por uno de la varianza real de la

variable observada explicada por la variable de regresión. Su raíz cuadrada, D, se
denomina coeficiente de correlación múltiple.
El coeficiente D es el coeficiente de correlación lineal de Pearson de X1 y X’1,

como fácilmente se comprueba aplicando la definición:
D = corr ( X 1 , X 1′ )
por tanto tendremos las mismas propiedades que cualquier coeficiente de correlación
lineal de Pearson. Representa la correlación entre la variable real y las demás o
regresores consideradas en conjunto a través del correspondiente hiperplano de
regresión.
1.10.- PROGRAMAS INFORMÁTICOS DE ANÁLISIS MULTIVARIANTE
Actualmente, existen programas de ordenador disponibles para aplicar los

distintos métodos de Análisis Multivariante, cuyo manejo es sencillo, y que permiten
el tratamiento de volúmenes de información relativamente grandes, incluso con
ordenadores personales. Consideramos que estos temas deben desarrollarse
“pegados al ordenador” de manera que el estudiante adquiera suficiente práctica en
el manejo de paquetes informáticos, ya que la materia sería realmente inabordable
(se quedaría a nivel teórico - estético) sin una herramienta capaz de procesar gran
cantidad de información.
Desde el punto de vista del alumno, futuro usuario profesional, lo más

importante y difícil consiste en saber recoger los datos y elegir el método apropiado
para el problema en cuestión. Sin embargo, el usuario también debe tomar algunas
decisiones, ya que los programas facilitan la posibilidad de elección entre opciones
alternativas. Por ejemplo, debe decidir qué método de estimación emplea, o qué
hace cuando le faltan algunos datos. Una vez obtenidos los resultados, el alumno
debe ser capaz de interpretarlos correctamente.
Es importante conocer los fundamentos estadísticos y matemáticos de las

técnicas empleadas para tomar correctamente aquellas decisiones, e interpretar los
resultados. Un error muy frecuente y grave es aplicar los programas de ordenador
de forma ciega, sin conocer, por ejemplo, la precisión con que trabajan, o la
representatividad de los resultados que obtienen. Sin embargo, no es preciso
profundizar en el fundamento matemático de las técnicas como un fin en sí mismo
para poder aplicarlas correctamente.
A lo largo del texto proponemos algunos ejemplos y casos prácticos que

desarrollamos empleando los programas SPSS y MINITAB para PC, indistintamente

1.11.- EJEMPLOS
Ejemplo 1.1.- Con los datos de la tabla:
X1 X2 X3
1 2 4
2 3 1
2 1 3
4 3 5
5 5 2
4 7 3
Determinar la matriz de covarianzas y correlaciones.

Determinar los planos de regresión en cada caso y calcular los coeficientes de
determinación.
Ejemplo 1.2.- Sean X1 y X2 dos variables estadísticas correlacionadas. Escribir la

matriz de covarianzas y de correlaciones. Plantear las rectas de regresión a la luz de
lo explicado en 1.9.
Ejemplo 1.3.- Como continuación del ejemplo anterior considerar una tercera
variable X3 incorrelacionada con las dos anteriores. Escribir las matrices de
varianzas y de correlaciones. Analizar los planos de regresión.
1.11.- APLICACIONES
CASO 1.- Análisis de absorción de plomo en hojas de plantas urbanas
La contaminación por plomo en las ciudades es debido a combustiones de

coches, calefacciones, etc. Una vez depositado el plomo en el suelo y en particular en
plantas, éstas actúan como un sensor biológico de contaminación urbana debida al
plomo.
Se recogieron 18 muestras de plantas de adelfa de zonas ajardinadas de una
ciudad y de midieron las siguientes variables:
Tráfico: número de vehículos día en la zona

Secado: peso de hojas secas sobre 100 gr de hoja fresca
Cenizas: peso de ceniza sobre 100 gr de hoja fresca
Pbceniza: mgr de plomo por gramo de ceniza
Pbfresca: mgr de plomo por gramo de hoja fresca
La matriz de datos fue la siguiente:

Muestra Tráfico Secado Ceniza Pb-Ceniza Pb-fresco

1 51406 38,9 18,8 0,82 0,06
2 31179 36,3 17,6 0,12 0,007
3 67080 34,2 16,6 0,17 0,0097
4 25320 32,42 18,3 0,19 0,0113
5 48542 29,5 14,7 0,49 0,0212
6 70987 30,9 16 0,32 0,0158
7 62614 35,3 16,8 0,28 0,0166
8 64312 30 15,7 0,5 0,0235
9 21200 33,2 12,7 0,24 0,0101
10 51684 37,5 12,2 0,24 0,0109
11 44021 33 23,4 0,51 0,0394
12 33861 37,5 15,5 0,24 0,014
13 33861 42,4 11,6 0,05 0,0025
14 5000 33,6 20,5 0,29 0,0199
15 27643 41,3 12,8 0,07 0,0037
16 20823 36 15,5 0,35 0,0195
17 61176 38,9 11,7 0,47 0,0214
18 50814 33,7 12,2 0,1 0,0041
CASO 2.- Evolución de la composición elemental del ser humano en diferentes

etapas de su ciclo vital.
Se trata de analizar los cambios que se producen en la proporción de agua y en la

composición elemental del ser humano durante diferentes etapas del ciclo vital: feto,
prematuro, neonato, adulto y anciano.
Las variables utilizadas son:
1. peso corporal en Kg
2. grasa en gr por Kg corporal
3. agua en gr por Kg corporal
4. agua en gr por Kg de masa corporal magra
5. N en gr/Kg de masa corporal magra
6. Na en meq/Kg “
7. K “ “
8. Cl “ “
9. Ca en gr/Kg “
10. Mg “ “
11. P “ “
12. Fe en mgr/Kg “
13. Ca “ “
14. Zn “ “
Los datos han sido obtenidos del investigador Widdowson (1955), resultando la
siguiente matriz de datos:

Peso Grasa Agua Water N Na K Cl Ca Mg P Fe Zn Cu

Feto 0,3 5 880 880 15 100 43 76 4,2 0,2 3 58 30 3
Prematuro 1,5 35 830 850 19 100 50 0 7 0,2 3,8 74 30 4
Neonato 3,5 160 690 820 23 82 53 55 9,6 0,3 5,6 94 20 5
Adulto 70 160 600 720 34 80 69 44 22,4 0,5 12 74 20 2
Anciano 65 150 500 670 34 76 75 37 15 0,4 8 68 20 2
CASO 3.- Análisis del “tamaño” de una muestra de individuos de una población de
Allium sativum.
Se analiza las relaciones existentes entre las dimensiones de un tipo de arbusto

(Allium sativum), utilizando las variables:
altura total del arbusto

diámetro máximo del tallo
longitud máxima de la hoja
anchura máxima de la hoja
número de hojas por planta
la observación ha recaído sobre una muestra de 16 individuos, obteniéndose la siguiente

matriz de datos:
Numero Altura Diámetro Longitud Ancho Numero

Arbusto Tronco Hoja Hoja Hojas
1 46 1,4 50 1,5 7
2 33 1,1 37 0,8 6
3 45 1,5 49 1,6 8
4 51 1,3 50 1,8 7
5 31 1 38 0,7 5
6 49 1,5 42 1,8 8
7 32 1,4 51 1,4 7
8 39 1,3 57 1,8 7
9 44 1,4 54 2 7
10 42 1,3 43 1,5 7
11 41 1,5 50 2 7
12 43 1,2 50 1,7 7
13 44 1,2 48 1,5 7
14 39 1,1 45 1,6 6
15 40 1,2 48 1,8 5
16 32 1 44 1,2 5

CAPÍTULO 2.- ANÁLISIS DE COMPONENTES PRINCIPALES
2.1.- Introducción. 2.2.- Planteamiento del problema. 2.3.- La inercia de las

componentes principales. 2.4.- Cálculo de las componentes principales. Propiedades.
2.5.- Criterios de reparto de la inercia total y reducción de la dimensión.- 2.6.-
Rotación de las componentes: rotación varimax y quartimax. 2.7.- Programas de
ordenador. 2.8.- Ejemplos. 2.9.- Aplicaciones.
2.1.- INTRODUCCIÓN
Con objeto de analizar la p-variables (correlacionadas) de la matriz de datos, se

realiza una transformación de las variables originales en un nuevo conjunto de variables
incorrelacionadas, mediante una rotación ortogonal en Rp, que llamamos componentes o
factores principales. Estas quedarán expresadas como combinación lineal de las
originales, y se expresan en orden decreciente de importancia en cuanto a explicar la
incidencia de cada componente principal en la descripción del problema.
El Análisis de Componentes Principales, ACP, (PCA en la literatura

angloamericana), tiene su origen en los trabajos de Karl Pearson a principio de siglo, así
como por Harold Hotelling, hacia 1930.
La técnica del ACP es adecuada cuando no se dispone de variables dependientes

que permitan explicar el problema mediante una regresión múltiple, es decir que
estamos ante una situación en que todas las variables, en principio, tienen la misma
importancia, o bien que dicha importancia está enmascarada y es necesario ponerla de
manifiesto.
El objetivo principal del análisis es averiguar cuantas variables, m, de entre las p,

(m < p), explican mejor la variabilidad de los datos representados por las variables
originales. Si ello es posible, podemos afirmar que la dimensionalidad del problema es
menor que p. Por ejemplo si alguna de las variables originales están fuertemente
correlacionadas con otras se pueden “agrupar” en una única variable (componente
principal) expresada como combinación lineal de aquellas, y de esta manera se reduce la
dimensión del problema.
Así pues, el ACP transforma un conjunto de variables correlacionadas en un

nuevo conjunto de variables incorrelacionadas, donde la importancia de estas
últimas vienen determinadas por la parte de varianza asociadas a ellas. La técnica
ACP no requiere el uso de modelos probabilísticos, siendo, para nuestro caso, una
técnica de tipo descriptivo.
Es conveniente realizar un análisis de componentes principales como estudio

previo del análisis factorial. El análisis factorial (AF) lo estudiamos en el capítulo
siguiente.

2.2.- PLANTEAMIENTO DEL PROBLEMA
Consideremos la nube de puntos en el espacio Rp de variables tipificadas. Se

trata de buscar direcciones u tales que Pi Ai sea lo más pequeño posible, Figura 2.1.
Figura 2.1
Como que OAi es constante cualquiera que sea la orientación del eje, será necesario
2 2 2
que OPi sea lo más grande posible, ya que OAi = OPi + Ai Pi . Para tener en cuenta
todos los puntos se toma la suma de los cuadrados de todos los puntos, es decir se
n
∑ OP
2
pretende buscar aquella dirección u que maximiza el valor i . Una dirección que
i =1
cumple esta condición se llama eje factorial o eje principal de inercia, y es tal que
proyectando la nube de puntos sobre él, estos se hallan muy separados o muy
discriminados.
Pero según vimos en el capítulo 1, apartado 1.8, para una matriz de datos
tipificados, la suma de cuadrados de las proyecciones vale:
u t Ru , siendo u = 1 o u t u = 1
que es una forma cuadrática respecto de las componentes de u = (u1,u2,…,up).
El máximo de esta función se determina por el método de los multiplicadores de

Lagrange:
G
ϕ (u ) = ϕ (u1 , u 2 ,", u p ) = u t Ru − λ (u t u − 1) =
= u12 + u 22 + " + u 2p + 2r12 u1u 2 + " 2r1 p u1u p + " + 2rp −1, p u p −1u p − λ (u12 + " + u 2p − 1)
derivando ϕ respecto de u1, e igualando a cero, se obtiene:
∂ϕ
= 2u1 + 2r12 u 2 + " + 2r1 p u p − 2λu1 = 0
∂u1
(1 − λ )u1 + r12 u 2 + " + r1 p u p = 0

realizando el mismo proceso respecto de u2,…,up se obtiene el sistema de ecuaciones

lineales:
(1 − λ )u1 + r12 u 2 + " + r1 p u p = 0
r12 u1 + (1 − λ )u 2 + " + r1 p u p = 0
"""
r1 p u1 + r2 p u 2 + " + (1 − λ )u p = 0
la condición de compatibilidad del sistema es que el determinante del sistema sea

nulo:
1 − λ r12 " r1 p 
 
 r12 1 − λ " r2 p 
det =0
" " " "
 
 r1 r2 p " r pp 
 p
o bien:
det(R-λI)=0
siendo I la matriz identidad y R la matriz de correlaciones. Pero la ecuación anterior es

la ecuación característica de la matriz R, por tanto los valores de λ para los que existen
direcciones principales son los valores propios de R, y dichas direcciones principales
son las dadas por los correspondientes vectores propios.
Si algún valor propio, λi, es raíz múltiple de la ecuación característica, entonces

dim Nuc(A-λi) > 1, habiendo arbitrariedad en la elección de la base de Nuc (A-λiI), pero
siempre pueden elegirse de manera que sean ortonormales. Estos factores explican
evidentemente la misma inercia, dada por su valor propio.
Si algún valor propio fuese cero, entonces el factor correspondiente no presenta

variabilidad, no aporta inercia a la inercia total de la nube de puntos o no explica
ninguna parte de la inercia total, pudiendo prescindirse de dicho factor.
Hay que tener en cuenta que la matriz de correlaciones R es siempre

diagonalizable por ser una matriz simétrica.
2.3.- LA INERCIA DE LAS COMPONENTES PRINCIPALES
El problema consiste por tanto en diagonalizar la matriz de correlaciones R. Sean

pues λ1, λ2,…, λp los valores propios. Como que la traza de R es invariante, se tiene:
p
trazaR = Inercia = p = ∑ λi
i =1
por tanto cada factor colabora a la inercia total en una cantidad igual a su valor propio.
Cada valor propio es la inercia de cada factor, siendo, en porcentaje, la inercia

explicada por el factor uk:

λk
100
p
mientras que la inercia explicada por los m (< p) primeros factores sería:
∑λ
i =1
i
100
p
Evidentemente el factor de mayor valor propio será el que explique mayor

inercia, y así sucesivamente. Por ese motivo es conveniente obtener los valores propios
ordenados de mayor a menor:
λ1 ≥ λ2 ≥ … ≥ λp
e incluso se puede dar una representación gráfica de su magnitud de forma

individualizada, Figura 2.2, o de forma acumulada, Figura 2.3.
Figura 2.2

Figura 2.3
2.4.- CALCULO DE LOS FACTORES PRINCIPALES. PROPIEDADES
Tal como venimos diciendo el problema consiste en diagonalizar la matriz R, a

partir de lo cual obtendremos los vectores propios de R y sus correspondientes valores
propios:
Ru = λu
siendo u el vector propio asociado al valor propio λ.
Sea T la matriz cuyas columnas son las componentes de los vectores propios en
la base inicial o matriz del cambio de base, y supongamos que la hemos elegido
ortogonal, es decir: T-1 = Tt, y sea Λ la matriz diagonal de valores propios, entonces:
Λ = T t RT
Si los vectores propios son:
u1 = (t11 , t 21 , " , t p1 )
u 2 = (t12 , t 22 ," , t p 2 )
"
u p = (t1 p , t 2 p , " , t pp )
entonces la matriz del cambio de base es:

 t11 t12 " t1 p 

 
 t 21 t 22 " t2 p 
T =
# # " # 
 
t 1 t p2 " t pp 
 p
En la base original, (e1,…,ep), el individuo i-ésimo se expresa:
OAi = ( z i1 , z i 2 , " , z ip ) = z i1e1 + z i 2 e2 + " + z ip e p
mientras que en las nuevas componentes será:
OAi = ( y i1 , y i 2 , " , y ip ) = y i1u1 + y i 2 u 2 + " + y ip u p =

= y i1 (t11 e1 + " + t p1e p ) + " + yip (t1 p e1 + " + t pp e p ) =
= ( y i1t11 + " + y ip t1 p )e1 + " + ( y i1t p1 + " + y ip t pp )e p
por tanto:
z i1 = y i1t11 + y i 2 t12 + " + y ip t1 p

z i 2 = y i1t 21 + yi 2 t 22 + " + y ip t 2 p
""
z ip = y i1t p1 + y i 2 t p 2 + " + y ip t pp
que con la formulación matricial, será:
 z i1   y i1 
   
 zi 2   yi 2 
 #  = T  # 
   
z  y 
 ip   ip 
o bien, trasponiendo:
(z i1 z i 2 " z ip ) = (y i1 y i 2 " y ip )T t
teniendo en cuenta que T-1=Tt:
(y i1 y i 2 " y ip ) = (z i1 z i 2 " z ip )T
aplicando finalmente la relación anterior sobre cada individuo, i=1,2,…,n, se puede

escribir:
Y = ZT

obteniéndose por tanto las coordenadas de los individuos en los nuevos ejes factoriales a
partir de la matriz de datos tipificados.
Considerando las p variables: ( Z 1 , Z 2 , " , Z p ) representativas de las columnas de

la matriz de datos tipificados, y las p variables: (Y1 , Y2 ," , Y p ) representativas de las
componentes principales, se tiene:
( Z 1 , Z 2 , " , Z p ) = (Y1 , Y2 ," , Y p )T t

o
(Y1 , Y2 , " , Y p ) = ( Z 1 , Z 2 , " , Z p )T
Teniendo en cuenta las expresiones (1.x) y (1.x), se cumple:
Y = ZT = 0
y
VY = T t RT = Λ
por tanto los nuevos ejes principales están centrados, sus varianzas son los valores
propios y sus covarianzas son nulas (están incorrelacionados). Es decir:
E (Yi ) = 0
1 n 2
var(Yi ) = λi = ∑ y ki
n k =1
1 n
cov(Yi , Y j ) = 0 = ∑ y ki y kj
n k =1
con i,j=1,2,…,p.
Una propiedad importante es cuantificar el grado de interdependencia entre las

variables originales y los nuevos ejes factoriales, pues ello nos permitirá interpretar las
componentes principales. Para ello calculemos las covarianzas y correlaciones entre
estos pares de variables:
1 n 1 n p p
1 n  p
cov(Y j , Z i ) = ∑ y kj z ki = ∑ y kj ∑ y kr t ir = ∑ t ir  ∑ y kj y kr  = ∑ t ir cov(Y j , Yr )
n k =1 n k =1 r =1 r =1  n k =1  r =1
pero teniendo en cuenta las relaciones anteriores (2.x) y (2.x), resulta:
cov(Y j , Z i ) = t ij λ j
y finalmente, dividendo por las d.t.:
t ij λ j
ρ ij = = t ij λ j
λ j .1

en forma de matriz:
 t11 λ1 t12 λ 2 " t1 p λ p 

 
 t 21 λ1 t 22 λ 2 " t2 p λ p 
 
 # # " # 
 t 1 λ1 t p 2 λ2 " t pp λ p 
 p
las columnas se refieren a las variables Yj, mientras que las filas a las variables Zi, por
tanto en la intersección de columna con fila tenemos el coeficiente de correlación lineal
entre ambas variables. Notese que la correlación entre ambas es tanto mayor cuanto
mayor sea el valor propio (varianza) del factor Yi, ya que es proporcional a:
d .t.(Yi ) = λi
la matriz anterior recibe el nombre de matriz de factores o matriz de cargas factoriales

(obsérvese que ya no es una matriz simétrica)
Interesa por tanto aquellos factores de alta d.t. pues serán los que están más
fuertemente correlacionados con las variables originales. Se podrá prescindir de
aquellos factores escasamente correlacionados con las originales, pudiendo considerarse
como variables independientes.
Si un factor principal está muy correlacionado con una variable o grupo de

variables originales, entonces ese factor explica por si solo a esa variable o grupo de
variables originales. En caso contrario, dicho factor actuaría de forma independiente con
relación a dicha variable o grupo de variables.
La matriz de cargas factoriales, que representamos por F, se puede escribir de la

siguiente manera:
1 1
F = TΛ 2
= Λ 2T t
1
como fácilmente se comprueba, siendo Λ 2 la matriz diagonal de las desviaciones
típicas ( λi ). Teniendo en cuenta lo anterior la matriz de correlaciones R se puede
expresar así:
1 1
R = TΛT t = TΛ 2 Λ 2 T t = FF t
Tipifiquemos los factores principales, teniendo en cuenta (2.x), y designemos a

estos por F1, …, Fp:
Yi − E (Yi ) Yi − 0 1
Fi = = = Yi
d .t.(Yi ) λi λi
ahora E ( Fi ) = 0, var( Fi ) = 1 y cov( Fi , F j ) = 0. Hemos operado un cambio de escala en

los factores principales al tipificarlos. Los llamaremos factores o componentes
principales escalados.

Fácilmente se comprueba que:
 Z1   F1 
   
 Z2   F2 
 #  = F  # 
   
Z  F 
 p  p
o
( Z 1 , Z 2 , " , Z p ) = ( F1 , F2 ," , F p ) F t
y en componentes:
Z i = t i1 λ1 F1 + t i 2 λ 2 F2 + " + t ip λ p F p , i = 1,2, ", p

de aquí se sigue que:
var(Z i ) = t i21λ1 var( F1 ) + t i22 λ 2 var( F2 ) + " + t ip2 λ p var( F p )
1 = t i21λ1 + t i22 λ 2 + " + t ip2 λ p
esta es una propiedad relativa a las filas de la matriz de cargas factoriales, F: las filas
de la matriz F son vectores unitarios.
2.5.- CRITERIOS DE REPARTO DE LA INERCIA TOTAL Y REDUCCIÓN DE LA

DIMENSIÓN.
La inercia que explica cada factor es numéricamente igual a su valor propio, que
expresada en porcentaje de la inercia total es:
λi
100
p
siendo λi el valor propio correspondiente Al factor propio Yi.
Si los valores propios son λ1>…>λp, cada factor explica distinta proporción de la
inercia total de manera que cuantos más factores retengamos mejor será la calidad de la
representación, pero entonces no simplificamos el problema ya que retenemos todos los
factores.
Es preciso por tanto definir un criterio para fijar el número de factores a retener.
Existen varios criterios que enumeramos a continuación:
i) retener aquellos factores cuyos valores propios sean mayores que 1.
ii) retener aquellos factores cuyos valores propios sean superiores a un valor fijo
previamente fijado por el investigador.
iii) retener un número fijo de factores.

iv) retener aquellos factores que expliquen una proporción predeterminada de la

inercia total (por ejemplo, un 75% o más).
Si hemos retenido m factores el porcentaje de inercia explicada por dichos

factores vale:
∑λ
i =1
i
100
p
Al retener m factores, la parte de varianza de la variable Zi contenida en dichos factores

es:
hi2 = t i21λ1 + t i22 λ 2 + " + t im2 λ m ≤ 1
se llama comunalidad de la variable Zi y se interpreta como una medida de la calidad de

la representación de dicha variable Zi por los m primeros factores. Evidentemente la
representación será tanto mejor cuanto más se aproxime a la unidad
Con la reducción de la dimensión, los m primeros columnas de la matriz T, que

forman la matriz Tm, engendran un nuevo subespacio de representación de la nube de
puntos, siendo las nuevas coordenadas de los individuos:
Ym = ZTm
valiendo ahora la inercia:

1 n m 2 m
1 n 2  m
∑∑ ik ∑
n i =1 k =1
y =  ∑ y ik  = ∑ λ k
k =1  n i =1  k =1
que es la parte de variabilidad explicada por dichos factores.
Si no hay correlación entre las p variables iniciales, entonces:
1 0 " 0
 
0 1 " 0
R=
" " " "
 
0 0 " 1
 
y los factores principales son las variables original y todas explican la misma cantidad
de inercia, no siendo posible la reducción.
2.6.- ROTACIÓN DE LAS COMPONENTES
Los factores principales obtenidos tal como hemos indicado anteriormente

pueden tener interpretaciones difíciles de comprender, por lo que se procede a tomar
otras soluciones para hacerlos más interpretables a base de rotar la solución inicial
obtenida. Son las soluciones rotadas o factores rotados. Sólo vamos a considerar

rotaciones ortogonales, pues de esta manera los nuevos ejes siguen estando
incorrelacionados entre sí, mantienen las comunanlidades (la capacidad conjunta de
cada factor para retener la información de cada variable), sin embargo se altera las
correlaciones entre factores y variables, Así como el porcentaje de inercia condensada
por cada factor. Después de la rotación hay que calcular la nueva matriz de factores que
contiene las correlaciones entre los factores rotados y las variables originales, que se
obtiene multiplicando la matriz de factores obtenida antes de la rotación por la matriz de
correlaciones entre los factores rotados y no rotados, que algunos llaman matriz de
transformación de los factores.
Para efectuar una rotación ortogonal de ejes se aplican dos criterios,

denominados rotación quartimax y rotación varimax.
La rotación quartimax o criterio quartimax tiene por objeto determinar la

transformación ortogonal que transforma la matriz de factores en otra de manera que la
varianza de los cuadrados de las cargas factoriales es máxima, recayendo el énfasis del
método en la simplificación por filas.
La rotación varimax o criterio varimax hace énfasis en la simplificación de las

columnas o factores de la matriz de factores (Kaiser, 1958) con el fin de satisfacer la
sencillez de interpretación, maximizándose suma de varianzas de los cuadrados de las
cargas factoriales de cada factor.
2.7.- PROGRAMAS DE ORDENADOR
El programa MINITAB dispone de una utilidad específica para realizar Análisis

de Componentes Principales, a partir de la opción MULTIVARIANTE.
2.8.- EJEMPLOS
Ejemplo 2.1.- Con los datos del ejemplo 1.1 efectuar un análisis de componentes
principales
Ejemplo 2.2.- Con los datos del ejemplo 1.2 determinar los ejes principales y la inercia
de cada uno de ellos. Hacer una representación gráfica
Ejemplo 2.3.- Con los datos del ejemplo 1.3 determinar los ejes principales de inercia,
así como la inercia de cada uno de ellos. Hacer una representación gráfica
2.9.- APLICACIONES
Desarrollar mediante los programas de ordenador SPSS y MINITAB los casos:
Caso 1.- Análisis de absorción de plomo en hojas de plantas urbanas.
Caso 2.- Evolución de la composición elemental del ser humano en diferentes

etapas de su ciclo vital

Caso 3.- Análisis del tamaño de una muestra de arbustos de una población de
Allium sativum.

CAPÍTULO 3.- ANÁLISIS FACTORIAL
3.1.- Introducción. 3.2.- El modelo matemático. 3.3.- Descomposición de la matriz

de varianzas. 3.4.- Relaciones entre los factores de carga. 3.5.- Contraste de la
idoneidad del modelo. 3.6.- Extracción de los factores. 3.7.- Descripción de los
factores. 3.8.- Rotación de los factores.
3.1.- INTRODUCCIÓN
Las ideas básicas del AF fue sugerido por Francis Galton y Charles
Spearman, así como otros autores, al principio de siglo y se origina principalmente
en los esfuerzos de los sicólogos en tener un mejor conocimiento de la inteligencia.
Los test de inteligencia contienen principalmente una gran variedad de cuestiones
que dependen en gran medida de la habilidad verbal, habilidad matemática,
capacidad memorística, etc. El AF fue desarrollado para analizar las puntuaciones de
estos test y poder determinar si la inteligencia viene determinado por un único factor
o un pequeño grupo de factores más reducido que los debidos a todos los test
disponibles. En este terreno se sabe que hay tres factores: a) inteligencia verbal, b)
inteligencia lógica y c) inteligencia espacial tales que cualquier otro conjunto de
puntuaciones queda explicada a través de las anteriores.
El AF trata de buscar causas comunes de un conjunto de variables que

explicarían a éstas como consecuencia de unos factores comunes que pueden no ser
observables a priori ya que sólo se miden sus manifestaciones. Estos factores
comunes son de naturaleza más abstracta que las variables originales. El proceso
matemático de cálculo es similar al ACP, pero conceptualmente son distintos,
compartiendo en el software estadístico métodos similares de cálculo.
El AF es un método paramétrico en el sentido de que interesa estimar los

parámetros de las relaciones entre variables, siendo por tanto un problema de tipo
inferencial. Por este motivo el AF se divide en dos partes: el AF exploratorio donde
se utiliza la información contenida en una muestra (análisis exploratorio de datos), y
el AF confirmatorio donde ya se suponen conocidos el número de factores comunes
y se analiza su interpretación.
Desafortunadamente en el AF hay que introducir una serie de hipótesis sobre

las variables iniciales que será necesario comprobar al abordar cualquier problema,
hipótesis que pueden no cumplirse en la práctica.
3.2.- EL MODELO MATEMÁTICO
El modelo matemático del AF consiste en suponer que tenemos p

observables representadas por las variables X1, …, Xp cuya matriz de covarianzas es
V. El AF supone que existen m factores desconocidos, m<p, (puesto que se pretende
explicar las variables originales por un número de variables más reducido) f1, …, fm,
tales que:

Xj = λj1f1+ … + λjmfm + εj , j = 1, …, p
(modelo factorial lineal) donde:

* las nuevas variables fi son los factores comunes, variables no observadas,
que explican a las variables observadas
* los pesos λjk son los llamados factores de carga, que representa la carga de
la variable Xj sobre el factor fk. También se dice que es la saturación de la variable
Xj en el factor fk.
* la variable εj describe la variación residual de la variable Xj no explicada
por el conjunto de los factores comunes; también se le llama factor específico (de la
variable explicada), es decir, es la parte de la variable observada no explicada por los
factores comunes.
El modelo anterior necesita de algunas hipótesis para su ulterior desarrollo:

a) los factores comunes son estocásticamente independientes entre si.
b) los factores específicos son independientes entre sí e independientes de los
factores comunes.
c) se supone que las variables observadas están centradas.
d) los factores comunes se suponen también centrados, y como se puede elegir con
arbitrariedad la escala se supone que la d.t. vale 1, por tanto se trata de variables
tipificadas.
e) Igual para los factores específicos.
f) los factores comunes y los específicos se suponen con distribución normal.
La formulación matricial del modelo sería:
X = ΛF + E
siendo:
 X1   f1   ε1 
     
 X2   f2  ε2 
 .   .   . 
X =  F =  E = 
 .   .   . 
 .   .   . 
     
X  f  ε 
 p   m  m
 λ11 λ12 . . . λ1 m 
 
 λ 21 λ 22 . . . λ2m 
 . . . . . . 
Λ= 
 . . . . . . 
 . . . . . . 

λ 1 λ p2 . . . λ pm 
 p

siendo Λ la matriz factorial. Uno de los principales problemas del análisis factorial es la
determinación de dicha matriz, cuyos elementos se obtienen a partir de los coeficientes
de correlación entre las variables, además de la determinación del número de factores m
a emplear.
Aplicando la relación anterior a cada observación de la tabla de datos, se tiene, para

la observación r-ésima:
X1 = xr1, …, Xp = xrp
m
x rj = ∑ λ jk f rk + ε rj
k =1
siendo frk el valor del factor fk en la r-esima observación, Xr.
Expresado en forma matricial sería:
X = ΛF + E
ahora tenemos:
 x11 x12 " x1 p   f 11 f 12 " f 1m   ε 11 ε 12 " ε1p 

     
 x 21 x 22 " x2 p   f 21 f 22 " f 2m   ε 21 ε 22 " ε2p 
X = F = E =
# # " #  # # " #  # # " # 
     
x 1 xn 2 " x np   f p1 f p2 " f pm  ε 1 ε n2 " ε np 
 n   n
donde la primera matriz es la matriz de datos, la segunda de puntuaciones o valores

factoriales y la tercera es la matriz de residuos.
Esta es una relación entre expresiones matriciales relativas a los valores

muestrales, en contraposición a la que hemos dado anteriormente, que aunque es
formalmente idéntica, aquella expresa una relación entre variables estadísticas
poblacionales.
3.3.- DESCOMPOSICIÓN DE LA MATRIZ DE VARIANZAS
De la formulación del problema y de las hipótesis se deduce:
var( X j ) = λ2j1 + " + λ2jm + ν j , siendo νj=var(εj)
de aquí se sigue que la varianza de los observables se explican por la suma de los
cuadrados de las correspondientes cargas factoriales, más la varianza debida al factor
residual. Se llama comunalidad del observable Xj a:
h 2j = λ2j1 + " + λ2jm

y es la parte de la varianza del observable Xj explicada por los factores comunes o la

contribución de todos los factores comunes a la varianza de Xi. En AF interesa buscar
los factores comunes que expliquen la mayor parte de variabilidad de las variables.
Para las covarianzas se tiene:
cov( X i , X j ) = λ i1 λ j1 + " + λim λ jm
por tanto, la matriz de varianzas-covarianzas es:
V = ΛΛt + Ν
siendo Ν la matriz diagonal de las varianzas ν1, …, νp.
Por tanto las cargas factoriales determinan las covarianzas, y en gran medida
las varianzas pues para estas sólo falta tener en cuenta la varianza de las variables
residuales. La ecuación matricial anterior es crucial en el AF. En esta ecuación hay
pm+p parámetros desconocidos (factores de carga y varianza de residuos) y
½(p+1)p ecuaciones. Es necesario, por tanto, para que haya solución, que m<1/2(p-
1); puede no haber solución o incluso no ser única, pues si Λ es una solución y T es
una matriz ortogonal, entonces ΛT también es solución pues: (ΛT)(ΛT)t=ΛΛt. Por
tanto siempre que se obtiene una solución se pueden efectuar rotaciones y analizar
las nuevas soluciones. La acotación anterior de m nos proporciona el número
máximo de factores a extraer.
3.4.- ESTIMACIÓN DE LOS FACTORES DE CARGA
Se puede partir de una matriz de datos, donde las variables estén tipificadas,
entonces la matriz de covarianzas pasa a ser la matriz de correlaciones, siendo
entonces las comunalidades iguales a la unidad:
m
1 = ∑ λ2jk + ν j
k =1
m
rij = ∑ λ ik λ jk
k =1
R = ΛΛt + N
Estas propiedades son debidas a Thurstone (1947). La última propiedad es la

identidad fundamental que debe verificar toda matriz factorial.
A partir de aquí se entra en un proceso de inferencia para determinar los

factores de carga, esta es la gran diferencia con el ACP, pues este es un método de
tipo descriptivo, mientras que el AF es de tipo inferencial.
3.5.- CONTRASTE DE LA IDONEIDAD DEL MODELO

El primer paso a realizar consiste en averiguar si hay o no factores comunes a

partir de la información disponible en la tabla de datos (muestra). Se trata de realizar
un AF exploratorio. Para ello empleamos el contraste de esfericidad de Bartlett, que
se utiliza para comprobar la hipótesis de que la matriz de correlaciones es una matriz
identidad (las intercorrelaciones entre las variables son cero lo que significa
idoneidad para un AF) , que se basa en el estadístico muestral:
1
Y = −(n − 1 − (2 p + 5)) log R
6
que sigue una distribución ji-cuadrado con ½(p(p-1) grados de libertad.
Se plantea la hipótesis nula H0:R=I (no existen correlaciones significativas

entre las variables observadas, por tanto no es adecuado un AF), frente a la
alternativa de que existen correlaciones significativas entre las variables observadas,
R ≠ I, y por tanto es adecuado el modelo AF.
Si el estadístico de contraste es significativamente alto entonces se rechaza la
hipótesis nula procediéndose a efectuar un AF.
Debe hacerse notar que el método inferencial de Bartlett se basa en la
hipótesis de que la muestra de datos procede de una población con distribución
normal multivariable.
3.6.- EXTRACCIÓN DE LOS FACTORES
Ya hemos dicho que una acotación del número de factores emplear es m<1/2(p-
1), siendo p el número de variables observables.
Existen diversos métodos para determinar el número de factores a utilizar, uno

de los cuales está basado en el análisis de componentes principales que será el que
vamos a utilizar ya que es el más utilizado por los programas estadísticos de ordenador.
Elegiremos un número pequeño de factores que serán los que expliquen la mayor parte
de la variabilidad total, siguiendo los pasos que vimos en el capítulo de ACP.
En este punto conviene aclarar que el análisis factorial y el ACP están en

discusión por diversos investigadores, habiendo disparidad de criterios sobre si se trata
de dos métodos distintos y distantes o bien si el ACP puede considerarse como una
etapa previa del AF.
Con el método de componentes principales el objetivo es extraer la mayor

varianza posible empleando pocas variables, a fin de determinar las pxm cargas
factoriales, basándonos en la información contenida en la matriz de datos. Aquí se ve
que se trata de un método inferencial, pues el modelo es para la población.
Por tanto elegiremos un primer factor común f1 de manera que su contribución a la

varianza de todas las variables observadas sea máximo; pero esta varianza, que
representamos por V1, vale:
V1 = λ11
2
+ λ221 + " + λ2p1

pero estos factores están relacionados entre sí, ya que:
m
rij = ∑ λik λ jk , con rij = r ji , rii = hi2
k =1
donde los rij se calculan a partir de la tabla de datos y las comunalidades hi2 deben
estimarse como mas adelante indicaremos.
Aplicando el método de los multiplicadores de Lagrange a la función V1 con las

restricciones anteriores, se obtiene la siguiente condición de máximo:
(h12 − α )λ11 + r12 λ 21 + r13 λ31 + " + r1 p λ p1 = 0

r21 λ11 + (h22 − α )λ 21 + r23 λ31 + " + r2 p λ p1 = 0
""
rp1λ11 + rp 2 λ 21 + rp 3 λ31 + " + (hn2 − α )λ p1 = 0
donde α es el multiplicador de Lagrange. La anterior condición es un sistema

homogéneo de p ecuaciones con p incógnitas, cuya condición de compatibilidad es:
h12 − α "
r12 r1 p
r21 h −α "
2
r2 p
=0
2
# # " #
rp1 rp 2 " h p2 − α
esta ecuación es la ecuación característica de la matriz:
 h12 r12 " r1 p 

 
 r21 h22 " r2 p 
 # # " # 

r 1 rp 2 " h p2 
 p
que la llamamos matriz de correlación reducida, y la representamos por R* y se

interpreta como una estimación puntual de ΛΛt.
Tal como se demuestra en [.] las comunalidades se aproximan con los

coeficientes de determinación de cada variable respecto de las demás, mientras que
los elementos de fuera de la diagonal se estiman a partir de la matriz de datos.
Se procede a diagonalizar la matriz R* y se obtienen los m < p valores propios y

sus vectores propios asociados, que se toman normalizados: a1, a2, …, am . Estos
vectores forman las columnas de la matriz A de dimensión (pxm), que verifica:
AtA = Γm = diag(α1, α2,…, αm)

o escrito en componentes:
∑a
i =i
2
ik = αk
p
∑a
i =1
ij aik = 0
k , j = 1,2,..., m; j≠k
Esta primera solución factorial obtenida estimando las comunalidades a través de los
coeficientes de determinación se utiliza para iterar el proceso tomando ahora como
comunalidades las obtenidas de la solución anterior, y repitiendo el proceso. La
solución final se obtiene incorporando al proceso un criterio de parada.
3.7.- DESCRIPCIÓN DE LOS FACTORES
Hasta ahora nos hemos preocupado de la obtención del modelo lineal factorial
de un conjunto de variables en función de unos factores comunes. El problema que
aparece a continuación se refiere a la descripción de los factores en función de las
variables observadas.
Aquí vamos a utilizar métodos de regresión convencionales para obtener una
representación o medida de los factores en las variables. Para ello supondremos que
cada factor se puede expresar como la regresión de dicho factor respecto de las variables
observadas. Es decir que el factor actúa como variable pronosticada o estimada y las
variables observadas como regresores o variables predictivas, por tanto tendremos:
fˆk = β k 1 X 1 + β k 2 X 2 + " + β kp X p , k = 1,2, " , m
donde fˆk es la variable teórica de regresión y f k es la correspondiente variable real.
Teniendo en cuenta:
cov( X 1 , fˆk ) = s1k = β k 1 + r12 β k 2 + " + r1 p β kp

cov( X 2 , fˆk ) = s 2 k = r21 β k 1 + β k 2 + " + r2 p β kp
""
cov( X p , fˆk ) = s pk = rp1 β k 1 + rp 2 β k 2 + " + β kp
donde los coeficientes de los parámetros de regresión son los coeficientes de correlación
lineal obtenidos de la matriz de datos y las covarianzas son las cargas factoriales. La
resolución de este sistema permite obtener los parámetros del hiperplano de regresión
El grado de correlación entre las dos variables: fˆk y f k , viene dado por el
coeficiente de correlación múltiple, cuyo cuadrado es el coeficiente de determinación, y
se demuestra que vale:

Dk2 = β k 1 s1k + β k 2 s k 2 + " + β kp s kp
3.8.- ROTACIÓN DE LOS FACTORES
Los métodos dados para obtención de los factores no siempre conduce a una
solución más clara y convincente para una interpretación científica de los factores,
procediéndose a obtener otra solución como “rotación” de la solución obtenida. Se trata
de obtener matrices factoriales “con significado” que cumplan unos requisitos que
llamamos de estructura simple (Thurstone, 1947):
i) Cada fila de la matriz factorial debe tener un cero por lo menos.

ii) Cada columna de la matriz factorial deberá contener m ceros por lo menos (m
factores comunes).
iii) Para cada par de columnas de la matriz factorial deberá haber varias variables cuyas
entradas se anulen en una columna pero no en la otra.
iv) Para cada par de columnas de la matriz factorial una gran proporción de las variables
deberán tener entradas nulas en ambas columnas cuando hay cuatro o más factores
v) Para todo par de columnas de la matriz factorial deberá haber solamente un número
pequeño de variables con entradas no nulas en ambas columnas.
Dentro de la hipótesis de ejes factoriales ortogonales vamos a explicar

suscintamente dos tipos de rotaciones que tienen en cuenta los princios antes
mencionados aunque de distinta manera. Ello es debido a que la solución rotada no es
única.
La rotación quartimax o criterio quartimax tiene por objeto determinar la
transformación ortogonal que transforma la matriz factorial Λ en otra Γ de manera que
la varianza de los cuadrados de las cargas factoriales es máxima, recayendo el énfasis
del método en la simplificación de la descripción de las filas o variables.
La rotación varimax o criterio varimax hace énfasis en la simplificación de las

columnas o factores de la matriz factorial (Kaiser, 1958) con el fin de satisfacer los
criterios de estructura simple, maximizándose suma de varianzas de los cuadrados de las
cargas factoriales de cada factor.
Harman (1960) propuso construir una clase general de criterios ortogonales a

partir de una suma ponderada de estos dos tipos diferentes de rotaciones ortogonales,
que se denomina criterio ortomax.
En general estas rotaciones se hallan implementadas en los programas

estadísticos de ordenador.

Capítulo 4.- Análisis de Correspondencias
4.1.- Introducción. 4.2.- Análisis de correspondencias simples. 4.3.- Perfiles

y distancias. 4.4.- La matriz de varianzas. Extracción de los factores. Coordenadas
de las categorías en los factores. Representaciones gráficas. Interpretación de los
factores: contribuciones absolutas y relativas. Proyección de filas y de columnas.
Análisis de correspondencias múltiples. Programas de ordenador. Aplicaciones.
4.1.- INTRODUCCIÓN
El análisis de correspondencias es una de las técnicas más recientes concebida

esencialmente para la interpretación de tablas de datos de variables de tipo categórico,
analizando la coocurrencia de las categorías de dos variables cualitativas, siendo
habitual los casos en que el papel de datos y observaciones es intercambiable.
Se puede situar su origen en los trabajos de Benzecri (1963) y la denominada

“escuela francesa”: Lebart, Lefebre, Morinau, etc. con gran incidencia en estudios de
análisis textual.
Podemos afirmar que el objetivo básico del Análisis de Correspondencias

Simples (ACS), que es el caso de dos variables, es el de obtener una representación
gráfica (nube de puntos) de una tabla de contingencia. Es decir, se trata de presentar,
mediante gráficas, la mayor parte de la información contenida en una tabla de
frecuencias. Dentro de la técnica del análisis factorial, podemos afirmar que partiendo
de una matriz de datos, se extraen unos factores que permiten reducir la dimensión de la
matriz inicial, para, perdiendo un mínimo de información, lograr una segunda matriz de
datos mucho más fácil de leer y más sencilla de interpretar.
Otros autores destacan que con el AC se producen representaciones gráficas en

las que las proximidades geométricas entre los puntos-fila o los puntos-columna
traducen asociaciones estadísticas entre filas o columnas de la tabla de contingencia.
En el proceso de cálculo del AC cabe destacar dos fases. Una la creación de la

matriz de varianzas-covarianzas de acuerdo con la definición de distancia de Benzecri, y
otra fase correspondiente a la extracción de factores y la proyección de las categorías
sobre dichos factores, que permitirá la obtención de las representaciones gráficas.
4.2.- ANÁLISIS DE CORRESPONDENCIAS SIMPLES
Como ya hemos dicho el análisis factorial de correspondencias fue concebido

para analizar tablas de contingencia o tablas cruzadas de datos, se trata de datos
obtenidos cruzando las modalidades de dos variables cualitativas definidas sobre una
misma población de individuos. Esto es lo que se llama Análisis de Correspondencias
Simples (ACS).
Cuando sobre un conjunto de individuos se cruzan datos provenientes de más de

dos variables se entra en el Análisis de Correspondencias Múltiples (ACM), cuyos
métodos son similares al ACS. En este texto nos dedicamos al ACS.

Partimos de una tabla de frecuencias absolutas de las variables cualitativas:
X = {x1 , x 2 , " , x q }, Y = { y1 , y 2 , ", y p }
y1 y2 . . . yp
x1 n11 n12 ……. n1p n1.
x2 n21 n22 ……. n2p n2.
. … .
. … .
. … .
xq nq1 nq2 ……… nqp nq.
n.1 n.2 …….. n.p N
donde se han incluido las distribuciones marginales de X y de Y:
X x1 x2 . . . xq
n. n.1 n.2 . . . n.q
Y y1 y2 . . . yp
n. n1. n2. . . . np.
la distribución marginal en X es la distribución que resulta de agrupar los valores de Y

para cada valor o atributo de X. Idem para la distribución marginal de Y.
Dividiendo las frecuencias absolutas por el número total de observaciones se

obtienen las frecuencias relativas.
A partir de la tabla anterior se definen las distribuciones condicionales. Por

ejemplo, la distribución condicional de X para Y=y1 , representada por X/Y=y1 o X/y1,
sería:
X/y1 frecuencias
x1 n11/n.1
x2 n21/n.2
. .
. .
. .
xq nq1/n.q
para obtener esta distribución de frecuencias se puede emplear las frecuencias relativas,
ya que:
n11
n11 N = f 11 ,
= etc.
n⋅1 n⋅1 f ⋅1
N

4.3.- PERFILES Y DISTANCIAS
El punto de partida del AC es la tabla de datos, que ya la tomamos como tabla de

frecuencias relativas. Si X = {x1, …, xq} e Y = {y1, …, yp} son las variables
cualitativas, representamos por fij la frecuencia relativa de la observación conjunta X =
xi e Y = yj.
En forma de tabla sería:
pesos
y1 y2 . . . yp fila
x1 f11 f12 . . . f1p f1.
x2 f21 f22 . . . f2p f2.
. ……………….. .
. ……………….. .
. ………………. .
xq fq1 fq2 . . . fqp fq.
pesos f.1 f.2 . . . f.p 1
columna
donde hemos incluido las distribuciones marginales. Estos valores se les da el nombre
de pesos fila, {f1.,…,fq.}, para los valores marginales por fila, y pesos columna,
{f.1,…,f.p}, para los valores marginales por columna. Evidentemente la suma de los
pesos fila o pesos columna valen 1.
Para seguir el proceso numérico es preciso introducir una distancia entre filas o
entre columnas. Vamos a referirnos en lo que sigue a las filas, pero teniendo en cuenta
que ambas ideas son intercambiables.
A partir de la tabla anterior se obtienen las distribuciones condicionadas por

filas, que se llaman perfiles fila, y la tabla correspondiente tabla de perfiles fila. Así
pues, se tendrá:
y1 y2 . . . yp Σ
Y/x1 f11/f1. f12/f1. … f1p/f1. 1
Y/x2 f21/f2. f22/f2. … f2p/f2. 1
. …… .
. …… .
. …… .
Y/xq fq1/fq. fq2/fq. … fqp/fq. 1
que es la tabla de perfiles fila; análogamente se obtiene la tabla de perfiles columna.
Esto constituye una operación de homogeneización de la tabla de frecuencias

respecto de los pesos fila.

A partir de aquí, si definiésemos directamente una distancia como la distancia

euclidea entre filas se podrían cometer fuertes descompensaciones debido a un
sobrepeso de unas columnas respecto de otras, por tanto es preciso corregir la distancia
euclidea entre filas con los pesos columna, obteniéndose:
2
p  
2
p
1  f ik f jk  f ik f jk
d 2 (i, j ) = ∑  −  = ∑ − 
f •k f  f 
k =1  i• f j •  k =1
 i• f •k f j• f •k 
esta distancia que algunos denominan ji-cuadrado, por motivos que veremos más
adelante, presenta algunas propiedades fundamentales que nos permite realizar ciertas
transformaciones con la matriz de datos.
Los términos del sumatorio se transforman así:
f ik f jk f ik f jk
− = − f •k − + f •k =
f i• f •k f j• f •k f i• f •k f j• f •k
f ik f i• f •k f jk f j• f •k f ik − f i• f • k f jk − f j • f •k
= − − + = −
f i• f •k f i• f •k f j• f •k f j• f •k f i• f •k f j• f •k
y haciendo los cambios:
f ik
y ik =
f i• f •k
f ik − f i• f •k f ik
z ik = = − f •k = y ik − f •k , k = 1,2,..., p
f i• f •k f i• f •k
resulta:
p p
d 2 (i, j ) = ∑ ( y ik − y jk ) 2 = ∑ ( z ik − z jk ) 2
k =1 k =1
la distancia entre perfiles fila tal como se ha definido al inicio entre los puntos de Rp es
una distancia euclidea en Rp.
La distancia ponderada definida más arriba verifica el principio de equivalencia

distribucional: Si dos puntos fila, i1 e i2, con pesos fi1. y fi2., están confundidos en Rp y
si se les considera como un solo punto, i0, de peso fi0.=fi1.+fi2., entonces la distancia
respecto de cada punto permanece invariante. En efecto, como que para todo j se
cumple
f i1 j fi j
= 2
f i1 • f i2 •
entonces:

f i1 j + f i2 j = f i0 j
no quedando afectados los pesos fila y dejando invariante la distancia. De este modo la
agregación de categorías muy próximas tendrá poca influencia sobre el resultado final.
Como que tenemos una nube de q puntos:
Y1 = ( y11 ," , y1 p ), " , Yq = ( y q1 ," , y qp )
vamos a calcular el cdg, Y G = ( y1G , " , y Gp ) , de esta nube de puntos ponderando con los
pesos columna.
Para la coordenada k-ésima se obtiene:
y kG = f 1• y1k + f 2• y 2 k + " + f q• y qk =
1
(f 1k + f 2 k + " + f qk ) = f •k
f •k
por tanto:
Y G = ( f •1 , f • 2 , " , f • p )
en consecuencia cuando la nube de puntos se expresa a través de las variables Zk, resulta
una nube de puntos centrada en el origen.
Finalmente de:
f ij
y ij =
f i• f• j
se sigue que:
p p
f ik
∑ yik
i =1
f k• = ∑
i =1 f i•
=1
por tanto los q puntos Y1,…,Yq están sobre el hiperplano:
f •1 Y1 + f •2 Y2 + " + f• p Yp = 1
cuyo vector director es ( f •1 , ", f • p ) , y cuya distancia al origen vale 1. Además el

cdg, G, pertenece al hiperplano, ya que: f •1 f •1 + " + f• p f • p = 1 . Este
hiperplano corta a los ejes en los puntos: ( 1 ,0,...,0),", (0,...,0, 1 ) , ya que
f •1 f• p
estos puntos pertenecen al hiperplano y a los ejes.
Si se emplean las variables centradas Z1,…,Zp, entonces el hiperplano pasa por

el origen, como fácilmente se comprueba.

Por tanto es natural efectuar un cambio de variable de manera que las nuevas
queden centradas en el c.d.g., tomando como nuevo origen:
f ik f i• f •k f ij − f i• f •k
z ik = y ik − f k• = − =
f i• f •k f i• f •k f i• f •k
estas son las variables centradas, que dejan invariante la distancia definida
anteriormente.
4.4.- LA MATRIZ DE VARIANZAS. EXTRACCIÓN DE LOS FACTORES
Sea X la matriz de datos de frecuencias relativas:
X = ( f ij )i , j
y definimos las matrices:
 f 1• 0 " 0 
 
 0 f 2• " 0 
D pf =
# # " # 
 
 0 0 " f q • 

La siguiente fase es entrar en el proceso de análisis de componentes principales

de la matriz de varianzas, calculadas a partir de las nuevas variables. El proceso se
inicia calculando los vectores y valores propios de V, eligiendo los factores que
“explican” la matriz de datos de acuerdo a como hemos explicado en el capítulo de
ACP.
Una vez extraídos los factores se necesitan conocer las coordenadas de cada una
de las categorías con respecto a cada eje, y efectuar la correspondiente representación
plana y estudiar las asociaciones entre diferentes categorías. Estas coordenadas se
obtienen de la proyección de la matriz de perfiles fila sobre los vectores propios.
Es importante conocer que categorías son las que más contribuyen a cada factor,
es decir que peso tiene cada categoría en la definición de cada uno de los ejes. Este peso
se denomina contribución absoluta y dicho valor representa porcentualmente la
importancia que tiene cada categoría en la definición de cada eje. La contribución
absoluta viene dada por:
f i•ϕ i2α
Ca (i, α ) =
λα

siendo: i una categoría i-esima, α el eje factorial α-ésimo, ϕiα la coordenada de la

categoría i en el eje factorial α, y λα el correspondiente valor propio. La suma de las
contribuciones absolutas de cada categoría fila sobre cada eje valdrá 1.
Tras analizar los ejes sobre la base de las categorías absolutas, también
resulta importante calcular las contribuciones relativas de cada eje sobre cada
categoría. Este es un índice que nos indica hasta que punto cada eje representa a
cada una de las categorías. La suma de las distintas contribuciones relativas de cada
eje sobre una categoría debe ser 1, y su cálculo viene dado por el cociente entre el
cuadrado de la coordenada de la categoría i sobre el eje α y la suma de cuadrados de
las coordenadas de la categoría i.

0 SPSS - Introduccion Análisis Multivariante

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

0 SPSS - Introduccion Análisis Multivariante

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DE DATOS MULTIVARIANTES Introducción al Análisis Multivariante

CAPÍTULO 1.- INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE

1.1.- Utilidad del análisis estadístico multivariante. 1.2.- Objetivos y

1.1.- UTILIDAD DEL ANÁLISIS ESTADÍSTICO MULTIVARIANTE

La utilidad del análisis estadístico multivariante (Análisis de Datos

En el campo de la biología se pueden formular muchas preguntas sobre

El Análisis Multivariante (Multivariate Analysis) ofrece un conjunto de

1.2.- OBJETIVOS Y CLASIFICACIÓN DE LOS DIFERENTES MÉTODOS

El Análisis Multivariante es «la rama de la estadística que estudia las

a) Simplificación estructural: se trata de describir la información original de

Angel Igelmo Ganzo 1

variables originales en un número menor de nuevas variables creadas por el propio

b) b) Clasificación o agrupación: estos métodos incluyen los de agrupamiento

c) Análisis de interdependencia: se trata de buscar la interdependencia entre

d) Análisis de dependencia: explica las relaciones entre grupos de variables,

1.3.- INDIVIDUOS Y VARIABLES

¿Quiénes son los individuos y cómo se miden las variables? Debemos

Angel Igelmo Ganzo 2

ya que la inferencia implicaría unos desarrollos matemáticos previos que no entran

Generalmente, los datos son estáticos, en el sentido de que son mediciones

Hasta ahora hemos llamado genéricamente «variables» a los datos que

La escala nominal expresa caracteres cualitativos no ordenados. Todos los

La escala ordinal expresa también caracteres cualitativos, pero las

La escala intervalo expresa datos cuantitativos que se pueden sumar y restar

La escala ratio traduce medidas cuantitativas que poseen un punto cero u

La elección del método multivariante a aplicar y la definición de distancia

Angel Igelmo Ganzo 3

1.4.- MATRICES DE DATOS

Las técnicas estadísticas utilizan datos de conjuntos de varias variables

1) Matriz n x p de individuos por variables, cuyas filas (individuos)

2) Matriz n x p de individuos por variables., cuyos individuos pertenecen a

3) Matriz n x n de distancias entre individuos. Su elemento xij representa el

A veces el investigador escribe una tabla de individuos por variables y define

4) Tabla de frecuencias o de contingencia. La tabla de frecuencias simple

¿Cómo se crea la matriz de datos? Una vez que el investigador ha

Angel Igelmo Ganzo 4

de un método sugieren al investigador ideas sobre la aplicación de otros

Las variables nominales y ordinales han de codificarse previamente. Por

Escribir la tabla de datos en el ordenador es tarea fácil. Puede emplearse

En general para una tabla de datos de variables numéricas tendremos:

 x11 x12 " x1 p 

También es útil referirse a la variable estadística p-dimensional:

donde Xi es el observable i-ésimo, y el conjunto de valores que toma cada observable

Angel Igelmo Ganzo 5

X i = {x1i , x 2 i , " , x ni } i = 1,2,…,p

Es evidente que tal como estamos planteando el problema nuestros conjuntos

1.5.- LA MATRIZ DE COVARIANZAS Y DE CORRELACIONES

A partir de la matriz de datos, X, se calcula la matriz de varianzas-

La media para cada variable se obtiene promediando por columnas la matriz de

de donde definimos la matriz fila, (1xp), de medias:

e introduciendo la matriz columna (nx1):

donde el supraíndice t significa traspuesta

Ahora se puede centrar la matriz de datos, restando a cada columna su valor

siendo H la matriz centradora de datos, I la matriz unidad nxn y Xc la matriz de datos

La matriz centradora es:

Angel Igelmo Ganzo 6

esta matriz es evidentemente simétrica, y fácilmente se comprueba que es idempotente

Para calcular varianzas y covarianzas hay que efectuar sumas de productos

donde los primeros sumandos se pueden escribir en forma matricial:

mientras que los sustraendos se escriben: X t X ; por tanto la matriz de

Si empleamos la matriz de datos centrada, entonces:

evidentemente la matriz V es simétrica ya que Vt = V:

 s11 s12 " s1 p 

con sii = s i2 y s ij = s ji , i, j = 1, " , p