Fundamentos de Las Técnicas Multivariantes PDF

36195AA01A01
FUNDAMENTOS DE LAS
TÉCNICAS MULTIVARIANTES
M. CARMEN XIMÉNEZ GÓMEZ

RAFAEL SAN MARTÍN CASTELLANOS
U N E D
EDICIONES
M. Carmen Ximénez
Rafael San Martín
FUNDAMENTOS
DE LAS TÉCNICAS
MULTIVARIANTES
UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA

FUNDAMENTOS DE LAS TÉCNICAS
MULTIVARIANTES
FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES
Quedan rigurosamente prohibidas, sin la autorización escrita

de los titulares del Copyright, bajo las sanciones establecidas en las leyes,
la reproducción total o parcial de esta obra por cualquier medio o procedimiento,
comprendidos la reprografía y el tratamiento informático, y la distribución
de ejemplares de ella mediante alquiler o préstamoS públicos.
© UNIVERSIDAD NACIONAL
DE EDUCACIÓN A DISTANCIA - Madrid,
WWWUNEDESPUBLICACIONES
© M. Carmen Ximénez, Rafael San Martín
)3".ELECTRÆNICO

%DICIÆNDIGITALOCTUBREDE
ÍNDICE
INTRODUCCIÓN 1
CAPÍTULO 1. NOCIONES BÁSICAS DE ÁLGEBRA DE MATRICES
1. Conceptos previos 9
2. Operaciones con matrices 11
2.1. Cálculo de la traspuesta de una matriz 11
2.2. Suma de matrices 11
2.3. Multiplicación por un escalar 12
2.4. Producto de dos matrices 12
2.5. Cálculo del determinante de una matriz 14
2.6. Cálculo de la matriz inversa 15
3. Usos de matrices y determinantes 15
3.1. Sistema de ecuaciones lineales 15
3.2. Rango de una matriz 17
3.3. Autovalores 17
3.4. Autovectores 18
3.5. Ejemplo resuelto 19
3.6. Formas cuadráticas 20
4. Vectores y estadísticos 21
5. Combinaciones lineales 23
6. El álgebra de matrices y el lenguaje MATRIX del SPSS 24
7. Ejercicios 30
CAPÍTULO 2. LA DISTRIBUCIÓN NORMAL MULTIVARIANTE
1. Concepto de distribución multivariante, marginal y condicional 33
2. La distribución normal multivariante 39
3. La distribución normal bivariante 42
4. Ejercicios 48
CAPÍTULO 3. ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE
1. Introducción 49
2. El modelo lineal general 49
3. Estimación de parámetros 51
3.1. Método de estimación de mínimos cuadrados 52
3.2. Método de estimación de máxima verosimilitud 56
4. Verificación del modelo 57
4.1. Medidas de bondad de ajuste 57
4.2. Contraste de hipótesis 59
5. Análisis del cumplimiento de los supuestos 61
5.1. Linealidad de la relación 62
5.2. Independencia 62
5.3. Homocedasticidad 63
5.4. Normalidad 63
5.5. Ausencia de colinealidad 64
6. Simplificación de modelos 66
6.1. Backward (método hacia atrás) 67
6.2. Forward (método hacia delante) 67
6.3. Stepwise (método por pasos sucesivos) 68
7. El análisis de regresión múltiple y el lenguaje MATRIX del SPSS 72
8. Ejercicios 81
CAPÍTULO 4. ANÁLISIS DE COMPONENTES PRINCIPALES
1. Introducción 83
2. Cálculo de los componentes 84
2.1. Cálculo a partir de la matriz S 85
2.2. Cálculo a partir de la matriz R 85
2.3. Ejemplo 86
3. Geometría de los componentes 90
4. El análisis de componentes principales y el lenguaje MATRIX del 91
SPSS
5. Ejercicios 95
CAPÍTULO 5. ANÁLISIS FACTORIAL
1. Introducción 97
2. Métodos de extracción de factores 102
2.1. Método de componentes principales 102
2.2. Método de ejes principales 104
2.3. Método de máxima verosimilitud 106
2.4. Método de mínimos cuadrados generalizados 106
3. Contrastes sobre la adecuación del análisis factorial 107
4. Reglas para la selección de factores 108
5. La rotación de factores 109
5.1. La rotación ortogonal 110
5.2. La rotación oblicua 112
6. Estimación de las puntuaciones factoriales 112
6.1. Método de Bartlett 113
6.2. Método de regresión 113
7. Ejemplo 114
8. El análisis factorial y el lenguaje MATRIX del SPSS 118
9. Ejercicios 126
REFERENCIAS BIBLIOGRÁFICAS 127
ANEXOS 131
Tabla 1. Distribución de probabilidad normal tipificada N(0, 1) 133
Tabla 2. Distribución de probabilidad t de Student 134
Tabla 3: Distribución de probabilidad de F2 de Pearson 135
Tabla 4: Distribución de probabilidad F de Snedecor 136
Introducción
Los investigadores a menudo se ven obligados a utilizar medidas

múltiples para poder abordar un problema de investigación. Esto ha hecho
necesario el manejo de técnicas que permitan analizar simultáneamente un
conjunto de variables. La parte de la estadística que recoge estas técnicas es
el análisis multivariante.
No es fácil encontrar una definición única del análisis multivariante. En

términos generales, puede decirse que se refiere al conjunto de técnicas
estadísticas que analizan simultáneamente más de dos variables. No obstante,
algunos autores plantean que lo que hace al análisis multivariante no es el
número de variables sino que las variables consideradas sean aleatorias y
estén relacionadas de tal forma que sus efectos no puedan analizarse
separadamente. Otros autores afirman que el propósito del análisis
multivariante es medir, explicar y predecir el grado de relación entre una (o
más de una) combinación lineal de variables con saturaciones calculadas a
través de la técnica multivariante utilizada. Una combinación de p variables
ponderadas puede definirse formalmente mediante:
Y = a 1 X 1 + a 2 X2 + … + a p X p
Donde X1, X2, … Xp son las variables observadas y a1, a2, … ap son las
saturaciones calculadas mediante la técnica multivariante empleada. El
resultado es un único valor (Y) que representa la combinación del conjunto de
variables que mejor logra el objetivo de la técnica multivariante en cuestión
(reducir la información, clasificar sujetos, etc.).
Las técnicas de análisis multivariante pueden utilizar diferentes tipos de

variables: cuantitativas, cualitativas o una combinación de ambas. Asimismo,
pueden tratar con variables independientes y/o dependientes, que pueden
estar relacionadas entre sí en diferente grado y ser observadas o latentes.
Existen diferentes técnicas multivariantes. El objetivo de la mayoría es
resumir un amplio conjunto de datos mediante el menor número posible de
parámetros. La elección de la técnica más adecuada depende de los objetivos
de la investigación, del tipo de datos y de si el análisis se refiere a la relación
entre variables o entre casos.
Cualquier intento de clasificar las técnicas multivariantes es difícil pues

no existe consenso sobre cuál de ellos es el más apropiado para decidir
cuándo utilizar cada una de las técnicas. Aquí se ha tomado la clasificación
elaborada por Hair, Anderson, Tatham y Black (1998) con el objetivo de dar
una visión general de las técnicas multivariantes más empleadas en contextos
2 FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES
aplicados (ver figura 1). Estos autores clasifican las técnicas multivariantes
según el tipo de relación que se establece entre las variables (de dependencia
o de interdependencia) y según el tipo de escala de medida que utilizan las
variables (cuantitativa o cualitativa).
(1) Relación de dependencia. Algunas técnicas multivariantes identifican

a un conjunto de variables como las que se desea predecir o dependientes y a
otras como las explicativas de las primeras o independientes. Dentro de estas
técnicas se encuentran las siguientes:
Si se toma como criterio el número de variables dependientes y su nivel

de medida (cuantitativo y/o cualitativo) se dispone de diferentes técnicas de
análisis multivariante. Por ejemplo, el análisis de regresión múltiple, que
tiene como objetivo explicar la variación en una variable dependiente
cuantitativa a partir de la variación en dos o más variables independientes
(generalmente cuantitativas aunque también pueden ser cuantitativas y
cualitativas). El análisis conjunto es similar a la regresión múltiple con la
diferencia de que todas las variables independientes son cualitativas.
Si la variable dependiente es cualitativa y las independientes cuantitativas

se aplica la técnica del análisis discriminante. Si las independientes son
cualitativas también puede utilizarse el análisis conjunto que permite evaluar
subconjuntos de posibles combinaciones de los niveles de las variables en
lugar de todas las posibles combinaciones. Si la variable dependiente es
dicotómica se utiliza la regresión logística que tiene la ventaja de que no
precisa asumir normalidad multivariante ni homogeneidad entre grupos. En
este mismo caso, es decir, variable dependiente dicotómica pero con
variables independientes cuantitativas y cualitativas pueden emplearse los
modelos logit que tampoco requieren asumir normalidad (la monografía de
Pardo, 2002, de esta misma colección, trata este tipo de modelos en detalle).
Cuando se trabaja con varias variables dependientes cuantitativas y dos o

más variables independientes cuantitativas se aplica el análisis de
correlación canónica, o el análisis de varianza multivariante (MANOVA) si
las variables independientes son cualitativas (el manual de Neter, Kunter,
Nachtsheim & Waserman, 1996 aborda la relación entre regresión,
MANOVA, etc.). Si las variables dependientes están en múltiples relaciones
con variables independientes también cuantitativas y se formula una ecuación
para cada variable dependiente, la técnica multivariante para estimar los
parámetros de todas las ecuaciones simultáneamente es la de modelos de
ecuaciones estructurales (la monografía de Ruiz, 2000, de esta misma
colección, trata estos modelos en detalle).
Resumiendo, cada una de las técnicas multivariantes que analizan

relaciones de dependencia se relacionan del siguiente modo:
INTRODUCCIÓN 3
Y1 = X 1 + X2 + … + X p
(Cuantitativa) (Cuantitativas y cualitativas) … Análisis de regresión
múltiple
(Cualitativa) (Cuantitativas) ……….……. Análisis discriminante
(Dicotómica) (Cuantitativas) ……….……. Regresión logística
(Cuantitativa o cualitativa) (Cualitativas) ……….……... Análisis conjunto
Y1 + Y2 + … + Yk = X1 + X2 + … + Xp
(Cuantitativas) (Cuantitativas) …………….. Análisis de correlación
canónica
(Cuantitativas) (Cualitativas) ……………… MANOVA
Y1 = X11 + X12 + … + X1p

Y. 2 = X21 + X22 + … + X2p
..
Yk = Xk1 + Xk2 + … + Xkp
(Cuantitativas) (Cuantitativas) …………….. Modelos de ecuaciones
estructurales
(2) Relación de interdependencia. Algunas técnicas multivariantes no

necesitan clasificar a las variables como dependientes o independientes sino
que analizan todas las variables simultáneamente. El objetivo es encontrar la
estructura subyacente al conjunto de variables o de casos que son analizados.
Dentro de estas técnicas se encuentran las siguientes:
Si lo que se analiza es la relación entre variables, las técnicas

multivariantes para simplificar la estructura del fenómeno estudiado son el
análisis de componentes principales y el análisis factorial. En psicología
existen numerosas investigaciones que aplican estas técnicas, sobre todo el
análisis factorial en el ámbito de la inteligencia y la personalidad. Si lo que se
desea agrupar son casos se utiliza el análisis de conglomerados, aunque esta
técnica también se puede utilizar para agrupar variables. Por último, si el
interés está en la estructura de un conjunto de objetos hay que aplicar técnicas
de escalamiento multidimensional.
Como en las relaciones de dependencia, en este caso también hay que

tener en cuenta el nivel de medida de las variables (cuantitativo y/o
cualitativo). En el análisis factorial y el análisis de conglomerados
generalmente se necesita que las variables sean cuantitativas, aunque también
es posible llevar a cabo ambos análisis con variables cualitativas. En el
escalamiento multidimensional los atributos de los objetos se miden de forma
cuantitativa. Si los atributos estuvieran medidos de forma cualitativa, se
aplicaría el análisis de correspondencias.
Figura 1. Clasificación de las técnicas multivariantes
Tipo de relación
DEPENDENCIA INTERDEPENDENCIA
UNA VARIABLE VARIAS VARIABLES Relaciones entre variables

DEPENDIENTE (VD) DEPENDIENTES (VDs)
- Análisis de componentes principales
Cuantitativas en una sola relación - Análisis factorial
Cuantitativa - Análisis de conglomerados
- Análisis de regresión Con VIs cuantitativas Relaciones entre casos
múltiple
- Análisis conjunto - Análisis de correlación canónica - Análisis de conglomerados
Relaciones entre objetos

Cualitativa Con VIs cualitativas
- Análisis - Análisis de varianza multivariante Medidos de forma cuantitativa

discriminante (MANOVA)
- Análisis conjunto - Escalamiento multidimensional
VDs y VIs cuantitativas en
- Regresión logística múltiples relaciones Medidos de forma cualitativa
- Modelos logit
- Modelos de ecuaciones - Análisis de correspondencias
estructurales
Nota: Tomado de Hair, Anderson, Tatham y Black, 1998 (pág. 20-21).

INTRODUCCIÓN 5
La clasificación de Hair et al. (1998) presentada aquí, tan sólo hace

referencia a las técnicas multivariantes basadas en modelos lineales. No
obstante, también hay técnicas multivariantes basadas en modelos no
lineales. Dentro del grupo de las que estudian las relaciones de dependencia
entre las variables se encuentra por ejemplo la metodología de superficies de
respuesta. Se trata de un conjunto de técnicas matemáticas y estadísticas
eficaces para el desarrollo e interpretación de ecuaciones polinomiales (ver
Box & Draper, 1987; Myers & Montgomery, 1995). Esta técnica proporciona
la base necesaria para describir las características esenciales de las superficies
de respuesta de ecuaciones de regresión complejas. Tradicionalmente, ha sido
empleada en la industria física y química y en otros campos aplicados pero
también se ha utilizado en contextos educativos y está empezando a suscitar
interés en contextos de investigación social (véase Ximénez y San Martín,
2000). Dentro del grupo de las técnicas que estudian relaciones de
interdependencia está el análisis factorial no lineal, introducido por
McDonald (1962, 1967) para ofrecer aproximaciones más realistas sobre la
relación entre las variables observadas y los factores y un mejor ajuste. Se
han publicado diversos trabajos con discusiones teóricas y estudios de
simulación sobre el análisis factorial no lineal (para un resumen véase Yalcin
& Amemiya, 2001; y Zhu & Lee, 1999) pero hasta el momento ha habido
pocas aplicaciones empíricas de este procedimiento. Para una revisión más
extensa sobre técnicas multivariantes basadas en modelos no lineales puede
consultarse el manual de Gifi (1996).
Según Hair et al. (1998), la aplicación exitosa de una técnica multivariante

no depende exclusivamente de seleccionar la técnica más adecuada sino que
se trata de un proceso que ha de cumplir ciertos pasos. En primer lugar es
necesario definir el problema de investigación y los objetivos del análisis en
términos conceptuales. Una vez definidos estos conceptos, se especifican las
variables, la escala de medida que utilizan (cuantitativa y/o cualitativa) y el
tipo de relación que se establece entre ellas. Por ejemplo, en una relación de
dependencia es necesario especificar la(s) variable(s) dependiente(s) y las
variables independientes. Con el modelo conceptual y la especificación de las
variables y sus escalas de medida, ya es posible seleccionar la técnica
multivariante más adecuada para el objetivo de análisis. En segundo lugar,
una vez seleccionada la técnica multivariante a emplear, es necesario
determinar el tamaño muestral mínimo requerido, el método de estimación de
parámetros y todos los elementos necesarios para llevar a cabo la recogida de
datos. En tercer lugar, una vez recogidos los datos, hay que evaluar el
cumplimiento de los supuestos que requiera la técnica multivariante. Por
ejemplo, la normalidad multivariante, la linealidad, la independencia, la
homogeneidad, etcétera. En cuarto lugar, se estiman los parámetros del
modelo multivariante y se evalúa el ajuste del modelo. Por último, si existe
un ajuste aceptable, hay que interpretar la relación multivariante especificada

en el modelo.
Las técnicas multivariantes parten de unas puntuaciones de n unidades de

análisis sobre p variables y suelen expresarse de modo compacto en términos
matriciales. Por ello, el primer capítulo de esta monografía tiene el objetivo
de resumir las nociones básicas sobre álgebra de matrices que es necesario
conocer para manejar las técnicas multivariantes.
El capítulo 2 se dedica a la definición de distribución multivariante,

marginal y condicional y en particular a la distribución normal multivariante
pues muchas de las técnicas multivariantes asumen que los datos siguen una
distribución normal. La principal razón es que la distribución normal
multivariante es mucho más sencilla de manejar matemáticamente que otras
distribuciones multivariantes. No obstante, cuando los datos no son normales,
se pueden llevar a cabo transformaciones para que se aproximen a la
normalidad y utilizar diferentes técnicas de estimación de parámetros.
Resumir todas las técnicas multivariantes que aparecen en la figura 1

excedería los objetivos de una obra de esta colección. Por esta razón se ha
optado por elegir una técnica que estudie las relaciones de dependencia y otra
que estudie las relaciones de interdependencia. Dentro de las del primer
grupo se ha seleccionado la regresión múltiple por ser una de las técnicas más
empleadas en contextos aplicados. Dentro de las del segundo grupo se ha
seleccionado el análisis factorial por su relevancia especialmente en la
psicometría. Asimismo, se introduce brevemente al lector en el análisis de
componentes principales, pues su similitud con el análisis factorial hace que a
menudo ambas técnicas se confundan. De este modo, en el capítulo 3 se
expone el análisis de regresión múltiple, en el capítulo 4 el análisis de
componentes principales y en el capítulo 5 el análisis factorial exploratorio.
No se entra en la descripción del análisis factorial confirmatorio puesto que
puede consultarse en la monografía de Ruiz (2000) de esta misma colección.
El manejo de las técnicas multivariantes con amplias muestras de sujetos

sería impensable sin la ayuda de los ordenadores personales. Existen diversos
paquetes de software estadístico que permiten implementar con facilidad los
complejos cálculos que demandan este tipo de técnicas. Por ejemplo el SPSS,
el SAS, el STATGRAPHICS, el SYSTAT, el S-PLUS, etc. Aquí se hace
referencia tan sólo al SPSS y su lenguaje MATRIX para realizar operaciones
con matrices y ejecutar cada una de las técnicas que se exponen, aunque la
mayoría de los programas ofrecen formatos similares.
Existen diversos manuales sobre el análisis multivariante. La mayoría en

inglés, aunque algunos han sido traducidos al castellano. Por ejemplo el de
Hair et al. (1998) que es un manual sencillo y orientado más a la aplicación
INTRODUCCIÓN 7
de las técnicas que a su formulación teórica. Otros manuales más teóricos son
el manual clásico de Maxwell (1977), el de Dillon y Goldstein (1984), el de
Anderson (1984) y el de Johnson y Wichern (2002). Este último es
especialmente recomendable pues combina formulaciones matemáticas con
explicaciones sencillas y ejemplos aplicados. Dentro de la disciplina de la
estadística y las matemáticas también se han publicado diversos manuales
sobre el análisis multivariante. Por ejemplo el de Arnold (1981), Carroll
(1987), Krzanowski (2000), Mardia, Kent y Bibby (1997), Neil (2002),
Rencher, (1995) y Takeuchi, Yanai y Mukherjee (1982). Además de los
citados, hay otros muchos manuales que abordan de forma monográfica cada
una de las técnicas multivariantes y se irán citando a medida que se haga
referencia a cada una de ellas en el capítulo correspondiente.
Capítulo 1. Nociones básicas de Álgebra de Matrices
En este capítulo se pretende sintetizar los contenidos de álgebra de

matrices básicos para una compresión adecuada de las técnicas de análisis
multivariante. Para más detalle, se pueden consultar diferentes manuales. Por
ejemplo, el de Basilewsky (1983), Namboodiri (1984), Searle (1982) y Winter
(1992). Y en castellano el de Amón (1991) y el de Herstein y Winter (1989).
1. Conceptos previos
Definición y tipos de matrices
Una matriz es una forma de organizar los datos en filas y columnas que
proporciona un punto de partida útil para su descripción (Searle, 1982).
Supóngase que se tienen las siguientes puntuaciones sobre el rendimiento
de 3 sujetos en cuatro pruebas de atención:
Pruebas de atención
Sujetos: 1 2 3 4
1 12 15 17 19
2 15 7 9 10
3 11 13 15 15
Los números que aparecen en la tabla pueden escribirse del siguiente modo:
ª12 15 17 19 º
«15 7 9 10 »»
«
«¬ 11 13 15 15 »¼
Donde las filas contienen a los sujetos y las columnas a las pruebas sobre
atención. Por ejemplo, la segunda fila y tercera columna contiene al número 9
que representa la puntuación del sujeto 2 en la prueba 3.
Esta disposición rectangular de los datos en n filas y p columnas se

denomina matriz de orden n x p y se representa mediante:
ª a11 a12 a1 j a1 p º
«a a 22 a2 j a 2 p »»
« 21
« »
A nu p « »
« a i1 ai 2 aij aip »
« »
« »
¬« a n1 an 2 a nj a np ¼»
Las matrices se designan aquí mediante letras mayúsculas en negrita (en

el ejemplo: A) y sus elementos mediante letras minúsculas con subíndices
(aij, donde i son las filas y j las columnas). Los elementos en los que i = j se
denominan elementos diagonales (aii). Una forma más abreviada de expresar
una matriz es mediante:
A = [ aij ] para i = 1, 2, ..., n y j = 1, 2, ..., p (1.1)
El tamaño y tipo de elementos de la matriz hace que sea posible distinguir
entre varios tipos de matrices:
a. Vectores columna y fila: matrices que constan sólo de n filas y una
columna (vector columna) y de una fila y p columnas (vector fila). Se
expresan con letras minúsculas en negrita.
ª5º
Ejemplo 1. Vector columna: «2»
a « »
¬« 4 ¼»
Ejemplo 2. Vector fila: a ' >5 2 4@
b. Matriz rectangular: es aquella en la que se cumple que n z p.

Ejemplo 3: A ª2 3 5º
= «0 1»¼
2u3
¬ 4
c. Matriz cuadrada: es aquella en la que se cumple que n = p.

ª1 3 2º
Ejemplo 4: tr(B) = 1 + 5 + 9 = 15
B = «« 2 5 10 »»
«¬ 7 6 9 »¼
En las matrices cuadradas se puede calcular la traza de la matriz que es la

suma de los elementos de la diagonal principal. Es decir: tr(A) = 6 aii. En
el ejemplo 4, es 15.
d. Matriz simétrica: matriz en la que se cumple aij = aji. O lo que es lo
mismo, A = A'. En el análisis multivariante es frecuente trabajar con
matrices simétricas. Por ejemplo, la matriz de covarianzas (S) y la matriz
de correlaciones (R):
ª s12 s12 s1 p º ª 1 r12 r1 p º
« » «r 1 r2 p »»
« s 21 s 22 s2 p » « 21
S ; R
« » « »
« » « »
¬« s p 1 s p2 s 2p ¼» ¬« r p 1 rp2 1 ¼»
e. Matriz nula: se denomina matriz 0 pues todos sus elementos son 0.
Ejemplo 5: 0 = ª0 0 0 º
¬«0 0 0 »¼
NOCIONES BÁSICAS DE ÁLGEBRA DE MATRICES 11
f. Matriz diagonal: es aquella en que todos los elementos, excepto los de la

diagonal principal, son nulos. Por ejemplo:
ª s12 0 0 º ª s1 0 0º
Ejemplo 6: ;
D = «0 s 22 0 » D1/ 2 = « 0 s2 0»
« » « »
¬0 0 s 32 ¼ «¬ 0 0 s 3 »¼
g. Matriz escalar (K): matriz diagonal en la que todos los elementos no

nulos son iguales.
ª3 0 0º
Ejemplo 7:
A = «« 0 3 0 »»
¬« 0 0 3 ¼»
h. Matriz identidad (I): matriz diagonal cuyos elementos de la diagona

principal son 1.
2. Operaciones con matrices
2.1. Cálculo de la traspuesta de una matriz
La traspuesta de una matriz A de orden n x p se calcula intercambiando las

filas y las columnas de forma que se obtiene la matriz A' de orden p x n
donde la i-ésima fila de A es la j-ésima columna de A'. A continuación se
presenta un ejemplo:
Ejemplo 8: A ª3 2º ª3 0º ª3 2º
; A' «2 ; ( A ' )' A.
«0
¬ 1 »¼ ¬ 1 »¼ «0
¬ 1 »¼
Se verifica que: tr(A) = tr(A').
2.2. Suma de matrices
A + B = [aij + bij] para i = 1, 2, ..., n y j = 1, 2, ..., p (1.2)

Para sumar dos matrices es necesario que sean conformables, es decir,
que tengan el mismo orden.
Ejemplo 9: A ª5 2º ª3 2º ª8 4 º
«4 y B ; A B
¬ 1 »¼ «4
¬ 6 »¼ «8
¬ 7 »¼
Además de las propiedades asociativa y conmutativa, se cumplen las

siguientes:
(A + B)' = A' + B'
tr(A + B) = tr(A) + tr(B)
2.3. Multiplicación por un escalar

Según lo visto en la suma de matrices puede establecerse que:
A + A = [aij] + [aij] = [2 aij] = 2A
Extendiendo esto al caso en que k es un escalar:
kA = Ak = [kaij] (1.3)
Por tanto, cada elemento de la matriz A queda multiplicado por k.
Ejemplo 10: A ª3 2º ª3 2º ª6 4 º
«1 y k 2; kA 2 «
¬ 5 »¼ ¬1 5 »¼ «2
¬ 10 »¼
2.4. Producto de dos matrices

Para entender como se multiplican dos matrices, previamente se necesario
introducir el concepto de producto de vectores, también llamado producto
interno de vectores.
El producto interno de vectores, |ab|, es el número que resulta de la suma
de los productos cruzados de los elementos de a y b. Es decir:
|ab| = ¦aibi ; Donde: |aa| = |a| = a'a = ¦ ai2 (1.4)
ª1 º ª2º ª2º
Ejemplo 11: «0 » y b «1 »; ab
a « » « » a' b >1 0 1@ ««1 »» 1( 2) 0(1) 1(3) 5.
¬«1 ¼» ¬« 3 ¼» ¬« 3 ¼»
ª1 º
a >1 0 1 @ «« 0 »» 12 0 2 12 2.
«¬ 1 »¼
ª2º
b >2 1 3 @ «« 1 »» 2 2 12 3 2 14 .
«¬ 3 »¼
La longitud de un vector se obtiene calculando la raíz cuadrada de su

producto interno. Es decir:
||a|| =|a|1/2 = (a'a) 1/2 (1.5)
En el ejemplo 11: ||a|| = 2; ||b|| = 14 .
Se denomina vector unitario o normalizado (u) aquel cuya longitud es

la unidad:
a
u ; donde: u'u = 1 (1.6)
a
En el vector a del ejemplo 11:
ª1º ª1/ 2 º ª1/ 2 º

« » . Y se puede comprobar que: « »
u
1 « »
0
2« »
« 0 » >
u' u 1/ 2 0 1/ 2 « 0 » 1. @
«1/ 2 » «1/ 2 »
¬«1¼» ¬ ¼ ¬ ¼
Dos vectores son ortogonales si su producto interno es nulo. Es decir:

|ab| = 0 (1.7)
Dos vectores son ortonormales si son ortogonales y normalizados.
Una matriz es ortogonal cuando todos sus vectores son ortonormales. Es

decir:
AA' = I o A-1 = A' (1.8)
Ejemplo 12: Dada la matriz A con vectores a1 y a2:
ª0.707 0.707º a1 'a1 0.7072 0.7072 1; a2 'a2 (0.7072 ) 0.7072 1
A « »; ®
¬0.707 0.707 ¼ ¯ | a1 'a2 | 0.707(0.707) (0.707)0.707 0
Vistos estos conceptos, a continuación se introduce el del producto de

dos matrices. Si se multiplican las matrices A x B se obtiene la matriz C,
cuyos elementos cij se obtienen de los productos internos |ai' bj|.
Para multiplicar las matrices A y B, éstas deben ser conformables. La
matriz A ha de tener el mismo número de columnas que de filas tenga la
matriz B. De este modo la matriz C contiene el mismo número de filas que A
y de columnas que B. Es decir:
An x p x Bp x m = Cn x m (1.9)
ª2 3º
Ejemplo 13: ª4 2 3º «1
A «5 B 5 »»
2 »¼ «
2u3 3u 2
¬ 1
¬« 4 2 »¼
ª ª2º ª3ºº
« »
« >4 2 3 @ «« 1 »» >4 2 3 @ «« 5 »» »
« ¬« 4 ¼» ¬« 2 ¼» » ª 22 28 º
AB C 2u 2 « » « 19
« ª2º ª3º » ¬ 24 »¼
« >5 1 2 @ «« 1 »» >5 1 2 @ «« 5 »» »
« »
¬« ¬« 4 ¼» ¬« 2 ¼» ¼»
Nótese que en este caso se verifica la propiedad asociativa (A(BC) =

(AB)C) pero no la conmutativa (AB z BA). Como puede verse, en el ejemplo
13: A2x3 x B3x2 = C2x2; mientras que: B3x2 x A2x3 = C3x3.
ª ª4º 2º 3º º
«>2 3@ « » >2 3@ ª« » >2 3@ ª« »»
ª2 3º « ¬5¼ 1
¬ ¼ ¬2¼ » ª23 7 12 º
«1 5» ª4 2 3º « ª4º 2 3 »
BA C3u3 « » «5 1 2» « >1 5@ «5» >1 5@ ª« º» >1 5@ ª« º» » «29 7 13 »
« »
1 ¬2¼ »
«¬4 2»¼ ¬ ¼ « ¬ ¼ ¬ ¼
¬«26 10 16 »¼
ª4º 2 3
«
«>4 2@ «5» >4 2@ ª« º» >4 2@ ª« º»»»
¬ ¬ ¼ 1
¬ ¼ ¬2¼ ¼
Del mismo modo:
ª1 º ª1 º ª1 2º
a' a >1 2@ « » 5 y aa ' « 2 » >1 2 @ «2
¬2¼ ¬ ¼ ¬ 4 »¼
Otras propiedades del producto de matrices son las siguientes:

AI = IA = A
A(B+C) = AB + AC
A2 = A A (si A es cuadrada).
tr(AB) = tr(BA) (si AB es cuadrada).
|AB| = |A| |B| (si A y B son cuadradas y del mismo orden).
(ABC)' = C' B' A' (1.10)
2.5. Cálculo del determinante de una matriz
Un determinante, |A|, es un polinomio de los elementos de la matriz A. Se

calcula sumando ciertos productos de los elementos de A según unas reglas.
El determinante sólo puede definirse en matrices cuadradas.
En matrices 2 x 2 su cálculo es muy sencillo.
Ejemplo 14: A ª3 2º ; |A| = 3(4) – 2(1) = 10

«1 4 »¼
¬
En matrices 3 x 3 su cálculo puede realizarse mediante ‘la regla de

Sarrus’. El procedimiento consiste en ampliar la matriz añadiendo las dos
primeras columnas de la matriz a la derecha. Como muestra el ejemplo 15, el
determinante se obtiene sumando los productos de la diagonal principal y
restando los productos de la otra diagonal.
ª4 1 2º ª4 1 2º 4 1 | A | (4)(5)(2) (1)(1)(3) (2)(2)(6)
Ejemplo 15: «2 5 1» 2 5
A ««2 5 1»» « » (2)(5)(3) (4)(1)(6) (1)(2)(2) 9.
«¬3 6 2»¼ «¬3 6 2»¼ 3 6
Si el determinante es distinto de cero (|A| z 0), se dice que la matriz es

regular, como las matrices de los ejemplos 14 y 15. Si el determinante es
cero (|A| = 0), se dice que la matriz es singular.
Para obtener determinantes de matrices n x n se suman los n! productos de

los elementos de la matriz teniendo en cuenta que cada producto sólo puede
contener un elemento de una fila o columna de la matriz (para más detalle,
ver Searle, 1982, pág. 89).
2.6. Cálculo de la matriz inversa

La inversa de una matriz, se denota por A-1 y es aquella tal que AA-1 =
-1
A A = I. Sólo puede obtenerse para matrices cuadradas y regulares mediante
la fórmula:
1 A
A1 A
| A|
Donde AA es la matriz adjunta de A'. Esta matriz contiene los elementos

Aij (los adjuntos) que se calculan mediante la expresión: Aij = (-1)i+j Äij¨.
Donde Aij es una matriz de orden n – 1 que se obtiene eliminando la fila i y la
columna j de A', y Äij¨ es su determinante. A continuación se presentan dos
ejemplos:
Ejemplo 16: A ' ª3 1º ; 1 1 ª 4 2º ª 0 .4 0 .2 º

A 1 AA
«2
¬ 4 »¼ |A| 10 «¬ 1 3 »¼ « 0 .1 0 .3 »
¬ ¼
Ejemplo 17:
ª 5 6 1 6 1 5º
« »
ª4 2 3º
; « 1 2 2 2 2 1» ª 4 10 9º
A ' ««1 5 6 »» « 2 3 4 3 4 2» «1 2 0»
AA « - » « »
«¬ 2 1 2»¼ « 1 2 2 2 2 1» «¬3 21 18»¼
« 2 3 4 3 4 2»
-
« 5
¬ 6 1 6 1 5 »¼
ª4 10 9 º ª 0.44 1.11 1º
1 1«
A 1 AA 1 2 0 »» « 0.11 0.22 0 »»
|A| 9« «
«¬ 3 21 18 »¼ «¬ 0.33 2.33 2 »¼
Si A es simétrica A-1 también lo es. Además, si A y B son cuadradas y del

mismo orden:
(A')-1 = (A-1)'
(AB)-1 = B-1 A-1 (1.11)
3. Usos de matrices y determinantes
3.1. Sistema de ecuaciones lineales
Las operaciones que se han visto en el anterior apartado son necesarias
para resolver un sistema de ecuaciones lineales del tipo:
a11 x1 a12 x2 ... a1p x p c1 ½ ªa11 a12 a1p º ª x1 º ª c1 º

° «a a a2 p »» «« x2 »» «c »
a21 x1 a22 x2 ... a2 p x p c2 ° Matricialmente: « 21 22 « 2»
¾ Ax c;
« »« » «»
° « »« » « »
an1 x1 an2 x2 ... anp x p c p °¿ ¬«an1 an2 anp ¼» ¬«x p ¼» ¬«c p ¼»
Donde A es la matriz de coeficientes, x el vector de incógnitas y c el

vector de términos independientes. El sistema lineal A x = c puede resolverse
mediante la regla de Cramer:
x = A-1 c
Para emplear esta regla es necesario que la matriz A sea regular. El

sistema puede ser compatible (con solución) o incompatible (sin solución),
determinado (con solución única) o indeterminado (con varias soluciones).
El siguiente ejemplo muestra el caso general; es decir, el de sistemas de

ecuaciones lineales con solución única:
Ejemplo 18: 2 x 1 3x2 7 ½ ª2 3 º ª x1 º ª7 º

3 x1 x 2
¾;
5 ¿ «¬ 3 1»¼ «¬ x 2 »¼ « 5 » ; Ä ¨ 11
¬ ¼
ª x1 º 1 ª 1 3º ª 7 º 1 ª 22 º ª2º
x A -1 c; «x »
¬ 2¼ 11 «¬ 3 2 »¼ «¬ 5 »¼ 11 «¬ 11 »¼ «1 »
¬ ¼
El ejemplo 18 se trata de un sistema no homogéneo donde A es regular.

Considérese este otro ejemplo:
Ejemplo 19: 3 x1 2 x 2 4 ½ ª 3 2 º ª x1 º ª4º

0 . A 1 no existe.
¾; « 20 » ; A
15 x1 10 x 2 20 ¿ «¬15 10 »¼ «¬ x 2 »¼ ¬ ¼
En el ejemplo 19, la matriz A es singular y la segunda ecuación es

redundante, simple múltiplo de la primera. Esto implica que el sistema puede
tener varias soluciones o ser incompatible. Si por ejemplo se consideran las
siguientes ecuaciones:
Ejemplo 20: x 1 x 2 2 ½
¾
3 x1 3 x 2 4¿
En el ejemplo 20, si una ecuación es cierta la otra no. Por tanto, el sistema
es inconsistente.
En síntesis, el cuadro inferior muestra un resumen de las soluciones a

diferentes tipos de sistemas de ecuaciones lineales (para más detalle véase
Searle, 1982; págs. 227-256):
Ecuaciones lineales: A x = c Solución:

Sistema no homogéneo con Ä¨ z 0 Única
cz0 con Ä¨ = 0 Varias o solución incompatible
Sistema homogéneo con Ä¨ z 0 Trivial
c=0 con Ä¨ = 0 Varias (y la trivial)
3.2. Rango de una matriz

El rango de una matriz, simbolizado mediante r(A), es el número de
vectores (fila y columna) linealmente independientes que existen en la matriz
A.(1)
r(A) es siempre un número positivo igual o menor al número de filas (n) o
columnas (p) de A. Es decir:
0 d r(A) d min(p, n)
Propiedades:
(1). Si A es una matriz cuadrada su rango no puede exceder su orden: r(A) d p.
(2). Si A es una matriz regular (|A| z 0) de orden p, entonces r(A) = p.
(3). Si A es una matriz singular (|A| = 0) de orden p, entonces r(A) < p.
(4). r(A) = r(A').
(5). r(A'A) = r(AA') = r(A) = r(A').
El rango es una de las características más importantes y útiles de una

matriz y en álgebra de matrices a menudo se utiliza más incluso que el
determinante.
3.3. Autovalores
Si A es una matriz cuadrada de orden p y O un escalar tal que:
«A – O I «= 0 (1.12)
O es el autovalor, valor propio o raíz latente de A.
«A – O I «= 0 (también denominada ecuación característica de A) es una
ecuación polinomial de O de orden p; es decir con p raíces (O 1, O 2, ..., O p).
Ejemplo 21: A ª1 4º; A 1 O 4
«9 1» 35 ; AO I (1 O )(1 O ) - 36
¬ ¼ 9 1 O
2 r 4 140 O1 7
O2 2O 35 0; O ®
2 ¯ O2 5
(1)
Téngase en cuenta que el número máximo de columnas independientes es igual al número
máximo de filas independientes. Para saber si un conjunto de vectores es linealmente
independiente o dependiente se puede aplicar la fórmula (1.7). También puede saberse
calculando el determinante de A. Si «A ¨z 0, hay independencia y si Ä¨= 0, dependencia.
ª1 1 0º (1O) 1 0
Ejemplo 22: ( 2 O ) 0 0 0
A ««0 2 0»»; A 0; AO I 0 (2O) 0 (1O) 1
1 O 1 O
«¬1 1 0»¼ 1 1 O
O1 2
°
(1 O)(2 O)(O) O3 3O2 2O O2 3O 2 0; ®O2 1
°O 0
¯3
Propiedades de los autovalores:
1. ¦Oi = tr(A) ...................... En el ejemplo 21 se demuestra que 7 – 5 = 1 + 1
2. 3Oi = «A « ....................... En el ejemplo 22 se demuestra que (2) (1) (0) = 0
3. Si «A ¨ = 0, al menos un Oi es 0 ............ En el ejemplo 22 «A ¨ = 0 y O3 = 0
4. r(A) es el número de Oi distintos de 0 ... En el ejemplo 21: r(A) = 2
3.4. Autovectores
Siendo A una matriz cuadrada, O un escalar y x un vector no nulo, si:
Ax=Ox (1.13)
Entonces x es un autovector, vector propio, característico o latente de A.
A x = O x o (A-O I) x = 0 es un sistema homogéneo. Tendrá soluciones

distintas de 0 si _A – O I_ = 0. Es decir, si O es un autovalor de A.
Hay tantos autovectores independientes de A como autovalores.
Los autovectores para el ejemplo 21 son:

ª1 4º O1 7
A «9 ; A 35 ; A OI 0; ®
¬ 1 »¼ ¯ O2 5
1er autovector: (A O I)x 0; ª 6 4 º ªx11 º 0; 6x11 4x21 0; x11 2 ; x ª2º

1 1 « 9 6» «x » ® ® 1 «3»
¬ ¼ ¬ 21¼ ¯ 9x11 6x21 0 ¯ x21 3 ¬ ¼
2º autovector: (A O I)x 0; ª6 4º ª x12 º 0; 6x12 4x22 0 ; x12 2 ; x ª 2 º

2 2 «9 6» «x » ® ® 2 « 3»
¬ ¼ ¬ 22 ¼ ¯ 9x12 6x22 0 ¯x22 3 ¬ ¼
Autovectores normalizados: x ' x x1 ª 0 . 56 º ; ª 0.56 º

1 1 13 ; u1
x1 « 0 . 83 » u2 « 0.83»
¬ ¼ ¬ ¼
Matriz de autovectores normalizados: U ª 0 . 56 0 . 56 º

« 0 . 83 0 . 83 »¼
¬
Propiedades de los autovectores:

1. Si A es simétrica sus autovectores son ortogonales.
2. Dada A (simétrica), / (matriz diagonal que contiene los autovalores) y U
(matriz de autovectores normalizados): A = U/U'o A-1 = U/-1U' o /= UAU'
3.5. Ejemplo resuelto

Sistema homogéneo:
2 x1 4 x 2 0½ ª2 4 º ª x1 º ª0 º
4 x1 6 x 2 0¿
¾; «4 6 » « x » «0 ». A 4; r ( A) 2 vectores independientes
¬ ¼ ¬ 2¼ ¬ ¼
ªx º 1 ª 6 4 º ª0º ª0 º
x A 1c; « 1 » « . Solución única (trivial)
¬ x2 ¼ 4 ¬ 4 2 »¼ «¬0»¼ «¬0 »¼
Autovalores:
(2 O ) 4 8 r 64 16 O1 8.47
AO I (2 O)(6 O ) 16 O2 8O 4 0; Oi ®
4 (6 O) 2 ¯ O2 0.47
Se comprueba que: 1. O1 + O2 = 8.47 + (-0.47) = 8 = tr(A).
2. (O1) (O2) = 8.47(-0. 47) = -4 = Ä ¨.
3. Todas las raíces son no nulas.
4. Hay dos raíces distintas de 0: r(A) = 2.
Autovectores:
1º: (A O I)x ª2 8.47 4 º ª x11 º ª 6.47 4 º ª x11 º ª0º 6.47x11 4x21 0

; ®
« 6 8.47 »¼ «¬x21 »¼ «¬ 4 2.47»¼ «¬x21 »¼ «¬0»¼ ¯ 4x11 2.47x21 0
1 1
¬ 4
x 21
6.47
x11 1.62 x11 ; x '1 >1 1.62 @; x 1' x 1 1 . 90
®
4 ¯ u '1 >0 . 526 0 . 851 @
2º: (A O I)x ª2 0.47 4 º ª x12 º ª2.47 4 º ª x12 º ª0º 2.47 x12 4 x 22 0
2 2 « 4 6 0.47»¼ «¬ x 22 »¼ « 4 6.47» « x » «0»; ®4 x 6.47x 0
¬ ¬ ¼ ¬ 22 ¼ ¬ ¼ ¯ 12 22
x12
4
x22 1.62x22 ; ® x ' 2 > 1 .62 1@; x ' 2 x 2 1 . 90
2.47 ¯u' 2 > 0 .851 0 .526 @
Como A es simétrica, se comprueba que:
ª0.526 0.851º ª8.47 0 º ª 0.526 0.851º ª2 4º
U/ U' A
« 0.851
¬ 0.526 »¼ «¬ 0 0.47 »¼ «¬ 0.851 0.526 »¼ «4 6»
¬ ¼
ª0.526 0.851º ª 2 4 º ª 0.526 0.851º ª8.47 0 º

UAU' « 0.851 0.526 » « 4 6 » « 0.851 0.526 » « 0 /
¬ ¼¬ ¼¬ ¼ ¬ 0.47 »¼
3.6. Formas cuadráticas
Siendo A una matriz cuadrada y simétrica y x un vector de p elementos

no nulos, se llama forma cuadrática a la expresión:
ªa11 a12 a1p º ª x1 º
«a a a2 p »» «« x2 »»
>
Q x' Ax x1 x2 xp «
«
21 22

@ »« » ¦a x x ¦a
i1 i 1 x x ... ¦aip xi xp
i2 i 2
« »« »
¬«ap1 ap2 app ¼» ¬«xp ¼»
(1.14)
¦¦ a x x ¦ a x ¦ a x x ¦ a x ¦(a
i j
ij i j
i
2
ii ii
iz j
ij i j
i
2
ii ii
i j
ij a ji ) xi x j
Ejemplo para A 2 x 2: Q x' Ax >x x @ ª a11 a12 º ª x1 º a x 2 (a a ) x x a x 2

1 2 « »« » 11 1 12 21 1 2 22 2
¬a21 a22 ¼ ¬ x2 ¼
Como se observa, x' A x es una función cuadrática de las x e incluye todos

los elementos posibles de segundo orden.
Propiedades:
1. Para x = 0 todas las formas cuadráticas Q son 0.
2. Si Q > 0 para todo x z0, entonces x' A x (y por tanto A) es definida
positiva. Donde A es regular, r(A) = p y todos sus autovalores son
positivos.
3. Si Q t 0 para todo x, entonces A es semidefinida positiva. Donde A es
singular, r(A) < p y sus autovalores son positivos con uno al menos nulo.
4. A sería definida negativa (r(A) = p y sus Oj < 0) si –Q es definida positiva
y semidefinida negativa (r(A) < p y sus Oj d 0) si –Q es semidefinida
positiva.
5. Si A es definida positiva con autovalores O1 t O2 …t Op t 0 y autovectores
a1, a2, ..., ap, entonces Q es máxima para el máximo valor de O con la
restricción x'x = 1. Es decir:
Q = x' A x = x' Oi x =O i x'x = O i (1.15)
Ejemplo 23: A ª1 0 º
« 0 1 »; Q x' Ax x12 x 22 ; Q ! 0 : definida positiva
¬ ¼
Obsérvese que: |A| = 1; r(A) = p = 2.
1 O 0
AO I (1 O )(1 O ) 0; O1 O2 1.
0 1 O
Ejemplo 24: B ª 1 -1º; Q x 2 x 2 2x x (x x ) 2 ; Q t 0 : semidefinida positiva

«-1 1 » 1 2 1 2 1 2
¬ ¼
Obsérvese que: |B| = 0; r(B) = 1.
1 O 1
BO I (1 O )(1 O ) - 1 O (O 2) 0; O1 2; O 2 0.
1 1 O
Las formas cuadráticas tienen muchos usos en el análisis multivariante.
4. Vectores y estadísticos
Los estadísticos descriptivos pueden expresarse mediante vectores. La
siguiente tabla resume la forma matricial de algunos estadísticos y de las
matrices que facilitan su cálculo:
Estadístico Forma matricial
Media 1 1
x 6X i x' 1 cX
n n
Puntuaciones diferenciales xi Xi X X X * 1x '
1 1 1
Varianza s2 6 x i2 s2 x' x ¨x¨
n 1 n 1 n 1
1/ 2
Desviación típica 1 § 1 ·
s2 6 xi2 s ¨ ¸ x
n 1 © n 1¹
Covarianza 1 1 1
sxy 6 xi yi s xy x' y ¨xy¨
n 1 n 1 n 1
6 xi y i x' y xy
Correlación rxy rxy cosTxy
6 x i2 6 y i2 (x' x)(y' y) x y
Matriz de covarianzas 1
S X' X
n 1
ª s12 0 0º
Matriz de varianzas « »
D « »
«0 0 2»
sp ¼
¬
ª1 0 0 º
Matriz de « s1 »
Z XD1 / 2 X« »
puntuaciones típicas « 0 0 1 »
¬« s p ¼»
Matriz de 1 1/ 2 1/ 2

correlaciones R Z' Z D SD
n 1
S y R son matrices gramianas pues se basan en sumas de cuadrados y

productos cruzados.
Las matrices S y R se relacionan mediante las siguientes fórmulas:

R = D-1/2 S D-1/2
S = D1/2 R D1/2 (1.16)
Como S y R son cuadradas y simétricas y D1/2 es una matriz regular, las

matrices S y R son equivalentes. Ello implica que r(S) = r(R).
Ejemplo 25: A continuación se presenta un ejemplo del cálculo de la

covarianza y la correlación para dos variables medidas en tres sujetos:
Sujeto X1 X2
1 3 6
2 5 6
3 10 12
ª3 6º
Matriz de datos (en puntuaciones directas): «5
X *
6»
« »
¬«10 12 ¼»
ª 3 6 º
Medias: 1 1 ª 1 ª
x' 1' X
«1 1 1 º»¼ «« 5 6 »» «18 24 º
»¼ >6 8@
n 3 ¬ 3 ¬
«¬ 10 12 »¼
ª3 6 º ª6 8º ª 3 - 2º
Puntuaciones diferenciales:
X X * 1x ' «« 5 6 »» «« 6 8 »» « 1
« - 2 »»
«¬ 10 12 »¼ «¬ 6 8 »¼ «¬ 4 4 »¼
ª 3º
Varianzas: 1 1
s 12 ¨x 1 ¨ > 3 1 4 @ «« 1 »» 13
n 1 2
«¬ 4 »¼
ª 2º
1 1
s 22 ¨x 2 ¨ > 2 2 4 @ «« 2 »» 12
n 1 2
«¬ 4 »¼
ª 2º
Covarianza: 1 1
s xy ¨x 1 x 2 ¨ > 3 1 4 @ «« 2 »» 12
n 1 2
«¬ 4 »¼
ª 3 -2º
Matriz de covarianzas: 1 1 ª 3 1 4º « ª13 12 º
S X'X 1 - 2 »»
n 1 2 «¬ 2 2 »
4¼ « «12
¬ 12 »¼
¬« 4 4 ¼»
Correlación: r x1 x 2 24
xy 0.96
x1 x 2 (5.10)(4.90)
Matriz de correlaciones:
ª1 / 13 0 º ª13 12 º ª1 / 13 0 º ª 1 0 .96 º
R D 1 / 2 SD 1 / 2 « 0 » «12 12 » « 0
¬ 1 / 12 ¼ ¬ ¼ ¬ 1 / 13 »¼ « 0 .96
¬ 1 »¼
5. Combinaciones lineales
Las técnicas multivariantes se formulan mediante combinaciones lineales
por lo que es necesario comprender su definición y propiedades.
Considérese la siguiente combinación lineal:

y= Xa
La variable aleatoria y es una transformación o combinación lineal de X
mediante a. Donde a' = [a1, ..., ap] es un vector de constantes, X una matriz
de puntuaciones de n sujetos en p variables (siendo P ' su vector de medias).
La media y varianza de y es:
E (y) = P ' a
1 1 1
Var ( y ) y'y ( Xa )' ( Xa ) a ' X ' Xa
n 1 n 1 n 1
1 (1.17)
a' X ' Xa a ' Sa
n 1
A continuación se presenta un ejemplo para ilustrar la fórmula (1.17) en el

caso en que p = 2:
Var (X1 a1 + X2 a2) = Var (X1 a1) + Var (X2 a2) + 2 Cov (X1 a1, X2 a2) =
= a12 Var (X1) + a22 Var (X2) + 2 a1 a2 Cov (X1, X2)
Como se observa, la varianza de una combinación lineal es una forma
cuadrática. En el caso en que a fuese un vector normalizado (donde a' a = 1),
la varianza de y queda como:
Var (y) = a' S a = a' O a = O
Las ecuaciones de (1.17) pueden generalizarse al caso Y = X A. Donde A

es una matriz de constantes de orden n x p, y la media y varianza de Y es:
E (Y) = P ' A
Var (Y) = A' S A (1.18)
A continuación se comentan algunas propiedades de las matrices S y R.

En primer lugar ambas son semidefinidas positivas. Puesto que toda varianza
ha de ser no negativa:
Var (X a) t0 para todo a
Como Var (X a) = a' S a, entonces S tiene que ser, al menos, semidefinida

positiva. S y R son matrices equivalentes pues en las fórmulas que las
relacionan en (1.16) la matriz D1/2 es regular. Por tanto, R también es
semidefinida positiva.
En segundo lugar, puesto que las matrices S y R son equivalentes, el
rango de S es el mismo que el de R. Este rango puede ser menor o igual que
p. Si r (S) = p, entonces S y R serán definidas positivas pues Var (X a) = a' S
a es mayor que cero para todo a z0. Sin embargo, si r (S) < p entonces S y R
serán singulares y ello indicará una restricción de linealidad en los
componentes de X. Esto implica que existe un vector a z0 tal que X a es
igual a una constante. Entonces, Var (X a) = a' S a será cero, indicando que la
matriz S es semidefinida positiva en lugar de definida positiva.
Para ilustrar este último punto, supóngase que p = 3 y que existe una
restricción de linealidad en las tres variables tal que X1 = X2 + X3. Entonces,
Var(X1 - X2 - X3) = 0 y el vector a' = [1, -1, -1]. En este caso, una de las tres
variables es redundante y por tanto la dimensionalidad es 2 en lugar de 3.
Esto se refleja en el rango de S que también será 2. Según esta propiedad, el
rango de S es un indicador útil para establecer la dimensionalidad del
problema, siendo [p – r(S)] el número de restricciones lineales independientes
en los componentes de X. De este modo, cuando r (S) < p se dice que los
componentes de X son linealmente dependientes.
Ejemplo 26: Sean las variables X1 y X2 y su matriz de covarianzas S ª4 3º .

« 3 9»
¬ ¼
Si se forman las combinaciones lineales Y1 = X1 + X2, Y2 = X1 - X2, la matriz de
covarianzas para Y es:
ª1 1º ª4 3º ª1 1 º ª 19 5º
Var( Y ) A ' SA «1
¬ - 1»¼ «3
¬ 9 »¼ «1
¬ 1»¼ « 5
¬ 7 »¼
Y la matriz de correlaciones:
ª1/ 19 0 º ª 19 5 º ª1/ 19 0 º ª 1 0.43 º
R D 1 / 2 SD 1 / 2 « »« « »
¬ 0 1/ 7 ¼ ¬ 5 7 »¼ ¬ 0 1/ 7 ¼
« 0.43
¬ 1 »¼
6. El álgebra de matrices y el lenguaje MATRIX del SPSS

Las operaciones con matrices son complejas. Existen diversos paquetes
informáticos que evitan su cálculo a mano. A continuación se introduce el
lenguaje MATRIX del programa SPSS, uno de los más empleados en las
ciencias sociales.
El lenguaje MATRIX no se encuentra en los menús desplegables del
programa SPSS. Para utilizarlo es necesario acudir a ventanas de sintaxis
desde donde se escribe la operación que se desea realizar y se ejecuta.
Dependiendo de la sintaxis ejecutada, los resultados se muestran en el editor

de datos o en el visor de resultados del SPSS.
Siempre que se realice una sesión con el lenguaje MATRIX hay que
empezar con el comando MATRIX A. y terminar con el comando END
MATRIX. Entre medias, se incluyen otros comandos que definen las
operaciones que el procesador del SPSS ha de ejecutar.
Antes de entrar en esos comandos, se verá cómo definir una matriz en
lenguaje MATRIX. Los elementos de la matriz se introducen entre corchetes
({ }), las filas se separan mediante punto y coma (;) y los elementos de la fila
mediante comas (,).
Ejemplo 27: La sintaxis y los resultados para definir a la matriz: A ª1 3º es:

«2 5»
¬ ¼
MATRIX Run MATRIX procedure:
A. A
COMPUTE A {1, 3; 2, 5} . o 1 3
PRINT A. 2 5
END MATRIX. - - - - - - END MATRIX - - - - -
Como se observa, para definir la matriz A se ha utilizado el comando

COMPUTE y para que muestre los resultados el comando PRINT.
A continuación, se muestran algunos comandos para obtener operaciones
tan sencillas como la traspuesta, la inversa, el determinante y la traza de la
matriz A:
A
A. 1 3
COMPUTE A = {1, 3; 2, 5} . 2 5
COMPUTE B = TRANSPOS (A) . B
COMPUTE C = INV (A) . 1 2
3 5
PRINT A . o C
PRINT B . -5 3
PRINT C . 2 -1
PRINT DET (A) . DET(A)
PRINT TRACE (A) . -1
END MATRIX. TRACE(A)
6
---- END MATRIX ----
Los comandos de las operaciones más usuales con matrices se resumen en

el siguiente cuadro:
ABS (A) Valores absolutos de los elementos de la matriz A

COS (A) Cosenos de los elementos de la matriz A
DET (A) Determinante de la matriz A
EVAL (A) Autovalores de la matriz A (si A es simétrica)
EIGEN Autovectores de una matriz simétrica
IDENT (n, p) Crear una matriz identidad de orden n x p
INV (A) Inversa de la matriz A
MAKE (a, b, c) Crear una matriz de orden a x b con todos los elementos iguales a c
MDIAG (A) Crear una matriz diagonal con los elementos del vector A
MMAX (A) Máximo elemento de la matriz A
MMIN (A) Mínimo elemento de la matriz A
MSSQ (A) Matriz de suma de cuadrados de los elementos de A
NCOL (A) Nº de columnas de la matriz A
NROW (A) Nº de filas de la matriz A
RANK (A) Rango de la matriz A
SIN (A) Senos de los elementos de la matriz A
SOLVE (A, B) Solución al sistema de ecuaciones lineales AX = B (si Ä¨z 0)
SQRT (A) Raíces cuadradas de los elementos de la matriz A
SSCP (A) Sumas de cuadrados y productos cruzados de los elementos de A
TRACE (A) Traza de la matriz A
TRANSPOS (A) Traspuesta de la matriz A
A continuación se muestran ejemplos de algunas operaciones con

matrices (suma, producto, determinante y rango):

A
A. 4 2
3 5
COMPUTE A = {4, 2; 3, 5} . B
COMPUTE B = {1, 3; 4, 7} . 1 3
COMPUTE C = A + B . 4 7
COMPUTE D = 2 * A . C
COMPUTE E = A * B . 5 5
o
COMPUTE F = B * A . 7 12
D
PRINT A . 8 4
PRINT B . 6 10
PRINT C . E
PRINT D . 12 26
PRINT E . 23 44
PRINT F . F
PRINT DET (A) . 13 17
PRINT RANK (A) . 37 43
DET(A)
END MATRIX. 14
RANK(A)
2
----- END MATRIX ----
También puede resolverse el ejemplo 25 del apartado 4 con el lenguaje

MATRIX. En este caso A es la matriz X*, B la matriz 1x ' , C la matriz X, D
la matriz de covarianzas, G la matriz D1/2 e I es la matriz R. La sintaxis y
resultados obtenidos son los siguientes:
A. A
3 6
COMPUTE A = {3, 6; 5, 6; 10, 12}. 5 6
COMPUTE B = {6, 8; 6, 8; 6, 8}. 10 12
COMPUTE C = A - B .
COMPUTE D = 1/2 * SSCP (C). B
COMPUTE E = SQRT (D). 6 8
COMPUTE F = {3.61, 3.46}. 6 8
COMPUTE G = MDIAG(F). 6 8
COMPUTE H = INV (G).
COMPUTE I = H * D * H . C
o -3 -2
PRINT A . -1 -2
PRINT B . 4 4
PRINT C .
PRINT D . D
PRINT E . 13 12
PRINT F . 12 12
PRINT G .
PRINT H . E
PRINT I . 3.605551275 3.464101615
3.464101615 3.464101615
END MATRIX.
F
3.610000000 3.460000000
G
3.610000000 .000000000
.000000000 3.460000000
H
.2770083102 .0000000000
.0000000000 .2890173410
I
.997536851 .960722463
.960722463 1.002372281
------ END MATRIX -----
A continuación se muestra la solución del ejemplo resuelto del apartado

3.5 mediante el lenguaje MATRIX. La sintaxis y resultados son los siguientes:

A
A. 2 4
4 6
COMPUTE A = {2, 4; 4, 6}. B
COMPUTE B = {0; 0} . 0
COMPUTE C = SOLVE (A, B). 0
CALL EIGEN (A, D, E). C
o 0
PRINT A . 0
PRINT B . D
PRINT C . .5257311121 .8506508084
PRINT D . .8506508084 -.5257311121
PRINT E. E
PRINT DET (A). 8.472135955
PRINT TRACE (A). -.472135955
DET(A)
END MATRIX. -4.000000000
TRACE(A)
8
Donde A es una matriz simétrica, C es la solución al sistema lineal A X =

B, D es la matriz U de autovectores normalizados y E es el vector de
autovalores de la matriz A.
Por último, también es posible leer matrices desde un fichero. Por

ejemplo, si se tiene la siguiente matriz de correlaciones para seis variables en
el fichero "C:\datos.txt":
1.0000 0.6200 0.1700 0.0900 0.2700 0.7900
0.6200 1.0000 0.1200 0.1300 0.1300 0.5800
0.1700 0.1200 1.0000 0.0200 0.1700 0.4700
0.0900 0.1300 0.0200 1.0000 0.1200 0.0800
0.2700 0.1300 0.1700 0.1200 1.0000 0.5800
0.7900 0.5800 0.4700 0.0800 0.5800 1.0000
Lo primero es redactar la sintaxis para que el SPSS lea el fichero. En este

caso:
MATRIX DATA VAR x1 x2 x3 x4 x5 x6

/FILE="C:\datos.txt"
/FORMAT FULL
/CONT CORR /N=200 .
Al ejecutar la sintaxis, el resultado aparece en el editor de datos del SPSS:

Como se observa, el SPSS ha leído la matriz R y el nombre y tipo de

variables. Con este fichero abierto en el editor de datos, se puede operar con
la matriz R.
Por ejemplo, la sintaxis y resultados para obtener los autovalores y el
rango de la matriz R es la siguiente: (2)
MATRIX . Run MATRIX procedure:
GET A /FILE = * .
CALL EIGEN (A, B, C). RANK(A)
6
PRINT C.
o C
PRINT RANK(A).
2.715868170
END MATRIX . 1.029760178
.988111734
.814820915
.371076909
.080362094
------ END MATRIX -----
El lenguaje MATRIX además de ser útil para llevar a cabo operaciones

con matrices, también permite ejecutar análisis multivariantes partiendo de la
matriz de correlaciones o de la matriz de covarianzas. En los capítulos 3, 4 y
5 se exponen tres técnicas de análisis multivariante y su correspondiente
sintaxis en el lenguaje MATRIX.
(2)
Antes de ejecutar esta sintaxis, para que A sea una matriz cuadrada, es necesario borrar las
dos primeras columnas y la primera fila del editor de datos, pues contienen el nombre, el
tipo de variable y el N, respectivamente.
7. Ejercicios
ª7 0 0º
1. Sea la matriz «0
A « 7 0 »»
«¬ 0 0 7 »¼
a) ¿Es esta matriz al mismo tiempo identidad, cuadrada, diagonal, escalar
y simétrica?
b) ¿Es cierto que A-1 = A?
c) ¿Qué orden debería tener un vector fila que pre-multiplica a la matriz
A para que sean conformables?
2. Si A es una matriz escalar de orden 2 y cada uno de sus elementos

diagonales vale k, siendo k z 0, obtenga cuanto vale k sabiendo que
tr (A) = °A°.
3. Encuentre el valor omitido del vector z sabiendo que los vectores:

x' >1 1 0@ , y' >0 1 2@ , z' >0 ? 1@ son linealmente dependientes.
4. Sean A ª 1 1º , B = A-1, C = B-1. Obtenga la traspuesta, el determinante

« 1 1»
¬ ¼
y el rango de C.
5. Siendo A ª 1 0.20º , ¿es posible que su matriz de autovalores sea

«0.20 1 »¼
¬
ª1 . 20 0 º?
/ « 0
¬ 1 . 20 »¼
6. Obtenga el autovalor O1 de la matriz A ªa bº cuyo autovector asociado

« »
¬1 1¼
es ª1º .
«2»
¬ ¼
7. La matriz A es singular y de orden 3. Sus autovalores son O1 = 3, O2 = -1

yO3 = ?. Obtenga cuanto vale el tercer autovalor de A.
8. Sea la matriz A ª4 aº , calcule el valor de a sabiendo que O1 = 5, O2 = 1.

« »
¬3 2¼
9. Las puntuaciones de 5 personas en 2 pruebas aparecen en la matriz X*:
ª11 10 º
«10 10 »»
«
X* «11 8»
« »
«9 6»
«¬ 9 6 »¼
Obtenga la matriz X, el vector x ' , la matriz de varianzas-covarianzas y

la de correlaciones
10. Suponga que tres variables aleatorias, X1, X2 y X3 son independientes

con varianza 1. Sea Y1 = X1 + X2 + X3, Y2 = X1 - X2 e Y3 = X1 - X3.
Calcule las matrices de correlaciones y covarianzas para Y, donde
Y' = [Y1, Y2, Y3].
11. Indique la sintaxis que tendría que introducir en el lenguaje MATRIX

del SPSS para resolver los ejercicios 4 y 9.
Capítulo 2. La Distribución Normal Multivariante
1. Concepto de distribución multivariante, marginal y condicional

El concepto más básico del análisis multivariante es el de la distribución
de probabilidad multivariante. Se asume que el lector conoce la definición de
variable aleatoria y modelos de distribución de probabilidad (p.e. el modelo
normal). Lo que se pretende en este apartado es extender el planteamiento
univariante al multivariante.
Aunque este capítulo se centra en el caso de las variables continuas, se

empieza con el de las discretas pues es más sencillo.
Sea x un vector aleatorio definido como una variable aleatoria p-

dimensional y sean X1, …, Xp variables aleatorias univariantes:
x ' = [X1, …, Xp]
La distribución conjunta de x se describe mediante la función de

probabilidad conjunta P(x1, …, xp), donde:
P(x1, …, xp) = P(X1= x1, …, Xp = xp)
Por abreviar nos referiremos a P(x1, …, xp) como P(x). La función P(x) ha
de satisfacer condiciones similares a las del caso univariante. Es decir:
P (x) t 0 para cada x

6 P (x) = 1
El rango del sumatorio es el de todos los posibles valores del vector x. Es

decir, todos los posibles valores de las variables X1, …, Xp.
A partir de la distribución conjunta pueden calcularse otros dos tipos de

distribuciones, las distribuciones marginales y las condicionales.
Supóngase que se está interesado en la distribución de un componente del

vector x, denominado Xi, sin tener en cuenta los valores de las restantes
variables. Cuando la distribución de una variable se obtiene a partir de la
distribución conjunta sumando las probabilidades en las restantes variables, a
esto se le denomina distribución marginal. Por tanto, la distribución de
probabilidad para Xi puede obtenerse a partir de:
P(Xi = xi)= 6 P(x1, …, xi, …, xp)
En este caso el rango del sumatorio son todos los posibles valores del
vector x manteniendo constante Xi. Es decir: x1, …, xi – 1, xi + 1, …, xp.
Supóngase que el vector tiene dos elementos (X1 y X2) y su distribución

conjunta es la siguiente:
P( x ) P( X 2 | X 1 )P( X 1 )
Donde P(X2 | X1) es la distribución de X2 condicionada a un valor de X1 y

P(X1) la distribución marginal de X1 (ambos conceptos se describen más
abajo). Si la distribución conjunta coincide con el producto de sus
distribuciones marginales para todo x, tal que P(x) = P(X1) P(X2), se dice que
las variables son independientes.
Generalizando para un vector de dimensión p, se dice que sus elementos

son independientes si:
p
P (x) P (x )
i 1
i i
Si algunas de las variables se fijan a valores constantes, entonces la

distribución de las restantes variables se denomina distribución condicional.
Téngase en cuenta que la probabilidad condicional para el suceso A dado que
ha ocurrido B es: P(A | B) = P(A B) / P(B). Análogamente, la distribución
condicional de una variable aleatoria viene dada por el cociente entre la
distribución conjunta y la distribución marginal correspondiente. En caso de
que p = 2, la distribución condicional de X1 dado que X2 toma el valor x2,
viene dada por:
P ( x1 , x 2 )
P( x1 | x 2 ) P( X 1 x1 | X 2 x2 )
P2 ( x 2 )
Donde P2 (x2) es la distribución marginal de X2.
De forma más general:

P (x)
P ( x1 ,..., x k | x k 1 ,..., x p )
PM ( x k 1 ,..., x p )
Donde PM (xk + 1 ,…, xp) es la distribución marginal de Xk + 1 ,…, Xp .
Ejemplo 1:
Se lanza una moneda cuatro veces y se define:

X1 = número de caras en los lanzamientos 1 y 2
X2 = número de caras en los lanzamientos 2, 3 y 4
Primero, se calcula la distribución conjunta de X1 y X2 y sus marginales:

LA DISTRIBUCIÓN NORMAL MULTIVARIANTE 35
X2 X1 Distribución
0 1 2 Marginal de X2
0 1/16 1/16 0 1/8
1 2/16 3/16 1/16 3/8
2 1/16 3/16 2/16 3/8
3 0 1/16 1/16 1/8
Distribución
1/4 2/4 1/4
Marginal de X1
A continuación se obtiene la distribución de X1 dado que X2 = 2. Para ello,

se busca en la fila donde X2 = 2 y se normaliza para que las probabilidades
sumen 1. Esto es:
1 / 16
P( X 1 0 | X2 2) 1/ 6
3/8
3 / 16
P( X 1 1 | X2 2) 3/6
3/8
2 / 16
P( X 1 2 | X2 2) 2/6
3/8
En el caso de las variables continuas, la distribución de una variable

continua puede describirse mediante la función de distribución o mediante la
función de densidad de probabilidad. Análogamente, se pueden definir
funciones similares para distribuciones multivariantes continuas. Por
ejemplo, la función de distribución conjunta se define mediante:
F (x1, …, xp) = P(X1d x1, …, Xp d xp)
Y la función de densidad de probabilidad conjunta mediante la p-ésima
derivada parcial
w p F ( x1 ,..., x p ) (2.1)
f ( x1 ,..., x p )
w x1 ... w x p
si se asume que F (x1, …, xp) es continua.

Como en las variables discretas, nos referiremos más abreviadamente a
F(x) para designar a la función de distribución conjunta y a f (x) para
designar a la función de densidad de probabilidad conjunta.
La función de densidad de probabilidad conjunta ha de satisfacer las

siguientes condiciones:
1). f (x) t 0 para cada valor de x
f f
2). ³ f
... ³ f
f ( x) dx1 ... dx p 1
Al igual que en el caso univariante, la función de densidad de

probabilidad conjunta no es una probabilidad, de hecho puede ser mayor que
1. No obstante, las probabilidades pueden encontrarse integrando sobre el
subconjunto requerido del espacio p.
Las distribuciones marginales y condicionales pueden definirse
fácilmente en el caso continuo. La distribución marginal de la función de
densidad de probabilidad de un componente de X, por ejemplo Xi, puede
encontrarse a partir de la función de densidad de probabilidad conjunta
integrando sobre todas las restantes variables. Es decir:
f f
f i ( xi ) ³ f
... ³ f
f ( x ) dx 1 ... dx i 1 dx i 1 ... dx p (2.2)
Las variables aleatorias son independientes si la función de densidad de

probabilidad conjunta es igual al producto de las funciones de densidad de
probabilidad marginales para todo x.
p
f (x)
i 1
fi ( xi ) (2.3)
Las funciones de densidad de distribuciones continuas condicionales

pueden obtenerse dividiendo la función de densidad de probabilidad conjunta
entre la correspondiente función de densidad de probabilidad marginal. Esta
operación es análoga a la del caso discreto. Por tanto, en el caso de que p
fuera 2, la función de densidad de probabilidad condicional de X1 dado que
X2 toma el valor x2 es:
f (x1 | x2) = f (x1 , x2) / f2 (x2) (2.4)
Ejemplo 2:
Considérese una distribución bivariante con la siguiente función de densidad
de probabilidad conjunta:
2 si 0 x1 x 2 1
f ( x1 , x 2 ) ®
¯0 En cualquier otro caso
Por tanto, la función de densidad es constante dentro del triángulo como
puede verse en la siguiente figura:
Para determinar la distribución marginal de X1 y X2, y ver si son variables

aleatorias independientes se define la función de densidad de probabilidad
marginal de cada variable en un rango de 0 a 1. Aplicando la fórmula (2.2):
1
f 1 ( x1 ) ³ x1
2 dx 2 2 (1 x1 )
Por tanto,
2(1 x1 ) Si 0 x1 1
f ( x1 ) ®
De forma similar para X2 se tiene que:

x2
f 2 ( x2 ) ³ 0
2 dx 1 2 x2
Por tanto,
2 x 2 Si 0 x 2 1
f ( x2 ) ®
Aplicando la fórmula (2.3) se observa que las dos variables aleatorias no son
independientes ya que: f ( x1 , x 2 ) z f 1 ( x1 ) f 2 ( x 2 ) .
Supóngase ahora que se desea encontrar la distribución condicional de X1

dado que X2 = 3/4. Como se deriva de la figura anterior, la distribución
condicional ha de definirse sobre el rango (0, 3/4). Aplicando la fórmula (2.4)
se encuentra que la función de densidad de probabilidad condicional debe ser
constante sobre este rango y por tanto:
4 / 3 Si 0 x1 3 / 4
f ( x1 | X 2 3 / 4) ®
Medias, varianzas, covarianzas y correlaciones
Como en el caso univariante, para resumir las distribuciones

multivariantes se necesita calcular la media y varianza de cada una de las p
variables asi como las covarianzas y correlaciones.
El vector de medias P' = [P1, …, Pp] es tal que

f
Pi E( X i ) ³ xi f i ( x ) dx (2.5)
f
La varianza del componente i-ésimo de X es:

E ( X i2 ) P i2 ª f x 2 f ( x ) dx º P 2 (2.6)
«¬ ³ f i i
Var( X i )
¼» i
En el caso univariante, suele denominarse Vi2 mientras que en el

multivariante se denomina Vii para que sea congruente con la notación de las
covarianzas.
La covarianza entre dos variables Xi y Xj es:
Cov (Xi, Xj)=E [(Xi –Pi)(Xj –Pj)@ (2.7)
La covarianza entre Xi y Xj se denomina Vij. Si i = j en realidad se trata de

la varianza de una variable (Vii) por lo que no es necesario definir varianza y
covarianza separadamente. La covarianza entre Xi y Xj también puede
obtenerse mediante:
V ij E( X i X j ) - E( X i )E( X j )
f f
³ ³f f
xi x j f ( xi , x j )dxi dx j E( X i )E(X j ) (2.8)
En conjunto para p variables hay p varianzas y p (p – 1) /2 covarianzas.

Todos estos indicadores suelen colocarse en una matriz, la matriz de
covarianzas:
ª V 11 V 12 V 1 p º
«V »
« 21 V 22 V 2 p »
6
« »
« »
«¬V p 1 V p2 V pp »¼
De las ecuaciones (2.7) y (2.8) se deduce que 6 puede expresarse también

mediante:
6 = E[(X – P) (X – P)'] = E(XX') – PP' (2.9)
La covarianza es difícil de interpretar descriptivamente porque su valor

depende de las unidades de medida de las variables. Para evitar este problema
se tipifica y se obtiene la correlación lineal o de Pearson:
V ij
U ij
V iV j
Uij oscila entre -1 y +1 y proporciona una medida de asociación lineal

entre dos variables sencilla de interpretar.
Para p variables se dispone de p (p – 1)/2 correlaciones diferentes. Todas

ellas suelen presentarse en una matriz, la matriz de correlaciones:
ª 1 U 12 U1p º
«U 1 U 2 p »»
5 « 21
« »
« »
«¬ U p 1 U p2 1 »¼
Se denomina 5 porque es la letra mayúscula griega para rho.
Como se ha visto en el capítulo 1, las matrices 6 y 5 pueden

relacionarse mediante las siguientes expresiones:
6 D 1/2 5 D 1/2
o bien 5 D -1/2 6 D -1/2 (2.10)
Donde D1/2 es una matriz diagonal cuyos términos diagonales son V1, V2,
…, Vp. También se ha visto que las matrices 6 y 5 son semidefinidas positivas
y se cumple que r(6) = r(5).
Ejemplo 3:
Calcúlese la media, varianza, la covarianza y correlación para las variables de
ejemplo 2.
Aplicando la fórmula (2.5) se obtienen las medias para X1 y X2.
1 1
E( X 1 ) ³ 0
x1 f1 ( x ) dx1 ³ 0
x1 2 (1 x1 ) dx1 1/ 3
1 1
E( X 2 ) ³ 0
x 2 f 2 ( x ) dx 2 ³ 0
x 2 2 x 2 dx 2 2/3
Aplicando la fórmula (2.6) se obtienen las varianzas para X1 y X2.

1
V 2 ( X1 ) E(X12 ) - E(X1 )2 2
³ x 2(1- x ) dx (1/ 3) 1/ 6 1/ 9 1/18
1 1 1
2
0
1
V 2 ( X 2 ) E(X 22 ) - E(X 2 )2 2
³ x 2x dx (2 / 3) 1/ 2 4 / 9 1/18
2 2 2
2
0
Aplicando la fórmula (2.8) se obtiene la covarianza de X1 y X2.

1 x2
V ( X1 X 2 ) E( X 1 X 2 ) - E( X 1 )E( X 2 ) ³ ª«¬³
0 0
x1 x2 2dx1 º dx2 2 / 9 1 / 36
»¼
La correlación se obtiene mediante: U V 12 1 / 36

12 1/ 2
V 1V 2 1 / 18
2. La distribución normal multivariante
La distribución multivariante más comúnmente empleada es la

distribución normal multivariante. Antes de entrar en su descripción, téngase
en cuenta que una variable aleatoria normal X, con media P y varianza V2

tiene la función de densidad:
1 2 2
f ( x) e ( x P ) / 2V (2.11)
2S V
y se expresa mediante:
X a N (P, V)
Si en el vector X las variables X1, …, Xp son variables aleatorias

independientes donde Xi a N (Pi, Vi), entonces su función de densidad de
probabilidad conjunta es simplemente el producto de las correspondientes
funciones de densidad de probabilidad marginales. Es decir:
p 2
1 § xi P i ·
1 ¦ ¨¨© V i ¸¹
¸
f (x) e
2 i 1 (2.12)
p
( 2S ) p/2
V
i 1
i
En este caso X' = [X1, …, Xp] tiene media P' = [P1, …, Pp] y matriz de
covarianzas:
ªV 12 0 0 º
« »
« 0 V 22 0 »
6
« »
« »
¬« 0 0 V 2p ¼»
Por tanto, en el caso multivariante se dice que una variable aleatoria p-

dimensional X sigue la distribución normal multivariante si su función de
densidad de probabilidad conjunta tiene la siguiente forma:
1
1 ( x P )' 6 1 ( x P )
f (x ) e 2 (2.13)
1/ 2
( 2S ) p / 2 6
La expresión del exponente es la forma cuadrática de la función f(x).
Esta definición requiere que 6 sea regular para que exista 6-1. Esto es, que
6 sea una matriz definida positiva. Como ya se ha visto, 6 puede no ser
definida positiva. Es importante establecer esta distinción pues si 6 es
semidefinida positiva, la distribución de X no posee una función de densidad
y se denomina distribución normal multivariante degenerada o singular.
Aquí solamente se considera la distribución normal multivariante no singular.
Como se observa, la generalización de la ecuación (2.11) a la (2.13) no es

obvia. Sin embargo, está claro que la ecuación (2.13) se reduce a la ecuación
(2.11) cuando p = 1.
La ecuación (2.12) puede re-escribirse en la forma de la ecuación (2.13).

Por tanto, el caso de variables normales independientes es un caso especial de
la fórmula dada en (2.13). No obstante, los componentes de X generalmente
no necesitan ser independientes y por tanto 6 no tiene por qué ser diagonal,
dado que es simétrica y definida positiva. El requisito de que 6 sea definida
positiva puede concebirse como la equivalencia multivariante de la condición
V2 > 0 en el caso univariante.
Con esta explicación no se ha demostrado que la ecuación (2.13) defina
una distribución apropiada. Lo que sí queda claro es que f (x) t 0 para cada x.
Además, es posible demostrar (aunque tedioso) que ³x f (x) dx1 … dxp = 1
para cada P y para cada 6 que es simétrica y definida positiva. También es
posible demostrar que E(X) = P y que Var(X) = 6 es la matriz de covarianza
para X. Por tanto los parámetros P y 6 tienen una interpretación inmediata y
se expresa mediante:
X a Np (P, 6)
Donde p se refiere a la dimensión de X, P al vector de medias y 6 a la

matriz de covarianzas.
A continuación se resumen algunas propiedades de la distribución normal
multivariante.
1. Si una variable aleatoria X p-dimensional sigue la distribución normal
multivariante, sus distribuciones marginales y condicionales también
son normales. Por simplicidad, sólo se incluyen las fórmulas de estas
distribuciones en el caso bivariante en el siguiente apartado (para más
información consultar Martín Pliego y Ruiz-Maya, 1997; p. 473-480).
2. Otra propiedad debida a Cramer y Wold es que cuando una variable
aleatoria X p-dimensional sigue una distribución normal multivariante
cada uno de los componentes de X sigue una distribución normal
univariante. Por tanto, E(X) = P y Var(X) = 6 contienen las medias,
varianzas y covarianzas de variables unidimensionales normales
univariantes. No obstante, esta condición es necesaria pero no
suficiente. Es decir, que las variables unidimensionales sean normales
univariantes no implica necesariamente que la distribución p-
dimensional de X sea normal multivariante.
3. Si X a Np (P, 6), y se forman combinaciones lineales basadas en los

componentes de X, éstas también se distribuyen según el modelo
normal multivariante.
Ejemplo 4:
Sea la variable X' = [X1, X2, X3] con distribución normal multivariante de
parámetros:
ª4 2 3 º
Pc >2 4 5@ 6 «2 9 5 »
« »
¬«3 5 16¼»
A continuación se muestran ejemplos donde se obtienen distintas áreas de
probabilidad:
a) P(X1 t3.5)
X1 tiene la distribución marginal N(2, 2). Para obtener el área que queda a
la derecha de 3.5 se consulta la distribución de probabilidad de la normal
tipificada (puede verse la tabla 1 del anexo):
P(X1 t3.5) = P(z t3.5 – 2)/2) = P(z t0.75) = 0.2266
b) P(2X3 – X2 d2)
Si se denomina Y = 2X3 – X2, esta nueva variable Y es una transformación
lineal de la variable normal bivariante (X3, X2). Y tiene distribución
normal univariante con parámetros:
E(Y) = 2P3 – P 2 = (2)(5) – 4 = 6
Var(Y) = 22V32 + V 22 – (2) (2) V32= (4)(16) + 9 – (4)(5) = 53.
Donde V(Y) = 7.28
Por tanto, Y a N (6, 7.28). Según la tabla de la normal tipificada:
P(2X3 – X2 d2) = P(Y d2) = P(z d2 – 6)/7.28) = P(z d-0.55) = 0.2912
3. La distribución normal bivariante
Un importante caso particular de la distribución normal multivariante es

aquel en que solamente hay dos variables. En este caso se tiene al vector de
medias P' = [P1, P2] y a la matriz de covarianzas:
ª V 12 UV 1V 2 º
6 « »
¬ UV 1V 2 V 22 ¼
Desarrollando los términos 6-1 y »6 6»1/2 de la ecuación (2.13) en el caso

bivariante, la función de densidad de probabilidad conjunta resultante es:
1 ª§ x P ·2 2
§ x P ·§ x P · § x P · º
« ¨ 1 1 ¸ 2 U ¨ 1 1 ¸ ¨ 2 2 ¸ ¨ 2 2 ¸ »
2 (1 U 2 ) « ¨© V 1 ¸¹ ¨ V ¸¨ V ¸ ¨ V ¸ »
1 ¬ © 1 ¹ © 2 ¹ © 2 ¹ ¼ (2.14)
f ( x1 , x 2 ) e
2SV 1V 2 (1 U 2 )
Esta expresión depende de cinco parámetros: las dos medias marginales,

las dos varianzas marginales y la correlación. Como puede observarse, en
este caso la matriz 6 es regular y por tanto definida positiva dado que »U» <
1. Si U fuera +1 ó -1, las dos variables estarían linealmente relacionadas y las
observaciones serían unidimensionales. Si U = 0, la ecuación (2.14) se
reduciría al producto de las dos funciones de densidad normales univariantes,
aunque esto pueda no ser así para otro tipo de distribuciones multivariantes.
Para comprender un poco mejor la ecuación (2.14), nótese que la función

de densidad f(x1, x2) normal bivariante es constante en las superficies donde
el exponente (x – P)' 6-1(x – P) también es constante. Los valores de x que
tienen igual densidad, forman elipses centradas en P. Esto puede verse más
claramente de forma gráfica (véase figuras 2.1 a 2.6). Los ejes de cada elipse
de densidad constante están en la misma dirección que los autovectores de 6
y sus longitudes son proporcionales a las raíces cuadradas de los autovalores
de 6.
La distribución marginal coincide con la fórmula dada en la ecuación

(2.11). En cuanto a la distribución condicional, se obtiene mediante la
siguiente expresión:
2 2
1 ª§ x1 P1 · § x P ·§ x P · § x P · º
«¨ ¸ 2 U ¨ 1 1 ¸¨ 2 2 ¸¨ 2 2 ¸ »
1 2(1U 2 ) «¨© V1 ¸¹ ¨ V ¸¨ V ¸ ¨ V ¸ »
© 1 ¹© 2 ¹ © 2 ¹ ¼
¬
e
f (x1 , x2 ) 2SV1V 2 (1 U 2 ) (2.15)
f ( X1 | X 2 )
f 2 (x2 ) 1 2 2
e( x2 P2 ) / 2V
2SV 2
Operando se llega a lo siguiente:

ª 2
1 § V1 ·º
« x1 ¨¨ P 1 U ( x 2 P 2 ) ¸¸ »
1 2 V 12 (1 U 2 ) ¬« © V2 ¹ ¼» (2.16)
f (X1 | X 2 ) e
V 1 2S 1 U 2
Por lo cual,
ª V º (2.17)
X 1 | X 2 ~ N « P 1 U 1 ( x 2 P 2 ), V 1 1 U 2 »
¬ V 2 ¼
Donde, la esperanza matemática, E(X1 | X2 = x2), es la regresión de X1 sobre

X2. La pendiente es: U V 1 y el origen: P 1 U V 1
P2.
V 2 V 2
Siguiendo este mismo planteamiento puede obtenerse la distribución de

X2 condicionada a la de X1 donde:
ª V º (2.18)
X 2 | X 1 ~ N « P 2 U 2 ( x1 P 1 ), V 2 1 U 2 »
¬ V1 ¼
Ejemplo 5:
Sea la función de densidad conjunta bidimensional
1
1 ª 4 2 ,4 º ª x1 1 º
1 >x 1 1 x 2 2 @« » « »
2 ¬ 2 ,4 9 ¼ ¬ x2 2 ¼
f ( x1 , x 2 ) e
12 S 0 , 84
a) Las distribuciones marginales y condicionales son las siguientes:
De la fórmula anterior se deduce que:
P1 = -1; P2 = 2; V1 = 2; V2 = 3; V12 = 2.4; U = 0.4.
Distribuciones marginales: X1 a N(-1, 2)
X2 a N(2, 3)
Distribuciones condicionales: X 1 | X 2 ~ N ª 1 0.4 2 ( x2 2), 2 0.84 º

«¬ 3 »¼
ª 3 º
X 2 | X 1 ~ N « 2 0 .4 ( x1 1), 3 0 .84 »
¬ 2 ¼
b) La probabilidad de que X1 sea mayor que 2 es:
X1 a N(-1, 2)
P(X1 t2) = P(z t(2+1)/2) = P(z t1.5) = 0.0668 (ver tabla 1 del anexo).
c) La probabilidad de que X1 sea mayor que 2 dado que X2 es 3 es:
ª 2 º
X1 | X 2 3 ~ N « 1 0 . 4 (3 2 ), 2 0 .84 » N ( 0 .73 , 1 .83 )
¬ 3 ¼
P(X1 t2 | X2 = 3) = P(z t(2+0.73)/1.83) = P(z t1.49) = 0.0681
d) La probabilidad de que X1 sea mayor que 2 dado que X2 es 1 es:
ª 2 º
X1 | X 2 1 ~ N « 1 0 . 4 (1 2 ), 2 0 . 84 » N ( 1 . 27 , 1 . 83 )
¬ 3 ¼
P(X1 t2 | X2 = 1) = P(z t(2+1.27)/1.83) = P(z t1.79) = 0.0367
La distribución X1 | X2 puede entenderse como la regresión de X1 sobre X2

donde la pendiente de la recta X1' es 0.4 (2/3)= 0.27 y el origen -1 - 0.27 (2) =
-1.53.
Gráficamente, se observa más claramente la diferencia entre las áreas de

probabilidad obtenidas en los apartados c) y d):
X1
3 0.0367 0.0681
1 2 3 X2
X1'
Como puede verse, la probabilidad de que X1 sea mayor que 2

condicionada al valor X2 = 1 es menor que la misma probabilidad
condicionada al valor X2 = 3.
La distribución normal bivariante puede ilustrarse gráficamente. La figura

2.1 muestra el gráfico tridimensional en puntuaciones típicas para dos
variables donde U = 0. En la figura 2.2. se muestra el mismo gráfico
expresado en un diagrama de contornos. Las figuras 2.3. y 2.4 están
confeccionadas para un valor de U = 0.80 y las figuras 2.3. y 2.4 para un valor
de U = -0.80. Como puede observarse, la presencia de correlación hace que la
probabilidad se concentre a lo largo de una línea.
Los diagramas de contornos reflejan con más claridad que los valores de
x que tienen igual densidad, forman elipses centradas en P (véase figuras 2.2,
2.4. y 2.6.). En todos los casos la función de densidad de probabilidad
conjunta tiene un máximo en el valor de P (es decir en el punto 0, 0 del
gráfico). La figura 2.2 muestra que cuando U = 0, la elipse adopta una forma
circular pues la pendiente es cero. En la figura 2.4 puede verse que cuando
U > 0 el eje principal de la elipse tiene una pendiente positiva y en la figura
2.6 que cuando U < 0, la elipse tiene una pendiente negativa.
. 15
0. 1 0
0. 05 2
0 1
0
- 2
2
0
- 2
2 3
- 3 - 2 - 1 0 1 2 3
Figura 2.1. Diagrama 3-D para distribución Figura 2.2. Diagrama de contornos para
normal bivariante con U = 0 Distribución normal bivariante con U = 0
. 2 0
0. 1 2
1
0
0
- 2
2
0
- 2
2 3
- 3 - 2 - 1 0 1 2 3
normal bivariante con U > 0 Distribución normal bivariante con U > 0
0. 2 0
0. 1 2
1
0
0
- 2 2
0
- 2
3
2
- 3 - 2 - 1 0 1 2 3
normal bivariante con U < 0 Distribución normal bivariante con U < 0
La distribución normal multivariante es importante por varias razones. En

primer lugar debido a la forma multivariante del teorema del límite central.
En segundo lugar, muchas técnicas multivariantes requieren que los datos
sigan esta distribución para estimar los parámetros por máxima verosimilitud
y realizar contrastes de hipótesis. Por último, si el modelo estadístico incluye
más de un parámetro, la distribución asintótica de los estimadores es normal
multivariante; esto permite obtener intervalos de confianza para los
estimadores y la correlación entre ellos (Andersen, 1980; Muirhead, 1982).
Además de la distribución normal multivariante, descrita aquí, hay otras

muchas. Aquí no se entrará en detalle en ninguna de ellas, aunque sí se
nombrarán algunas de las más conocidas. Para variables discretas la más
conocida es la distribución multinomial. La forma multivariante de la
distribución multinomial se utiliza para el caso de múltiples variables
discretas clasificadas en una tabla de contingencia multidimensional (véase
Bishop, Fienberg & Holland, 1975). Otras distribuciones multivariantes
discretas son la de Poisson, la hipergeométrica y la de series logarítmicas
(para más detalle véase Bishop, et al., 1975; Johnson & Kotz, 1969). En
cuanto a las distribuciones multivariantes para variables continuas, la más
relevante es la normal multivariante, aunque hay muchas otras que se
relacionan con ella. Por ejemplo, la distribución Wishart, que es la forma
multivariante de la distribución F2 de Pearson, la T2 de Hotelling, que es la
forma multivariante de la distribución t de student y la forma multivariante de
la distribución beta, gamma y la exponencial (para más detalle véase Johnson
& Kotz, 1972).
4. Ejercicios
1. Dos variables aleatorias, X e Y, tienen la siguiente función de densidad de
probabilidad conjunta:
3 x si 0 y x 1
f ( x, y ) ®
a) Obtenga las distribuciones marginales de X e Y
b) Demuestre que las variables aleatorias no son independientes
c) Obtenga el valor esperado, la varianza y la covarianza para X e Y
d) Obtenga la distribución condicional de X dado que Y = 1/2
2. Tres variables aleatorias, X, Y y Z tienen la siguiente función de densidad

de probabilidad conjunta:
4 / 9 xyz 2 si 0 x 1, 0 y 1, 0 z 3
f ( x, y , z ) ®
a) Demuestre que las variables aleatorias son independientes
b) Demuestre que la función de densidad de probabilidad conjunta de X y
Z viene dada por:
2 / 9 xz 2 si 0 x 1, 0 z 3
f ( x, z ) ®
e) Demuestre que E (X) = 2/3
f) Obtenga la distribución condicional de X dado que Y = 1/2, Z = 1
g) Demuestre que la covarianza entre X y Z es 0
h) Obtenga f (x, y, z) mediante F (x, y, z). Utilice para ello la fórmula 2.1.
3. Suponga que la distribución conjunta de dos variables, X1 y X2 es la

normal bivariante con parámetros P1, P2, V12, V22 y U. Calcule la inversa y
el determinante de la matriz de covarianzas. ¿Qué ocurre con la
distribución cuando: (a) U= 0; (b) U y (c) U ?.
4. Sea X' = [X1, X2, X3] una variable aleatoria con distribución normal
multivariante y parámetros:
ª8 7 5 º
P ' >7 9 6 @ 6 ««7 14 9 »»
¬«5 9 11¼»
Determine las siguientes probabilidades:
a) P(X3 t5)
b) P(5 dX2 d12)
c) P(2X1 + X2 – X3 d25)
d) Probabilidad de que X1 sea menor que 7 dado que X2 es 3
e) Probabilidad de que X1 sea menor que 7 dado que X2 es 5
Capítulo 3. Análisis de Regresión Lineal Múltiple
1. Introducción
La regresión pretende pronosticar los valores que toma una variable
cuantitativa (la variable dependiente: Yi) a partir de los valores que toman
otra/as variable/s también cuantitativas (la/s variable/s independiente/s: Xj).
La regresión simple (RS) explica los valores que toma la variable

dependiente (Yi) a partir de los de una sola variable independiente (Xj). La
regresión múltiple (RM) tiene por objeto combinar p variables
independientes (X1, X2, ..., Xp) de tal modo que pronostiquen con la mayor
precisión los valores que toma la variable dependiente (Y). La RM permite
analizar tanto las contribuciones individuales como las colectivas del
conjunto de variables independientes en los cambios que se producen en la
variable dependiente.
La regresión puede formularse desde diferentes modelos. Aquí se
considera exclusivamente el modelo lineal por su sencillez y porque ha
demostrado ser de gran utilidad en muchas situaciones aplicadas. Existen
diversos manuales sobre regresión lineal. Por ejemplo los de Montgomery y
Peck (1992), Neter et al. (1996), Pedhazur (1982) y Weisberg (1985). Y para
aspectos más aplicados los de Berry y Feldman (1985), Cook (1999), Draper y
Smith (1981) y el de Etxebarría (2000) en castellano.
2. El modelo lineal general

Un modelo es una afirmación algebraica sobre cómo se relacionan dos o
más variables. Existen diversos tipos de afirmaciones algebraicas pero la más
sencilla y flexible es la del modelo lineal. Los modelos lineales establecen
una hipótesis sobre la relación entre dos tipos de variables: las dependientes y
las independientes. La estructura de la relación entre ambas constituye su
forma funcional, que incluye la relación entre las principales variables, el tipo
de distribución de probabilidad de las variables aleatorias y los parámetros de
las ecuaciones del modelo.
Expresado formalmente, si Yi es la medida en la variable dependiente para
el sujeto i, el modelo lineal descompone las puntuaciones en Yi como el
resultado de la suma ponderada de los siguientes componentes:
Yi = E0 X0i + E1 X1i + E2 X2i + ... + Ep Xpi + Hi (3.1)
Donde X1i, X2i, …, Xpi son las p variables independientes incluidas en el

modelo para explicar el comportamiento de la variable dependiente. Se
consideran variables fijas. Los E1, E2, …, Ep son los p parámetros que se
necesita estimar para decidir sobre la importancia de cada una de las

variables presentes en la ecuación. E0X0i representa el conjunto de efectos
debidos a variables mantenidas constantes (donde X0i toma el valor 1 para
todos los sujetos). Por último, Hi es el efecto debido al conjunto de variables
no incluidas en el modelo. Se denomina error aleatorio y se supone varía
aleatoriamente con media 0 y varianza V2.
Según estas especificaciones, el modelo lineal general asume que hay n
observaciones en p variables no correlacionadas tal que:
E(Y) = E0 + E1X1i + E2X2i + ... + EpXpi
Var(Y) = V2
La expresión (3.1) se corresponde con las siguientes matrices y sistema de

ecuaciones:
ªE0 º
ªY1 º ª E0X01 E1X11 E2 X21 ... Ep Xp1 H1 º ªY1º ª1 X11 X21 Xp1º « » ªH1º
«Y » «E X E X E X ... E X H » «Y » «1 X X X » «E1 » «H »
« 2 » « 0 02 1 12 21 22 p p2 2»;
« 2» « 12 22 p2 »
«E » « 2»
«» « » « » « » « 2» « »
« » « » « » « »« » « »
¬Yn ¼ ¬«E0X0n E1X1n E21X2n ... Ep Xpn Hn ¼» ¬Yn¼ ¬«1 X1n X2n Xpn¼» « » ¬Hn¼
¬Ep ¼
De modo más compacto:
Y = X* E + H (3.2)
Si se introduce en la ecuación solamente una variable independiente (X1),
el modelo de regresión lineal para predecir los valores de la variable
dependiente (Yi) en n ensayos es:
Yi = E0 + E1X1i +Hi (3.3)
Donde Y es el vector de valores de la variable dependiente de orden n x 1,
X* la matriz de orden n x 2 correspondiente a los valores de la variable
independiente, E el vector de orden 2 x 1 de parámetros llamados coeficientes
de regresión; donde E0 es el origen de la recta de regresión y E1 su pendiente,
un coeficiente que indica el cambio que se produce en Y por cada unidad de
variación en X1. Cuando la relación entre X1 e Y es positiva E1 > 0, cuando es
negativa E1 < 0. Por último H es el vector de errores aleatorios o residuos de
orden n x 1.
Si se consideran p variables independientes (X1, X2, ..., Xp), el modelo de
regresión para predecir los valores de la variable dependiente (Yi) en n
ensayos es:
Yi = E0 + E1X1i + E2X2i + ... + EpXpi + Hi (3.4)
*
La expresión (3.4) en modo matricial es: Yn x 1 = X n x (p+1) E (p+1) x 1 + H n x 1.
ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE 51
Además de los ya mencionados, otros supuestos del modelo lineal general

son los siguientes:
ªH 1 º ª0 º
a). «H » «0 »
E (H ) E« 2 » « »
« » «»
« » « »
¬H n ¼ ¬0 ¼
ª E(H 12 ) E(H 1H 2 ) E(H 1H n ) º ªV 2 0 0º
b). « 2 » « 2 »
E(HH ' ) «E(H 1H n ) E(H 2 ) E(H 2 H n )» «0 V 0»
V 2I
« » « »
« » « »
¬«E(H n H 1 ) E(H n H 2 ) E(H n2 ) ¼» ¬« 0 0 V 2 ¼»
c). Cov(HH, X) = 0
d). r(X) = p (no multicolinealidad = Las Xj son independientes).
e). Adicionalmente, puede asumirse que H a N (0, V2I), aunque no es
imprescindible. Si se asume, puede utilizarse el método de estimación de
máxima verosimilitud y llevarse a cabo las pruebas de significación
(véase apartado 4.2).
El modelo lineal general, pese a su simplicidad, ha dado fundamento a la

mayor parte de las técnicas de análisis de datos que se utilizan en la
investigación empírica. Entre ellas se encuentran los modelos de regresión
lineal, el análisis de varianza, etc.
3. Estimación de parámetros
El modelo planteado en la ecuación (3.4) refleja el modelo de regresión
múltiple en términos de sus parámetros poblacionales (E0, E1, ..., Ep). Para
una muestra extraída de la población el modelo (3.1) puede expresarse
mediante:
Yi = b0 + b1X1i + b2X2i + ... + bpXpi + ei (3.5)
Donde b0, b1, b2, ..., bp son los estimadores de los parámetros E0, E1, E2, ...,
Ep y ei es el estimador de Hi.
De modo más compacto la ecuación (3.5) puede expresarse mediante:
Y = X* b + e (3.6)
Existen diferentes métodos para estimar los parámetros. Aquí se expone

el más utilizado, el de mínimos cuadrados, aunque también se comenta
brevemente el de máxima verosimilitud.
3.1. Método de estimación por mínimos cuadrados
Con el cálculo de los estimadores de los parámetros de la expresión (3.5)

se pretende estimar la ecuación de regresión que mejor se ajusta a los datos
empíricos. El procedimiento matemático para estimar dicha ecuación consiste
en calcular la recta (en regresión simple) o el plano (en regresión múltiple)
cuya distancia vertical a los distintos valores de Y sea mínima.
Si Ŷ es el valor predicho mediante las variables independientes en Y, se

tiene que:
En puntuaciones directas: Y = X* b + e; Yˆ X *b
En puntuaciones diferenciales: y = X b + e; yˆ Xb
En puntuaciones típicas: zy = zx b* +e*; zˆ y z x b*
El error obtenido en el pronóstico será:
En puntuaciones directas: e Y-Y ˆ Y - X *b
En puntuaciones diferenciales: e y yˆ y Xb
En puntuaciones típicas: e * z y zˆ y z y z x b *
La mejor predicción de las Y a partir de las Ŷ es aquella en que el valor

de los errores sea lo más pequeño posible. Aplicando el método de mínimos
cuadrados:
min: 6 e2 = e'e
La expresión que permite calcular el vector de parámetros de la ecuación
de regresión que hace mínima e'e es:
En puntuaciones directas: b = (X*'X*)-1 X*'Y
En puntuaciones diferenciales: b = (X'X)-1 X'y
En puntuaciones típicas: b* = (Z'Z)-1 Z'Zy = (Rxx)-1Rxy (3.7)
A continuación se expone la demostración de las ecuaciones obtenidas
en (3.7) en puntuaciones diferenciales:
Partiendo de y = Xb + e, se trata de calcular b de modo que los valores de
e sean lo más pequeño posible. Puesto que E(e) = 0, lo que hay que
minimizar es e'e:
e'e = (y – Xb)' (y – Xb) = y'y – y'Xb – b'X'y + b'X'Xb
Puesto que y'Xb es la misma cantidad escalar que b'X'y:

e'e = y'y – 2 b'X'y + b'X'Xb
Nótese que b'X'Xb = b'Sb (forma cuadrática de S).
Para minimizar e'e se iguala a cero la derivada parcial:

w (e ' e )
2 X ' y 2 X ' Xb
wb
Igualando a 0 se obtienen las llamadas ecuaciones normales:
X'Xb = X'y
Por tanto, si X'X es regular la solución para b es:

b = (X'X)-1 X'y
Propiedades de los estimadores.
- La estimación de los elementos del vector b es lineal, insesgada y eficiente.
Es decir: E(b) = E
Var(b) = V2 (X'X)-1 < Var(c)
- Este método de estimación no exige normalidad. Es decir, los Hi pueden
tener cualquier tipo de distribución con E(H) = 0 y Var(H) = V2 I .
- cov(Hi,Hj) = 0 que indica independencia entre los errores o ausencia de
autocorrelación. Es decir, el error que se comete en i no debe tener ninguna
relación con el que se comete en j.
- cov(Hi, Xj) = 0. Los errores deben ser aleatorios, no debe haber errores
sistemáticos.
- cov(Hi, ŷi ) = 0 (independencia).
A continuación se presentan dos ejemplos. Ambos están basados en

muestras muy pequeñas (de 3 y 5 sujetos, respectivamente). Esta situación es
poco realista, pues en la práctica es necesario emplear muestras mucho
mayores. Si se incluye aquí es con el único objeto de ejemplificar el cálculo
manual de los procedimientos descritos.
Ejemplo 1. Regresión simple

Las puntuaciones obtenidas por tres sujetos en una prueba teórica y en una
práctica fueron las siguientes:
Sujeto: 1 2 3 Suma Media Desv. típica
Teórica (X): 3 4 2 9 3 0.82
Práctica (Y): 1 5 0 6 2 2.16
a). Estimación de parámetros (en puntuaciones directas):
ª1 3º
ª1 1 1º «1 ª3 9 º ª N 6X i º
*
X 'X *
4 »» «6 X
«3
¬ 4 2 »¼ « «9
¬ 29 »¼ ¬ i 6 X i2 »¼
«¬1 2 »¼
ª1º
1 ª 29 9º ª4.83 1.5º ª1 1 1º « » ª 6 º ª 6Yi º
(X* ' X* ) 1 ; X *
' Y «3 4 2» «5» «23» «6X Y »
6 «¬ 9 3 »¼ «¬1.5 0.5 »¼ ¬ ¼ «0» ¬ ¼ ¬ i i ¼
¬¼
ª 4 . 83 1 .5 º ª 6 º ª 5 .5 º
b ( X * ' X * ) 1 X * ' Y « »« » « »
¬ 1 .5 0 . 5 ¼ ¬ 23 ¼ ¬ 2 .5 ¼
b). Ecuación de regresión, pronósticos y errores de estimación
Yî 5.5 2.5 X i e i
ª1 3º ª 2 º
«1 ª 5 .5 º
Yˆ X b*
4 »» « « 4 .5 »
« 2 . 5 »¼ « »
«¬1 2 »¼ ¬ «¬ 0 . 5 »¼
ª1 º ª 2 º ª 1º
e Y Ŷ « 5 » « 4 .5 » « 0 .5 »
« » « » « »
¬« 0 ¼» «¬ 0 . 5 ¼» ¬« 0 . 5 ¼»
ª 1º
e'e > 1 0 .5 0 . 5 @ «« 0 . 5 »» 1 .5
«¬ 0 . 5 »¼
Ejemplo 2. Regresión múltiple con dos variables independientes

Una muestra aleatoria representativa de una población de directivos de una
empresa realiza una prueba de memoria y otra de razonamiento verbal, al
tiempo que se registran sus puntuaciones en una prueba de eficacia. A partir
de los resultados se desea obtener la ecuación del plano de regresión que
permita hacer pronósticos en eficacia a partir de las puntuaciones en memoria
y razonamiento. Se dispone de los siguientes datos:
Sujeto 1 2 3 4 5 Suma Media D.Típica
Memoria (X1) 30 25 28 32 22 137 27.4 3.975
Razonamiento (X2) 15 10 12 14 13 64 12.8 1.924
Eficacia (Y) 34 25 30 38 26 153 30.6 5.459
a). Estimación de los parámetros (en puntuaciones diferenciales):
x' >27.4 12.8 @; y >30.6 @
ª 2.6 2.2 º
« 2.4 2.8»
ª2.6 2.4 0.6 4.6 5.4º « » ª63.2 16.4º ª 6x2 6x x º
i1 i1 i 2
X' X « » « 0.6 0.8» « » « 2 »
¬2.2 2.8 0.8 1.2 0.2 ¼ « » ¬16.4 14.8¼ ¬6xi2 xi1 6xi2 ¼
« 4.6 1.2 »
«¬ 5.4 0.2 »¼
X'X ( 63 . 2 )(14 . 8 ) (16 . 4 )(16 . 4 ) 666 . 4

1 ª 14 .8 16 .4 º ª 0.0222 0.0246 º
( X ' X ) 1
666 .4 «¬ 16 .4 63 .2 »¼ « 0.0246 0.0948 »
¬ ¼
ª 3 . 4 º
« 5 .6 »
ª 2 .6 2 .4 0 .6 4 .6 5 .4 º « » ª 80 . 8 º ª 6 x i1 y i º
X' y « 2 .2 » « 0 .6 » « » «6x y »
¬ 2 .8 0 .8 1 .2 0 .2 ¼ « » ¬ 31 . 6 ¼ ¬ i2 i ¼
« 7 . 4 »
«¬ 4 . 6 »¼
ª 0 .0222 0 .0246 º ª80 .8 º ª1.02 º

b ( X ' X ) 1 X ' y « 0 .0246
¬ 0 .0948 »¼ «¬ 31.6 »¼ «1.01 »
¬ ¼
b). Ecuaciones de regresión, pronósticos y errores de estimación.
En puntuaciones diferenciales.
yˆ i 1 .02 x1 1 .01 x 2 e i
Donde:
ª 2 .6 2 .2 º ª 4 . 874 º
« 2 .4 2 . 8 »» « 5 . 276 »
« ª1 . 02 º « »
yˆ Xb « 0 .6 0 .8 » « » « 0 . 196 » ; yˆ ' yˆ 114 . 024
« » ¬1 . 01 ¼ « »
« 4 .6 1 .2 » « 5 . 904 »
«¬ 5 . 4 0 . 2 »¼ «¬ 5 . 306 »¼
ª 3 . 4 º ª 4 . 874 º ª 1 . 474 º
« 5 . 6 » « 5 . 276 » « 0 . 324 »
« » « » « »
e y yˆ « 0 . 6 » « 0 . 196 » « 0 . 404 »; e'e 5 . 177
« » « » « »
« 7 . 4 » « 5 . 904 » « 1 . 496 »
«¬ 4 . 6 »¼ «¬ 5 . 306 »¼ «¬ 0 . 706 »¼
En puntuaciones directas.
Yî 10 . 17 1 . 02 X 1 1 . 01 X 2 e i
Donde: b 0 Y b1 X 1 b 2 X 2 10 .17
En puntuaciones típicas.
zˆ y i
0.7413 z x 0.3507 z x e *i
1 2
Donde:
1
b* R xx R xy
ª0.25 0 º ª15.8 4.1º ª0.25 0 º ª 1 0.54º

R xx D 1 / 2 S xx D 1/ 2 « 0 0.52» « 4.1 3.7» « 0 0.52» «0.54 1 »
¬ ¼¬ ¼¬ ¼ ¬ ¼
1 1 ª 1 0 . 54 º ª 1 . 41 0 . 76 º
R
0 . 71 «¬ 0 . 54 1 »¼ «¬ 0 . 76 1 . 41 »¼
xx
ª 0 . 25 0 º ª 20 . 2 º 1 ª 0 . 93 º
R xy D 1 / 2 S xy S y1 / 2 « 0 » « 7 . 9 » 5 . 46 « 0 . 75 »
¬ 0 . 52 ¼¬ ¼ ¬ ¼
1 ª 1 . 41 0 . 76 º ª 0 . 93 º ª 0 . 7413 º
b* R xx R xy « 0 . 76
¬ 1 . 41 »¼ «¬ 0 . 75 »¼ « 0 . 3507 »
¬ ¼
3.2. Método de estimación de máxima verosimilitud

El anterior procedimiento es válido independientemente de la
distribución de los errores. Si se asume que los errores son normales el
modelo de regresión viene dado por:
y=XE+H
H a N (0, V2 I)
X a Np (P, 6). Donde, r(6) = p; lo que implica que: r(X) = p
En este caso se puede utilizar el método de estimación de máxima
verosimilitud. Se trata de estimar los valores del vector de parámetros E que
hagan más probable el valor de los datos observados. Como se vio en el
capítulo 2, la regresión simple es la distribución condicionada de Y sobre X.
Asumiendo normalidad:
ª 2
1 § VY ·º
« y ¨¨ P Y U ( X P X ) ¸¸ »
1 2 V Y2 ( 1 U 2 ) «¬ © VX ¹ »¼
f (Y | X ) e
2
VY 2S 1 U
Los estimadores máximo verosímiles se obtienen maximizando la función

de verosimilitud:
n 2
n/2 1 ª § V ·º
n
§ 1 · ¦ «¬« y i ¨¨© P Y U V YX ( X i P X ) ¸¸¹ »¼»
2 V Y2 (1 U 2 ) i
L f (Y | X ) ¨¨ 2
V 2S (1 U 2 ¸
)
¸ e 1
i 1 © Y ¹
En la práctica se toman logaritmos pues queda una expresión más sencilla:
2
n ª
n § 1 · 1 § V ·º
2 ¦« i
log L log ¨¨ 2 2 ¸
¸ 2
y ¨¨ PY U Y ( X i P X ) ¸¸ »
2 © V Y 2S (1 U ) ¹ 2V Y (1 U ) i 1 ¬ © VX ¹¼
Para obtener el estimador máximo verosímil de E se iguala la primera
derivada de ln L a cero. Mediante este procedimiento se llega a lo siguiente:
b = (X'X)-1 X'y
En el caso de que la variable Y sea normal la estimación por mínimos

cuadrados y máxima verosimilitud proporcionan resultados idénticos (para
más detalle véase Rao y Toutenburg, 1995; y Revuelta y Ponsoda, 2000).
4. Verificación del modelo

Una vez estimado el modelo hay que valorar si constituye una buena o
mala aproximación a nuestro conjunto de datos. Es decir, cabe preguntarse:
¿En qué medida es posible predecir los valores de Y a partir de los de X con
el modelo?
Una representación gráfica de los datos empíricos y el modelo estimado

puede proporcionar una primera aproximación al problema de la verificación
del modelo. La figura 3.1. muestra el gráfico de dispersión y la recta de
regresión estimada en puntuaciones directas para los datos del ejemplo 1 y la
figura 3.2. para los del ejemplo 2:
3
5
3
Práctico
3
1
3
0
2.0 2.5 3.0 3.5 4.0

Teórico
Figura 3.1. Recta de regresión para el ejemplo 1 Figura 3.2. Plano de regresión para el ejemplo 2
Asimismo, hay que valorar en qué medida el modelo se ajusta a los datos
empíricos y la contribución de las variables independientes en los cambios
que se producen en la variable dependiente. A todo esto se le denomina
bondad de ajuste.
4.1. Medidas de bondad de ajuste
4.1.1. Descomposición de la varianza
Una parte de la variación de los datos puede explicarse mediante el

modelo de regresión ( ŷ ). Sin embargo hay otra parte que queda sin explicar
(e). Es decir:
y yˆ e (3.7)
Calculando la suma de cuadrados de y:

y'y ( yˆ e )' ( yˆ e ) yˆ ' yˆ yˆ ' e e ' yˆ e ' e yˆ ' yˆ e ' e

En términos de análisis de varianza (o ANOVA):
SCT ¦ y y'y i
2
SCR ¦ yˆ yˆ ' yî

2
( Xb )' ( Xb ) b ' X ' Xb
SCE ¦ e ¦ (y
i
2
i yˆ i ) 2 e' e y ' y yˆ ' yˆ y ' y b ' X ' Xb
La descomposición de la varianza de y con los datos del ejemplo 2 es la

siguiente:
ª 3 .4 º
« 5 .6 »
« »
SCT y ' y >3 . 4 5 . 6 0 . 6 7 . 4 4 . 6 @ « 0 . 6 » 119 . 20
« »
« 7 .4 »
«¬ 4 . 6 »¼
ª 4.874 º
« 5.276»
« »
SCR yˆ ' yˆ >4.874 5.276 0.196 5.904 5.306@ « 0.196» 114.024
« »
« 5.904 »
«¬ 5.306»¼
ª 1.474 º
« 0.324»
« »
SCE e' e > 1.474 0.324 0.404 1.496 0.706@ « 0.404» 5.177
« »
« 1.496 »
«¬ 0.706 »¼
Se comprueba que: 119.20 = 114.024 + 5.177
4.1.2. Coeficiente de determinación
Informa sobre el grado de ajuste de los puntos a la recta o al plano de

regresión. Es la bondad del modelo de regresión y se calcula mediante el
índice estadístico R2:
Si: R ryyˆ
¦ y yˆ i i y' yˆ (yˆ e)' yˆ yˆ ' yˆ
y ( x1 , x2 ,...,x p )
¦ y ¦ yˆ 2
i
2
i
y' y yˆ ' yˆ (y' y)(yˆ ' yˆ ) (y' y)(yˆ ' yˆ )
Entonces: R 2 ( yˆ ' yˆ ) 2 yˆ ' yˆ e' e SCR SCE

1 1
( y ' y )( yˆ ' yˆ ) y' y y' y SCT SCT
R2 oscila entre 0 y 1 y es la proporción de varianza de Y que queda

explicada por las Xj.
En el ejemplo 2: R 2 114 . 024 5 . 176

1 0 . 9566
119 . 20 119 . 20
La memoria y el razonamiento explican el 95.66% de la prueba de eficacia.
4.1.3. Coeficiente de determinación corregido
El coeficiente R2 viene afectado por un cierto efecto inflacionista sobre el

grado de ajuste. Esta inflación se origina en dos hechos: el tamaño muestral
(n) y el número de predictores (p). Por tanto, es necesario introducir un factor
corrector. El procedimiento consiste en corregir las sumas de cuadrados:
2 e ' e /( n p ) SCE /( n p ) SCE n 1
R 1 1 1
y ' y /( n 1) SCT /( n 1) SCT n p
Con lo que se llega a: R 2

§ n 1 ·
1 ¨¨ ¸¸(1 R 2 )
© n p ¹
2
Para p > 1, R < R2 y esta diferencia aumenta a medida que aumenta
también el número de variables independientes. Si el modelo no incluye el
2
término b0, el numerador es n en lugar de n – 1 y R puede ser menor que 0,
2
cosa que nunca puede ocurrir con R . En regresión múltiple es más apropiado
2
utilizar R , sobre todo si el tamaño muestral es pequeño y si se desea
comparar distintos modelos para pronosticar los valores de una misma
variable dependiente.
El coeficiente de determinación corregido para el ejemplo 2 es el siguiente:

2 § 5 1 ·
R 1 ¨ ¸ (1 0 . 9566 ) 0 . 9421
©52¹
4.2. Contraste de hipótesis
Los coeficientes obtenidos en la ecuación de regresión son estimadores de

los parámetros del modelo. Por ello es necesario realizar una prueba de
significación para contrastar si su valor es 0 en la población y calcular los
intervalos de confianza de los coeficientes de la regresión. Pueden llevarse a
cabo tres tipos de contrastes, para lo cual es necesario que los errores se
distribuyan normalmente con media 0 y varianza V2I:
4.2.1. H0: E0 =E1 = E2 =... = Ej = ... = Ep = 0 o bien H0: E = [0]
Una de las hipótesis a contrastar es si los elementos del vector E son

nulos. Es decir, la hipótesis sobre linealidad. Para ello se calcula el
estadístico F utilizando el formato ANOVA:
FV SC gl MC F F aFp, (n – p –1)
Regresión yˆ ' yˆ = b'X'Xb p yˆ ' yˆ / p MCR / MCE
Error e'e n-p-1 e'e / (n-p-1)
Total y'y n-1
Con los datos del ejemplo 2 y D = 0.05:
FV SC gl MC F F aF2, 2
Regresión 114.02 2 57.01 22.03 0.95F2, 2
= 19
Error 5.176 2 2.588
Total 119.20 4
Consultando la tabla 4 del anexo se observa que con D = 0.05 el punto
crítico es 19. Puesto que 22.03 > 19 se rechaza H0. Por tanto, la memoria y el
razonamiento están linealmente relacionadas con la prueba de eficacia.
4.2.2. H0: Um = 0 (Correlación múltiple)
Otra forma de determinar si existe relación lineal es si el coeficiente de

determinación (R2) es significativo. Se calcula el estadístico F:
SCR/ p n p 1 SCR n p 1 SCR n p 1 SCR/ SCT
F
SCE/(n p 1) p SCE p SCT SCR p 1 (SCR/ SCT)
n p 1 R2
F ~ F p , ( n p 1 )
p 1 R2
Con los datos del ejemplo 2 se llega a la misma conclusión que con la
prueba anterior:
§ 2 ·§ 0.9566 ·
F ¨ ¸¨ ¸ 22 .03 ! 19
© 2 ¹© 1 0.9566 ¹
4.2.3. H0: Ej = 0
Las anteriores pruebas de significación son un indicador de la bondad

de ajuste global del modelo. Para comprobar la significación de cada uno de
los coeficientes bj se calcula el estadístico T:
bj
T ~ t n p 1
Vˆ c ii
Donde Vˆ 2 e' e -1
MCE ; cii = i-ésimo elemento de la matriz (X'X) .
n p 1
Con los datos del ejemplo 2 y D = 0.05:

ª 0.0222 0.0246º
(X' X) 1 « 0.0246 0.0948 »
¬ ¼
Vˆ MCE 2.588 1.609
1.02
Vˆ c11 1 . 609 0 . 0222 0 . 2397 ; T1 4.25
0.2397
1.01
Vˆ c 22 1 .609 0 . 0948 0 . 4954 ; T2 2.03
0.4954
Consultando la tabla 2 del anexo se obtiene un valor 0.975 t 2 = 4.303 y se

concluye que con D = 0.05 ninguno de los coeficientes es significativo.(1)
Dado el valor de bj también se puede estimar el intervalo de confianza de
su verdadero valor en la población mediante:
b j r 1 D / 2 t n p 1Vˆ c ii
Los intervalos de confianza para las variables independientes del ejemplo

2 son:
Para X1: 1.02 r 4.303 (0.2397) = 1.02 r 1.03 = [-0.01, 2.05]
Para X2: 1.01 r 4.303 (0.4954) = 1.01 r 2.13 = [-1.12, 3.14]
5. Análisis del cumplimiento de los supuestos

Además de preguntarse si el modelo obtiene un buen ajuste, es necesario
preguntarse: ¿Es el modelo correcto?. Para que la respuesta sea afirmativa se
requiere el cumplimiento de ciertas condiciones de aplicación: que la relación
entre las variables independientes y la dependiente sea lineal, que los
residuos sean independientes, homogéneos y normales, y que no haya
colinealidad entre las variables independientes. A continuación se comenta
cada uno de estos supuestos y su procedimiento de comprobación.
(1)
Si se desea obtener valores de t que dejan a su izquierda un área diferente a la que aparece
en la tabla 2, se puede hacer mediante el SPSS. Por ejemplo, para un área de 0.65 primero se
crea la variable gl, que contiene los grados de libertad y más tarde se ejecuta la sintaxis:
COMPUTE x = IDF.T(0.65,gl).
EXECUTE .
5.1. Linealidad de la relación

La relación entre cada una de las variables independientes incluidas en el
modelo y la variable dependiente ha de ser lineal. Los gráficos parciales entre
cada variable independiente y la variable dependiente permiten detectar el
tipo de relación entre ambas.
En regresión múltiple la representación gráfica de los residuos ayuda en
esta detección. Hay que elaborar los diagramas de dispersión de los residuos
que resultan de la regresión de cada variable independiente sobre las restantes
y la regresión de la variable dependiente sobre la variable independiente. Con
los datos del ejemplo 2 se obtienen los siguientes gráficos:
Gráfico de regresión parcial Gráfico de regresión parcial
6 3
4 2
EFICACIA
EFICACIA
2 1
0 0
-2 -1
-4 -2
-6 -3
-6 -4 -2 0 2 4 -3 -2 -1 0 1 2
MEMORIA RAZONAMIENTO
Figura 3.3. Gráfico de regresión parcial Figura 3.4. Gráfico de regresión parcial
para memoria para razonamiento
Este supuesto puede incumplirse cuando se omiten variables

independientes importantes, la relación entre éstas y la variable dependiente
no es lineal, los parámetros no son constantes o se da aditividad, es decir,
alguna variable independiente interactúa con otra. En estos casos se puede
utilizar otro tipo de regresión diferente a la lineal o efectuar alguna
transformación en las variables que permita linealizar el modelo.
5.2. Independencia
Los residuos se comportan como una variable aleatoria. Por tanto, han
de ser independientes entre sí, de las variables independientes y de los
pronósticos. En caso de no cumplirse este supuesto, se produce el problema
de la autocorrelación.
La prueba de Durbin-Watson permite conocer el grado de independencia
entre los residuos:
n n
DW ¦ (e i ei 1 ) 2 / ¦ ei2 Donde: 0 d DW d 4
i 2 i 1
Si los residuos son independientes DW = 2. Se puede asumir

independencia entre residuos si 1.50 d DW d 2.50. En los datos del ejemplo 2
se asume pues DW = 1.09.
5.3. Homocedasticidad
La variación de los residuos debe ser uniforme a lo largo de los valores

pronosticados ( ŷ i ). Esto implica que el tamaño de los residuos es
independiente del de los valores pronosticados.
Para comprobar el cumplimiento de este supuesto se elabora el diagrama

de dispersión entre los pronósticos y los residuos tipificados y se comprueba
que no existe relación lineal entre las variables.
El diagrama de dispersión en los datos del ejemplo 2 se presenta en la

figura 3.5. Como se observa, no existe relación lineal entre los pronósticos y
los residuos.
Regresión Residuo tipificado
Gráfico de dispersión
1.0
.5
0.0
-.5
-1.0
-1.5 -.5 .5 1.5
-1.0 0.0 1.0
Regresión Valor pronosticado tipificado
Figura 3.5. Gráfico de dispersión entre zy’ y zy – y’
5.4. Normalidad
Si se asume, para cada valor de la variable independiente, los residuos se

distribuyen normalmente con media cero y varianza V2.
Hay tres formas de comprobar este supuesto. La primera elaborar el
histograma de los residuos tipificados para observar el grado de alejamiento
de su distribución con respecto a la distribución teórica normal. En los datos
del ejemplo 2:
Histograma
1.2
1.0
.8
Frecuencia
.6
.4
.2
0.0
-1.00 -.50 0.00 .50 1.00
Figura 3.6. Histograma de residuos tipificados

La segunda, elaborar el gráfico P-P de probabilidad normal que permite

comparar la probabilidad acumulada observada y la esperada según la curva
normal. La discrepancia mayor o menor es un indicador del mayor o menor
alejamiento de los residuos a la normalidad. Este tipo de gráficos no son muy
informativos a no ser que el tamaño muestral sea suficientemente grande (n t
20). El gráfico P-P correspondiente a los datos del ejemplo 2 se muestra en la
figura 3.7. Con un n = 5, las desviaciones de los puntos a la normalidad no
permiten concluir que los residuos no se distribuyen normalmente.
Gráfico P-P normal

Prob acum esperada 1.00
.75
.50
.25
0.00
0.00 .25 .50 .75 1.00
Prob acum observada
Figura 3.7. Gráfico P-P de probabilidad normal
Por último, también se puede emplear el test de normalidad Kolmogorov-

Smirnov y comprobar que no sea significativo. Los resultados que ofrece el
SPSS en los datos del ejemplo 2 no permiten rechazar la hipótesis sobre
normalidad:
Prueba de Kolmogorov-Smirnov para una muestra
Standardized
Residual
N 5
Parámetros normales a,b Media 2.9802E-09
Desviación típica .7071068
Diferencias más extremas Absoluta .216
Positiva .216
Negativa -.161
Z de Kolmogorov-Smirnov .483
Sig. asintót. (bilateral) .974
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
5.5. Ausencia de colinealidad
Las variables independientes no deben tener correlaciones demasiado

altas. Cuando se incumple este supuesto se dice que existe colinealidad.
La existencia de colinealidad entre las variables puede originar diversos

problemas. Si la colinealidad es perfecta, no se pueden estimar los
coeficientes de la ecuación de regresión. Si es parcial, aumenta el tamaño de
los residuos tipificados y las estimaciones de los coeficientes son muy
inestables y difíciles de interpretar.
Para detectar el problema de la colinealidad entre variables
independientes se puede observar si se da alguno de los siguientes
indicadores:
a) El estadístico F del modelo es significativo pero ninguno de los
coeficientes de regresión parcial lo es y los coeficientes de correlación
son muy grandes.
- En los datos del ejemplo 2 el estadístico F es significativo y ninguno de
los bj lo es, aunque esto puede deberse al reducido tamaño muestral.
b) Los coeficientes de regresión parcial tipificados están fuera del rango
1 < b*j < -1.
- En los datos del ejemplo 2 no es así pues: b*1 = 0.74 y b*2 = 0.36.
c) Los valores de la tolerancia de las Xj, que se calculan mediante la
expresión: 1- R2j(1,2, ..., p), son menores de 0.01 y los factores de inflación de
la varianza (FIV), los inversos de la tolerancia, son grandes.
- En los datos del ejemplo 2 no sucede así pues:
Estadísticos de
colinealidad
Tolerancia FIV
MEMORIA .712 1.404
RAZONAM .712 1.404
d) En el análisis de componentes principales realizado sobre la matriz

estandarizada de productos cruzados entre las variables independientes
hay varios autovalores próximos a cero. Un componente explica mucha
varianza de los coeficientes de dos o más variables.
- En los datos del ejemplo 2 se obtienen los siguientes resultados:
Indice de Proporciones de la varianza

Dimensión Autovalor condición (Constante) MEMORIA RAZONAM
1 2.983 1.000 .00 .00 .00
2 8.951E-03 18.256 .88 .03 .54
3 7.839E-03 19.508 .12 .97 .46
Dos de las tres dimensiones tienen autovalores próximos a 0. El índice

de condición es la raíz del cociente entre el autovalor mayor y el de i. Si
es mayor que 15 indica colinealidad y de 30 colinealidad severa. En este
caso existe colinealidad. Además el componente 3 explica varianza de
los coeficientes de dos variables.
Si se detecta la existencia de colinealidad, para corregirla, se puede

aumentar el tamaño muestral, generar nuevas variables en base a
combinaciones lineales de las variables altamente correlacionadas, o bien
utilizar un procedimiento jerárquico a la hora de incluir las variables en la
ecuación. Esta es una forma de selección de variables que permite elegir sólo
aquellas que expliquen una parte de varianza distinta a la de las variables ya
incluidas en el modelo. En el siguiente apartado se exponen diferentes
procedimientos de introducción de variables.
6. Simplificación de modelos
Los criterios básicos para la selección de variables son: La significación
de los coeficientes (p < 0.05) y los valores de la tolerancia de Xj que deben ser
grandes (mayores que 0.01).
En caso de utilizar una sola variable independiente se selecciona la que
más correlacione con la variable dependiente. Si se utilizan varias, dado que
los coeficientes bj no indican la importancia relativa de la variable, es mejor
utilizar los coeficientes estandarizados:
sxj
b *j bj
sy
No obstante, estos coeficientes no bastan para indicar la importancia
relativa de las variables independientes, pues su posición en la ecuación no es
fija y están afectados por las correlaciones entre ellas. Cuando las Xj están
muy relacionadas también lo están los bj y tanto más cuanto mayor sea la
correlación múltiple de una variable independiente cualquiera y todas las
demás [R2j (1,2, ..., p)].
Al introducir una nueva variable Xj en un modelo de regresión múltiple
hay que estudiar el incremento que se produce sobre R2. Es decir:
2
R'2 Rp2 Rp2 j . El coeficiente R' permite conocer la importancia de la Xj
introducida. Si al introducir la variable, se produce un incremento grande y
significativo, la variable es importante, aporta información propia. La prueba
de significación para decidir sobre el incremento se realiza mediante el
estadístico F:
( SCE q SCE p ) /( p q ) ( R p2 Rq2 ) /( p q )
F ~ F( p q ),( n p )
SCE q /( n p ) (1 R p2 ) /( n p )
Donde Ep = [E1,E2, ...,Ej, ...,Ep] es el vector de parámetros del modelo

completo (también llamado modelo saturado), Eq = [E1,E2, ...,Ej, ...,Eq] el vector
de parámetros del modelo reducido y R2p y R2q los coeficientes de
determinación correspondientes a cada modelo, respectivamente.
Si se parte del modelo saturado y se elimina una o más variables y el

estadístico F es significativo, las variables eliminadas aportan variación
significativa, de modo que el modelo reducido no es adecuado. Si F no es
significativo, el modelo reducido es satisfactorio y explica la variación en la
variable dependiente tan adecuadamente como el modelo saturado.
Para dos modelos cualesquiera el incremento en el ajuste es:
R'2
R '2 R p2 R q2 ; p'
1 Rq2
Donde p' es la proporción de reducción en la varianza error.

n p 1
F' p ' ~ F ( n p 1 ), ( p q 1 )
p q 1
Existen diferentes procedimientos secuenciales para decidir si incluir o
excluir variables independientes en la ecuación de regresión. Dado un
conjunto de variables independientes, se trata de seleccionar el mínimo
número de ellas que expliquen el máximo de varianza posible de la variable
dependiente. A continuación se describen cuatro métodos secuenciales:
6.1. Backward (método hacia atrás)
Consiste en calcular la correlación múltiple de la variable dependiente

con todo el conjunto de variables independientes (modelo saturado). A
continuación se procede a eliminar cada variable independiente de la
ecuación de forma progresiva, según su menor coeficiente de regresión.
Posteriormente se calcula el decremento en R2 y su correspondiente
estadístico:
R p21 R p22
F ~ F1,( n p )
(1 R p21 ) /( n p )
Se elimina la variable si el decremento no es significativo. Es decir, si F <

1-DF1, (n – p).
El proceso de eliminación progresiva de variables continúa hasta
que el decremento en R2 sea significativo. Es decir, hasta que no se pueda
eliminar ninguna variable más.
6.2. Forward (método hacia delante)
Este procedimiento recorre el camino inverso del anterior. Consiste en ir

introduciendo cada una de las variables independientes en el modelo de
forma progresiva. La variable que entra primero es la que tenga mayor
correlación simple con la variable dependiente, siempre y cuando su valor F
sea significativo. A continuación se procede a calcular los coeficientes de

correlación parciales entre cada una de las variables no incluidas y la variable
dependiente eliminando el efecto de la variable ya incluida. Se selecciona la
variable con mayor correlación parcial y se estudia el incremento en R2 y su
correspondiente F:
R p22 R p21
F
(1 R p21 ) /( n p )
Se incluye la variable si el incremento en R2 es significativo (o si F > 1-DF 1,

2
(n – p)). El proceso se repite hasta que el incremento en R deja de ser
significativo. Es decir, hasta que no se pueda incluir ninguna variable más.
6.3. Stepwise (método por pasos sucesivos)
Este procedimiento es una mezcla de los anteriores. De la misma forma

que en el procedimiento forward, se incluyen variables independientes en la
ecuación en pasos sucesivos. En este caso, en cada paso se analiza la
situación de cada una de las variables (incluidas y no incluidas) y su posible
eliminación o inclusión.
En el primer paso se selecciona la variable independiente (Xj) de mayor

correlación con la variable dependiente y se retiene en el modelo si R2 es
significativo. A continuación se selecciona la segunda variable independiente
(Xk) con mayor correlación parcial con la variable dependiente y se calcula R2
y su prueba de significación con ambas variables en el modelo. La variable se
retiene si F > 1-DF1, (n-2-1). En el siguiente paso se selecciona la Xl de mayor
correlación con la variable dependiente y se analizan las posibilidades de que
Xj, Xk y Xl formen parte del modelo: (1) inclusión de Xl estando las otras dos;
(2) eliminación de Xk estando las otras dos; (3) eliminación de Xj estando las
otras dos. El proceso continua hasta que no se puedan incluir ni eliminar más
variables independientes.
Ejemplo 3. Regresión múltiple con cinco variables independientes
En una muestra de 100 empleados de una empresa se miden dos variables de

personalidad: neuroticismo (N) y extroversión (E), tres de inteligencia:
razonamiento abstracto (RA), razonamiento verbal (RV) y razonamiento
numérico (RN) y el rendimiento (RTO) en una tarea de ensamblaje. Se desea
encontrar la ecuación de regresión que permita predecir RTO a partir de las
variables de personalidad y de inteligencia.
Se dispone de la matriz de correlaciones y de los estadísticos descriptivos

para todas las variables:
RA ª1.00 º
RN «0.10 1.00 »
« »
RV « 0.15 0.16 1.00 »
R « »
E «0.12 0.20 0.10 1.00 »
N «0.16 0.16 0.20 0.00 1.00 »
« »
RTO ¬« 0.60 0.40 0.30 0.20 0.50 1.00 ¼»
x' >50 50 50 50 50 @; s 'x >10 10 10 10 10 @; y 10; s y 2
a). Especificación del Modelo
RA
E
RN RTO
N
RV
RTOi = E0 +E1 RAi + E2 RVi + E3 RNi +E4 Ei + E5 Ni +Ei

b). Estimación de parámetros (mediante mínimos cuadrados)
Variable bj b*j t p
RA 0.098 0.491 7.576 0.0000
RV 0.021 0.105 1.602 0.1126
RN 0.052 0.261 3.969 0.0001
E 0.016 0.078 1.206 0.2309
N 0.072 0.359 5.466 0.0000
Constante (b0) -2.943 -2.567 0.0000
c). Verificación del modelo
2 100 1
R2 0.6257 ; R 1 (1 0.6257 ) 0.60994
100 5
d). Pruebas de significación
ANOVA.
FV SC gl MC F p
Regresión 247.78 5 49.56 31.43 0.0000
Error 148.22 94 1.58
Total 396.00 99
Se comprueba que:
247.78 0.6257 / 5
R12 0.6257; F 31.43
396 (1 0,6257) / 94
El ajuste es significativo pues se rechaza H0: E = [0]. Es decir, hay
relación lineal entre las variables independientes y la variable dependiente.
Todos los parámetros de las variables independientes tienen efectos
significativos excepto los de extraversión (p = 0.2309) y razonamiento verbal
(p = 0.1126). Por tanto, cabe plantearse la simplificación del modelo.
e). Simplificación del modelo
Modelo 2: se elimina E.
Los resultados de la estimación de parámetros y las pruebas de
significación son:
Variable bj b*j t p
RA 0.100 0.499 7.719 0.000
RV 0.022 0.110 1.681 0.096
RN 0.055 0.276 4.258 0.000
N 0.071 0.354 5.392 0.000
Constante (b0) -2.392 -2.270 0.025
FV SC gl MC F p
Regresión 245.49 4 61.37 38.74 0.000
Error 150.51 95 1.58
Total 396.00 99
Por tanto: RTOi = -2.392+ 0.100 RAi + 0.022 RVi + 0.055 RNi + 0.071 Ni + Ei
245.49 2
Con el modelo 2: R22 0.619924; R 2 0.60391 ( p 0.0000)
396
Donde:
( R12 R22 ) /(6 5) (0.6257 0.6199) / 1 0.006
F 1.5 ( p 0.23)
(1 R12 ) /(100 5) (1 0.6257) / 95 0.004
Al eliminar E, el decremento en F no es significativo por lo que el modelo

2 explica tan bien RTO como el saturado.
Modelo 3: se eliminan E y RV
Variable bj b*j t p
RA 0.103 0.512 7.886 0.000
RN 0.058 0.289 4.460 0.000
N 0.074 0.372 5.687 0.000
Constante (b0) -1.728 -1.752 0.083
FV SC gl MC F p
Regresión 241.01 3 80.34 49.76 0.0000
Error 154.99 96 1.61
Total 396.00 99
El modelo 3 queda como: RTOi = -1.728+ 0.103 RAi + 0.058 RNi + 0.074 Ni + Ei
241 .01 2
Donde: R 32 0.6086 ; R3 0.5964 ( p 0.0000 )
396
( R12 R32 ) /(6 4) (0.6257 0.6086) / 2 0.009
F 2.14 ( p 0.096)
(1 R12 ) /(100 4) (1 0.6257) / 96 0.004
Al eliminar E y RV, el decremento en F no es significativo por lo que el

modelo 3 explica tan bien el RTO como el modelo saturado.
Modelo 4: se eliminan E, RV, RN y RA

Variable bj b*j t p
N 1.000 0.500 5.715 0.000
Constante (b0) 5.000 5.606 0.000
FV SC gl MC F p
Regresión 99.00 1 99.00 32.67 0.0000
Error 297.00 98 3.03
Total 396.00 99
El modelo 4 queda como: RTO = 5 + Ni + Ei

99 2
Donde: R 42 0 .25 ; R4 0 .24 ( p 0 .0000 )
396
( R32 R42 ) /(4 2) (0.60861 0.25) / 2 0.179
F 44.75 ( p 0.0000)
(1 R32 ) /(100 4) (1 0.6081) / 96 0.004
En este caso el decremento con respecto al modelo 3 es significativo. Por

tanto, el modelo 3 es el que mejor explica la varianza en RTO y el más
parsimonioso.
f). Procedimientos Secuenciales
Tanto por el procedimiento Backward, como por los procedimientos

Forward y Stepwise, se llega en tres pasos a la conclusión de que el modelo
que incluye las variables RA, RN y N (modelo 3) es el más parsimonioso y el
que mejor explica la varianza en RTO.
Los resultados finales del tercer paso son idénticos en los tres
procedimientos y coinciden en que el modelo 3 es el más apropiado para
explicar la varianza de la variable RTO:
Variable bj b*j t p
RA 0.102 0.512 7.876 0.000
RN 0.058 0.289 4.460 0.000
N 0.074 0.372 5.687 0.000
Constante (b0) -1.728 -1.752 0.083
FV SC gl MC F p
Regresión 241.008 3 80.336 49.759 0.000
Error 154.992 96 1.614
Total 396.000 99
Donde: RTOi = -1.728+ 0.102 RAi + 0.058 RNi + 0.074 Ni + Ei
2
R2 0 .60861 ; R 0 .59638
7. El análisis de regresión múltiple y el lenguaje MATRIX del SPSS

Cuando se dispone de los datos originales sobre las variables
independientes y la variable dependiente, se introducen en el editor de datos
del SPSS y se utiliza el procedimiento regresión lineal para estimar los
coeficientes del modelo, evaluar el ajuste y comprobar las condiciones de
aplicación (para más detalle véase Pardo y Ruiz, 2002).
Por ejemplo, con los datos del ejemplo 2 se obtiene el siguiente cuadro de
diálogo:
Figura 3.8.1. Procedimiento Regresión lineal del SPSS

A continuación se seleccionan las siguientes opciones dentro de los

cuadros de diálogo ‘Estadísticos’y ‘Gráficos’:
Figura 3.8.2. Regresión lineal: Estadísticos Figura 3.8.3. Regresión lineal: Gráficos
El resultado que ofrece el SPSS con estas selecciones aparece en el visor

y es el siguiente:
Variables introducidas/eliminadas b
Modelo Variables introducidas Variables eliminadas Método

1 RAZONAM, MEMORIA a . Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: EFICACIA
Resumen del modelo b
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación Durbin-Watson
1 .978a .957 .913 1.61 1.086
a. Variables predictoras: (Constante), RAZONAM, MEMORIA
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 114.024 2 57.012 22.027 .043a
Residual 5.176 2 2.588
Total 119.200 4
a. Variables predictoras: (Constante), RAZONAM, MEMORIA
Coeficientes
Coeficientes Intervalo de Estadísticos

Coeficientes no estandariza confianza para B al de
estandarizados dos 95% colinealidad
Mode Error Límite Límite Toler
lo B típ. Beta t Sig. inferior superior ancia FIV
1 (Constante) -10.168 6.262 -1.62 .246 -37.110 16.774
MEMORIA 1.017 .240 .740 4.241 .051 -.015 2.048 .712 1.404
RAZONAMIENTO1.008 .495 .355 2.035 .179 -1.123 3.140 .712 1.404
Diagnósticos de colinealidad
Indice de Proporciones de la varianza

Modelo Dimensión Autovalor condición (Constante) MEMORIA RAZONAMIENTO
1 1 2.983 1.000 .00 .00 .00
2 8.951E-03 18.256 .88 .03 .54
3 7.839E-03 19.508 .12 .97 .46
Los gráficos obtenidos son los mismos que los de las figuras 3.3., 3.4.,
3.5., 3.6. y 3.7. Como se observa, los resultados coinciden exactamente con
los cálculos hechos a mano para el ejemplo 2 del apartado 3.1.
Si no se dispone de los datos originales y sólo se conocen los estadísticos
descriptivos y la matriz de correlaciones (o la de covarianzas), se puede llevar
a cabo la regresión lineal mediante el lenguaje MATRIX. La sintaxis que
corresponde al ejemplo anterior es la siguiente:
MATRIX DATA VAR X1 X2 Y
/format lower diag/cont corr mean sd/n=5.
Begin data.
1.000
.536 1.000
.931 .752 1.000
27.40 12.80 30.60
3.97 1.92 5.46
End data.
REGRESSION /matrix=in(*) /variables=X1 to Y

/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA COLLIN TOL
/DEPENDENT Y
/METHOD=ENTER X1 X2 .
Cuadro 3.1. Sintaxis del lenguaje MATRIX para el ejemplo 2
Al ejecutar esta sintaxis, el SPSS genera un fichero en el editor de datos
del SPSS que incluye el nombre y tipo de variables, el tamaño muestral, el
vector de medias y el de desviaciones típicas y la matriz de correlaciones. La
figura 3.9. muestra el aspecto que tiene dicho fichero.
Figura 3.9. Fichero de datos que genera el SPSS con la sintaxis del cuadro 3.1.
Los resultados obtenidos son iguales a los anteriores aunque no incluyen
el estadístico de Durwin-Watson ni los gráficos para los residuos, pues no
pueden obtenerse si no se dispone de los datos originales. Por tanto, el
procedimiento MATRIX proporciona los resultados del análisis de regresión
lineal y tan sólo permite comprobar el supuesto de ausencia de colinealidad.
Para comprobar los restantes supuestos se necesitan los datos originales.
A continuación se resuelve el ejemplo 3 del apartado 6. En este caso, se
pone a prueba los procedimientos secuenciales de simplificación de modelos.
Para obtener estos resultados mediante los menús del SPSS se realizan las
mismas selecciones que en la figura 3.8.1., que permite escoger diferentes
métodos de selección de variables (‘pasos sucesivos o stepwise’, ‘hacia atrás
o backward’ o ‘hacia delante o forward’) y se selecciona la opción ‘cambio
en R cuadrado’ de la figura 3.8.2. La sintaxis del lenguaje MATRIX para
resolver este ejemplo con el método de selección de variables hacia detrás es:
MATRIX data var RA RN RV E N RTO
/format lower diag/cont corr mean sd/n=100.
Begin data.
1.000
.10 1.000
.15 .16 1.000
.12 .20 .10 1.000
.16 .16 .20 .00 1.000
.60 .40 .30 .20 .50 1.000
50 50 50 50 50 10
10 10 10 10 10 2
End data.
REGRESSION /matrix=in(*) /variables=RA RN RV E N RTO
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA CHANGE COLLIN TOL
/CRITERIA=PIN(.01) POUT(.05)
/NOORIGIN
/DEPENDENT RTO
/METHOD=BACKWARD RA RN RV E N .
Cuadro 3.2. Sintaxis de MATRIX para ejemplo 3
Los resultados obtenidos al ejecutar esta sintaxis son los siguientes:
Variables introducidas/eliminadas b
Mod Variables Variables

elo introducidas eliminadas Método
1 N, E, RA, RV, RN a Introducir
2 Hacia atrás (criterio: Prob. de F
E
para eliminar >= .050).
3 Hacia atrás (criterio: Prob. de F
RV
para eliminar >= .050).
a. Todas las variables solicitadas introducidas
b. Variable dependiente: RTO
Resumen del modelo
Estadísticos de cambio
R Error típ. de Cambio Sig. del
Mod R cuadrado la en R Cambio cambio
elo R cuadrado corregida estimación cuadrado en F gl1 gl2 en F
1 .791a .626 .606 1.255720 .626 31.427 5 94 .000
2 .787b .620 .604 1.258716 -.006 1.454 1 96 .231
3 .780c .609 .596 1.270629 -.011 2.826 1 97 .096
a. Variables predictoras: (Constante), N, E, RA, RV, RN
b. Variables predictoras: (Constante), N, RA, RV, RN
c. Variables predictoras: (Constante), N, RA, RN
El SPSS proporciona los resultados en tres pasos. En el primero, se ha

introducido el modelo saturado y se obtiene un coeficiente de determinación
de 0.626. En el segundo, se elimina la variable E, produciéndose un cambio
en R cuadrado de 0.006 puntos no significativo (p = 0.231). En el tercer paso,
se elimina la variable RV y el cambio en R cuadrado con respecto al modelo
anterior es 0.011 y no es significativo (p = 0.096). No pueden eliminarse más
variables del modelo, pues el decremento sería significativo. Por tanto, el
mejor modelo es el que incluye las variables N, RA y RN pues explica un
61% de la varianza de la variable RTO.
A continuación aparecen los resultados de las pruebas de significación y

de la estimación de los coeficientes para cada uno de los modelos.
ANOVA
Modelo Suma de cuadrados gl Media cuadrática F Sig.

1 Regresión 247.778 5 49.556 31.427 .000a
Residual 148.222 94 1.577
Total 396.000 99
2 Regresión 245.485 4 61.371 38.736 .000b
Residual 150.515 95 1.584
Total 396.000 99
3 Regresión 241.008 3 80.336 49.759 .000c
Residual 154.992 96 1.614
Total 396.000 99
a. Variables predictoras: (Constante), N, E, RA, RV, RN
b. Variables predictoras: (Constante), N, RA, RV, RN
c. Variables predictoras: (Constante), N, RA, RN
Coeficientes
Coeficientes Intervalo de Estadísticos

Coeficientes no estandarizad confianza para B al de
estandarizados os 95% colinealidad
Mod Error Límite Límite Tolera
elo B típ. Beta t Sig. inferior superior ncia FIV
1 (Constante) -2.943 1.146 -2.567 .012 -5.219 -.667
RA .098 .013 .491 7.576 .000 .073 .124 .947 1.056
RN .052 .013 .261 3.969 .000 .026 .078 .921 1.086
RV .021 .013 .105 1.602 .113 -.005 .047 .927 1.079
E .016 .013 .078 1.206 .231 -.010 .041 .943 1.060
N .072 .013 .359 5.466 .000 .046 .098 .925 1.081
2 (Constante) -2.392 1.054 -2.270 .025 -4.484 -.300
RA .100 .013 .499 7.719 .000 .074 .126 .956 1.046
RN .055 .013 .276 4.258 .000 .029 .081 .954 1.048
RV .022 .013 .110 1.681 .096 -.004 .048 .931 1.074
N .071 .013 .354 5.392 .000 .045 .097 .928 1.077
3 (Constante) -1.728 .986 -1.752 .083 -3.685 .230
RA .102 .013 .512 7.886 .000 .077 .128 .969 1.032
RN .058 .013 .289 4.460 .000 .032 .084 .969 1.032
N .074 .013 .372 5.687 .000 .048 .100 .953 1.049
Como se observa en la tabla ‘Anova’, los resultados coinciden con los

cálculos realizados con anterioridad. El ajuste es significativo pues se rechaza
la hipótesis nula H0: E = [0]. Es decir, existe relación lineal entre las variables
independientes y la variable dependiente. Por tanto, el modelo con las
variables independientes RA, RN y N es el más parsimonioso y el que mejor
explica la varianza en RTO (R2 = 0.61; p < 0.0001).
De la tabla ‘Coeficientes’ se deducen los coeficientes Ej para cada uno de
los modelos en puntuaciones directas y típicas y las pruebas de significación
H0: Ej = 0. Como se observa, en el modelo saturado todos los parámetros de
las variables independientes tienen efectos significativos excepto los de E

(p = 0.2309) y RV (p = 0.1126) que son las variables que se han ido
eliminando en cada paso.
A continuación se muestran los resultados sobre los diagnósticos de
colinealidad para cada uno de los modelos:
Diagnósticos de colinealidad
Autov Indice de Proporciones de la varianza

Modelo Dimensión alor condición (Constante) RA RN RV E N
1 1 5.858 1.000 .00 .00 .00 .00 .00 .00
2 .039 12.200 .00 .02 .06 .06 .46 .30
3 .034 13.114 .00 .66 .29 .03 .01 .05
4 .031 13.772 .00 .04 .16 .78 .01 .15
5 .028 14.582 .00 .16 .40 .04 .33 .36
6 .010 24.265 1.00 .12 .08 .09 .18 .14
2 1 4.892 1.000 .00 .00 .00 .00 .00
2 .034 11.942 .00 .57 .49 .00 .00
3 .032 12.394 .00 .22 .32 .36 .22
4 .030 12.675 .00 .01 .00 .50 .65
5 .011 20.742 1.00 .20 .19 .13 .13
3 1 3.922 1.000 .00 .00 .00 .00
2 .034 10.696 .00 .54 .54 .00
3 .031 11.203 .00 .19 .19 .79
4 .012 17.773 1.00 .27 .27 .21
Como se observa, los resultados para el modelo 3 indican la ausencia de

colinealidad severa, pues ninguno de los índices de condición supera el valor
30 y ningún componente explica mucha varianza de los coeficientes de más
de dos variables. Por último, se muestra la tabla que resume las pruebas de
significación y las correlaciones parciales entre las variables excluidas en
cada paso y la variable dependiente:
Variables excluidas
Estadísticos de colinealidad
Beta Correlación Tolerancia
Modelo dentro t Sig. parcial Tolerancia FIV mínima
2 E .078a 1.206 .231 .123 .943 1.060 .921
3 E .085b 1.304 .195 .133 .948 1.055 .932
RV .110b 1.681 .096 .170 .931 1.074 .928
a. Variables predictoras en el modelo: (Constante), N, RA, RV, RN
b. Variables predictoras en el modelo: (Constante), N, RA, RN
Como puede verse, los resultados justifican la eliminación de cada una de

las variables.
Para llevar a cabo el método de selección de variables ‘hacia delante’ y

‘por pasos’ se ejecuta la misma sintaxis que la del cuadro 3.2. cambiando tan
sólo la línea /METHOD que en lugar de BACKWARD debe decir
FORWARD o STEPWISE, respectivamente. El lector puede comprobar que
al ejecutar la sintaxis por ambos procedimientos se llega al siguiente
resultado:
Variables introducidas/eliminadasa
Mod Variables Variables

elo introducidas eliminadas Método
1 RA . Hacia adelante (criterio: Prob. de F para entrar <= .010)
2 N . Hacia adelante (criterio: Prob. de F para entrar <= .010)
3 RN . Hacia adelante (criterio: Prob. de F para entrar <= .010)
a. Variable dependiente: RTO
Resumen del modelo
R Error típ. Cambio Sig. del
Mod R cuadrado de la en R Cambio cambio
1 .600a .360 .353 1.608 .360 55.125 1 98 .000
2 .726b .528 .518 1.389 .168 34.387 1 97 .000
3 .780c .609 .596 1.271 .081 19.893 1 96 .000
a. Variables predictoras: (Constante), RA
b. Variables predictoras: (Constante), RA, N
c. Variables predictoras: (Constante), RA, N, RN
Coeficientes
Intervalo de Estadísticos
Coeficientes no Coeficientes confianza para B al de
estandarizados estandarizados 95% colinealidad
Mod Error Límite Límite Toler
elo B típ. Beta t Sig. inferior superior ancia FIV
1 (Constante) 4.000 .824 4.855 .000 2.365 5.635
RA .120 .016 .600 7.425 .000 .088 .152 1.000 1.000
2 (Constante) .517 .927 .558 .578 -1.322 2.357
RA .107 .014 .534 7.548 .000 .079 .135 .974 1.026
N .083 .014 .415 5.864 .000 .055 .111 .974 1.026
3 (Constante) -1.728 .986 -1.752 .083 -3.685 .230
RA .102 .013 .512 7.886 .000 .077 .128 .969 1.032
N .074 .013 .372 5.687 .000 .048 .100 .953 1.049
RN .058 .013 .289 4.460 .000 .032 .084 .969 1.032
Como se observa, por ambos procedimientos se llega a la misma

conclusión que con el método ‘hacia detrás’ comentado con anterioridad. Es
decir, que el modelo que incluye las variables RA, RN y N es el que mejor
explica la varianza en RTO.
Con el procedimiento MATRIX también es posible llevar a cabo el

análisis de regresión leyendo la matriz de correlaciones desde un fichero de
texto. No obstante, téngase en cuenta que en este caso se necesita incluir
también el vector de medias y el de desviaciones típicas. A continuación se
presenta un ejemplo:
Si se tiene la siguiente matriz de correlaciones y los vectores de medias y

el de desviaciones típicas, respectivamente, para seis variables y 200 sujetos
en el fichero "C:\datos.txt":
1.0000 0.6200 0.1700 0.0900 0.2700 0.7900

0.6200 1.0000 0.1200 0.1300 0.1300 0.5800
0.1700 0.1200 1.0000 0.0200 0.1700 0.4700
0.0900 0.1300 0.0200 1.0000 0.1200 0.0800
0.2700 0.1300 0.1700 0.1200 1.0000 0.5800
0.7900 0.5800 0.4700 0.0800 0.5800 1.0000
50 50 50 50 50 10
10 10 10 10 10 2
La sintaxis para que el SPSS lea este archivo de texto y lleve a cabo una
regresión por ejemplo de X6 sobre X1, X2, X3, X4 y X5 en un procedimiento
secuencial stepwise es la siguiente:
MATRIX DATA VAR x1 x2 x3 x4 x5 x6

/FILE="C:\datos.txt"
/FORMAT FULL
/CONT CORR MEAN SD /N=200 .
REGRESSION
/matrix=in(*)
/variables=x1 x2 x3 x4 x5 x6
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA CHANGE COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT x6
/METHOD=STEPWISE x1 x2 x3 x4 x5.
Al ejecutar la sintaxis, la matriz R, el vector de medias y el vector de

desviaciones aparecen en el editor de datos del SPSS de la misma forma que
en la figura 3.9.
Los resultados del análisis se muestran en el visor de resultados del SPSS.

El resultado más relevante es el siguiente:
Resumen del modelo
R Error típ. de Cambio Sig. del
Mod R cuadrado la en R Cambio cambio
1 .790a .624 .622 1.229 .624 328.736 1 198 .000
2 .877b .769 .767 .966 .145 123.771 1 197 .000
3 .925c .855 .853 .767 .086 116.502 1 196 .000
4 .933d .871 .869 .725 .016 24.233 1 195 .000
a. Variables predictoras: (Constante), X1
b. Variables predictoras: (Constante), X1, X5
c. Variables predictoras: (Constante), X1, X5, X3
d. Variables predictoras: (Constante), X1, X5, X3, X2
El lector puede comprobar que con este procedimiento el mejor modelo

es: X6’ = -3.623 + 0.108 X1 + 0.032 X2 + 0.059 X3 + 0.072 X5 (con R2 = 0.871
y p < 0.0001).
8. Ejercicios
1. Una muestra aleatoria, representativa de una población de vendedores de

una empresa, realiza una prueba de extroversión (X1) y otra de fluidez
verbal (X2), al tiempo que se registran sus puntuaciones en ventas de un
producto (Y). Los resultados obtenidos fueron los siguientes:
X1: 4 8 10 12 20 15
X2: 1 2 3 5 10 7
Y: 10 2 3 2 1 2
Se desea obtener la ecuación del plano de regresión que permita hacer

pronósticos en las ventas del producto a partir de la extroversión y la
fluidez verbal, así como la bondad de dicho modelo.
Lleve a cabo el análisis de regresión completo (incluyendo pruebas de

significación y comprobación de supuestos) y comente el resultado
obtenido.
2. Un equipo de especialistas en recursos humanos desea estudiar la relación

entre la satisfacción laboral (X) y el rendimiento en el trabajo (Y). Para ello
selecciona una muestra de 200 sujetos y les evalúa en cinco facetas de la
satisfacción y en el rendimiento:
X1 = Satisfacción con el sueldo.

X2 = Satisfacción con las condiciones ambientales en que se trabaja.
X3 = Satisfacción con las oportunidades de promoción
X4 = Satisfacción con la autonomía para tomar decisiones propias.
X5 = Satisfacción con el trato que se mantiene con el superior.
Y = Rendimiento en el trabajo.
Se desea averiguar qué facetas de la satisfacción tienen mayor relación

con el rendimiento. Los estadísticos descriptivos y correlaciones entre las
variables son:
X1 ª1 . 00 º
X2 « 0 . 34 1 . 00 »
« »
X3 « 0 .13 0 . 15 1 . 00 »
R « »
X4 « 0 . 29 0 . 20 0 . 32 1 . 00 »
X5 « 0 . 24 0 . 15 0 . 27 0 . 31 1 . 00 »
« »
Y ¬« 0 . 86 0 . 18 0 . 23 0 . 31 0 . 49 1 . 00 ¼»
x' >40 70 60 50 55@; s'x >10 20 10 20 15@; y >75@; sy >20@

Realice el análisis de regresión utilizando el lenguaje MATRIX.
Capítulo 4. Análisis de Componentes Principales
1. Introducción
Según Flury (1988), el análisis de componentes principales (ACP) puede

verse desde tres puntos de vista: (1) Como un método para transformar un
conjunto de variables correlacionadas en otro de variables independientes; (2)
Como un método para encontrar combinaciones lineales de variables con una
variabilidad relativamente grande o pequeña; (3) como una herramienta para
reducir los datos originales. El uso más común del ACP es una mezcla de los
puntos (1) y (2). Es decir, el ACP tiene como objetivo transformar un
conjunto de p variables correlacionadas (X1, X2, ..., Xp) en otro conjunto de p
variables (Y1, Y2, ..., Yp) que son independientes y reproducen de forma exacta
la estructura original de la matriz de covarianzas. Para ello se utilizan los
autovalores y autovectores de la matriz S (o de la matriz R). Las variables
resultantes, denominadas componentes, son combinaciones lineales de las X1,
X2, ..., Xp y se definen de forma jerárquica, de forma que el primer
componente es el que explica la mayor varianza y el último la menor.
El ACP tiene sus orígenes en Bravais (1846) y su forma de rotar una

elipse a los ejes principales para obtener la independencia en una distribución
normal multivariante; y más tarde en Pearson (1901) que lo concebía desde el
punto de vista (3); y en Frisch (1929), Hotelling (1933) y Girschick (1936).
El ACP a menudo es el paso previo a otros análisis multivariantes. Por
ejemplo, el análisis de regresión múltiple, donde se requiere que las variables
predictoras (X1, X2, ..., Xp) sean independientes (ausencia de colinealidad).
Existen diversos manuales que tratan de forma monográfica el ACP. Pueden
consultarse por ejemplo los de Dunteman (1989), Flury (1988) y Jackson
(1991).
El ACP es una técnica de análisis multivariante que no requiere asumir

normalidad, aunque, si puede asumirse, la interpretación de los componentes
es más sencilla y se pueden llevar a cabo pruebas de significación. En
esencia, el ACP depende de la relación entre las variables X1, X2, ..., Xp, pues
los componentes se calculan a través de los autovalores y los autovectores
normalizados de la matriz S o R; donde los autovectores determinan la
dirección de la máxima variabilidad de los componentes y los autovalores su
varianza.
Resumiendo, en el ACP:
1. No se establece ningún requisito sobre la distribución de las variables X1,
X2, ..., Xp.
2. Los componentes Y1, Y2, ..., Yp son combinaciones lineales de las

variables X1, X2, ..., Xp por lo que hay el mismo número de componentes
que de variables.
3. Var(Yi) = a'i S ai tal que: Var(Y1) t Var(Y2) t ... Var(Yp).
4. Cov(Yi, Yi’) = 0. Es decir, no existen restricciones de linealidad entre los
componentes. Por tanto, la matriz S (y por tanto R) tienen que ser
definidas positivas y r(S) = r(R) = p.
2. Cálculo de los componentes

Dado que X es la matriz de p variables correlacionadas medidas en n
sujetos con media P y matriz de covarianzas S (con autovalores O1, O2, …, Op y
autovectores normalizados a1, a2, …, ap), los p componentes se calculan
mediante:
Y=XA (4.1)
Donde A es la matriz de transformación que contiene los autovectores

normalizados de la matriz S (o R). Puesto que la matriz A es ortogonal: Y'Y =
(XA)'(XA) = A'A X' X = X'X.
La ecuación (4.1) se expresa en términos matriciales mediante:

ª Y11 Y12 Y1 p º ª X 11 X 12 X 1p º ª a11 a12 a1 p º
«Y Y 22 Y 2 p »» «X X 22 X 2 p »» «a a 22 a 2 p »»
« 21 « 21 « 21
« » « » « »
« » « » « »
«¬Y n1 Yn 2 Y np »¼ «¬ X n1 X n2 X np »¼ «¬ a p 1 a p2 a pp »¼
De donde se obtienen los componentes:

Y i1 Xa 1 X i1 a11 X i 2 a 21 ... X ip a p 1
Yi 2 Xa 2 X i1 a12 X i 2 a 22 ... X ip a p 2

Yip Xa p X i1 a1 p X i 2 a 2 p ... X ip a pp
Cada uno de los componentes es una combinación lineal Yi = X ai. Por

tanto, como se vio en (1.17), cada componente tiene E(Yi) = P' ai ; Var(Yi) =
a'i S ai. El ACP establece que en la primera combinación lineal (Y1) se
maximiza la Var(X ai) dado que a'i ai = 1. Según lo visto en (1.15), la
varianza del primer componente es: Var(Y1) = a'1 S a1 = a'1 O1 a1 = O1.
A continuación se describe el procedimiento de cálculo de los

componentes a partir de la matriz S y de la matriz R.
ANÁLISIS DE COMPONENTES PRINCIPALES 85
2.1. Cálculo a partir de la matriz S
Los componentes Yi se obtienen en los siguientes pasos:

1) Cálculo de la matriz S, de covarianzas: S = X'X / (n – 1).
2) Cálculo de la matriz /, de autovalores de S: ¨S – O I ¨= 0 (contiene los Oi).
3) Cálculo de la matriz A, de autovectores: (S – Oi I) ai = 0 (contiene los
autovectores normalizados de S, tales que el primero corresponde a la
mayor raíz latente de S).
4) Cálculo de la matriz F, de saturaciones: F = A /1/2.
En puntuaciones típicas, las saturaciones son las correlaciones entre cada
Xi y cada Yi, y se calculan mediante: F = Rxy = D-1/2A /1/2. Por tanto, las
saturaciones en puntuaciones típicas han de interpretarse pues su
magnitud refleja la importancia de cada variable en cada componente,
sin tener en cuenta las restantes variables.
5) Cálculo de la matriz de puntuaciones de los sujetos en los componentes:
Y = X A.
6) Cálculo de la varianza de cada componente:
Ya se ha visto que para cada componente Var(Yi) es una forma
cuadrática de S: Var(Yi) = Y'Y / n –1 = (X ai)'(X ai)/ n –1 = a'i X'X ai / n –1
= a'i S ai = Oi.
7) Cálculo de la proporción de varianza explicada por cada componente: ci =
Oi / ¦ Oi. De esta forma 6 Var(Xi) = tr(S) = ¦ Oi = tr(/) = 6 Var(Yi).
2.2. Cálculo a partir de la matriz R
Los componentes Yi se obtienen en puntuaciones típicas en los siguientes

pasos:
1) Cálculo de la matriz R, de correlaciones: R = z'z / (n –1) = D-1/2 S D-1/2.
2) Cálculo de la matriz /, de autovalores de R: ¨R – O I ¨= 0.
3) Cálculo de la matriz A, de autovectores: (R – O I) a = 0.
4) Cálculo de la matriz F, de saturaciones: F R z z
x y
A/1/ 2 .
5) Cálculo de matriz de puntuaciones típicas en los componentes: Zy = Zx
A /-1/2
6) Cálculo de la varianza de cada componente:
1 1 1
Var(z yi ) z' y z y (z x A)'(z x A) A' z'x z x A A' RA /
n 1 n 1 n 1
Donde Var(zyi)= a'i R ai = Oi (forma cuadrática de R)

De esta forma, 6 Var(zi) = tr(R) = ¦ Oi = tr(/
/) = p.
1 1
Cov ( z x , z y ) z 'x z y z 'x z x A RA AA ' RA A/
n 1 n 1
7) Cálculo de la proporción de varianza explicada por cada componente:
ci = Oi / p.
Los resultados de ambos procedimientos solo coinciden cuando las
variables X1, X2, ..., Xp tienen la misma varianza, aunque los componentes
obtenidos son diferentes.
El ACP también tiene pruebas de significación sobre el valor de los

autovalores y los autovectores de 6 y sus intervalos de confianza. Aquí no se
exponen dichas pruebas pues su complejidad excede a los objetivos de esta
monografía. Para una buena revisión véase Anderson (1984, pág. 468-477).
2.3. Ejemplo
Las puntuaciones de 30 sujetos evaluados en las variables razonamiento

numérico (X1) y razonamiento espacial (X2) han dado lugar a la siguiente
matriz de covarianzas:
ª13 12 º
S «12
¬ 12 »¼
Cálculo de los componentes a partir de la matriz S:

1) Matriz de autovalores:
13 - O 12
S -O I O 2 25 O 12 = 0
12 12 - O
O1 24.5 O 2 0.5 ; ¦O i 24.5 + 0.5 = 25
ª 24 . 5 0 º
/ « 0
¬ 0 . 5 »¼
2) Matriz de autovectores:
ª13 - 24.5 12 º ª a 11 º ª0 º
(S - O 1 I ) a 1 « 12
¬ 12 - 24.5 »¼ «¬ a 21 »¼ «0 »
¬ ¼
11 . 5 a 11 12 a 21 0 ½ a 11 1 . 000
¾
12 a 11 12 . 5 a 21 0 ¿ a 21 0 . 958
ª13 - 0.5 12 º ª a 12 º ª0 º
(S - O 2 I ) a 2 «0 »;
« 12
¬ 12 - 0.5 »¼ «¬ a 22 »¼ ¬ ¼
12 .5 a12 12 a 22 0 ½ a 22 1 .000
¾
12 a 12 11 .5 a 22 0 ¿ a 12 0 .958
Normalizando de modo que a'1 a1 = a'2 a2 = 1:
12 0.958 2 1.385
ª 1/1.385 0.958/1.38 5º ª0.722 0.692 º
A=«
¬0.958/1.38 5 1/1.385 »¼ «0.692
¬ 0.722 »¼
Por tanto: Y1 = X a1 = 0.722 X1 + 0.692 X2
Y2 = X a2 = -0.692 X1 + 0.722 X2
3) Matriz de saturaciones:
ª0.722 0.692º ª 24.5 0 º ª3.573 - 0.484º

F A/ 1/2 «0.692 0.722 » « » «3.427 0.505 »
¬ ¼¬ 0 0.5 ¼ ¬ ¼
En típicas:
ª1/ 13 0 º ª3.573 0.484º ª0.9884 -0.1353º
F D1/2A/1/2 « »« » «0.9859 0.1469 »
¬ 0 1/ 12 ¼ ¬3.427 0.505 ¼ ¬ ¼
4) Puntuaciones de los sujetos en los componentes:
A continuación se presenta el cálculo de las puntuaciones en los
componentes para los tres primeros sujetos:
ª 3 2º ª 3 .54 0 .63 º
Y XA « 1 2 » ª 0 .722 0 .692 º « 2 .10 0 .75 »
« » « 0 .692 0 .722 »¼ « »
¬4 4 ¼¬ ¬ 5 .64 0 .12 ¼
5) Varianza explicada por cada componente:

ª3.573 -0.484 º 3.573 2 3.427 2 24.50 Ȝ1 Var (Y1 )
F « »;
¬3.427 0.505 ¼ -0.484 2 0.505 2 0.50 Ȝ2 Var (Y2 )
7) Proporción de varianza explicada por cada componente:
O1 24.5 O1 0.5
c1 0.98; c2 0.02
O1 O2 24.5 0.5 O1 O 2 24.5 0.5
Cálculo de los componentes a partir de la matriz R:

1) Matriz de correlaciones:
ª1 13 0 º ª13 12º ª1 13 0 º ª 1 0.96º
R D1/2SD1/2 « »« »« » « »
¬ 0 1 12 ¼¬12 12¼¬ 0 1 12 ¼ ¬0.96 1 ¼
2) Matriz de autovalores:
1 O 0.96 O 1.96 ª1.96 0 º
R OI (1 O ) 2 0.96 2 0; ® 1 ; / « »
0.96 1 O O
¯ 2 0.04 ¬ 0 0.04¼
O1 1.96 O 2 0.04 ; ¦O i 1.96 + 0.04 = 2 tr ( R ) p.
3) Matriz de autovectores:
ª1 1 . 96 0 . 96 º ª a 11 º ª0 º ҏ
( R O1 I )a 1 « 0 . 96
¬ 1 1 . 96 »¼ «¬ a 21 »¼ «0 »
¬ ¼
0 . 96 a 11 0 . 96 a 21 0 ½ a 11 1
¾
0 . 96 a 11 0 . 96 a 21 0 ¿ a 21 1
ª1 0.04 0.96 º ª a12 º ª0 º

( R O 2 I )a 2 « 0.96
¬ 1 0.04 »¼ «¬ a 22 »¼ «0 »
¬ ¼
0 . 96 a 12 0 . 96 a 22 0 ½ a 12 1
¾
0 . 96 a 12 0 . 96 a 22 0 ¿ a 22 1
ª1 1 º
« 2 2» ª 0 .707 0.707 º
A « 0 .707
«1 1 » ¬ 0.707 »¼
¬« 2 2 ¼»
4) Matriz de saturaciones:
ª0.707 0.707º ª 1.96 0 º ª0.9898 0.1414º

F R z xz y A/1/ 2 «0.707 0.707 » « » « »
¬ ¼¬ 0 0.04¼ ¬0.9898 0.1414 ¼
0 . 9898 2 0 . 9898 2 1 . 96 Ȝ1
Donde: ®
2 2
¯ 0 . 1414 0 . 1414 0 . 04 Ȝ2
5) Matriz de puntuaciones típicas en los componentes:
Las puntuaciones típicas de los tres primeros sujetos en las variables son:
ª 3/ 13 2 / 12 º
1/2 « »
zx XD « 1/ 13 2 / 12 »
« 4 / 13 4 / 12 »¼
¬
Y las puntuaciones típicas en los componentes:
ª3 13 2 12º ª0.712 0.900º
-1/ 2 « » ª0.707 0.707º ª1/ 1.96 0 º «0.431 1.060»
z y zx A / «1 13 2 12» «0.707 0.707» « » « »
« 4 13 4 12 » ¬ ¼¬ 0 1/ 0.04¼
¬ ¼ «¬ 1.145 0.170»¼
6) Varianza explicada por cada componente:

ª 0.707 0.707º ª 1 0.96º ª0.707 0.707º ª1.96 0 º
Var(z yi ) A' RA « »« »« » « » /
¬ 0.707 0.707¼ ¬0.96 1 ¼ ¬0.707 0.707 ¼ ¬ 0 0.04¼
Donde:
ª0.707 0.707 º ª1.96 0 º ª1.39 0.03º
Cov ( z x , z y ) A/ «0.707
¬ 0.707 »¼ «¬ 0 0.04 »¼ «1.39
¬ 0.03 »¼
ª 0 . 900 º
1
Cov ( z y1 , z y 2 ) > 0 .712 0 . 431 1 . 145 @ «« 1 . 060 »» 0
29
¬« 0 . 170 ¼»
7) Proporción de varianza explicada:
1 . 96 0.04
ҏ c1 0 . 98 ; c2 0.02 .
2 2
Este ejemplo demuestra que los resultados obtenidos a partir de la matriz

S son distintos de los derivados de la matriz R. La siguiente tabla muestra las
diferencias entre ambos análisis:
Resumen de los resultados del ACP del ejemplo 2.3.

A partir de S A partir de R
Pesos (A) Saturaciones (F) Pesos (A) Saturaciones (F)
Variable a1 a2 zy1 zy2 a1 a2 zy1 zy2
X1 0.722 -0.692 0.9884 -0.1353 0.707 -0.707 0.9898 -0.1414
X2 0.692 0.722 0.9859 0.1469 0.707 0.707 0.9898 0.1414
Oi 24.5 0.5 1.96 0.04
% varianza 98% 2% 98% 2%
Como se observa, las saturaciones coinciden en puntuaciones típicas

tanto en la solución a partir de S como en la de R. La proporción de varianza
explicada por cada componente también es la misma. Sin embargo, los
autovalores no coinciden, pues indican varianzas de distintos tipos de
puntuaciones. Asimismo, las puntuaciones en los componentes para los tres
primeros sujetos fueron distintas aunque proporcionales (razón 3.5). La
solución obtenida a partir de la matriz R es más sencilla de interpretar, sobre
todo cuando las variables están medidas en tipos de escalas muy diferentes.
3. Geometría de los componentes
Geométricamente, las combinaciones lineales definidas en Y = X A

representan un nuevo sistema de coordenadas que se obtiene rotando o
girando de forma ortogonal el sistema de los ejes X1, X2, ..., Xp a través del
origen. De esta forma se obtienen los nuevos ejes Y1, Y2, ..., Yp.
La rotación es ortogonal porque A es una matriz ortogonal, que en el

caso de dos componentes puede expresarse mediante:
ªcosT senT º
A « senT
¬ cosT »¼
La matriz A rota los ejes X1, X2, ..., Xp a través del origen un ángulo de T
grados de modo que el primer componente reúna el máximo de la varianza
contenida en los datos y el segundo la varianza restante.
En el ejemplo del apartado 2.3. se obtuvo la matriz de transformación

ortogonal:
ª 0.72 0.69 º
A «¬ 0.69 0.72 »¼
cos T 0 . 72 ½
Donde: ¾ oT 44º
sen T 0 . 69 ¿
Por tanto, la matriz A ha rotado los ejes X1 y X2 a través del origen un

ángulo de 44 grados, de modo que el primer componente explique el máximo
de la varianza contenida en los datos y el otro la varianza restante. Este efecto
puede observarse en la figura 4.1. que es una representación gráfica de la
rotación con los datos de los 30 sujetos dados en puntuaciones diferenciales.
x2 y1

z z
zz
zzz
zz
zzzz

44º
zzz
z x1
zzzz

zz z

zzzz
zz
y2
Figura 4.1. Representación gráfica del ACP del ejemplo 2.3.
Como se observa en la figura 4.1., los ejes se han girado un ángulo de 44º
de modo que el componente y1 tiene una gran variabilidad y el componente y2
una variabilidad muy pequeña.
Si el propósito de este análisis fuera la reducción de datos, podría afirmarse

que las variables x1 y x2 pueden resumirse en el componente y1. Asimismo, la
figura 4.1. muestra una elipse centrada en el origen que contiene dentro de sí el
80% de las observaciones. De acuerdo con la normal bivariante, todos los
puntos de la elipse tienen igual densidad (véase figura 2.4. de capítulo 2). Por
tanto, este tipo de diagramas también pueden informar sobre el cumplimiento
del supuesto de normalidad.
4. El análisis de componentes principales y el lenguaje MATRIX

del SPSS
En la mayoría de los paquetes estadísticos el ACP aparece en el mismo

menú que el análisis factorial. Este es el caso del programa SPSS. Cuando se
dispone de los datos originales sobre las variables observadas, se introducen
en el editor de datos del SPSS y se utiliza el procedimiento Análisis Factorial
‘método de extracción componentes principales’ para estimar los
componentes del modelo (para más detalle véase Pardo y Ruiz, 2002).
Cuando no se dispone de los datos originales y sólo se conoce la matriz

R o la matriz S, el ACP se puede llevar a cabo mediante el lenguaje
MATRIX del SPSS. La sintaxis para llevar a cabo el ACP con los datos del
ejemplo del apartado 2.3. a partir de la matriz R se muestra en el cuadro 4.1.
Matrix data var x1 x2

/FORMAT lower diag/cont CORR /n=30.
BEGIN DATA.
1.00
.96 1.00
END DATA.
FACTOR
/MATRIX=in(COR=*)
/MISSING LISTWISE /ANALYSIS x1 x2
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION PC
/METHOD=CORRELATION .
Cuadro 4.1. Sintaxis del lenguaje MATRIX para el ejemplo 2.3 a partir de la matriz R
Al ejecutar esta sintaxis, los resultados se muestran tanto en el Editor de

datos (ver figura 4.2.) como en el visor de resultados del SPSS.
Figura 4.2. Fichero de datos que genera el SPSS con la sintaxis del cuadro 4.1.
En el visor de resultados los resultados obtenidos son los siguientes:

Comunalidades
Inicial Extracción
X1 1.000 1.000
X2 1.000 1.000
Método de extracción: Análisis de Componentes principales.
Varianza total explicada
Sumas de las saturaciones al cuadrado

Autovalores iniciales de la extracción
% de la % de la
Componente Total varianza % acumulado Total varianza % acumulado
1 1.960 98.000 98.000 1.960 98.000 98.000
2 4.000E-02 2.000 100.000 4.000E-02 2.000 100.000
Matriz de componentes a
Componente
1 2
X1 .990 -.141
X2 .990 .141
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos
La tabla ‘Comunalidades’ muestra la varianza inicial (la de las Xi) y la

varianza que queda explicada de éstas por los componentes extraídos (los Yi),
que es la misma puesto que el ACP reproduce de forma exacta la estructura
original de la matriz de correlaciones. La tabla ‘Varianza total explicada’
indica que se han extraído dos componentes: el primero explica el 98% de la
varianza (donde O1 = 1.96) y el segundo el 2% restante (O2 = 0.04). Por tanto,
el primer componente es el que contiene la mayor información. La tabla
‘Matriz de componentes’ muestra la matriz de saturaciones (F). Es decir, las
correlaciones entre cada variable y cada componente, que coinciden con las
calculadas más arriba mediante álgebra de matrices.
Para llevar al cabo el ACP a partir de la matriz S, se utiliza la sintaxis del

cuadro 4.2. Como se observa, el cambio radica en que se introduce la matriz
S en lugar de la matriz R y se indica el comando COVARIANCE en
/MATRIX y /METHOD.
Matrix data var x1 x2

/FORMAT lower diag/cont COVARIANCE /n=30.
BEGIN DATA.
13
12 12
END DATA.
FACTOR
/MATRIX=in(COVARIANCE=*)
/MISSING LISTWISE /ANALYSIS x1 x2
/PRINT INITIAL EXTRACTION
/CRITERIA FACTORS(2) ITERATE(25)
/EXTRACTION PC
/METHOD=COVARIANCE .
Cuadro 4.2. Sintaxis del lenguaje MATRIX para el ejemplo 2.3 a partir de la matriz S
Los resultados que ofrece el SPSS al ejecutar esta sintaxis incluyen los
autovalores y la matriz F obtenidos tanto a partir de S (solución Bruta) como
a partir de R (solución Reescalada):
Comunalidades
Bruta Reescalada
Inicial Extracción Inicial Extracción
X1 13.000 13.000 1.000 1.000
X2 12.000 12.000 1.000 1.000
Sumas de las saturaciones al

a
Autovalores iniciales cuadrado de la extracción
% de la % % de la %
Componente Total varianza acumulado Total varianza acumulado
Bruta 1 24.510 98.042 98.042 24.510 98.042 98.042
2 .490 1.958 100.000 .490 1.958 100.000
Reescalada 1 24.510 98.042 98.042 1.961 98.035 98.035
2 .490 1.958 100.000 3.9E-02 1.965 100.000
a. Al analizar una matriz de covarianza, los autovalores iniciales son los mismos en la solución
bruta y en la reescalada.
Matriz de componentes a
Bruta Reescalada
Componente Componente
1 2 1 2
X1 3.573 -.484 .991 -.134
X2 3.427 .505 .989 .146
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos
5. Ejercicios
1. Se ha evaluado a 9 empleados de una empresa su grado de perturbaciones

somáticas (X1) y su nivel de estrés (X2) ante una situación de hablar en
público con el fin de cubrir dos vacantes en el área de formación del
departamento de recursos humanos. Los resultados obtenidos en ambas
pruebas en puntuaciones diferenciales han sido los siguientes:
Sujeto: 1 2 3 4 5 6 7 8 9
x1: -8 6 0 -2 8 0 -6 0 2
x2: -1 10 0 -10 1 3 -6 -3 6
Obténgase dos nuevas variables, cada una combinación lineal de las dos
variables evaluadas, que sean independientes.
Realice para ello un ACP tanto a partir de la matriz S como de la matriz

R. Comente los resultados y represente gráficamente los ejes originales y
los nuevos ejes de forma similar a la figura 4.1.
2. El departamento de recursos humanos de una empresa está investigando

las actitudes de los empleados hacia su organización. Para ello ha
administrado un test a una muestra de 200 empleados extraídos al azar.
El test incluye preguntas sobre la actitud hacia diez aspectos de la
organización:
X1: Tener un sueldo competitivo

X2: Tener un puesto de trabajo estable
X3: Tener claro lo que se espera de mí
X4: Poder tomar decisiones propias
X5: Poder aportar y poner en práctica ideas
X6: Poder planificar el trabajo
X7: Cumplir con objetivos
X8: Tener oportunidades claras de promoción
X9: Recibir reconocimiento público por el trabajo
X10: Sentirse importante en el grupo de trabajo
Los miembros del departamento de recursos humanos necesitan que

todas las variables sean independientes. Para ello, han llevado a cabo un
ACP a partir de la matriz R. ¿Podría decirse que los resultados obtenidos
apoyan su propósito?
Para resolver este ejercicio se necesita utilizar el lenguaje MATRIX del SPSS
y disponer de la matriz de correlaciones entre las variables, que se presenta a
continuación:
X1 ª1.00 º
X2 «0.54 1.00 »
« »
X 3 «0.43 0.56 1.00 »
« »
X 4 «0.59 0.50 0.53 1.00 »
X 5 «0.24 0.25 0.47 0.32 1.00 »
R « »
X 6 «0.26 0.39 0.44 0.49 0.59 1.00 »
X 7 «0.20 0.34 0.24 0.30 0.05 0.24 1.00 »
« »
X 8 «0.12 0.39 0.18 0.16 0.05 0.15 0.60 1.00 »
X 9 «0.11 0.36 0.26 0.19 0.38 0.48 0.16 0.15 1.00 »
« »
X 10 ¬«0.25 0.53 0.39 0.28 0.27 0.50 0.35 0.29 0.70 1.00¼»
Capítulo 5: Análisis Factorial
1. Introducción
El análisis factorial (AF) es una técnica que tiene como objetivo
transformar un conjunto de p variables observadas X1, X2, ..., Xp que están
relacionadas en otro conjunto de q factores f1, f2, ..., fq que las resuman. Se
pretende explicar e interpretar la covariación existente entre las variables en
función de los factores que subyacen a dicha covarianza. El ACP y el AF a
menudo se confunden. La diferencia básica entre ambos es que en el ACP no
se asume ningún modelo estadístico (Kendall, 1980) y el objetivo es explicar
la varianza total de las variables mientras que el AF necesita asumir
diferentes supuestos pues se basa en un modelo estadístico y el objetivo que
se pretende es explicar la estructura de covarianza de las variables
observadas. Asimismo, el AF utiliza pruebas de bondad de ajuste para
valorar el grado en que el modelo estimado reproduce los datos observados
(para más detalles sobre las diferencias entre el AF y el ACP véase Tatsuoka
y Lohnes, 1988).
El AF ha sido especialmente utilizado en psicología y otras ciencias
sociales. Sin embargo, su uso ha provocado cierta controversia y algunos
autores incluso lo desaconsejan (véase Reyment, Balckith y Campbell, 1984
para un revisión sobre este tema). Pese a esta controversia, el AF se sigue
empleando porque resulta útil para reducir la información relativa a un
conjunto inicial de variables y definir constructos. Existe un gran número de
manuales sobre análisis factorial. Entre otros, el clásico de Mulaik (1972) y
los de Basilevsky (1994) y Lewis-Beck (1994). En castellano, puede
consultarse el de Ferrando (1993) y el de García, Gil y Rodríguez (2000).
El modelo factorial general puede escribirse (en puntuaciones
diferenciales) mediante:
X1 = O11 f1 + O12 f2 + … + O1q fq + H1
X.2 = O21 f1 + O22 f2 + … + O2q fq + H2
..
Xp = Op1 f1 + Op2 f2 + … + Opq fq + Hp (5.1)
En notación matricial:
X = /f + H (5.2)
Donde:
X = [X1, X2, ..., Xp] es el vector de p variables observadas con media 0 y
matriz de covarianzas 6.
f = [f1, f2, ..., fq] es un vector de q factores con media 0 y matriz de
covarianzas I.
/ es la matriz de orden p x q que contiene los OLj o saturaciones de las

variables en los factores (también denominada matriz de configuración).
H = [H1, H2, ..., Hp] es un vector de errores aleatorios con media 0 y matriz de
covarianzas <.
Por tanto, las variables observadas se expresan en términos de las

variables f1, f2, ..., fq, H1, H2, ..., Hp que son no observadas (o latentes). Esta es
una de las principales características que distinguen al modelo factorial del
modelo de regresión definido en (3.2), donde las variables independientes
son observadas.
El AF, a diferencia del ACP, requiere el cumplimiento de supuestos sobre

el modelo:
1. Puesto que el objetivo es explicar la estructura de covarianza de las
variables observadas, se asume que E(X) = 0, que r(6) = p, y que E(f) =
E(H) = 0.
2. La varianza de los factores es 1; no así la de los errores, denominada \i.
3. Los errores son independientes entre sí y de los factores:
ª\ 1 0º
« » Cov(H, f) = 0
< « »
« »
¬« 0 \ p »¼
4. Los factores son independientes aunque pueden estar correlacionados tras
la rotación (ver apartado 5.1.).
5. Aunque no es imprescindible, suele asumirse que tanto los factores como
los errores siguen una distribución normal multivariante. Esto implica que
X también es normal multivariante.
Estos supuestos y las relaciones planteadas en la ecuación (5.2)

constituyen el modelo factorial general. Los parámetros del modelo son las
saturaciones y las varianzas error.
En el AF se pretende encontrar los factores que expliquen la varianza que

es común a las variables. Dado que los factores son independientes y con
varianza 1, tomando la expresión (5.2), la varianza de cualquiera de las
variables es:
Var ( X i ) O 2i1 O 2i 2 ... O 2iq Var (H i )
Por tanto:
q
Var ( X i ) ¦i 1
O 2ij \ i
(5.3)
ANÁLISIS FACTORIAL 99
Si en lugar de trabajar a partir de la matriz de covarianzas se trabaja a

partir de la matriz de correlaciones, como ocurre en la práctica, se utilizan
puntuaciones típicas y la expresión (5.3) queda como:
q
Var ( z i ) 1 ¦O
i 1
2
ij \ i
Por tanto, la varianza de una variable observada puede descomponerse en

dos partes: (1)
1) hi2 : la varianza que es común con otras variables, llamada comunalidad,
donde:
q
h i2 ¦O 2
ij O 'i O i es la suma de cuadrados de las filas de la matriz /.
i 1
2) \i: la varianza propia (de cada variable) y la error, llamada unicidad,

donde:
\i 1 h i2
De la ecuación (5.2) también se deduce que:
q
Cov ( X i , X i ' ) ¦O j 1
ij Oi' j
Según esto, la matriz de covarianzas de X puede expresarse mediante:

6 = E(X'X) = E[(/f + e)'(/f + e)] = E[(f '/' + e') (/f + e)] =
= //' E(f f ') + /' E(f 'e) + / E(e' f) + E(e'e) = //' + < (5.4)
En el caso de un modelo con un factor:
ª O1 º ª\ 1 0 0 º
«O »
« 2 » >O
«0 \2 0 »»
6 // ' < 1 O 2 O p @ «
« » « »
« » « »
¬« O p ¼» ¬« 0 0 \ p ¼»
ª O 2
1 O1O2 O1O p º ª\1 0 0º 2
ªO \1 O1O2
1 O1O p º
« » « « »
« 2 1 O2
O O 2
O2 O p » « 0 \ 2 0 »» 2
« O2 O1 O2 \ 2 O2 O p »

« » « » « »
« » « » « »
¬«O p O1 O p O2
2
O p ¼» ¬« 0 0 \ p »¼ ¬« O p O1 O p O2 2
O p \ p ¼»
La expresión (5.4) es de vital importancia para el AF pues demuestra que

los factores explican los términos que están fuera de la diagonal principal de
(1)
Nótese que en el ACP no se hace distinción entre parte común y residual, pues se reproduce
la varianza total de las variables que intervienen en el análisis.
6 (las covarianzas) de forma exacta porque < es diagonal. Asimismo,

establece que el cálculo de las saturaciones factoriales es equivalente a la
factorización de la matriz de covarianzas de X, con la condición de que los
elementos diagonales de < no sean negativos.
El análisis factorial también puede llevarse a cabo a partir de la matriz de

correlaciones donde:
5 = //' + <
En este caso//' es la matriz reducida R*:
ª h2 r12 r1 p º
« 1 »
«r h22 r2 p »
R* « 21 » // '
« »
« »
« r p1 rp 2 h 2p »
¬ ¼
y contiene las comunalidades hi2 en su diagonal principal.
Ejemplo 1: Modelo de un factor

Se han medido tres variables: X1, X2 y X3 en una muestra de 200 sujetos.
Se desea llevar a cabo un AF de un factor a partir de la matriz de
correlaciones:
ª 1 0 .83 0 .78 º
R « 0 .83 1 0 .67 »»
«
¬« 0 .78 0 .67 1 »¼
Dado que p = 3 y q = 1, según la expresión (5.1):

X1 = O1 f1 + H1
X2 = O2 f1 + H2
X3 = O3 f1 + H3
Puesto que la estructura de la matriz R implica que 5 = //' + <:
ª O1 º ª\ 1 0 0 º
R // '< « O » >O O2 O 3 @ «« 0 \2 0 »»
« 2» 1
«¬ O 3 »¼ «¬ 0 0 \ 3 »¼
ª O12 O1 O 2 O1 O 3 º ª\ 1 0 0º ªO12 \ 1 O1 O 2 O1 O 3 º
« » « »
«O1 O 2 O 22 O 2 O 3 » «« 0 \ 2 0 »» « O1 O 2 O 22 \ 2 O 2 O3 »
« O1 O 3 O 2 O3 O 23 »¼ ¬« 0 0 \ 3 ¼» « O1 O 3 O 2 O3 O 23 \ 3 »¼
¬ ¬
Por tanto, hay seis ecuaciones y seis incógnitas:

1 O12 \ 1
0 . 83 O1 O 2
0 . 78 O1 O 3
1 O 22 \ 2
0 . 67 O 2 O 3
1 O 23 \ 3
El par de ecuaciones 0.78 O1O3 ; 0 . 67 O 2 O 3 implica que:

O2 0.67 / 0,78O1 . Sustituyendo en la ecuación 0 . 83 O 1 O 2 se llega a:
O 12 0.83 0.78 /0.67 0.966; O1 0 . 983
Del mismo modo:

O 22 0.83 0.67 /0.78 0.713; O2 0 . 844
O 2
3 0.78 0.67 /0.83 0.630; O3 0 . 794
De donde se deduce que:
\1 0 .034 ; \ 2 0 . 287 ; \ 3 0 .370
Por tanto, la matriz reducida (con las comunalidades en la diagonal
principal) es la siguiente:
ª 0 .983 º ª 0 .966 0 .830 0 .780 º
R* // ' «« 0 .844 »» >0 .983 0 .844 0 .794 @ « 0 .830
« 0 .713 0 .670 »»
¬« 0 .794 ¼» ¬« 0 .780 0 .670 0 .630 ¼»
Y la matriz con las unicidades:

ª0.034 0 0 º
< «« 0 0.287 0 »»
«¬ 0 0 0.370»¼
Por lo que la matriz de correlaciones queda reproducida del siguiente modo:

ª0.966 0.830 0.780º ª0.034 0 0 º ª 1 0.83 0.78º
R //'< «0.830 0.713 0.670» « 0 0.287 0 »»
« » « «0.83 1 0.67»
« »
«¬0.780 0.670 0.630»¼ «¬ 0 0 0.370»¼ «¬0.78 0.67 1 »¼
En este ejemplo la matriz de correlaciones reproducida por el modelo es

idéntica a la matriz de correlaciones de la muestra por lo que el ajuste del
modelo es perfecto. Esto no es cierto en general pues la bondad de ajuste del

modelo depende de la diferencia entre ambas matrices.
En síntesis, el modelo factorial asume que las varianzas y covarianzas de

X pueden reproducirse a partir de las pq saturaciones Oij y de las p unicidades
\i. Cuando p = q, cualquier matriz 6 se reproduce de forma exacta mediante
//' pues la matriz < es la matriz nula 0. Cuando q < p, el modelo factorial es
más útil puesto que proporciona una explicación de la covariación en X más
parsimoniosa.
2. Métodos de extracción de factores

Los diferentes métodos de extracción de factores intentan estimar los
parámetros del modelo (5.2). El objetivo es encontrar el modelo factorial que
represente los datos a partir del mínimo número de factores y verifique la
estructura de covarianza especificada en la ecuación (5.4). Aquí se exponen
cuatro de los métodos más utilizados. La elección de un método u otro
depende del objetivo del investigador, del cumplimiento de los supuestos del
modelo y de la utilización o no de estadísticos de bondad de ajuste. Los
métodos se describen con el cálculo a partir de la matriz R, aunque el
procedimiento es apropiado también a partir de la matriz S.
2.1. Método de componentes principales
Este método se utiliza para formar combinaciones lineales independientes

de las variables observadas de modo que la primera (el primer factor)
obtenga la varianza máxima y que p = q y por tanto: \i = 0 para todo i. El
método CP, a diferencia de los restantes, utiliza la matriz R para calcular la
matriz de saturaciones / y obtener la solución factorial inicial. Al haber
tantos componentes como variables, los componentes explican toda la
varianza. Dado que este método es una simple transformación directa de las
variables observadas, no se realiza ninguna estimación de las comunalidades
ni se utiliza ningún criterio estadístico para determinar el número de factores.
El procedimiento es similar al visto en el ACP (ver apartado 4.2.):
1) Calcular la matriz de correlaciones: R = //' + < = //'.
2) Calcular la matriz de autovalores ': ¨R – Oj I ¨= 0 (donde Oj es un
autovalor de R).
3) Calcular la matriz de autovectores A: (R – Oj I) aj = 0 (donde aj es u
autovector de R).
4) Calcular la matriz de saturaciones: / = A' 1/2 (o matriz de configuración).
5) Calcular las puntuaciones factoriales: Zy = Zx / (cálculo directo, sin
estimación).
6) Calcular la varianza y la proporción de varianza de cada factor extraído

p
Var ( f ) O2 O ' O . Es la suma de cuadrados de las columnas de la
j ¦ ij j j
j
matriz /. La proporción de varianza explicada por cada factor es: Oj / p.

Considérese el método de extracción CP para los datos del ejemplo 1. La
matriz de autovalores es:
ª 2 .522 0 0 º
' « 0 0 .334 0 ».
« »
¬« 0 0 0 .144 ¼»
De donde se obtiene la matriz de saturaciones:

ª 0 .951 0 .066 0 .301 º
/ « 0 .910 0 .364 0 .199 »
« »
«¬ 0 .888 0 .444 0 .118 »¼
De la matriz / se deduce que cada una de las comunalidades es 1 y las

unicidades son 0:
h12 0.951 2 ( 0.066 ) 2 ( 0.301) 2 1; \ 1 0
h 2
2
2
0 . 91 ( 0 . 364 ) 0 . 199 2 2
1; \ 2 0
h 2
3
2
0 . 888 0 . 444 2
0 . 118 2
1; \ 3 0
La varianza del cada factor también puede deducirse de /:

O1 0 .951 2 0 .910 2 0 .888 2 2 .522
O 2 (0.066) 2 (0.364) 2 0.4442 0.334
O 3 ( 0 .301 ) 2 0 .199 2 0 .118 2 0 .144
Por tanto, el modelo explica toda la varianza de las variables observadas y:

ª0.951 0.066 0.301º ª 0.951 0.910 0.888º ª 1 0.83 0.78º
R //' «0.910 0.364 0.199 » « 0.066 0.364 0.444» ««0.83 1 0.67»»
« »« »
«¬0.888 0.444 0.118 »¼ «¬ 0.301 0.199 0.118»¼ «¬0.78 0.67 1 »¼
< = 0.
La solución CP extrae tantos factores como variables pero suele ser

preferible obtener un modelo que explique la estructura de covarianza con
pocos factores. Si los últimos autovalores son pequeños es posible emplear
este método para q < p. Según se ha visto en el ejemplo 1, los autovalores 2 y
3 son muy pequeños (0.33 y 0.14). Si en lugar de tomar todos los factores
sólo se considera el primero, la matriz de saturaciones es:
ª0.951º h12 0.9512 0.904; \1 0.096
/ «0.910» . Donde ° 2
®h2 0.910 2 0.828; \ 2 0.172 y O1/p = 2.522/3 = 0.84
« »
«¬0.888»¼ °h 2 0.888 2 0.789; \3 0.211
¯ 3
En este caso, R = //' + <y \i = 1 – hi2 para todo i. Es decir:
ª0.966 0.830 0.780º ª0.034 0 0 º ª 1 0.83 0.78º

R //'< ««0.830 0.713 0.670»» «« 0 0.287 0 »» «0.83 1 0.67»
« »
¬«0.780 0.670 0.630¼» ¬« 0 0 0.370¼» «¬0.78 0.67 1 »¼
Por tanto, el modelo de un factor explica el 84% de la varianza total y las

comunalidades (0.90, 0.83 y 0.79) indican que el modelo da cuenta de un
amplio porcentaje de varianza explicada de cada variable.
2.2. Método de ejes principales
Este método es igual al CP pero utiliza la matriz R*, o matriz reducida,

que es la matriz de correlaciones original que sustituye los 1 de su diagonal
principal por las estimaciones iniciales de las comunalidades. Al utilizar la
matriz R*, se analiza solamente la variabilidad común entre las variables. Las
saturaciones factoriales resultantes se utilizan para estimar de nuevo las
comunalidades y reemplazar las estimaciones iniciales en R*.
En este caso el procedimiento es similar al del método CP:
1) Calcular la matriz reducida: Puesto que las unicidades \i se eliminan de
la diagonal principal, la matriz resultante es: R* = R – < = //'.
2) Existen diversos procedimientos para estimar las comunalidades, hi2. El
más utilizado es la correlación múltiple entre la variable Xi y las p – 1
restantes variables. Es decir: h * i2 1 \ i* 1 1 . Donde rii son los
rii
elementos diagonales de la matriz R-1. Este procedimiento tiene la ventaja
2
de que las h * i pueden obtenerse incluso cuando r(R) z p.
3) Calcular las matrices ' y A. Donde ¨R* – Oj I¨= 0; (R* – Oj I) aj = 0; y
R* = //' = A '1/2 '1/2 A' = A ' A'.
4) Calcular la matriz factorial: / = A '1/2.
5) Calcular la matriz reproducida: Rr = //' + <
6) Calcular la matriz residual (sin la diagonal principal): Re = R* – Rr = R* – //'
7) Calcular la varianza y la proporción de varianza de cada factor extraído a

partir de la matriz / y el cociente Oj / p.
Considérese ahora el método de extracción EP para los datos del ejemplo

1. Para obtener la matriz R*, primero hay que estimar las comunalidades
iniciales, mediante:
ª 4.543 2.534 1.846º h *12 1 (1 / 4 .543 ) 0 .78
°
R 1 «« 2.534 3.228 0.186»» . Donde °® h * 22 1 (1 / 3 .228 ) 0 .69
«¬ 1.846 0.186 2.564 »¼ ° h * 32 1 (1 / 2 .564 ) 0 .61
°¯
Por tanto:
ª 0 .78 0 .83 0 .78 º
R * « 0 .83 0 .69 0 .67 »»
«
«¬ 0 .78 0 .67 0 .61 »¼
Una vez extraídos los autovalores y autovectores de la matriz R*, se

obtiene la matriz de saturaciones:
ª 0 . 982 º
/ A' 1/ 2 « 0 . 845 »
« »
«¬ 0 . 794 »¼
Las estimaciones finales de las comunalidades son: h12 0.982 2 0.963 ,

h 0.845 2 0.714 y h32 0.7942 0.630; y de las unicidades: \1 0.037 ,
2
2
\2 0.286 y \3 0.37 . La varianza del primer factor es:

2 2 2
O1 0.982 0.845 0.794 2.522 ; y la proporción de varianza del primer
factor: O1 / p = 2.522 / 3 = 0.84.
Las matrices reproducida y residual son las siguientes:
ª 0 .9635 0 .8295 0 .7793 º
« »
Rr « 0 .8295 0 .7142 0 .6710 »
« »
¬ 0 .7793 0 .6710 0 .6304 ¼
ª 0.0005 0.0007 º
« »
Re «0.0005 0.0010»
« »
¬0.0007 0.0010 ¼
Como se observa, al igual que con el método CP, el modelo de un factor

explica el 84% de la varianza total. Sin embargo, las saturaciones y por tanto
las comunalidades y unicidades toman valores distintos.
2.3. Método de máxima verosimilitud
El método MV consiste en encontrar la solución factorial para la cual la

probabilidad de las correlaciones observadas sea máxima (Lawley &
Maxwell, 1971). Para ello se asume que la muestra procede de una
distribución normal multivariante. Este supuesto no es necesario para los
anteriores métodos de estimación.
Si f y H son normales, entonces las variables X = / f + H también son

normales. Como se ha visto en la sección 3.1. la función de verosimilitud es:
1 ª 1 §¨ ·º
n

np

n tr « 6
2 ¬« ¨ ¦ ( X i X )( X i X )' n ( X P )( X P )' ¸¸ »»
© ¹¼
L(P , 6 ) ( 2S ) 2
6 2 e i 1
§ 1 · ª 1 §¨ ·º
n
1
( n 1) p
n 1
© 2 ¹ «¬
¦
¨ ¸ tr « 6 ¨ ( X i X )( X i X )' ¸¸ »
p

1 § n· 1
¨ ¸ ( X P ) 6 ( X P )'
©i 1 ¹ »¼ © 2¹
(2S ) 2
6 2 e u (2S ) 2
6 2 e
Esta expresión depende de / y <. Para estimar la matriz de saturaciones

/ se impone la siguiente condición:
' = /' <-1/
El procedimiento es similar a los anteriores, pero en este caso se

soluciona el polinomio ¨R1 – Oj I¨= 0; que hace que las correlaciones se
ponderen por el inverso de la unicidad de las variables. Es decir:
R1 = <-1 R<-1
Las estimaciones /̂ y < ˆ se obtienen maximizando la función de

verosimilitud. Para ello se emplea un algoritmo iterativo que permite que R1
se reajuste en cada etapa de modo que el mayor peso se atribuye a las
variables con mayor comunalidad. Este método proporciona la mejor
estimación de la matriz Rr y genera una prueba de significación chi-cuadrado
para valorar la bondad de ajuste del modelo (ver apartado 4). Para obtener las
estimaciones por el método MV es necesario emplear un programa de
ordenador. En el apartado 8 se muestra un ejemplo en el que se aplica el
método de estimación de máxima verosimilitud a los datos del ejemplo del
apartado 7 mediante el lenguaje MATRIX del SPSS.
2.4. Método de mínimos cuadrados generalizados

El método MCG también es un procedimiento iterativo. En este caso se
minimiza la suma de los cuadrados de las diferencias entre las matrices de
correlación observada y reproducida: 6 (R – Rr)2. Las correlaciones se
ponderan por el inverso de su unicidad, de manera que las variables que
tengan un valor de unicidad alto reciban un peso menor que aquellas que
tengan un valor bajo de unicidad. Tanto este método como el método MV
generan una prueba de bondad de ajuste chi-cuadrado.
Los dos primeros métodos se caracterizan por maximizar la varianza
explicada y los dos últimos por ser iterativos y ofrecer una prueba de
significación estadística para valorar si el modelo factorial obtenido se ajusta
adecuadamente a las correlaciones observadas.
3. Contrastes sobre la adecuación del análisis factorial

Antes de llevar a cabo un análisis factorial es necesario estudiar si la
matriz de correlaciones cumple las condiciones suficientes para ser
factorizada. Una de ellas es que las variables estén relacionadas. La prueba
de esfericidad de Bartlett contrasta si la matriz R es una matriz identidad (H0:
5 = I) mediante el estadístico:
2
X K Ln Q
2 p 5 2q Oˆr 1 uu Oˆ p
Donde K (n 1) y
6 3 Q p q
§ Oˆr 1 Oˆ p ·
¨ ¸
¨ p q ¸
© ¹
El estadístico X2 se distribuye según F2 con (p2 – p)/2 grados de libertad.
Si el valor de X2 es significativo, tiene sentido o es adecuado realizar un
análisis factorial. Si no lo es, debería cuestionarse su uso.
También puede emplearse la medida de adecuación muestral de Kaiser-

Meyer-Olkin que compara las correlaciones observadas con las correlaciones
parciales entre las variables mediante el estadístico:
¦¦r
iz j
2
ij
KMO
¦¦r
iz j
2
ij ¦¦a
iz j
2
ij
Donde rij es el coeficiente de correlación simple entre las variables xi y xj

y aij es el coeficiente de correlación parcial entre esas mismas variables. Si la
suma de los cuadrados de las correlaciones parciales es pequeña en
comparación con la de las correlaciones, el valor del índice KMO estará
próximo a 1. Si los valores de KMO son pequeños, el uso del análisis
factorial es cuestionable. Según Kaiser (1974), valores superiores a 0.80 son
buenos, a 0.70 medios y por debajo de 0.50 inaceptables.
4. Reglas para la selección de factores

Los criterios que se han utilizado tradicionalmente para decidir sobre el
número de factores a retener en un análisis factorial exploratorio son que la
proporción de varianza explicada por los factores sea al menos de 0.50 y que
se cumpla la regla de Kaiser, según la cual se seleccionan solamente aquellos
factores cuyos autovalores sean mayores o iguales que 1. También puede
confeccionarse el gráfico de sedimentación, que incluye los p factores en el
eje de abscisas y el rango posible de valores de sus correspondientes
autovalores en el eje de ordenadas. En el ejemplo inferior puede verse que,
siguiendo la regla de Kaiser, solamente se seleccionarían dos de los siete
posibles factores.
Gráfico de sedimentación
2.5
2.0
Autovalor
1.5
1.0
.5
0.0
1 2 3 4 5 6 7
Número de factor
Sin embargo, la regla de Kaiser apenas se utiliza hoy en día porque el

hecho de que un factor explique poca varianza no significa que no esté
presente en el modelo. Actualmente los criterios empleados para decidir
sobre el número de factores son los contrastes de hipótesis sobre la bondad
de ajuste del modelo y el análisis de los residuos.
El modelo factorial no siempre reproduce de forma exacta la matriz de
correlaciones observada. Para determinar si el ajuste entre la matriz original y
la reproducida es adecuado, se utiliza un contraste sobre la bondad de ajuste
del modelo. La hipótesis nula plantea que la matriz de correlaciones en la
población es igual que la matriz reproducida por el modelo (H0: 5 = Rr). El
estadístico de bondad de ajuste se calcula mediante:
1
X2 = N { ln_Rr_ln_R_+ tr( RR r ) p}
r
Donde N es el tamaño de la muestra, R = //' + < y p el número de
variables observadas. El estadístico X2 se distribuye aproximadamente según
F2 con 1/2 [(p – q)2 – (p + q)] grados de libertad. Si el valor del estadístico es
significativo, los datos observados se desvían significativamente del modelo
factorial. La prueba X2 es muy sensible al tamaño muestral, de forma que con
muestras grandes prácticamente cualquier modelo sería rechazado. Por esta
razón se han desarrollado otros índices que evalúan el ajuste relativo del
modelo. Entre los más empleados están el índice RMSEA de Steiger y Lind
(1980) y Steiger (1990) y el índice NNFI de Tucker y Lewis (1973). El
primero consiste en la raíz cuadrada del cociente [(X2 – gl) / N] / gl. Según
Browne y Cudeck (1992) valores inferiores a 0.05 indican un buen ajuste
global, entre 0.05 y 0.08 un ajuste razonable, entre 0.08 y 0.10 un ajuste
moderado y superiores a 0.10 un ajuste mediocre.
También es conveniente realizar un análisis detallado de los residuos de
los elementos que se encuentran fuera de la diagonal principal de la matriz
Re. Según Harman (1980), existe un buen ajuste si los residuos no toman
valores absolutos mayores que 0.05.
5. Rotación de factores
La rotación de la solución factorial se realiza para mejorar la
interpretación de los valores que presenta la matriz factorial (/ /) tras la
extracción. Esta idea la propuso Thurstone (1935) para solucionar el
problema de la situación topológica de los factores. Su conocido “principio
de estructura simple” plantea que se obtengan factores con algunas
saturaciones muy altas y muchas saturaciones bajas y además que: 1) cada
fila tenga al menos un 0; 2) si se han extraído q factores, que cada columna
tenga al menos q ceros; 3) cada par de columnas tenga variables cuyas
saturaciones sean altas en una pero no en otra; (4) si hay 4 ó más factores,
cada par de columnas tenga muchas variables con saturaciones nulas en
ambas; y (5) que para cada par de columnas haya pocas variables con
saturaciones no nulas en ambas.
Si en un análisis factorial se extraen dos factores mediante el método de

máxima verosimilitud y se obtiene la matriz factorial:
ª0.35 0.65 º
« 0.23 0.78 »
/ « »
«0.82 0.36 »
« »
¬ 0.91 0.12 ¼
Lo ideal sería que la rotación permita llegar a la matriz:ҏ
ª0 1º
«0 1 »»
/ R
«
«1 0»
« »
¬1 0¼
Para alcanzar esta estructura (a la que se ha denominado /R: matriz

factorial rotada) hay que obtener una matriz de transformación (T) que, tras
multiplicarse por la matriz factorial no rotada (/T) sea capaz de generar otra
matriz factorial (/R) que cumpla el principio de Thurstone, sin que cambie la
varianza explicada por el modelo ni el valor de las comunalidades y
unicidades. Para cumplir este objetivo hay dos procedimientos que se exponen
a continuación.
5.1. Rotación ortogonal
Este procedimiento implica que los factores de la matriz / se rotan todos

en un mismo ángulo (T º). De este modo, los ejes factoriales forman un
ángulo recto y por tanto los factores resultantes también son ortogonales.
Para llevar a cabo esta rotación se aplica la transformación ortogonal:
/R /T
En el ejemplo anterior, como q = 2, la transformación sería:
ª cos T sen T º
si los ejes se rotan en el sentido del reloj
T « sen T
¬ cos T »¼
y T ª cos T sen T º
si se rotan en sentido contrario al reloj
« sen T co s T »¼
¬
Dada la matriz de saturaciones del ejemplo anterior, las comunalidades son:
h12 0.35 2 0.65 2 0.55 ; h22 0.23 2 0.78 2 0.66 ;

h32 0.82 2 ( 0.36 ) 2 0.80 ; h42 0.912 ( 0.12) 2 0.84 .
Si los factores se rotan un ángulo de 20 grados en sentido del reloj se

obtiene la matriz factorial rotada:
ª0.35 0.65 º ª 0.11 0.73 º h12 0 .55

«0.23 0.78 » 0.937 0.342 « 0.05 0.81 » ° 2
/R « »ª º « » Donde: °® h 2 0 .66
«0.82 0.36» «¬ 0.342 0.937»¼ « 0.89 0.06» ° h3
2
0 .80
« » « » °¯ h 42
¬0.91 0.12¼ ¬ 0.90 0.20 ¼ 0 .84
Gráficamente:
F2 F*2
1-

z
z
0,5 -
¨¨
20º
0,5 1
F1
z
z
-0,5 - F*1
-1 -
Los cuatro puntos de la gráfica representan los pares de saturaciones

factoriales correspondientes a cada variable. Los ejes se han rotado un ángulo
de 20º. Visualmente se observa que las dos primeras variables saturan alto en
el primer factor y las dos últimas en el segundo. La rotación produce una
matriz de saturaciones que apoya la anterior interpretación de factores y no
cambia las estimaciones de las comunalidades. Tampoco cambia la varianza
explicada por el modelo, aunque sí la varianza explicada por cada uno de los
factores. La siguiente tabla resume la varianza explicada por cada factor
antes y después de la rotación:
Solución sin rotar Solución rotada
Factor Varianza Proporción de varianza Varianza Proporción de varianza
F1 1.676 0.419 1.617 0.405
F2 1.175 0.294 1.233 0.308
Total: 0.713 0.713
Existen diferentes métodos para llevar a cabo la rotación ortogonal. Por

ejemplo, el método varimax propuesto por Kaiser (1958) que utiliza la matriz
de transformación T que maximice la varianza explicada por cada factor. Es
decir:
2
1 q ª p § p
· º
V
p
¦ « ¦ O *ij4 ¨
«¬ i 1 ¨ ¦ O *2
ij
¸
¸ p»
»¼
j 1 © i 1 ¹
Los resultados ofrecidos mediante este procedimiento varían según el

método de extracción de factores empleado. El método varimax se
recomienda especialmente para el método de extracción MV que al imponer
la condición de que /' <-1/sea una matriz diagonal proporciona una
solución factorial que hace difícil la interpretación de factores. La mayoría de
paquetes estadísticos ofrecen la posibilidad de realizar una rotación varimax.
Hay otros métodos de rotación ortogonal. Por ejemplo, el método

quartimax que minimiza el número de factores necesarios para explicar cada
variable maximizando la suma de las saturaciones elevadas a la cuarta
potencia. Este método genera una solución final en la que existe un factor
general y pesos pequeños en las variables. El método equamax es una
combinación de los anteriores. Se minimiza tanto el número de variables que
saturan alto en un factor como el número de factores necesarios para explicar
una variable.
5.2. Rotación oblicua
No siempre es adecuado asumir que los factores son independientes. Para

no imponer la ortogonalidad, cada uno de los factores de la matriz / puede
girarse un ángulo diferente. De este modo, cada factor da cuenta de la
covariación de diferentes grupos de variables. Como resultado, los factores
ya no formarán un ángulo de 90º y por tanto, no serán ortogonales sino
oblicuos; es decir, correlacionarán entre sí. Este procedimiento, como ventaja
frente al anterior, ofrece seguridad de que la ortogonalidad no viene impuesta
por el método de rotación.
Existen diferentes métodos para llevar a cabo la rotación oblicua. Por

ejemplo, el método oblimax que maximiza las saturaciones altas y bajas y
minimiza las de valor intermedio. O el método oblimin, que utiliza como
criterio la expresión:
E donde D y E son saturaciones a asignar.
*
DE
Cuando * = 0 se obtiene la solución más oblicua (método quartimin,
que minimiza la suma de los productos internos de las saturaciones). A
medida que * aumenta, los factores son menos oblicuos. Por ejemplo, si * =
1, la solución es menos oblicua (método covarimin). Para una solución
intermedia (* = 0.50) puede emplearse el método bicuartimin.
6. Estimación de las puntuaciones factoriales

En el análisis factorial, el objetivo suele ser estimar los parámetros del
modelo. Sin embargo, también pueden calcularse las puntuaciones de los
sujetos en los factores obtenidos. Con los métodos de extracción por ejes
principales, máxima verosimilitud y mínimos cuadrados generalizados las
puntuaciones factoriales no se calculan directamente sino que se estiman.
Hay diferentes procedimientos para estimar las puntuaciones factoriales a
partir de la matriz factorial o de la matriz factorial rotada. Aquí se comentan
dos de ellos.
6.1. Método de Bartlett
Dado que el modelo factorial proporciona estimaciones sobre las matrices

/, < e implica que las \i no necesitan ser iguales, Bartlett (1937) propuso el
uso del método de mínimos cuadrados ponderados para estimar las
puntuaciones en los factores comunes.
La suma de cuadrados de los errores ponderada por el recíproco de sus

varianzas es: H' <-1H= (X - / f )' <-1 (X - / f ). Bartlett sugiere que se elijan
los estimadores de f que minimicen la anterior expresión. Es decir: (2)
fˆ ˆ 1 /ˆ ) 1 /ˆ ' <
( /ˆ ' < ˆ 1 X
Las puntuaciones resultantes son típicas de media 0 y matriz de

covarianzas I. Con este procedimiento se minimiza la suma de cuadrados de
los factores únicos sobre el rango de las variables pero no se asegura la
independencia entre los factores estimados.(3)
6.2. Método de regresión
Si puede asumirse que X y f tienen una distribución normal conjunta

con media 0 y matriz de covarianzas ª // ' < / º , entonces, la regresión de
« /' I »¼
¬
f sobre X es la distribución condicionada f | X que es normal multivariante
con:
E(f | X) = /' (//' + <)-1 X

Cov(f | X) = I – /' (//' + <)-1 /
Las estimaciones de dichos coeficientes producen puntuaciones

factoriales análogas a las del análisis de regresión múltiple (véase capítulo 3).
Por tanto, las puntuaciones factoriales vienen dadas por:
fˆ / ' S 1 X
o fˆ / ' R 1 z si se trabaja a partir de la matriz R
(2)
En el método MV, las saturaciones han de satisfacer la condición ' = /' <-1/. Por tanto
fˆ '1/ ˆ 1X. Con el método de extracción CP, los \i son iguales. Por tanto: fˆ /
ˆ '< ˆ '/
ˆ<ˆ 1X.
(3)
El método de Anderson-Rubin es una modificación del de Bartlett, que asegura la
independencia de los factores estimados.
Dichas puntuaciones tienen de media 0 y varianza igual al cuadrado de la

correlación múltiple entre las puntuaciones factoriales estimadas y los
valores factoriales verdaderos. Con este método es posible que las
puntuaciones factoriales estén correlacionadas.
En el siguiente apartado se muestra un ejemplo donde se ilustra tanto la

rotación como el cálculo de las puntuaciones factoriales.
7. Ejemplo
El departamento de selección de una empresa mide cuatro variables de

inteligencia: razonamiento abstracto (X1), razonamiento espacial (X2),
razonamiento verbal (X3) y razonamiento numérico (X4) y tres de
personalidad: neuroticismo (X5), ansiedad (X6) y extroversión (X7) en una
muestra de 200 aspirantes a un puesto de gestión comercial. La matriz de
correlaciones entre las siete variables medidas es:
X1 ª 1.00000 0.47459 0.76270 0.59866 0.18803 0.30870 0.30985º

X 2 « 0.47459
« 1.00000 0.53360 0.43970 0.20078 0.20925 0.23193»»
X3 « 0.76270 0.53360 1.00000 0.62619 0.14080 0.23609 0.23273»
« »
R X 4 « 0.59866 0.43970 0.62619 1.00000 0.20309 0.26055 0.21590»
X5 « 0.18803 0.20078 0.14080 0.20309 1.00000 0.30970 0.26950»
« »
X6 « 0.30870 0.20925 0.23609 0.26055 0.30970 1.00000 0.34727»
X 7 «¬ 0.30985 0.23193 0.23273 0.21590 0.26950 0.34727 1.00000»¼
A continuación se presentan los resultados del análisis factorial en el que

se extraen 2 factores (uno que resume las variables de inteligencia y otro las
de personalidad) mediante el método de componentes principales y el de ejes
principales.
a). AF con método de componentes principales:
Nº de orden Autovalor % varianza % acumulado

1 3.148 44.967 44.967
2 1.218 17.404 62.371
3 0.743 10.618 72.989
4 0.662 9.462 82.452
5 0.579 8.267 90.718
6 0.425 6.073 96.791
7 0.225 3.209 100.00
Matriz de saturaciones:
ª 0.844 0.224 0.092 0.068 0.179 0.308 0.313º

«- 0.692 - 0.179 0.172 0.315 0.594 0.067 »
0.049
« 0.833 0.353 0.022 0.034 0.100 0.222
»
0.349
« »
/ « 0.770 0.238 - 0.092 0.150 0.236 0.513 0.032 ».
«- 0.402 0.618 0.640 0.100 0.173 0.085 0.014 »
« 0.512 - 0.551 0.207 0.559 0.028 0.001 0.024 »
« »
¬ 0.497 - 0.520 0.494 0.461 0.140 0.077 0.028 ¼
De la matriz / puede deducirse que cada una de las comunalidades es 1.

Por ejemplo, la primera es:
ª 0.844 º
« 0.224 »
« »
« 0.092 »
« »
h12 >0.844 0.224 0.092 0.068 0.179 0.308 0.313@ « 0.068 » 1.000
« 0.179 »
« »
« 0.308»
« 0.313»
¬ ¼
Y que cada una de las unicidades es 0 pues se explica toda la varianza.
b). AF con método de ejes principales.
Con el método EP se lleva a cabo el análisis factorial a partir de la matriz

reducida:
ª 0.62833 0.47459 0.76270 0.59866 0.18803 0.30870 0.30985º

« 0.47459 0.32327 0.53360 0.43970 0.20078 0.20925 0.23193»»
«
« 0.76270 0.53360 0.65209 0.62619 0.14080 0.23609 0.23273»
« »
R* « 0.59866 0.43970 0.62619 0.44685 0.20309 0.26055 0.21590»
« 0.18803 0.20078 0.14080 0.20309 0.14562 0.30970 0.26950»
« »
« 0.30870 0.20925 0.23609 0.26055 0.30970 0.21045 0.34727»
« 0.30985 0.23193 0.23273 0.21590 0.26950 0.34727 0.19260»¼
¬
Que incluye en la diagonal principal (y en negrita) las estimaciones

iniciales de las comunalidades.
Sus autovalores son: O ' >3.148 1.218 0.743 0.662 0.579 0.425 0.225@ .
3.5
3.0
2.5
Autovalor
2.0
1.5
1.0
.5
0.0
1 2 3 4 5 6 7
Número de factor
Según la regla de Kaiser y como refleja el gráfico de sedimentación, el

análisis ha extraído dos factores pues hay dos autovalores mayores que uno.
Los autovectores correspondientes a los dos primeros factores y la matriz

de saturaciones son las siguientes:
ª 0.508 0.174 º ª 0.829 0.123º

« 0.370 0.057 » « 0.594 0.039»
« » « »
« 0.507 0.367 » « 0.866 0.316»
« »; « »
A « 0.433 0.145 » / « 0.702 0.098»
« 0.191 0.523 » « 0.316 0.393»
« » « »
« 0.253 0.537 » « 0.428 0.444»
« 0.245 0.499 » « 0.405 0.377»
¬ ¼ ¬ ¼
Donde h12 0 .70 ; h 22 0 .36 ; h 32 0 .85 y las

® 2
¯ h4 0 .50 ; h52 0 .25 ; h 62 0 .38 y h 72 0 .31
O1
varianzas ®
2 . 73
¯O 2 0 . 62
El modelo de dos factores explica el 45.85% de la varianza total. Los

resultados de la prueba de Bartlett ofrecen un estadístico X2 = 442.64 que se
distribuye según F2 con 1/2 (p2 – p) = (72 – 7) / 2 = 21 grados de libertad.
Consultando la tabla 3 del anexo se observa que con D = 0.05 el punto crítico
es 11.59. Puesto que 442.64 > 11.59 se rechaza H0. El índice KMO es 0.81.
Ambas pruebas indican que es apropiado utilizar el análisis factorial.
A continuación se realiza una rotación ortogonal varimax en la que los

factores se rotan un ángulo de 63º. Tras multiplicar la matriz / por la matriz
de transformación se llega a la matriz factorial rotada:
ª 0.794 0.268 º h12 0 . 70

« 0.547 0.236 »» ° 2
« ° h2 0 . 36
« 0.915 0.114 » ° h 32 0 . 85 O1 2 .29
« » . Donde ° 2 y ®
/R « 0.669 0.233 » ® h4 0 . 50 ¯O 2 1 .06
« 0.102 0.494 » °h 2 0 . 25
« » ° 5
« 0.179 0.591 » ° h 62 0 . 38
« 0.189 0.521 »¼ ° 2
¬ ¯ h7 0 . 31
Las comunalidades no cambian y la varianza explicada tampoco aunque

sí la varianza de los factores. En este ejemplo, parece que las cuatro primeras
variables se agrupan en el primer factor y las tres últimas en el segundo. La
matriz reproducida y la residual son las siguientes:
ª 0.702 º
« »
«- 0.497 0.355 »
« »
« 0.756 - 0.527 0.849 »
Rr « 0.594
«
- 0.421 0.638 0.502 »
»
«- 0.213 0.172 - 0.149 - 0.183 0.254 »
« »
« 0.300 - 0.237 0.231 0.257 - 0.310 0.381 »
« »
¬« 0.289 - 0.226 0.232 0.247 - 0.276 0.341 0.307 ¼»
ª º
« »
« 0.023 »
« »
« 0.006 - 0.007 »
Re « 0.005 - 0.019 - 0.012 »
« »
« 0.025 0.029 0.008 - 0.020 »
« »
« 0.009 0.028 0.006 0.003 0.000 »
« »
¬« 0.021 - 0.006 0.001 - 0.031 0.007 0.006 ¼»
A continuación se ilustra el cálculo de las puntuaciones factoriales para el

primer sujeto, cuyo vector de puntuaciones típicas es:
z' >0.50 1.35 0.23 1.05 1.36 0.27 0.18@.
Estimación mediante el método de Bartlett:
ª 0.418º
fˆ ˆ 1 /
ˆ '<
(/ ˆ ) 1 / ˆ 1 z
ˆ '< « 0.494 »
¬ ¼
Estimación mediante el método de regresión:

ª 0 .355 º (4)
fˆ / 'R 1 z « 0 .223 »
¬ ¼
Los resultados del análisis factorial con el método de máxima

verosimilitud se muestran en el siguiente apartado.
8. El análisis factorial y el lenguaje MATRIX del SPSS
Al igual que en el ACP, cuando se dispone de los datos originales sobre

las variables observadas, se introducen en el editor de datos del SPSS y se
utiliza el procedimiento Análisis Factorial para extraer los factores. Cuando
no se dispone de los datos originales y sólo conoce el nº de variables y
sujetos y la matriz R (o la matriz S), el AF se puede llevar a cabo mediante el
lenguaje MATRIX del SPSS. La sintaxis correspondiente a los datos del
ejemplo de un factor con método de extracción EP es la siguiente:
Matrix data var X1 X2 X3

BEGIN DATA.
1.00
.83 1.00
.78 .67 1.00
END DATA.
FACTOR
/MATRIX=in(COR=*)
/MISSING LISTWISE /ANALYSIS X1 X2 X3
/PRINT INITIAL EXTRACTION CORRELATION SIG DET KMO
/PLOT EIGEN
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PAF
Los resultados obtenidos al ejecutar la sintaxis son los siguientes:
(4)
Los resultados son similares. Por simplicidad, no se incluyen los cálculos.
El lector puede realizarlos mediante el lenguaje MATRIX.
Matriz de correlaciones a
X1 X2 X3
Correlación X1 1.000 .830 .780
X2 .830 1.000 .670
X3 .780 .670 1.000
Sig. (Unilateral) X1 .000 .000
X2 .000 .000
X3 .000 .000
a. Determinante = .121
KMO y prueba de Bartlett

Medida de adecuación muestral de
Kaiser-Meyer-Olkin. .704
Prueba de esfericidad Chi-cuadrado

415.895
de Bartlett aproximado
gl 3
Sig. .000
En primer lugar aparece la matriz de correlaciones y en segundo el

resultado de la prueba de esfericidad de Bartlett y del valor del índice KMO.
Como se observa, el estadístico de Bartlett es significativo y el valor del
índice KMO se encuentra dentro de los límites establecidos, por lo que el uso
del análisis factorial es adecuado o tiene sentido.
La siguiente tabla muestra las estimaciones iniciales de las

comunalidades que se incluyen en la diagonal principal de la matriz R* y las
comunalidades obtenidas tras la extracción.
Comunalidades
Inicial Extracción
X1 .780 .963
X2 .690 .714
X3 .610 .630
Método de extracción: Factorización de Ejes principales.
A continuación se muestran los autovalores iniciales y los reproducidos

por la matriz de saturaciones tras la extracción con el método de ejes
principales y el gráfico de sedimentación. En este caso, se observa que el
modelo de un factor explica el 76.94% de la varianza total.
Sumas de las saturaciones al

Autovalores iniciales cuadrado de la extracción
% de la % % de la %
Factor Total varianza acumulado Total varianza acumulado
1 2.522 84.064 84.064 2.308 76.937 76.937
2 .334 11.137 95.201
3 .144 4.799 100.000
Método de extracción: Factorización de Ejes principales.
3.0
2.5
2.0
Autovalor
1.5
1.0
.5
0.0
1 2 3
Número de factor
Por último, se muestra la matriz factorial (/) que incluye las

saturaciones de las variables en el único factor extraído. Puesto que
solamente se ha extraído un factor, no es posible llevar a cabo la rotación.
Matriz factorial a
Factor
1
X1 .982
X2 .845
X3 .794
Método de extracción: Factorización del eje principal.
a. 1 factores extraídos. Requeridas 13 iteraciones.
La sintaxis para llevar a cabo el AF con los datos del ejemplo de dos
factores con método de extracción por máxima verosimilitud y rotación
varimax es la siguiente:
Matrix data var X1 X2 X3 X4 X5 X6 X7

BEGIN DATA.
1.00000
-.47459 1.00000
.76270 -.53360 1.00000
.59866 -.43970 .62619 1.00000
-.18803 .20078 -.14080 -.20309 1.00000
.30870 -.20925 .23609 .26055 -.30970 1.00000
.30985 -.23193 .23273 .21590 -.26950 .34727 1.00000
END DATA.
FACTOR
/MATRIX=in(COR=*)
/MISSING LISTWISE /ANALYSIS X1 X2 X3 X4 X5 X6 X7
/PRINT INITIAL EXTRACTION CORRELATION SIG DET KMO REPR
ROTATION
/PLOT EIGEN ROTATION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION ML
/ROTATION VARIMAX
Los resultados obtenidos son los siguientes:

a
Matriz de correlaciones
X1 X2 X3 X4 X5 X6 X7
Correlación X1 1.000 -.475 .763 .599 -.188 .309 .310
X2 -.475 1.000 -.534 -.440 .201 -.209 -.232
X3 .763 -.534 1.000 .626 -.141 .236 .233
X4 .599 -.440 .626 1.000 -.203 .261 .216
X5 -.188 .201 -.141 -.203 1.000 -.310 -.270
X6 .309 -.209 .236 .261 -.310 1.000 .347
X7 .310 -.232 .233 .216 -.270 .347 1.000
Sig. (Unilateral X1 .000 .000 .000 .004 .000 .000
X2 .000 .000 .000 .002 .001 .000
X3 .000 .000 .000 .023 .000 .000
X4 .000 .000 .000 .002 .000 .001
X5 .004 .002 .023 .002 .000 .000
X6 .000 .001 .000 .000 .000 .000
X7 .000 .000 .000 .001 .000 .000
a. Determinante = .104
Como en el ejemplo anterior, en primer lugar aparece la matriz de

correlaciones con sus pruebas de significación y a continuación el resultado
de la prueba de esfericidad de Bartlett y el valor del índice KMO. Como se
observa, el estadístico de Bartlett es significativo y el valor del índice KMO

está dentro de los límites establecidos. Por tanto, el uso del modelo factorial
es adecuado.
KMO y prueba de Bartlett
Medida de adecuación muestral de
Kaiser-Meyer-Olkin. .805
Prueba de esfericidad Chi-cuadrado

442.638
de Bartlett aproximado
gl 21
Sig. .000
A continuación se muestran las estimaciones iniciales y finales de las

comunalidades y los autovalores iniciales y los reproducidos por la matriz de
saturaciones tras la extracción. En este caso, al igual que con los restantes
métodos de estimación vistos en el apartado 7, el modelo explica el 47.87%
de la varianza total. También se muestra el gráfico de sedimentación.
Comunalidades
Inicial Extracción
X1 .628 .709
X2 .323 .352
X3 .652 .853
X4 .447 .492
X5 .146 .254
X6 .210 .379
X7 .193 .311
Método de extracción: Máxima verosimilitud.
Sumas de las saturaciones al Suma de las saturaciones al

Autovalores iniciales cuadrado de la extracción cuadrado de la rotación
Fac % de la % % de la % % de la %
tor Total varianza acumulado Total varianza acumulado Total varianza acumulado
1 3.148 44.967 44.967 2.648 37.831 37.831 2.295 32.789 32.789
2 1.218 17.404 62.371 .702 10.035 47.866 1.055 15.077 47.866
3 .743 10.618 72.989
4 .662 9.462 82.452
5 .579 8.267 90.718
6 .425 6.073 96.791
7 .225 3.209 100.000
3.5
3.0
2.5
Autovalor
2.0
1.5
1.0
.5
0.0
1 2 3 4 5 6 7
Número de factor
A continuación se muestra la matriz factorial (/) que incluye las

saturaciones de las variables en los dos factores extraídos y fueron obtenidas
en 6 iteraciones.
Matriz factorial a
Factor
1 2
X1 .841 .041
X2 -.589 -.070
X3 .913 -.142
X4 .700 .049
X5 -.225 -.451
X6 .337 .515
X7 .326 .452
a. 2 factores extraídos. Requeridas 6 iteraciones.
La solución factorial por máxima verosimilitud ofrece un resultado difícil

de interpretar por lo que se necesita rotar los factores. Se llevó a cabo una
rotación varimax con un ángulo de 74º a partir de la siguiente matriz de
transformación:
Matriz de transformación de los factores
Factor 1 2
1 .963 .271
2 -.271 .963
Método de rotación: Normalización Varimax con Kaiser.
Tras multiplicar la matriz factorial por la matriz de transformación se

llega a la siguiente matriz rotada en tres iteraciones:
Matriz de factores rotados a
Factor
1 2
X1 .798 .267
X2 -.548 -.227
X3 .917 .111
X4 .660 .237
X5 -.095 -.496
X6 .185 .587
X7 .192 .523
Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 3 iteraciones.
Como se observa, la rotación ha facilitado la interpretación pues las

cuatro primeras variables saturan en el primer factor (de inteligencia) y las
tres últimas en el segundo factor (de personalidad).
Esta configuración puede verse más claramente en el gráfico de

saturaciones en el espacio factorial rotado que ofrece el SPSS:
Gráfico de saturaciones en espacio factorial rotado

1.0
x6
x7
.5
x4 x1
Factor 2
x3
0.0
x2
x5
-.5
-1.0
-1.0 -.5 0.0 .5 1.0
Factor 1
El método de máxima verosimilitud ofrece además el resultado de la

prueba de bondad de ajuste chi-cuadrado para valorar el ajuste del modelo:
Prueba de la bondad de ajuste
Chi-cuadrado gl Sig.
3.683 8 .885
Como se observa, el estadístico X2 toma el valor 3.683 y se distribuye

aproximadamente según F2 con 1/2 [(p – q)2 – (p + q)] = 8 grados de libertad. El
valor del estadístico no resulta significativo (véase tabla 3 del anexo) por lo
que el modelo de dos factores ofrece un buen ajuste estadístico.
Por último se muestran la matriz de correlaciones reproducida (Rr) y la

matriz residual (Re):
Correlaciones reproducidas
X1 X2 X3 X4 X5 X6 X7
Correlación reproducida X1 .7088b -.4984 .7617 .5906 -.2078 .3044 .2929
X2 -.4984 .3522b -.5280 -.4159 .1642 -.2345 -.2239
X3 .7617 -.5280 .8530b .6319 -.1417 .2346 .2341
X4 .5906 -.4159 .6319 .4923b -.1798 .2612 .2507
X5 -.2078 .1642 -.1417 -.1798 .2545b -.3086 -.2774
X6 .3044 -.2345 .2346 .2612 -.3086 .3793b .3429
X7 .2929 -.2239 .2341 .2507 -.2774 .3429 .3106b
Residuala X1 .0238 .0010 .0081 .0197 .0043 .0169
X2 .0238 -.0056 -.0238 .0366 .0253 -.0080
X3 .0010 -.0056 -.0057 .0009 .0014 -.0013
X4 .0081 -.0238 -.0057 -.023 -.0006 -.0348
X5 .0197 .0366 .0009 -.0233 -.0011 .0079
X6 .0043 .0253 .0014 -.0006 -.001 .0044
X7 .0169 -.0080 -.0013 -.0348 .0079 .0044
a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 0 (.0%)
residuos no redundantes con valores absolutos > 0,05.
b. Comunalidades reproducidas
La matriz residual es otro indicador de bondad de ajuste. Como puede

observarse, no hay ningún residuo entre los elementos que se encuentran
fuera de la diagonal principal que tome valores absolutos mayores que 0.05,
por lo que puede concluirse que el modelo obtiene un buen ajuste.
9. Ejercicios
1. A partir de las puntuaciones de 10 sujetos en tres pruebas: escala de

extroversión (X1), escala de apertura (X2) y escala de persuasión (X3) se ha
obtenido la siguiente matriz de covarianzas:
X1 ª 4 2 10 º
S X 2 «« 2 2 7 »»
X 3 «¬ 10 7 36 »¼
Realice un análisis factorial (método componentes principales) a partir

únicamente de las variables X1 y X3. Comente la importancia de cada
factor encontrado y su posible interpretación.
2. La matriz de correlaciones de 200 sujetos en 5 variables es la siguiente:
X1 ª1 .0000 0 .7627 0 .5987 0 .3087 0 .3099 º

X2 «
« 1 .0000 0 .6262 0 .2361 0 .2327 »»
R X3 « 1 .0000 0 .2606 0 .2159 »
« »
X4 « 1 .0000 0 .3473 »
X5 «¬ 1 .0000 »¼
Realice un análisis factorial con método de extracción máxima

verosimilitud y rotación varimax mediante el lenguaje MATRIX del
SPSS. Interprete los resultados obtenidos y la prueba de bondad de ajuste
del modelo estimado.
Referencias bibliográficas
Amón, J. (1991). Introducción al análisis multivariante (cálculo matricial).

Barcelona. Promociones y publicaciones universitarias, S.A.
Andersen, E. B. (1980). Discrete statistical models with social science
applications. Amsterdam. North Holland.
Anderson, T. W. (1984). An introduction to multivariate statistical analysis.
New York. Chichester: Wiley.
Arnold, S. F. (1981). The theory of Linear Models and Multivariate Analysis.
New York. John Wiley.
Bartlett, M. S. (1937). The statistical conception of mental factors. British
Journal of Psychology, 28, 97-104.
Basilevsky, A. (1983). Applied matrix algebra in the statistical sciences.
New York, Oxford. North Holland.
Basilevsky, A. (1994). Statistical factor analysis and related methods: theory
and applications. New York. John Wiley and sons.
Berry, W. D. & Feldman, S. (1985). Multiple regression in practice. Beverly
Hills. Quantitative applications in the social sciences (a Sage university
paper).
Bishop, Y. M. M., Fienberg, S. E. & Holland, P. W. (1975). Discrete
multivariate analysis. Cambridge, Mass. MIT Press.
Box, G. E. P., & Draper, N. R. (1987). Empirical model building and
response surfaces. New York: Wiley.
Bravais, A. (1846). Analyse mathematique sur les probabilites des erreurs de
situation d’un point. Memoria presentada en L’Academie Royale des
Sciences de L’Institut de France, Sci. Math. Phys., 9, 255-332.
Browne, M.W. & Cudeck, R. (1992). Alternative ways of assessing model fit.
Sociological Methods and Research, 27, 269-300.
Carroll, J. D. (1997). Mathematical Tools for Applied Multivariate Analysis.
San Diego. Academic Press.
Cook, D. R. (1999). Applied regression including computing and graphics.
New York. Wiley.
Dillon, W. R & Goldstein, M. (1984). Multivariate analysis. Methods and
applications. New York. Wiley.
Draper, N. R. & Smith, H. (1981). Applied regression analysis. New York.
John Wiley & Sons.
Dunteman, G. H. (1989). Principal components analysis. Newbury Park.
Sage, Quantitative applications in the social sciences.
Etxebarría, J. (2000). Regresión múltiple. Madrid y Salamanca. La Muralla y
Hespérides.
Ferrando, P. J. (1993). Introducción al análisis factorial. Barcelona. PPU.
Serie Universitas.
Flury, B. (1988). Common principal components and related multivariate

models. New York. John Wiley and sons.
Frisch, R. (1929). Correlation and scatter in statistical variables. Nordisk
Statistisk Tidsskrift, 8, 36-103.
García, E., Gil, J. & Rodríguez, G. (2000). Análisis factorial. Madrid y
Salamanca. La Muralla y Hespérides.
Gifi, A. (1996). Nonlinear multivariate analysis. Chichester. John Wiley &
Sons.
Girschick, M. A. (1936). Principal components. Journal of the American
Statistical Association, 31, 519-528.
Hair, J. F., Anderson, R. E., Tatham, R. L & Black, W. C. (1998).
Multivariate data analysis. New Jersey. Prentice Hall. Traducido al
castellano en “Análisis multivariante”. Editorial Prentice Hall, 1999 (5ª
edición).
Harman, H. H. (1980). Análisis factorial moderno. Madrid. Saltés.
Herstein, I. N. & Winter, D. J. (1989). Álgebra lineal y teoría de matrices.
México. Iberoamericana.
Hotelling, H. (1933). Analysis of complex of statistical variables into
principal components. Journal of Educational Psychology, 24, 417-441,
498-520.
Jackson, J. E. (1991). A user's guide to principal components. New York.
Wiley.
Johnson, N. L. & Kotz, S. (1969). Discrete distributions. Boston. Houghton
Mifflin.
Johnson, N.L. & Kotz, S. (1972). Distributions in statistics: continous
multivariate distributions. Boston. Houghton Mifflin.
Johnson, R. A. & Wichern, D.W. (2002). Applied multivariate statistical
analysis. New Jersey. Prentice Hall. 5ª edición.
Kaiser, H. F. (1958). The varimax criterion for analytic rotation in factor
analisys. Psychometrika, 23, 187-200.
Kaiser, H. F. (1974). An index of factorial simplicity. Psychometrika, 39, 31-
36.
Kendall, M. G. (1980). Multivariate analysis. London. Charles Griffin & Co.
Krzanowski, W. J. (2000). Principles of Multivariate Analysis: A User's
Perspective. Oxford. Oxford Univesity Press.
Lawley, D. N. & Maxwell. A. E. (1971). Factor analysis as a statistical
method. London. Butterworths.
Lewis-Beck, M. S. (1994). Factor analysis and related techniques. London.
Sage, International handbooks of quantitative applications in the social
sciences, 5.
Mardia, K. V., Kent, J. T. & Bibby, J. M. (1997). Multivariate analysis.
London. Academic Press.
Martín Pliego, F. J. & Ruiz-Maya, L. (1997). Estadística. Volumen I:
Probabilidad. Madrid. Editorial AC.
REFERENCIAS 129
Maxwell, A. E. (1977). Multivariate analysis in behavioral research.

London. Chapman & Hall.
McDonald, R. P. (1962). A general approach to nonlinear factor analysis.
Psychometrika, 27, 397-415.
McDonald, R. P. (1967). Numerical methods for polynomial models in
nonlinear factor analysis. Psychometrika, 32, 77-112.
Montgomery, D. & Peck, E. A. (1992). Introduction to linear regression
analysis. New York. Wiley.
Muirhead, R. J. (1982). Aspects of multivariate statistical theory. New York.
Wiley.
Mulaik, S. A. (1972). The foundations of factor analysis. New York.
McGraw-Hill Series in Psychology.
Myers, R. H. & Montgomery, D. C. (1995). Response surface methodology:
Process and product optimization using designed experiments. New
York: Wiley.
Namboodiri, K. (1984). Matrix algebra. An introduction. Beverly Hills. Sage.
Neil, T. H. (2002). Applied Multivariate Analysis. New York. Springer texts
in statistics.
Neter, J, Kunter, M.H., Nachtsheim, C.J. & Waserman, W. (1996). Applied
linear statistical models. Times Mirror Higher Education Grop, Inc.
Pardo, A. (2002). Análisis de datos categóricos. Madrid: UNED Ediciones.
Pardo, A. & Ruiz, M. A. (2002). SPSS 11. Guía para el análisis de datos.
Madrid. McGraw Hill.
Pearson, K. (1901). On lines and planes of closest fit to a system of points in
space. Philosophical Magazine, 2, 557-572.
Pedhazur, E. J. (1982). Multiple regression in behavioral research:
explanation and prediction. New York. Holt, Rinehart and Winston.
Rao, C. R. & Toutenburg, H. (1995). Linear models. Least squares and
alternatives. New York. Springer-Verlag.
Rencher, A. C. (1995). Methods of multivariate analysis. New York. Wiley
series in probability and mathematical statistics.
Revuelta, J. & Ponsoda, V. (2000). Fundamentos de estadística. Madrid.
UNED Ediciones.
Reyment, R. A., Balckith, R. W. & Campbell, N. A. (1984). Multivariate
morphometrics. London. Academic Press.
Ruiz, M. A. (2000). Introducción a modelos de ecuaciones estructurales.
Madrid. UNED Ediciones.
Searle, S. R. (1982). Matrix algebra useful for statistics. New York. Wiley.
Steiger, J.H. (1990). Structural model evaluation and identification: An interval
estimation approach. Multivariate Behavioral Research, 25, 173-189.
Steiger, J.H. & Lind, J. (1980). Statistically based tests for the number of
common factors. Annual meeting of the Psychometric Society, Iowa.
Takeuchi, K., Yanai, H. & Mukherjee, B. N. (1982). The foundations of

multivariate analysis: a unified approach by means of projection onto
linear subspaces. New York. Wiley.
Tatsuoka, M. M. & Lohnes, P. R. (1988). Multivariate analysis: Techniques
for educational and psychological research (2ª ed.). New York.
Macmillan Publishing Co, Inc.
Thurstone, L. L. (1935). The vectors of the mind. Chicago. University of
Chicago Press.
Tucker, L.R. & Lewis, C. (1973). A reliability coefficient for maximum
likelihood factor analysis. Psychometrika, 35, 417-437.
Weisberg, S. (1985). Applied linear regression. New York. Wiley Series in
Probability and Statistics.
Winter, D. J. (1992). Matrix algebra. New York. MacMillan.
Ximénez, M. C. & San Martín, R. (2000). Application of response surface
methodology to the study of person-organization fit. Psicothema, 12,
151-158.
Yalcin, I. & Amemiya, Y. (2001). Nonlinear factor analysis as a statistical
method. Statistical Science, 16, 275-294.
Zhu, H. T. & Lee, S. Y. (1999). Statistical analysis of nonlinear factor
analysis models. The British Journal of Mathematical and Statistical
Psychology, 52, 225-242.
ANEXOS
Tabla 1. Distribución de probabilidad normal tipificada N(0, 1)
Tabla 2. Distribución de probabilidad t de Student
Tabla 3. Distribución de probabilidad de F2 de Pearson
Tabla 4. Distribución de probabilidad F de Snedecor

ANEXOS 133
Tabla 1. Distribución de probabilidad normal tipificada N(0, 1)

N(0, 1)
Fórmula: F ( z ) 1 z 2
³ e x /2
dx
f
2ʌ
zi
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Ejemplos: P(z d 1.33) = 0.9082; P(z t 1.33) = 1 – 0.9082 = 0.0918;

P(z d -2.08) = 1 – 0.9812 = 0.0188; P(z t -2.08) = 0.9812
134 FUNDAMENTOS DE LAS TÉNICAS MULTIVARIANTES
Tabla 2. Distribución de probabilidad t de Student

t gl § n 1· n 1
ī¨ ¸
© 2 ¹ x § y2 · 2
Fórmula:
F ( x)
§n· ³f ¨¨©1 n ¸¸¹ dy
nS ī¨ ¸
ti ©2¹
gl 0.50 0.60 0.70 0.75 0.80 0.90 0.95 0.975 0.99 0.995
1 0.000 0.325 0.727 1.000 1.376 3.078 6.314 12.706 31.821 63.657
2 0.000 0.289 0.617 0.816 1.061 1.886 2.920 4.303 6.965 9.925
3 0.000 0.277 0.584 0.765 0.978 1.638 2.353 3.182 4.541 5.841
4 0.000 0.271 0.569 0.741 0.941 1.533 2.132 2.776 3.747 4.604
5 0.000 0.267 0.559 0.727 0.920 1.476 2.015 2.571 3.365 4.032
6 0.000 0.265 0.553 0.718 0.906 1.440 1.943 2.447 3.143 3.707
7 0.000 0.263 0.549 0.711 0.896 1.415 1.895 2.365 2.998 3.499
8 0.000 0.262 0.546 0.706 0.889 1.397 1.860 2.306 2.896 3.355
9 0.000 0.261 0.543 0.703 0.883 1.383 1.833 2.262 2.821 3.250
10 0.000 0.260 0.542 0.700 0.879 1.372 1.812 2.228 2.764 3.169
11 0.000 0.260 0.540 0.697 0.876 1.363 1.796 2.201 2.718 3.106
12 0.000 0.259 0.539 0.695 0.873 1.356 1.782 2.179 2.681 3.055
13 0.000 0.259 0.538 0.694 0.870 1.350 1.771 2.160 2.650 3.012
14 0.000 0.258 0.537 0.692 0.868 1.345 1.761 2.145 2.624 2.977
15 0.000 0.258 0.536 0.691 0.866 1.341 1.753 2.131 2.602 2.947
16 0.000 0.258 0.535 0.690 0.865 1.337 1.746 2.120 2.583 2.921
17 0.000 0.257 0.534 0.689 0.863 1.333 1.740 2.110 2.567 2.898
18 0.000 0.257 0.534 0.688 0.862 1.330 1.734 2.101 2.552 2.878
19 0.000 0.257 0.533 0.688 0.861 1.328 1.729 2.093 2.539 2.861
20 0.000 0.257 0.533 0.687 0.860 1.325 1.725 2.086 2.528 2.845
21 0.000 0.257 0.532 0.686 0.859 1.323 1.721 2.080 2.518 2.831
22 0.000 0.256 0.532 0.686 0.858 1.321 1.717 2.074 2.508 2.819
23 0.000 0.256 0.532 0.685 0.858 1.319 1.714 2.069 2.500 2.807
24 0.000 0.256 0.531 0.685 0.857 1.318 1.711 2.064 2.492 2.797
25 0.000 0.256 0.531 0.684 0.856 1.316 1.708 2.060 2.485 2.787
26 0.000 0.256 0.531 0.684 0.856 1.315 1.706 2.056 2.479 2.779
27 0.000 0.256 0.531 0.684 0.855 1.314 1.703 2.052 2.473 2.771
28 0.000 0.256 0.530 0.683 0.855 1.313 1.701 2.048 2.467 2.763
29 0.000 0.256 0.530 0.683 0.854 1.311 1.699 2.045 2.462 2.756
30 0.000 0.256 0.530 0.683 0.854 1.310 1.697 2.042 2.457 2.750
40 0.000 0.255 0.529 0.681 0.851 1.303 1.684 2.021 2.423 2.704
50 0.000 0.255 0.528 0.679 0.849 1.299 1.676 2.009 2.403 2.678
60 0.000 0.254 0.527 0.679 0.848 1.296 1.671 2.000 2.390 2.660
70 0.000 0.254 0.527 0.678 0.847 1.294 1.667 1.994 2.381 2.648
80 0.000 0.254 0.526 0.678 0.846 1.292 1.664 1.990 2.374 2.639
90 0.000 0.254 0.526 0.677 0.846 1.291 1.662 1.987 2.368 2.632
100 0.000 0.254 0.526 0.677 0.845 1.290 1.660 1.984 2.364 2.626
200 0.000 0.254 0.525 0.676 0.843 1.286 1.653 1.972 2.345 2.601
500 0.000 0.253 0.525 0.675 0.842 1.283 1.648 1.965 2.334 2.586
f 0.000 0.253 0.524 0.674 0.842 1.282 1.645 1.960 2.326 2.576
Ejemplos: P(t20 d 1.325) = 0.90; P(t20 t1.325) = 1 – 0.90 = 0.10;

P(t20 d -1.325) = P(t20 t1.325) = 0.10; P(t20 t-1.325) = P(t20 d 1.325) = 0.90
ANEXOS 135
Tabla 3. Distribución de probabilidad de F2 de Pearson
p
F 2 gl 1 x
F (x) ³ y(n2 )1 e y/ 2dy
Fórmula: §n· f
2n/ 2 ī¨ ¸
0 F2 +f © 2¹
p
g.l. 0.005 0.01 0.025 0.05 0.10 0.90 0.95 0.975 0.98 0.99 0.995 0.999
1 0.00 0.00 0.00 0.00 0.02 2.71 3.84 5.02 5.41 6.63 7.88 10.83
2 0.01 0.02 0.05 0.10 0.21 4.61 5.99 7.38 7.82 9.21 10.60 13.82
3 0.07 0.11 0.22 0.35 0.58 6.25 7.81 9.35 9.84 11.34 12.84 16.27
4 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 11.67 13.28 14.86 18.47
5 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 13.39 15.09 16.75 20.52
6 0.68 0.87 1.24 1.64 2.20 10.64 12.59 14.45 15.03 16.81 18.55 22.46
7 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 16.62 18.48 20.28 24.32
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 18.17 20.09 21.95 26.12
9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 19.68 21.67 23.59 27.88
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 21.16 23.21 25.19 29.59
11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 22.62 24.72 26.76 31.26
12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 24.05 26.22 28.30 32.91
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 25.47 27.69 29.82 34.53
14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 26.87 29.14 31.32 36.12
15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 28.26 30.58 32.80 37.70
16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 29.63 32.00 34.27 39.25
17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 31.00 33.41 35.72 40.79
18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 32.35 34.81 37.16 42.31
19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 33.69 36.19 38.58 43.82
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 35.02 37.57 40.00 45.31
21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 36.34 38.93 41.40 46.80
22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 37.66 40.29 42.80 48.27
23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 38.97 41.64 44.18 49.73
24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 40.27 42.98 45.56 51.18
25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 41.57 44.31 46.93 52.62
26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 42.86 45.64 48.29 54.05
27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 44.14 46.96 49.64 55.48
28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 45.42 48.28 50.99 56.89
29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 46.69 49.59 52.34 58.30
30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 47.96 50.89 53.67 59.70
Ejemplos: P(F216 d 32) = 0.99; P(F216 t32) = 1 - 0.99 = 0.01
Para gl > 30 los puntos de la distribución F2 pueden obtenerse mediante la expresión:

2 1
p F gl | ( z p 2 gl 1) 2
2
136 FUNDAMENTOS DE LAS TÉNICAS MULTIVARIANTES
Tabla 4. Distribución de probabilidad F de Snedecor
p n1 / 2 n2 / 2
§ n n1 ·
n1 ī¨ 1
n2 ¸ n1 n1 n1
Fn1 ,n 2 x 1
© 2 ¹ 2 2
Fórmula: F ( x) y ( n 2 n1 y ) dy
§n · §n · f
³
ī¨ 1 ¸ ī¨ 2 ¸
0 F +f © 2 ¹ © 2 ¹
n1: grados de libertad del numerador; n2: grados de libertad del denominador. Probabilidad acumulada: 1 - D = 0.95
n 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 f
n2 \ 1
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
f 3.94 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
ANEXOS 137
(Continuación de la tabla 2)
n1: grados de libertad del numerador; n2: grados de libertad del denominador. Probabilidad acumulada: 1 - D = 0.99
n2 \ n1 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 f
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 19.50
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 8.53
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 5.63
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 4.36
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 3.67
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 3.23
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 2.93
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 2.71
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 2.54
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 2.40
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 2.30
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 2.21
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 2.13
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.07
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.01
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 1.96
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 1.92
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 1.88
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 1.84
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 1.81
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 1.78
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 1.76
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 1.73
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 1.71
26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 1.69
27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 1.67
28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 1.65
29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 1.64
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 1.62
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.51
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.39
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.25
f 3.94 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
Ejemplos: P(F2, 10 d 7.56) = 0.99; P(F10, 2 t99.4) = 1 – 0.99 = 0.01

Esta monografía se ha elaborado como material de apoyo para
Aula Abierta
los estudiantes del curso de doctorado Fundamentos de las técnicas
multivariantes, del programa de doctorado interuniversitario de 36195AA01A01
"Metodología de las Ciencias del Comportamiento", impartido
conjuntamente por la UAM, la UCM y la UNED.
La presente monografía está dirigida a aquellos, que teniendo una
formación básica en estadística, desean profundizar en las técnicas
que analizan simultáneamente un conjunto de variables. Se pretende
que el lector adquiera la base para la comprensión y el manejo de las
técnicas multivariantes. Con este fin, se revisan las nociones básicas
sobre álgebra de matrices necesarias para su formulación. Asimismo,
se expone el concepto de distribución multivariante, marginal y
condicional con especial atención a la distribución normal
multivariante. Por último, se presentan tres técnicas multivariantes,
el análisis de regresión múltiple, el análisis de componentes principales
y el análisis factorial. Para cada una de ellas se expone su formulación
teórica, supuestos, métodos de estimación y de verificación del
modelo, así como diversos ejemplos y ejercicios. Además se introduce
la utilización del lenguaje MATRIX del programa SPSS para llevar
a cabo operaciones matriciales y los análisis requeridos por las
diferentes técnicas tratadas.
ISBN 84-362-5059-1
361 95
9 788436 25 05 96

Fundamentos de Las Técnicas Multivariantes PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fundamentos de Las Técnicas Multivariantes PDF

Cargado por

Copyright:

Formatos disponibles

36195AA01A01

M. CARMEN XIMÉNEZ GÓMEZ

UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA

FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES

Quedan rigurosamente prohibidas, sin la autorización escrita

© M. Carmen Ximénez, Rafael San Martín

)3".ELECTRÆNICO    

Los investigadores a menudo se ven obligados a utilizar medidas

No es fácil encontrar una definición única del análisis multivariante. En

Las técnicas de análisis multivariante pueden utilizar diferentes tipos de

Cualquier intento de clasificar las técnicas multivariantes es difícil pues

(1) Relación de dependencia. Algunas técnicas multivariantes identifican

Si se toma como criterio el número de variables dependientes y su nivel

Si la variable dependiente es cualitativa y las independientes cuantitativas

Cuando se trabaja con varias variables dependientes cuantitativas y dos o

Resumiendo, cada una de las técnicas multivariantes que analizan

Y1 = X11 + X12 + … + X1p

(2) Relación de interdependencia. Algunas técnicas multivariantes no

Si lo que se analiza es la relación entre variables, las técnicas

Como en las relaciones de dependencia, en este caso también hay que

UNA VARIABLE VARIAS VARIABLES Relaciones entre variables

Relaciones entre objetos

- Análisis - Análisis de varianza multivariante Medidos de forma cuantitativa

Nota: Tomado de Hair, Anderson, Tatham y Black, 1998 (pág. 20-21).

La clasificación de Hair et al. (1998) presentada aquí, tan sólo hace

Según Hair et al. (1998), la aplicación exitosa de una técnica multivariante

un ajuste aceptable, hay que interpretar la relación multivariante especificada

Las técnicas multivariantes parten de unas puntuaciones de n unidades de

El capítulo 2 se dedica a la definición de distribución multivariante,

Resumir todas las técnicas multivariantes que aparecen en la figura 1

El manejo de las técnicas multivariantes con amplias muestras de sujetos

Existen diversos manuales sobre el análisis multivariante. La mayoría en

En este capítulo se pretende sintetizar los contenidos de álgebra de

Esta disposición rectangular de los datos en n filas y p columnas se

Las matrices se designan aquí mediante letras mayúsculas en negrita (en

b. Matriz rectangular: es aquella en la que se cumple que n z p.

c. Matriz cuadrada: es aquella en la que se cumple que n = p.

En las matrices cuadradas se puede calcular la traza de la matriz que es la

e. Matriz nula: se denomina matriz 0 pues todos sus elementos son 0.

f. Matriz diagonal: es aquella en que todos los elementos, excepto los de la

g. Matriz escalar (K): matriz diagonal en la que todos los elementos no

h. Matriz identidad (I): matriz diagonal cuyos elementos de la diagona

2. Operaciones con matrices

2.1. Cálculo de la traspuesta de una matriz

La traspuesta de una matriz A de orden n x p se calcula intercambiando las

Se verifica que: tr(A) = tr(A').

2.2. Suma de matrices

A + B = [aij + bij] para i = 1, 2, ..., n y j = 1, 2, ..., p (1.2)

Además de las propiedades asociativa y conmutativa, se cumplen las

2.3. Multiplicación por un escalar

2.4. Producto de dos matrices

La longitud de un vector se obtiene calculando la raíz cuadrada de su

Se denomina vector unitario o normalizado (u) aquel cuya longitud es

ª1º ª1/ 2 º ª1/ 2 º

Dos vectores son ortogonales si su producto interno es nulo. Es decir:

Dos vectores son ortonormales si son ortogonales y normalizados.

Una matriz es ortogonal cuando todos sus vectores son ortonormales. Es

Vistos estos conceptos, a continuación se introduce el del producto de

Nótese que en este caso se verifica la propiedad asociativa (A(BC) =

Otras propiedades del producto de matrices son las siguientes:

2.5. Cálculo del determinante de una matriz

Un determinante, |A|, es un polinomio de los elementos de la matriz A. Se

En matrices 2 x 2 su cálculo es muy sencillo.

)3".ELECTRÆNICO

Ejemplo 16: A ' ª3 1º ; 1 1 ª 4 2º ª 0 .4 0 .2 º

a11 x1 a12 x2 ... a1p x p c1 ½ ªa11 a12 a1p º ª x1 º ª c1 º

Ejemplo 18: 2 x 1 3x2 7 ½ ª2 3 º ª x1 º ª7 º

Ejemplo 19: 3 x1 2 x 2 4 ½ ª 3 2 º ª x1 º ª4º

1er autovector: (A O I)x 0; ª 6 4 º ªx11 º 0; 6x11 4x21 0; x11 2 ; x ª2º

2º autovector: (A O I)x 0; ª6 4º ª x12 º 0; 6x12 4x22 0 ; x12 2 ; x ª 2 º

1º: (A O I)x ª2 8.47 4 º ª x11 º ª 6.47 4 º ª x11 º ª0º 6.47x11 4x21 0

ª0.526 0.851º ª 2 4 º ª 0.526 0.851º ª8.47 0 º

Ejemplo para A 2 x 2: Q x' Ax >x x @ ª a11 a12 º ª x1 º a x 2 (a a ) x x a x 2

Ejemplo 24: B ª 1 -1º; Q x 2 x 2 2x x (x x ) 2 ; Q t 0 : semidefinida positiva

Matriz de 1 1/ 2 1/ 2