Libro Analisis Multivariante

Anlisis Multivariante
(Diplomatura en Estadstica)
Primer Cuatrimestre. Curso 2006-2007
TEMAS de TEORA
Tema 1: Introduccin al Anlisis Multivariante y al Clculo Matricial
Tema 2: Estadstica Descriptiva Multivariante
Tema 3: Anlisis de Componentes Principales
Tema 4: Anlisis Factorial
Tema 5: Anlisis de Cluster y Multidimensional Scaling
Tema 6: Anlisis Discriminante
Tema 7: Anlisis de Correspondencias

(http://halweb.uc3m.es/esp/Personal/personas/jmmarin/)
Tema 1: Introduccin al Anlisis

Multivariante y al Clculo Matricial
Introduccin al Anlisis Multivariante
Su origen histrico se encuentra en los primeros aos del siglo XX. Surge dentro del
marco de la psicologa aplicada como una teora matemtica que trata de explicar el concepto de inteligencia. Es decir, se supone que la inteligencia constituye un compendio
de diversas habilidades y conocimientos y se suele medir mediante aspectos o manifestaciones parciales. Spearman (1904) y Pearson (1901) trataron de definir una variable que
midiese la cantidad de inteligencia y que fuese un compendio o resumen (de hecho una
combinacin lineal) de los componentes de la misma. Esto sera el origen de lo que luego
se denomin el mtodo de los Componentes Principales. Posteriormente se han ido desarrollando numerosas tcnicas para variables tanto cuantitativas como categricas.
El anlisis multivariante, en esencia, se dedica al estudio de varias variables de modo
simultneo. Es decir, tomamos un objeto y no slo medimos un aspecto suyo (e.g. una
persona a la que se mide slo su altura), sino que consideramos varios aspectos y tratamos
de determinar la relacin entre estas medidas. Es decir, medimos adems de la altura, el
peso, y adems indicamos su sexo, cul es la clase social a la que pertenece y cul es su
renta por ao. Adems, no slo nos interesan los valores en cada caso, sino tambin las
relaciones simultneas entre ellas.
Con el desarrollo de la Informtica, se ha hecho posible desarrollar e implementar
programas estadsticos que contienen las tcnicas multivariantes; as, todos los programas
de este tipo contienen una parte importante dedicada a estas tcnicas (e.g. se puede ver
1
en R, STATGRAPHICS, SPSS, ...).

En definitiva, el desarrollo terico surgido en el siglo XX junto con las aplicaciones
crecientes de la estadstica en la vida econmica de los pases han hecho de las tcnicas
del Anlisis Multivariante junto con el Anlisis de Regresin, uno de los instrumentos ms
empleados para el estudio del entorno ambiental, econmico y social.
Tipos de variables
Uno de los problemas fundamentales en Estadstica es cmo medir los aspectos de las
personas, seres vivos u objetos. Es decir, no es lo mismo tomar una poblacin cualquiera y
medir la altura de las personas en dos clases: altos y bajos, que tomar una escala mtrica
y dividirla en segmentos, asignando a cada persona el nmero o medida en cm. En un
caso tendremos, en realidad, una variable categrica (con dos categoras: altos y bajos) y
en el otro, una variable cuantitativa (1, 70; 1, 65; . . .). En el primer caso no tendr sentido
hallar una media (bajo alto) pero s una moda y en el otro, s ser congruente hablar
de la altura media.
Nadie pondr en duda que determinar la medida de las personas en altos o bajos es
menos informativo que tomar una escala mtrica. De hecho, en Estadstica, las tcnicas
que se pueden aplicar varan segn sea la informacin recogida por las variables. De la
misma forma, se puede decir lo mismo en Anlisis Multivariante. Tcnicas como el anlisis
discriminante se aplican en variables cuantitativas distribuidas como una distribucin
normal, mientras que el anlisis log-lineal se aplica en variables categricas en exclusiva.
Como posible clasificacin, segn el grado de informacin que contienen unas variables,
se pueden dividir a stas en:
(i ) Variables Nominales:Slo distinguen entre varias categoras, sin que exista ninguna
jerarqua entre ellas.
Ejemplos: la variable sexo: mujer, hombre. La variable colores del arco iris: azul,
violeta, amarillo, ...
2
Se pueden recodificar con nmeros, aunque no tengan un sentido algebraico: mujer

= 1, hombre = 0.
No tiene sentido hallar medias o varianzas. Tan slo modas, nmeros de casos y las
llamadas relaciones de contingencia.
(ii) Variables Ordinales
Adems de distinguir distintas categoras para una variable, se puede distinguir
una relacin de orden entre ellas. Por ejemplo, la variable tamao de letra en un
procesador de texto: menuda, pequea, normal, grande y extragrande.
Podramos recodificarla como 1, 2, 3, 4 y 5 y establecer una relacin de orden:
1 < 2 < 3 < 4 < 5.
Sin embargo, no se tiene la misma diferencia entre grande y extragrande 5 4 = 1,
que entre pequea y menuda 21 = 1, aunque los nmeros coincidan. Slo se puede
decir que una es mayor que la otra. Es decir, la diferencia entre los valores de la
variable no tiene sentido. Adems, no existe origen en la escala de las medidas (por
ej. tamao 0).
(iii) Variables de Intervalo
Adems de contener las caractersticas de las dos anteriores (distingue entre valores
y entre la distinta jerarqua de valores) aade el hecho de dotar de sentido a la
diferencia entre los valores de la variable. Es decir, la distancia o diferencia entre
dos valores consecutivos de la variable es siempre el mismo. Un ejemplo tpico sera
la variable temperatura.
Sin embargo, estas variables no tienen un origen en la medida. Por ejemplo, 0o C es
el punto de congelacin del agua pura, no la ausencia de temperatura.
(iv) Variables de razn
Son idnticas a las anteriores salvo que presentan un origen absoluto de medida.
En estas variables tiene sentido tomar fracciones de sus valores o razones. Se puede
decir que un valor es el doble que otro.
Por ej. la edad expresada en aos: el 0 tendra el sentido de una persona no nacida.
Se puede observar que la informacin recogida por las variables va creciendo desde
las nominales a las de razn. Siempre es posible pasar de ms informacin a menos: una
variable de intervalo o de razn se puede dividir en trozos (o intervalos) y convertirla en
nominal. El paso contrario no es posible.
Clasificacin de las Tcnicas Multivariables

Las tcnicas multivariables se pueden clasificar segn dos posibles criterios:
(i) Se est interesado en la asociacin entre las distintas variables, es decir, en las relaciones
entre las mismas, donde parte de estas variables dependen o se miden en funcin de
las otras. Son los llamados Mtodos Dependientes. Subyace en ellos siempre un inters
predictivo.
(ii) Se est interesado en investigar las asociaciones que se presentan entre variables sin
distincin de tipos entre ellas. Son Mtodos Independientes. Tienen un inters descriptivo
ms bien.
Mtodos Dependientes
Regresin mltiple: Estudia la dependencia de una variable en funcin de otras
variables.
Anlisis discriminante: Se busca una funcin lineal de varias variables que permita
clasificar nuevas observaciones que se presentan.
Mtodos log-lineales y logit: Se predicen nmeros de apariciones en casillas (recuentos) en funcin de otras casillas. Se usan variables categricas.
Anlisis de correlacin cannica: Se toma un grupo de variables y se trata de
predecir sus valores en funcin de otro grupo de variables.
4
Anlisis multivariante de la varianza: se descompone la variabilidad en una medida de un conjunto de variables cuantitativas en funcin de otras variables categricas.
Mtodos Independientes
Anlisis de componentes principales: Se tienen n variables cuantitativas y se
mezclan mediante combinaciones lineales reducindose a p < n variables que resumen la
informacin para facilitar la interpretacin.
Anlisis factorial: Es parecido a la anterior aunque slo se fija en explicar en trminos
de factores ocultos las variables originales, no tanto en reducir el nmero de variables.
Multidimensional scaling: Busca mapas de los objetos, situndolos segn una serie
de mtricas.
Anlisis de correspondencias: Es parecido al anlisis factorial, pero con variables
categricas exclusivamente.
Anlisis de cluster: Trata de identificar grupos naturales entre las observaciones
segn sus valores medidos por las variables.
Algebra de Matrices
En el anlisis multivariable se presentan de forma habitual matrices. En general, se
toman varias variables aleatorias o mediciones que ocupan una serie de columnas y estas
mediciones se consideran sobre una serie de objetos o individuos.
Por ejemplo, se toman 5 personas y se mide la edad de entrada en la universidad (x1 ),
la nota media de las asignaturas despus del primer ao (x2 ) y el sexo (x3 ). Se obtiene:
1
2
3
4
5
x1
18,45
18,41
18,39
18,70
18,34
x2 x3
7.4 1
6.5 0
7.2 0
9.4 1
7.1 1
En sentido estricto, las 5 personas son una muestra aleatoria extrada de una poblacin
muy grande y se consideran variables aleatorias en el sentido de que su valor (por ej. x2 :
5
nota final media) no puede ser determinado previamente, sino que depende de muchas
causas en nmero inconmensurable.
El concepto principal que se estudia es el concepto de vector. Cuando medimos una
variable en un conjunto de elementos de una poblacin, esta muestra puede representarse
geomtricamente asociando el valor de la variable en cada elemento a a una dimensin
del espacio.
Un vector de dimensin n puede verse como una representacin de los valores de una
variable en n elementos de una poblacin. Se puede ver que existe una relacin entre los
conceptos bsicos de descripcin estadstica de la variable y ciertas operaciones vectoriales
A su vez, una matriz es un conjunto de vectores: cuando en lugar de medir una variable
en cada elemento observamos los valores de k variables, podemos representar la muestra
de datos multivariantes mediante una matriz.
Vectores
En general, una muestra de n elementos de una variable la representaremos mediante
un vector. La longitud de un vector se denomina mdulo. En una muestra, el mdulo
del vector diferencia entre el vector asociado a la muestra y el vector que representa una
constante es la desviacin tpica de la variable. Si el vector representa los valores de una
variable de media cero, el mdulo del vector es directamente la desviacin tpica.
La dependencia lineal entre dos variables se mide por la covarianza. El concepto anlogo vectorial es el de producto escalar, que es la herramienta principal para estudiar la
relacin entre dos vectores. Dados dos vectores, el producto escalar es el producto de sus
longitudes por el coseno del ngulo que forman. De acuerdo con esta definicin, si consideramos vectores de longitud unidad el producto escalar es el coseno de su ngulo en el
espacio, y ser, en consecuencia, un nmero entre 1 y 1. Si los vectores son perpendiculares u ortogonales su producto escalar es cero. Si son colineales (es decir, estn sobre la
misma lnea) su producto escalar es uno o menos uno.
Si dos vectores representan los valores de dos variables estandarizadas (las dos variables
tienen media cero y varianza unidad) en los mismos n elementos de una poblacin, el
producto escalar es equivalente al coeficiente de correlacin entre las dos variables.
Cuando consideramos varios vectores, el concepto principal es la nocin de dependencia
lineal. Para comprender la importancia de esta idea, supongamos que tenemos k variables
medidas sobre n elementos de una poblacin (n k), y los n valores de cada variable
forman un vector en el espacio de n dimensiones.
Un problema importante es conocer cuantas variables realmente distintas tenemos.
Por ejemplo, si una variable representa salarios en euros y otra los mismos salarios pero
medidos en dlares aunque ambas variables no sean idnticas es claro que las dos variables
miden la misma caracterstica. Las dos variables son linealmente dependientes, ya que una
se obtiene multiplicando por una constante los valores de la otra.
Generalizando esta idea, diremos que k variables son linealmente dependientes si
podemos obtener los valores de una cualquiera mediante una combinacin lineal del resto.
Por ejemplo, si tenemos tres variables, nmero de hombres, nmero de mujeres y nmero
de personas (que es la suma de las anteriores), las tres variables son linealmente dependientes porque podemos calcular el valor de cualquiera de ellas conocidos los valores de
las otras dos. Al representar las variables como vectores, la nocin de dependencia lineal
permite conocer el nmero de variables distintas existentes en un grupo de variables.
Si tenemos k vectores de n componentes y k > n siempre podemos tomar n vectores
cualesquiera de los k y expresar los k n restantes como combinacin lineal de estos
vectores. Por tanto, en el espacio Rn de vectores de n coordenadas, el mximo nmero de
variables linealmente independientes que podemos tener es n.
Definiciones bsicas
Llamaremos vector a un conjunto ordenado de n nmero reales, x, y escribiremos sus
componentes en columna:
x1
x = ...
xn
donde xi es el componente i del vector.
En Estadstica un vector columna es habitualmente la representacin de los valores de

una variable en una muestra de n elementos.
Un conjunto de n nmeros reales x es un punto en el espacio Rn . Intuitivamente,
consideraremos al vector x como la lnea que va desde el origen de coordenadas hasta el
punto x. La direccin es importante, porque no es lo mismo el vector x que el x. De
esta manera a cada punto del espacio en Rn le asociamos un vector. Llamaremos vector
constante al que tiene todas sus coordenadas iguales. Para cada vector:
La suma (o diferencia) de los vectores x, y, ambos en Rn , se define como un nuevo
vector con componentes iguales a la suma (diferencia) de los componentes de los sumandos:

y1
x1 + y1
x1

..
x + y = ... + ... =
.
.
xn
yn
xn + yn
Es inmediato comprobar que la suma de vectores es asociativa y conmutativa.
La suma de dos vectores corresponde a la idea intuitiva de trasladar uno al extremo

del otro y construir la lnea que va desde el origen de coordenadas al extremo de la suma.
La operacin suma vectorial corresponde a generar una nueva variables que es suma
de las anteriores. Por ejemplo, si x, representa el nmero de trabajadores varones en
un conjunto de empresas e y, el nmero de trabajadoras, la variable x + y representa
el nmero total de trabajadores. La diferencia de vectores se utiliza con frecuencia en
estadstica para medir la distancia entre una variable y el vector asociado
El producto de una constante por un vector, es un nuevo vector cuyos componentes
son los iniciales multiplicados por la constante.
kx1
z = kx = ... .
kxn
Multiplicar por una constante equivale a un cambio en las unidades de medida. Por
ejemplo, si en lugar de medir el nmero de trabajadores en unidades (variable x) lo
hacemos en centenas (variable z) entonces variable z = x/100.
Llamaremos vector transpuesto x0 , de otro x, a un vector con los mismos componentes, pero escritos en fila:
x0 = (x1 , ..., xn ).
Al transponer un vector columna se obtiene un vector fila. Generalmente los vectores
fila se utilizan para describir los valores de k variables distintas en un mismo objeto de
una poblacin.
El producto escalar interno de dos vectores xy, ambos en Rn , que escribiremos
x0 y y0 x, es el escalar obtenido al sumar los productos de sus componentes.
0
xy=yx=
n
X
xi yi .
i=1
Si tomamos y = (1/n, ..., 1/n), el producto escalar de la variable x y este vector de

constantes proporciona la media de la variables
1/n
1/n
(x1 , x2 , ..., xn )
...
1/n
xi
.
n
Cuando ninguna de las dos variables es una constante el producto escalar se asocia en
Estadstica a la covarianza.
Para variables con media cero el producto escalar de los dos vectores que representan
sus valores es directamente la covarianza.
Para variables con media distinta de cero, la covarianza corresponde al producto escalar de las desviaciones de los datos respecto a sus medias. Observamos que obtener la
9
desviacin respecto a su media equivale a calcular la diferencia de vectores x x1, donde

1 es un vector constante de unos.
Se llamar norma o longitud de un vector x, a la raz cuadrada del producto escalar
x0 x. Se escribe |x|:
0
|x| = x x = x21 + . . . + x2n .
La norma es la longitud del segmento que une el origen con el punto x que corresponde
a la longitud de la hipotenusa en el tringulo rectngulo formado por el vector y sus
proyecciones sobre los ejes.
Para variables con media cero la desviacin tpica es n veces la norma del vector. Para
variables con media distinta de cero la desviacin tpica es n veces la norma del vector de
los datos en desviaciones a la media, x x1.
El producto escalar de dos vectores puede verse tambin como el producto del mdulo
de un vector y la proyeccin del otro sobre l. En general, el coseno del ngulo formado
por los dos vectores x, y viene dado por por la relacin:
cos =
x0 y
.
|x| |y|
para variables con media cero el coseno es el coeficiente de correlacin. Como cos 1,
se demuestra en general que:
|x0 y| |x||y|.
que se conoce como la desigualdad de Schwarz.
Dos vectores son ortogonales, o perpendiculares, si y slo si su producto escalar es
cero. Por la definicin de ngulo
x0 y = |x||y| cos ,
siendo el ngulo que forman los vectores. Si = 90 el coseno es cero y tambin lo ser
el producto escalar.
10
La implicacin estadstica de ortogonalidad es la existencia de incorrelacin. Si dos

variables estn incorreladas, llamando r al coeficiente de correlacin, se observa que r =
cos = 0, es decir, los vectores que las caracterizan forman un ngulo de 90 grados.
Dependencia Lineal
Un conjunto de vectores x1 , ..., xk es linealmente dependiente si existen escalares c1 , ..., ck ,
no todos nulos, tales que:
c1 x1 + ... + ck xk = 0
Si no existen tales escalares, se dice que los vectores son linealmente independientes.
Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno
como combinacin lineal de los dems. Por ejemplo, supuesto c1 6= 0 y llamando ai = ci /c1 ,
tenemos
x1 = a2 x2 + . . . + ak xk .
En general en el espacio Rn el nmero mximo de vectores linealmente independientes
es n. En efecto, si tenemos un conjunto de n + h vectores siempre podemos tomar n
cualquiera y escribir
xn+1 =
n
X
ai xi
i=1
que es un sistema con n ecuaciones y n incgnitas y obtener los coeficientes ai .

En estadstica un conjunto de vectores linealmente independientes corresponde a un
conjunto de variables que no estn relacionadas linealmente de forma exacta. Por ejemplo, si dos variables miden la misma variables pero en unidades distintas sern linealmente
dependientes. Tambin los sern si una de las variables se ha generado como una combinacin lineal de las otras.
Dado un conjunto de k vectores linealmente independientes (x1 , ..., xk ), en Rn (k n),
llamaremos espacio generado por este conjunto de vectores al espacio que contiene todos
los vectores z, en Rn , que pueden expresarse como combinacin lineal de stos. El conjunto
(x1 , ..., xk ) se llama base generadora del espacio, o simplemente base del espacio. Si z
11
pertenece a este espacio entonces,

z = c1 x1 + ... + ck xk .
Es fcil comprobar que z estar en un espacio de dimensin k: es efecto, podemos
tomar las primeras k coordenadas de z y obtener del sistema de k ecuaciones y k incgnitas resultante, los coeficientes c1 , ..., ck . Las n k coordenadas siguientes de z quedan
determinadas, al estarlo los ci , por lo que, obviamente, z slo tiene k componentes independientes, estando, por lo tanto, en un espacio de dimensin k. El espacio generado por
un conjunto de variables corresponde a todas las variables que pueden generarse como
ndices o combinaciones lineales de las originales.
La dimensin de un espacio Ek se define como el nmero de vectores linealmente
independientes que lo generan.
Diremos que un vector x es ortogonal a un subespacio Ep si x es ortogonal a todo
vector de Ep , es decir, si y pertenece al subespacio Ep , que escribiremos y Ep , entonces:
y0 x = 0.
Llamaremos complemento ortogonal de un subespacio Ep , de dimensin p, y lo denotaremos por C(Ep ), al espacio que contiene todos los vectores ortogonales a Ep . Entonces,
si x Ep , y C(Ep ) se verifica x0 y = 0. La dimensin de C(Ep ) ser n p.
Matrices
Para trabajar conjuntamente con k variables o vectores definimos el concepto de matriz. Una matriz es un conjunto de nmeros dispuestos en filas y columnas y puede verse
como un conjunto de vectores columna o un conjunto de vectores fila. Si intercambiamos
las filas de una matriz por las columnas se obtiene una nueva matriz que se denomina
la traspuesta de la primera. En particular, un vector columna de orden n es una matriz
de dimensiones n 1 (su traspuesta es un vector fila), y un escalar es una matriz de
dimensiones 1 1 (e igual a su traspuesta).
12
Una propiedad bsica de una matriz es el rango, que indica el nmero mximo de
vectores fila o columna linealmente independientes que la forman. En una matriz con n
filas y k columnas (n k), las k columnas pueden ser vectores linealmente independientes
y, as, el nmero mximo de vectores linealmente independientes es k. Su rango mximo
es k y cuando esto ocurre decimos que la matriz tiene rango completo.
El rango de una matriz es igual al de su traspuesta.
La generalizacin del concepto de producto escalar entre dos vectores es el producto
matricial, que se define como una nueva matriz que contiene todos los productos escalares
entre los vectores fila de la primera matriz y los vectores columna de la segunda. Para
que este producto sea posible la primera matriz tiene que tener tantas columnas como
filas tenga la segunda matriz. Por la propia definicin se deduce que este producto no es
conmutativo. Diremos que pre-multiplicamos la matriz A por la B cuando realizamos el
producto B A y que post-multiplicamos la A por la B si realizamos el producto A B.
Definiciones bsicas
Llamaremos matriz, A, de dimensiones (n k) a un conjunto de n k nmeros reales,
ordenados en n filas y k columnas. Por ejemplo, si medimos k variables en n individuos
de una poblacin podemos representar cada variable por un vector columna de dimensin
n y cada vector columna es pues una matriz (n 1). El conjunto de los k vectores es
un matriz (n k), y esta matriz puede verse como un conjunto de k vectores columna, o
como un conjunto de n vectores fila, cada uno de ellos de dimensin k. Llamaremos matriz
transpuesta A0 a la matriz obtenida a partir de A intercambiando filas por columnas. Si
A es n k, A0 ser k n. Se verifica:
(A0 )0 = A
La suma de dos matrices se define slo cuando ambas tienen las mismas dimensiones.
Cada elemento de la matriz suma se obtiene sumando los elementos correspondientes de
13
los sumandos
A+B=C
a11 . . . a1k
an1 . . . ank
b11 . . . b1k
bn1 . . . bnk
c11 . . . c1k
cn1 . . . cnk
con cij = aij + bij . Se verifica:

(i) A + B = B + A
(ii) (A + B)0 = A0 +B0 .
Sumar dos matrices equivale en trminos estadsticos a sumar los valores de las variables correspondientes a las columnas de las matrices. Por ejemplo, si la matriz A representa el nmero de incidencias leves de k tipos distintos en una empresa en n semanas y la
B el nmero de incidencias graves en las mismas semanas, la suma representa el numero
total de incidencias.
El producto de dos matrices A B slo es posible cuando el nmero de columnas de
A es igual al nmero de filas de B. Entonces, si A(n k) y B(k h), el producto es una
matriz C(n h) con trminos:
cij =
k
X
ail blj
l=1
Es decir, el trmino cij representa el producto escalar del vector a0i , definido por la
i-sima fila de A, por el vector bj , de la j -sima columna de B. Si escribimos:
a01
B = [b1 ...bh ]
A = ...
0
an
donde todos los vectores tienen dimensiones k, el producto matricial de estas dos matrices
es:
a01 b1 . . . a01 bh
..
...
.
A B = C = ...
.
0
0
an b1 . . . an bh (nh)
En particular, el producto de una matriz (n k) por un vector (k 1), Ax ser un

nuevo vector de dimensin (n 1) cuyos componentes se obtienen por el producto escalar
de las filas de A por el vector x. Si
y = Ax
14
la matriz A transforma vectores x en Rk en vectores y en Rn . En particular si A es

cuadrada de orden n y x Rn el producto Ax es un nuevo vector de Rn . El producto
matricial tiene, entre otras, las propiedades siguientes:
(i) A(B + C) = AB + AC
(ii) (AB)0 = B0 A0
(iii) AI = IA = A.
Un tipo importante de producto matricial es el producto A A0 , que da lugar a una
matriz cuadrada, como definimos a continuacin.
Matrices Cuadradas
Una matriz es cuadrada si n = k. Dentro de las matrices cuadradas se llaman simtricas
a las que tienen cada fila igual a la correspondiente columna, es decir aij = aji . Una matriz
simrica es por tanto idntica a su traspuesta, y diremos que A es simtrica si
A0 = A.
Una matriz cuadrada y simtrica muy importante es la matriz identidad, que representaremos por I y tiene unos en la diagonal y ceros fuera de ella, es decir:
1 ... 0
I = ... 1 ... .
0 ... 1
En particular, los productos A A0 y A0 A conducen a matrices simtricas.

Las matrices cuadradas aparecen de manera natural cuando consideramos estos productos en matrices de datos. Si A es de dimensin (n k) y representa los valores de k
variables de media cero en n individuos de una poblacin, la matriz cuadrada de orden
k,
A0 A
,
n
contiene las varianzas y covarianzas entre las variables. Otra matriz cuadrada y
simtrica de amplio uso en estadstica es la matriz de correlaciones, que contiene unos en

la diagonal y fuera de ella los coeficientes de correlacin entre las variables.
15
Sobre las matrices cuadradas podemos definir dos medidas escalares que resumen su
tamao global: el determinate y la traza. Ambas son medidas relativas, ya que se modifican
si multiplicamos los elementos de la matriz por constantes.
Determinante de una matriz
Dada una matriz A cuadrada de orden n con trminos aij , se denomina determinante
de esta matriz, y lo representaremos por |A|, al escalar obtenido mediante la suma:
|A| =
(1r ) a1i1 a2i2 , ..., anin
que est extendida a todas las permutaciones de los segundos ndices. Los ndices i1 , . . . in
son una permutacin de los nmeros 1, 2, . . . , n y r es el nmero de cambios entre dos
elementos que es necesario para poner los subndices i1 , . . . , in en el orden 1, 2, . . . , n.
Por ejemplo, en una matriz 2 2 el nmero de permutaciones de dos trminos es dos
y el determinante estar formado por los dos trminos:
|A| = a11 a22 a12 a21 .
Observemos que el segundo trmino es negativo, porque el orden de los subndices es
(2, 1) y es necesario un cambio para situarlos en el orden 1, 2. En una matriz 3 3 el
determinante tiene 3! = 6 trminos que se obtiene de las 6 posibles permutaciones:
1
1
2
2
3
3
2
3
1
3
1
2
3
2
3
1
2
1
En consecuencia:
|A| = a11 a22 a33 a11 a23 a32 a12 a21 a33 + a12 a23 a31 +
+a13 a21 a32 a13 a22 a31 .
Para matrices mayores de 3 el clculo del determinante es tedioso. Su clculo se simplifica mediante el concepto de menor. Llamaremos menor del elemento aij de una matriz
16
cuadrada de orden n, mij , al determinante de la matriz de orden n1 que resulta al eliminar de la matriz original A la fila i y la columna j. Se denomina adjunto del elemento aij
al escalar (1)i+j mij . Se demuestra que el determinante de una matriz puede calcularse
multiplicando cada elemento de una fila por sus adjuntos. Entonces:
|A| =
n
X
aij (1)i+j mij
j=1
para cualquier fila i. Por ejemplo, en una matriz 3 3, desarrollando por los elementos
de la primera fila
|A| = a11 (a22 a33 a23 a32 ) a12 (a21 a33 a23 a31 ) + a13 (a21 a32 a22 a31 ) ,
que coincide con el resultado anterior. Los determinantes tienen las propiedades siguientes:
(i) |A| = n |A|
(ii) |A0 | = |A|
(iii) |AB| = |A| |B| si ambas son cuadradas, de orden n.
(iv) Si permutamos dos filas o dos columnas entre s, el determinante cambia slo su
signo.
(v) Si una fila (o columna) de una matriz es una combinacin lineal de las restantes filas
(o columnas) el determinante de la matriz es cero. Entonces diremos que la matriz
es singular.
El determinante de una matriz de varianzas y covarianzas es una medida global de la
independencia entre las variables. Por ejemplo, si una variable es combinacin lineal de
las dems, entonces las variables son linealmente dependientes y el determinante es nulo.
En trminos relativos, cuanto mayor sea el determinate mayor es la independencia entre
los vectores.
Si consideramos matrices cuadradas estandarizadas de manera que el mdulo de cada
vector columna (o fila) sea la unidad, el determinante es mximo si la matriz tiene unos
17
en la diagonal y ceros en el resto, de manera que los vectores columna son ortogonales
(independientes) entre s.
Traza de una matriz
La traza de una matriz cuadrada es la suma de los elementos de la diagonal principal
de la matriz. Si C es una matriz con elementos cij se verifica:
tr(C) =
n
X
cii
i=1
La traza es un operador lineal. En efecto, de la definicin se obtiene:

(i) tr(A + B) = tr(A) + tr(B).
(ii) tr(A) = tr(A), donde es un escalar.
(iii) Se demuestra que: tr(ABC) = tr(CAB) = tr(BCA), en el supuesto de que todos
los productos estn definidos.
(iv) tr(C2 ) = tr(CC) =
Pn Pn
i=1
2
j=1 cij .
La traza es una medida global de tamao de la matriz que se obtiene sumando sus
elementos diagonales. Por ejemplo, la traza de una matriz de varianzas y covarianzas es la
suma de todas las varianzas de las variables. Al tener en cuenta nicamente los elementos
diagonales es una medida ms simple que el determinante.
Formas cuadrticas
Una tercera forma de obtener un escalar a partir de una matriz cuadrada es construyendo una forma cuadrtica. Llamaremos forma cuadrtica a una expresin escalar del
tipo:
y0 Ay
donde y es un vector, y0 su transpuesto y A una matriz cuadrada y simtrica. Si la
dimensin del vector es (n 1), la matriz debe ser cuadrada de orden n para que sea
18
posible el producto y, as, la matriz resultante tendr dimensin:

(1 n) (n n) (n 1) = (1 1).
La forma cuadrtica es siempre un escalar. Su expresin general es:
n
X
aii yi2
+2
i=1
n X
n
X
aij yi yj .
i=1 j=i+1
Diremos que una matriz A es semidefinida positiva si cualquier forma cuadrtica

formada con ella es no negativa, para cualquier vector y 6= 0. Si la forma cuadrtica es
siempre mayor que cero diremos que la matriz A es definida positiva. Se demuestra que
el determinante y la traza de una matriz semidefinida positiva son tambin no negativos.
Matriz Inversa
Dada una matriz A cuadrada n n, no singular, definimos su inversa, A1 , como una
matriz n n tal que:
AA1 = I
donde I es la matriz identidad, que tiene unos en la diagonal y ceros fuera de ella. Es
decir, escribiendo A con vectores fila a0i , la matriz A1 tendr vectores columna bi tales
que:
a01
a01 b1
a01 bn
...
.
..
.. =
.
.
.
.
b
b
=
.
.
1
n
.
0
0
0
an
an b1 . . . an bn
1
0
..
.
0
1
..
.
... 0
... 0
.. .
.
0 ... ... 1
En consecuencia la matriz A1 debe tener por columnas vectores b tales que:

(i) bi es ortogonal a aj (j 6= i);
(ii) b0i ai = a0i bi = 1.
Observemos que el clculo de la inversa nos resuelve el problema de calcular vectores
ortogonales a uno dado (o variables incorreladas con una dada). En efecto, el espacio
ortogonal al vector a1 es el formado por los vectores b2 , ...bn .
19
Por ejmplo, dada la matriz

A=
la inversa es
1
2 1
0 4
0,5 0,125
0
0,25
y cada vector columna de la inversa es ortogonal a un vector columna y verifica la condicin

de b0i ai = 1.
La necesidad de calcular la inversa de una matriz aparece de manera natural al resolver
sistemas de ecuaciones lineales,
Ax = b,
donde A es una matriz conocida cuadrada de orden n, b un vector de constantes y x un
vector de n incognitas. Para que este sistema tenga solucin nica las n ecuaciones deben
de ser distintas, lo que supone que no existe una fila de A que sea combinacin lineal de
las dems. Entonces A es no singular y la solucin se obtiene mediante:
x = A1 b.
El clculo de la matriz inversa A1 de una matriz dada es engorroso y debe realizarse
mediante un ordenador si la dimensin de A es alta. Se demuestra que la inversa de una
matriz puede calcularse mediante las tres operaciones siguientes:
1. Se sustituye cada elemento por su adjunto.
2. Se transpone la matriz resultante. Se obtiene una matriz que llamaremos adjunta
de la matriz A.
3. Se divide cada trmino de la matriz adjunta por el determinante de la matriz original.
Como ejemplo calcularemos la inversa de la matriz
1 1 0
A = 1 2 1
0 0 3
20
comenzaremos sustituyendo cada elemento por su adjunto. Por ejemplo, para el elemento
(1, 1) su adjunto es (1)2 [2 3 1 0] = 6.
6
3
1
Para el (1, 2), (13 ) [1 3 1 0] = 3, etc.
3 0
3 0
1 3
Se transpone esta matriz y resulta:
6 3 1
Adj (A) = 3 3 1
0 0
3
Si dividimos ahora por el determinante de la matriz A

|A| = 6 + 3 = 9,
se obtiene
A1
13 19
1
19
=
3
1
0 0
3
2
3
1
3
y podemos comprobar que A A1 = I.
La inversa de una matriz A tiene las propiedades siguientes:

(i) (AB)1 = B1 A1 para matrices cuadradas no singulares.
(ii) (ABC)1 = C1 B1 A1
(iii) (A0 )1 = (A1 )0
(iv) |A1 | = |A|1
(v) Si A es simtrica tambin lo es A1 .
La matriz inversa de una matriz de varianzas y covarianzas recoge la informacin de
la dependencia conjunta de todas las variables de manera ms completa que la matriz de
varianzas y covarianzas.
21
Matrices ortogonales
Llamaremos matriz ortogonal, C, a una matriz cuadrada, que representa un giro en el
espacio. Por tanto, dado un vector x, si aplicamos una matriz ortogonal C para obtener
un nuevo vector y = Cx, como el mdulo de y debe ser idntico al de x al tratarse de un
giro, tendremos la condicin :
y0 y = x0 C0 Cx = x0 x,
es decir, deber verificarse que :
C0 C = I
como adems tendremos que x = C1 y, y por la condicion anterior C0 y = C0 Cx = x,
concluimos que la matriz inversa de una matriz ortogonal es igual a su traspuesta. Esta
es la condicin de ortogonalidad:
C0 = C1 .
Esta condicin impone que las filas o columnas de una matriz ortogonal sean vectores
ortogonales entre s y de longitud unidad, ya
1 ...
c01
..
..
. (c1 . . . cn ) = .
0 ...
c0n
que:

c01 c1 . . . c01 cn
0
.. = ..
..
. .
.
0
0
1
cn c1 . . . cn cn
adems: |C| = |C0 | = 1, donde |C| es el determinante de C.

Por ejemplo, en R2 , la matriz
C=
cos sen
sen cos
es ortogonal, ya que CC0 = I.

Rango de una matriz
A cada matriz podemos asociarle un nmero que indica el mximo nmero de vectores
linealmente independientes que podemos obtener a partir de ella.
22
Supongamos primero matrices cuadradas. Dada la matriz A cuadrada de orden n,

llamaremos rango de la matriz a la dimensin del espacio generado por sus vectores
columna. Si estos son linealmente independientes el rango ser igual a n. En otro caso
ser menor que la dimensin de la matriz. Se demuestra que el rango de una matriz
cuadrada es igual al de su transpuesta; y que el rango es siempre igual al mximo nmero
de vectores columna, o fila, linealmente independientes. En general, si llamamos rg(A) al
rango de la matriz A se verifica:
(i) rg(Ank ) mn(n, k). El rango es igual o menor que el menor de n y k.
(ii) rg(A0 A) = rg(AA0 ) = rg(A)
(iii) si rg(Ann ) = n, A es no singular y existe A1 .
(iv) si rg(Ank ) = n < k rg(Ank ) = k < n, se dice que A es de rango completo.
(v) rg(AB) mnimo de (rg(A) y rg(B)).
(vi) rg(AB) = rg(A), si |B| 6= 0 y A cualquiera.
(vii) Si A y B son cuadradas de orden n y AB = 0, entonces rg(A) + rg(B) n.
(viii) rg(A + B) rg(A) + rg(B).
Como el rango de una matriz es el nmero de vectores linealmente independientes
que la forman, el rango de una matriz de datos es el nmero de.variables distintas (no
relacionadas linealmente) que la componen.
Autovectores y autovalores
Dada una matriz cuadrada, hay determinadas propiedades que esperamos que sean
invariantes ante transformaciones lineales que preserven la informacin existente. Por
ejemplo, si pre-multiplicamos la matriz por una nueva matriz y luego post-multiplicamos
por la inversa de dicha matriz. Tambin si giramos los ejes de coordenadas.
23
Supongamos que partiendo de k variables (vectores) pasamos a otras k variables que

son combinacin lineal de las anteriores mediante una de las operaciones anteriores. Por
ejemplo, si en lugar de trabajar con los ingresos y los costes decidimos trabajar con los
beneficios, construidos como ingresos-costes, y el volumen de actividad, definido como
ingresos ms costes; entonces hemos aplicado una transformacin ortogonal. Aunque la
matriz cuadrada que representa las varianzas y covarianzas de las nuevas variables sea
distinta de la original, la esencia del problema es la misma, y se espera que haya componentes que permanezcan invariantes en el problema . Para precisar esta idea aparece el
concepto de autovalores y autovectores de una matriz cuadrada.
Los autovalores son las medidas bsicas de tamao de una matriz, que no se ven
alteradas por transformaciones lineales de esta matriz. Por ejemplo, si hacemos un cambio
de coordenadas que equivalga a una rotacin de ejes los autovalores no se modificarn.
Los autovectores representan las direcciones caractersticas de la matriz y no son invariantes. Se demuestra que las medidas globales de tamao de la matriz, como la traza
o el determinante, son slo funcin de los autovalores y en consecuencia son tambin
invariantes.
Definiciones bsicas
Definimos a los autovalores (o valores propios o races caractersticas) de una matriz
cuadrada de orden n, A, como las soluciones de la ecuacin polinmica.
|A I| = 0.
Es inmediato deducir de la definicin que si una matriz es diagonal, los autovalores
son los elementos de la diagonal principal. En efecto, tendremos:

a1
a1 . . . 0
.
.
.
0
.
.
.
0
.. .

..
.
.
.
.
.
.
.
.
a
.
|A I| =
. . =
2
.
a2
.

0 ... a
0
.
.
.
0
.
.
.
a
n
n
|AI| = (a1 ), ..., (an ),
24
y las soluciones de esta ecuacin polinmica son a1 , ..., an .

De este ejemplo se deduce que aunque una matriz de orden n tiene n autovalores estos
pueden aparecer repetidos y en general una matriz tiene h n autovalores distintos. Si
un autovalor aparece repetido r veces se dice que tiene multiplicidad r. Por ejemplo, la
matriz diagonal:
2
0
A =
0
0
0
3
0
0
0
0
0
0
0
0
0
0
tiene como autovalores 2, 3 y 0, este ltimo valor con multiplicidad dos (aparece dos
veces).
Llamaremos autovectores o vectores propios de una matriz cuadrada a los vectores u
que verifican para u 6= 0 la relacin:
Au = u.
Si u es un vector propio de A es obvio que ku, donde k R, ser tambin vector propio.
Para evitar esta indeterminacin suponemos que los autovectores estn normalizados de
manera que |u| = 1. Sin embargo, el signo queda indeterminado: si u es un vector propio
tambin lo es u.
Si una matriz cuadrada de orden n tiene n autovalores distintos entonces a cada
autovalor le podemos asociar un vector propio bien definido y se demuestra que el conjunto
de n vectores propios es linealmente independiente.
Si un autovalor es mltiple, es decir, la matriz no tiene n autovalores distintos, los vectores propios asociados a autovalores con multiplicidad mayor que uno no estn definidos
en general de manera nica. Para ilustrar esta idea, consideremos la matriz
1 0 0
A = 0 1 0
0 0 2
que tiene el autovalor 1 con multiplicidad 2. Los vectores u1 = (1 0 0)0 y u2 = (0 1 0)0 son
vectores propios asociados al valor 1, pero tambin lo es u3 = 1 u1 + (1 1 ) u2 , para
25
cualquier valor de . Los vectores propios estn en un espacio igual a la multiplicidad del
autovalor, 2, y cualquier vector normalizado de este espacio de dimensin 2 es un vector
propio de A.
Los autovalores de una matriz tienen las propiedades siguientes:
(a) si es un autovalor de A, entonces r es un autovalor de Ar .
En particular, si A1 existe, 1 es un autovalor de A1 . En efecto, si Au = u,
multiplicando por A1 , u =A1 u, es decir 1 u = A1 u.
(b) La suma de los autovalores de A es igual a la traza.
tr(A) =
n
X
i .
i=1
(c) El producto de los autovalores de A es igual al determinante

|A| =
n
Y
i .
i=1
(d) Si una matriz P es no singular, entonces Las matrices A y P1 AP tienen los mismos
autovalores.
Efectivamente, si Au =u, multiplicando ambos miembros por P1 por la derecha y
P por la izquierda, se obtiene que P1 A P u = u y las matrices tienen los mismos
autovalores. Los vectores propios de la matriz P1 AP son P1 u, siendo u un vector
propio de la matriz A.
Diagonalizacin de Matrices
Si A es una matriz cuadrada de orden n con k autovalores 1 , . . . k , con multipliP
cidad mi , ki=1 mi = n, la condicin para que A tenga n vectores propios linealmente
independientes es que el rango rank (A i I) = n mi .
Entonces la matriz A se puede diagonalizar mediante:

U1 A U = D
26
donde U tiene por columnas los vectores propios de A, y D contiene los autovalores.
Podemos tambin escribir
A = U D U1 .
Diagonalizacin de Matrices Simtricas

Se comprueba que las matrices simtricas tienen autovalores reales y vectores propios
ortogonales. Como consecuencia, toda matriz simtrica A puede convertirse en una matriz
diagonal aplicando una transformacin
U0 AU = D
donde la matriz U es ortogonal.
Se tiene, tambin, que el rango de una matriz simtrica es igual al nmero de races
caractersticas distintas de cero. Por lo tanto, si diagonalizamos una matriz simtrica,
podemos deducir su rango observando el nmero de elementos no nulos en la diagonal
principal de la matriz transformada D.
Descomposicin espectral
Partiendo de U0 AU = D y pre-multiplicando por U y post-multiplicando por U0 se
obtiene
A = UDU0
que puede escribirse:
de donde resulta:
1 u01
A = (u1,..., un ) ...
n u0n
A=
n
X
i ui u0i
i=1
la descomposicin espectral que descompone la matriz A como suma de n matrices de

rango uno ui u0i con ponderaciones i .
27
Si la matriz A tiene rango r la descomposicin espectral indica que puede expresarse

como suma de r matrices de rango unidad.
La importancia de esta descomposicin es que si algunos autovalores son muy pequeos, podemos reconstruir aproximadamente A utilizando los restantes valores y autovalores.
Observemos que la descomposicin espectral de A1 es
1
n
X
0
1
i ui ui
i=1
ya que A1 tiene los mismos vectores propios que A y autovalores 1

i .
Descomposicin en valores singulares

Toda matriz A(nk) de rango r puede expresarse como
A = U1 D1/2 V10
donde U1 es (n r), D es (r r) y V10 es (r k). La matriz diagonal D1/2 contiene
las races cuadradas de los autovalores no nulos de las matrices A A0 o A0 A, que son
positivos. La matriz U1 contiene en columnas los vectores propios unidos a autovalores
no nulos de A A0 y V1 contiene en columnas los vectores propios unidos a autovalores no
nulos de A0 A. Las columnas de U1 son ortogonales entre s y tambin lo sern las de V1 .
Los elementos diagonales de D1/2 se denominan los valores singulares de la matriz A.
Derivadas matriciales
Definicin
Sea una funcin f dependiente de n variables, x1 , ..., xn , que pueden considerarse
componentes de un vector x; la derivada de f respecto a x es un vector cuyos componentes
son la derivada de f respecto a cada componente de x.
Ejemplo:
28
Si f = 5x1 + 2x2 + 3x3
5
f
= 2
x
3
(i) Si f = a0 x tendremos que:
(a0 x)
=a
x
(ii) Si f = x0 Ax, donde A es cuadrada y simtrica,
(x0 Ax)
= 2Ax
x
ya que aplicando la definicin anterior, como,
x0 Ax =
n
X
aii x2i + 2
i=1
aij xi xj
j>i
tendremos que:
(xAx)
= 2a11 x1 + 2a12 x2 + ... + 2a1n xn = 2a01 x
x1
donde a01 es la primera fila de la matriz. Por tanto:
2a01 x
0
(xAx)
2a2 x
= .. = 2Ax
x
.
2a0n x
Definicin
Dado un vector y cuyos componentes son funciones fi de un vector de variables x0 =

(x1 , ..., xn ), definimos la derivada de y respecto a x como la matriz cuyas columnas son
las derivadas de los componentes fi respecto a x. Es decir, si:
f1 (x)
y = ...
fn (x)
entonces:
y
=
x
f1
fn
,...,
x
x
f1
x1
...
...
fn
x1
f1
xn
...
fn
xn
= ...
29
..
.
Observacin: Si y = Ax, donde A es una matriz cualquiera.

(Ax)
= A0
x
Para deducir este resultado de la definicin anterior, escribimos la matriz A como:
a01
A = ...
a0n
donde cada a01 es una fila de la matriz; Entonces,
a01 x
y = Ax = ...
a0n x
con lo que,
fi
(a01 x)
=
= ai
x
x
Por tanto, segn lo anterior,
y
= (a1 , . . . , an ) = A0
x
30
#
#
#
---------------------------------------VECTORES Y MATRICES
----------------------------------------
# NOTA: Asignar un valor a una variable:

# De modo equivalente se puede poner estos dos signos:
# <# =
# Ejemplo:
x <- 4
# equivale a
x=4
# Un vector se puede definir por un solo smbolo y la expresin c()
x <- c(10,20,30,40)
gente <- c("Manolo","Carmen","Luis","Sara")
# Si se pone x+100 se suma 100 a todos los componentes
x+100
# Se pueden anidar los vectores
x <- c(1,2,3,4,5)
eso <- c(x,x,x)
eso
# cbind() forma un array bidimensional combinando las columnas
c1 <- c(10,20,30,40)
c2 <- c(5,10,15,20)
x <- cbind(c1,c2)
x
# rbind() forma un array bidimensional combinando las filas
x <- rbind(c1,c2)
x
# Para obtener un valor de un array se pone entre corchetes el elemento
# requerido, o la columna, o la fila:
x[2,2]
x[,2]
x[2,]
# Se les puede asignar un nombre a las columnas o filas
v2 <- x[,2]
# Para crear una lista creciente o decreciente de enteros
0:10
20:8
# Repeticin de valores
# rep(valor a repetir, numero de repeticiones)
rep(3,10)
# Ejemplo: se repite los nmeros del 1 al 3; el primero 1 vez,
# el segundo 2 veces y el tercero 3 veces
rep(1:3,1:3)
# seq(comienzo, final, intervalo)
seq(1,8,1)
31
# Asigna la secuencia que va desde el 1 al 5 en saltos de 0.1

seq (1,5,0.1)
# Subndices
z <- c(1,2,3,4,5,6,5,4,3,2,1)
z
z[c(1,3,5,7,9)]
z[7]
z[7:10]
# Para eliminar el elemento i-esimo del vector:
z[-6]
z[-c(2,4,6,8)]
z[-i]
# Matrices: solo pueden contener datos de un tipo a la vez

# (numeros o caracteres)
# Se puede crear un array bidimensional de valores con matrix():
# matrix(vector de valores, num de filas, num de columnas)
# Ejemplo: rellenar la matriz por columnas
A <- matrix(1:12,3,4)
# Ejemplo: rellenar la matriz por filas
A <- matrix(1:12,3,4, byrow=T)
# Ejemplo: crea una matriz de 9's
matrix(9,3,4)
# Ejemplo se define la siguiente matriz por filas:
X <- matrix(c(1, -2, 3,
4, -5, -6,
7, 8, 9,
0, 0, 10),
4, 3, byrow=TRUE)
X
# Transpuesta de una matriz
t(X)
B <- matrix(c(-5,
2,
7,
3, 3,
B
1, 3,
2, 6,
3, -4),
byrow=TRUE)
# Matriz diagonal
diag(B)
# Traza
sum(diag(B))
# Comprobacion de que es simetrica una matriz
all(B == t(B))
C <- matrix(c(-5, 1,
1, 2,
3,
6,
3, 6, -4),
3, 3, byrow=TRUE)
all(C == t(C))
32
# Definir una matriz diagonal

diag(c(6, -2, 0, 7))
# Definir una matriz identidad
diag(3)
# Definir una matriz de ceros
matrix(0, 4, 3)
# Definir un vector unidad
rep(1, 4)
A <- matrix(1:6, 2, 3, byrow=TRUE)
A
B <- matrix(c(-5, 1, 2,
3, 0, -4),
2, 3, byrow=TRUE)
B
# Operaciones entre matrices
A + B
A - B
-A
# Producto de un escalar por una matriz
3 * B
B * 3
#
a
b
a
Producto escalar entre dos vectores

<- c(2, 0, 1, 3)
<- c(-1, 6, 0, 9)
%*% b
#
A
A
B
B
A
B
Producto de dos matrices

<- matrix(1:4, 2, 2, byrow=TRUE)
<- matrix(c(0, 3,
2, 1), 2, 2, byrow=TRUE)
%*% B
%*% A
C <- matrix(1:6, 2, 3, byrow=TRUE)

C
I <- diag(3)
I
C %*% I
# Esto da error
I %*% C
# Inversa de una matriz
A <- matrix(c(2, 5, 1, 3), 2, 2, byrow=TRUE)
A
solve(A)
A %*% solve(A)
solve(A) %*% A
33
# Matriz singular
A <- matrix(c(1,2,2,4), 2, 2)
solve(A)
# Determinantes
A <- matrix(c(2, 5,
det(A)
1, 3), 2, 2, byrow=TRUE)
# Determinante de una matriz singular

B <- matrix(c(1,2,2,4), 2, 2)
det(B)
# Autovalores y Autovectores
A <- matrix(c(1, .5, .5, 1), 2, 2)
A
eigA <- eigen(A)
eigA
sum(eigA$values)
prod(eigA$values)
det(A)
# Rango de una matriz
# Calcular la descomposicion QR de la matriz
la.qr <- qr(A)
# Se listan los atributos del objeto anterior
names(la.qr)
# Se extrae el atributo rango
print(c("El rango de la matriz es",la.qr$rank),quote = F)
# El rango de una matriz cuadrada simetrica equivale al numero de
# autovalores distintos de 0:
autoval <- eigen(A, only.values = TRUE)
rango <-length(autoval[[1]]>=1.e-10)
print(c("El rango de la matriz es",rango),quote = F)
34
Tema 2: Estadstica Descriptiva

Multivariante
Datos multivariantes: estructura y notacin
Se llama poblacin a un conjunto de elementos bien definidos. Por ejemplo, la poblacin
de las empresas de un pas, o de los estudiantes de una Universidad.
Cuando en cada elemento de la poblacin se mide un conjunto de variables estadsticas
diremos que se ha definido una variable estadstica multivariante, vectorial o multidimensional. Las variables que se miden en cada elemento pueden ser cualitativas o cuantitativas.
Algunos ejemplos de variables multivariantes son los siguientes:
(i) En cada estudiante de una universidad medimos la edad, el sexo, la nota de entrada
en la universidad, el municipio de residencia y el curso ms alto en que se encuentra
matriculado.
(ii) En cada una de las empresas de un polgono industrial medimos el nmero de
trabajadores, la facturacin, el sector industrial y las ayudas oficiales recibidas.
(iii) En cada pas del mundo medimos diez indicadores de desarrollo.
Supondremos en adelante que las variables definidas sobre cada elemento de la poblacin
son numricas. En particular, cualquier variable cualitativa se transformar a una escala
numrica. Por ejemplo, la variable sexo se convierte en numrica asignando el cero al
varn y el uno a mujer. Naturalmente la asignacin de valores numricos es arbitraria.
Entonces podemos suponer que los valores disponibles de la variable multidimensional
se encuentran en una matriz, que llamaremos matriz de datos. En esta matriz cada fila
representa un elemento de la poblacin y cada columna los valores de una variable escalar
en todos los elementos observados. Tpicamente esta matriz ser rectangular con n filas y
k columnas donde hemos supuesto que existen n elementos en la poblacin y que se han
medido k variables sobre cada elemento.
Llamaremos X a la matriz de datos y xij a su elemento genrico que representa el
valor de la variable j sobre el individuo i. donde i = 1, ..., n y j = 1, ..., k.
La matriz de datos X tendr dimensiones n k y puede representarse de dos formas
distintas. Por filas como:
X=
x11
x21
..
.
xn1
x12
x22
..
...
.
xn2
x1k
x2k
..
.
xnk
x01
..
.
..
.
x0n
donde cada variable x0i es un vector fila k 1 que representa los valores de las k variables
sobre el individuo i.
Alternativamente podemos representar la matriz X por columnas:
X = [x1 . . . xk ]
donde ahora cada variable xi es un vector columna n 1 que representa la variable i,
medida en los n elementos de la poblacin.
Vector de Medias
La medida de centralizacin ms utilizada para describir datos multivariantes es el
vector de medias, que tiene dimensin k y recoge las medias de cada una de las k variables.
Se calcula fcilmente mediante:
x1
1
x = ... = X0 1,
n
xk
donde 1 representar siempre un vector de unos de la dimensin adecuada.

2
En R el comando correspondiente es:

mean(x)
y la cuasivarianza se calcula con el comando
var(x)
Ejemplo
La siguiente tabla presenta ocho variables fsicas tomadas en un grupo de 27 estudiantes. Las variables son sexo (sex con 0 hombre, 1 mujer), estatura (est), peso en Kgr (pes),
longitud de pie (pie), longitud de brazo (lbr), anchura de la espalda (aes), dimetro de
crneo (dcr) y longitud entre la rodilla y el tobillo (drt). Todas las longitudes van en cm
(ver libro Anlisis Multivariante de D. Pea (2001))
sex
0
1
0
...
0
1
0
est
159.0
164.0
172.0
...
170.0
170.0
168.0
pes
49
62
65
...
70
67
56
pie
36.0
39.0
38.0
...
38.0
40.0
37.5
lbr
68.0
73.0
75.0
...
73.0
77.0
70.5
aes
42.0
44.0
48.0
...
45.0
46.5
48.0
dcr
57.0
55.0
58.0
...
56.0
58.0
60.0
drt
40.0
44.0
44.0
...
43.0
44.5
40.0
La siguiente tabla presenta las medias y desviaciones tpicas de las variables, as como
otras medidas de la distribucin univariante de cada variable.
est
pes pie
lbr aes dcr drt
Medias
168.8 63.9 39.0 73.5 45.9 57.2 43.1
D. Tpicas
10.2 12.8 2.9 4.9 4.0 1.8 3.1
Coef. asimetra .15
.17 .27 .37 -.22 .16 .56
Coef. Curtosis
1.8
2.1 1.9 2.1 2.4 2.0 3.4
Se observa que la variable ms homognea (con menor variabilidad) es el dimetro
del crneo y la ms variables el peso. La distribucin ms asimtrica es la distancia entre
rodilla y tobillo y la ms apuntada (con mayor curtosis) la distancia rodilla tobillo.
NOTA: En R se puede definir dos funciones para calcular la curtosis y la asimetra:
# funcion para calcular el coeficiente de asimetria de un vector de datos
asim <- function(x){
n <- length(x)
asimetria <- (sum((x-mean(x))^3)/n) / ((sqrt(var(x))^3))

cbind(asimetria) }
# funcion para calcular el coeficiente de curtosis de un vector de datos

curto <- function(x){
n <- length(x)
kurtosis <- (sum((x-mean(x))^4)/n) / ((sqrt(var(x))^4)) - 3
cbind(kurtosis) }
Matriz de varianzas y covarianzas

La variabilidad de los datos y la informacin relativa a las relaciones lineales entre las
variables se resumen en la matriz de varianzas y covarianzas. Esta matriz es cuadrada
y simtrica de orden k, donde los trminos diagonales son las varianzas y los no diagonales, las covarianzas entre las variables. Llamando S a esta matriz, tendremos que, por
definicin:
s21 s12 s1k
.. . .
.
S = ...
. .. .
.
sk1 sk2 s2k
Esta matriz puede calcularse como:
1X
S=
(xi x)(xi x)0 .
n i=1
n
La comprobacin es inmediata. Como:
(xi1 x1 )2
xi1 x1
(xi1 x1 )(xk1 xk )
..
..
..
...
[xi1 x1 . . . xik xk ] =
.
.
.
2
(xik xk )
xik xk
(xik xk )(xi1 x1 )
al sumar para todos los elementos y dividir por n se obtienen las varianzas y covarianzas
e
entre las variables. Otra forma de calcular S es a partir de la matriz de datos centrados X,
que se obtiene restando a cada dato su media. Es fcil comprobar que esta matriz puede
calcularse mediante
e = X 1x0 ,
X
4
y sustituyendo el vector de medias por su expresin dada:

e = X 1 110 X = PX,
X
n
donde la matriz cuadrada P est definida por
1
P = I 110
n
y es simtrica e idempotente (ya que se puede comprobar que PP = P). Entonces la
matriz S puede escribirse:
S=
1 e0 e
1
X X = X0 PX.
n
n

cov(x)
Observacin
La matriz de covarianzas es semidefinida positiva. Es decir, si y es cualquier vector

y0 Sy 0.
Esta condicin tambin implica que los autovalores de esta matriz i son no negativos.
Es decir, si Svi = i vi, , entonces i 0.
La matriz de correlacin
Llamaremos matriz de correlacin a la matriz cuadrada y simtrica que tiene unos en
la diagonal y fuera de ella los coeficientes de correlacin entre las variables. Escribiremos
1 r12 r1k
.. . .
.
R = ...
. ..
.
rk1 rk2 1
Esta matriz es tambin semidefinida positiva. Para verlo, llamemos D a la matriz
diagonal de orden k construida colocando en la diagonal principal las desviaciones tpicas

de las variables. La matriz R esta relacionada con la matriz de covarianzas S mediante:
R = D1 SD1 ,
5
que implica
S = DRD.
La condicin w0 Sw 0 equivale a:
w0 DRDw = Z0 RZ 0
llamando Z = Dw. Por tanto, la matriz R es tambin semidefinida positiva.
corr(x)
Correlaciones parciales
Se define la matriz de correlaciones parciales como la matriz que mide las relaciones
entre pares de variables eliminando el efecto de las restantes. Por ejemplo, para cuatro
variables:
r12,34
Rp =
r31,24
r41,23
r12,34 r13,24 r14,23

1
r13,14 r24,12
r32,14
1
r34,12
r42,13 r34,12
1
donde, por ejemplo, r12,34 es la correlacin entre las variables 1 y 2 cuando eliminamos el
efecto de la 3 y la 4, es decir, cuando las variables 3 y 4 permanecen constantes.
Puede demostrarse que el coeficiente de correlacin parcial entre dos variables es proporcional al coeficiente de una regresin entre las dos variables que incluye tambin al
resto de las variables. En concreto, por ejemplo:
q
b12,34
b2
+ s2
r12,34 =
12,34
12,34 (n k 1)
b12,34 se obtiene a partir de la recta de regresin

donde k es aqu igual a 4 y
b0 +
b12,34 x2 +
b13,34 x3 +
b14,34 x4
x
b1 =
b12,34 en esta ecuacin.

siendo s212,34 es la varianza estimada del coeficiente
En SPSS se calcula con los mens:
Analizar -> Correlaciones -> Parciales

6
En R se calcula cargando antes la librera corpcor y usando el comando cor2pcor

sobre una matriz de correlaciones habitual, o bien el comando pcor.shrink directamente
sobre los datos.
Ejemplo
La matriz de correlacin para las 7 variables fsicas del ejemplo previo, manteniendo
el orden de las variables es
R=
1
0, 83
0, 93
0, 91
0, 84
0, 59
0, 84
0, 83
1
0, 85
0, 82
0, 84
0, 62
0, 72
0, 93
0, 85
1
0, 85
0, 80
0, 55
0, 85
0, 91
0, 82
0, 85
1
0, 80
0, 48
0, 76
0, 84
0, 84
0, 80
0, 80
1
0, 63
0, 63
0, 59
0, 62
0, 55
0, 48
0, 63
1
0, 56
0, 84
0, 72
0, 85
0, 76
0, 63
0, 56
1
Se observa que la mxima correlacin aparece entre la primera y la tercera variable

(estatura y longitud del pie) siendo 0,93. La mnima correlacin es entre la longitud del
brazo y el dimetro del crneo (0,48). En general, las correlaciones ms bajas aparecen
entre el dimetro del crneo y el resto de las variables.
La Varianza Generalizada
Una medida global escalar de la variabilidad conjunta de k variables es la varianza
generalizada, que es el determinante de la matriz de varianzas y covarianzas. Su raz
cuadrada se denomina desviacin tpica generalizada, y tiene las propiedades siguientes:
(i) Est bien definida, ya que el determinante de la matriz de varianzas y covarianzas
es siempre mayor o igual que 0.
(ii) Es una medida del rea (para k = 2), volumen (para k = 3) o hipervolumen (para
k > 3) ocupado por el conjunto de datos.
Por ejemplo, supongamos el caso k = 2; as, S puede escribirse como:
rsx sy
s2x
S=
rsx sy
s2y
7
y la desviacin tpica generalizada es:
|S|1/2 = sx sy 1 r2
Si las variables son independientes, la mayora de sus valores estarn dentro de un
rectngulo de lados 6sx , 6sy ya que, por el teorema de Tchebychev, entre la media y 3
veces la desviacin tpica debe estar aproximadamente al menos el 90 % de los datos.
En consecuencia, el rea ocupada por ambas variables es directamente proporcional al
producto de las desviaciones tpicas.
Si las variables estn relacionadas linealmente y el coeficiente de correlacin es distinto
de cero, la mayora de los puntos tendern a situarse en una franja alrededor de la recta
de regresin y habr una reduccin del rea tanto mayor cuanto mayor sea r. En el lmite,
si r = 1, todos los puntos estn en una lnea, hay una relacin lineal exacta entre las
variables y el rea ocupada es cero. La ltima frmula describe esta contraccin del rea
ocupada por los puntos al aumentar el coeficiente de correlacin.
Anlogamente, en el caso tridimensional,
2
2
(r13 1) + r13
(r12 1) r13 r12 )1/2
|S|1/2 = sx sy sz (1 + r12
si las variables no estn correlacionadas, el volumen ocupado es proporcional al producto

de las desviaciones tpicas. Esta cantidad se reduce ante la presencia de correlacin como
se muestra en la frmula anterior.
En resumen, anlogamente a cmo la desviacin tpica describe la dispersin de una
variable, la desviacin tpica generalizada describe la dispersin conjunta de un grupo de
variables, que depende de la correlacin entre ellas.
Ejemplo
Partiendo de la matriz de covarianza S de la tabla de datos anterior se tiene que la
varianza generalizada viene dada por:
|S|1/2 = 0,0195
8
Como la varianza generalizada mide el grado de dispersin en el espacio, notamos que

esta no es muy alta, por otro lado, las correlaciones entre las variables tampoco son muy
altas.
Representaciones Grficas
Adems de las representaciones univariantes tradicionales, es conveniente representar los datos multivariantes conjuntamente. Para variables discretas podemos construir
diagramas de barras tridimensionales, pero no es posible extender la anloga a ms dimensiones. Igualmente, podemos construir los equivalentes multidimensionales de los histogramas, pero estas representaciones no son tiles para dimensiones superiores a tres.
Por ejemplo, supongamos unos datos recogidos sobre la cantidad de polucin por
dixido de sulfuro y la mortalidad
(ver http://biostatistics.iop.kcl.ac.uk/publications/everitt/)
a k ro n O H
a lb a ny N Y
a llen PA
...
w o rctrM A
yo rk PA
yo u n g sO H
L lu v ia
36
35
44
...
45
42
38
E d u c a c io n
1 1 .4
11
9 .8
...
1 1 .1
9
1 0 .7
Pop den
3243
4281
4260
...
3 67 8
9699
3451
N o b la n co s
8 .8
3 .5
0 .8
...
1
4 .8
1 1 .7
NOX
15
10
6
...
3
8
13
SO 2
59
39
33
...
8
49
39
M o rta lid a d
9 2 1 .9
9 9 7 .9
9 6 2 .4
...
8 9 5 .7
9 1 1 .8
9 5 4 .4
Se pueden considerar las siguientes variaciones sobre grficos bidimensionales clsicos:
En (a) se presenta el diagrama de dispersin de mortalidad frente a SO2. En (b) se

presenta el mismo grfico junto con una recta de regresin aadida. En (c) se presenta el
mismo diagrama de dsipersin con ruido aadido. En (d) se dibuja tambin la distribucin
marginal de cada variable.
El cdigo en R es:
par(mfrow=c(2,2))
par(pty="s")
plot(SO2,Mortalidad,pch=1,lwd=2)
title("(a)",lwd=2)
abline(lm(Mortalidad SO2),lwd=2)
title("(b)",lwd=2)
10
airpoll1<-jitter(cbind(SO2,Mortalidad,50))
plot(airpoll1[,1],airpoll1[,2],xlab="SO2",ylab="Mortalidad",pch=1,lwd=2)
title("(c)",lwd=2)
rug(jitter(SO2),side=1)
rug(jitter(Mortalidad),side=2)
title("(d)",lwd=2)
Se puede considerar tambin un grfico de dispersin con los nombres de cada una de
las observaciones:
que se construye con el siguiente cdigo:

names<-abbreviate(row.names(airpoll))
plot(SO2,Mortalidad,lwd=2,type="n")
text(SO2,Mortalidad,labels=names,lwd=2)
11
Se pueden considerar histogramas bidimensionales y grficas de densidad:
y un grfico de contorno:
12
Se puede representar ms de una variable mediante grficos de burbujas:
cuyo cdigo en R es:

plot(SO2,Mortalidad,pch=1,lwd=2,ylim=c(700,1200),xlim=c(-5,300))
symbols(SO2,Mortalidad,circles=Lluvia,inches=0.4,add=TRUE,lwd=2)
Un grfico multivariante muy extendido es el de la matriz de dispersin, en el que se

cruzan todas las variables entre s:
13
cuyo cdigo en R es simplemente:

pairs(airpoll)
El grfico condicionado es una herramienta muy til para visualizar las relaciones entre
las variables, condicionadas al valor de otras variables. Se pueden observar, as, relaciones
y dependencias entre las mismas.
Por ejemplo el grfico de mortalidad frente a SO2 condicionado a los valores de densidad de poblacin, es:
14
cuyo cdigo en R es simplemente:

coplot(Mortalidad~SO2|Popden)
Las 6 grficas en las que se divide la grfica principal, se deben observar desde abajo
y de izquierda a derecha. Cada una de las 6 subgrficas indica la relacin que existe entre
las variables Mortalidad y SO2 cuando la variable Popden tiene los valores que se indican
en las barras horizontales del panel de la parte superior.
Finalmente, hay grficas muy populares como las caras de Cherno y las grficas de
estrellas, donde se asocia a cada variable o bien un rasgo de una cara (en vista de la
facilidad con que distinguimos facciones) o bien parte de una estrella:
15
cuyo cdigo es:

library(TeachingDemos)
faces2(airpoll)
El grfico de estrellas, asociado a las observaciones recogidas es:
16
cuyo cdigo es:

stars(airpoll)
17
Tema 3: Anlisis de Componentes

Principales
Introduccin a la distribucin normal multivariante
Cuando se trabaja en la vida real, la suposicin ms habitual es que la variable en
estudio se distribuye como una normal: muchas caractersticas que se miden son la conjuncin de muchas causas que actan conjuntamente sobre el suceso. Por ejemplo, la altura
de las personas se considera que se distribuye como una normal, ya que su valor es debido
a mltiples causas ambientales, alimentarias y genticas.
La justificacin matemtica de esto se encuentra en el Teorema Central del Lmite que
demuestra que la suma de variables independientes se distribuye en el lmite como una
normal.
Teorema Central del Lmite
Si X1 , . . . , Xn son v.a. independientes con media y varianza comn 2 < , la v.a.
Z definida como
Z=
/ n
es una v.a. cuya funcin de densidad se aproxima a la distribucin normal cuando n es

grande:
Z N (0, 1)
esto es,
X1 + + Xn
= X ' N ,
n
n
1
Distribucin normal bivariante

Es una generalizacin para vectores de v.a. del modelo normal. En el caso bivariante,
la distribucin normal de un vector (X, Y )0 de media = (1 , 2 )0 y matriz de covarianzas
=
21
cov(X, Y )
cov(X, Y )
22
tiene como funcin de densidad
1
1
f (x, y) = 2 p
exp [x 1
2
2
||
y 2 ]
x 1
y 2
y se representa como N (, ) ,
Esta expresin se generaliza de modo inmediato al caso de un vector de v.a. con n

componentes.
Por ejemplo, en R se puede dibujar la funcin de densidad con la siguiente secuencia
de comandos:
library(mvtnorm)
n = 50
x = seq(-3, 3, length = n)
y = x
z = matrix(0,n,n)
sigma = diag(2)
for (i in 1:n)
for (j in 1:n)
z[i,j] = dmvnorm(c(x[i],y[j]),c(0,0), sigma)
end
end
persp(x,y,z,theta=25,phi=20,zlab="density function",expand=0.5,col="blue")
# Con matriz de covarianzas diferente

2
z = matrix(0,n,n)
f1 = c(1,-0.75)
f2 = c(-0.675,1)
sigma = rbind(f1,f2)
for (i in 1:n)
for (j in 1:n)
z[i,j] = dmvnorm(c(x[i],y[j]),mean=c(0,0),sigma)
end
end
persp(x,y,z,theta=25,phi=20,zlab="density function",expand=0.5,col="blue")
N2 (, ) donde = (0, 0) , =
1 0
0 1
N2 (, ) donde = (0, 0) , =
1 0,75
0,75
1
Propiedades
1. La distribucin marginal de X es N (1 , 1 )
2. La distribucin marginal de Y es N (2 , 2 )
3. La distribucin de Y condicionada por X = x es
cov(X, Y )
(x 1 ) ;
N 2 +
21
p
2
2 1
donde es el coeficiente de correlacin,

=
cov(X, Y )
12
4. Si un vector aleatorio (X, Y )0 tiene distribucin N (, ) y cov(X, Y ) = 0 entonces

X e Y son independientes. Como
=
21 0
0 22
sustituyendo en la expresin de la funcin de densidad, se obtiene que

f (x, y) = f (x) f (y)
Anlisis de Componentes Principales

Introduccin
Cuando se recoge la informacin de una muestra de datos, lo ms frecuente es tomar el
mayor nmero posible de variables. Sin embargo, si tomamos demasiadas variables sobre

= 180
un conjunto de objetos, por ejemplo 20 variables, tendremos que considerar 20
2
posibles coeficientes de correlacin; si son 40 variables dicho nmero aumenta hasta 780.
Evidentemente, en este caso es difcil visualizar relaciones entre las variables.
Otro problema que se presenta es la fuerte correlacin que muchas veces se presenta
entre las variables: si tomamos demasiadas variables (cosa que en general sucede cuando
no se sabe demasiado sobre los datos o slo se tiene nimo exploratorio), lo normal es que
estn relacionadas o que midan lo mismo bajo distintos puntos de vista. Por ejemplo, en
estudios mdicos, la presin sangunea a la salida del corazn y a la salida de los pulmones
estn fuertemente relacionadas.
Se hace necesario, pues, reducir el nmero de variables. Es importante resaltar el
hecho de que el concepto de mayor informacin se relaciona con el de mayor variabilidad
o varianza. Cuanto mayor sea la variabilidad de los datos (varianza) se considera que
existe mayor informacin, lo cual est relacionado con el concepto de entropa.
Componentes Principales
Estas tcnicas fueron inicialmente desarrolladas por Pearson a finales del siglo XIX y
posteriormente fueron estudiadas por Hotelling en los aos 30 del siglo XX. Sin embargo,
hasta la aparicin de los ordenadores no se empezaron a popularizar.
Para estudiar las relaciones que se presentan entre p variables correlacionadas (que
miden informacin comn) se puede transformar el conjunto original de variables en otro
5
conjunto de nuevas variables incorreladas entre s (que no tenga repeticin o redundancia

en la informacin) llamado conjunto de componentes principales.
Las nuevas variables son combinaciones lineales de las anteriores y se van construyendo
segn el orden de importancia en cuanto a la variabilidad total que recogen de la muestra.
De modo ideal, se buscan m < p variables que sean combinaciones lineales de las p
originales y que estn incorreladas, recogiendo la mayor parte de la informacin o variabilidad de los datos.
Si las variables originales estn incorreladas de partida, entonces no tiene sentido
realizar un anlisis de componentes principales.
El anlisis de componentes principales es una tcnica matemtica que no requiere la
suposicin de normalidad multivariante de los datos, aunque si esto ltimo se cumple se
puede dar una interpretacin ms profunda de dichos componentes.
Clculo de los Componentes Principales

Se considera una serie de variables (x1 , x2 , ..., xp ) sobre un grupo de objetos o individuos y se trata de calcular, a partir de ellas, un nuevo conjunto de variables y1 , y2 , ..., yp ,
incorreladas entre s, cuyas varianzas vayan decreciendo progresivamente.
Cada yj (donde j = 1, . . . , p) es una combinacin lineal de las x1 , x2 , ..., xp originales,
es decir:
yj = aj1 x1 + aj2 x2 + ... + ajp xp =
= a0j x
siendo a0j = (a1j , a2j , ..., apj ) un vector de constantes, y
x1
x = ...
xp
Obviamente, si lo que queremos es maximizar la varianza, como veremos luego, una
forma simple podra ser aumentar los coeficientes aij . Por ello, para mantener la ortogonalidad de la transformacin se impone que el mdulo del vector a0j = (a1j , a2j , ..., apj ) sea
6
1. Es decir,
a0j aj
p
X
a2kj = 1
k=1
El primer componente se calcula eligiendo a1 de modo que y1 tenga la mayor varianza

posible, sujeta a la restriccin de que a01 a1 = 1. El segundo componente principal se calcula
obteniendo a2 de modo que la variable obtenida, y2 est incorrelada con y1 .
Del mismo modo se eligen y1 , y2 , , yp , incorrelados entre s, de manera que las variables aleatorias obtenidas vayan teniendo cada vez menor varianza.
Proceso de extraccin de factores:
Queremos elegir a1 de modo que se maximice la varianza de y1 sujeta a la restriccin
de que a01 a1 = 1
V ar(y1 ) = V ar(a01 x) = a01 a1
El mtodo habitual para maximizar una funcin de varias variables sujeta a restricciones el mtodo de los multiplicadores de Lagrange.
El problema consiste en maximizar la funcin a01 a1 sujeta a la restriccin a01 a1 = 1.
Se puede observar que la incgnita es precisamente a1 (el vector desconocido que nos
da la combinacin lineal ptima).
As, construyo la funcin L:
L(a1 ) = a01 a1 (a01 a1 1)
y busco el mximo, derivando e igualando a 0:
L
= 2a1 2Ia1 = 0 =
a1
( I) a1 = 0.
Esto es, en realidad, un sistema lineal de ecuaciones. Por el teorema de Roch-Frobenius,
para que el sistema tenga una solucin distinta de 0 la matriz ( I) tiene que ser
singular. Esto implica que el determinante debe ser igual a cero:
| I| = 0
7
y de este modo, es un autovalor de . La matriz de covarianzas es de orden p y si

adems es definida positiva, tendr p autovalores distintos, 1 , 2 , . . . , p tales que, por
ejemplo, 1 > 2 > > p .
Se tiene que, desarrollando la expresin anterior,
( I) a1 = 0
a1 Ia1 = 0
a1 = Ia1
entonces,
V ar(y1 ) = V ar(a01 x) = a01 a1 = a01 Ia1 =
= a01 a1 = 1 = .
Luego, para maximizar la varianza de y1 se tiene que tomar el mayor autovalor, digamos
1 , y el correspondiente autovector a1 .
En realidad, a1 es un vector que nos da la combinacin de las variables originales que
tiene mayor varianza, esto es, si a01 = (a11 , a12 , . . . , a1p ), entonces
y1 = a01 x = a11 x1 + a12 x2 + + a1p xp .
El segundo componente principal, digamos y2 = a02 x, se obtiene mediante un argumento parecido. Adems, se quiere que y2 est incorrelado con el anterior componente y1 ,
es decir, Cov(y2 , y1 ) = 0. Por lo tanto:
Cov(y2 , y1 ) = Cov(a02 x, a01 x) =
= a02 E [(x )(x )0 ] a1 =
= a02 a1 ,
es decir, se requiere que a02 a1 = 0.
Como se tena que a1 = a1 , lo anterior es equivalente a
a02 a1 = a02 a1 = a02 a1 = 0,
8
esto equivale a que a02 a1 = 0, es decir, que los vectores sean ortogonales.
De este modo, tendremos que maximizar la varianza de y2 , es decir, a2 a2 , sujeta a
las siguientes restricciones
a02 a2 = 1,
a02 a1 = 0.
Se toma la funcin:
L(a2 ) = a02 a2 (a02 a2 1) a02 a1
y se deriva:
L(a2 )
= 2a2 2a2 a1 = 0
a2
si se multiplica por a01 , entonces
2a01 a2 = 0
porque
a01 a2 = a02 a1 = 0
a01 a1 = 1.
Luego
= 2a01 a2 = 2a02 a1 = 0,
ya que Cov(y2 , y1 ) = 0.
De este modo,
L(a2 )
a2
queda finalmente como:
L(a2 )
= 2a2 2a2 a1 = 2a2 2a2 =
a2
( I) a2 = 0
Usando los mismos razonamientos que antes, elegimos como el segundo mayor autovalor de la matriz con su autovector asociado a2 .
Los razonamientos anteriores se pueden extender, de modo que al j -simo componente

le correspondera el j -simo autovalor.
Entonces todos los componentes y (en total p) se pueden expresar como el producto
de una matriz formada por los autovectores, multiplicada por el vector x que contiene las
variables originales x1 , . . . , xp
y = Ax
donde
Como
y=
y1
y2
..
.
yp
, A =
a11 a12 a1p

a21 a22 a2p
..
.. . .
.
. ..
.
.
ap1 ap2 app
, x =
x1
x2
..
.
xp
V ar(y1 ) = 1
V ar(y2 ) = 2
V ar(yp ) = p
la matriz de covarianzas de y ser
1 0 0 0
0 2 0 0
=
0 0 ... 0
0 0 0 p
porque y1 , . . . , yp se han construido como variables incorreladas.

Se tiene que
= V ar(Y ) = A0 V ar(X)A = A0 A
o bien
= AA0
ya que A es una matriz ortogonal (porque a0i ai = 1 para todas sus columnas) por lo que
AA0 = I .
10
Porcentajes de variablilidad
Vimos antes que, en realidad, cada autovalor corresponda a la varianza del componente yi que se defina por medio del autovector ai , es decir, V ar(yi ) = i .
Si sumamos todos los autovalores, tendremos la varianza total de los componentes, es
decir:
p
X
V ar(yi ) =
i=1
p
X
i = traza ()
i=1
ya que la matriz es diagonal.
Pero, por las propiedades del operador traza,

traza() = traza(A0 A) = traza(A0 A) = traza(),
porque AA0 = I al ser A ortogonal, con lo cual
traza() = traza() =
p
X
V ar(xi )
i=1
Es decir, la suma de las varianzas de las variables originales y la suma de las varianzas
de las componentes son iguales. Esto permite hablar del porcentaje de varianza total que
recoge un componente principal:
Pp i
i=1
i
i=1 V ar(xi )
= Pp
(si multiplicamos por 100 tendremos el %).
As, tambin se podr expresar el porcentaje de variabilidad recogido por los primeros
m componentes:
Pm
i
i=1 V ar(xi )
donde m < p.
Pp
i=1
En la prctica, al tener en principio p variables, nos quedaremos con un nmero

mucho menor de componentes que recoja un porcentaje amplio de la variabilidad toP
tal pi=1 V ar(xi ). En general, no se suele coger ms de tres componentes principales, a
ser posible, para poder representarlos posteriormente en las grficas.

11
Clculo de los componentes principales a partir de la matriz de

correlaciones
Habitualmente, se calculan los componentes sobre variables originales estandarizadas,
es decir, variables con media 0 y varianza 1. Esto equivale a tomar los componentes
principales, no de la matriz de covarianzas sino de la matriz de correlaciones (en las
variables estandarizadas coinciden las covarianzas y las correlaciones).
As, los componentes son autovectores de la matriz de correlaciones y son distintos
de los de la matriz de covarianzas. Si se acta as, se da igual importancia a todas las
variables originales.
En la matriz de correlaciones todos los elementos de la diagonal son iguales a 1. Si las
variables originales estn tipificadas, esto implica que su matriz de covarianzas es igual
a la de correlaciones, con lo que la variabilidad total (la traza) es igual al nmero total
de variables que hay en la muestra. La suma total de todos los autovalores es p y la
proporcin de varianza recogida por el autovector j -simo (componente) es
j
.
p
Matriz factorial
Cuando se presentan los autovectores en la salida de SPSS, se les suele multiplicar prep
viamente por j (del autovalor correspondiente), para reescalar todos los componentes
del mismo modo. As, se calcula:
1/2
aj = j aj
para j = 1, . . . , p.
De este modo, se suele presentar una tabla de autovectores aj que forman la matriz
factorial
F = (a1 , a2 , . . . , ap )
Si se eleva al cuadrado cada una de las columnas y se suman los trminos se obtienen
los autovalores:
12
1/2
a0
j aj = j
1/2
j a0j aj = j ,
(porque a0j aj = 1).

Por otro lado, como
= AA0
y en SPSS presenta como matriz factorial a
F = A1/2 ,
se tiene que
= F F 0.
Los elementos de F son tales que los mayores valores indican una mayor importancia a la
hora de definir un componente.
Otra manera de verlo es considerar que como y = Ax, entonces, x = A1 y, de modo
que
Cov(x) = (A1 )0 Cov(y)A1 = AA0 = A1/2 1/2 A0 = F F 0
ya que al ser A ortogonal, resulta que A1 = A0 .
As, dada la matriz factorial F , se pueden calcular las covarianzas de las variables
originales, es decir, se puede recuperar la matriz de covarianzas original a partir de la
matriz factorial. Si se toma un nmero menor de factores (m < p), se podr reproducir
aproximadamente .
Clculo de las covarianzas y correlaciones entre las variables originales y los
factores
Como se tena que x = A1 y = A0 y, por ser A ortogonal, entonces
Cov(yj , xi ) = Cov(yj ,
p
X
aik yk ) = aij V ar(yj ) = j aij
k=1
donde yj es el factor j -simo y xi es la variable original i-sima.

13
Si suponemos que las variables originales estn estandarizadas: V ar(xi ) = 1 para

i = 1, . . . , p, entonces
Cor(yj , xi ) =
j aij
1
1/2
j
1/2
= j aij .
De este modo, la matriz de correlaciones entre y y x es:

Cor(y, x) = 1/2 A0 = F 0
con lo que la matriz factorial tambin mide las correlaciones entre las variables originales
estandarizadas y los nuevos factores.
Cambios de escalas e identificacin de componentes

Si las variables originales x1 , . . . , xp estn incorreladas, entonces carece de sentido calcular unos componentes principales. Si se hiciera, se obtendran las mismas variables pero
reordenadas de mayor a menor varianza. Para saber si x1 , . . . , xp estn correlacionadas, se
puede calcular la matriz de correlaciones aplicndose posteriormente el test de esfericidad
de Barlett.
El clculo de los componentes principales de una serie de variables x1 , . . . , xp depende
normalmente de las unidades de medida empleadas. Si transformamos las unidades de
medida, lo ms probable es que cambien a su vez los componentes obtenidos.
Una solucin frecuente es usar variables x1 , ..., xp tipificadas. Con ello, se eliminan las
diferentes unidades de medida y se consideran todas las variables implcitamente equivalentes en cuanto a la informacin recogida.
Identificacin de los componentes principales
Una de los objetivos del clculo de componentes principales es la identificacin de
los mismos, es decir, averiguar qu informacin de la muestra resumen. Sin embargo este
es un problema difcil que a menudo resulta subjetivo. Habitualmente, se conservan slo
aquellos componentes que recogen la mayor parte de la variabilidad, hecho que permite
14
representar los datos segn dos o tres dimensiones si se conservan dos o tres ejes factoriales,
pudindose identificar entonces grupos naturales entre las observaciones.
Ejemplo
Phoenix
Little Rock
San Francisco
Denver
Hartford
Wilmington
Washington
Jacksonville
Miami
Atlanta
Chicago
Indianapolis
Des Moines
Wichita
Louisville
New Orleans
Baltimore
Detroit
Minneapolis-St. Paul
Kansas City
St. Louis
Omaha
Alburquerque
Albany
Bualo
Cincinnati
Cleveland
Columbus
Philadelphia
Pittsburgh
Providence
Memphis
Nashville
Dallas
Houston
Salt Lake City
Norfolk
Richmond
Seattle
Charleston
Milwaukee
SO2
10.00
13.00
12.00
17.00
56.00
36.00
29.00
14.00
10.00
24.00
110.00
28.00
17.00
8.00
30.00
9.00
47.00
35.00
29.00
14.00
56.00
14.00
11.00
46.00
11.00
23.00
65.00
26.00
69.00
61.00
94.00
10.00
18.00
9.00
10.00
28.00
31.00
26.00
29.00
31.00
16.00
Neg.Temp
70.30
61.00
56.70
51.90
49.10
54.00
57.30
68.40
75.50
61.50
50.60
52.30
49.00
56.60
55.60
68.30
55.00
49.90
43.50
54.50
55.90
51.50
56.80
47.60
47.10
54.00
49.70
51.50
54.60
50.40
50.00
61.60
59.40
66.20
68.90
51.00
59.30
57.80
51.10
55.20
45.70
Empresas
213.00
91.00
453.00
454.00
412.00
80.00
434.00
136.00
207.00
368.00
3344.00
361.00
104.00
125.00
291.00
204.00
625.00
1064.00
699.00
381.00
775.00
181.00
46.00
44.00
391.00
462.00
1007.00
266.00
1692.00
347.00
343.00
337.00
275.00
641.00
721.00
137.00
96.00
197.00
379.00
35.00
569.00
Poblacion
582.00
132.00
716.00
515.00
158.00
80.00
757.00
529.00
335.00
497.00
3369.00
746.00
201.00
277.00
593.00
361.00
905.00
1513.00
744.00
507.00
622.00
347.00
244.00
116.00
463.00
453.00
751.00
540.00
1950.00
520.00
179.00
624.00
448.00
844.00
1233.00
176.00
308.00
299.00
531.00
71.00
717.00
Viento
6.00
8.20
8.70
9.00
9.00
9.00
9.30
8.80
9.00
9.10
10.40
9.70
11.20
12.70
8.30
8.40
9.60
10.10
10.60
10.00
9.50
10.90
8.90
8.80
12.40
7.10
10.90
8.60
9.60
9.40
10.60
9.20
7.90
10.90
10.80
8.70
10.60
7.60
9.40
6.50
11.80
Precip
7.05
48.52
20.66
12.95
43.37
40.25
38.89
54.47
59.80
48.34
34.44
38.74
30.85
30.58
43.11
56.77
41.31
30.96
25.94
37.00
35.89
30.18
7.77
33.36
36.11
39.04
34.99
37.01
39.93
36.22
42.75
49.10
46.00
35.94
48.19
15.17
44.68
42.59
38.79
40.75
29.07
Dias
36.00
100.00
67.00
86.00
127.00
114.00
111.00
116.00
128.00
115.00
122.00
121.00
103.00
82.00
123.00
113.00
111.00
129.00
137.00
99.00
105.00
98.00
58.00
135.00
166.00
132.00
155.00
134.00
115.00
147.00
125.00
105.00
119.00
78.00
103.00
89.00
116.00
115.00
164.00
148.00
123.00
Se dispone de una muestra de 41 ciudades de USA en las que se midieron diferentes

variables relacionadas con la contaminacin atmosfrica.
Las variables son:
15
Contenido en SO2
Temperatura anual en grados F.
Nmero de empresas mayores de 20 trabajadores.
Poblacin (en miles de habitantes).
Velocidad media del viento.
Precipitacin anual media.
Das lluviosos al ao.
En principio interesa investigar la relacin entre la concentracin en SO2 y el resto

de variables, aunque para eliminar relaciones entre las variables se emplea un anlisis de
componentes principales.
Se realiza un anlisis de componente principales sobre todas las variables salvo SO2 .
En la salida de resultados de R se observan varias grficas descriptivas exploratorias
donde se presentan varios datos anmalos (outliers), por ejemplo Chicago.
Se obtienen los componentes principales a partir de la matriz de correlaciones para
emplear las mismas escalas en todas las variables.
Los primeros tres componentes tienen todos varianzas (autovalores) mayores que 1 y
entre los tres recogen el 85 % de la varianza de las variables originales.
El primer componente se le podra etiquetar como calidad de vida con valores negativos
altos en empresas y poblacin indicando un entorno relativamente pobre. El segundo
componente se puede etiquetar como tiempo hmedo, y tiene pesos altos en las variables
precipitaciones y das. El tercer componente se podra etiquetar como tipo de clima y est
relacionado con la temperatura y la cantidad de lluvia.
Aunque no se encontrasen etiquetas claras para los componentes, siempre es interesante calcular componentes principales para descubrir si los datos se encuentran en una
16
dimensin menor; de hecho, los tres primeros componentes producen un mapa de los datos
donde las distancias entre los puntos es bastante semejante a la observada en los mismos
respecto a las variables originales.
En la salida de R, se presentan las puntuaciones de las observaciones respecto a los
tres factores combinando estos de dos en dos. Se observa que la ciudad de Chicago es un
outlier y tambin, en menor medida, las ciudades de Phoenix y Philadelphia. Phoenix
aparece como la ciudad con ms calidad de vida, y Bualo parece la ms hmeda.
A continuacin nos planteamos la cuestin de la relacin o posible prediccin de los
niveles de SO2 respecto a las variables de tipo ambiental. Se pueden representar los
valores de concentracin de SO2 frente a cada uno de los tres componentes, aunque la
interpretacin puede ser subjetiva por la presencia de outliers. An as, parece que la
contaminacin est ms relacionada con la primera componente que con las otras dos.
Hacemos un anlisis de regresin de la variable SO2 sobre los tres factores: claramente
la cantidad de SO2 se explica mediante el primer componente de calidad de vida (relacionado con el entorno humano y el clima) que cuando empeora aumenta, a su vez, la
contaminacin.
17
Anlisis de Componentes Principales (con SPSS)

El objetivo del Anlisis de Componentes Principales es identificar a partir de un conjunto de p variables,
otro conjunto de k (k<p) variables no directamente observables, denominadas factores, tal que:
- k sea un nmero pequeo
- se pierda la menor cantidad posible de informacin
- la solucin obtenida sea interpretable.
Pasos en el Anlisis de Componentes Principales:
- Evaluacin de lo apropiado de realizar el anlisis.
- Extraccin de los factores.
- Clculo de las puntuaciones factoriales para cada caso.
18
19
Se obtienen las medias y desviaciones estndar de cada variable:

Estadsticos descriptivos
Media
Desviacin tpica N del anlisis
Temp
55,7634
7,22772
41
Emp
463,0976
563,47395
41
Pob
608,6098
579,11302
41
Viento
9,4439
1,42864
41
Precip
36,7690
11,77155
41
113,9024
26,50642
41
Dias
20
Se calcula la matriz de correlaciones con la significacin de cada componente:

Matriz de correlaciones(a)
Temp Emp
Correlacin
Temp
1,000 -,190 -,063
Emp
-,190 1,000
Pob
Viento
Precip
Dias
-,350
,386 -,430
,955
,238
-,032
,132
-,063
,955 1,000
,213
-,026
,042
-,350
,238
,213
1,000
-,013
,164
,386 -,032 -,026
-,013
1,000
,496
-,430
Temp
Sig. (Unilateral)
Pob Viento Precip Dias
,132
,042
,164
,496 1,000
,117
,349
,012
,006
,002
,000
,067
,420
,206
,091
,436
,397
,468
,153
Emp
,117
Pob
,349
,000
Viento
,012
,067
,091
Precip
,006
,420
,436
,468
Dias
,002
,206
,397
,153
,000
,000
a Determinante = ,014
Para que se pueda realizar el PCA, es necesario que las variables presenten factores comunes. Es decir,
que estn muy correlacionadas entre s. Los coeficientes de la matriz de correlaciones deben ser grandes
en valor absoluto.
Test de esfericidad de Barlett:
Para comprobar que las correlaciones entre las variables son distintas de cero de modo significativo, se
comprueba si el determinante de la matriz es distinto de uno, es decir, si la matriz de correlaciones es
distinta de la matriz identidad.
Si las variables estn correlacionadas hay muchos valores altos en valor absoluto fuera de la diagonal
principal de la matriz de correlaciones, adems, el determinante es menor que 1 (el mximo valor del
determinante es 1 si las variables estn incorrelacionadas).
El test de Barlett realiza el contraste:
H0: |R| = 1
H1: |R| 1
El determinante de la matriz da una idea de la correlacin generalizada entre todas las variables.
Se basa el test en la distribucin chi cuadrado donde valores altos llevan a rechazar H0, as, la prueba de
esfericidad de Bartlett contrasta si la matriz de correlaciones es una matriz identidad, que indicara que el
modelo factorial es inadecuado. Por otro lado, la medida de la adecuacin muestral de Kaiser-MeyerOlkin contrasta si las correlaciones parciales entre las variables son pequeas:
KMO y prueba de Bartlett
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
,365
Chi-cuadrado aproximado 159,231

Prueba de esfericidad de Bartlett Gl
Sig.
15
,000
La comunalidad asociada a la variable j-sima es la proporcin de variabilidad de dicha variable

explicada por los k factores considerados
21
Equivale a la suma de la fila j-sima de la matriz factorial. Sera igual a 0 si los factores comunes no
explicaran nada la variabilidad de una variable, y sera igual a 1 si quedase totalmente explicada.
Comunalidades
Inicial
Extraccin
Temp
1,000
,892
Emp
1,000
,968
Pob
1,000
,979
Viento
1,000
,424
Precip
1,000
,941
Dias
1,000
,888
Mtodo de extraccin: Anlisis de Componentes principales.
Varianza total explicada

Sumas de las saturaciones al cuadrado de la
extraccin
Autovalores iniciales
Componente
Total
% de la
varianza
%
acumulado
Total
% de la varianza
% acumulado
2,196
36,603
36,603
2,196
36,603
36,603
1,500
24,999
61,602
1,500
24,999
61,602
1,395
23,244
84,846
1,395
23,244
84,846
,760
12,670
97,516
,115
1,910
99,426
,034
,574
100,000
Grfico de la varianza asociada a cada factor. Se utiliza para determinar cuntos factores deben retenerse.
Tpicamente el grfico muestra la clara ruptura entre la pronunciada pendiente de los factores ms
importantes y el descenso gradual de los restantes (los sedimentos).
Otra opcin es usar el criterio de Kaiser: consiste en conservar aquellos factores cuyo autovalor asociado
sea mayor que 1.
22
Saturaciones factoriales:
Matriz de componentes(a)
Componente
1
Temp
-,489
-,156
,793
Emp
,906
-,206
,322
Pob
,856
-,272
,414
Viento
,524
,160
-,351
Precip
-,060
,763
,596
,353
,867
-,110
Dias
Mtodo de extraccin: Anlisis de componentes principales.

a 3 componentes extrados
Matriz de correlaciones estimada a partir de la solucin factorial. Tambin se muestran las correlaciones
residuales (la diferencia entre la correlacin observada y la reproducida).
23
Correlaciones reproducidas
Temp
Viento
Precip
Dias
-,155
-,048
-,560
,383
-,395
Emp
-,155
,968(b)
,965
,329
-,020
,106
Pob
-,048
,965
,979(b)
,260
-,013
,020
Viento
-,560
,329
,260
,424(b)
-,119
,362
Precip
,383
-,020
-,013
-,119
,941(b)
,574
-,395
,106
,020
,362
,574
,888(b)
-,035
-,015
,210
,003
-,035
-,010
-,091
-,013
,026
-,047
-,013
,022
,106
-,198
Dias
Temp
Residual(a)
Pob
,892(b)
Temp
Correlacin reproducida
Emp
Emp
-,035
Pob
-,015
-,010
Viento
,210
-,091
-,047
Precip
,003
-,013
-,013
,106
-,035
,026
,022
-,198
Dias
-,078
-,078

a Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 5 (33,0%) residuales no
redundantes con valores absolutos mayores que 0,05.
b Comunalidades reproducidas
Representacin tridimensional de las saturaciones factoriales para los tres primeros factores.
El clculo de las puntuaciones factoriales consiste en pasar de la matriz original con las variables x1, ..., xp
a la de los valores segn los k factores
24
Estas puntuaciones factoriales se pueden guardar y utilizar en anlisis posteriores como tcnicas de
regresin mltiple o en anlisis de cluster.
25
Regresin de la variable SO2 frente a los tres factores

Resumen del modelo
Modelo
1
R cuadrado
,647(a)
R cuadrado corregida
,418
Error tp. de la estimacin
,371
18,61510
a Variables predictoras: (Constante), REGR factor score 3 for analysis 1, REGR factor score 2 for analysis 1,
REGR factor score 1 for analysis 1
ANOVA(b)
Modelo
Suma de cuadrados
gl
Media cuadrtica
Regresin
9216,590
3072,197
Residual
12821,313
37
346,522
Total
22037,902
40
Sig.
8,866
,000(a)
a Variables predictoras: (Constante), REGR factor score 3 for analysis 1, REGR factor score 2 for analysis 1,
REGR factor score 1 for analysis 1
b Variable dependiente: SO2
Coeficientes(a)
Coeficientes no
estandarizados
Coeficientes
estandarizados
Modelo
B
Beta
Sig.
Error tp.
(Constante)
30,049
2,907
10,336 ,000
REGR factor score 1 for

analysis 1
14,917
2,943
,635
5,068 ,000

analysis 1
2,777
2,943
,118
,943 ,352

analysis 1
,448
2,943
,019
,152 ,880
a Variable dependiente: SO2
26
Anlisis con dos factores

Matriz de componentes(a)
Componente
1
Temp
-,489
-,156
Emp
,906
-,206
Pob
,856
-,272
Viento
,524
,160
Precip
-,060
,763
,353
,867
Dias
Mtodo de extraccin: Anlisis de componentes principales.

a 2 componentes extrados
Comunalidades
Extraccin
Temp
,263
Emp
,864
Pob
,807
Viento
,301
Precip
,586
Dias
,876

Componente
Sumas de las saturaciones al cuadrado de la extraccin

Total
% de la varianza
% acumulado
2,196
36,603
36,603
1,500
24,999
61,602
27
Temp
Viento
Precip
Dias
-,411
-,376
-,281
-,090
-,308
Emp
-,411
,864(b)
,832
,442
-,212
,141
Pob
-,376
,832
,807(b)
,405
-,260
,066
Viento
-,281
,442
,405
,301(b)
,090
,324
Precip
-,090
-,212
-,260
,090
,586(b)
,640
Dias
-,308
,141
,066
,324
,640
,876(b)
,221
,313
-,069
,476
-,123
,123
-,204
,179
-,009
-,193
,233
-,024
-,103
-,160
Temp
Residual(a)
Pob
,263(b)
Temp
Correlacin reproducida
Emp
Emp
,221
Pob
,313
,123
Viento
-,069
-,204
-,193
Precip
,476
,179
,233
-,103
-,123
-,009
-,024
-,160
Dias
-,144
-,144

a Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 13 (86,0%) residuales no
redundantes con valores absolutos mayores que 0,05.
28
Anlisis de Componentes Principales (con R)

# Leo los datos
aire.dat <- read.table("c:\\... \\datPCA.txt",header=T)
attach(aire.dat)
dimnames(aire.dat)[[1]] <- c("Phoenix", "Little Rock", "San Francisco",
"Denver", "Hartford", "Wilmington", "Washington", "Jacksonville", "Miami",
"Atlanta", "Chicago", "Indianapolis", "Des Moines", "Wichita", "Louisville",
"New Orleans", "Baltimore", "Detroit", "Minneapolis-St. Paul", "Kansas City",
"St. Louis", "Omaha", "Alburquerque", "Albany", "Buffalo", "Cincinnati",
"Cleveland", "Columbus", "Philadelphia", "Pittsburgh", "Providence",
"Memphis", "Nashville", "Dallas", "Houston", "Salt Lake City", "Norfolk",
"Richmond", "Seattle", "Charleston", "Milwaukee")
# Hago un anlisis descriptivo
summary(aire.dat)
SO2
Min.
: 8.00
1st Qu.: 13.00
Median : 26.00
Mean
: 30.05
3rd Qu.: 35.00
Max.
:110.00
Neg.Temp
Min.
:-75.50
1st Qu.:-59.30
Median :-54.60
Mean
:-55.76
3rd Qu.:-50.60
Max.
:-43.50
Viento
Min.
: 6.000
1st Qu.: 8.700
Median : 9.300
Mean
: 9.444
3rd Qu.:10.600
Max.
:12.700
Precip
Min.
: 7.05
1st Qu.:30.96
Median :38.74
Mean
:36.77
3rd Qu.:43.11
Max.
:59.80
Empresas
Min.
: 35.0
1st Qu.: 181.0
Median : 347.0
Mean
: 463.1
3rd Qu.: 462.0
Max.
:3344.0
Poblacion
Min.
: 71.0
1st Qu.: 299.0
Median : 515.0
Mean
: 608.6
3rd Qu.: 717.0
Max.
:3369.0
Dias
Min.
: 36.0
1st Qu.:103.0
Median :115.0
Mean
:113.9
3rd Qu.:128.0
Max.
:166.0
library(TeachingDemos)
faces(aire.dat)
29
faces2(aire.dat,nrows=7)
30
panel.hist <- function(x, ...)

{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="blue", ...)
}
pairs(aire.dat,diag.panel=panel.hist)
31
# Calculo la matriz de correlaciones

cor(aire.dat[,-1])
Temp
Emp
Pob
Viento
Precip
Dias
Temp
Emp
Pob
Viento
Precip
Dias
1.00000000 -0.19004216 -0.06267813 -0.34973963 0.38625342 -0.43024212
-0.19004216 1.00000000 0.95526935 0.23794683 -0.03241688 0.13182930
-0.06267813 0.95526935 1.00000000 0.21264375 -0.02611873 0.04208319
-0.34973963 0.23794683 0.21264375 1.00000000 -0.01299438 0.16410559
0.38625342 -0.03241688 -0.02611873 -0.01299438 1.00000000 0.49609671
-0.43024212 0.13182930 0.04208319 0.16410559 0.49609671 1.00000000
# Calculo los componentes principales basados en la matriz de correlaciones

aire.pc<-princomp(aire.dat[,-1],cor=TRUE)
summary(aire.pc,loadings=TRUE)
Importance of components:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Standard deviation
1.4819456 1.2247218 1.1809526 0.8719099 0.33848287
Proportion of Variance 0.3660271 0.2499906 0.2324415 0.1267045 0.01909511
Cumulative Proportion 0.3660271 0.6160177 0.8484592 0.9751637 0.99425879
Comp.6
Standard deviation
0.185599752
Proportion of Variance 0.005741211
Cumulative Proportion 1.000000000
Loadings:
Comp.1
Temp
0.330
Emp
-0.612
Pob
-0.578
Viento -0.354
Precip
Dias
-0.238
Comp.2 Comp.3 Comp.4 Comp.5 Comp.6

-0.128 0.672 -0.306 -0.558 -0.136
-0.168 0.273 0.137 0.102 -0.703
-0.222 0.350
0.695
0.131 -0.297 -0.869 -0.113
0.623 0.505 -0.171 0.568
0.708
0.311 -0.580
# Es lo mismo que calcular los autovalores y autovectores de S

S = cor(aire.dat[,-1])
eigen(S)
$values
[1] 2.19616264 1.49994343 1.39464912 0.76022689 0.11457065 0.03444727
$vectors
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
0.32964613 -0.1275974 0.67168611 -0.30645728 0.55805638 -0.13618780
-0.61154243 -0.1680577 0.27288633 0.13684076 -0.10204211 -0.70297051
-0.57782195 -0.2224533 0.35037413 0.07248126 0.07806551 0.69464131
-0.35383877 0.1307915 -0.29725334 -0.86942583 0.11326688 -0.02452501
0.04080701 0.6228578 0.50456294 -0.17114826 -0.56818342 0.06062222
-0.23791593 0.7077653 -0.09308852 0.31130693 0.58000387 -0.02196062
# Las puntuaciones se obtienen mediante la orden

aire.pc$scores[,1:3]
32
par(pty="s")
plot(aire.pc$scores[,1],aire.pc$scores[,2],
ylim=range(aire.pc$scores[,1]),
xlab="PC1",ylab="PC2",type="n",lwd=2)
text(aire.pc$scores[,1],aire.pc$scores[,2],
labels=abbreviate(row.names(aire.dat)),cex=0.7,lwd=2)
33
par(pty="s")
34
par(pty="s")
35
par(mfrow=c(1,3))
plot(aire.pc$scores[,1],SO2,xlab="PC1")
36
summary(lm(SO2~aire.pc$scores[,1]+aire.pc$scores[,2]+
aire.pc$scores[,3]))
Call:
lm(formula = SO2 ~ aire.pc$scores[, 1] + aire.pc$scores[, 2] +
aire.pc$scores[, 3])
Residuals:
Min
1Q
-36.420 -10.981
Median
-3.184
3Q
12.087
Max
61.273
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
30.049
2.907 10.336 1.85e-12 ***
aire.pc$scores[, 1]
-9.942
1.962 -5.068 1.14e-05 ***
aire.pc$scores[, 2]
2.240
2.374
0.943
0.352
aire.pc$scores[, 3]
0.375
2.462
0.152
0.880
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 18.62 on 37 degrees of freedom
Multiple R-Squared: 0.4182,
Adjusted R-squared: 0.371
F-statistic: 8.866 on 3 and 37 DF, p-value: 0.0001473
plot(aire.pc$scores[,1],SO2,xlab="PC1",ylab="SO2")
37
Anlisis de Componentes Principales (con SAS)
/* Analisis de Componentes Principales */

options ls=80 nodate nonumber;
title 'Analisis de Componentes Principales de datos de contaminacion';
data contamino;
infile 'c:\DondeTrabajo\...\datos.txt';
/* Hay 7 variables: */
input SO2 Temp Emp Pob Viento Precip Dias ;
run;
/* Paso un Analisis de Componentes Principales con todas las variables */
proc princomp data=contamino out=pcout;
var SO2 Temp Emp Pob Viento Precip Dias;
run;
proc rank data=pcout out=pcout descending;
var SO2;
ranks posn;
data labels;
set pcout;
retain xsys ysys '2';
y=prin1;
x=prin2;
text=put(posn,2.);
keep xsys ysys x y text;
proc gplot data=pcout;
plot prin1*prin2 / annotate=labels;
symbol v=none;
run;
goptions reset=symbol;
proc gplot data=pcout;
plot SO2*(prin1 prin2);
run;
proc corr data=pcout;
var SO2 prin1 prin2;
run;
38
The PRINCOMP Procedure

Observations
Variables
41
7
Simple Statistics
Mean
StD
SO2
Temp
Emp
Pob
30.04878049
23.47227217
55.76341463
7.22771596
463.0975610
563.4739482
608.6097561
579.1130234
Simple Statistics
Mean
StD
Viento
Precip
Dias
9.443902439
1.428644249
36.76902439
11.77154977
113.9024390
26.5064189
Correlation Matrix
SO2
Temp
Emp
Pob
Viento
Precip
Dias
SO2
Temp
Emp
Pob
Viento
Precip
Dias
1.0000
-.4336
0.6448
0.4938
0.0947
0.0543
0.3696
-.4336
1.0000
-.1900
-.0627
-.3497
0.3863
-.4302
0.6448
-.1900
1.0000
0.9553
0.2379
-.0324
0.1318
0.4938
-.0627
0.9553
1.0000
0.2126
-.0261
0.0421
0.0947
-.3497
0.2379
0.2126
1.0000
-.0130
0.1641
0.0543
0.3863
-.0324
-.0261
-.0130
1.0000
0.4961
0.3696
-.4302
0.1318
0.0421
0.1641
0.4961
1.0000
Eigenvalues of the Correlation Matrix
1
2
3
4
5
6
7
Eigenvalue
Difference
Proportion
Cumulative
2.72811968
1.51233485
1.39497299
0.89199129
0.34677866
0.10028759
0.02551493
1.21578483
0.11736187
0.50298170
0.54521262
0.24649107
0.07477267
0.3897
0.2160
0.1993
0.1274
0.0495
0.0143
0.0036
0.3897
0.6058
0.8051
0.9325
0.9820
0.9964
1.0000
39
Eigenvectors
SO2
Temp
Emp
Pob
Viento
Precip
Dias
Prin1
Prin2
Prin3
Prin4
Prin5
Prin6
Prin7
0.489699
-.315371
0.541169
0.487588
0.249875
0.000187
0.260179
0.084576
-.088638
-.225881
-.282004
0.055471
0.625879
0.677967
0.014350
0.677136
0.267159
0.344838
-.311265
0.492036
-.109579
-.404210
0.185228
0.026272
0.113404
0.861901
0.183937
-.109761
0.730394
0.162465
-.164101
-.349105
0.268255
0.160599
-.439970
0.183346
0.610661
-.042734
-.087863
0.150054
-.553574
0.504947
0.149529
-.023664
-.745181
0.649126
0.015765
-.010315
0.008217
The CORR Procedure

3
Variables:
SO2
Prin1
Prin2
Simple Statistics
Variable
SO2
Prin1
Prin2
Mean
Std Dev
Sum
Minimum
Maximum
41
41
41
30.04878
0
0
23.47227
1.65170
1.22977
1232
0
0
8.00000
-2.68265
-3.84369
110.00000
7.23097
1.54968
Pearson Correlation Coefficients, N = 41

Prob > |r| under H0: Rho=0
SO2
Prin1
Prin2
SO2
1.00000
0.80884
<.0001
0.10401
0.5175
Prin1
0.80884
<.0001
1.00000
0.00000
1.0000
Prin2
0.10401
0.5175
0.00000
1.0000
1.00000
40
41
42
Tema 4: Anlisis Factorial

En numerosas reas de Psicologa y de Ciencias del Comportamiento no es posible
medir directamente las variables que interesan; por ejemplo, los conceptos de inteligencia
y de clase social. En estos casos es necesario recoger medidas indirectas que estn relacionadas con los conceptos que interesan. Las variables que interesan reciben el nombre
de variables latentes y la metodologa que las relaciona con variables observadas recibe el
nombre de Anlisis Factorial.
El modelo de Anlisis Factorial es un modelo de regresin mltiple que relaciona
variables latentes con variables observadas.
El Anlisis Factorial tiene muchos puntos en comn con el anlisis de componentes
principales, y busca esencialmente nuevas variables o factores que expliquen los datos.
En el anlisis de componentes principales, en realidad, slo se hacen transformaciones
ortogonales de las variables originales, haciendo hincapi en la varianza de las nuevas
variables. En el anlisis factorial, por el contrario, interesa ms explicar la estructura de
las covarianzas entre las variables.
Al igual que en el mtodo de los componentes principales, para efectuar el anlisis factorial, es necesario que las variables originales no estn incorreladas porque si lo estuvieran
no habra nada que explicar de las variables.
Consideramos un conjunto de p variables observadas x= (x1 , x2 , . . . , xp ) que se asume
relacionadas con un nmero dado de variables latentes f1 , f2 , . . . , fk , donde k < p, medi-
ante una relacin del tipo

x1 = 11 f1 + + 1k fk + u1
..
.
xp = p1 f1 + + pk fk + up
o de modo ms conciso
x = f + u.
donde
11 1k
= ... . . . ... , f =
p1 pk
f1
.. , u =
.
fk
u1
.. .
.
up
Los ij son los pesos factoriales que muestran como cada xi depende de factores comunes
y se usan para interpretar los factores. Por ejemplo, valores altos relacionan un factor con
la correspondiente variable observada y as se puede caracterizar cada factor.
Se asume que los trminos residuales u1 , . . . , up estn incorrelados entre s y con los
factores f1 , . . . , fk . Cada variable ui es particular para cada xi y se denomina variable
especfica.
Dado que los factores no son observables, se puede fijar arbitrariamente su media en 0
y su varianza en 1, esto es, se consideran variables estandarizadas que estn incorreladas
entre s, de modo que los pesos factoriales resultan ser las correlaciones entre las variables
y los factores.
As, con las suposiciones previas, la varianza de la variable xi es
2i
k
X
2ij + i
j=1
donde i es la varianza de ui .
De este modo, la varianza de cada variable observada se puede descomponer en dos
partes. La primera h2i , denominada comunalidad, es
h2i
k
X
j=1
2ij
y representa la varianza compartida con las otras variables por medio de los factores
comunes. La segunda parte, i , se denomina varianza especfica y recoge la variabilidad
no compartida con las otras variables.
La definicin del modelo implica que la covarianza entre las variables xi y xj es
ij =
k
X
il lj .
l=1
Las covarianzas no dependen en absoluto de las variables especficas, de hecho, basta con
los factores comunes. De este modo, la matriz de covarianzas de las variables observadas
es
= 0 +
donde es una matriz diagonal cuyos componentes son las varianzas especficas: =
diag( i ).
Lo contrario tambin se verifica: dada la descomposicin de la varianza anterior, se
puede encontrar un modelo factorial para las variables originales, x, con k factores.
En la prctica se tienen que estimar los parmetros del modelo a partir de una muestra,
y
tales que la matriz de
de modo que el problema se centra en encontrar los valores
covarianzas muestral S es aproximadamente
0 +
S
Se tienen dos mtodos de estimacin de los trminos anteriores: el mtodo de los
factores principales y el mtodo de mxima verosimilitud.
Mtodo de los factores principales
Es una tcnica basada en autovalores y autovectores pero en lugar de operar sobre la
matriz de covarianzas se opera sobre la llamada matriz de covarianzas reducida,
S = S
es una matriz diagonal que contiene las estimas de i .
donde
3
Los elementos diagonales de S contiene las comunalidades estimadas (las partes de las
varianzas de cada variable explicada por los factores comunes). Al contrario que el anlisis
de componentes principales, el anlisis factorial no pretende recoger toda la varianza
observada de los datos, sino la que comparten los factores comunes. De hecho, el anlisis
factorial se centra ms en recoger las covarianzas o correlaciones que aparecen entre las
variables originales.
El procedimiento es iterativo: se parte de unas comunalidades estimadas a partir de las
correlaciones entre las variables observadas y luego se efectua un anlisis de componentes
principales sobre la matriz S .
Mtodo de la mxima verosimilitud
Este mtodo es el habitualmente preferido por los estadsticos. Asumiendo normalidad
en los datos se define una distancia F , entre la matriz de covarianzas observada y los
valores predichos de esta matriz por el modelo del anlisis factorial. La expresin de dicha
distancia es
1
0
ln |S| p
F = ln | + | + traza S | + |
0
Las estimaciones de los pesos factoriales se obtienen minimizando esta funcin, y esto
es equivalente a maximizar la funcin de verosimilitud del modelo k factorial asumiendo
normalidad.
Estimacin del nmero de factores

El hecho de tomar un nmero adecuado de factores k para representar las covarianzas
observadas es muy importante: entre una solucin con k con k + 1 factores se pueden
encontrar pesos factoriales muy diferentes, al contrario que en el mtodo de componentes
principales, donde los primeros k componentes son siempre iguales.
Una ventaja del mtodo de mxima verosimilitud es que lleva asociado un test estadstico para estimar el nmero de factores.
Rotacin de los factores

En el Anlisis Factorial no existe una solucin nica para determinar la matriz de
pesos, de hecho, se puede multiplicar por una matriz ortogonal M de orden k k de modo
que
x = f + u =
= (M)(M 0 f ) + u,
y este nuevo modelo verifica las mismas propiedades que el anterior: tiene como factores
f = M 0 f y como matriz de pesos M. En este caso, la matriz de covarianzas de las
variables originales es
= (M)(M)0 + ,
que como MM 0 = I, se reduce a que = 0 + como antes; de este modo se explica
de manera equivalente.la matriz de covarianzas de las variables originales.
Puede ser que la solucin sea ms interpretable mediante el uso de alguna matriz ortogonal, lo que lleva al concepto de rotacin de los factores. Segn Thurstone, la intencin
fundamental al realizar una rotacin es encontrar una estructura simple. Las propiedades
que debe cumplir son
Cada fila de la matriz factorial de pesos debe contener, al menos, un cero.
Cada columna de la matriz factorial de pesos debe contener, al menos, k ceros.
Cada par de columnas de la matriz factorial de pesos debe contener varias variables
cuyos pesos sean nulos en una columna pero no en la otra.
Si hay ms de cuatro factores cada par de columnas de la matriz factorial de pesos
debe contener un nmero elevado de variables con pesos nulos en ambas columnas.
De manera recproca, si hay ms de cuatro factores, en cada par de columnas de la
matriz factorial de pesos slo un nmero pequeo de variables debe contener pesos
no nulos.
5
Cuando se consigue una estructura simple, las variables observadas se encuentran en

grupos mutuamente excluyentes de modo que los pesos son altos en unos pocos factores
y bajos en el resto.
Tipos de rotaciones
Hay dos posible tipos de rotaciones: ortogonales y oblicuas.
La ventaja principal de las rotaciones ortogonales es su simplicidad, ya que los pesos
representan las correlaciones entre los factores y las variables, sin embargo esto no se
cumple en el caso de las rotaciones oblicuas. Entre las rotaciones ortogonales se encuentran
dos tipos principales:
Rotacin Varimax: Fue propuesta por Kaiser (1958), y trata de que los factores tengan
unas pocas saturaciones altas y muchas casi nulas en las variables. Esto hace que haya
factores con correlaciones altas con un nmero pequeo de variables y correlaciones nulas
en el resto, quedando as redistribuida la varianza de los factores.
Rotacin Cuartimax: Trata que una variable dada est muy correlacionada con un
factor y muy poco correlacionada con el resto de factores. Se usa menos frecuentemente
que la anterior.
Entre las rotaciones oblicuas, la ms empleada es:
Rotacin Oblimn: Trata de encontrar una estructura simple sin que importe el hecho
de que las rotaciones sean ortogonales, esto es, las saturaciones no representan ya la
correlaciones entre los factores y las variables. Se considera un parmetro que controla el
grado de correlacin entre los factores, con valores preferentemente entre 0,5 y 0,5.
En cualquier caso, el hecho de rotar los factores siempre es controvertido ya que se
pueden elegir los ejes que resulten de mayor conveniencia. Sin embargo, se puede considerar
que una rotacin es slo un medio para conseguir unos ejes que permitan describir los
puntos de la muestra de la manera ms simple posible.
6
Ejemplos
Ejemplo 1
Se considera una muestra de los aos de vida esperados por pas, edad y sexo procedentes de Keyfitz y Flieger (1971).
Algeria
Cameroon
Madagascar
Mauritius
Reunion
Seychelles
South Africa(C)
South Africa(W)
Tunisia
Canada
Costa Rica
Dominican Rep
El Salvador
Greenland
Grenada
Guatemala
Honduras
Jamaica
Mexico
Nicaragua
Panama
Trinidad(62)
Trinidad (67)
United States (66)
United States (NW66)
United States (W66)
United States (67)
Argentina
Chile
Columbia
Ecuador
m0
63.00
34.00
38.00
59.00
56.00
62.00
50.00
65.00
56.00
69.00
65.00
64.00
56.00
60.00
61.00
49.00
59.00
63.00
59.00
65.00
65.00
64.00
64.00
67.00
61.00
68.00
67.00
65.00
59.00
58.00
57.00
m25
51.00
29.00
30.00
42.00
38.00
44.00
39.00
44.00
46.00
47.00
48.00
50.00
44.00
44.00
45.00
40.00
42.00
44.00
44.00
48.00
48.00
63.00
43.00
45.00
40.00
46.00
45.00
46.00
43.00
44.00
46.00
m50
30.00
13.00
17.00
20.00
18.00
24.00
20.00
22.00
24.00
24.00
26.00
28.00
25.00
22.00
22.00
22.00
22.00
23.00
24.00
28.00
26.00
21.00
21.00
23.00
21.00
23.00
23.00
24.00
23.00
24.00
28.00
m75
13.00
5.00
7.00
6.00
7.00
7.00
7.00
7.00
11.00
8.00
9.00
11.00
10.00
6.00
8.00
9.00
6.00
8.00
8.00
14.00
9.00
7.00
6.00
8.00
10.00
8.00
8.00
9.00
10.00
9.00
9.00
w0
67.00
38.00
38.00
64.00
62.00
69.00
55.00
72.00
63.00
75.00
68.00
66.00
61.00
65.00
65.00
51.00
61.00
67.00
63.00
68.00
67.00
68.00
68.00
74.00
67.00
75.00
74.00
71.00
66.00
62.00
60.00
w25
54.00
32.00
34.00
46.00
46.00
50.00
43.00
50.00
54.00
53.00
50.00
51.00
48.00
45.00
49.00
41.00
43.00
48.00
46.00
51.00
49.00
47.00
47.00
51.00
46.00
52.00
51.00
51.00
49.00
47.00
49.00
w50
34.00
17.00
20.00
25.00
25.00
28.00
23.00
27.00
33.00
29.00
27.00
29.00
27.00
25.00
27.00
23.00
22.00
26.00
25.00
29.00
27.00
25.00
24.00
28.00
25.00
29.00
28.00
28.00
27.00
25.00
28.00
w75
15.00
6.00
7.00
8.00
10.00
14.00
8.00
9.00
19.00
10.00
10.00
11.00
12.00
9.00
10.00
8.00
7.00
9.00
8.00
13.00
10.00
9.00
8.00
10.00
11.00
10.00
10.00
10.00
12.00
10.00
11.00
Se usa un anlisis factorial por mxima verosimilitud. Primero se prueban tres soluciones con 1, 2 o 3 factores, observndose que la solucin con tres factores es la adecuada,
al observar el test con la hiptesis nula de que con tres factores es suficiente.
Se obtiene la solucin rotada (varimax por defecto) y se observa:
(i ) primer factor: est muy relacionado con la esperanza de vida en el nacimiento para
mujeres y hombres;
7
(ii) segundo factor: refleja la esperanza de vida para edades ms avanzadas;

(iii) tercer factor: tiene los pesos factoriales ms altos en las esperanzas de vida de
hombres entre 50 y 75 aos.
En el primer eje se observa que en un extremo se sitan Camern y Madagascar frente
al otro extremo donde est USA.
En el tercer eje se sita en el valor ms alto Argelia (que tiene alta esperanza de vida
para hombres de edad avanzada) frente a Camern.
Ejemplo 2
En el siguiente ejemplo, se estudia una muestra de consumo de drogas entre 1634
estudiantes de Los Angeles. Se consideraron 13 tipos de sustancias y, as, 13 variables con
5 niveles de respuesta (desde consumo nulo hasta consumo habitual). Se obtiene la matriz
de correlaciones.
Se obtiene que el nmero ms razonable de factores es de 6. El primero recoge drogas
socialmente aceptadas y blandas, el segundo factor se refiere a drogas duras, el tercer
factor es simplemente anfetaminas y el cuarto, hachs. Los dos ltimos factores resultan
difciles de interpretar.
Aunque el nmero de factores matemticamente ms coherente es 6, se puede considerar una solucin con 3 4 factores slo dado que los residuos, obtenidos al restar la
matriz de correlaciones original y la reproducida, son pequeos.
ANALISIS FACTORIAL (con SPSS)
Estadsticos descriptivos
Media Desviacin tpica N del anlisis
59,613
7,9191
31
m25 44,129
5,9033
31
m50 22,935
3,4052
31
8,387
2,0278
31
64,194
8,8220
31
w25 47,516
4,9858
31
w50 26,290
3,3386
31
w75 10,129
2,5787
31
m0
m75
w0
10
Matriz de correlaciones(a)
m0
m25
m50
m75
w0
w25
w50
w75
1,000
,748
,636
,290
,980
,874
,697
,318
m25
,748 1,000
,667
,391
,693
,725
,647
,393
m50
,636
,667 1,000
,752
,557
,772
,802
,593
m75
,290
,391
,752 1,000
,247
,547
,687
,710
w0
,980
,693
,557
,247 1,000
,887
,710
,365
w25
,874
,725
,772
,547
,887 1,000
,940
,684
w50
,697
,647
,802
,687
,710
,940 1,000
,828
w75
,318
,393
,593
,710
,365
,684
,828 1,000
,000
,000
,057
,000
,000
,000
,041
,000
,015
,000
,000
,000
,014
,000
,001
,000
,000
,000
,090
,001
,000
,000
,000
,000
,022
,000
,000
m0
Correlacin
m0
Sig. (Unilateral)
m25
,000
m50
,000
,000
m75
,057
,015
,000
w0
,000
,000
,001
,090
w25
,000
,000
,000
,001
,000
w50
,000
,000
,000
,000
,000
,000
w75
,041
,014
,000
,000
,022
,000
,000
,000
a Determinante = 7,91E-007
KMO y prueba de Bartlett
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
,794
Chi-cuadrado aproximado 372,323

Prueba de esfericidad de Bartlett gl
28
,000
Sig.
Comunalidades(a)
Mtodo de extraccin: Mxima verosimilitud.
Matriz factorial(a)
a 3 factores extrados. Requeridas 7 iteraciones.
Prueba de la bondad de ajuste
Chi-cuadrado
6,275
gl
7
Sig.
,508
11
m0
m75
w0
w25
w50
w75
,748
,636
,290
,980
,874
,696
,318
m25
,748
,649(b)
,684
,431
,697
,723
,647
,369
M50
,636
,684
,905(b)
,725
,557
,769
,807
,600
M75
,290
,431
,725
,707(b)
,244
,556
,690
,653
W0
,980
,697
,557
,244
,996(b)
,887
,711
,363
W25
,874
,723
,769
,556
,887
,989(b)
,939
,688
W50
,696
,647
,807
,690
,711
,939 ,980(b)
,827
W75
,318
,369
,600
,653
,363
,688
,001
,000 -7,91E-5
1,04E-5
-7,65E-5
,000
,000
-,040
-,004
,002
,000
,024
,027
,000
,003
-,004
-,006
,003
-,009
-,003
,058
,000
-,001
,002
,001
-,004
M0
Residual(a)
m50
,999(b)
m0
Correlacin
reproducida
m25
m25
,001
-,017
m50
,000
-,017
m75
-7,91E-5
-,040
,027
w0
1,04E-5
-,004
,000
,003
w25
-7,65E-5
,002
,003
-,009
,000
w50
,000
,000
-,004
-,003
-,001
,001
w75
,000
,024
-,006
,058
,002
-,004
,827 ,852(b)
,001
,001

a Los residuos se calculan entre las correlaciones observadas y reproducidas.
Hay 1 (3,0%) residuales no redundantes con valores absolutos mayores que 0,05.
12
Matriz de factores rotados(a)

Factor
1
m0
,964
,120
,233
m25
,645
,168
,453
m50
,428
,376
,762
m75
,078
,537
,642
w0
,970
,220
,078
w25
,763
,561
,303
w50
,535
,732
,397
w75
,156
,869
,271

Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a La rotacin ha convergido en 6 iteraciones.
Factor
Suma de las saturaciones al cuadrado de la rotacin

Total
% de la varianza
% acumulado
3,369
42,107
42,107
2,127
26,589
68,696
1,580
19,751
88,447

Matriz de transformacin de los factores
Factor
,956
,187
,225
-,258
,902
,347
-,138
-,390
,910

Mtodo de rotacin: Normalizacin Varimax con Kaiser.
13
Anlisis Factorial (con R)

# Leo los datos
vida <- read.table("c:\\...\\datFA.txt",header=T)
# dimnames(vida)[[1]] <- c("Algeria", "Cameroon", "Madagascar", "Mauritius",
"Reunion", "Seychelles", "South Africa(C)", "South Africa(W)", "Tunisia",
"Canada", "Costa Rica", "Dominican Rep", "El Salvador", "Greenland",
"Grenada", "Guatemala", "Honduras", "Jamaica", "Mexico", "Nicaragua",
"Panama", "Trinidad(62)", "Trinidad (67)", "United States (66)", "United
States (NW66)", "United States (W66)", "United States (67)", "Argentina",
"Chile", "Columbia", "Ecuador")
vida
Algeria
Cameroon
Madagascar
Mauritius
Reunion
Seychelles
South Africa(C)
South Africa(W)
Tunisia
Canada
Costa Rica
Dominican Rep
El Salvador
Greenland
Grenada
Guatemala
Honduras
Jamaica
Mexico
Nicaragua
Panama
Trinidad(62)
Trinidad (67)
United States (66)
United States (W66)
United States (67)
Argentina
Chile
Columbia
Ecuador
m0 m25 m50 m75 w0 w25 w50 w75

63 51 30 13 67 54 34 15
34 29 13
5 38 32 17
6
38 30 17
7 38 34 20
7
59 42 20
6 64 46 25
8
56 38 18
7 62 46 25 10
62 44 24
7 69 50 28 14
50 39 20
7 55 43 23
8
65 44 22
7 72 50 27
9
56 46 24 11 63 54 33 19
69 47 24
8 75 53 29 10
65 48 26
9 68 50 27 10
64 50 28 11 66 51 29 11
56 44 25 10 61 48 27 12
60 44 22
6 65 45 25
9
61 45 22
8 65 49 27 10
49 40 22
9 51 41 23
8
59 42 22
6 61 43 22
7
63 44 23
8 67 48 26
9
59 44 24
8 63 46 25
8
65 48 28 14 68 51 29 13
65 48 26
9 67 49 27 10
64 63 21
7 68 47 25
9
64 43 21
6 68 47 24
8
67 45 23
8 74 51 28 10
61 40 21 10 67 46 25 11
68 46 23
8 75 52 29 10
67 45 23
8 74 51 28 10
65 46 24
9 71 51 28 10
59 43 23 10 66 49 27 12
58 44 24
9 62 47 25 10
57 46 28
9 60 49 28 11
# Se prueba una solucin factorial con 1 factor

vida.fa1 <- factanal(vida, factors=1, method="mle")
vida.fa1
Call:
factanal(x = vida, factors = 1, method = "mle")
Uniquenesses:
m0
m25
m50
m75
w0
w25
w50
w75
0.238 0.470 0.399 0.696 0.217 0.005 0.117 0.532
Loadings:
Factor1
m0 0.873
m25 0.728
m50 0.776
m75 0.552
w0 0.885
w25 0.998
w50 0.940
w75 0.684
14
SS loadings
Proportion Var
Factor1
5.329
0.666
Test of the hypothesis that 1 factor is sufficient.

The chi square statistic is 163.11 on 20 degrees of freedom.
The p-value is 1.88e-24
# Se prueba una solucin factorial con 2 factores

vida.fa2
Call:
Uniquenesses:
m0
m25
m50
m75
w0
w25
w50
w75
0.024 0.442 0.346 0.408 0.015 0.011 0.015 0.178
Loadings:
Factor1
m0 0.972
m25 0.670
m50 0.480
m75 0.122
w0 0.973
w25 0.790
w50 0.567
w75 0.185
Factor2
0.179
0.329
0.651
0.760
0.194
0.603
0.815
0.888
SS loadings
Proportion Var
Cumulative Var
Factor1 Factor2
3.567
2.994
0.446
0.374
0.446
0.820
Test of the hypothesis that 2 factors are sufficient.

The p-value is 1.91e-05
# Se prueba una solucin factorial con 3 factores

vida.fa3
Call:
Uniquenesses:
m0
m25
m50
m75
w0
w25
w50
w75
0.005 0.362 0.066 0.288 0.005 0.011 0.020 0.146
Loadings:
Factor1
m0 0.964
m25 0.646
m50 0.430
m75
w0 0.970
w25 0.764
w50 0.536
w75 0.156
Factor2
0.122
0.169
0.354
0.525
0.217
0.556
0.729
0.867
SS loadings
Proportion Var
Cumulative Var
Factor3
0.226
0.438
0.790
0.656
0.310
0.401
0.280
Factor1 Factor2 Factor3

3.375
2.082
1.640
0.422
0.260
0.205
0.422
0.682
0.887
Test of the hypothesis that 3 factors are sufficient.

The p-value is 0.458
15
# La solucin con tres factores resulta la ms apropiada

# Obtengo los pesos factoriales
scores <- factanal(vida, factors=3, method="mle", scores="regression")$scores

scores
Algeria
Cameroon
Madagascar
Mauritius
Reunion
Seychelles
South Africa(C)
South Africa(W)
Tunisia
Canada
Costa Rica
Dominican Rep
El Salvador
Greenland
Grenada
Guatemala
Honduras
Jamaica
Mexico
Nicaragua
Panama
Trinidad(62)
Trinidad (67)
United States (66)
United States (W66)
United States (67)
Argentina
Chile
Columbia
Ecuador
Factor1
-0.258062561
-2.782495791
-2.806428187
0.141004934
-0.196352142
0.367371307
-1.028567629
0.946193522
-0.862493550
1.245304248
0.508736247
0.106044085
-0.608155779
0.235114220
0.132008172
-1.450336359
0.043253249
0.462124701
-0.052332675
0.268974443
0.442333434
0.711367053
0.787286051
1.128331259
0.400058903
1.214345385
1.128331259
0.731344988
0.009751528
-0.240602517
-0.723451797
Factor2
1.90095771
-0.72340014
-0.81158820
-0.29028454
0.47429917
0.82902375
-0.08065792
0.06400408
3.59177195
0.29564122
-0.50500435
0.01111171
0.65100820
-0.69123901
0.25241049
-0.67765804
-1.85175707
-0.51918493
-0.72020002
0.08407227
-0.73778272
-0.95989475
-1.10729029
0.16389896
-0.36230253
0.40877239
0.16389896
0.24811968
0.75222637
-0.29543613
0.44246371
Factor3
1.91581631
-1.84772224
-0.01210318
-0.85862443
-1.55046466
-0.55214085
-0.65421971
-0.91995289
-0.36442148
-0.27342781
1.01328707
1.83871599
0.48836431
-0.38558654
-0.15220645
0.65911906
0.30633182
0.08032855
0.44417800
1.70568388
1.25218728
-0.21545329
-0.51958264
-0.68177046
-0.74299137
-0.69225320
-0.68177046
-0.12817725
-0.49198911
0.42919600
1.59164974
library(scatterplot3d)
scatterplot3d(scores, angle=35, col.grid="lightblue", main="Grafica de las
puntuaciones", pch=20)
pairs(scores)
16
par(pty="s")
plot(scores[,1],scores[,2],
ylim=range(scores[,1]),
xlab="Factor 1",ylab="Factor 2",type="n",lwd=2)
text(scores[,1],scores[,2],
labels=abbreviate(row.names(life),minlength=8),cex=0.6,lwd=2)
par(pty="s")
par(pty="s")
17
18
19
# Leo la matriz de correlacin de los datos

drogasusas.cor <- read.table("c:\\...\\drogasFA.txt")
dimnames(drogasusas.cor)[[1]] <- c("cigarettes", "beer", "wine", "liquor",
"cocaine", "tranquillizers", "drug store medication", "heroin", "marijuana",
"hashish", inhalants", "haluucinogenics", "amphetamine")
dimnames(drogasusas.cor)[[2]] <- dimnames(drogasusas.cor)[[1]]
drogasusas.cor
hashish
cigarettes
beer
wine
liquor
cocaine
tranquillizers
medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
cigar beer
wine
1.000
0.447
0.422
0.435
0.114
0.203
0.091
0.082
0.513
0.304
0.245
0.101
0.245
0.422
0.619
1.000
0.583
0.053
0.139
0.110
0.066
0.365
0.240
0.183
0.074
0.184
cigarettes
beer
wine
liquor
cocaine
tranquillizers
medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
0.447
1.000
0.619
0.604
0.068
0.146
0.103
0.063
0.445
0.318
0.203
0.088
0.199
inhal
0.245
0.203
0.183
0.255
0.272
0.323
0.310
0.288
0.301
0.302
1.000
0.304
0.392
liquor
0.435
0.604
0.583
1.000
0.115
0.258
0.122
0.097
0.482
0.368
0.255
0.139
0.293
coca
tranq
medin
heroin marija
0.114
0.068
0.053
0.115
1.000
0.349
0.209
0.321
0.186
0.303
0.272
0.279
0.278
0.203
0.146
0.139
0.258
0.349
1.000
0.221
0.355
0.315
0.377
0.323
0.367
0.545
0.091
0.103
0.110
0.122
0.209
0.221
1.000
0.201
0.150
0.163
0.310
0.232
0.232
0.082
0.063
0.066
0.097
0.321
0.355
0.201
1.000
0.154
0.219
0.288
0.320
0.314
haluuci
0.101
0.088
0.074
0.139
0.279
0.367
0.232
0.320
0.204
0.368
0.340
1.000
0.511
0.513
0.445
0.365
0.482
0.186
0.315
0.150
0.154
1.000
0.534
0.301
0.204
0.394
0.304
0.318
0.240
0.368
0.303
0.377
0.163
0.219
0.534
1.000
0.302
0.368
0.467
ampheta
0.245
0.199
0.184
0.293
0.278
0.545
0.232
0.314
0.394
0.467
0.392
0.511
1.000
# Se analiza a partir de la matriz de correlaciones de 1 a 6 factores como

solucin
drogasusas.fa <- vector("list",6)
for(i in 1:6) {
drogasusas.fa[[i]] <- factanal(covmat=drogasusas.cor, factors=i, method="mle")
}
# Se considera la solucin con 6 factores como la adecuada
drogasusas.fa[[6]]
Call:
factanal(factors = i, covmat = drogasusas.cor, method = "mle")
Uniquenesses:
cigarettes
0.562
liquor
0.411
drug store medication
0.748
hashish
0.010
amphetamine
0.005
beer
0.368
cocaine
0.681
heroin
0.664
inhalants
0.595
wine
0.374
tranquillizers
0.525
marijuana
0.322
haluucinogenics
0.633
Loadings:
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
Factor1 Factor2 Factor3 Factor4 Factor5 Factor6

0.494
0.411
0.775
0.113
0.785
0.721
0.123
0.105
0.115
0.162
0.519
0.132
0.159
0.131
0.563
0.321
0.103
0.144
0.248
0.424
0.540
0.101
0.179
0.428
0.160
0.154
0.260
0.606
0.103
0.244
0.281
0.190
0.877
0.195
0.171
0.324
0.165
0.149
0.465
20
haluucinogenics
amphetamine
SS loadings
Proportion Var
Cumulative Var
0.151
0.401
0.341
0.344
0.888
0.186
0.141
0.139
0.231
0.166
Factor1 Factor2 Factor3 Factor4 Factor5 Factor6

2.301
1.448
1.133
0.956
0.680
0.584
0.177
0.111
0.087
0.074
0.052
0.045
0.177
0.288
0.376
0.449
0.501
0.546
The degrees of freedom for the model is 15 and the fit was 0.0148
# Se calcula la diferencia entre las correlaciones observadas y predichas

# con 6 factores
pred <- drogasusas.fa[[6]]$loadings%*%t(drogasusas.fa[[6]]$loadings) +
diag(drogasusas.fa[[6]]$uniquenesses)
round(drogasusas.cor-pred, digits=3)
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
cigarettes
0.000
-0.001
0.015
-0.018
0.010
0.000
-0.020
-0.005
0.002
0.000
0.013
-0.003
0.000
beer
-0.001
0.000
-0.002
0.004
0.004
-0.011
-0.001
0.007
0.002
0.000
-0.004
0.006
0.000
wine
0.015
-0.002
0.000
-0.001
-0.001
-0.005
0.007
0.008
-0.004
0.000
-0.008
-0.001
0.000
liquor cocaine tranquillizers

-0.018
0.010
0.000
0.004
0.004
-0.011
-0.001 -0.001
-0.005
0.000 -0.007
0.020
-0.007
0.000
0.003
0.020
0.003
0.000
-0.002
0.003
0.011
-0.018
0.002
-0.004
0.003 -0.004
-0.003
0.000
0.000
0.000
0.012 -0.002
-0.002
-0.005 -0.007
-0.010
0.000
0.000
0.000
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine

-0.020
-0.001
0.007
-0.002
0.003
0.011
0.000
-0.019
0.007
0.000
0.004
0.005
0.000
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
haluucinogenics amphetamine
-0.003
0
0.006
0
-0.001
0
-0.005
0
-0.007
0
-0.010
0
0.005
0
0.022
0
0.003
0
0.000
0
0.027
0
0.000
0
0.000
0
heroin marijuana hashish inhalants

-0.005
0.002
0
0.013
0.007
0.002
0
-0.004
0.008
-0.004
0
-0.008
-0.018
0.003
0
0.012
0.002
-0.004
0
-0.002
-0.004
-0.003
0
-0.002
-0.019
0.007
0
0.004
0.000
0.006
0
0.004
0.006
0.000
0
-0.008
0.000
0.000
0
0.000
0.004
-0.008
0
0.000
0.022
0.003
0
-0.009
0.000
0.000
0
0.000
21

# con 3 factores
pred <- drogasusas.fa[[3]]$loadings%*%t(drogasusas.fa[[3]]$loadings)+
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
cigarettes
0.000
-0.001
0.009
-0.013
0.011
0.010
-0.011
-0.004
0.002
-0.026
0.039
-0.016
0.002
beer
-0.001
0.000
-0.001
0.002
0.002
-0.014
0.000
0.005
-0.001
0.019
-0.003
0.010
-0.007
wine
0.009
-0.001
0.000
0.000
-0.002
-0.004
0.012
0.013
0.001
-0.017
-0.007
0.004
0.002

-0.013
0.011
0.010
0.002
0.002
-0.014
0.000 -0.002
-0.004
0.000 -0.008
0.023
-0.008
0.000
0.029
0.023
0.029
0.000
-0.018
0.038
-0.022
-0.020
0.081
0.024
-0.001 -0.002
-0.001
0.013
0.040
-0.017
-0.002
0.028
-0.032
-0.015 -0.026
-0.056
0.005 -0.077
0.040
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine

-0.011
0.000
0.012
-0.018
0.038
-0.022
0.000
0.021
0.006
-0.040
0.117
0.003
-0.038
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
-0.016
0.002
0.010
-0.007
0.004
0.002
-0.015
0.005
-0.026
-0.077
-0.056
0.040
0.003
-0.038
-0.002
-0.050
-0.003
-0.002
0.037
0.009
0.019
-0.009
0.000
0.045
0.045
0.000

-0.004
0.002 -0.026
0.039
0.005
-0.001
0.019
-0.003
0.013
0.001 -0.017
-0.007
-0.020
-0.001
0.013
-0.002
0.081
-0.002
0.040
0.028
0.024
-0.001 -0.017
-0.032
0.021
0.006 -0.040
0.117
0.000
0.006 -0.035
0.037
0.006
0.000
0.001
0.002
-0.035
0.001
0.000
-0.031
0.037
0.002 -0.031
0.000
-0.002
-0.003
0.037
-0.017
-0.050
-0.002
0.009
-0.009
22

# con 4 factores
pred <- drogasusas.fa[[4]]$loadings%*%t(drogasusas.fa[[4]]$loadings)+
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
cigarettes
0.000
-0.001
0.009
-0.012
0.010
0.008
-0.014
-0.007
0.001
-0.023
0.037
-0.019
0.000
beer
-0.001
0.000
-0.001
0.001
0.001
-0.016
-0.002
0.003
-0.001
0.018
-0.005
0.007
0.000
wine
0.009
-0.001
0.000
0.000
-0.001
-0.005
0.012
0.014
0.001
-0.020
-0.008
0.002
0.000

-0.012
0.010
0.008
0.001
0.001
-0.016
0.000 -0.001
-0.005
0.000 -0.005
0.029
-0.005
0.000
0.019
0.029
0.019
0.000
-0.015 -0.015
-0.021
-0.016
0.003
0.023
-0.001 -0.003
-0.001
0.018
0.032
0.000
0.001 -0.016
-0.027
-0.009 -0.023
-0.023
0.000
0.000
0.000
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine

-0.014
-0.002
0.012
-0.015
-0.015
-0.021
0.000
-0.018
0.004
-0.042
0.096
0.013
0.000
cigarettes
beer
wine
liquor
cocaine
tranquillizers
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
-0.019
0
0.007
0
0.002
0
-0.009
0
-0.023
0
-0.023
0
0.013
0
0.010
0
-0.002
0
0.059
0
0.032
0
0.000
0
0.000
0

-0.007
0.001 -0.023
0.037
0.003
-0.001
0.018
-0.005
0.014
0.001 -0.020
-0.008
-0.016
-0.001
0.018
0.001
0.003
-0.003
0.032
-0.016
0.023
-0.001
0.000
-0.027
-0.018
0.004 -0.042
0.096
0.000
0.003 -0.038
0.005
0.003
0.000
0.000
0.000
-0.038
0.000
0.000
-0.028
0.005
0.000 -0.028
0.000
0.010
-0.002
0.059
-0.004
0.000
0.000
0.000
0.000
23
ANALISIS FACTORIAL (con SAS)

/* Analisis Factorial */
title 'Analisis Factorial de datos de mortalidad';
data muerte;
infile 'c:\...\datFAsas.txt';
input m0 m25 m50 m75 w0 w25 w50 w75;
run;
proc factor data=muerte nfactors=3 rotate=varimax;
run;
Analisis Factorial de datos de mortalidad

The FACTOR Procedure
Initial Factor Method: Principal Components
Prior Communality Estimates: ONE
Eigenvalues of the Correlation Matrix: Total = 8
1
2
3
4
5
6
7
8
Average = 1
Eigenvalue
Difference
Proportion
Cumulative
5.60241029
1.35818155
0.49932700
0.30812590
0.15468962
0.05863378
0.01282163
0.00581023
4.24422874
0.85885454
0.19120110
0.15343627
0.09605584
0.04581216
0.00701139
0.7003
0.1698
0.0624
0.0385
0.0193
0.0073
0.0016
0.0007
0.7003
0.8701
0.9325
0.9710
0.9903
0.9977
0.9993
1.0000
3 factors will be retained by the NFACTOR criterion.
Factor Pattern
m0
m25
m50
m75
w0
w25
w50
w75
Factor1
Factor2
Factor3
0.84572
0.79338
0.86398
0.67493
0.83139
0.97181
0.94762
0.72258
-0.50388
-0.26526
0.20688
0.63213
-0.50529
-0.11019
0.17659
0.54119
-0.00222
0.35122
0.33902
0.22620
-0.16243
-0.16718
-0.18122
-0.35028
24
Variance Explained by Each Factor

Factor1
Factor2
Factor3
5.6024103
1.3581815
0.4993270
Final Communality Estimates: Total = 7.459919

m0
0.96913658
m25
0.82316394
m50
0.90419710
m75
0.90628012
w0
0.97292213
w25
0.98450040
w50
0.96201103
w75
0.93770753
Orthogonal Transformation Matrix
1
2
3
1
0.71166
-0.69599
-0.09562
2
0.53803
0.62747
-0.56286
3
0.45174
0.34912
0.82100
Rotated Factor Pattern
m0
m25
m50
m75
w0
w25
w50
w75
Factor1
Factor2
Factor3
0.95277
0.71565
0.43846
0.01873
0.95888
0.78427
0.56880
0.17106
0.14010
0.06273
0.40383
0.63245
0.22168
0.54781
0.72265
0.92551
0.20431
0.55414
0.74086
0.71129
0.06581
0.26329
0.34095
0.22778
Variance Explained by Each Factor

Factor1
3.4998442
Factor2
2.3146695
Factor3
1.6454052
Final Communality Estimates: Total = 7.459919

m0
0.96913658
m25
0.82316394
m50
0.90419710
m75
0.90628012
w0
0.97292213
w25
0.98450040
w50
0.96201103
w75
0.93770753
25
Tema 5: Anlisis de Cluster y

Multidimensional Scaling
Introduccin
El anlisis de cluster es una tcnica cuya idea bsica es agrupar un conjunto de observaciones en un nmero dado de clusters o grupos. Este agrupamiento se basa en la idea
de distancia o similitud entre las observaciones.
La obtencin de dichos clusters depende del criterio o distancia considerados. Por ejemplo, una baraja de cartas espaolas se podra dividir de distintos modos: en cuatro clusters
(los cuatro palos), en ocho clusters (los cuatro palos y segn sean figuras o nmeros), en
dos clusters (figuras y nmeros). Es decir, todo depende de lo que consideremos como
similar.
El nmero posible de combinaciones de grupos y de elementos que integran los posibles
grupos se hace intratable desde el punto de vista computacional, an con un nmero escaso
de observaciones.
Se hace necesario, pues, encontrar mtodos o algoritmos que infieran el nmero y
componentes de los clusters ms aceptable, aunque no sea el ptimo absoluto.
Previamente es necesario considerar el concepto de medida de similitud.
Medidas de similitud
En realidad, es bastante subjetivo el hecho de elegir una medida de similitud ya que
depende de las escalas de medida. Se pueden agrupar observaciones segn la similitud
expresada en trminos de una distancia. Si se agrupan variables, es habitual utilizar

como medida de similitud los coeficientes de correlacin en valor absoluto. Para variables
categricas existen tambin criterios basados en la posesin o no de los atributos (tablas
de presencia-ausencia).
Dados dos vectores xi , xj pertenecientes a Rk , diremos que hemos establecido una
distancia entre ellos si definimos una funcin d con las propiedades siguientes:
1. d : Rk Rk R+ , es decir d(xi , xj ) 0;
2. d(xi , xi ) = 0 i, la distancia entre un elemento y s mismo es cero.
3. d(xi , xj ) = d(xj , xi ), la distancia es simtrica
4. d(xi , xj ) d(xi , xp ) + d(xp , xj ), la distancia verifica la propiedad triangular.
Estas propiedades generalizan la nocin intuitiva de distancia eucldea entre dos puntos.
Ejemplos de distancias entre objetos

Distancia eucldea
Dados dos objetos I1 y I2 medidos segn dos variables x1 y x2 , la distancia eucldea
entre ambos es:
dI1 I2 =
p
(x11 x21 )2 + (x12 x22 )2 .
Con ms dimensiones (o variables que se miden) es equivalente a:

v
u p
uX
dI1 I2 = t (x1k x2k )2
k=1
En notacin vectorial se expresa como
d2Ii Ij = (xi xj )0 (xi xj ).

Si se consideran n objetos para i, j {1, . . . , n}, la distancia total es
p
!1/2
n
n X
X
X
d=
(xik xjk )2
.
i=1 j=1
k=1
Distancia de Minkowski
dIi Ij =
"
X
k
donde m N.
|xik xjk |m
#1/m
Si m = 1, se tiene la distancia en valor absoluto y si m = 2, la eucldea.

Distancia de Mahalanobis
Se define como
d2Ii Ij = (xi xj )0 W 1 (xi xj )
donde W es la matriz de covarianzas entre las variables. De este modo, las variables se
ponderan segn el grado de relacin que exista entre ellas, es decir, si estn ms o menos
correlacionadas. Si la correlacin es nula y las variables estn estandarizadas, se obtiene
la distancia eucldea.
Ejemplos de distancias entre variables

Coeficiente de correlacin de Pearson
Se define como:
r=
Sxy
Sx Sy
donde Sxy es la covarianza muestral entre x e y, Sx y Sy son las desviaciones estndar de

x e y respectivamente.
Coeficiente de correlacin de rangos de Kendall
Se comparan las ordenaciones que dan dos variables, es decir, los datos se ordenan
segn dos criterios o caractersticas y se establece el nmero de concordancias y discordancias.
Mtodo:
1. Calculo todas las posibles parejas. Tomo una pareja (i, j). Si estn ordenados igual
segn las dos variables o criterios, se marca una concordancia (es decir, si el elemento
i est delante del elemento j segn ambas variables o criterios). Si no lo estn, se
establece una discordancia.
2. El nmero total de parejas distintas que se pueden hacer con n elementos es
n(n1)
.
2
Se cuenta, adems
n
2
a = nmero total de concordancias,

b = nmero total de discordancias,
3. Se define el coeficiente de correlacin de rangos como:
=
ab
n(n1)
2
Coeficiente de correlacin de rangos de Spearman

Se consideran, igual que antes, n objetos clasificados segn dos variables o criterios.
Por ejemplo, supongamos dos variables x e y que toman n valores emparejados (x1 , y1 ),
(x2 , y2 ), , (xn , yn ). Se definen los rangos sobre cada una de las variables, de modo que
se emparejan (rx1 , ry1 ), (rx2 , ry2 ), , (rxn , ryn ) :
x1
x2
..
.
y1
y2
..
.
rx1
rx2
..
.
ry1
ry2
..
.
xn
yn
rxn
ryn
Se definen las diferencias di = (rxi ryi ), es decir, las diferencias de la posicin del
individuo i-simo segn la clasificacin (rango) dada por x y la clasificacin (rango) dada
por y.
El coeficiente de correlacin se define, entonces, como
6
rs = 1
n
P
i=1
d2i
n(n2 1)
4
Coeficientes de asociacin (matching types)

Se consideran variables dicotmicas que toman como posibles valores 0 1, del tipo
presencia ausencia. Existen diferentes formas de medir las coincidencias.
Ejemplo: Se tienen dos observaciones en las que se consideran 5 variables dicotmicas
(s / no).
Sea S = 1 y No = 0
individuos\variables x1
A
1
B
0
x2
1
1
x3
0
0
x4
0
1
x5
1
0
Un posible coeficiente de similitud sera: m/N donde m = nmero de variables comunes

a los dos elementos y M es el nmero total de variables. En este ejemplo, sera 2/5.
Antes de mostrar una serie de medidas habituales, se tienen que definir los siguientes
trminos para 2 individuos dados.
XAj = valor del individuo A en la variable j -sima {1, 0}.
XBj = valor del individuo B en la variable j -sima {1, 0}.
P
V = XAj 1 XBj
No de atributos donde A es 1 y B es 0
j
R=
XAj XBj
No de atributos donde A y B son 1
S=
P
1 XAj 1 XBj
No de atributos donde A y B son 0
j
T =
P
1 XAj XBj
No de atributos donde A es 0 y B es 1
U =R+S+T +V
No total de atributos o variables
En el ejemplo anterior,
V
= 1(1 0) + 1(1 1) + 0(1 0) + 0(1 1) + 1(1 0) = 2
R = 1
S = 1
T = 1
U = 5
Esto da lugar a distintos ndices de similaridad,.por ejemplo,
Indice de Russel-Rao
C=
R
U
En el ejemplo es 1/5.
Indice de Kendall
C =1
V +T
U
Indice de Jaccard
C=
R
R+T +V
C=
2R
2R + T + V
Indice de Dice-Sorensen
6
Los ndices ms habituales son los de Jaccard y Dice-Sorensen.

Cuando se consideran variables categricas otra posible medida de distancia se construye considerando la tabla de asociacin entre variables como una tabla de contingencia
y calculando el valor de la chi-cuadrado, 2 , de modo que se puede definir la distancia
como el coeficiente de contingencia:
dij = 1
2
.
n
Mtodos de cluster jerrquicos

En la prctica, no se pueden examinar todas las posibilidades de agrupar los elementos, incluso con los ordenadores ms rpidos. Una solucin se encuentra en los llamados
mtodos jerrquicos. Se tienen dos posibles formas de actuar:
Mtodos jerrquicos aglomerativos: se comienza con los objetos o individuos de modo
individual; de este modo, se tienen tantos clusters iniciales como objetos. Luego se van
agrupando de modo que los primeros en hacerlo son los ms similares y al final, todos los
subgrupos se unen en un nico cluster.
Mtodos jerrquicos divididos: se acta al contrario. Se parte de un grupo nico con
todas las observaciones y se van dividiendo segn lo lejanos que estn.
En cualquier caso, de ambos mtodos se deriva un dendograma, que es un grfico que

ilustra cmo se van haciendo las subdivisiones o los agrupamientos, etapa a etapa.
Consideramos aqu los mtodos aglomerativos con diferentes mtodos de unin (linkage
methods). Los ms importantes son:
(i ) Mnima distancia o vecino ms prximo.
(ii) Mxima distancia o vecino ms lejano.
(iii) Distancia media (average distance).
Se puede observar que, de este modo, se define una posible distancia entre dos clusters:
la correspondiente a la pareja de elementos ms cercana, la ms lejana o la media de todas
las posibles parejas de elementos de ambos clusters:
Definidas las distancias anteriores, se puede considerar el algoritmo bsico, dados N objetos o individuos:
1. Empezar con N clusters (el nmero inicial de elementos) y una matriz N N
simtrica de distancias o similitudes. D = [dik ]ik .
2. Dentro de la matriz de distancias, buscar aquella entre los clusters U y V (ms
prximos, ms distantes o en media ms prximos) que sea la menor entre todas,
duv .
3. Juntar los clusters U y V en uno solo. Actualizar la matriz de distancias:
(i) Borrando las filas y columnas de los clusters U y V .
ii) Formando la fila y columna de las distancias del nuevo cluster (UV ) al resto de
clusters.
4. Repetir los pasos (2) y (3) un total de (N 1) veces.
9
Al final, todos los objetos estn en un nico cluster cuando termina el algoritmo.
Adems, se guarda la identificacin de los clusters que se van uniendo en cada etapa, as
como las distancias a las que se unen. Finalmente se construye un dendograma.
Ejemplo con mnima distancia:
Sea la matriz de distancias entre 5 objetos la dada por:
1
2
D = [dik ]ik =
3
4
5
0
9 0
3 7 0
6 5 9 0
11 10 2 8 0
Cada uno de los objetos comienza siendo un cluster. Como mni,k dik = d53 = 2 los
objetos 3 y 5 se unen para formar el cluster (35). Para construir el siguiente nivel, calculo
la distancia entre el cluster (35) y los restantes objetos 1, 2 y 4. As:
d(35),1 = mn{d31 , d51 } = mn{3, 11} = 3
d(35),2 = mn{d32 , d52 } = mn{7, 10} = 7
d(35),4 = mn{d34 , d54 } = mn{9, 8} = 8
Reconstruyo la matriz de distancias:
(35)
(35)
D = [dik ]ik =
1
2
4
3 0
7 9 0
8 6 5 0
Cojo la menor distancia, d(35),1 = 3 y junto, as, el cluster (35) con el 1.

Calculo ahora las distancias del nuevo cluster a los dos elementos que quedan:
d(351),2 = mn{d(35),2 , d12 } = mn{7, 9} = 7
d(351),4 = min{d(35),4 , d14 } = min{8, 6} = 6
10
La matriz de distancias queda como:

(351)
(351)
D = [dik ]ik =
2
4
0
7 0
6 5 0
La mnima distancia se alcanza entre los clusters 2 y 4 d24 = 5. Se obtienen as dos

clusters: (351) y (24). La distancia que los separa es:
d(351),(24) = mn{d(351),2 , d(351),4 } = mn{7, 6} = 6

As, la matriz de distancias queda como:
(351)
D = [dik ]ik =
(351)
(24)
(24)
0
6 0
Cuando la distancia es iguala 6, todos los objetos se unen en un nico cluster.

Se pueden dibujar dendogramas:
11
Este tipo de distancia no funciona bien cuando los objetos estn prximos.
Se obtienen dendogramas similares si se utiliza la distancia mxima, o la distancia
media, aunque las distancias a las que se van uniendo los objetos en los clusters varan en
cada caso.
Problemas
Las fuentes de error y variacin no entran en consideracin con los mtodos jerrquicos.
Esto implica una gran sensibilidad a observaciones anmalas o outliers.
Si un objeto se ha colocado errneamente en un grupo al principio del proceso, ya no
se puede arreglar en una etapa posterior.
Un sistema de trabajo conveniente es usar varias distancias o similitudes con los mismos
objetos y observar si se mantienen los mismos clusters o grupos. As, se comprueba
la existencia de grupos naturales.
Estos mtodos se pueden usar para clasificar no slo observaciones, sino tambin variables usando como medida de similitud algn coeficiente de correlacin.
Mtodos no jerrquicos
Se usan para agrupar objetos, pero no variables, en un conjunto de k clusters ya
predeterminado. No se tiene que especificar una matriz de distancias ni se tienen que
almacenar las iteraciones. Todo esto permite trabajar con un nmero de datos mayor que
en el caso de los mtodos jerrquicos.
Se parte de un conjunto inicial de clusters elegidos al azar, que son los representantes
de todos ellos; luego se van cambiando de modo iterativo. Se usa habitualmente el mtodo
de las k-medias.
12
Mtodo de las k-medias

Es un mtodo que permite asignar a cada observacin el cluster que se encuentra
ms prximo en trminos del centroide (media). En general, la distancia empleada es la
eucldea.
Pasos:
1. Se toman al azar k clusters iniciales.
2. Para el conjunto de observaciones, se vuelve a calcular las distancias a los centroides
de los clusters y se reasignan a los que estn ms prximos. Se vuelven a recalcular
los centroides de los k clusters despus de las reasignaciones de los elementos.
3. Se repiten los dos pasos anteriores hasta que no se produzca ninguna reasignacin,
es decir, hasta que los elementos se estabilicen en algn grupo.
Usualmente, se especifican k centroides iniciales y se procede al paso (2) y, en la
prctica, se observan la mayor parte de reasignaciones en las primeras iteraciones.
Ejemplo Supongamos dos variables x1 y x2 y 4 elementos: A, B, C, D. con la siguiente

tabla de valores:
A
B
C
D
x1 x2
5
3
1
1
1 2
3 2
Se quiere dividir estos elementos en dos grupos (k = 2).

De modo arbitrario, se dividen los elementos en dos clusters (AB) y (CD) y se calculan
los centroides de los dos clusters.
Cluster (AB) :
13
x1
=2
x2
=2
51
2
3+1
2
Cluster (CD) :
13
2
x1
= 1
x2
= 2
22
2
En el paso (2), calculamos las distancias eucldeas de cada observacin al grupo de

centroides y reasignamos cada una al grupo ms prximo. Si alguna observacin se mueve
de grupo, hay que volver a calcular los centroides de los grupos. As, las distancias son:
d2 (A, (AB)) = (5 2)2 + (3 2)2 = 10
d2 (A, (CD)) = (5 + 1)2 + (3 + 2)2 = 61
Como A est ms prximo al cluster (AB) que al cluster (CD), no se reasigna.
Se hace lo mismo para el elemento B:
d2 (B, (AB)) = (1 2)2 + (1 2)2 = 10
d2 (B, (CD)) = (1 + 1)2 + (1 + 2)2 = 9
Por lo cual, el elemento B se reasigna al cluster (CD) dando lugar al cluster (BCD). A
continuacin, se vuelven a calcular los centroides:
Cluster x1 x2
A
5
3
(BCD) 1 1
Nuevamente, se vuelven a calcular las distancias para cada observacin para ver si se
producen cambios con respecto a los nuevos centroides:
A
B
C
D
A (BCD)
0
52
40
4
41
5
89
5
14
Como no se producen cambios, entonces la solucin para k = 2 clusters es: A y (BCD).

Si se quiere comprobar la estabilidad de los grupos, es conveniente volver a correr el
algoritmo con otros clusters iniciales (una nueva particin inicial).
Una vez considerados los clusters finales, es conveniente interpretarlos; para ello, se
pueden cruzar con otras variables categricas o se pueden ordenar de modo que los objetos
del primer cluster aparezcan al principio y los del ltimo cluster al final.
Tablas de anlisis de la varianza

El objetivo que se persigue al formar los clusters es que los centroides estn lo ms
separados entre s como sea posible y que las observaciones dentro de cada cluster estn
muy prximas al centroide. Lo anterior se puede medir con el estadstico F de Snedecor:
Fn,m
2n n
= 2
,
m m
y equivale al cociente de dos distribuciones chi-cuadrado divididas entre sus grados de

libertad.
El estadstico F se calcula, as, como un cociente de medias de cuadrados. En el caso
del anlisis de cluster:
F =
medias de cuadrados entre clusters

medias de cuadrados dentro de clusters
Si F > 1, las distancias entre los centroides de los grupos son mayores que las distancias
de los elementos dentro de los grupos. Esto es lo que se pretende para que los clusters
estn suficientemente diferenciados entre s.
Problemas que surgen al fijar k clusters iniciales
(i ) Si dos centroides iniciales caen por casualidad en un nico cluster natural, entonces
los clusters que resultan estn poco diferenciados entre s.
(ii) Si aparecen outliers, se obtiene por lo menos un cluster con sus objetos muy dispersos.
15
(iii) Si se imponen previamente k clusters puede dar lugar a grupos artificiales o bien a
juntar grupos distintos.
Una posible solucin es considerar varias elecciones del nmero k de clusters comparando luego sus coeficientes de la F de Snedecor.
Ejemplos
Se considera primero una muestra de los aos de vida esperados por pas, edad y sexo
procedentes de Keyfitz y Flieger (1971) que ya se consider en el tema 4 sobre Anlisis
Factorial.
Se considera otra muestra de 48 objetos de cermica romana donde se miden diferentes
tipos de oxidacin (ver http://biostatistics.iop.kcl.ac.uk/publications/everitt/):
1
2
3
43
44
45
AL2O3
1.76
1.58
1.70
1.56
1.38
1.79
FE2O3
1.11
0.85
0.89
0.11
0.32
0.19
MGO
0.30
0.25
0.27
0.08
0.10
0.09
CAO
0.46
0.49
0.45
0.01
0.02
0.06
16
NA2O
0.50
0.50
0.50
0.06
0.06
0.04
K2O
1.02
0.97
0.98
0.56
0.68
0.56
TIO2
1.29
1.27
1.26
1.17
1.72
1.33
MNO
0.48
0.41
0.54
0.02
0.02
0.04
BAO
1.07
1.29
1.00
0.93
1.07
1.29
Multidimensional Scaling (MDS) (Escalamiento Multidimensional)

Las tcnicas de MDS tratan sobre el siguiente problema: para un conjunto de similitudes (o distancias) observadas entre un par de objetos de un total de N, se trata de
encontrar una representacin grfica de estos en pocas dimensiones, de modo que sus
posiciones casi ajusten las similitudes (o distancias) originales.
Con N objetos, se buscan configuraciones de q < (N 1) dimensiones, de modo que
el ajuste entre las posiciones originales y las posiciones en las q dimensiones sea el ms
preciso posible; esto se mide mediante el concepto del stress.
Si se usan las magnitudes originales de las distancias (o similitudes), se tiene el llamado
escalamiento multidimensional mtrico. Si se usan rangos (orden de las observaciones), en
vez de distancias, se tiene el MDS no mtrico.
Procedimiento bsico
Dados N objetos, existen M =
N(N 1)
2
distancias (o similitudes) entre pares de di-
ferentes objetos. Alternativamente, se pueden usar rangos ordenados. Las similitudes se

pueden ordenar en orden creciente como:
si1 k1 < si2 k2 < . . . < sim km
Aqu si1 k1 es la menor de las M similitudes, donde i1 , k1 es el par de observaciones que son
menos similares y, del mismo modo, im , km , las ms similares. Buscamos una configuracin
de dimensin q tal que las distancias entre los N objetos mantengan el orden expresado
en la relacin anterior. Es decir, tiene que cumplirse:
(q)
(q)
(q)
di1 k1 > di2 k2 > . . . > dim km

Lo importante es que se mantenga el orden, no las magnitudes en s.
Para un nmero dado de dimensiones (q), puede que no se encuentre una configuracin
como la anterior que conserve las similitudes anteriores. Kruskal dio una medida de la
17
adecuacin de la representacin en q dimensiones a las similitudes originales; dicha medida

se denomina stress. Se buscan representaciones geomtricas en q dimensiones de modo que
el stress sea mnimo. Empricamente, se considera que si el stress es alrededor de 0,2, la
bondad del ajuste es pobre; si es del 0,05, la bondad del ajuste es buena y a partir de
0,025 es excelente.
La idea es minimizar el stress para un nmero fijo q de dimensiones mediante un
proceso iterativo.
Relacin con otras tcnicas multivariantes
Las tcnicas de escalamiento multidimensional estn relacionadas con el Anlisis Factorial y el Anlisis de Cluster. Tanto el Anlisis Factorial como el MDS usan una matriz (en
el primer caso, de covarianzas o de correlaciones y en el segundo, de similitudes) y generan
un espacio con el mnimo nmero de dimensiones posible donde se representan los datos.
En general, el MDS necesita menos dimensiones que el Anlisis Factorial para representar
los datos o las variables. Por otro lado, el MDS proporciona una descripcin dimensional cuantitativa de las variables, mientras que el Anlisis Factorial permite, adems, una
descripcin de los objetos o individuos en forma de sus puntuaciones factoriales.
Con respecto a las tcnicas de Anlisis de Cluster, el MDS comparte con ellas las
siguientes caractersticas: investigan la estructura de un conjunto de variables, el punto
de partida es una matriz de proximidades y en la representacin grfica que se obtiene se
pueden interpretar las distancias.
18
Ejemplo
Se consideran las distancias en relacin a vuelos entre 10 ciudades norteamericanas:
A tla nta
C h ica g o
D enver
H o u sto n
L . A n g ele s
A tla nta
0 .0 0
5 8 7.00
1 2 12 .0 0
7 0 1 .0 0
C h ic ag o
5 8 7 .0 0
0 .0 0
9 2 0 .0 0
9 4 0 .0 0
D e nver
1 21 2 .0 0
9 2 0.00
0 .0 0
H o u sto n
L A n g e les
M ia m i
N Yo rk
M ia m i
N Yo rk
S Fra n c isc o
S e a ttle
Wa sh in g to n
1 9 3 6 .0 0
6 0 4 .0 0
7 4 8 .0 0
1 7 4 5 .0 0
1 1 8 8 .0 0
7 1 3 .0 0
2 1 3 9 .0 0
2 1 8 .0 0
5 4 3 .0 0
1 8 5 8 .0 0
1 7 3 7 .0 0
5 9 7 .0 0
8 7 9 .0 0
8 3 1 .0 0
1 7 2 6 .0 0
1 6 3 1 .0 0
9 4 9 .0 0
1 0 2 1 .0 0
1 4 9 4 .0 0
7 0 1 .0 0
9 4 0.00
8 7 9 .0 0
0 .0 0
1 3 7 4 .0 0
9 6 8 .0 0
1 4 2 0 .0 0
1 6 4 5 .0 0
1 8 9 1 .0 0
1 2 2 0 .0 0
1 93 6 .0 0
1 7 4 5 .0 0
8 3 1 .0 0
1 3 7 4 .0 0
0 .0 0
2 3 3 9 .0 0
2 4 5 1 .0 0
3 4 7 .0 0
9 5 9 .0 0
2 3 0 0 .0 0
6 0 4 .0 0
1 1 8 8 .0 0
1 7 26 .0 0
9 6 8 .0 0
2 3 3 9 .0 0
0 .0 0
1 0 9 2 .0 0
2 5 9 4 .0 0
2 7 3 4 .0 0
9 2 3 .0 0
7 4 8 .0 0
7 1 3.00
1 6 31 .0 0
1 4 2 0 .0 0
2 4 5 1 .0 0
1 0 9 2 .0 0
0 .0 0
2 5 7 1 .0 0
2 4 0 8 .0 0
2 0 5 .0 0
S Fran cisco
2 13 9 .0 0
1 8 5 8 .0 0
9 4 9 .0 0
1 6 4 5 .0 0
3 4 7 .0 0
2 5 9 4 .0 0
2 5 7 1 .0 0
0 .0 0
6 7 8 .0 0
2 4 4 2 .0 0
S e a ttle
2 1 8 .0 0
1 7 3 7 .0 0
1 0 21 .0 0
1 8 9 1 .0 0
9 5 9 .0 0
2 7 3 4 .0 0
2 4 0 8 .0 0
6 7 8 .0 0
0 .0 0
2 3 2 9 .0 0
Wa sh in g to n
5 4 3 .0 0
5 9 7.00
1 4 94 .0 0
1 2 2 0 .0 0
2 3 0 0 .0 0
9 2 3 .0 0
2 0 5 .0 0
2 4 4 2 .0 0
2 3 2 9 .0 0
0 .0 0
19
Anlisis de Cluster (con R)

# Se dibujan los dendogramas segn los tres tipos de linkages empleados
par(mfrow=c(1,3))
plclust(hclust(dist(life),method="single"),labels=row.names(life),ylab="Distancia")
title("(a) Mnima distancia")
plclust(hclust(dist(life),method="complete"),labels=row.names(life),ylab="Distancia")
title("(b) Mxima distancia")
plclust(hclust(dist(life),method="average"),labels=row.names(life),ylab="Distancia")
title("(c) Distancia media")
#
#
>
>
>
Se determinan los paises que pertenecen a cada cluster

usando el linkage del maximo, cortando a una distancia de 21
cuantos <- cutree(hclust(dist(life),method="complete"),h=21)
pais.clus <- lapply(1:5, function(eso){row.names(life)[cuantos==eso]})
pais.clus
[[1]]
[1] "Algeria"
[5] "El Salvador"
[[2]]
[1] "Cameroon"
"Tunisia"
"Nicaragua"
"Costa Rica"
"Panama"
"Dominican Rep"
"Ecuador"
"Madagascar"
20
[[3]]
[1] "Mauritius"
[4] "Greenland"
[7] "Jamaica"
[10] "United States (NW66)"
"Reunion"
"Grenada"
"Mexico"
"Chile"
"Seychelles"
"Honduras"
"Trinidad (67)"
"Columbia"
[[4]]
[1] "South Africa(C)" "Guatemala"
[[5]]
[1] "South Africa(W)"
[4] "United States (66)"
[7] "Argentina"
"Canada"
"Trinidad(62)"
"United States (W66)" "United States (67)"
# Calculo las medias de cada una de las variables dentro de cada cluster
> pais.medias <- lapply(1:5,function(eso){apply(life[cuantos==eso,],2,mean)})
> pais.medias
[[1]]
m0
m25
m50
m75
w0
w25
w50
w75
61.375 47.625 26.875 10.750 65.000 50.750 29.250 12.625
[[2]]
m0 m25 m50
36.0 29.5 15.0
m75
w0 w25 w50
6.0 38.0 33.0 18.5
w75
6.5
[[3]]
m0
m25
m50
60.083333 42.750000 22.000000
[[4]]
m0 m25 m50
49.5 39.5 21.0
m75
w0
w25
w50
7.583333 64.916667 46.833333 25.333333
m75
w0 w25 w50
8.0 53.0 42.0 23.0
w75
9.666667
w75
8.0
[[5]]
m0
m25
m50
66.428571 48.000000 22.857143
m75
w0
w25
w50
7.857143 72.714286 50.714286 27.714286
w75
9.714286
21
# Se dibujan los cruces de variables con el cluster de pertenencia identificado

pairs(life,panel= function(x,y){text(x,y,cuantos)})
22
# Para que las escalas de las variables sean iguales, se divide cada valor entre
# el rango de las variables: (max-min)
rge <- apply(cacharros,2,max)-apply(cacharros,2,min)
cacharros <- sweep(cacharros,2,rge,FUN="/")
n <- length(cacharros[,1])
# Calculo las sumas de cuadrados dentro de grupos para todos los datos
# Calculo la suma de cuadrados dentro de grupos con 1 solo grupo
scd1 <- (n-1)*sum(apply(cacharros,2,var))
# Calculo la suma de cuadrados dentro de grupos con 2 a 6
scd <- numeric(0)
for(i in 2:6) {
W <- sum(kmeans(cacharros,i)$withinss)
scd <- c(scd,W)
}
grupos
# Junto los resultados de 1 grupo con los de 2:6 grupos

scd <- c(scd1,scd)
# Dibujo las sumas de cuadrados dentro de grupos frente al numero de grupos
plot(1:6,scd,type="l",xlab="Numero de grupos",ylab="Suma de cuadrados dentro de
grupos",lwd=2)
# El resultado mejor es con 2 o 3 grupos

cacharros.kmedia <- kmeans(cacharros,3)
cacharros.kmedia
K-means clustering with 3 clusters of sizes 14, 10, 21
23
Cluster means:
AL2O3
FE2O3
MGO
CAO
NA2O
K2O
TIO2
1 1.162216 0.7218439 0.71311301 0.12458472 0.2821429 1.3337125 0.8754579
2 1.658879 0.1874419 0.09552239 0.02267442 0.0637500 0.6436306 1.3076923
3 1.581219 0.8637874 0.27498223 0.54595792 0.4321429 0.9881711 1.2020757
MNO
BAO
1 0.72619048 1.137755
2 0.01975309 1.142857
3 0.43915344 1.224490
Clustering vector:
[1] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
[39] 2 2 2 2 2 2 2
Within cluster sum of squares by cluster:
[1] 2.874794 1.466713 3.164386
Available components:
[1] "cluster" "centers"
"withinss" "size"
# Los resultados anteriores son para los datos estandarizados.

# Para calcular los resultados sobre los resultados reales:
lapply(1:3,
function(eso){apply(cacharros[cacharros.kmedia$cluster==eso,],2,mean)} )
[[1]]
AL2O3
FE2O3
MGO
CAO
NA2O
K2O
TIO2
MNO
1.1622163 0.7218439 0.7131130 0.1245847 0.2821429 1.3337125 0.8754579 0.7261905
BAO
1.1377551
[[2]]
AL2O3
FE2O3
MGO
CAO
NA2O
K2O
TIO2
1.65887850 0.18744186 0.09552239 0.02267442 0.06375000 0.64363057 1.30769231
MNO
BAO
0.01975309 1.14285714
[[3]]
AL2O3
FE2O3
MGO
CAO
NA2O
K2O
TIO2
MNO
1.5812194 0.8637874 0.2749822 0.5459579 0.4321429 0.9881711 1.2020757 0.4391534
BAO
1.2244898
Se observa que el cluster 3 se caracteriza por tener un valor alto en xido de aluminio, un valor bajo
en xido de hierro y un valor bajo en xido de calcio.
El cluster 2 tiene un valor alto en xido de manganeso y tambin en xido de potasio.
El cluster 1 tiene un valor alto en xido de calcio.
24
Anlisis MDS (con R)

Se considera la matriz de distancias entre 10 ciudades de USA, estas distancias no son eucldeas
dado que se consideran sobre una esfera.
aire.dist <- read.table("c:\\cursoCIII\\AnMultiv\\practicas\\aireMDS.txt")
dimnames(aire.dist)[[1]] <- c("Atlanta", "Chicago", "Denver", "Houston", "Los
Angeles", "Miami", "New York", "San Francisco", "Seattle", "Washington DC")
dimnames(aire.dist)[[2]] <- dimnames(aire.dist)[[1]]
# Se efectua un analisis clasico MDS metrico

aire.mds <- cmdscale(as.matrix(aire.dist),k=9,eig=T)
Warning messages:
1: some of the first 9 eigenvalues are < 0 in: cmdscale(as.matrix(aire.dist), k
= 9, eig = T)
2: NaNs produced in: sqrt(ev)
# Calculamos los autovalores

aire.mds$eig
[1] 9.213705e+06 2.199924e+06 1.082863e+06 3.322361e+03
[6] 6.984919e-10 -9.323115e+01 -2.168535e+03 -9.090644e+03
3.858824e+02
# Normalizo los dos primeros autovalores

sum(abs(aire.mds$eig[1:2]))/sum(abs(aire.mds$eig))
[1] 0.9122472
sum(aire.mds$eig[1:2]^2)/sum(aire.mds$eig^2)
[1] 0.9870998
La solucin con dos dimensiones es adecuada

# Se muestran las coordenadas de las ciudades en las dos dimensiones
aire.mds$points[,1:2]
[,1]
[,2]
Atlanta
-434.7588 724.22221
Chicago
-412.6102
55.04016
Denver
468.1952 -180.65789
Houston
-175.5816 -515.22265
Los Angeles
1206.6772 -465.63705
Miami
-1161.6875 -477.98261
New York
-1115.5609 199.79247
San Francisco 1422.6887 -308.65595
Seattle
1221.5351 887.20174
Washington DC -1018.8972
81.89956
# Se dibujan las coordenadas de las ciudades en las dos dimensiones

par(pty="s")
plot(-aire.mds$points[,1],aire.mds$points[,2],type="n",xlab="Coordenada
1",ylab="Coordenada 2", xlim = c(-2000,1500),ylim=c(-2000,1500))
text(-aire.mds$points[,1],aire.mds$points[,2],labels=row.names(aire.dist))
25
26
Anlisis de Cluster (con SPSS)
27
28
Cluster Jerrquico
Proximity Matrix
Squared Euclidean Distance
Case
1
10
11
12
13
14
15
16
17
18
19
20
,000 ,153 ,064 ,195 ,189 ,119 ,528 ,131 ,200 ,342
,855 ,543 ,452 ,217 ,233
,549 ,091
,529 ,169
,285
,153 ,000 ,115 ,008 ,024 ,082 ,288 ,063 ,033 ,259
,630 ,301 ,256 ,059 ,064
,395 ,049
,260 ,206
,194
,064 ,115 ,000 ,168 ,170 ,102 ,497 ,107 ,133 ,197
,624 ,437 ,344 ,207 ,215
,499 ,096
,556 ,139
,279
,195 ,008 ,168 ,000 ,027 ,105 ,336 ,095 ,045 ,322
,685 ,364 ,325 ,057 ,063
,407 ,067
,253 ,248
,198
,189 ,024 ,170 ,027 ,000 ,093 ,255 ,072 ,077 ,369
,747 ,336 ,296 ,050 ,068
,397 ,046
,198 ,250
,216
,119 ,082 ,102 ,105 ,093 ,000 ,333 ,015 ,127 ,327
,680 ,336 ,293 ,160 ,185
,689 ,040
,426 ,044
,101
,528 ,288 ,497 ,336 ,255 ,333 ,000 ,232 ,383 ,610
,987 ,145 ,137 ,340 ,346
,769 ,322
,241 ,477
,515
,131 ,063 ,107 ,095 ,072 ,015 ,232 ,000 ,098 ,284
,659 ,241 ,199 ,135 ,160
,610 ,042
,352 ,074
,132
,200 ,033 ,133 ,045 ,077 ,127 ,383 ,098 ,000 ,152
,473 ,284 ,250 ,115 ,128
,443 ,119
,397 ,222
,181
10
,342 ,259 ,197 ,322 ,369 ,327 ,610 ,284 ,152 ,000
,214 ,286 ,280 ,471 ,473
,799 ,389
,897 ,306
,323
11
,855 ,630 ,624 ,685 ,747 ,680 ,987 ,659 ,473 ,214
,000 ,436 ,500 ,916 ,894 1,533 ,833 1,424 ,592
,465
12
,543 ,301 ,437 ,364 ,336 ,336 ,145 ,241 ,284 ,286
,436 ,000 ,029 ,456 ,452
,990 ,411
,557 ,368
,359
13
,452 ,256 ,344 ,325 ,296 ,293 ,137 ,199 ,250 ,280
,500 ,029 ,000 ,352 ,343
,804 ,332
,454 ,337
,398
14
,217 ,059 ,207 ,057 ,050 ,160 ,340 ,135 ,115 ,471
,916 ,456 ,352 ,000 ,006
,258 ,061
,133 ,346
,357
15
,233 ,064 ,215 ,063 ,068 ,185 ,346 ,160 ,128 ,473
,894 ,452 ,343 ,006 ,000
,258 ,079
,131 ,372
,386
16
,549 ,395 ,499 ,407 ,397 ,689 ,769 ,610 ,443 ,799 1,533 ,990 ,804 ,258 ,258
,000 ,435
,340 ,993 1,087
17
,091 ,049 ,096 ,067 ,046 ,040 ,322 ,042 ,119 ,389
,833 ,411 ,332 ,061 ,079
,435 ,000
,266 ,152
,215
18
,529 ,260 ,556 ,253 ,198 ,426 ,241 ,352 ,397 ,897 1,424 ,557 ,454 ,133 ,131
,340 ,266
,000 ,712
,714
19
,169 ,206 ,139 ,248 ,250 ,044 ,477 ,074 ,222 ,306
,592 ,368 ,337 ,346 ,372
,993 ,152
,712 ,000
,093
20
,285 ,194 ,279 ,198 ,216 ,101 ,515 ,132 ,181 ,323
,465 ,359 ,398 ,357 ,386 1,087 ,215
,714 ,093
,000
This is a dissimilarity matrix
29
Average Linkage (Between Groups)

Agglomeration Schedule
Cluster Combined
Stage
Cluster 1
Stage Cluster First Appears
Cluster 2 Coefficients
Next Stage
Cluster 2
Cluster 1
14
15
,006
,008
,015
,026
12
13
,029
12
17
,041
10
,052
,064
11
14
,076
13
10
19
,090
11
11
,119
10
13
12
12
,141
17
13
,157
11
15
14
10
11
,214
19
15
20
,220
13
17
16
16
18
,340
18
17
,357
15
12
18
18
16
,493
17
16
19
19
10
,584
18
14
30
Vertical Icicle
N of
clust
Case
11
10
18
16
13
12
20
15
14
19
17
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X
X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X X X
X X X X X X X X X X X X X X X X X X X X X X X
X X X X X
X X X X X X X X X X X X X X X X X X X X X X X
X X X X X
X X X X X X X X X X X
X X X
10
X X X
X X X X X X X
X X X
11
X X X
X X X X X
X X X
12
X X X
X X X
X X X X X X X
X X X X X
X X X
13
X X X
X X X
X X X X X X X
X X X X X
14
X X X
X X X
X X X X X
X X X X X
15
X X X
X X X
X X X X X
X X X
16
X X X
X X X X X
X X X
17
X X X
X X X
X X X
18
X X X
X X X
19
X X X
31
Dendrogram
* * * * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine
C A S E
Label Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
14
15
2
4
5
9
1
3
6
8
17
19
20
12
13
7
16
18
10
11
32
K Medias
Initial Cluster Centers
Cluster
1
al2o3 1,48 1,54 1,28

fe2o3
,89
,82
,68
mgo
,29
,27
,22
cao
,47 1,01
,38
na2o 1,04
,41
,16
k2o
1,06 1,02
,72
tio2
1,23 1,22
,96
mno
bao
,69
,41
,21
1,36 1,36
,86
Iteration History(a)
Change in Cluster Centers
Iteration
1
,338
,439
,339
,095
,040
,000
,000
,000
,000
a Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any
center is ,000. The current iteration is 3. The minimum distance between initial centers is ,877.
33
Cluster Membership
Case Number Cluster Distance
1
,355
,172
,301
,246
,222
,195
,459
,116
,244
10
,260
11
,339
12
,447
13
,398
14
,170
15
,169
16
,379
17
,210
18
,284
19
,339
20
,389
Final Cluster Centers

Cluster
1
al2o3 1,56 1,61 1,44

fe2o3
,91
,87
,78
mgo
,28
,28
,25
cao
,55
,58
,41
na2o
,71
,41
,24
k2o
,99 1,01
,90
tio2
mno
bao
1,21 1,22 1,11

,60
,43
,26
1,46 1,21
,98
34
Distances between Final Cluster Centers

Cluster
1
2
,439
,805
,439
,805
,455
,455
ANOVA
Cluster
Error
df
Mean Square
df
Sig.
Mean Square
al2o3
,037
,020
17
1,893
,181
fe2o3
,014
,005
17
2,500
,112
mgo
,001
,001
17
,810
,461
cao
,036
,029
17
1,246
,313
na2o
,215
,021
17
10,192
,001
k2o
,015
,004
17
3,420
,056
tio2
,017
,004
17
3,820
,043
mno
,102
,004
17
28,374
,000
bao
,209
,018
17
11,890
,001
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences
among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as
tests of the hypothesis that the cluster means are equal.
Number of Cases in each Cluster
Cluster
Valid
Missing
4,000
13,000
3,000
20,000
,000
35
Multidimensional Scaling (MDS) con SPSS
36
37
Escalamiento multidimensional
Raw (unscaled) Data for Subject 1
1
2
3
4
5
6
7
8
9
10
6
7
8
9
10
,000
587,000
1212,000
701,000
1936,000
604,000
748,000
2139,000
218,000
543,000
,000
920,000
940,000
1745,000
1188,000
713,000
1858,000
1737,000
597,000
,000
879,000
831,000
1726,000
1631,000
949,000
1021,000
1494,000
,000
1374,000
968,000
1420,000
1645,000
1891,000
1220,000
,000
2339,000
2451,000
347,000
959,000
2300,000
10
,000
1092,000
2594,000
2734,000
923,000
,000
2571,000
2408,000
205,000
,000
678,000
2442,000
,000
2329,000
,000
Iteration history for the 2 dimensional solution (in squared distances)

Young's S-stress formula 1 is used.
Iteration
1
2
3
4
S-stress
,22655
,15756
,15012
,14926
Improvement
,06899
,00745
,00085
Iterations stopped because

S-stress improvement is less than
,001000
38
Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
Stress
For matrix
,15369
RSQ =
,87390
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus
Number
Stimulus
Name
1
2
3
4
5
6
7
8
9
10
Atlanta
Chicago
Denver
Houston
LAngeles
Miami
NewYork
SFrancis
Seattle
Washingt
,5756
,6231
-,7066
,1622
-1,6769
1,4468
1,5567
-1,9170
-1,4507
1,3869
-,5818
-,3291
,1110
,9063
,4319
,9603
-,3628
,0961
-1,0821
-,1499
39
Optimally scaled data (disparities) for subject

1
1
2
3
4
5
6
7
8
9
10
,000
,911
1,692
1,054
2,596
,933
1,112
2,850
,451
,856
6
6
7
8
9
10
,000
1,542
3,418
3,593
1,331
Abbreviated
Name
Extended
Name
SFrancis
Washingt
SFrancisco
Washington
,000
1,327
1,352
2,357
1,662
1,069
2,499
2,348
,924
7
,000
3,389
3,185
,434
,000
1,276
1,216
2,334
2,215
1,363
1,453
2,044
8
,000
1,025
3,228
,000
1,894
1,387
1,952
2,233
2,540
1,702
9
,000
3,087
1
5
,000
3,099
3,239
,612
1,376
3,051
10
,000
40
Configuracin de estmulos derivada
Modelo de distancia eucldea

1,0
0,5
Dimensin 2
Miami
Houston
LAngeles
Denver
SFrancisco
0,0
Washington
Chicago
-0,5
NewYork
Atlanta
-1,0
Seattle
-1,5
-2
-1
Dimensin 1
41
Grfico de ajuste lineal
Modelo de distancia eucldea

4
Distancias
0
0
Disparidades
42
Anlisis de Cluster (con SAS)

/* Analisis de Cluster */
title 'Anlisis de Cluster de datos de cermica';
data ceramica;
infile 'c:\...\CachaSAS.txt';
/* Hay 9 variables: */
input al2o3 fe2o3 mgo cao na2o k2o tio2 mno bao;
run;
proc cluster data=ceramica method=single simple ccc std outtree=
single;
var al2o3 fe2o3 mgo cao na2o k2o tio2 mno bao;
proc tree horizontal;
run;
Anlisis de Cluster de datos de cermica
The CLUSTER Procedure
Single Linkage Cluster Analysis
Variable
al2o3
fe2o3
mgo
cao
na2o
k2o
tio2
mno
bao
Mean
Std Dev
Skewness
Kurtosis
Bimodality
1.4673
0.6693
0.3713
0.2989
0.3049
1.0189
1.1240
0.4356
1.1789
0.2533
0.2794
0.2601
0.2638
0.2232
0.2720
0.2306
0.2887
0.2135
-0.4026
-1.0097
0.9876
0.7834
0.9509
0.1279
0.4038
0.0916
-0.2723
-0.8763
-0.3827
0.0891
-0.0871
1.0509
-0.6614
0.3180
-0.5279
0.1408
0.4967
0.7128
0.5977
0.5158
0.4463
0.3979
0.3291
0.3751
0.3200
1
2
3
4
5
6
7
8
9
Eigenvalue
Difference
Proportion
Cumulative
4.19785459
2.52511587
0.87809987
0.45636510
0.38193294
0.27109821
0.11676189
0.09207833
0.08069320
1.67273872
1.64701600
0.42173477
0.07443216
0.11083473
0.15433632
0.02468356
0.01138513
0.4664
0.2806
0.0976
0.0507
0.0424
0.0301
0.0130
0.0102
0.0090
0.4664
0.7470
0.8446
0.8953
0.9377
0.9678
0.9808
0.9910
1.0000
The data have been standardized to mean 0 and variance 1

Root-Mean-Square Total-Sample Standard Deviation =
1
Mean Distance Between Observations
= 3.966628
43
Cluster History
NCL
44
43
42
41
40
39
38
37
36
35
34
33
32
--Clusters Joined-OB14
OB2
OB6
OB12
CL43
OB37
OB23
CL42
CL40
CL37
CL36
CL34
OB41
OB15
OB4
OB8
OB13
OB5
OB44
OB24
OB21
OB9
OB20
CL44
OB17
OB43
FREQ
SPRSQ
RSQ
2
2
2
2
3
2
2
3
4
4
6
7
2
0.0001
0.0002
0.0003
0.0004
0.0006
0.0005
0.0007
0.0010
0.0016
0.0023
0.0033
0.0016
0.0010
1.00
1.00
.999
.999
.998
.998
.997
.996
.995
.992
.989
.987
.986
ERSQ
CCC
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Cluster History
NCL
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
--Clusters Joined-CL33
OB34
OB36
OB1
CL31
OB42
OB38
CL29
OB29
CL28
CL38
CL22
CL24
OB25
OB7
CL21
CL16
CL15
CL19
CL20
CL12
CL11
CL14
OB22
CL8
CL7
CL13
CL6
CL10
CL3
CL2
CL35
OB35
CL32
OB3
OB19
OB45
CL26
CL25
OB30
CL27
OB26
OB18
OB39
OB27
CL41
OB33
CL23
CL30
OB40
OB10
CL17
OB11
OB31
OB32
CL9
OB28
CL39
CL18
OB16
CL4
CL5
Norm
Min
Dist
T
i
e
0.0797
0.0996
0.1216
0.1494
0.1606
0.1655
0.1913
0.1917
0.1953
0.2069
0.2106
0.2128
0.2202
FREQ
SPRSQ
RSQ
ERSQ
CCC
Norm
Min
Dist
11
2
3
2
12
2
3
6
2
14
3
15
7
2
3
4
6
8
8
16
19
20
9
2
11
12
10
14
21
35
45
0.0129
0.0010
0.0027
0.0011
0.0066
0.0014
0.0016
0.0118
0.0021
0.0082
0.0034
0.0145
0.0142
0.0031
0.0043
0.0056
0.0144
0.0155
0.0121
0.0127
0.0228
0.0237
0.0098
0.0047
0.0219
0.0098
0.0247
0.0327
0.0236
0.2890
0.3744
.973
.972
.970
.969
.962
.961
.959
.947
.945
.937
.934
.919
.905
.902
.897
.892
.877
.862
.850
.837
.814
.791
.781
.776
.754
.744
.720
.687
.663
.374
.000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.786
.764
.739
.708
.670
.619
.543
.372
.000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
-.26
0.59
0.72
1.65
2.18
2.87
4.25
0.07
0.00
0.2213
0.2292
0.2309
0.2365
0.239
0.2666
0.2704
0.3002
0.3252
0.3271
0.3418
0.3726
0.3737
0.3929
0.4008
0.4041
0.4124
0.4403
0.4439
0.4459
0.4464
0.4703
0.4711
0.4849
0.4868
0.5
0.5196
0.5203
0.5562
0.7492
0.7507
T
i
e
44
Variable
al2o3
fe2o3
mgo
cao
na2o
k2o
tio2
mno
bao
Mean
Std Dev
Skewness
Kurtosis
Bimodality
1.4673
0.6693
0.3713
0.2989
0.3049
1.0189
1.1240
0.4356
1.1789
0.2533
0.2794
0.2601
0.2638
0.2232
0.2720
0.2306
0.2887
0.2135
-0.4026
-1.0097
0.9876
0.7834
0.9509
0.1279
0.4038
0.0916
-0.2723
-0.8763
-0.3827
0.0891
-0.0871
1.0509
-0.6614
0.3180
-0.5279
0.1408
0.4967
0.7128
0.5977
0.5158
0.4463
0.3979
0.3291
0.3751
0.3200
1
2
3
4
5
6
7
8
9
Eigenvalue
Difference
Proportion
Cumulative
4.19785459
2.52511587
0.87809987
0.45636510
0.38193294
0.27109821
0.11676189
0.09207833
0.08069320
1.67273872
1.64701600
0.42173477
0.07443216
0.11083473
0.15433632
0.02468356
0.01138513
0.4664
0.2806
0.0976
0.0507
0.0424
0.0301
0.0130
0.0102
0.0090
0.4664
0.7470
0.8446
0.8953
0.9377
0.9678
0.9808
0.9910
1.0000
The data have been standardized to mean 0 and variance 1

Root-Mean-Square Total-Sample Standard Deviation =
1
Mean Distance Between Observations
= 3.966628
Cluster History
NCL
44
43
42
41
40
39
38
37
36
35
34
33
32
--Clusters Joined-OB14
OB2
OB6
OB12
CL43
OB37
OB23
CL42
CL40
CL37
CL36
CL34
OB41
OB15
OB4
OB8
OB13
OB5
OB44
OB24
OB21
OB9
OB20
CL44
OB17
OB43
FREQ
SPRSQ
RSQ
2
2
2
2
3
2
2
3
4
4
6
7
2
0.0001
0.0002
0.0003
0.0004
0.0006
0.0005
0.0007
0.0010
0.0016
0.0023
0.0033
0.0016
0.0010
1.00
1.00
.999
.999
.998
.998
.997
.996
.995
.992
.989
.987
.986
ERSQ
CCC
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Norm
Min
Dist
T
i
e
0.0797
0.0996
0.1216
0.1494
0.1606
0.1655
0.1913
0.1917
0.1953
0.2069
0.2106
0.2128
0.2202
45
Cluster History
NCL
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
--Clusters Joined-CL33
OB34
OB36
OB1
CL31
OB42
OB38
CL29
OB29
CL28
CL38
CL22
CL24
OB25
OB7
CL21
CL16
CL15
CL19
CL20
CL12
CL11
CL14
OB22
CL8
CL7
CL13
CL6
CL10
CL3
CL2
CL35
OB35
CL32
OB3
OB19
OB45
CL26
CL25
OB30
CL27
OB26
OB18
OB39
OB27
CL41
OB33
CL23
CL30
OB40
OB10
CL17
OB11
OB31
OB32
CL9
OB28
CL39
CL18
OB16
CL4
CL5
FREQ
SPRSQ
RSQ
ERSQ
CCC
Norm
Min
Dist
11
2
3
2
12
2
3
6
2
14
3
15
7
2
3
4
6
8
8
16
19
20
9
2
11
12
10
14
21
35
45
0.0129
0.0010
0.0027
0.0011
0.0066
0.0014
0.0016
0.0118
0.0021
0.0082
0.0034
0.0145
0.0142
0.0031
0.0043
0.0056
0.0144
0.0155
0.0121
0.0127
0.0228
0.0237
0.0098
0.0047
0.0219
0.0098
0.0247
0.0327
0.0236
0.2890
0.3744
.973
.972
.970
.969
.962
.961
.959
.947
.945
.937
.934
.919
.905
.902
.897
.892
.877
.862
.850
.837
.814
.791
.781
.776
.754
.744
.720
.687
.663
.374
.000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.786
.764
.739
.708
.670
.619
.543
.372
.000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
-.26
0.59
0.72
1.65
2.18
2.87
4.25
0.07
0.00
0.2213
0.2292
0.2309
0.2365
0.239
0.2666
0.2704
0.3002
0.3252
0.3271
0.3418
0.3726
0.3737
0.3929
0.4008
0.4041
0.4124
0.4403
0.4439
0.4459
0.4464
0.4703
0.4711
0.4849
0.4868
0.5
0.5196
0.5203
0.5562
0.7492
0.7507
T
i
e
46
47
Tema 6: Anlisis Discriminante

Introduccin
Supongamos que un conjunto de objetos est ya clasificado en una serie de grupos, es
decir, se sabe previamente a qu grupos pertenecen. El Anlisis Discriminante se puede
considerar como un anlisis de regresin donde la variable dependiente es categrica y
tiene como categoras la etiqueta de cada uno de los grupos, y.las variables independientes
son continuas y determinan a qu grupos pertenecen los objetos. Se pretende encontrar
relaciones lineales entre las variables continuas que mejor discriminen en los grupos dados
a los objetos.
Un segundo objetivo es construir una regla de decisin que asigne un objeto nuevo,
que no sabemos clasificar previamente, a uno de los grupos prefijados con un cierto grado
de riesgo.
Es necesario considerar una serie de restricciones o supuestos:
Se tiene una variable categrica y el resto de variables son de intervalo o de razn y son
independientes respecto de ella.
Es necesario que existan al menos dos grupos, y para cada grupo se necesitan dos o ms
casos.
El nmero de variables discriminantes debe ser menor que el nmero de objetos menos
2: x1 , ..., xp , donde p < (n 2) y n es el nmero de objetos.
Ninguna variable discriminante puede ser combinacin lineal de otras variables discriminantes.
1
El nmero mximo de funciones discriminantes es igual al mnimo entre el nmero de

variables y el nmero de grupos menos 1 (con q grupos, (q 1) funciones discriminantes).
Las matrices de covarianzas dentro de cada grupo deben ser aproximadamente iguales.
Las variables continuas deben seguir una distribucin normal multivariante.
Modelo matemtico
A partir de q grupos donde se asignan a una serie de objetos y de p variables medidas
sobre ellos (x1 , . . . , xp ), se trata de obtener para cada objeto una serie de puntuaciones
que indican el grupo al que pertenecen (y1 , . . . , ym ), de modo que sean funciones lineales
de x1 , . . . , xp
y1 = a11 x1 + + a1p xp + a10
ym = am1 x1 + + amp xp + am0

donde m = mn(q 1, p), tales que discriminen o separen lo mximo posible a los q
grupos. Estas combinaciones lineales de las p variables deben maximizar la varianza entre
los grupos y minimizar la varianza dentro de los grupos.
Descomposicin de la varianza
Se puede descomponer la variabilidad total de la muestra en variabilidad dentro de los
grupos y entre los grupos.
Partimos de
1X
(xij xj ) (xij 0 xj 0 )
Cov (xj , xj 0 ) =
n i=1
n
Se puede considerar la media de la variable xj en cada uno de los grupos I1 , . . . , Iq , es
decir,
xkj =
1 X
xij
nk iI
k
para k = 1, . . . , q.
De este modo, la media total de la variable xj se puede expresar como funcin de las
medias dentro de cada grupo. As,
X
xij = nk xkj ,
iIk
entonces
q
1X
1 XX
=
xij =
xij =
n i=1
n k=1 iI
n
xj
X nk
1X
nk xkj =
xkj .
n k=1
n
k=1
As,
q
1 XX
(xij xj ) (xij 0 xj 0 )
Cov (xj , xj 0 ) =
n k=1 iI
k
Si en cada uno de los trminos se pone:
(xij xj ) = (xij xkj ) + (

xkj xj )
xkj 0 xj 0 )
(xij 0 xj 0 ) = (xij 0 xkj 0 ) + (
al simplificar se obtiene:
q
q
X
nk
1 XX
0
0
(xij xkj ) (xij xkj ) +
xkj 0 xj 0 ) =
(
xkj xj )(
Cov (xj , x ) =
n k=1 iI
n
k=1
j0
= d(xj , xj 0 ) + e(xj , xj 0 ).
Es decir, la covarianza total es igual a la covarianza dentro de grupos ms la covarianza
entre grupos. Si denominamos como t(xj , xj 0 ) a la covarianza total entre xj y xj 0 (sin
distinguir grupos), entonces lo anterior se puede expresar como
t(xj , xj 0 ) = d(xj , xj 0 ) + e(xj , xj 0 ).
3
En notacin matricial esto es equivalente a

T =E+D
donde:
T = matriz de covarianzas total
E = matriz de covarianzas entre grupos
D = matriz de covarianzas dentro de grupos.
Extraccin de las funciones discriminantes

La idea bsica del Anlisis Discriminante consiste en extraer a partir de x1 , . . . , xp
variables observadas en k grupos, m funciones y1 , . . . , ym de forma
yi = ai1 x1 + + aip xp + ai0
donde m = mn(q 1, p), tales que corr(yi , yj ) = 0 para todo i 6= j.
Si las variables x1 , . . . , xp estn tipificadas, entonces las funciones
yi = ai1 x1 + + aip xp
para i = 1, . . . , m, se denominan funciones discriminantes cannicas.
Las funciones y1 , . . . , ym se extraen de modo que
(i) y1 sea la combinacin lineal de x1 , . . . , xp que proporciona la mayor discriminacin
posible entre los grupos.
(ii) y2 sea la combinacin lineal de x1 , . . . , xp que proporciona la mayor discriminacin
posible entre los grupos, despus de y1 , tal que corr(yi , y2 ) = 0.
En general, yi es la combinacin lineal de x1 , . . . , xp que proporciona la mayor discriminacin posible entre los grupos despus de yi1 y tal que corr(yi , yj ) = 0 para
j = 1, . . . , (i 1).
4
Procedimiento matricial
Se sigue un mtodo parecido al anlisis factorial, as se busca una funcin lineal de
x1 , . . . , xp : y = a0 x, de modo que
V ar(y) = a0 T a = a0 Ea + a0 Da
es decir, la variabilidad entre grupos ms la variabilidad dentro de grupos.
Queremos maximizar la variabilidad entre los grupos para discriminarlos mejor y esto
equivale a hacer
a0 Ea
,
max
a0 T a
es decir, maximizar la varianza entre grupos en relacin al total de la varianza.

Si consideramos la funcin
f (a) =
a0 Ea
a0 T a
Se observa que f es una funcin homognea, es decir,

f (a) = f (a)
para todo R.
El hecho de que la funcin sea homognea implica que calcular max
calcular
a0 Ea
a0 T a
equivale a
max (a0 Ea)

tal que
a0 T a = 1
Como este es el esquema habitual de los multiplicadores de Lagrange, se define
L = a0 Ea (a0 T a 1)
y se calcula su derivada:
L
= 0.
a
5
L
= 2Ea 2T a = 0
a
Ea = T a
(T 1 E)a = a
Por tanto, el autovector asociado a la primera funcin discriminante lo es de la matriz
T 1 E (que no es simtrica en general).
Como Ea = T a,
a0 Ea = a0 T a =
Luego si tomo el vector asociado al mximo autovalor, se obtendr la funcin que recoge
el mximo poder discriminante.
El autovalor asociado a la funcin discriminante indica la proporcin de varianza total
explicada por las m funciones discriminantes que recoge la variable yi .
Para obtener ms funciones discriminantes, se siguen sacando los autovectores de la
matriz (T 1 E) asociados a los autovalores elegidos en orden decreciente:
a02
..
.
a0m
a02 x = y2
..
.
a0m x = ym
donde m = mn(q 1, p)
Estos vectores son linealmente independientes y dan lugar a funciones incorreladas
entre s.
La suma de todos los autovalores,
Pm
i=1
i , es la proporcin de varianza total que
queda explicada, o se conserva, al considerar slo los ejes o funciones discriminantes.

Como consecuencia, el porcentaje explicado por yi del total de varianza explicada por
y1 , . . . , ym es
Pm i
i=1
100 %
Anlisis Discriminante con SPSS

Cuando se utiliza SPSS se suelen considerar varias fases en el anlisis discriminante.
Comprobacin de los supuestos paramtricos del anlisis discriminante

En sentido estricto, la funcin discriminante minimiza la probabilidad de equivocarse
al clasificar los individuos en cada grupo. Para ello, las variables originales se deben
distribuir como una normal multivariante y las matrices de covarianzas deben ser iguales
en todos los grupos. En la prctica es una tcnica robusta y funciona bien aunque las dos
restricciones anteriores no se cumplan.
Si un conjunto de variables se distribuye como una normal multivariante, entonces
cualquier combinacin lineal de ellas se distribuye como una normal univariante. Por ello,
si alguna de las variables originales no se distribuye como una normal, entonces es seguro
que todas las variables conjuntamente no se distribuirn como una normal multivariante.
La segunda restriccin se refiere a la igualdad entre las matrices de covarianzas de los
grupos. Para comprobar esto, se puede usar la prueba M de Box, que est incluida en el
SPSS. Dicha prueba tiene como hiptesis nula que las matrices de covarianzas son iguales.
Se basa en el clculo de los determinantes de las matrices de covarianzas de cada grupo.
El valor obtenido se aproxima por una F de Snedecor. Si el p-valor es menor que 0,05 se
rechaza la igualdad entre las matrices de covarianzas.
El test M de Box es sensible a la falta de normalidad multivariante, es decir, matrices
iguales pueden aparecer como significativamente diferentes si no existe normalidad. Por
otra parte, si las muestras son grandes, pierde efectividad (es ms fcil rechazar la hiptesis
nula).
Seleccin de las variables discriminantes

Primero se puede realizar un anlisis descriptivo univariante calculando las medias
y las desviaciones estndar de las variables originales para cada uno de los grupos por
7
separado. Si para alguna variable las medias de los grupos son diferentes y la variabilidad
es pequea, se considera que dicha variable ser importante a la hora de discriminar a los
grupos.
A continuacin, se observan las relaciones entre las variables. Se calculan matrices de
correlaciones en lugar de matrices de covarianzas por ser ms fcilmente interpretables.
Adems de analizar la correlacin entre pares de variables sin distinguir grupos, se debe
analizar las correlaciones dentro de cada grupo y luego considerar la media de las mismas
Se calcula tambin la matriz Pooled within-groups correlation matrix. Dicha matriz se
calcula como una matriz media de correlaciones calculadas por separado en cada grupo. A
menudo no se parece a la matriz de correlaciones total. Veamos, por ejemplo, el siguiente
grfico de dos variables y tres grupos:
Si se considera cada grupo por separado (1, 2 y 3), el coeficiente de correlacin entre x1
y x2 es 0 (el hecho de variar x1 no influye en x2 : la pendiente de la recta de regresin
es 0). Si hallamos la media de esos coeficientes, su valor es tambin 0; sin embargo, el
coeficiente de correlacin calculado para todos los datos sin tener en cuenta a los grupos
est prximo a 1, porque cuando aumenta el valor de x1 tambin lo hace el valor de x2 .
8
Estadsticos usados
F de Snedecor Se compara para cada variable las desviaciones de las medias de cada
uno de los grupos a la media total, entre las desviaciones a la media dentro de cada grupo.
Si F es grande para cada variable, entonces las medias de cada grupo estn muy separadas
y la variable discrimina bien. Si F es pequea, la variable discriminar poco, ya que habr
poca homogeneidad en los grupos y stos estarn muy prximos.
de Wilks Tambin se la denomina U -estadstico. Cuando se considera a las variables
de modo individual, la es igual al cociente entre la suma de cuadrados dentro de los
grupos y la suma de cuadrados total (sin distinguir grupos). Es decir, equivale a las
desviaciones a la media dentro de cada grupo, entre las desviaciones a la media total sin
distinguir grupos. Si su valor es pequeo, la variable discrimina mucho: la variabilidad
total se debe a las diferencias entre grupos, no a las diferencias dentro de grupos.
Variables originales que se consideran

La idea del Anlisis discriminante es construir funciones lineales de las variables originales que discriminen entre los distintos grupos. Sin embargo, no todas las variables
discriminan de la misma forma o tienen los mismos valores de la F de Snedecor o de la
de Wilks. Por ello, a la hora de construir las funciones lineales, no es necesario incluir a
todas las variables iniciales en la funcin.
Como criterio general para seleccionar una variable se emplea la seleccin del valor de
la de Wilks o, de modo equivalente, del valor de su F asociada.
Se usan fundamentalmente dos mtodos de seleccin de variables: el mtodo directo y
el mtodo stepwise.
En el mtodo directo se consideran todas las variables originales que verifiquen un
criterio de seleccin.
El mtodo stepwise es un mtodo que funciona con varios pasos:
(i ) Se incluye en el anlisis la variable que tenga el mayor valor aceptable para el criterio
de seleccin o de entrada.
(ii) Se evala el criterio de seleccin para las variables no seleccionadas. La variable que
presenta el valor ms alto para el criterio se selecciona (siempre que est dentro de
un lmite).
(iii) Se examinan las variables seleccionadas segn un criterio de salida y se examinan
tambin las variables no seleccionadas, para ver si cumplen el criterio de entrada. Se
excluyen o se incluyen variables segn cumplan los criterios de entrada y de salida.
(iv) Se repite el paso (iii) hasta que ninguna variable ms pueda ser seleccionada o
eliminada.
Adems de todo lo anterior, en el SPSS se considera un nmero mximo de pasos,
dado que una variable puede ser incluida y eliminada en ms de una ocasin. Se toma
el doble del nmero de variables originales como nmero mximo de pasos del mtodo
stepwise.
En el SPSS se considera tambin para cada variable la tolerancia asociada.
Tolerancia
Se define para un conjunto de p variables, Ri , el coeficiente de correlacin mltiple que
expresa el porcentaje de variabilidad de la variable xi (i = 1, . . . , p) recogida por el resto
de (p 1) variables. Si se eleva al cuadrado Ri2 se obtiene el coeficiente de determinacin.
Entonces, la tolerancia se define como 1 Ri2 . As, cuanto mayor sea la tolerancia de una
variable, ms informacin independiente del resto de variables recoger.
De este modo, si en una iteracin dada del procedimiento stepwise la variable seleccionada verifica que su tolerancia con respecto a las variables ya incluidas en la funcin
discriminante es muy pequea entonces la variable no se incluye en dicha etapa. As, se
evita la redundancia de informacin.
10
Clculo de la F y de la de Wilks multivariantes para fijar los

criterios de entrada y salida
Para un conjunto de variables se define la F como
F =
|B|
|W |
donde
|B| = determinante de la matriz de covarianzas entre grupos.
|W | = determinante de la suma de las matrices de covarianzas dentro de los grupos.
En general, el determinante de una matriz de covarianzas da una medida de la variabilidad total de un conjunto de variables.
A partir de este valor de F, se puede calcular la correspondiente de Wilks, ya que
nkp1
F =
k1
1
1
donde
n = nmero de observaciones
k = nmero de grupos
p = nmero de variables
La F y la de Wilks se interpretan del mismo modo que en el caso univariante.
Cuando se comparan covarianzas entre grupos, se hace en base a los centroides de los
grupos, es decir, a los vectores de medias de las variables en cada grupo.
Estadsticos que se calculan en el procedimiento stepwise

F de entrada (F to enter):
Expresa la disminucin en la de Wilks que se produce si se incluye una variable
dada entre las que no estn dentro de la funcin discriminante. Si el valor es pequeo, la
disminucin de la de Wilks ser inapreciable y la variable no entrar en la funcin.
11
F de salida (F to remove):
Expresa el incremento que se produce en la de Wilks, si se elimina de la funcin
discriminante una variable dada. Si el valor de la F de salida es pequeo, el incremento
no ser significativo y la variable se eliminar del anlisis.
Correlacin Cannica
Da una medida del grado de asociacin entre las puntuaciones discriminantes de cada
uno de los objetos y el grupo concreto de pertenencia:
2 =
SCENT RE
,
SCT OT AL
es decir, es la proporcin de la variabilidad total debida a la diferencia entre grupos para

las funciones discriminantes.
Cuando slo se tienen dos grupos, la correlacin cannica es igual al coeficiente de
correlacin entre la puntuacin discriminante y el grupo de pertenencia, que se representa
por una variable codificada en 01 (en SPSS).
Significacin y coeficientes de las funciones discriminantes

Cuando no existen diferencias entre los grupos, las funciones discriminantes slo indican variabilidad aleatoria (ruido). Se puede usar la de Wilks para realizar un test en el
cual la hiptesis nula es que las medias de las funciones discriminantes en cada grupo son
iguales.
Cuando se tienen varios grupos y varias funciones, se calcula una de Wilks total
mediante el producto de las de Wilks de cada funcin. sta se puede aproximar por una
2 , usando la siguiente transformacin:
p+k
V = n1
ln()
2
de modo que V 2p(k1) aproximadamente. De este modo, si es pequeo V es grande
y se rechaza la hiptesis nula.
12
Si la significacin asociada al valor de la 2 es menor que 0,05 (o bien otro valor

prefijado) se rechaza la hiptesis nula (a dicho nivel de confianza).
Interpretacin de los coeficientes de la funcin discriminante
Si usamos variables originales tipificadas, se obtienen los coeficientes aij que relacionan
las variables con las funciones discriminantes:
x1
..
.
y1
a11
..
.
...
ym
am1
..
.
xp
a1p
amp
Se pueden interpretar las magnitudes de los coeficientes como indicadores de la importancia relativa de las variables en cada funcin discriminante. As, si aij es grande en
valor absoluto, entonces hay una fuerte asociacin entre la variable xj y la funcin yi ,
en relacin al resto de variables. An as, al existir en general correlaciones significativas
entre las variables originales, se debe tener cuidado al hacer interpretaciones precipitadas.
Matriz de estructura
Otra forma de calcular la contribucin de cada variable a una funcin discriminante
es examinar las correlaciones entre los valores de la funcin y los valores de las variables.
Se calculan, dentro de cada grupo, las correlaciones entre las variables y las puntuaciones;
luego se combinan en una matriz pooled within-groups correlation matrix. Los valores
obtenidos dan una medida de las contribuciones.
Clasificacin de los objetos

Una vez calculadas las funciones discriminantes, es decir, las combinaciones lineales
de las variables originales, a cada objeto se le puede asignar una puntuacin o valor dado
en la funcin discriminante.
13
Esto equivale al valor que se recoge en una ecuacin de regresin. As, si xij es el
valor que alcanza el objeto i-simo en la variable j-sima, entonces la puntuacin o valor
alcanzado en la funcin discriminante k ser:
yik = ak1 xi1 + + akp xip + ak0
Regla de Bayes
Se pueden usar las puntuaciones discriminantes para obtener una regla para clasificar
los casos en los grupos. En el SPSS se usa la regla de Bayes.
As, la probabilidad de que un objeto j, con una puntuacin discriminante D =
(yj1 , ..., yjm ), pertenezca al grupo i-simo se puede estimar mediante la regla de Bayes:
P (Gi |D) =
P (D|Gi ) P (Gi )
k
P
P (D|Gi ) P (Gi )
i=1
P (Gi ) es la probabilidad a priori y es una estima de la confianza de que un objeto

pertenezca a un grupo si no se tiene informacin previa. Por ejemplo, si 70 de 113 personas
sobreviven en la muestra, la probabilidad de sobrevivir se aproxima por 70/113.
Las probabilidades a priori se pueden determinar de distintos modos. Si la muestra se
considera representativa de la poblacin, se pueden usar las proporciones de los casos en
cada grupo como estimadores de dichas probabilidades. Cuando todos los grupos tienen
el mismo nmero de objetos y no se tiene ningn tipo de informacin previa, se asignan
probabilidades a priori iguales para todos los grupos.
P (D|Gi ) es la probabilidad de obtener la puntuacin D estando en el grupo i-simo.
Como las puntuaciones discriminantes se calculan a partir de combinaciones lineales de p
variables, distribuidas segn una normal, se distribuyen a su vez como una normal, cuya
media y varianza se estiman a partir de todas las puntuaciones que se recogen en el grupo
i-simo.
P (Gi |D) es la probabilidad a posteriori que se estima a travs de P (Gi ) y de P (D|Gi ).
En realidad, mide lo mismo que la P (Gi ), pero refina la medida de incertidumbre al tener
14
en cuenta la informacin que recogen las puntuaciones discriminantes D. Es decir, lo que

interesa es calcular la probabilidad de que un objeto pertenezca al grupo Gi , dado que
presenta la puntuacin D.
Se asignar un objeto al grupo Gi cuya probabilidad a posteriori sea mxima, es decir,
dado que presenta la puntuacin D.
Matriz de confusin
Da una idea de la tasa de clasificaciones incorrectas. Como se sabe el grupo al que
pertenece cada objeto, se puede comprobar la efectividad del mtodo de clasificacin
usando la mxima probabilidad a posteriori, cuando se observa el porcentaje de casos bien
clasificados. No obstante, se tiene que tener en cuenta tambin la tasa de clasificaciones
incorrectas esperadas segn las probabilidades a priori.
Ejemplos
Se consideran los datos recogidos sobre 32 crneos en el Tibet.
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Longitud
190.50
172.50
167.00
169.50
175.00
177.50
179.50
179.50
173.50
162.50
178.50
171.50
180.50
183.00
169.50
172.00
170.00
182.50
179.50
191.00
184.50
181.00
173.50
188.50
175.00
196.00
200.00
185.00
174.50
195.50
197.00
182.50
Anchura
152.50
132.00
130.00
150.50
138.50
142.50
142.50
138.00
135.50
139.00
135.00
148.50
139.00
149.00
130.00
140.00
126.50
136.00
135.00
140.50
141.50
142.00
136.50
130.00
153.00
142.50
139.50
134.50
143.50
144.00
131.50
131.00
Altura
145.00
125.50
125.50
133.50
126.00
142.50
127.50
133.50
130.50
131.00
136.00
132.50
132.00
121.50
131.00
136.00
134.50
138.50
128.50
140.50
134.50
132.50
126.00
143.00
130.00
123.50
143.50
140.00
132.50
138.50
135.00
135.00
Altura.Cara
73.50
63.00
69.50
64.50
77.50
71.50
70.50
73.50
70.00
62.00
71.00
65.00
74.50
76.50
68.00
70.50
66.00
76.00
74.00
72.50
76.50
79.00
71.50
79.50
76.50
76.00
82.50
81.50
74.00
78.50
80.50
68.50
.Anchura.Cara
136.50
121.00
119.50
128.00
135.50
131.00
134.50
132.50
133.50
126.00
124.00
146.50
134.50
142.00
119.00
133.50
118.50
134.00
132.00
131.50
141.50
136.50
136.50
136.00
142.00
134.00
146.00
137.00
136.50
144.00
139.00
136.00
Tipo
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Los datos corresponden a dos tipos raciales diferentes en los que se practicaron diferentes medidas antropomtricas de longitudes, anchuras de crneo y de cara. Se trata de
hacer un anlisis discriminante sobre los dos tipos raciales.
Se toma una muestra de 50 vehculos producidos en EE.UU, Japn y Europa. Se
consideran las siguientes variables: Consumo, Cilindrada, Potencia, Peso, Aceleracin,
Ao del modelo y Nmero de cilindros. Se trata de hacer un anlisis discriminante sobre
los tres tipos de vehculos, en funcin de su origen.
16
Anlisis Discriminante (con SPSS)
17
18
Media, desviacin tpica, nmero de casos vlidos (ponderado y no ponderado) para cada uno de
los grupos y para la muestra total:
Group Statistics
Country of
Origin
Mean
25
25,000
Engine Displacement (cu. inches)
245,44
94,885
25
25,000
Horsepower
123,56
44,563
25
25,000
3368,28
799,303
25
25,000
Time to Accelerate from 0 to 60 mph

(sec)
14,85
2,311
25
25,000
Model Year (modulo 100)
75,16
3,496
25
25,000
6,24
1,763
25
25,000
28,92
6,345
9,000
105,56
21,190
9,000
76,56
18,882
9,000
2341,44
395,406
9,000

(sec)
16,78
3,081
9,000
74,67
3,464
9,000
4,00
,000
9,000
30,64
6,966
16
16,000
106,50
30,124
16
16,000
83,81
22,489
16
16,000
2288,94
388,479
16
16,000

(sec)
15,23
2,058
16
16,000
78,38
2,941
16
16,000
4,13
,806
16
16,000
24,97
8,572
50
50,000
175,80
98,537
50
50,000
Horsepower
102,38
40,616
50
50,000
2838,06
819,660
50
50,000

(sec)
15,32
2,443
50
50,000
76,10
3,621
50
50,000
5,16
1,707
50
50,000
Vehicle Weight (lbs.)
Miles per Gallon

Horsepower
Number of Cylinders
Miles per Gallon
Horsepower
Japanese
Number of Cylinders
Miles per Gallon
Total
Unweighted Weighted
7,236
Number of Cylinders
European
Valid N (listwise)
19,92
Miles per Gallon
American
Std.
Deviation
Number of Cylinders
19
Tabla de ANOVA con estadsticos F que permiten contrastar la hiptesis de igualdad de medias
entre los grupos en cada variable independiente. La tabla de ANOVA incluye tambin el estadstico
lambda de Wilks univariante. La informacin de esta tabla suele utilizarse como prueba preliminar
para detectar si los grupos difieren en las variables de clasificacin seleccionadas; sin embargo,
debe tenerse en cuenta que una variable no significativa a nivel univariante podra aportar
informacin discriminativa a nivel multivariante.
Tests of Equality of Group Means
Wilks' Lambda
Df1 df2 Sig.
Miles per Gallon
,641 13,186
47 ,000
,490 24,428
47 ,000
Horsepower
,719
9,195
47 ,000
,573 17,546
47 ,000
Time to Accelerate from 0 to 60 mph (sec)
,915
2,180
47 ,124
,808
5,586
47 ,007
Number of Cylinders
,591 16,281
47 ,000
Correlacin intra-grupos. Muestra la matriz de correlaciones intra-grupo combinada, es decir la

matriz de correlaciones entre las variables independientes estimada a partir de las correlaciones
obtenidas dentro de cada grupo.
Pooled Within-Groups Matrices
Time to
Model
Number
Miles
Engine
Vehicle Accelerate
Year
of
per Displacement Horsepower Weight from 0 to
(modulo
Cylinders
Gallon (cu. inches)
(lbs.)
60 mph
100)
(sec)
Miles per
Gallon
1,000
-,664
-,693
-,719
,421
,722
-,571
Engine
Displacement
(cu. inches)
-,664
1,000
,851
,788
-,520
-,442
,914
Horsepower
-,693
,851
1,000
,725
-,660
-,546
,740
-,719
,788
,725
1,000
-,302
-,363
,766
,421
-,520
-,660
-,302
1,000
,354
-,484
,722
-,442
-,546
-,363
,354
1,000
-,357
-,571
,914
,740
,766
-,484
-,357
1,000
Vehicle
Correlation Weight (lbs.)
Time to
Accelerate
from 0 to 60
mph (sec)
Model Year
(modulo 100)
Number of
Cylinders
20
Box's Test of Equality of Covariance Matrices

Log Determinants
Country of Origin
Rank
Log Determinant
American
16,939
European
13,649
Japanese
14,181
Pooled within-groups
16,386
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
41,689
Box's M
3,061
Approx.
F
df1
12
df2
3043,281
Sig.
,000
Tests null hypothesis of equal population covariance matrices.
Stepwise Statistics
Variables Entered/Removed(a,b,c,d)
Wilks' Lambda
Step
Entered
Statistic df1 df2
Exact F
Df3
Statistic df1
df2
Sig.
,490
2 47,000
24,428
2 47,000 ,000
,406
2 47,000
13,083
4 92,000 ,000
Horsepower
,344
2 47,000
10,569
6 90,000 ,000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a Maximum number of steps is 14.
b Minimum partial F to enter is 3.84.
c Maximum partial F to remove is 2.71.
d F level, tolerance, or VIN insufficient for further computation.
21
Variables in the Analysis

Step
1
2
Tolerance F to Remove Wilks' Lambda

1,000
24,428
,804
22,737
,808
,804
4,756
,490
,275
14,713
,569
,701
5,981
,436
Horsepower
,240
4,063
,406
Variables Not in the Analysis

Step
Tolerance
Min.
Tolerance
F to
Enter
Wilks'
Lambda
Miles per Gallon
1,000
1,000
13,186
,641
1,000
1,000
24,428
,490
Horsepower
1,000
1,000
9,195
,719
1,000
1,000
17,546
,573

(sec)
1,000
1,000
2,180
,915
1,000
1,000
5,586
,808
Number of Cylinders
1,000
1,000
16,281
,591
Miles per Gallon
,559
,559
,419
,482
Horsepower
,275
,275
2,887
,436
,379
,379
,174
,487

(sec)
,730
,730
3,246
,430
,804
,804
4,756
,406
Number of Cylinders
,165
,165
,796
,474
Miles per Gallon
,331
,331
1,496
,381
Horsepower
,240
,240
4,063
,344
,379
,351
,154
,404

(sec)
,711
,654
3,746
,348
Number of Cylinders
,162
,150
,810
,392
Miles per Gallon
,325
,235
1,557
,321
,368
,214
,457
,337

(sec)
,557
,188
1,101
,328
Number of Cylinders
,159
,097
1,142
,327
22
Wilks' Lambda
Exact F
Step Number of Variables Lambda df1 df2 df3
Statistic df1
df2
Sig.
,490
47
24,428
2 47,000 ,000
,406
47
13,083
4 92,000 ,000
,344
47
10,569
6 90,000 ,000
Summary of Canonical Discriminant Functions

Eigenvalues
Function Eigenvalue % of Variance Cumulative % Canonical Correlation
1
1,263(a)
81,6
81,6
,747
,284(a)
18,4
100,0
,470
a First 2 canonical discriminant functions were used in the analysis.

Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 through 2
,344
49,067
6 ,000
,779
11,495
2 ,003
Standardized Canonical Discriminant Function Coefficients

Function
1
1,595
-,304
Horsepower
-,819
1,091
-,019
1,164
23
Structure Matrix
Function
1
,906(*)
,110
Number of Cylinders(a)
,858(*)
,114
Vehicle Weight (lbs.)(a)
,669(*)
,129
Horsepower
,549(*)
,197
Miles per Gallon(a)
-,505(*)
,286
Time to Accelerate from 0 to 60 mph (sec)(a)
-,294(*)
-,150
-,278
,703(*)
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant
functions
Variables ordered by absolute size of correlation within function.
* Largest absolute correlation between each variable and any discriminant function
a This variable not used in the analysis.
Coeficientes de clasificacin de Fisher. Pueden utilizarse directamente para la clasificacin. Se
obtiene un conjunto de coeficientes para cada grupo, y se asigna un caso al grupo para el que tiene
una mayor puntuacin discriminante.
Canonical Discriminant Function Coefficients
Function
1
,023
-,004
Horsepower
-,023
,031
-,006
,350
-1,150 -29,070
(Constant)
Unstandardized coefficients
Functions at Group Centroids

Function
Country of Origin
1
American
1,088
,027
European
-,980
-1,000
Japanese
-1,149
,520
Unstandardized canonical discriminant functions evaluated at group means
24
Classification Statistics
Prior Probabilities for Groups
Country of Origin Prior
Cases Used in Analysis

Unweighted Weighted
American
,500
25
25,000
European
,180
9,000
Japanese
,320
16
16,000
1,000
50
50,000
Total
Classification Function Coefficients

Country of Origin
American European Japanese
Engine Displacement (cu. Inches)
Horsepower
(Constant)
-,015
-,057
-,067
,668
,684
,735
10,521
10,173
10,707
-435,516
-404,685 -447,914
Fisher's linear discriminant functions
25
Validacin cruzada: para comprobar la capacidad predictiva de la funcin discriminante,. para ello
el SPSS genera tantas funciones discriminantes como casos vlidos tiene el anlisis; cada una de
esas funciones se obtiene eliminando un caso; despus, cada caso es clasificado utilizando la
funcin discriminante en la que no ha intervenido.
Classification Results(b,c)
Predicted Group Membership
Country of Origin
American
Count
Original
%
Count
Cross-validated(a)
%
Total
Japanese
European
American
17
25
European
Japanese
14
16
American
68,0
12,0
20,0
100,0
European
11,1
66,7
22,2
100,0
Japanese
,0
12,5
87,5
100,0
American
17
25
European
Japanese
14
16
American
68,0
12,0
20,0
100,0
European
11,1
66,7
22,2
100,0
,0
12,5
87,5
100,0
Japanese
a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the
functions derived from all cases other than that case.
b 74,0% of original grouped cases correctly classified.
c 74,0% of cross-validated grouped cases correctly classified.
26
Anlisis Discriminante (con R)

# Se carga la librera MASS
library(MASS)
# Se hace un anlisis discriminante lineal
dis <- lda(Tipo ~ Longitud + Anchura + Altura + Altura.Cara +
Anchura.Cara, data=Tibet, prior=c(0.5,0.5))
dis
Call:
lda(Tipo ~ Longitud + Anchura + Altura + Altura.Cara + Anchura.Cara,
data = Tibet, prior = c(0.5, 0.5))
Prior probabilities of groups:
1
2
0.5 0.5
Group means:
Longitud Anchura
Altura Altura.Cara Anchura.Cara
1 174.8235 139.3529 132.0000
69.82353
130.3529
2 185.7333 138.7333 134.7667
76.46667
137.5000
Coefficients of linear discriminants:
LD1
Longitud
0.047726591
Anchura
-0.083247929
Altura
-0.002795841
Altura.Cara
0.094695000
Anchura.Cara 0.094809401
# Se consideran las medidas de dos nuevos craneos

nuevosdatos <rbind(c(171,140.5,127.0,69.5,137.0),c(179.0,132.0,140.0,72.0,138.5))
# Asigno a los dos nuevos datos los nombres de las variables
colnames(nuevosdatos) <- colnames(Tibet[,-6])
nuevosdatos <- data.frame(nuevosdatos)
# Se predice el grupo de pertenencia de los nuevos datos
predict(dis,newdata=nuevosdatos)$class
[1] 1 2
Levels: 1 2
$posterior
1
2
1 0.7545066 0.2454934
2 0.1741016 0.8258984
$x
LD1
1 -0.6000350
2 0.8319908
27
# Se predicen los datos originales en los grupos segun

# la function discriminante
grupo <- predict(dis,method="plug-in")$class
# Se observa el numero de datos originales bien y mal clasificados
table(grupo,Type)
Type
grupo 1 2
1 14 3
2 3 12
28
Anlisis Discriminante (con SAS)

/* Analisis Discriminante de los datos de coches con 3 grupos */
title 'Analisis Discriminante con 3 grupos de coches';
data coches;
infile 'C:\...\ADSAS.txt';
input mpg engine horse weight accel year origin cylinder;
run;
/* Analisis Discriminante con todas las variables */
proc discrim data=coches
pool=test simple manova wcov crossvalidate;
class origin;
var mpg engine horse weight accel year cylinder;
run;
/* Analisis Discriminante Stepwise con todas las variables */
proc stepdisc data=coches
sle=0.05 sls=0.05;
class origin;
var mpg engine horse weight accel year cylinder;
run;
Analisis Discriminante con 3 grupos de coches

The DISCRIM Procedure
Observations
Variables
Classes
50
7
3
DF Total
DF Within Classes
DF Between Classes
49
47
2
Class Level Information
origin
1
2
3
Variable
Name
_1
_2
_3
Frequency
Weight
Proportion
Prior
Probability
25
9
16
25.0000
9.0000
16.0000
0.500000
0.180000
0.320000
0.333333
0.333333
0.333333
29
Within-Class Covariance Matrices

origin = 1,
DF = 24
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
52.3639
-603.5698
-245.8552
-4912.5463
6.9017
19.2432
-11.0957
-603.5698
9003.0900
3797.7017
60922.7050
-153.7553
-220.3650
155.9733
-245.8552
3797.7017
1985.8400
25744.2533
-73.8030
-102.8433
63.1933
-4912.5463
60922.7050
25744.2533
638885.6267
-707.9432
-1525.9217
1188.7633
origin = 1,
DF = 24
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
6.9017
-153.7553
-73.8030
-707.9432
5.3401
2.3962
-2.6370
19.2432
-220.3650
-102.8433
-1525.9217
2.3962
12.2233
-3.7900
-11.0957
155.9733
63.1933
1188.7633
-2.6370
-3.7900
3.1067
-------------------------------------------------------------------------------origin = 2,
DF = 8
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
40.2544
-43.1389
-82.3764
-468.6861
12.8193
13.5333
0.0000
-43.1389
449.0278
117.5278
7327.8472
12.1764
24.7083
0.0000
-82.3764
117.5278
356.5278
2054.7222
-35.5861
-33.2917
0.0000
-468.6861
7327.8472
2054.7222
156345.7778
459.0486
625.2917
0.0000
origin = 2,
DF = 8
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
12.8193
12.1764
-35.5861
459.0486
9.4919
7.6667
0.0000
13.5333
24.7083
-33.2917
625.2917
7.6667
12.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
30
-------------------------------------------------------------------------------origin = 3,
DF = 15
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
48.5200
-38.4300
-97.5446
-1883.6371
4.1705
14.6558
0.9608
-38.4300
907.4667
468.1667
8756.3667
-34.1833
14.9333
20.6000
-97.5446
468.1667
505.7625
8304.1208
-36.5471
-17.4583
8.0917
-1883.6371
8756.3667
8304.1208
150915.7958
-542.7379
-284.5083
132.8083
origin = 3,
DF = 15
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
4.1705
-34.1833
-36.5471
-542.7379
4.2343
0.8742
-0.6308
14.6558
14.9333
-17.4583
-284.5083
0.8742
8.6500
1.0833
0.9608
20.6000
8.0917
132.8083
-0.6308
1.0833
0.6500
-------------------------------------------------------------------------------Simple Statistics
Total-Sample
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
50
50
50
50
50
50
50
1249
8790
5119
141903
765.90000
3805
258.00000
24.97000
175.80000
102.38000
2838
15.31800
76.10000
5.16000
73.48541
9710
1650
671843
5.96804
13.11224
2.91265
8.5724
98.5373
40.6156
819.6602
2.4430
3.6211
1.7066
--------------------------------------------------------------------------------
31
origin = 1
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
25
25
25
25
25
25
25
497.90000
6136
3089
84207
371.20000
1879
156.00000
19.91600
245.44000
123.56000
3368
14.84800
75.16000
6.24000
52.36390
9003
1986
638886
5.34010
12.22333
3.10667
7.2363
94.8846
44.5628
799.3032
2.3109
3.4962
1.7626
-------------------------------------------------------------------------------origin = 2
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
9
9
9
9
9
9
9
260.30000
950.00000
689.00000
21073
151.00000
672.00000
36.00000
28.92222
105.55556
76.55556
2341
16.77778
74.66667
4.00000
40.25444
449.02778
356.52778
156346
9.49194
12.00000
0
6.3446
21.1903
18.8819
395.4058
3.0809
3.4641
0
-------------------------------------------------------------------------------origin = 3
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
16
16
16
16
16
16
16
490.30000
1704
1341
36623
243.70000
1254
66.00000
30.64375
106.50000
83.81250
2289
15.23125
78.37500
4.12500
48.51996
907.46667
505.76250
150916
4.23429
8.65000
0.65000
6.9656
30.1242
22.4892
388.4788
2.0577
2.9411
0.8062
--------------------------------------------------------------------------------
Within Covariance Matrix Information
origin
Covariance
Matrix Rank
Natural Log of the

Determinant of the
Covariance Matrix
1
2
3
Pooled
7
6
7
7
30.05306
8.92659
22.37342
30.35552
32
Test of Homogeneity of Within Covariance Matrices

Notation: K
P
N
N(i)
=
=
=
=
Number of Groups
Number of Variables
Total Number of Observations - Number of Groups
Number of Observations in the i'th Group - 1
__
N(i)/2
|| |Within SS Matrix(i)|
= ----------------------------------N/2
|Pooled SS Matrix|
_
|
1
= 1.0 - | SUM ----|_
N(i)
RHO
DF
_
2
1
| 2P + 3P - 1
--- | ------------N _| 6(P+1)(K-1)
= .5(K-1)P(P+1)
_
_
|
PN/2
|
|
N
V
|
-2 RHO ln | ------------------ |
|
__
PN(i)/2 |
|_ || N(i)
_|
Under the null hypothesis:
is distributed approximately as Chi-Square(DF).
Chi-Square
DF
Pr > ChiSq
220.637339
56
<.0001
Since the Chi-Square value is significant at the 0.1 level, the within
covariance matrices will be used in the discriminant function.
Reference: Morrison, D.F. (1976) Multivariate Statistical
Methods p252.
Pairwise Generalized Squared Distances Between Groups

2
_
_
-1 _
_
D (i|j) = (X - X )' COV
(X - X ) + ln |COV |
i
j
j
i
j
j
Generalized Squared Distance to origin

From origin
1
2
3
30.05306
35.53867
34.59605
291281292
8.92659
907076
67.84795
38.59525
22.37342
Multivariate Statistics and F Approximations

S=2
M=2
N=19.5
33
Statistic
Wilks' Lambda
Pillai's Trace
Hotelling-Lawley Trace
Roy's Greatest Root
Value
F Value
Num DF
Den DF
Pr > F
0.28802184
0.88078861
1.88585602
1.49339170
5.06
4.72
5.43
8.96
14
14
14
7
82
84
62.325
42
<.0001
<.0001
<.0001
<.0001
NOTE: F Statistic for Roy's Greatest Root is an upper bound.

NOTE: F Statistic for Wilks' Lambda is exact.
Classification Summary for Calibration Data: WORK.COCHES
Resubstitution Summary using Quadratic Discriminant Function
Generalized Squared Distance Function
2
_
-1
_
D (X) = (X-X )' COV (X-X ) + ln |COV |
j
j
j
j
j
Posterior Probability of Membership in Each origin
2
2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j
k
k
Number of Observations and Percent Classified into origin

From origin
Total
18
72.00
7
28.00
0
0.00
25
100.00
0
0.00
9
100.00
0
0.00
9
100.00
0
0.00
9
56.25
7
43.75
16
100.00
Total
18
36.00
25
50.00
7
14.00
50
100.00
Priors
0.33333
0.33333
0.33333
Error Count Estimates for origin
Rate
Priors
Total
0.2800
0.3333
0.0000
0.3333
0.5625
0.3333
0.2808
Classification Summary for Calibration Data: WORK.COCHES

Cross-validation Summary using Quadratic Discriminant Function
Generalized Squared Distance Function
2
_
-1
_
D (X) = (X-X
)' COV
(X-X
) + ln |COV
|
j
(X)j
(X)j
(X)j
(X)j
34
Posterior Probability of Membership in Each origin

2
2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j
k
k
Number of Observations and Percent Classified into origin

From origin
Total
17
68.00
8
32.00
0
0.00
25
100.00
3
33.33
5
55.56
1
11.11
9
100.00
2
12.50
11
68.75
3
18.75
16
100.00
Total
22
44.00
24
48.00
4
8.00
50
100.00
Priors
0.33333
0.33333
0.33333
Error Count Estimates for origin
Rate
Priors
Total
0.3200
0.3333
0.4444
0.3333
0.8125
0.3333
0.5256
35
The STEPDISC Procedure

The Method for Selecting Variables is STEPWISE
Observations
Class Levels
50
3
Variable(s) in the Analysis

Variable(s) will be Included
Significance Level to Enter
Significance Level to Stay
7
0
0.05
0.05
Class Level Information
origin
1
2
3
Variable
Name
_1
_2
_3
Frequency
Weight
Proportion
25
9
16
25.0000
9.0000
16.0000
0.500000
0.180000
0.320000

Stepwise Selection: Step 1
Statistics for Entry, DF = 2, 47
Variable
R-Square
F Value
Pr > F
Tolerance
mpg
engine
horse
weight
accel
year
cylinder
0.3594
0.5097
0.2812
0.4275
0.0849
0.1920
0.4093
13.19
24.43
9.20
17.55
2.18
5.59
16.28
<.0001
<.0001
0.0004
<.0001
0.1244
0.0067
<.0001
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
Variable engine will be entered.

Variable(s) that have been Entered
engine
Multivariate Statistics
Statistic
Wilks' Lambda
Pillai's Trace
Average Squared Canonical
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.490318
0.509682
0.254841
24.43
24.43
2
2
47
47
<.0001
<.0001
36

Statistics for Removal, DF = 2, 47
Variable
R-Square
F Value
Pr > F
0.5097
24.43
<.0001
engine
No variables can be removed.
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
horse
weight
accel
year
cylinder
0.0179
0.1115
0.0075
0.1237
0.1714
0.0335
0.42
2.89
0.17
3.25
4.76
0.80
0.6604
0.0659
0.8412
0.0480
0.0133
0.4571
0.3645
0.2227
0.2187
0.7623
0.7843
0.1009
Variable year will be entered.

engine year
Statistic
Wilks' Lambda
Pillai's Trace
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.406296
0.674371
0.337185
13.08
11.95
4
4
92
94
<.0001
<.0001

Variable
engine
year
Partial
R-Square
F Value
Pr > F
0.4971
0.1714
22.74
4.76
<.0001
0.0133
37
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
horse
weight
accel
cylinder
0.0624
0.1530
0.0068
0.1427
0.0347
1.50
4.06
0.15
3.75
0.81
0.2349
0.0239
0.8576
0.0313
0.4514
0.2261
0.2034
0.2093
0.6454
0.0932
Variable horse will be entered.

engine horse year
Statistic
Wilks' Lambda
Pillai's Trace
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.344148
0.779271
0.389636
10.57
9.79
6
6
90
92
<.0001
<.0001

Variable
Partial
R-Square
F Value
Pr > F
0.3954
0.1530
0.2100
14.71
4.06
5.98
<.0001
0.0239
0.0050
engine
horse
year
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
weight
accel
cylinder
0.0661
0.0204
0.0477
0.0493
1.56
0.46
1.10
1.14
0.2222
0.6360
0.3416
0.3285
0.1779
0.1380
0.1435
0.0676
No variables can be entered.

No further steps are possible.

Stepwise Selection Summary
38
Step
Number
In
1
2
3
1
2
3
Entered
Removed
engine
year
horse
Step
Number
In
1
2
3
1
2
3
Entered
engine
year
horse
Partial
R-Square
F Value
Pr > F
Wilks'
Lambda
Pr <
Lambda
0.5097
0.1714
0.1530
24.43
4.76
4.06
<.0001
0.0133
0.0239
0.49031755
0.40629584
0.34414795
<.0001
<.0001
<.0001
Removed
Average
Squared
Canonical
Correlation
Pr >
ASCC
0.25484122
0.33718537
0.38963551
<.0001
<.0001
<.0001
39
Anlisis de Correspondencias
Introduccin
El anlisis de correspondencias es una tcnica descriptiva para representar tablas de
contingencia. Los datos de partida para el anlisis de correspondencias es una matriz X
de dimensiones n k que representa las frecuencias absolutas observadas en una tabla de
contingencia de dos variables, donde la primera se representa por filas y tiene n categoras
y la segunda por columnas y tiene k categoras. Por ejemplo, clasificamos un conjunto
de estudiantes en n posibles procedencias geogrficas y k posibles opiniones respecto a
la docencia. En general, el elemento xij de la matriz X representa la frecuencia absoluta
observada en la casilla (i, j) de la tabla de contingencia.
La metodologa la desarroll Benzecri, a principios de los aos 60 del siglo XX en la
Universidad de Renner (Francia). En esencia. es un tipo especial de anlisis de componentes principales pero realizado sobre una tabla de contingencia y usando una distancia
eucldea ponderada llamada chi-cuadrado.
Ejemplo: supongamos 400 tiendas de discos repartidas entre los pases de la U.E. Se
clasifica a los compradores en 3 categoras distintas: Jvenes, Edad Media, Mayores, y a
los tipos de msica en 5 tipos:
A = Msica disco
B = Rocknroll y msica americana
C = Pop y msica inglesa (meldicas)
D = Jazz y msica autctona
E = Clsica
1
As, se tienen dos variables categricas: Compradores y Msica:

Jov Med May Total
A
70
0
0
70
B
45
45
0
90
C
30
30
30
90
D
0
80
20
100
E
35
5
10
50
Total 180 160
60
400
Cada uno de los entrevistados slo valora un tipo de msica, es decir, aparece en solo
una de las casillas de la tabla.
Se puede definir el perfil de una tabla como el conjunto de las frecuencias de una fila
o de una columna dividido entre el total de la fila o columna.
Por ejemplo, las frecuencias del tipo de msica B son 0,5 0,5 0 ya que tenamos
45 45 0 y el total es 90. As se obtiene:

Jov Med May
A
1
0
0
B
0.5
0.5
0
C
0.33 0.33 0.33
D
0
0.8
0.2
E
0.7
0.1
0.2
Total 0.45 0.40 0.15
Se puede ver que un 45 % de compradores es Joven, 40 % Medianos y 15 % Mayores.
Tambin se puede ver por tipos de msica, por ejemplo en el tipo E el reparto de edades
difiere de la media: (70 % frente a 45 % en Jvenes, 10 % frente a 40 % en Medianos).
Si se considera el anlisis de las columnas, es decir, en vez de centrarnos en los tipos de
msica, nos centramos en las edades, se pueden considerar tambin perfiles columna. As,
por ejemplo de los 160 compradores en el caso de los de mediana edad, un 50 % compra el
tipo de msica D en vez del porcentaje general del 25 %. Es decir, con la tabla completa:
A
B
C
D
E
Jov Med Jub Total

0.39
0
0
0.175
0.25 0.28
0
0.225
0.17 0.19 0.50 0.225
0
0.50 0.33 0.25
0.19 0.03 0.17 0.125
Se pueden establecer visualmente relaciones entre los porcentajes de las categoras,

tanto por filas como por columnas y representar las categoras de las filas segn un espacio
tridimensional determinado por las tres categoras de grupos de edad. Esto se denomina
representacin baricntrica.
En el caso del ejemplo se puede hacer la representacin dado el escaso nmero de
categoras, pero se hace necesario encontrar un sistema de representacin que disminuya
el nmero de dimensiones mediante proyecciones. Una forma de hacerlo es usar las tcnicas
de multidimensional scaling.
Esencialmente, el anlisis de correspondencias se puede considerar una aplicacin del
multidimensional scaling usando una distancia especfica que se puede usar para datos
categricos. Dicha distancia se denomina distancia chi cuadrado.
Independencia
Si el hecho de que aparezca o se presente una categora junto con otra no es ni ms
ni menos probable de que se presenten las dos categoras por separado, se dice que las
variables son independientes y, en general, se dice que la tabla es homognea.
As, dadas dos variables aleatorias X e Y , son independientes si
P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj )
para todo i, j.
En el caso de una tabla de contingencia, si se aproxima la probabilidad de que sucedan
xi e yj como la frecuencia relativa en un experimento con N tiradas totales (regla de
Laplace), entonces:
nij
n
ni
=
n
nj
=
n
pij =
pi
pj
As, si
P (X = xi , Y = yj ) = pij = pi pj
para todo i, j, las variables X e Y son independientes y la tabla es homognea. Si es cierta
la hiptesis de independencia esperaremos encontrar Eij objetos dentro de la casilla (i, j)sima, donde
Eij = n pij = n pi pj =
ni nj
n
Si no vemos que ocurra as en la tabla, se rechaza la hiptesis de independencia.

Es necesario definir un contraste o test que me mida las distancias entre lo que uno
observa y lo que esperara si se cumple la hiptesis nula de independencia. La forma
tradicional de hacerlo es mediante un contraste de la chi cuadrado, en el que se define el
estadstico como
2
ni nj
nij
r X
c
X
n
2
.
X =
ni nj
i=1 j=1
n
Habitualmente se usa este contraste de independencia en tablas de contingencia.
Distancia chi cuadrado

En general, una tabla de contingencia donde hay r filas y c columnas se puede escribir
como
Columnas
1
2
1 n11 n12
Filas 2 n21 n22
..
..
..
..
.
.
.
.
r nr1 nr2
n1 n2
c
n1c
n2c
..
.
n1
n2
..
.
nrc
nc
nr
n
A partir de aqu se pueden construir las tablas de proporciones de filas y columnas:
1 p11
Filas 2 p21
..
.
r
pr1 =
1 q11
Filas 2 q21
..
.
r
1
=
=
..
.
1
=
=
..
.
qr1 =
Columnas
2
n11
p12 = nn12
n1
1
n21
n22
p
=
22
n2
n2
..
.
..
.
c
p1c =
p2c =
..
.
n1c
n1
n2c
n2
prc =
nrc
nr
Columnas
2
n11
n12
q
=
12
n1
n2
n21
n22
q
=
22
n1
n2
..
.
..
.
c
q1c =
q2c =
..
.
n1c
nc
n2c
nc
nr1
n1
qrc =
nrc
nc
nr1
nr
pr2 =
qr2 =
nr2
nr
nr2
n2
La distancia chi cuadrado entre las columnas i y j se define, entonces, como

dcol
ij
r
X
1
=
(pki pkj )2
pk
k=1
donde
pk =
nk
n
Se denominan tablas de perfiles fila y perfiles columna

La distancia chi cuadrado se puede considerar como una distancia eucldea ponderada
basada en las proporciones de las columnas. Ser igual a cero si las dos columnas tienen
los mismos valores para esas proporciones. Si observamos que las diferencias al cuadrado
anteriores se multiplican o ponderan mediante el factor
5
1
,
pk
de modo que categoras de
la variable que est en la columna con pocos valores tienen una mayor influencia en el
clculo de la distancia que las categora comunes.
Se puede definir una distancia similar entre dos filas i y j
dfil
ij
c
X
1
=
(qik qjk )2
q
k
k=1
donde
qk =
nk
n
La distancia chi cuadrado cumple la propiedad de equivalencia distribucional:

Si dos categoras de los perfiles fila tienen el mismo valor de perfil, entonces al agruparlas en una nica categora no se modifican las distancias entre el resto de categoras
de la tabla que forman las columnas. Lo mismo se puede decir en cuanto a las columnas:
si se juntan o separan columnas, esto no afecta a las distancias entre los perfiles fila.
En muchas ocasiones se habla del concepto de masa de una fila o una columna de una
tabla de contingencia. Esto es simplemente la proporcin de observaciones de la fila (o
columna) respecto al total de observaciones (ni /n )
El perfil medio de las filas (la fila media de perfiles) es el centroide de los perfiles
fila cuando se calcula la media ponderando cada perfil por su masa. Todo esto mismo,
obviamente, se puede considerar para las columnas.
A la expresin
X2
N
se denomina inercia total de la tabla de contingencia. Se puede
interpretar como la media ponderada de las distancias chi cuadrado entre los perfiles fila
y su perfil medio. O, alternativamente, se puede definir del mismo modo para los perfiles
columna.
Reduccin de dimensiones
En general, los perfiles estn situados en espacios de altas dimensiones de modo que no
se pueden observar directamente. Se pueden determinar subespacios de dimensin menor
al nmero mnimo entre filas y columnas menos uno, donde se puede aproximar la posicin
original de los perfiles. La calidad de representacin en subespacios de dimensin menor

se mide en porcentajes de inercia con respecto a la total.
El clculo matemtico de los subespacios se basa en minimizar las sumas de las distancias entre los perfiles y el subespacio, ponderadas por las masas de los puntos. Es decir, se
calcula por el mtodo de los mnimos cuadrados ponderados. Se pueden proyectar perfiles
fila y perfiles columna de modo equivalente en el subespacio extrado.
Una manera de hacer lo anterior es mediante una aplicacin directa del multidimensional scaling (MDS ) en cada matriz de distancias (por filas o por columnas). Luego, se
consideran y se dibujan las dos primeras coordenadas para las categoras de las filas y de
las columnas en la misma grfica etiquetadas de modo conveniente para que se puedan
distinguir ambas variables.
Cuando las coordenadas de las categoras de ambas variables son grandes y positivas se
deduce una asociacin positiva entre las columnas y las filas correspondientes. Del mismo
modo se razona en el caso de coordenadas negativas. La conclusin es que los valores de
la tabla nij son mayores que los esperados bajo la hiptesis de independencia entre ambas
variables.
Cuando las coordenadas de las categoras de ambas variables son grandes en valor absoluto, pero tienen signos opuestos las filas y columnas correspondientes tienen asociacin
negativa; as los valores de la tabla nij son menores que los esperados bajo la hiptesis de
independencia entre ambas variables.
Finalmente, cuando el producto de las coordenadas est prximo a 0, la asociacin
entre las variables es baja, de modo que nij se encuentra cerca del valor esperado bajo la
hiptesis de independencia.
Ejemplo
Supongamos la tabla de contingencia siguiente (de Everitt):
Sin Pareja
Con Pareja (no sexo)
Con Pareja (s sexo)
Total
1
21 (0.68 )
8 (0.26 )
2 (0.06 )
31(0.22 )
2
21 (0.64 )
9 (0.27 )
3 (0.09 )
33(0.24 )
Grupos de Edades
3
4
14 (0.58 ) 13(0.42 )
6 (0.25 )
8 (0.26 )
4 (0.17 )
10 (0.32 )
24(0.17 )
31(0.22 )
5
8(0.40 )
2 (0.10 )
10 (0.50 )
20(0.15 )
77(0.55 )
33(0.24 )
29(0.21 )
139
En esta tabla se trata de ver la influencia de la edad en relacin a las relaciones

personales. Se pueden calcular las distancias chi cuadrado entre los elementos de la tabla.
Por ejemplo, la distancia entre al columna 1 y la 2 es:
s
(0,68 0,64)2 (0,26 0,27)2 (0,06 0,09)2
=
+
+
= 0,09
dcol
12
0,55
0,24
0,21
Esta distancia es similar a la distancia eucldea habitual pero difiere en que se divide
cada trmino entre la proporcin media correspondiente. De este modo se compensan los
diferentes niveles de ocurrencia de las categoras. En el ejemplo la matriz de distancias
entre las columnas es
col
0,00
0,09
0,26
0,66
1,07
0,09
0,00
0,19
0,59
1,01
0,26
0,19
0,00
0,41
0,83
0,66
0,59
0,41
0,00
0,51
1,07
1,01
0,83
0,51
0,00
La matriz de distancias entre filas es
0,00 0,21 0,93

Dfil = 0,21 0,00 0,93
0,93 0,93 0,00
Aplicamos un multidimensional scaling (MDS ) clsico a cada una de las matrices de

distancias, obtenindose las coordenadas respectivas de las categoras. Estas se dibujan
posteriormente en un grfico con las etiquetas correspondientes.
Anlisis de Correspondencias bsico con R

# Se introduce la tabla
sex<-matrix(c(21,21,14,13,8,8,9,6,8,2,2,3,4,10,10),ncol=5,byrow=TRUE)
# Se calculan los porcentajes
ncol<-5
nrow<-3
n<-sum(sex)
rtot<-apply(sex,1,sum)
ctot<-apply(sex,2,sum)
xrtot<-cbind(rtot,rtot,rtot,rtot,rtot)
xctot<-rbind(ctot,ctot,ctot)
xrtot<-sex/xrtot
xctot<-sex/xctot
rdot<-rtot/n
cdot<-ctot/n
# Se calculan las matrices de distancias entre columnas
dcols<-matrix(0,ncol,ncol)
for(i in 1:ncol){
for(j in 1:ncol){d<-0
for(k in 1:nrow) d<-d+(xctot[k,i]-xctot[k,j])^2/rdot[k]
dcols[i,j]<-sqrt(d)}}
# Se calculan las matrices de distancias entre filas
drows<-matrix(0,nrow,nrow)
for(i in 1:nrow){
for(j in 1:nrow){d<-0
for(k in 1:ncol) d<-d+(xrtot[i,k]-xrtot[j,k])^2/cdot[k]
drows[i,j]<-sqrt(d)}}
# Se aplica el MDS metrico

r1<-cmdscale(dcols,eig=TRUE)
r1$points
r1$eig
c1<-cmdscale(drows,eig=TRUE)
c1$points
c1$eig
xrtot
# Se dibujan las coordenadas en un dos dimensiones
par(pty="s")
plot(r1$points,xlim=range(r1$points[,1],c1$points[,1]),ylim=range(r1$p
oints[,1],c1$points[,1]),type="n",
xlab="Coordenada 1",ylab="Coordenada 2",lwd=2)
text(r1$points,labels=c("ED1","ED2","ED3","ED4","ED5"),lwd=2)
text(c1$points,labels=c("Nopar","parnS","parS"),lwd=4)
abline(h=0,lty=2)
abline(v=0,lty=2)
10

Libro Analisis Multivariante

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro Analisis Multivariante

Cargado por

Copyright:

Formatos disponibles

Anlisis Multivariante

Primer Cuatrimestre. Curso 2006-2007

Tema 1: Introduccin al Anlisis Multivariante y al Clculo Matricial

Tema 2: Estadstica Descriptiva Multivariante

Tema 3: Anlisis de Componentes Principales

Tema 4: Anlisis Factorial

Tema 5: Anlisis de Cluster y Multidimensional Scaling

Tema 6: Anlisis Discriminante

Tema 7: Anlisis de Correspondencias

Tema 1: Introduccin al Anlisis

en R, STATGRAPHICS, SPSS, ...).

Se pueden recodificar con nmeros, aunque no tengan un sentido algebraico: mujer

Clasificacin de las Tcnicas Multivariables

donde xi es el componente i del vector.

En Estadstica un vector columna es habitualmente la representacin de los valores de

Es inmediato comprobar que la suma de vectores es asociativa y conmutativa.

La suma de dos vectores corresponde a la idea intuitiva de trasladar uno al extremo

son los iniciales multiplicados por la constante.

Si tomamos y = (1/n, ..., 1/n), el producto escalar de la variable x y este vector de

desviacin respecto a su media equivale a calcular la diferencia de vectores x x1, donde

La implicacin estadstica de ortogonalidad es la existencia de incorrelacin. Si dos

que es un sistema con n ecuaciones y n incgnitas y obtener los coeficientes ai .

pertenece a este espacio entonces,

con cij = aij + bij . Se verifica:

En particular, el producto de una matriz (n k) por un vector (k 1), Ax ser un

la matriz A transforma vectores x en Rk en vectores y en Rn . En particular si A es

En particular, los productos A A0 y A0 A conducen a matrices simtricas.

simtrica de amplio uso en estadstica es la matriz de correlaciones, que contiene unos en

(1r ) a1i1 a2i2 , ..., anin

aij (1)i+j mij

La traza es un operador lineal. En efecto, de la definicin se obtiene:

posible el producto y, as, la matriz resultante tendr dimensin:

Diremos que una matriz A es semidefinida positiva si cualquier forma cuadrtica

En consecuencia la matriz A1 debe tener por columnas vectores b tales que:

Por ejmplo, dada la matriz

y cada vector columna de la inversa es ortogonal a un vector columna y verifica la condicin

Para el (1, 2), (13 ) [1 3 1 0] = 3, etc.

Se transpone esta matriz y resulta:

Si dividimos ahora por el determinante de la matriz A

y podemos comprobar que A A1 = I.

La inversa de una matriz A tiene las propiedades siguientes:

adems: |C| = |C0 | = 1, donde |C| es el determinante de C.

es ortogonal, ya que CC0 = I.

Supongamos primero matrices cuadradas. Dada la matriz A cuadrada de orden n,

Supongamos que partiendo de k variables (vectores) pasamos a otras k variables que

y las soluciones de esta ecuacin polinmica son a1 , ..., an .

(c) El producto de los autovalores de A es igual al determinante

Entonces la matriz A se puede diagonalizar mediante:

Diagonalizacin de Matrices Simtricas

la descomposicin espectral que descompone la matriz A como suma de n matrices de

Si la matriz A tiene rango r la descomposicin espectral indica que puede expresarse

ya que A1 tiene los mismos vectores propios que A y autovalores 1

Descomposicin en valores singulares

Si f = 5x1 + 2x2 + 3x3

(i) Si f = a0 x tendremos que:

Dado un vector y cuyos componentes son funciones fi de un vector de variables x0 =

Observacin: Si y = Ax, donde A es una matriz cualquiera.

donde cada a01 es una fila de la matriz; Entonces,

# NOTA: Asignar un valor a una variable:

# Asigna la secuencia que va desde el 1 al 5 en saltos de 0.1

# Matrices: solo pueden contener datos de un tipo a la vez

# Definir una matriz diagonal

Producto escalar entre dos vectores