Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(Diplomatura en Estadstica)
TEMAS de TEORA
Tipos de variables
Uno de los problemas fundamentales en Estadstica es cmo medir los aspectos de las
personas, seres vivos u objetos. Es decir, no es lo mismo tomar una poblacin cualquiera y
medir la altura de las personas en dos clases: altos y bajos, que tomar una escala mtrica
y dividirla en segmentos, asignando a cada persona el nmero o medida en cm. En un
caso tendremos, en realidad, una variable categrica (con dos categoras: altos y bajos) y
en el otro, una variable cuantitativa (1, 70; 1, 65; . . .). En el primer caso no tendr sentido
hallar una media (bajo alto) pero s una moda y en el otro, s ser congruente hablar
de la altura media.
Nadie pondr en duda que determinar la medida de las personas en altos o bajos es
menos informativo que tomar una escala mtrica. De hecho, en Estadstica, las tcnicas
que se pueden aplicar varan segn sea la informacin recogida por las variables. De la
misma forma, se puede decir lo mismo en Anlisis Multivariante. Tcnicas como el anlisis
discriminante se aplican en variables cuantitativas distribuidas como una distribucin
normal, mientras que el anlisis log-lineal se aplica en variables categricas en exclusiva.
Como posible clasificacin, segn el grado de informacin que contienen unas variables,
se pueden dividir a stas en:
(i ) Variables Nominales:Slo distinguen entre varias categoras, sin que exista ninguna
jerarqua entre ellas.
Ejemplos: la variable sexo: mujer, hombre. La variable colores del arco iris: azul,
violeta, amarillo, ...
2
Son idnticas a las anteriores salvo que presentan un origen absoluto de medida.
En estas variables tiene sentido tomar fracciones de sus valores o razones. Se puede
decir que un valor es el doble que otro.
Por ej. la edad expresada en aos: el 0 tendra el sentido de una persona no nacida.
Se puede observar que la informacin recogida por las variables va creciendo desde
las nominales a las de razn. Siempre es posible pasar de ms informacin a menos: una
variable de intervalo o de razn se puede dividir en trozos (o intervalos) y convertirla en
nominal. El paso contrario no es posible.
Mtodos Dependientes
Regresin mltiple: Estudia la dependencia de una variable en funcin de otras
variables.
Anlisis discriminante: Se busca una funcin lineal de varias variables que permita
clasificar nuevas observaciones que se presentan.
Mtodos log-lineales y logit: Se predicen nmeros de apariciones en casillas (recuentos) en funcin de otras casillas. Se usan variables categricas.
Anlisis de correlacin cannica: Se toma un grupo de variables y se trata de
predecir sus valores en funcin de otro grupo de variables.
4
Anlisis multivariante de la varianza: se descompone la variabilidad en una medida de un conjunto de variables cuantitativas en funcin de otras variables categricas.
Mtodos Independientes
Anlisis de componentes principales: Se tienen n variables cuantitativas y se
mezclan mediante combinaciones lineales reducindose a p < n variables que resumen la
informacin para facilitar la interpretacin.
Anlisis factorial: Es parecido a la anterior aunque slo se fija en explicar en trminos
de factores ocultos las variables originales, no tanto en reducir el nmero de variables.
Multidimensional scaling: Busca mapas de los objetos, situndolos segn una serie
de mtricas.
Anlisis de correspondencias: Es parecido al anlisis factorial, pero con variables
categricas exclusivamente.
Anlisis de cluster: Trata de identificar grupos naturales entre las observaciones
segn sus valores medidos por las variables.
Algebra de Matrices
En el anlisis multivariable se presentan de forma habitual matrices. En general, se
toman varias variables aleatorias o mediciones que ocupan una serie de columnas y estas
mediciones se consideran sobre una serie de objetos o individuos.
Por ejemplo, se toman 5 personas y se mide la edad de entrada en la universidad (x1 ),
la nota media de las asignaturas despus del primer ao (x2 ) y el sexo (x3 ). Se obtiene:
1
2
3
4
5
x1
18,45
18,41
18,39
18,70
18,34
x2 x3
7.4 1
6.5 0
7.2 0
9.4 1
7.1 1
En sentido estricto, las 5 personas son una muestra aleatoria extrada de una poblacin
muy grande y se consideran variables aleatorias en el sentido de que su valor (por ej. x2 :
5
nota final media) no puede ser determinado previamente, sino que depende de muchas
causas en nmero inconmensurable.
El concepto principal que se estudia es el concepto de vector. Cuando medimos una
variable en un conjunto de elementos de una poblacin, esta muestra puede representarse
geomtricamente asociando el valor de la variable en cada elemento a a una dimensin
del espacio.
Un vector de dimensin n puede verse como una representacin de los valores de una
variable en n elementos de una poblacin. Se puede ver que existe una relacin entre los
conceptos bsicos de descripcin estadstica de la variable y ciertas operaciones vectoriales
A su vez, una matriz es un conjunto de vectores: cuando en lugar de medir una variable
en cada elemento observamos los valores de k variables, podemos representar la muestra
de datos multivariantes mediante una matriz.
Vectores
En general, una muestra de n elementos de una variable la representaremos mediante
un vector. La longitud de un vector se denomina mdulo. En una muestra, el mdulo
del vector diferencia entre el vector asociado a la muestra y el vector que representa una
constante es la desviacin tpica de la variable. Si el vector representa los valores de una
variable de media cero, el mdulo del vector es directamente la desviacin tpica.
La dependencia lineal entre dos variables se mide por la covarianza. El concepto anlogo vectorial es el de producto escalar, que es la herramienta principal para estudiar la
relacin entre dos vectores. Dados dos vectores, el producto escalar es el producto de sus
longitudes por el coseno del ngulo que forman. De acuerdo con esta definicin, si consideramos vectores de longitud unidad el producto escalar es el coseno de su ngulo en el
espacio, y ser, en consecuencia, un nmero entre 1 y 1. Si los vectores son perpendiculares u ortogonales su producto escalar es cero. Si son colineales (es decir, estn sobre la
misma lnea) su producto escalar es uno o menos uno.
Si dos vectores representan los valores de dos variables estandarizadas (las dos variables
tienen media cero y varianza unidad) en los mismos n elementos de una poblacin, el
producto escalar es equivalente al coeficiente de correlacin entre las dos variables.
Cuando consideramos varios vectores, el concepto principal es la nocin de dependencia
lineal. Para comprender la importancia de esta idea, supongamos que tenemos k variables
medidas sobre n elementos de una poblacin (n k), y los n valores de cada variable
forman un vector en el espacio de n dimensiones.
Un problema importante es conocer cuantas variables realmente distintas tenemos.
Por ejemplo, si una variable representa salarios en euros y otra los mismos salarios pero
medidos en dlares aunque ambas variables no sean idnticas es claro que las dos variables
miden la misma caracterstica. Las dos variables son linealmente dependientes, ya que una
se obtiene multiplicando por una constante los valores de la otra.
Generalizando esta idea, diremos que k variables son linealmente dependientes si
podemos obtener los valores de una cualquiera mediante una combinacin lineal del resto.
Por ejemplo, si tenemos tres variables, nmero de hombres, nmero de mujeres y nmero
de personas (que es la suma de las anteriores), las tres variables son linealmente dependientes porque podemos calcular el valor de cualquiera de ellas conocidos los valores de
las otras dos. Al representar las variables como vectores, la nocin de dependencia lineal
permite conocer el nmero de variables distintas existentes en un grupo de variables.
Si tenemos k vectores de n componentes y k > n siempre podemos tomar n vectores
cualesquiera de los k y expresar los k n restantes como combinacin lineal de estos
vectores. Por tanto, en el espacio Rn de vectores de n coordenadas, el mximo nmero de
variables linealmente independientes que podemos tener es n.
Definiciones bsicas
Llamaremos vector a un conjunto ordenado de n nmero reales, x, y escribiremos sus
componentes en columna:
x1
x = ...
xn
y1
x1 + y1
x1
..
x + y = ... + ... =
.
.
xn
yn
xn + yn
kx1
z = kx = ... .
kxn
Multiplicar por una constante equivale a un cambio en las unidades de medida. Por
ejemplo, si en lugar de medir el nmero de trabajadores en unidades (variable x) lo
hacemos en centenas (variable z) entonces variable z = x/100.
Llamaremos vector transpuesto x0 , de otro x, a un vector con los mismos componentes, pero escritos en fila:
x0 = (x1 , ..., xn ).
Al transponer un vector columna se obtiene un vector fila. Generalmente los vectores
fila se utilizan para describir los valores de k variables distintas en un mismo objeto de
una poblacin.
El producto escalar interno de dos vectores xy, ambos en Rn , que escribiremos
x0 y y0 x, es el escalar obtenido al sumar los productos de sus componentes.
0
xy=yx=
n
X
xi yi .
i=1
1/n
1/n
(x1 , x2 , ..., xn )
...
1/n
xi
.
n
Cuando ninguna de las dos variables es una constante el producto escalar se asocia en
Estadstica a la covarianza.
Para variables con media cero el producto escalar de los dos vectores que representan
sus valores es directamente la covarianza.
Para variables con media distinta de cero, la covarianza corresponde al producto escalar de las desviaciones de los datos respecto a sus medias. Observamos que obtener la
9
0
|x| = x x = x21 + . . . + x2n .
La norma es la longitud del segmento que une el origen con el punto x que corresponde
a la longitud de la hipotenusa en el tringulo rectngulo formado por el vector y sus
proyecciones sobre los ejes.
Para variables con media cero la desviacin tpica es n veces la norma del vector. Para
variables con media distinta de cero la desviacin tpica es n veces la norma del vector de
los datos en desviaciones a la media, x x1.
El producto escalar de dos vectores puede verse tambin como el producto del mdulo
de un vector y la proyeccin del otro sobre l. En general, el coseno del ngulo formado
por los dos vectores x, y viene dado por por la relacin:
cos =
x0 y
.
|x| |y|
para variables con media cero el coseno es el coeficiente de correlacin. Como cos 1,
se demuestra en general que:
|x0 y| |x||y|.
que se conoce como la desigualdad de Schwarz.
Dos vectores son ortogonales, o perpendiculares, si y slo si su producto escalar es
cero. Por la definicin de ngulo
x0 y = |x||y| cos ,
siendo el ngulo que forman los vectores. Si = 90 el coseno es cero y tambin lo ser
el producto escalar.
10
Dependencia Lineal
Un conjunto de vectores x1 , ..., xk es linealmente dependiente si existen escalares c1 , ..., ck ,
no todos nulos, tales que:
c1 x1 + ... + ck xk = 0
Si no existen tales escalares, se dice que los vectores son linealmente independientes.
Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno
como combinacin lineal de los dems. Por ejemplo, supuesto c1 6= 0 y llamando ai = ci /c1 ,
tenemos
x1 = a2 x2 + . . . + ak xk .
En general en el espacio Rn el nmero mximo de vectores linealmente independientes
es n. En efecto, si tenemos un conjunto de n + h vectores siempre podemos tomar n
cualquiera y escribir
xn+1 =
n
X
ai xi
i=1
Matrices
Para trabajar conjuntamente con k variables o vectores definimos el concepto de matriz. Una matriz es un conjunto de nmeros dispuestos en filas y columnas y puede verse
como un conjunto de vectores columna o un conjunto de vectores fila. Si intercambiamos
las filas de una matriz por las columnas se obtiene una nueva matriz que se denomina
la traspuesta de la primera. En particular, un vector columna de orden n es una matriz
de dimensiones n 1 (su traspuesta es un vector fila), y un escalar es una matriz de
dimensiones 1 1 (e igual a su traspuesta).
12
Una propiedad bsica de una matriz es el rango, que indica el nmero mximo de
vectores fila o columna linealmente independientes que la forman. En una matriz con n
filas y k columnas (n k), las k columnas pueden ser vectores linealmente independientes
y, as, el nmero mximo de vectores linealmente independientes es k. Su rango mximo
es k y cuando esto ocurre decimos que la matriz tiene rango completo.
El rango de una matriz es igual al de su traspuesta.
La generalizacin del concepto de producto escalar entre dos vectores es el producto
matricial, que se define como una nueva matriz que contiene todos los productos escalares
entre los vectores fila de la primera matriz y los vectores columna de la segunda. Para
que este producto sea posible la primera matriz tiene que tener tantas columnas como
filas tenga la segunda matriz. Por la propia definicin se deduce que este producto no es
conmutativo. Diremos que pre-multiplicamos la matriz A por la B cuando realizamos el
producto B A y que post-multiplicamos la A por la B si realizamos el producto A B.
Definiciones bsicas
Llamaremos matriz, A, de dimensiones (n k) a un conjunto de n k nmeros reales,
ordenados en n filas y k columnas. Por ejemplo, si medimos k variables en n individuos
de una poblacin podemos representar cada variable por un vector columna de dimensin
n y cada vector columna es pues una matriz (n 1). El conjunto de los k vectores es
un matriz (n k), y esta matriz puede verse como un conjunto de k vectores columna, o
como un conjunto de n vectores fila, cada uno de ellos de dimensin k. Llamaremos matriz
transpuesta A0 a la matriz obtenida a partir de A intercambiando filas por columnas. Si
A es n k, A0 ser k n. Se verifica:
(A0 )0 = A
La suma de dos matrices se define slo cuando ambas tienen las mismas dimensiones.
Cada elemento de la matriz suma se obtiene sumando los elementos correspondientes de
13
los sumandos
A+B=C
a11 . . . a1k
an1 . . . ank
b11 . . . b1k
bn1 . . . bnk
c11 . . . c1k
cn1 . . . cnk
k
X
ail blj
l=1
Es decir, el trmino cij representa el producto escalar del vector a0i , definido por la
i-sima fila de A, por el vector bj , de la j -sima columna de B. Si escribimos:
a01
B = [b1 ...bh ]
A = ...
0
an
donde todos los vectores tienen dimensiones k, el producto matricial de estas dos matrices
es:
a01 b1 . . . a01 bh
..
...
.
A B = C = ...
.
0
0
an b1 . . . an bh (nh)
Matrices Cuadradas
Una matriz es cuadrada si n = k. Dentro de las matrices cuadradas se llaman simtricas
a las que tienen cada fila igual a la correspondiente columna, es decir aij = aji . Una matriz
simrica es por tanto idntica a su traspuesta, y diremos que A es simtrica si
A0 = A.
Una matriz cuadrada y simtrica muy importante es la matriz identidad, que representaremos por I y tiene unos en la diagonal y ceros fuera de ella, es decir:
1 ... 0
I = ... 1 ... .
0 ... 1
A0 A
,
n
contiene las varianzas y covarianzas entre las variables. Otra matriz cuadrada y
Sobre las matrices cuadradas podemos definir dos medidas escalares que resumen su
tamao global: el determinate y la traza. Ambas son medidas relativas, ya que se modifican
si multiplicamos los elementos de la matriz por constantes.
Determinante de una matriz
Dada una matriz A cuadrada de orden n con trminos aij , se denomina determinante
de esta matriz, y lo representaremos por |A|, al escalar obtenido mediante la suma:
|A| =
que est extendida a todas las permutaciones de los segundos ndices. Los ndices i1 , . . . in
son una permutacin de los nmeros 1, 2, . . . , n y r es el nmero de cambios entre dos
elementos que es necesario para poner los subndices i1 , . . . , in en el orden 1, 2, . . . , n.
Por ejemplo, en una matriz 2 2 el nmero de permutaciones de dos trminos es dos
y el determinante estar formado por los dos trminos:
|A| = a11 a22 a12 a21 .
Observemos que el segundo trmino es negativo, porque el orden de los subndices es
(2, 1) y es necesario un cambio para situarlos en el orden 1, 2. En una matriz 3 3 el
determinante tiene 3! = 6 trminos que se obtiene de las 6 posibles permutaciones:
1
1
2
2
3
3
2
3
1
3
1
2
3
2
3
1
2
1
En consecuencia:
|A| = a11 a22 a33 a11 a23 a32 a12 a21 a33 + a12 a23 a31 +
+a13 a21 a32 a13 a22 a31 .
Para matrices mayores de 3 el clculo del determinante es tedioso. Su clculo se simplifica mediante el concepto de menor. Llamaremos menor del elemento aij de una matriz
16
cuadrada de orden n, mij , al determinante de la matriz de orden n1 que resulta al eliminar de la matriz original A la fila i y la columna j. Se denomina adjunto del elemento aij
al escalar (1)i+j mij . Se demuestra que el determinante de una matriz puede calcularse
multiplicando cada elemento de una fila por sus adjuntos. Entonces:
|A| =
n
X
j=1
para cualquier fila i. Por ejemplo, en una matriz 3 3, desarrollando por los elementos
de la primera fila
|A| = a11 (a22 a33 a23 a32 ) a12 (a21 a33 a23 a31 ) + a13 (a21 a32 a22 a31 ) ,
que coincide con el resultado anterior. Los determinantes tienen las propiedades siguientes:
(i) |A| = n |A|
(ii) |A0 | = |A|
(iii) |AB| = |A| |B| si ambas son cuadradas, de orden n.
(iv) Si permutamos dos filas o dos columnas entre s, el determinante cambia slo su
signo.
(v) Si una fila (o columna) de una matriz es una combinacin lineal de las restantes filas
(o columnas) el determinante de la matriz es cero. Entonces diremos que la matriz
es singular.
El determinante de una matriz de varianzas y covarianzas es una medida global de la
independencia entre las variables. Por ejemplo, si una variable es combinacin lineal de
las dems, entonces las variables son linealmente dependientes y el determinante es nulo.
En trminos relativos, cuanto mayor sea el determinate mayor es la independencia entre
los vectores.
Si consideramos matrices cuadradas estandarizadas de manera que el mdulo de cada
vector columna (o fila) sea la unidad, el determinante es mximo si la matriz tiene unos
17
en la diagonal y ceros en el resto, de manera que los vectores columna son ortogonales
(independientes) entre s.
Traza de una matriz
La traza de una matriz cuadrada es la suma de los elementos de la diagonal principal
de la matriz. Si C es una matriz con elementos cij se verifica:
tr(C) =
n
X
cii
i=1
Pn Pn
i=1
2
j=1 cij .
La traza es una medida global de tamao de la matriz que se obtiene sumando sus
elementos diagonales. Por ejemplo, la traza de una matriz de varianzas y covarianzas es la
suma de todas las varianzas de las variables. Al tener en cuenta nicamente los elementos
diagonales es una medida ms simple que el determinante.
Formas cuadrticas
Una tercera forma de obtener un escalar a partir de una matriz cuadrada es construyendo una forma cuadrtica. Llamaremos forma cuadrtica a una expresin escalar del
tipo:
y0 Ay
donde y es un vector, y0 su transpuesto y A una matriz cuadrada y simtrica. Si la
dimensin del vector es (n 1), la matriz debe ser cuadrada de orden n para que sea
18
aii yi2
+2
i=1
n X
n
X
aij yi yj .
i=1 j=i+1
a01
a01 b1
a01 bn
...
.
..
.. =
.
.
.
.
b
b
=
.
.
1
n
.
0
0
0
an
an b1 . . . an bn
1
0
..
.
0
1
..
.
... 0
... 0
.. .
.
0 ... ... 1
2 1
0 4
0,5 0,125
0
0,25
1 1 0
A = 1 2 1
0 0 3
20
comenzaremos sustituyendo cada elemento por su adjunto. Por ejemplo, para el elemento
(1, 1) su adjunto es (1)2 [2 3 1 0] = 6.
6
3
1
3 0
3 0
1 3
6 3 1
Adj (A) = 3 3 1
0 0
3
13 19
1
19
=
3
1
0 0
3
2
3
1
3
21
Matrices ortogonales
Llamaremos matriz ortogonal, C, a una matriz cuadrada, que representa un giro en el
espacio. Por tanto, dado un vector x, si aplicamos una matriz ortogonal C para obtener
un nuevo vector y = Cx, como el mdulo de y debe ser idntico al de x al tratarse de un
giro, tendremos la condicin :
y0 y = x0 C0 Cx = x0 x,
es decir, deber verificarse que :
C0 C = I
como adems tendremos que x = C1 y, y por la condicion anterior C0 y = C0 Cx = x,
concluimos que la matriz inversa de una matriz ortogonal es igual a su traspuesta. Esta
es la condicin de ortogonalidad:
C0 = C1 .
Esta condicin impone que las filas o columnas de una matriz ortogonal sean vectores
ortogonales entre s y de longitud unidad, ya
1 ...
c01
..
..
. (c1 . . . cn ) = .
0 ...
c0n
que:
c01 c1 . . . c01 cn
0
.. = ..
..
. .
.
0
0
1
cn c1 . . . cn cn
cos sen
sen cos
22
Autovectores y autovalores
Dada una matriz cuadrada, hay determinadas propiedades que esperamos que sean
invariantes ante transformaciones lineales que preserven la informacin existente. Por
ejemplo, si pre-multiplicamos la matriz por una nueva matriz y luego post-multiplicamos
por la inversa de dicha matriz. Tambin si giramos los ejes de coordenadas.
23
Definiciones bsicas
Definimos a los autovalores (o valores propios o races caractersticas) de una matriz
cuadrada de orden n, A, como las soluciones de la ecuacin polinmica.
|A I| = 0.
Es inmediato deducir de la definicin que si una matriz es diagonal, los autovalores
son los elementos de la diagonal principal. En efecto, tendremos:
a1
a1 . . . 0
.
.
.
0
.
.
.
0
.. .
..
.
.
.
.
.
.
.
.
a
.
|A I| =
. . =
2
.
a2
.
0 ... a
0
.
.
.
0
.
.
.
a
n
n
|AI| = (a1 ), ..., (an ),
24
2
0
A =
0
0
0
3
0
0
0
0
0
0
0
0
0
0
tiene como autovalores 2, 3 y 0, este ltimo valor con multiplicidad dos (aparece dos
veces).
Llamaremos autovectores o vectores propios de una matriz cuadrada a los vectores u
que verifican para u 6= 0 la relacin:
Au = u.
Si u es un vector propio de A es obvio que ku, donde k R, ser tambin vector propio.
Para evitar esta indeterminacin suponemos que los autovectores estn normalizados de
manera que |u| = 1. Sin embargo, el signo queda indeterminado: si u es un vector propio
tambin lo es u.
Si una matriz cuadrada de orden n tiene n autovalores distintos entonces a cada
autovalor le podemos asociar un vector propio bien definido y se demuestra que el conjunto
de n vectores propios es linealmente independiente.
Si un autovalor es mltiple, es decir, la matriz no tiene n autovalores distintos, los vectores propios asociados a autovalores con multiplicidad mayor que uno no estn definidos
en general de manera nica. Para ilustrar esta idea, consideremos la matriz
1 0 0
A = 0 1 0
0 0 2
que tiene el autovalor 1 con multiplicidad 2. Los vectores u1 = (1 0 0)0 y u2 = (0 1 0)0 son
vectores propios asociados al valor 1, pero tambin lo es u3 = 1 u1 + (1 1 ) u2 , para
25
cualquier valor de . Los vectores propios estn en un espacio igual a la multiplicidad del
autovalor, 2, y cualquier vector normalizado de este espacio de dimensin 2 es un vector
propio de A.
Los autovalores de una matriz tienen las propiedades siguientes:
(a) si es un autovalor de A, entonces r es un autovalor de Ar .
En particular, si A1 existe, 1 es un autovalor de A1 . En efecto, si Au = u,
multiplicando por A1 , u =A1 u, es decir 1 u = A1 u.
(b) La suma de los autovalores de A es igual a la traza.
tr(A) =
n
X
i .
i=1
n
Y
i .
i=1
(d) Si una matriz P es no singular, entonces Las matrices A y P1 AP tienen los mismos
autovalores.
Efectivamente, si Au =u, multiplicando ambos miembros por P1 por la derecha y
P por la izquierda, se obtiene que P1 A P u = u y las matrices tienen los mismos
autovalores. Los vectores propios de la matriz P1 AP son P1 u, siendo u un vector
propio de la matriz A.
Diagonalizacin de Matrices
Si A es una matriz cuadrada de orden n con k autovalores 1 , . . . k , con multipliP
cidad mi , ki=1 mi = n, la condicin para que A tenga n vectores propios linealmente
independientes es que el rango rank (A i I) = n mi .
donde U tiene por columnas los vectores propios de A, y D contiene los autovalores.
Podemos tambin escribir
A = U D U1 .
Descomposicin espectral
Partiendo de U0 AU = D y pre-multiplicando por U y post-multiplicando por U0 se
obtiene
A = UDU0
que puede escribirse:
de donde resulta:
1 u01
A = (u1,..., un ) ...
n u0n
A=
n
X
i ui u0i
i=1
27
n
X
0
1
i ui ui
i=1
Derivadas matriciales
Definicin
Sea una funcin f dependiente de n variables, x1 , ..., xn , que pueden considerarse
componentes de un vector x; la derivada de f respecto a x es un vector cuyos componentes
son la derivada de f respecto a cada componente de x.
Ejemplo:
28
5
f
= 2
x
3
(a0 x)
=a
x
(ii) Si f = x0 Ax, donde A es cuadrada y simtrica,
(x0 Ax)
= 2Ax
x
ya que aplicando la definicin anterior, como,
x0 Ax =
n
X
aii x2i + 2
i=1
aij xi xj
j>i
tendremos que:
(xAx)
= 2a11 x1 + 2a12 x2 + ... + 2a1n xn = 2a01 x
x1
donde a01 es la primera fila de la matriz. Por tanto:
2a01 x
0
(xAx)
2a2 x
= .. = 2Ax
x
.
2a0n x
Definicin
f1 (x)
y = ...
fn (x)
entonces:
y
=
x
f1
fn
,...,
x
x
f1
x1
...
...
fn
x1
f1
xn
...
fn
xn
= ...
29
..
.
a01
A = ...
a0n
a01 x
y = Ax = ...
a0n x
con lo que,
fi
(a01 x)
=
= ai
x
x
Por tanto, segn lo anterior,
y
= (a1 , . . . , an ) = A0
x
30
#
#
#
---------------------------------------VECTORES Y MATRICES
----------------------------------------
31
z[-i]
1, 3,
2, 6,
3, -4),
byrow=TRUE)
# Matriz diagonal
diag(B)
# Traza
sum(diag(B))
# Comprobacion de que es simetrica una matriz
all(B == t(B))
C <- matrix(c(-5, 1,
1, 2,
3,
6,
3, 6, -4),
3, 3, byrow=TRUE)
all(C == t(C))
32
#
A
A
B
B
A
B
2, 1), 2, 2, byrow=TRUE)
%*% B
%*% A
33
# Matriz singular
A <- matrix(c(1,2,2,4), 2, 2)
solve(A)
# Determinantes
A <- matrix(c(2, 5,
det(A)
1, 3), 2, 2, byrow=TRUE)
34
se encuentran en una matriz, que llamaremos matriz de datos. En esta matriz cada fila
representa un elemento de la poblacin y cada columna los valores de una variable escalar
en todos los elementos observados. Tpicamente esta matriz ser rectangular con n filas y
k columnas donde hemos supuesto que existen n elementos en la poblacin y que se han
medido k variables sobre cada elemento.
Llamaremos X a la matriz de datos y xij a su elemento genrico que representa el
valor de la variable j sobre el individuo i. donde i = 1, ..., n y j = 1, ..., k.
La matriz de datos X tendr dimensiones n k y puede representarse de dos formas
distintas. Por filas como:
X=
x11
x21
..
.
xn1
x12
x22
..
...
.
xn2
x1k
x2k
..
.
xnk
x01
..
.
..
.
x0n
donde cada variable x0i es un vector fila k 1 que representa los valores de las k variables
sobre el individuo i.
Alternativamente podemos representar la matriz X por columnas:
X = [x1 . . . xk ]
donde ahora cada variable xi es un vector columna n 1 que representa la variable i,
medida en los n elementos de la poblacin.
Vector de Medias
La medida de centralizacin ms utilizada para describir datos multivariantes es el
vector de medias, que tiene dimensin k y recoge las medias de cada una de las k variables.
Se calcula fcilmente mediante:
x1
1
x = ... = X0 1,
n
xk
est
159.0
164.0
172.0
...
170.0
170.0
168.0
pes
49
62
65
...
70
67
56
pie
36.0
39.0
38.0
...
38.0
40.0
37.5
lbr
68.0
73.0
75.0
...
73.0
77.0
70.5
aes
42.0
44.0
48.0
...
45.0
46.5
48.0
dcr
57.0
55.0
58.0
...
56.0
58.0
60.0
drt
40.0
44.0
44.0
...
43.0
44.5
40.0
La siguiente tabla presenta las medias y desviaciones tpicas de las variables, as como
otras medidas de la distribucin univariante de cada variable.
est
pes pie
lbr aes dcr drt
Medias
168.8 63.9 39.0 73.5 45.9 57.2 43.1
D. Tpicas
10.2 12.8 2.9 4.9 4.0 1.8 3.1
Coef. asimetra .15
.17 .27 .37 -.22 .16 .56
Coef. Curtosis
1.8
2.1 1.9 2.1 2.4 2.0 3.4
Se observa que la variable ms homognea (con menor variabilidad) es el dimetro
del crneo y la ms variables el peso. La distribucin ms asimtrica es la distancia entre
rodilla y tobillo y la ms apuntada (con mayor curtosis) la distancia rodilla tobillo.
NOTA: En R se puede definir dos funciones para calcular la curtosis y la asimetra:
# funcion para calcular el coeficiente de asimetria de un vector de datos
asim <- function(x){
n <- length(x)
.. . .
.
S = ...
. .. .
.
sk1 sk2 s2k
1X
S=
(xi x)(xi x)0 .
n i=1
n
(xi1 x1 )2
xi1 x1
(xi1 x1 )(xk1 xk )
..
..
..
...
[xi1 x1 . . . xik xk ] =
.
.
.
2
(xik xk )
xik xk
(xik xk )(xi1 x1 )
al sumar para todos los elementos y dividir por n se obtienen las varianzas y covarianzas
e
entre las variables. Otra forma de calcular S es a partir de la matriz de datos centrados X,
que se obtiene restando a cada dato su media. Es fcil comprobar que esta matriz puede
calcularse mediante
e = X 1x0 ,
X
4
1
P = I 110
n
y es simtrica e idempotente (ya que se puede comprobar que PP = P). Entonces la
matriz S puede escribirse:
S=
1 e0 e
1
X X = X0 PX.
n
n
La matriz de correlacin
Llamaremos matriz de correlacin a la matriz cuadrada y simtrica que tiene unos en
la diagonal y fuera de ella los coeficientes de correlacin entre las variables. Escribiremos
1 r12 r1k
.. . .
.
R = ...
. ..
.
rk1 rk2 1
que implica
S = DRD.
La condicin w0 Sw 0 equivale a:
w0 DRDw = Z0 RZ 0
llamando Z = Dw. Por tanto, la matriz R es tambin semidefinida positiva.
En R el comando correspondiente es:
corr(x)
Correlaciones parciales
Se define la matriz de correlaciones parciales como la matriz que mide las relaciones
entre pares de variables eliminando el efecto de las restantes. Por ejemplo, para cuatro
variables:
r12,34
Rp =
r31,24
r41,23
r32,14
1
r34,12
r42,13 r34,12
1
donde, por ejemplo, r12,34 es la correlacin entre las variables 1 y 2 cuando eliminamos el
efecto de la 3 y la 4, es decir, cuando las variables 3 y 4 permanecen constantes.
Puede demostrarse que el coeficiente de correlacin parcial entre dos variables es proporcional al coeficiente de una regresin entre las dos variables que incluye tambin al
resto de las variables. En concreto, por ejemplo:
q
b12,34
b2
+ s2
r12,34 =
12,34
12,34 (n k 1)
R=
1
0, 83
0, 93
0, 91
0, 84
0, 59
0, 84
0, 83
1
0, 85
0, 82
0, 84
0, 62
0, 72
0, 93
0, 85
1
0, 85
0, 80
0, 55
0, 85
0, 91
0, 82
0, 85
1
0, 80
0, 48
0, 76
0, 84
0, 84
0, 80
0, 80
1
0, 63
0, 63
0, 59
0, 62
0, 55
0, 48
0, 63
1
0, 56
0, 84
0, 72
0, 85
0, 76
0, 63
0, 56
1
La Varianza Generalizada
Una medida global escalar de la variabilidad conjunta de k variables es la varianza
generalizada, que es el determinante de la matriz de varianzas y covarianzas. Su raz
cuadrada se denomina desviacin tpica generalizada, y tiene las propiedades siguientes:
(i) Est bien definida, ya que el determinante de la matriz de varianzas y covarianzas
es siempre mayor o igual que 0.
(ii) Es una medida del rea (para k = 2), volumen (para k = 3) o hipervolumen (para
k > 3) ocupado por el conjunto de datos.
rsx sy
s2x
S=
rsx sy
s2y
7
|S|1/2 = sx sy 1 r2
Si las variables son independientes, la mayora de sus valores estarn dentro de un
rectngulo de lados 6sx , 6sy ya que, por el teorema de Tchebychev, entre la media y 3
veces la desviacin tpica debe estar aproximadamente al menos el 90 % de los datos.
En consecuencia, el rea ocupada por ambas variables es directamente proporcional al
producto de las desviaciones tpicas.
Si las variables estn relacionadas linealmente y el coeficiente de correlacin es distinto
de cero, la mayora de los puntos tendern a situarse en una franja alrededor de la recta
de regresin y habr una reduccin del rea tanto mayor cuanto mayor sea r. En el lmite,
si r = 1, todos los puntos estn en una lnea, hay una relacin lineal exacta entre las
variables y el rea ocupada es cero. La ltima frmula describe esta contraccin del rea
ocupada por los puntos al aumentar el coeficiente de correlacin.
Anlogamente, en el caso tridimensional,
2
2
(r13 1) + r13
(r12 1) r13 r12 )1/2
|S|1/2 = sx sy sz (1 + r12
Ejemplo
Partiendo de la matriz de covarianza S de la tabla de datos anterior se tiene que la
varianza generalizada viene dada por:
|S|1/2 = 0,0195
8
Representaciones Grficas
Adems de las representaciones univariantes tradicionales, es conveniente representar los datos multivariantes conjuntamente. Para variables discretas podemos construir
diagramas de barras tridimensionales, pero no es posible extender la anloga a ms dimensiones. Igualmente, podemos construir los equivalentes multidimensionales de los histogramas, pero estas representaciones no son tiles para dimensiones superiores a tres.
Por ejemplo, supongamos unos datos recogidos sobre la cantidad de polucin por
dixido de sulfuro y la mortalidad
(ver http://biostatistics.iop.kcl.ac.uk/publications/everitt/)
a k ro n O H
a lb a ny N Y
a llen PA
...
w o rctrM A
yo rk PA
yo u n g sO H
L lu v ia
36
35
44
...
45
42
38
E d u c a c io n
1 1 .4
11
9 .8
...
1 1 .1
9
1 0 .7
Pop den
3243
4281
4260
...
3 67 8
9699
3451
N o b la n co s
8 .8
3 .5
0 .8
...
1
4 .8
1 1 .7
NOX
15
10
6
...
3
8
13
SO 2
59
39
33
...
8
49
39
M o rta lid a d
9 2 1 .9
9 9 7 .9
9 6 2 .4
...
8 9 5 .7
9 1 1 .8
9 5 4 .4
10
airpoll1<-jitter(cbind(SO2,Mortalidad,50))
plot(airpoll1[,1],airpoll1[,2],xlab="SO2",ylab="Mortalidad",pch=1,lwd=2)
title("(c)",lwd=2)
plot(SO2,Mortalidad,pch=1,lwd=2)
rug(jitter(SO2),side=1)
rug(jitter(Mortalidad),side=2)
title("(d)",lwd=2)
Se puede considerar tambin un grfico de dispersin con los nombres de cada una de
las observaciones:
11
y un grfico de contorno:
12
13
14
15
16
17
/ n
X1 + + Xn
= X ' N ,
n
n
1
21
cov(X, Y )
cov(X, Y )
22
1
1
f (x, y) = 2 p
exp [x 1
2
2
||
y 2 ]
x 1
y 2
y se representa como N (, ) ,
z = matrix(0,n,n)
f1 = c(1,-0.75)
f2 = c(-0.675,1)
sigma = rbind(f1,f2)
for (i in 1:n)
for (j in 1:n)
z[i,j] = dmvnorm(c(x[i],y[j]),mean=c(0,0),sigma)
end
end
persp(x,y,z,theta=25,phi=20,zlab="density function",expand=0.5,col="blue")
N2 (, ) donde = (0, 0) , =
1 0
0 1
N2 (, ) donde = (0, 0) , =
1 0,75
0,75
1
Propiedades
1. La distribucin marginal de X es N (1 , 1 )
2. La distribucin marginal de Y es N (2 , 2 )
3. La distribucin de Y condicionada por X = x es
cov(X, Y )
(x 1 ) ;
N 2 +
21
p
2
2 1
cov(X, Y )
12
21 0
0 22
posibles coeficientes de correlacin; si son 40 variables dicho nmero aumenta hasta 780.
Evidentemente, en este caso es difcil visualizar relaciones entre las variables.
Otro problema que se presenta es la fuerte correlacin que muchas veces se presenta
entre las variables: si tomamos demasiadas variables (cosa que en general sucede cuando
no se sabe demasiado sobre los datos o slo se tiene nimo exploratorio), lo normal es que
estn relacionadas o que midan lo mismo bajo distintos puntos de vista. Por ejemplo, en
estudios mdicos, la presin sangunea a la salida del corazn y a la salida de los pulmones
estn fuertemente relacionadas.
Se hace necesario, pues, reducir el nmero de variables. Es importante resaltar el
hecho de que el concepto de mayor informacin se relaciona con el de mayor variabilidad
o varianza. Cuanto mayor sea la variabilidad de los datos (varianza) se considera que
existe mayor informacin, lo cual est relacionado con el concepto de entropa.
Componentes Principales
Estas tcnicas fueron inicialmente desarrolladas por Pearson a finales del siglo XIX y
posteriormente fueron estudiadas por Hotelling en los aos 30 del siglo XX. Sin embargo,
hasta la aparicin de los ordenadores no se empezaron a popularizar.
Para estudiar las relaciones que se presentan entre p variables correlacionadas (que
miden informacin comn) se puede transformar el conjunto original de variables en otro
5
x1
x = ...
xp
forma simple podra ser aumentar los coeficientes aij . Por ello, para mantener la ortogonalidad de la transformacin se impone que el mdulo del vector a0j = (a1j , a2j , ..., apj ) sea
6
1. Es decir,
a0j aj
p
X
a2kj = 1
k=1
esto equivale a que a02 a1 = 0, es decir, que los vectores sean ortogonales.
De este modo, tendremos que maximizar la varianza de y2 , es decir, a2 a2 , sujeta a
las siguientes restricciones
a02 a2 = 1,
a02 a1 = 0.
Se toma la funcin:
L(a2 ) = a02 a2 (a02 a2 1) a02 a1
y se deriva:
L(a2 )
= 2a2 2a2 a1 = 0
a2
si se multiplica por a01 , entonces
2a01 a2 = 0
porque
a01 a2 = a02 a1 = 0
a01 a1 = 1.
Luego
= 2a01 a2 = 2a02 a1 = 0,
ya que Cov(y2 , y1 ) = 0.
De este modo,
L(a2 )
a2
L(a2 )
= 2a2 2a2 a1 = 2a2 2a2 =
a2
( I) a2 = 0
Usando los mismos razonamientos que antes, elegimos como el segundo mayor autovalor de la matriz con su autovector asociado a2 .
Como
y=
y1
y2
..
.
yp
, A =
, x =
x1
x2
..
.
xp
V ar(y1 ) = 1
V ar(y2 ) = 2
V ar(yp ) = p
la matriz de covarianzas de y ser
1 0 0 0
0 2 0 0
=
0 0 ... 0
0 0 0 p
Porcentajes de variablilidad
Vimos antes que, en realidad, cada autovalor corresponda a la varianza del componente yi que se defina por medio del autovector ai , es decir, V ar(yi ) = i .
Si sumamos todos los autovalores, tendremos la varianza total de los componentes, es
decir:
p
X
V ar(yi ) =
i=1
p
X
i = traza ()
i=1
p
X
V ar(xi )
i=1
Es decir, la suma de las varianzas de las variables originales y la suma de las varianzas
de las componentes son iguales. Esto permite hablar del porcentaje de varianza total que
recoge un componente principal:
Pp i
i=1
i
i=1 V ar(xi )
= Pp
As, tambin se podr expresar el porcentaje de variabilidad recogido por los primeros
m componentes:
Pm
i
i=1 V ar(xi )
donde m < p.
Pp
i=1
Matriz factorial
Cuando se presentan los autovectores en la salida de SPSS, se les suele multiplicar prep
viamente por j (del autovalor correspondiente), para reescalar todos los componentes
1/2
aj = j aj
para j = 1, . . . , p.
De este modo, se suele presentar una tabla de autovectores aj que forman la matriz
factorial
F = (a1 , a2 , . . . , ap )
Si se eleva al cuadrado cada una de las columnas y se suman los trminos se obtienen
los autovalores:
12
1/2
a0
j aj = j
1/2
j a0j aj = j ,
p
X
k=1
j aij
1
1/2
j
1/2
= j aij .
14
representar los datos segn dos o tres dimensiones si se conservan dos o tres ejes factoriales,
pudindose identificar entonces grupos naturales entre las observaciones.
Ejemplo
Phoenix
Little Rock
San Francisco
Denver
Hartford
Wilmington
Washington
Jacksonville
Miami
Atlanta
Chicago
Indianapolis
Des Moines
Wichita
Louisville
New Orleans
Baltimore
Detroit
Minneapolis-St. Paul
Kansas City
St. Louis
Omaha
Alburquerque
Albany
Bualo
Cincinnati
Cleveland
Columbus
Philadelphia
Pittsburgh
Providence
Memphis
Nashville
Dallas
Houston
Salt Lake City
Norfolk
Richmond
Seattle
Charleston
Milwaukee
SO2
10.00
13.00
12.00
17.00
56.00
36.00
29.00
14.00
10.00
24.00
110.00
28.00
17.00
8.00
30.00
9.00
47.00
35.00
29.00
14.00
56.00
14.00
11.00
46.00
11.00
23.00
65.00
26.00
69.00
61.00
94.00
10.00
18.00
9.00
10.00
28.00
31.00
26.00
29.00
31.00
16.00
Neg.Temp
70.30
61.00
56.70
51.90
49.10
54.00
57.30
68.40
75.50
61.50
50.60
52.30
49.00
56.60
55.60
68.30
55.00
49.90
43.50
54.50
55.90
51.50
56.80
47.60
47.10
54.00
49.70
51.50
54.60
50.40
50.00
61.60
59.40
66.20
68.90
51.00
59.30
57.80
51.10
55.20
45.70
Empresas
213.00
91.00
453.00
454.00
412.00
80.00
434.00
136.00
207.00
368.00
3344.00
361.00
104.00
125.00
291.00
204.00
625.00
1064.00
699.00
381.00
775.00
181.00
46.00
44.00
391.00
462.00
1007.00
266.00
1692.00
347.00
343.00
337.00
275.00
641.00
721.00
137.00
96.00
197.00
379.00
35.00
569.00
Poblacion
582.00
132.00
716.00
515.00
158.00
80.00
757.00
529.00
335.00
497.00
3369.00
746.00
201.00
277.00
593.00
361.00
905.00
1513.00
744.00
507.00
622.00
347.00
244.00
116.00
463.00
453.00
751.00
540.00
1950.00
520.00
179.00
624.00
448.00
844.00
1233.00
176.00
308.00
299.00
531.00
71.00
717.00
Viento
6.00
8.20
8.70
9.00
9.00
9.00
9.30
8.80
9.00
9.10
10.40
9.70
11.20
12.70
8.30
8.40
9.60
10.10
10.60
10.00
9.50
10.90
8.90
8.80
12.40
7.10
10.90
8.60
9.60
9.40
10.60
9.20
7.90
10.90
10.80
8.70
10.60
7.60
9.40
6.50
11.80
Precip
7.05
48.52
20.66
12.95
43.37
40.25
38.89
54.47
59.80
48.34
34.44
38.74
30.85
30.58
43.11
56.77
41.31
30.96
25.94
37.00
35.89
30.18
7.77
33.36
36.11
39.04
34.99
37.01
39.93
36.22
42.75
49.10
46.00
35.94
48.19
15.17
44.68
42.59
38.79
40.75
29.07
Dias
36.00
100.00
67.00
86.00
127.00
114.00
111.00
116.00
128.00
115.00
122.00
121.00
103.00
82.00
123.00
113.00
111.00
129.00
137.00
99.00
105.00
98.00
58.00
135.00
166.00
132.00
155.00
134.00
115.00
147.00
125.00
105.00
119.00
78.00
103.00
89.00
116.00
115.00
164.00
148.00
123.00
Contenido en SO2
Temperatura anual en grados F.
Nmero de empresas mayores de 20 trabajadores.
Poblacin (en miles de habitantes).
Velocidad media del viento.
Precipitacin anual media.
Das lluviosos al ao.
dimensin menor; de hecho, los tres primeros componentes producen un mapa de los datos
donde las distancias entre los puntos es bastante semejante a la observada en los mismos
respecto a las variables originales.
En la salida de R, se presentan las puntuaciones de las observaciones respecto a los
tres factores combinando estos de dos en dos. Se observa que la ciudad de Chicago es un
outlier y tambin, en menor medida, las ciudades de Phoenix y Philadelphia. Phoenix
aparece como la ciudad con ms calidad de vida, y Bualo parece la ms hmeda.
A continuacin nos planteamos la cuestin de la relacin o posible prediccin de los
niveles de SO2 respecto a las variables de tipo ambiental. Se pueden representar los
valores de concentracin de SO2 frente a cada uno de los tres componentes, aunque la
interpretacin puede ser subjetiva por la presencia de outliers. An as, parece que la
contaminacin est ms relacionada con la primera componente que con las otras dos.
Hacemos un anlisis de regresin de la variable SO2 sobre los tres factores: claramente
la cantidad de SO2 se explica mediante el primer componente de calidad de vida (relacionado con el entorno humano y el clima) que cuando empeora aumenta, a su vez, la
contaminacin.
17
18
19
Temp
55,7634
7,22772
41
Emp
463,0976
563,47395
41
Pob
608,6098
579,11302
41
Viento
9,4439
1,42864
41
Precip
36,7690
11,77155
41
113,9024
26,50642
41
Dias
20
Correlacin
Temp
Emp
-,190 1,000
Pob
Viento
Precip
Dias
-,350
,386 -,430
,955
,238
-,032
,132
-,063
,955 1,000
,213
-,026
,042
-,350
,238
,213
1,000
-,013
,164
-,013
1,000
,496
-,430
Temp
Sig. (Unilateral)
,132
,042
,164
,496 1,000
,117
,349
,012
,006
,002
,000
,067
,420
,206
,091
,436
,397
,468
,153
Emp
,117
Pob
,349
,000
Viento
,012
,067
,091
Precip
,006
,420
,436
,468
Dias
,002
,206
,397
,153
,000
,000
a Determinante = ,014
Para que se pueda realizar el PCA, es necesario que las variables presenten factores comunes. Es decir,
que estn muy correlacionadas entre s. Los coeficientes de la matriz de correlaciones deben ser grandes
en valor absoluto.
Test de esfericidad de Barlett:
Para comprobar que las correlaciones entre las variables son distintas de cero de modo significativo, se
comprueba si el determinante de la matriz es distinto de uno, es decir, si la matriz de correlaciones es
distinta de la matriz identidad.
Si las variables estn correlacionadas hay muchos valores altos en valor absoluto fuera de la diagonal
principal de la matriz de correlaciones, adems, el determinante es menor que 1 (el mximo valor del
determinante es 1 si las variables estn incorrelacionadas).
El test de Barlett realiza el contraste:
H0: |R| = 1
H1: |R| 1
El determinante de la matriz da una idea de la correlacin generalizada entre todas las variables.
Se basa el test en la distribucin chi cuadrado donde valores altos llevan a rechazar H0, as, la prueba de
esfericidad de Bartlett contrasta si la matriz de correlaciones es una matriz identidad, que indicara que el
modelo factorial es inadecuado. Por otro lado, la medida de la adecuacin muestral de Kaiser-MeyerOlkin contrasta si las correlaciones parciales entre las variables son pequeas:
KMO y prueba de Bartlett
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
,365
15
,000
21
Equivale a la suma de la fila j-sima de la matriz factorial. Sera igual a 0 si los factores comunes no
explicaran nada la variabilidad de una variable, y sera igual a 1 si quedase totalmente explicada.
Comunalidades
Inicial
Extraccin
Temp
1,000
,892
Emp
1,000
,968
Pob
1,000
,979
Viento
1,000
,424
Precip
1,000
,941
Dias
1,000
,888
Autovalores iniciales
Componente
Total
% de la
varianza
%
acumulado
Total
% de la varianza
% acumulado
2,196
36,603
36,603
2,196
36,603
36,603
1,500
24,999
61,602
1,500
24,999
61,602
1,395
23,244
84,846
1,395
23,244
84,846
,760
12,670
97,516
,115
1,910
99,426
,034
,574
100,000
Grfico de la varianza asociada a cada factor. Se utiliza para determinar cuntos factores deben retenerse.
Tpicamente el grfico muestra la clara ruptura entre la pronunciada pendiente de los factores ms
importantes y el descenso gradual de los restantes (los sedimentos).
Otra opcin es usar el criterio de Kaiser: consiste en conservar aquellos factores cuyo autovalor asociado
sea mayor que 1.
22
Saturaciones factoriales:
Matriz de componentes(a)
Componente
1
Temp
-,489
-,156
,793
Emp
,906
-,206
,322
Pob
,856
-,272
,414
Viento
,524
,160
-,351
Precip
-,060
,763
,596
,353
,867
-,110
Dias
Matriz de correlaciones estimada a partir de la solucin factorial. Tambin se muestran las correlaciones
residuales (la diferencia entre la correlacin observada y la reproducida).
23
Correlaciones reproducidas
Temp
Viento
Precip
Dias
-,155
-,048
-,560
,383
-,395
Emp
-,155
,968(b)
,965
,329
-,020
,106
Pob
-,048
,965
,979(b)
,260
-,013
,020
Viento
-,560
,329
,260
,424(b)
-,119
,362
Precip
,383
-,020
-,013
-,119
,941(b)
,574
-,395
,106
,020
,362
,574
,888(b)
-,035
-,015
,210
,003
-,035
-,010
-,091
-,013
,026
-,047
-,013
,022
,106
-,198
Dias
Temp
Residual(a)
Pob
,892(b)
Temp
Correlacin reproducida
Emp
Emp
-,035
Pob
-,015
-,010
Viento
,210
-,091
-,047
Precip
,003
-,013
-,013
,106
-,035
,026
,022
-,198
Dias
-,078
-,078
Representacin tridimensional de las saturaciones factoriales para los tres primeros factores.
El clculo de las puntuaciones factoriales consiste en pasar de la matriz original con las variables x1, ..., xp
a la de los valores segn los k factores
24
Estas puntuaciones factoriales se pueden guardar y utilizar en anlisis posteriores como tcnicas de
regresin mltiple o en anlisis de cluster.
25
R cuadrado
,647(a)
R cuadrado corregida
,418
,371
18,61510
a Variables predictoras: (Constante), REGR factor score 3 for analysis 1, REGR factor score 2 for analysis 1,
REGR factor score 1 for analysis 1
ANOVA(b)
Modelo
Suma de cuadrados
gl
Media cuadrtica
Regresin
9216,590
3072,197
Residual
12821,313
37
346,522
Total
22037,902
40
Sig.
8,866
,000(a)
a Variables predictoras: (Constante), REGR factor score 3 for analysis 1, REGR factor score 2 for analysis 1,
REGR factor score 1 for analysis 1
b Variable dependiente: SO2
Coeficientes(a)
Coeficientes no
estandarizados
Coeficientes
estandarizados
Modelo
B
Beta
Sig.
Error tp.
(Constante)
30,049
2,907
10,336 ,000
14,917
2,943
,635
5,068 ,000
2,777
2,943
,118
,943 ,352
,448
2,943
,019
,152 ,880
26
Temp
-,489
-,156
Emp
,906
-,206
Pob
,856
-,272
Viento
,524
,160
Precip
-,060
,763
,353
,867
Dias
,263
Emp
,864
Pob
,807
Viento
,301
Precip
,586
Dias
,876
% de la varianza
% acumulado
2,196
36,603
36,603
1,500
24,999
61,602
27
Correlaciones reproducidas
Temp
Viento
Precip
Dias
-,411
-,376
-,281
-,090
-,308
Emp
-,411
,864(b)
,832
,442
-,212
,141
Pob
-,376
,832
,807(b)
,405
-,260
,066
Viento
-,281
,442
,405
,301(b)
,090
,324
Precip
-,090
-,212
-,260
,090
,586(b)
,640
Dias
-,308
,141
,066
,324
,640
,876(b)
,221
,313
-,069
,476
-,123
,123
-,204
,179
-,009
-,193
,233
-,024
-,103
-,160
Temp
Residual(a)
Pob
,263(b)
Temp
Correlacin reproducida
Emp
Emp
,221
Pob
,313
,123
Viento
-,069
-,204
-,193
Precip
,476
,179
,233
-,103
-,123
-,009
-,024
-,160
Dias
-,144
-,144
28
Neg.Temp
Min.
:-75.50
1st Qu.:-59.30
Median :-54.60
Mean
:-55.76
3rd Qu.:-50.60
Max.
:-43.50
Viento
Min.
: 6.000
1st Qu.: 8.700
Median : 9.300
Mean
: 9.444
3rd Qu.:10.600
Max.
:12.700
Precip
Min.
: 7.05
1st Qu.:30.96
Median :38.74
Mean
:36.77
3rd Qu.:43.11
Max.
:59.80
Empresas
Min.
: 35.0
1st Qu.: 181.0
Median : 347.0
Mean
: 463.1
3rd Qu.: 462.0
Max.
:3344.0
Poblacion
Min.
: 71.0
1st Qu.: 299.0
Median : 515.0
Mean
: 608.6
3rd Qu.: 717.0
Max.
:3369.0
Dias
Min.
: 36.0
1st Qu.:103.0
Median :115.0
Mean
:113.9
3rd Qu.:128.0
Max.
:166.0
library(TeachingDemos)
faces(aire.dat)
29
faces2(aire.dat,nrows=7)
30
31
Temp
Emp
Pob
Viento
Precip
Dias
Temp
Emp
Pob
Viento
Precip
Dias
1.00000000 -0.19004216 -0.06267813 -0.34973963 0.38625342 -0.43024212
-0.19004216 1.00000000 0.95526935 0.23794683 -0.03241688 0.13182930
-0.06267813 0.95526935 1.00000000 0.21264375 -0.02611873 0.04208319
-0.34973963 0.23794683 0.21264375 1.00000000 -0.01299438 0.16410559
0.38625342 -0.03241688 -0.02611873 -0.01299438 1.00000000 0.49609671
-0.43024212 0.13182930 0.04208319 0.16410559 0.49609671 1.00000000
Importance of components:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Standard deviation
1.4819456 1.2247218 1.1809526 0.8719099 0.33848287
Proportion of Variance 0.3660271 0.2499906 0.2324415 0.1267045 0.01909511
Cumulative Proportion 0.3660271 0.6160177 0.8484592 0.9751637 0.99425879
Comp.6
Standard deviation
0.185599752
Proportion of Variance 0.005741211
Cumulative Proportion 1.000000000
Loadings:
Comp.1
Temp
0.330
Emp
-0.612
Pob
-0.578
Viento -0.354
Precip
Dias
-0.238
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
0.32964613 -0.1275974 0.67168611 -0.30645728 0.55805638 -0.13618780
-0.61154243 -0.1680577 0.27288633 0.13684076 -0.10204211 -0.70297051
-0.57782195 -0.2224533 0.35037413 0.07248126 0.07806551 0.69464131
-0.35383877 0.1307915 -0.29725334 -0.86942583 0.11326688 -0.02452501
0.04080701 0.6228578 0.50456294 -0.17114826 -0.56818342 0.06062222
-0.23791593 0.7077653 -0.09308852 0.31130693 0.58000387 -0.02196062
32
par(pty="s")
plot(aire.pc$scores[,1],aire.pc$scores[,2],
ylim=range(aire.pc$scores[,1]),
xlab="PC1",ylab="PC2",type="n",lwd=2)
text(aire.pc$scores[,1],aire.pc$scores[,2],
labels=abbreviate(row.names(aire.dat)),cex=0.7,lwd=2)
33
par(pty="s")
plot(aire.pc$scores[,1],aire.pc$scores[,3],
ylim=range(aire.pc$scores[,1]),
xlab="PC1",ylab="PC3",type="n",lwd=2)
text(aire.pc$scores[,1],aire.pc$scores[,3],
labels=abbreviate(row.names(aire.dat)),cex=0.7,lwd=2)
34
par(pty="s")
plot(aire.pc$scores[,2],aire.pc$scores[,3],
ylim=range(aire.pc$scores[,2]),
xlab="PC2",ylab="PC3",type="n",lwd=2)
text(aire.pc$scores[,2],aire.pc$scores[,3],
labels=abbreviate(row.names(aire.dat)),cex=0.7,lwd=2)
35
par(mfrow=c(1,3))
plot(aire.pc$scores[,1],SO2,xlab="PC1")
plot(aire.pc$scores[,2],SO2,xlab="PC2")
plot(aire.pc$scores[,3],SO2,xlab="PC3")
36
summary(lm(SO2~aire.pc$scores[,1]+aire.pc$scores[,2]+
aire.pc$scores[,3]))
Call:
lm(formula = SO2 ~ aire.pc$scores[, 1] + aire.pc$scores[, 2] +
aire.pc$scores[, 3])
Residuals:
Min
1Q
-36.420 -10.981
Median
-3.184
3Q
12.087
Max
61.273
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
30.049
2.907 10.336 1.85e-12 ***
aire.pc$scores[, 1]
-9.942
1.962 -5.068 1.14e-05 ***
aire.pc$scores[, 2]
2.240
2.374
0.943
0.352
aire.pc$scores[, 3]
0.375
2.462
0.152
0.880
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 18.62 on 37 degrees of freedom
Multiple R-Squared: 0.4182,
Adjusted R-squared: 0.371
F-statistic: 8.866 on 3 and 37 DF, p-value: 0.0001473
plot(aire.pc$scores[,1],SO2,xlab="PC1",ylab="SO2")
37
38
41
7
Simple Statistics
Mean
StD
SO2
Temp
Emp
Pob
30.04878049
23.47227217
55.76341463
7.22771596
463.0975610
563.4739482
608.6097561
579.1130234
Simple Statistics
Mean
StD
Viento
Precip
Dias
9.443902439
1.428644249
36.76902439
11.77154977
113.9024390
26.5064189
Correlation Matrix
SO2
Temp
Emp
Pob
Viento
Precip
Dias
SO2
Temp
Emp
Pob
Viento
Precip
Dias
1.0000
-.4336
0.6448
0.4938
0.0947
0.0543
0.3696
-.4336
1.0000
-.1900
-.0627
-.3497
0.3863
-.4302
0.6448
-.1900
1.0000
0.9553
0.2379
-.0324
0.1318
0.4938
-.0627
0.9553
1.0000
0.2126
-.0261
0.0421
0.0947
-.3497
0.2379
0.2126
1.0000
-.0130
0.1641
0.0543
0.3863
-.0324
-.0261
-.0130
1.0000
0.4961
0.3696
-.4302
0.1318
0.0421
0.1641
0.4961
1.0000
1
2
3
4
5
6
7
Eigenvalue
Difference
Proportion
Cumulative
2.72811968
1.51233485
1.39497299
0.89199129
0.34677866
0.10028759
0.02551493
1.21578483
0.11736187
0.50298170
0.54521262
0.24649107
0.07477267
0.3897
0.2160
0.1993
0.1274
0.0495
0.0143
0.0036
0.3897
0.6058
0.8051
0.9325
0.9820
0.9964
1.0000
39
Eigenvectors
SO2
Temp
Emp
Pob
Viento
Precip
Dias
Prin1
Prin2
Prin3
Prin4
Prin5
Prin6
Prin7
0.489699
-.315371
0.541169
0.487588
0.249875
0.000187
0.260179
0.084576
-.088638
-.225881
-.282004
0.055471
0.625879
0.677967
0.014350
0.677136
0.267159
0.344838
-.311265
0.492036
-.109579
-.404210
0.185228
0.026272
0.113404
0.861901
0.183937
-.109761
0.730394
0.162465
-.164101
-.349105
0.268255
0.160599
-.439970
0.183346
0.610661
-.042734
-.087863
0.150054
-.553574
0.504947
0.149529
-.023664
-.745181
0.649126
0.015765
-.010315
0.008217
Variables:
SO2
Prin1
Prin2
Simple Statistics
Variable
SO2
Prin1
Prin2
Mean
Std Dev
Sum
Minimum
Maximum
41
41
41
30.04878
0
0
23.47227
1.65170
1.22977
1232
0
0
8.00000
-2.68265
-3.84369
110.00000
7.23097
1.54968
Prin1
Prin2
SO2
1.00000
0.80884
<.0001
0.10401
0.5175
Prin1
0.80884
<.0001
1.00000
0.00000
1.0000
Prin2
0.10401
0.5175
0.00000
1.0000
1.00000
40
41
42
xp = p1 f1 + + pk fk + up
o de modo ms conciso
x = f + u.
donde
11 1k
= ... . . . ... , f =
p1 pk
f1
.. , u =
.
fk
u1
.. .
.
up
Los ij son los pesos factoriales que muestran como cada xi depende de factores comunes
y se usan para interpretar los factores. Por ejemplo, valores altos relacionan un factor con
la correspondiente variable observada y as se puede caracterizar cada factor.
Se asume que los trminos residuales u1 , . . . , up estn incorrelados entre s y con los
factores f1 , . . . , fk . Cada variable ui es particular para cada xi y se denomina variable
especfica.
Dado que los factores no son observables, se puede fijar arbitrariamente su media en 0
y su varianza en 1, esto es, se consideran variables estandarizadas que estn incorreladas
entre s, de modo que los pesos factoriales resultan ser las correlaciones entre las variables
y los factores.
As, con las suposiciones previas, la varianza de la variable xi es
2i
k
X
2ij + i
j=1
donde i es la varianza de ui .
De este modo, la varianza de cada variable observada se puede descomponer en dos
partes. La primera h2i , denominada comunalidad, es
h2i
k
X
j=1
2ij
y representa la varianza compartida con las otras variables por medio de los factores
comunes. La segunda parte, i , se denomina varianza especfica y recoge la variabilidad
no compartida con las otras variables.
La definicin del modelo implica que la covarianza entre las variables xi y xj es
ij =
k
X
il lj .
l=1
Las covarianzas no dependen en absoluto de las variables especficas, de hecho, basta con
los factores comunes. De este modo, la matriz de covarianzas de las variables observadas
es
= 0 +
donde es una matriz diagonal cuyos componentes son las varianzas especficas: =
diag( i ).
Lo contrario tambin se verifica: dada la descomposicin de la varianza anterior, se
puede encontrar un modelo factorial para las variables originales, x, con k factores.
En la prctica se tienen que estimar los parmetros del modelo a partir de una muestra,
y
tales que la matriz de
de modo que el problema se centra en encontrar los valores
covarianzas muestral S es aproximadamente
0 +
S
Se tienen dos mtodos de estimacin de los trminos anteriores: el mtodo de los
factores principales y el mtodo de mxima verosimilitud.
Mtodo de los factores principales
Es una tcnica basada en autovalores y autovectores pero en lugar de operar sobre la
matriz de covarianzas se opera sobre la llamada matriz de covarianzas reducida,
S = S
es una matriz diagonal que contiene las estimas de i .
donde
3
Los elementos diagonales de S contiene las comunalidades estimadas (las partes de las
varianzas de cada variable explicada por los factores comunes). Al contrario que el anlisis
de componentes principales, el anlisis factorial no pretende recoger toda la varianza
observada de los datos, sino la que comparten los factores comunes. De hecho, el anlisis
factorial se centra ms en recoger las covarianzas o correlaciones que aparecen entre las
variables originales.
El procedimiento es iterativo: se parte de unas comunalidades estimadas a partir de las
correlaciones entre las variables observadas y luego se efectua un anlisis de componentes
principales sobre la matriz S .
Mtodo de la mxima verosimilitud
Este mtodo es el habitualmente preferido por los estadsticos. Asumiendo normalidad
en los datos se define una distancia F , entre la matriz de covarianzas observada y los
valores predichos de esta matriz por el modelo del anlisis factorial. La expresin de dicha
distancia es
1
0
ln |S| p
F = ln | + | + traza S | + |
0
Las estimaciones de los pesos factoriales se obtienen minimizando esta funcin, y esto
es equivalente a maximizar la funcin de verosimilitud del modelo k factorial asumiendo
normalidad.
Ejemplos
Ejemplo 1
Se considera una muestra de los aos de vida esperados por pas, edad y sexo procedentes de Keyfitz y Flieger (1971).
Algeria
Cameroon
Madagascar
Mauritius
Reunion
Seychelles
South Africa(C)
South Africa(W)
Tunisia
Canada
Costa Rica
Dominican Rep
El Salvador
Greenland
Grenada
Guatemala
Honduras
Jamaica
Mexico
Nicaragua
Panama
Trinidad(62)
Trinidad (67)
United States (66)
United States (NW66)
United States (W66)
United States (67)
Argentina
Chile
Columbia
Ecuador
m0
63.00
34.00
38.00
59.00
56.00
62.00
50.00
65.00
56.00
69.00
65.00
64.00
56.00
60.00
61.00
49.00
59.00
63.00
59.00
65.00
65.00
64.00
64.00
67.00
61.00
68.00
67.00
65.00
59.00
58.00
57.00
m25
51.00
29.00
30.00
42.00
38.00
44.00
39.00
44.00
46.00
47.00
48.00
50.00
44.00
44.00
45.00
40.00
42.00
44.00
44.00
48.00
48.00
63.00
43.00
45.00
40.00
46.00
45.00
46.00
43.00
44.00
46.00
m50
30.00
13.00
17.00
20.00
18.00
24.00
20.00
22.00
24.00
24.00
26.00
28.00
25.00
22.00
22.00
22.00
22.00
23.00
24.00
28.00
26.00
21.00
21.00
23.00
21.00
23.00
23.00
24.00
23.00
24.00
28.00
m75
13.00
5.00
7.00
6.00
7.00
7.00
7.00
7.00
11.00
8.00
9.00
11.00
10.00
6.00
8.00
9.00
6.00
8.00
8.00
14.00
9.00
7.00
6.00
8.00
10.00
8.00
8.00
9.00
10.00
9.00
9.00
w0
67.00
38.00
38.00
64.00
62.00
69.00
55.00
72.00
63.00
75.00
68.00
66.00
61.00
65.00
65.00
51.00
61.00
67.00
63.00
68.00
67.00
68.00
68.00
74.00
67.00
75.00
74.00
71.00
66.00
62.00
60.00
w25
54.00
32.00
34.00
46.00
46.00
50.00
43.00
50.00
54.00
53.00
50.00
51.00
48.00
45.00
49.00
41.00
43.00
48.00
46.00
51.00
49.00
47.00
47.00
51.00
46.00
52.00
51.00
51.00
49.00
47.00
49.00
w50
34.00
17.00
20.00
25.00
25.00
28.00
23.00
27.00
33.00
29.00
27.00
29.00
27.00
25.00
27.00
23.00
22.00
26.00
25.00
29.00
27.00
25.00
24.00
28.00
25.00
29.00
28.00
28.00
27.00
25.00
28.00
w75
15.00
6.00
7.00
8.00
10.00
14.00
8.00
9.00
19.00
10.00
10.00
11.00
12.00
9.00
10.00
8.00
7.00
9.00
8.00
13.00
10.00
9.00
8.00
10.00
11.00
10.00
10.00
10.00
12.00
10.00
11.00
Se usa un anlisis factorial por mxima verosimilitud. Primero se prueban tres soluciones con 1, 2 o 3 factores, observndose que la solucin con tres factores es la adecuada,
al observar el test con la hiptesis nula de que con tres factores es suficiente.
Se obtiene la solucin rotada (varimax por defecto) y se observa:
(i ) primer factor: est muy relacionado con la esperanza de vida en el nacimiento para
mujeres y hombres;
7
Estadsticos descriptivos
Media Desviacin tpica N del anlisis
59,613
7,9191
31
m25 44,129
5,9033
31
m50 22,935
3,4052
31
8,387
2,0278
31
64,194
8,8220
31
w25 47,516
4,9858
31
w50 26,290
3,3386
31
w75 10,129
2,5787
31
m0
m75
w0
10
Matriz de correlaciones(a)
m0
m25
m50
m75
w0
w25
w50
w75
1,000
,748
,636
,290
,980
,874
,697
,318
m25
,748 1,000
,667
,391
,693
,725
,647
,393
m50
,636
,667 1,000
,752
,557
,772
,802
,593
m75
,290
,391
,752 1,000
,247
,547
,687
,710
w0
,980
,693
,557
,247 1,000
,887
,710
,365
w25
,874
,725
,772
,547
,887 1,000
,940
,684
w50
,697
,647
,802
,687
,710
,940 1,000
,828
w75
,318
,393
,593
,710
,365
,684
,828 1,000
,000
,000
,057
,000
,000
,000
,041
,000
,015
,000
,000
,000
,014
,000
,001
,000
,000
,000
,090
,001
,000
,000
,000
,000
,022
,000
,000
m0
Correlacin
m0
Sig. (Unilateral)
m25
,000
m50
,000
,000
m75
,057
,015
,000
w0
,000
,000
,001
,090
w25
,000
,000
,000
,001
,000
w50
,000
,000
,000
,000
,000
,000
w75
,041
,014
,000
,000
,022
,000
,000
,000
a Determinante = 7,91E-007
KMO y prueba de Bartlett
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
,794
28
,000
Sig.
Comunalidades(a)
Mtodo de extraccin: Mxima verosimilitud.
Matriz factorial(a)
a 3 factores extrados. Requeridas 7 iteraciones.
Prueba de la bondad de ajuste
Chi-cuadrado
6,275
gl
7
Sig.
,508
11
Correlaciones reproducidas
m0
m75
w0
w25
w50
w75
,748
,636
,290
,980
,874
,696
,318
m25
,748
,649(b)
,684
,431
,697
,723
,647
,369
M50
,636
,684
,905(b)
,725
,557
,769
,807
,600
M75
,290
,431
,725
,707(b)
,244
,556
,690
,653
W0
,980
,697
,557
,244
,996(b)
,887
,711
,363
W25
,874
,723
,769
,556
,887
,989(b)
,939
,688
W50
,696
,647
,807
,690
,711
,939 ,980(b)
,827
W75
,318
,369
,600
,653
,363
,688
,001
,000 -7,91E-5
1,04E-5
-7,65E-5
,000
,000
-,040
-,004
,002
,000
,024
,027
,000
,003
-,004
-,006
,003
-,009
-,003
,058
,000
-,001
,002
,001
-,004
M0
Residual(a)
m50
,999(b)
m0
Correlacin
reproducida
m25
m25
,001
-,017
m50
,000
-,017
m75
-7,91E-5
-,040
,027
w0
1,04E-5
-,004
,000
,003
w25
-7,65E-5
,002
,003
-,009
,000
w50
,000
,000
-,004
-,003
-,001
,001
w75
,000
,024
-,006
,058
,002
-,004
,827 ,852(b)
,001
,001
12
m0
,964
,120
,233
m25
,645
,168
,453
m50
,428
,376
,762
m75
,078
,537
,642
w0
,970
,220
,078
w25
,763
,561
,303
w50
,535
,732
,397
w75
,156
,869
,271
% de la varianza
% acumulado
3,369
42,107
42,107
2,127
26,589
68,696
1,580
19,751
88,447
,956
,187
,225
-,258
,902
,347
-,138
-,390
,910
13
14
SS loadings
Proportion Var
Factor1
5.329
0.666
Factor2
0.179
0.329
0.651
0.760
0.194
0.603
0.815
0.888
SS loadings
Proportion Var
Cumulative Var
Factor1 Factor2
3.567
2.994
0.446
0.374
0.446
0.820
Factor2
0.122
0.169
0.354
0.525
0.217
0.556
0.729
0.867
SS loadings
Proportion Var
Cumulative Var
Factor3
0.226
0.438
0.790
0.656
0.310
0.401
0.280
15
Algeria
Cameroon
Madagascar
Mauritius
Reunion
Seychelles
South Africa(C)
South Africa(W)
Tunisia
Canada
Costa Rica
Dominican Rep
El Salvador
Greenland
Grenada
Guatemala
Honduras
Jamaica
Mexico
Nicaragua
Panama
Trinidad(62)
Trinidad (67)
United States (66)
United States (NW66)
United States (W66)
United States (67)
Argentina
Chile
Columbia
Ecuador
Factor1
-0.258062561
-2.782495791
-2.806428187
0.141004934
-0.196352142
0.367371307
-1.028567629
0.946193522
-0.862493550
1.245304248
0.508736247
0.106044085
-0.608155779
0.235114220
0.132008172
-1.450336359
0.043253249
0.462124701
-0.052332675
0.268974443
0.442333434
0.711367053
0.787286051
1.128331259
0.400058903
1.214345385
1.128331259
0.731344988
0.009751528
-0.240602517
-0.723451797
Factor2
1.90095771
-0.72340014
-0.81158820
-0.29028454
0.47429917
0.82902375
-0.08065792
0.06400408
3.59177195
0.29564122
-0.50500435
0.01111171
0.65100820
-0.69123901
0.25241049
-0.67765804
-1.85175707
-0.51918493
-0.72020002
0.08407227
-0.73778272
-0.95989475
-1.10729029
0.16389896
-0.36230253
0.40877239
0.16389896
0.24811968
0.75222637
-0.29543613
0.44246371
Factor3
1.91581631
-1.84772224
-0.01210318
-0.85862443
-1.55046466
-0.55214085
-0.65421971
-0.91995289
-0.36442148
-0.27342781
1.01328707
1.83871599
0.48836431
-0.38558654
-0.15220645
0.65911906
0.30633182
0.08032855
0.44417800
1.70568388
1.25218728
-0.21545329
-0.51958264
-0.68177046
-0.74299137
-0.69225320
-0.68177046
-0.12817725
-0.49198911
0.42919600
1.59164974
library(scatterplot3d)
scatterplot3d(scores, angle=35, col.grid="lightblue", main="Grafica de las
puntuaciones", pch=20)
pairs(scores)
16
par(pty="s")
plot(scores[,1],scores[,2],
ylim=range(scores[,1]),
xlab="Factor 1",ylab="Factor 2",type="n",lwd=2)
text(scores[,1],scores[,2],
labels=abbreviate(row.names(life),minlength=8),cex=0.6,lwd=2)
par(pty="s")
plot(scores[,1],scores[,3],
ylim=range(scores[,1]),
xlab="Factor 1",ylab="Factor 3",type="n",lwd=2)
text(scores[,1],scores[,3],
labels=abbreviate(row.names(life),minlength=8),cex=0.6,lwd=2)
par(pty="s")
plot(scores[,2],scores[,3],
ylim=range(scores[,2]),
xlab="Factor 2",ylab="Factor 3",type="n",lwd=2)
text(scores[,2],scores[,3],
labels=abbreviate(row.names(life),minlength=8),cex=0.6,lwd=2)
17
18
19
cigar beer
wine
1.000
0.447
0.422
0.435
0.114
0.203
0.091
0.082
0.513
0.304
0.245
0.101
0.245
0.422
0.619
1.000
0.583
0.053
0.139
0.110
0.066
0.365
0.240
0.183
0.074
0.184
cigarettes
beer
wine
liquor
cocaine
tranquillizers
medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
0.447
1.000
0.619
0.604
0.068
0.146
0.103
0.063
0.445
0.318
0.203
0.088
0.199
inhal
0.245
0.203
0.183
0.255
0.272
0.323
0.310
0.288
0.301
0.302
1.000
0.304
0.392
liquor
0.435
0.604
0.583
1.000
0.115
0.258
0.122
0.097
0.482
0.368
0.255
0.139
0.293
coca
tranq
medin
heroin marija
0.114
0.068
0.053
0.115
1.000
0.349
0.209
0.321
0.186
0.303
0.272
0.279
0.278
0.203
0.146
0.139
0.258
0.349
1.000
0.221
0.355
0.315
0.377
0.323
0.367
0.545
0.091
0.103
0.110
0.122
0.209
0.221
1.000
0.201
0.150
0.163
0.310
0.232
0.232
0.082
0.063
0.066
0.097
0.321
0.355
0.201
1.000
0.154
0.219
0.288
0.320
0.314
haluuci
0.101
0.088
0.074
0.139
0.279
0.367
0.232
0.320
0.204
0.368
0.340
1.000
0.511
0.513
0.445
0.365
0.482
0.186
0.315
0.150
0.154
1.000
0.534
0.301
0.204
0.394
0.304
0.318
0.240
0.368
0.303
0.377
0.163
0.219
0.534
1.000
0.302
0.368
0.467
ampheta
0.245
0.199
0.184
0.293
0.278
0.545
0.232
0.314
0.394
0.467
0.392
0.511
1.000
beer
0.368
cocaine
0.681
heroin
0.664
inhalants
0.595
wine
0.374
tranquillizers
0.525
marijuana
0.322
haluucinogenics
0.633
Loadings:
cigarettes
beer
wine
liquor
cocaine
tranquillizers
drug store medication
heroin
marijuana
hashish
inhalants
20
haluucinogenics
amphetamine
SS loadings
Proportion Var
Cumulative Var
0.151
0.401
0.341
0.344
0.888
0.186
0.141
0.139
0.231
0.166
The degrees of freedom for the model is 15 and the fit was 0.0148
cigarettes
beer
wine
liquor
cocaine
tranquillizers
drug store medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
cigarettes
0.000
-0.001
0.015
-0.018
0.010
0.000
-0.020
-0.005
0.002
0.000
0.013
-0.003
0.000
beer
-0.001
0.000
-0.002
0.004
0.004
-0.011
-0.001
0.007
0.002
0.000
-0.004
0.006
0.000
wine
0.015
-0.002
0.000
-0.001
-0.001
-0.005
0.007
0.008
-0.004
0.000
-0.008
-0.001
0.000
cigarettes
beer
wine
liquor
cocaine
tranquillizers
drug store medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
cigarettes
beer
wine
liquor
cocaine
tranquillizers
drug store medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
haluucinogenics amphetamine
-0.003
0
0.006
0
-0.001
0
-0.005
0
-0.007
0
-0.010
0
0.005
0
0.022
0
0.003
0
0.000
0
0.027
0
0.000
0
0.000
0
21
cigarettes
0.000
-0.001
0.009
-0.013
0.011
0.010
-0.011
-0.004
0.002
-0.026
0.039
-0.016
0.002
beer
-0.001
0.000
-0.001
0.002
0.002
-0.014
0.000
0.005
-0.001
0.019
-0.003
0.010
-0.007
wine
0.009
-0.001
0.000
0.000
-0.002
-0.004
0.012
0.013
0.001
-0.017
-0.007
0.004
0.002
cigarettes
beer
wine
liquor
cocaine
tranquillizers
drug store medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
cigarettes
beer
wine
liquor
cocaine
tranquillizers
drug store medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
haluucinogenics amphetamine
-0.016
0.002
0.010
-0.007
0.004
0.002
-0.015
0.005
-0.026
-0.077
-0.056
0.040
0.003
-0.038
-0.002
-0.050
-0.003
-0.002
0.037
0.009
0.019
-0.009
0.000
0.045
0.045
0.000
22
cigarettes
0.000
-0.001
0.009
-0.012
0.010
0.008
-0.014
-0.007
0.001
-0.023
0.037
-0.019
0.000
beer
-0.001
0.000
-0.001
0.001
0.001
-0.016
-0.002
0.003
-0.001
0.018
-0.005
0.007
0.000
wine
0.009
-0.001
0.000
0.000
-0.001
-0.005
0.012
0.014
0.001
-0.020
-0.008
0.002
0.000
cigarettes
beer
wine
liquor
cocaine
tranquillizers
drug store medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
cigarettes
beer
wine
liquor
cocaine
tranquillizers
drug store medication
heroin
marijuana
hashish
inhalants
haluucinogenics
amphetamine
haluucinogenics amphetamine
-0.019
0
0.007
0
0.002
0
-0.009
0
-0.023
0
-0.023
0
0.013
0
0.010
0
-0.002
0
0.059
0
0.032
0
0.000
0
0.000
0
23
1
2
3
4
5
6
7
8
Average = 1
Eigenvalue
Difference
Proportion
Cumulative
5.60241029
1.35818155
0.49932700
0.30812590
0.15468962
0.05863378
0.01282163
0.00581023
4.24422874
0.85885454
0.19120110
0.15343627
0.09605584
0.04581216
0.00701139
0.7003
0.1698
0.0624
0.0385
0.0193
0.0073
0.0016
0.0007
0.7003
0.8701
0.9325
0.9710
0.9903
0.9977
0.9993
1.0000
Factor Pattern
m0
m25
m50
m75
w0
w25
w50
w75
Factor1
Factor2
Factor3
0.84572
0.79338
0.86398
0.67493
0.83139
0.97181
0.94762
0.72258
-0.50388
-0.26526
0.20688
0.63213
-0.50529
-0.11019
0.17659
0.54119
-0.00222
0.35122
0.33902
0.22620
-0.16243
-0.16718
-0.18122
-0.35028
24
Factor2
Factor3
5.6024103
1.3581815
0.4993270
m25
0.82316394
m50
0.90419710
m75
0.90628012
w0
0.97292213
w25
0.98450040
w50
0.96201103
w75
0.93770753
1
2
3
1
0.71166
-0.69599
-0.09562
2
0.53803
0.62747
-0.56286
3
0.45174
0.34912
0.82100
m0
m25
m50
m75
w0
w25
w50
w75
Factor1
Factor2
Factor3
0.95277
0.71565
0.43846
0.01873
0.95888
0.78427
0.56880
0.17106
0.14010
0.06273
0.40383
0.63245
0.22168
0.54781
0.72265
0.92551
0.20431
0.55414
0.74086
0.71129
0.06581
0.26329
0.34095
0.22778
Factor2
2.3146695
Factor3
1.6454052
m25
0.82316394
m50
0.90419710
m75
0.90628012
w0
0.97292213
w25
0.98450040
w50
0.96201103
w75
0.93770753
25
Medidas de similitud
En realidad, es bastante subjetivo el hecho de elegir una medida de similitud ya que
depende de las escalas de medida. Se pueden agrupar observaciones segn la similitud
p
(x11 x21 )2 + (x12 x22 )2 .
k=1
Distancia de Minkowski
dIi Ij =
"
X
k
donde m N.
|xik xjk |m
#1/m
Sxy
Sx Sy
1. Calculo todas las posibles parejas. Tomo una pareja (i, j). Si estn ordenados igual
segn las dos variables o criterios, se marca una concordancia (es decir, si el elemento
i est delante del elemento j segn ambas variables o criterios). Si no lo estn, se
establece una discordancia.
2. El nmero total de parejas distintas que se pueden hacer con n elementos es
n(n1)
.
2
Se cuenta, adems
n
2
ab
n(n1)
2
y1
y2
..
.
rx1
rx2
..
.
ry1
ry2
..
.
xn
yn
rxn
ryn
Se definen las diferencias di = (rxi ryi ), es decir, las diferencias de la posicin del
individuo i-simo segn la clasificacin (rango) dada por x y la clasificacin (rango) dada
por y.
El coeficiente de correlacin se define, entonces, como
6
rs = 1
n
P
i=1
d2i
n(n2 1)
4
x2
1
1
x3
0
0
x4
0
1
x5
1
0
P
V = XAj 1 XBj
No de atributos donde A es 1 y B es 0
j
R=
XAj XBj
S=
P
1 XAj 1 XBj
No de atributos donde A y B son 0
j
T =
P
1 XAj XBj
No de atributos donde A es 0 y B es 1
U =R+S+T +V
En el ejemplo anterior,
V
R = 1
S = 1
T = 1
U = 5
Esto da lugar a distintos ndices de similaridad,.por ejemplo,
Indice de Russel-Rao
C=
R
U
En el ejemplo es 1/5.
Indice de Kendall
C =1
V +T
U
En el ejemplo es 2/5.
Indice de Jaccard
C=
R
R+T +V
C=
2R
2R + T + V
En el ejemplo es 1/4.
Indice de Dice-Sorensen
En el ejemplo es 2/5.
6
2
.
n
Definidas las distancias anteriores, se puede considerar el algoritmo bsico, dados N objetos o individuos:
1. Empezar con N clusters (el nmero inicial de elementos) y una matriz N N
simtrica de distancias o similitudes. D = [dik ]ik .
2. Dentro de la matriz de distancias, buscar aquella entre los clusters U y V (ms
prximos, ms distantes o en media ms prximos) que sea la menor entre todas,
duv .
3. Juntar los clusters U y V en uno solo. Actualizar la matriz de distancias:
(i) Borrando las filas y columnas de los clusters U y V .
ii) Formando la fila y columna de las distancias del nuevo cluster (UV ) al resto de
clusters.
4. Repetir los pasos (2) y (3) un total de (N 1) veces.
9
Al final, todos los objetos estn en un nico cluster cuando termina el algoritmo.
Adems, se guarda la identificacin de los clusters que se van uniendo en cada etapa, as
como las distancias a las que se unen. Finalmente se construye un dendograma.
Ejemplo con mnima distancia:
Sea la matriz de distancias entre 5 objetos la dada por:
1
2
D = [dik ]ik =
3
4
5
0
9 0
3 7 0
6 5 9 0
11 10 2 8 0
Cada uno de los objetos comienza siendo un cluster. Como mni,k dik = d53 = 2 los
objetos 3 y 5 se unen para formar el cluster (35). Para construir el siguiente nivel, calculo
la distancia entre el cluster (35) y los restantes objetos 1, 2 y 4. As:
d(35),1 = mn{d31 , d51 } = mn{3, 11} = 3
d(35),2 = mn{d32 , d52 } = mn{7, 10} = 7
d(35),4 = mn{d34 , d54 } = mn{9, 8} = 8
Reconstruyo la matriz de distancias:
(35)
(35)
D = [dik ]ik =
1
2
4
3 0
7 9 0
8 6 5 0
10
(351)
D = [dik ]ik =
2
4
0
7 0
6 5 0
D = [dik ]ik =
(351)
(24)
(24)
0
6 0
11
Este tipo de distancia no funciona bien cuando los objetos estn prximos.
Se obtienen dendogramas similares si se utiliza la distancia mxima, o la distancia
media, aunque las distancias a las que se van uniendo los objetos en los clusters varan en
cada caso.
Problemas
Las fuentes de error y variacin no entran en consideracin con los mtodos jerrquicos.
Esto implica una gran sensibilidad a observaciones anmalas o outliers.
Si un objeto se ha colocado errneamente en un grupo al principio del proceso, ya no
se puede arreglar en una etapa posterior.
Un sistema de trabajo conveniente es usar varias distancias o similitudes con los mismos
objetos y observar si se mantienen los mismos clusters o grupos. As, se comprueba
la existencia de grupos naturales.
Estos mtodos se pueden usar para clasificar no slo observaciones, sino tambin variables usando como medida de similitud algn coeficiente de correlacin.
Mtodos no jerrquicos
Se usan para agrupar objetos, pero no variables, en un conjunto de k clusters ya
predeterminado. No se tiene que especificar una matriz de distancias ni se tienen que
almacenar las iteraciones. Todo esto permite trabajar con un nmero de datos mayor que
en el caso de los mtodos jerrquicos.
Se parte de un conjunto inicial de clusters elegidos al azar, que son los representantes
de todos ellos; luego se van cambiando de modo iterativo. Se usa habitualmente el mtodo
de las k-medias.
12
A
B
C
D
x1 x2
5
3
1
1
1 2
3 2
13
x1
=2
x2
=2
51
2
3+1
2
Cluster (CD) :
13
2
x1
= 1
x2
= 2
22
2
A
B
C
D
A (BCD)
0
52
40
4
41
5
89
5
14
2n n
= 2
,
m m
Si F > 1, las distancias entre los centroides de los grupos son mayores que las distancias
de los elementos dentro de los grupos. Esto es lo que se pretende para que los clusters
estn suficientemente diferenciados entre s.
Problemas que surgen al fijar k clusters iniciales
(i ) Si dos centroides iniciales caen por casualidad en un nico cluster natural, entonces
los clusters que resultan estn poco diferenciados entre s.
(ii) Si aparecen outliers, se obtiene por lo menos un cluster con sus objetos muy dispersos.
15
(iii) Si se imponen previamente k clusters puede dar lugar a grupos artificiales o bien a
juntar grupos distintos.
Una posible solucin es considerar varias elecciones del nmero k de clusters comparando luego sus coeficientes de la F de Snedecor.
Ejemplos
Se considera primero una muestra de los aos de vida esperados por pas, edad y sexo
procedentes de Keyfitz y Flieger (1971) que ya se consider en el tema 4 sobre Anlisis
Factorial.
Se considera otra muestra de 48 objetos de cermica romana donde se miden diferentes
tipos de oxidacin (ver http://biostatistics.iop.kcl.ac.uk/publications/everitt/):
1
2
3
43
44
45
AL2O3
1.76
1.58
1.70
1.56
1.38
1.79
FE2O3
1.11
0.85
0.89
0.11
0.32
0.19
MGO
0.30
0.25
0.27
0.08
0.10
0.09
CAO
0.46
0.49
0.45
0.01
0.02
0.06
16
NA2O
0.50
0.50
0.50
0.06
0.06
0.04
K2O
1.02
0.97
0.98
0.56
0.68
0.56
TIO2
1.29
1.27
1.26
1.17
1.72
1.33
MNO
0.48
0.41
0.54
0.02
0.02
0.04
BAO
1.07
1.29
1.00
0.93
1.07
1.29
Procedimiento bsico
Dados N objetos, existen M =
N(N 1)
2
(q)
(q)
(q)
18
Ejemplo
Se consideran las distancias en relacin a vuelos entre 10 ciudades norteamericanas:
A tla nta
C h ica g o
D enver
H o u sto n
L . A n g ele s
A tla nta
0 .0 0
5 8 7.00
1 2 12 .0 0
7 0 1 .0 0
C h ic ag o
5 8 7 .0 0
0 .0 0
9 2 0 .0 0
9 4 0 .0 0
D e nver
1 21 2 .0 0
9 2 0.00
0 .0 0
H o u sto n
L A n g e les
M ia m i
N Yo rk
M ia m i
N Yo rk
S Fra n c isc o
S e a ttle
Wa sh in g to n
1 9 3 6 .0 0
6 0 4 .0 0
7 4 8 .0 0
1 7 4 5 .0 0
1 1 8 8 .0 0
7 1 3 .0 0
2 1 3 9 .0 0
2 1 8 .0 0
5 4 3 .0 0
1 8 5 8 .0 0
1 7 3 7 .0 0
5 9 7 .0 0
8 7 9 .0 0
8 3 1 .0 0
1 7 2 6 .0 0
1 6 3 1 .0 0
9 4 9 .0 0
1 0 2 1 .0 0
1 4 9 4 .0 0
7 0 1 .0 0
9 4 0.00
8 7 9 .0 0
0 .0 0
1 3 7 4 .0 0
9 6 8 .0 0
1 4 2 0 .0 0
1 6 4 5 .0 0
1 8 9 1 .0 0
1 2 2 0 .0 0
1 93 6 .0 0
1 7 4 5 .0 0
8 3 1 .0 0
1 3 7 4 .0 0
0 .0 0
2 3 3 9 .0 0
2 4 5 1 .0 0
3 4 7 .0 0
9 5 9 .0 0
2 3 0 0 .0 0
6 0 4 .0 0
1 1 8 8 .0 0
1 7 26 .0 0
9 6 8 .0 0
2 3 3 9 .0 0
0 .0 0
1 0 9 2 .0 0
2 5 9 4 .0 0
2 7 3 4 .0 0
9 2 3 .0 0
7 4 8 .0 0
7 1 3.00
1 6 31 .0 0
1 4 2 0 .0 0
2 4 5 1 .0 0
1 0 9 2 .0 0
0 .0 0
2 5 7 1 .0 0
2 4 0 8 .0 0
2 0 5 .0 0
S Fran cisco
2 13 9 .0 0
1 8 5 8 .0 0
9 4 9 .0 0
1 6 4 5 .0 0
3 4 7 .0 0
2 5 9 4 .0 0
2 5 7 1 .0 0
0 .0 0
6 7 8 .0 0
2 4 4 2 .0 0
S e a ttle
2 1 8 .0 0
1 7 3 7 .0 0
1 0 21 .0 0
1 8 9 1 .0 0
9 5 9 .0 0
2 7 3 4 .0 0
2 4 0 8 .0 0
6 7 8 .0 0
0 .0 0
2 3 2 9 .0 0
Wa sh in g to n
5 4 3 .0 0
5 9 7.00
1 4 94 .0 0
1 2 2 0 .0 0
2 3 0 0 .0 0
9 2 3 .0 0
2 0 5 .0 0
2 4 4 2 .0 0
2 3 2 9 .0 0
0 .0 0
19
#
#
>
>
>
[[1]]
[1] "Algeria"
[5] "El Salvador"
[[2]]
[1] "Cameroon"
"Tunisia"
"Nicaragua"
"Costa Rica"
"Panama"
"Dominican Rep"
"Ecuador"
"Madagascar"
20
[[3]]
[1] "Mauritius"
[4] "Greenland"
[7] "Jamaica"
[10] "United States (NW66)"
"Reunion"
"Grenada"
"Mexico"
"Chile"
"Seychelles"
"Honduras"
"Trinidad (67)"
"Columbia"
[[4]]
[1] "South Africa(C)" "Guatemala"
[[5]]
[1] "South Africa(W)"
[4] "United States (66)"
[7] "Argentina"
"Canada"
"Trinidad(62)"
"United States (W66)" "United States (67)"
# Calculo las medias de cada una de las variables dentro de cada cluster
> pais.medias <- lapply(1:5,function(eso){apply(life[cuantos==eso,],2,mean)})
> pais.medias
[[1]]
m0
m25
m50
m75
w0
w25
w50
w75
61.375 47.625 26.875 10.750 65.000 50.750 29.250 12.625
[[2]]
m0 m25 m50
36.0 29.5 15.0
m75
w0 w25 w50
6.0 38.0 33.0 18.5
w75
6.5
[[3]]
m0
m25
m50
60.083333 42.750000 22.000000
[[4]]
m0 m25 m50
49.5 39.5 21.0
m75
w0
w25
w50
7.583333 64.916667 46.833333 25.333333
m75
w0 w25 w50
8.0 53.0 42.0 23.0
w75
9.666667
w75
8.0
[[5]]
m0
m25
m50
66.428571 48.000000 22.857143
m75
w0
w25
w50
7.857143 72.714286 50.714286 27.714286
w75
9.714286
21
22
# Para que las escalas de las variables sean iguales, se divide cada valor entre
# el rango de las variables: (max-min)
rge <- apply(cacharros,2,max)-apply(cacharros,2,min)
cacharros <- sweep(cacharros,2,rge,FUN="/")
n <- length(cacharros[,1])
# Calculo las sumas de cuadrados dentro de grupos para todos los datos
# Calculo la suma de cuadrados dentro de grupos con 1 solo grupo
scd1 <- (n-1)*sum(apply(cacharros,2,var))
# Calculo la suma de cuadrados dentro de grupos con 2 a 6
scd <- numeric(0)
for(i in 2:6) {
W <- sum(kmeans(cacharros,i)$withinss)
scd <- c(scd,W)
}
grupos
23
Cluster means:
AL2O3
FE2O3
MGO
CAO
NA2O
K2O
TIO2
1 1.162216 0.7218439 0.71311301 0.12458472 0.2821429 1.3337125 0.8754579
2 1.658879 0.1874419 0.09552239 0.02267442 0.0637500 0.6436306 1.3076923
3 1.581219 0.8637874 0.27498223 0.54595792 0.4321429 0.9881711 1.2020757
MNO
BAO
1 0.72619048 1.137755
2 0.01975309 1.142857
3 0.43915344 1.224490
Clustering vector:
[1] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
[39] 2 2 2 2 2 2 2
Within cluster sum of squares by cluster:
[1] 2.874794 1.466713 3.164386
Available components:
[1] "cluster" "centers"
"withinss" "size"
Se observa que el cluster 3 se caracteriza por tener un valor alto en xido de aluminio, un valor bajo
en xido de hierro y un valor bajo en xido de calcio.
El cluster 2 tiene un valor alto en xido de manganeso y tambin en xido de potasio.
El cluster 1 tiene un valor alto en xido de calcio.
24
3.858824e+02
25
26
27
28
Cluster Jerrquico
Proximity Matrix
Squared Euclidean Distance
Case
1
10
11
12
13
14
15
16
17
18
19
20
,000 ,153 ,064 ,195 ,189 ,119 ,528 ,131 ,200 ,342
,549 ,091
,529 ,169
,285
,153 ,000 ,115 ,008 ,024 ,082 ,288 ,063 ,033 ,259
,395 ,049
,260 ,206
,194
,064 ,115 ,000 ,168 ,170 ,102 ,497 ,107 ,133 ,197
,499 ,096
,556 ,139
,279
,195 ,008 ,168 ,000 ,027 ,105 ,336 ,095 ,045 ,322
,407 ,067
,253 ,248
,198
,189 ,024 ,170 ,027 ,000 ,093 ,255 ,072 ,077 ,369
,397 ,046
,198 ,250
,216
,119 ,082 ,102 ,105 ,093 ,000 ,333 ,015 ,127 ,327
,689 ,040
,426 ,044
,101
,528 ,288 ,497 ,336 ,255 ,333 ,000 ,232 ,383 ,610
,769 ,322
,241 ,477
,515
,131 ,063 ,107 ,095 ,072 ,015 ,232 ,000 ,098 ,284
,610 ,042
,352 ,074
,132
,200 ,033 ,133 ,045 ,077 ,127 ,383 ,098 ,000 ,152
,443 ,119
,397 ,222
,181
10
,342 ,259 ,197 ,322 ,369 ,327 ,610 ,284 ,152 ,000
,799 ,389
,897 ,306
,323
11
,855 ,630 ,624 ,685 ,747 ,680 ,987 ,659 ,473 ,214
,465
12
,543 ,301 ,437 ,364 ,336 ,336 ,145 ,241 ,284 ,286
,990 ,411
,557 ,368
,359
13
,452 ,256 ,344 ,325 ,296 ,293 ,137 ,199 ,250 ,280
,804 ,332
,454 ,337
,398
14
,217 ,059 ,207 ,057 ,050 ,160 ,340 ,135 ,115 ,471
,258 ,061
,133 ,346
,357
15
,233 ,064 ,215 ,063 ,068 ,185 ,346 ,160 ,128 ,473
,258 ,079
,131 ,372
,386
16
,549 ,395 ,499 ,407 ,397 ,689 ,769 ,610 ,443 ,799 1,533 ,990 ,804 ,258 ,258
,000 ,435
17
,091 ,049 ,096 ,067 ,046 ,040 ,322 ,042 ,119 ,389
,435 ,000
,266 ,152
,215
18
,529 ,260 ,556 ,253 ,198 ,426 ,241 ,352 ,397 ,897 1,424 ,557 ,454 ,133 ,131
,340 ,266
,000 ,712
,714
19
,169 ,206 ,139 ,248 ,250 ,044 ,477 ,074 ,222 ,306
,993 ,152
,712 ,000
,093
20
,285 ,194 ,279 ,198 ,216 ,101 ,515 ,132 ,181 ,323
,714 ,093
,000
29
Cluster 2 Coefficients
Next Stage
Cluster 2
Cluster 1
14
15
,006
,008
,015
,026
12
13
,029
12
17
,041
10
,052
,064
11
14
,076
13
10
19
,090
11
11
,119
10
13
12
12
,141
17
13
,157
11
15
14
10
11
,214
19
15
20
,220
13
17
16
16
18
,340
18
17
,357
15
12
18
18
16
,493
17
16
19
19
10
,584
18
14
30
Vertical Icicle
N of
clust
Case
11
10
18
16
13
12
20
15
14
19
17
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X
X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X
X X X X X
X X X X X X X X X X X X X X X X X X X X X X X
X X X X X
X X X X X X X X X X X X X X X X X X X X X X X
X X X X X
X X X X X X X X X X X
X X X X X X X X X X X
X X X
X X X X X X X X X X X
X X X X X X X X X X X
10
X X X
X X X X X X X X X X X
X X X X X X X
X X X
11
X X X
X X X X X X X X X X X
X X X X X
X X X
12
X X X
X X X
X X X X X X X
X X X X X
X X X
13
X X X
X X X
X X X X X X X
X X X X X
14
X X X
X X X
X X X X X
X X X X X
15
X X X
X X X
X X X X X
X X X
16
X X X
X X X X X
X X X
17
X X X
X X X
X X X
18
X X X
X X X
19
X X X
31
Dendrogram
* * * * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * * * * *
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
14
15
2
4
5
9
1
3
6
8
17
19
20
12
13
7
16
18
10
11
32
K Medias
Initial Cluster Centers
Cluster
1
,89
,82
,68
mgo
,29
,27
,22
cao
,47 1,01
,38
na2o 1,04
,41
,16
k2o
1,06 1,02
,72
tio2
1,23 1,22
,96
mno
bao
,69
,41
,21
1,36 1,36
,86
Iteration History(a)
Change in Cluster Centers
Iteration
1
,338
,439
,339
,095
,040
,000
,000
,000
,000
a Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any
center is ,000. The current iteration is 3. The minimum distance between initial centers is ,877.
33
Cluster Membership
Case Number Cluster Distance
1
,355
,172
,301
,246
,222
,195
,459
,116
,244
10
,260
11
,339
12
,447
13
,398
14
,170
15
,169
16
,379
17
,210
18
,284
19
,339
20
,389
,91
,87
,78
mgo
,28
,28
,25
cao
,55
,58
,41
na2o
,71
,41
,24
k2o
,99 1,01
,90
tio2
mno
bao
,43
,26
1,46 1,21
,98
34
1
2
,439
,805
,439
,805
,455
,455
ANOVA
Cluster
Error
df
Mean Square
df
Sig.
Mean Square
al2o3
,037
,020
17
1,893
,181
fe2o3
,014
,005
17
2,500
,112
mgo
,001
,001
17
,810
,461
cao
,036
,029
17
1,246
,313
na2o
,215
,021
17
10,192
,001
k2o
,015
,004
17
3,420
,056
tio2
,017
,004
17
3,820
,043
mno
,102
,004
17
28,374
,000
bao
,209
,018
17
11,890
,001
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences
among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as
tests of the hypothesis that the cluster means are equal.
Number of Cases in each Cluster
Cluster
Valid
Missing
4,000
13,000
3,000
20,000
,000
35
36
37
Escalamiento multidimensional
Raw (unscaled) Data for Subject 1
1
2
3
4
5
6
7
8
9
10
6
7
8
9
10
,000
587,000
1212,000
701,000
1936,000
604,000
748,000
2139,000
218,000
543,000
,000
920,000
940,000
1745,000
1188,000
713,000
1858,000
1737,000
597,000
,000
879,000
831,000
1726,000
1631,000
949,000
1021,000
1494,000
,000
1374,000
968,000
1420,000
1645,000
1891,000
1220,000
,000
2339,000
2451,000
347,000
959,000
2300,000
10
,000
1092,000
2594,000
2734,000
923,000
,000
2571,000
2408,000
205,000
,000
678,000
2442,000
,000
2329,000
,000
S-stress
,22655
,15756
,15012
,14926
Improvement
,06899
,00745
,00085
,001000
38
Stress
For matrix
,15369
RSQ =
,87390
Stimulus Coordinates
Dimension
Stimulus
Number
Stimulus
Name
1
2
3
4
5
6
7
8
9
10
Atlanta
Chicago
Denver
Houston
LAngeles
Miami
NewYork
SFrancis
Seattle
Washingt
,5756
,6231
-,7066
,1622
-1,6769
1,4468
1,5567
-1,9170
-1,4507
1,3869
-,5818
-,3291
,1110
,9063
,4319
,9603
-,3628
,0961
-1,0821
-,1499
39
,000
,911
1,692
1,054
2,596
,933
1,112
2,850
,451
,856
6
6
7
8
9
10
,000
1,542
3,418
3,593
1,331
Abbreviated
Name
Extended
Name
SFrancis
Washingt
SFrancisco
Washington
,000
1,327
1,352
2,357
1,662
1,069
2,499
2,348
,924
7
,000
3,389
3,185
,434
,000
1,276
1,216
2,334
2,215
1,363
1,453
2,044
8
,000
1,025
3,228
,000
1,894
1,387
1,952
2,233
2,540
1,702
9
,000
3,087
1
5
,000
3,099
3,239
,612
1,376
3,051
10
,000
40
0,5
Dimensin 2
Miami
Houston
LAngeles
Denver
SFrancisco
0,0
Washington
Chicago
-0,5
NewYork
Atlanta
-1,0
Seattle
-1,5
-2
-1
Dimensin 1
41
Distancias
0
0
Disparidades
42
Mean
Std Dev
Skewness
Kurtosis
Bimodality
1.4673
0.6693
0.3713
0.2989
0.3049
1.0189
1.1240
0.4356
1.1789
0.2533
0.2794
0.2601
0.2638
0.2232
0.2720
0.2306
0.2887
0.2135
-0.4026
-1.0097
0.9876
0.7834
0.9509
0.1279
0.4038
0.0916
-0.2723
-0.8763
-0.3827
0.0891
-0.0871
1.0509
-0.6614
0.3180
-0.5279
0.1408
0.4967
0.7128
0.5977
0.5158
0.4463
0.3979
0.3291
0.3751
0.3200
1
2
3
4
5
6
7
8
9
Eigenvalue
Difference
Proportion
Cumulative
4.19785459
2.52511587
0.87809987
0.45636510
0.38193294
0.27109821
0.11676189
0.09207833
0.08069320
1.67273872
1.64701600
0.42173477
0.07443216
0.11083473
0.15433632
0.02468356
0.01138513
0.4664
0.2806
0.0976
0.0507
0.0424
0.0301
0.0130
0.0102
0.0090
0.4664
0.7470
0.8446
0.8953
0.9377
0.9678
0.9808
0.9910
1.0000
43
Cluster History
NCL
44
43
42
41
40
39
38
37
36
35
34
33
32
--Clusters Joined-OB14
OB2
OB6
OB12
CL43
OB37
OB23
CL42
CL40
CL37
CL36
CL34
OB41
OB15
OB4
OB8
OB13
OB5
OB44
OB24
OB21
OB9
OB20
CL44
OB17
OB43
FREQ
SPRSQ
RSQ
2
2
2
2
3
2
2
3
4
4
6
7
2
0.0001
0.0002
0.0003
0.0004
0.0006
0.0005
0.0007
0.0010
0.0016
0.0023
0.0033
0.0016
0.0010
1.00
1.00
.999
.999
.998
.998
.997
.996
.995
.992
.989
.987
.986
ERSQ
CCC
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Cluster History
NCL
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
--Clusters Joined-CL33
OB34
OB36
OB1
CL31
OB42
OB38
CL29
OB29
CL28
CL38
CL22
CL24
OB25
OB7
CL21
CL16
CL15
CL19
CL20
CL12
CL11
CL14
OB22
CL8
CL7
CL13
CL6
CL10
CL3
CL2
CL35
OB35
CL32
OB3
OB19
OB45
CL26
CL25
OB30
CL27
OB26
OB18
OB39
OB27
CL41
OB33
CL23
CL30
OB40
OB10
CL17
OB11
OB31
OB32
CL9
OB28
CL39
CL18
OB16
CL4
CL5
Norm
Min
Dist
T
i
e
0.0797
0.0996
0.1216
0.1494
0.1606
0.1655
0.1913
0.1917
0.1953
0.2069
0.2106
0.2128
0.2202
FREQ
SPRSQ
RSQ
ERSQ
CCC
Norm
Min
Dist
11
2
3
2
12
2
3
6
2
14
3
15
7
2
3
4
6
8
8
16
19
20
9
2
11
12
10
14
21
35
45
0.0129
0.0010
0.0027
0.0011
0.0066
0.0014
0.0016
0.0118
0.0021
0.0082
0.0034
0.0145
0.0142
0.0031
0.0043
0.0056
0.0144
0.0155
0.0121
0.0127
0.0228
0.0237
0.0098
0.0047
0.0219
0.0098
0.0247
0.0327
0.0236
0.2890
0.3744
.973
.972
.970
.969
.962
.961
.959
.947
.945
.937
.934
.919
.905
.902
.897
.892
.877
.862
.850
.837
.814
.791
.781
.776
.754
.744
.720
.687
.663
.374
.000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.786
.764
.739
.708
.670
.619
.543
.372
.000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
-.26
0.59
0.72
1.65
2.18
2.87
4.25
0.07
0.00
0.2213
0.2292
0.2309
0.2365
0.239
0.2666
0.2704
0.3002
0.3252
0.3271
0.3418
0.3726
0.3737
0.3929
0.4008
0.4041
0.4124
0.4403
0.4439
0.4459
0.4464
0.4703
0.4711
0.4849
0.4868
0.5
0.5196
0.5203
0.5562
0.7492
0.7507
T
i
e
44
Variable
al2o3
fe2o3
mgo
cao
na2o
k2o
tio2
mno
bao
Mean
Std Dev
Skewness
Kurtosis
Bimodality
1.4673
0.6693
0.3713
0.2989
0.3049
1.0189
1.1240
0.4356
1.1789
0.2533
0.2794
0.2601
0.2638
0.2232
0.2720
0.2306
0.2887
0.2135
-0.4026
-1.0097
0.9876
0.7834
0.9509
0.1279
0.4038
0.0916
-0.2723
-0.8763
-0.3827
0.0891
-0.0871
1.0509
-0.6614
0.3180
-0.5279
0.1408
0.4967
0.7128
0.5977
0.5158
0.4463
0.3979
0.3291
0.3751
0.3200
1
2
3
4
5
6
7
8
9
Eigenvalue
Difference
Proportion
Cumulative
4.19785459
2.52511587
0.87809987
0.45636510
0.38193294
0.27109821
0.11676189
0.09207833
0.08069320
1.67273872
1.64701600
0.42173477
0.07443216
0.11083473
0.15433632
0.02468356
0.01138513
0.4664
0.2806
0.0976
0.0507
0.0424
0.0301
0.0130
0.0102
0.0090
0.4664
0.7470
0.8446
0.8953
0.9377
0.9678
0.9808
0.9910
1.0000
Cluster History
NCL
44
43
42
41
40
39
38
37
36
35
34
33
32
--Clusters Joined-OB14
OB2
OB6
OB12
CL43
OB37
OB23
CL42
CL40
CL37
CL36
CL34
OB41
OB15
OB4
OB8
OB13
OB5
OB44
OB24
OB21
OB9
OB20
CL44
OB17
OB43
FREQ
SPRSQ
RSQ
2
2
2
2
3
2
2
3
4
4
6
7
2
0.0001
0.0002
0.0003
0.0004
0.0006
0.0005
0.0007
0.0010
0.0016
0.0023
0.0033
0.0016
0.0010
1.00
1.00
.999
.999
.998
.998
.997
.996
.995
.992
.989
.987
.986
ERSQ
CCC
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Norm
Min
Dist
T
i
e
0.0797
0.0996
0.1216
0.1494
0.1606
0.1655
0.1913
0.1917
0.1953
0.2069
0.2106
0.2128
0.2202
45
Cluster History
NCL
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
--Clusters Joined-CL33
OB34
OB36
OB1
CL31
OB42
OB38
CL29
OB29
CL28
CL38
CL22
CL24
OB25
OB7
CL21
CL16
CL15
CL19
CL20
CL12
CL11
CL14
OB22
CL8
CL7
CL13
CL6
CL10
CL3
CL2
CL35
OB35
CL32
OB3
OB19
OB45
CL26
CL25
OB30
CL27
OB26
OB18
OB39
OB27
CL41
OB33
CL23
CL30
OB40
OB10
CL17
OB11
OB31
OB32
CL9
OB28
CL39
CL18
OB16
CL4
CL5
FREQ
SPRSQ
RSQ
ERSQ
CCC
Norm
Min
Dist
11
2
3
2
12
2
3
6
2
14
3
15
7
2
3
4
6
8
8
16
19
20
9
2
11
12
10
14
21
35
45
0.0129
0.0010
0.0027
0.0011
0.0066
0.0014
0.0016
0.0118
0.0021
0.0082
0.0034
0.0145
0.0142
0.0031
0.0043
0.0056
0.0144
0.0155
0.0121
0.0127
0.0228
0.0237
0.0098
0.0047
0.0219
0.0098
0.0247
0.0327
0.0236
0.2890
0.3744
.973
.972
.970
.969
.962
.961
.959
.947
.945
.937
.934
.919
.905
.902
.897
.892
.877
.862
.850
.837
.814
.791
.781
.776
.754
.744
.720
.687
.663
.374
.000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.786
.764
.739
.708
.670
.619
.543
.372
.000
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
-.26
0.59
0.72
1.65
2.18
2.87
4.25
0.07
0.00
0.2213
0.2292
0.2309
0.2365
0.239
0.2666
0.2704
0.3002
0.3252
0.3271
0.3418
0.3726
0.3737
0.3929
0.4008
0.4041
0.4124
0.4403
0.4439
0.4459
0.4464
0.4703
0.4711
0.4849
0.4868
0.5
0.5196
0.5203
0.5562
0.7492
0.7507
T
i
e
46
47
Modelo matemtico
A partir de q grupos donde se asignan a una serie de objetos y de p variables medidas
sobre ellos (x1 , . . . , xp ), se trata de obtener para cada objeto una serie de puntuaciones
que indican el grupo al que pertenecen (y1 , . . . , ym ), de modo que sean funciones lineales
de x1 , . . . , xp
y1 = a11 x1 + + a1p xp + a10
Descomposicin de la varianza
Se puede descomponer la variabilidad total de la muestra en variabilidad dentro de los
grupos y entre los grupos.
Partimos de
1X
(xij xj ) (xij 0 xj 0 )
Cov (xj , xj 0 ) =
n i=1
n
decir,
xkj =
1 X
xij
nk iI
k
para k = 1, . . . , q.
De este modo, la media total de la variable xj se puede expresar como funcin de las
medias dentro de cada grupo. As,
X
xij = nk xkj ,
iIk
entonces
q
1X
1 XX
=
xij =
xij =
n i=1
n k=1 iI
n
xj
X nk
1X
nk xkj =
xkj .
n k=1
n
k=1
As,
q
1 XX
(xij xj ) (xij 0 xj 0 )
Cov (xj , xj 0 ) =
n k=1 iI
k
= d(xj , xj 0 ) + e(xj , xj 0 ).
Es decir, la covarianza total es igual a la covarianza dentro de grupos ms la covarianza
entre grupos. Si denominamos como t(xj , xj 0 ) a la covarianza total entre xj y xj 0 (sin
distinguir grupos), entonces lo anterior se puede expresar como
t(xj , xj 0 ) = d(xj , xj 0 ) + e(xj , xj 0 ).
3
Procedimiento matricial
Se sigue un mtodo parecido al anlisis factorial, as se busca una funcin lineal de
x1 , . . . , xp : y = a0 x, de modo que
V ar(y) = a0 T a = a0 Ea + a0 Da
es decir, la variabilidad entre grupos ms la variabilidad dentro de grupos.
Queremos maximizar la variabilidad entre los grupos para discriminarlos mejor y esto
equivale a hacer
a0 Ea
,
max
a0 T a
a0 Ea
a0 T a
a0 Ea
a0 T a
equivale a
L = a0 Ea (a0 T a 1)
y se calcula su derivada:
L
= 0.
a
5
L
= 2Ea 2T a = 0
a
Ea = T a
(T 1 E)a = a
Por tanto, el autovector asociado a la primera funcin discriminante lo es de la matriz
T 1 E (que no es simtrica en general).
Como Ea = T a,
a0 Ea = a0 T a =
Luego si tomo el vector asociado al mximo autovalor, se obtendr la funcin que recoge
el mximo poder discriminante.
El autovalor asociado a la funcin discriminante indica la proporcin de varianza total
explicada por las m funciones discriminantes que recoge la variable yi .
Para obtener ms funciones discriminantes, se siguen sacando los autovectores de la
matriz (T 1 E) asociados a los autovalores elegidos en orden decreciente:
a02
..
.
a0m
a02 x = y2
..
.
a0m x = ym
donde m = mn(q 1, p)
Estos vectores son linealmente independientes y dan lugar a funciones incorreladas
entre s.
La suma de todos los autovalores,
Pm
i=1
Pm i
i=1
100 %
separado. Si para alguna variable las medias de los grupos son diferentes y la variabilidad
es pequea, se considera que dicha variable ser importante a la hora de discriminar a los
grupos.
A continuacin, se observan las relaciones entre las variables. Se calculan matrices de
correlaciones en lugar de matrices de covarianzas por ser ms fcilmente interpretables.
Adems de analizar la correlacin entre pares de variables sin distinguir grupos, se debe
analizar las correlaciones dentro de cada grupo y luego considerar la media de las mismas
Se calcula tambin la matriz Pooled within-groups correlation matrix. Dicha matriz se
calcula como una matriz media de correlaciones calculadas por separado en cada grupo. A
menudo no se parece a la matriz de correlaciones total. Veamos, por ejemplo, el siguiente
grfico de dos variables y tres grupos:
Si se considera cada grupo por separado (1, 2 y 3), el coeficiente de correlacin entre x1
y x2 es 0 (el hecho de variar x1 no influye en x2 : la pendiente de la recta de regresin
es 0). Si hallamos la media de esos coeficientes, su valor es tambin 0; sin embargo, el
coeficiente de correlacin calculado para todos los datos sin tener en cuenta a los grupos
est prximo a 1, porque cuando aumenta el valor de x1 tambin lo hace el valor de x2 .
8
Estadsticos usados
F de Snedecor Se compara para cada variable las desviaciones de las medias de cada
uno de los grupos a la media total, entre las desviaciones a la media dentro de cada grupo.
Si F es grande para cada variable, entonces las medias de cada grupo estn muy separadas
y la variable discrimina bien. Si F es pequea, la variable discriminar poco, ya que habr
poca homogeneidad en los grupos y stos estarn muy prximos.
de Wilks Tambin se la denomina U -estadstico. Cuando se considera a las variables
de modo individual, la es igual al cociente entre la suma de cuadrados dentro de los
grupos y la suma de cuadrados total (sin distinguir grupos). Es decir, equivale a las
desviaciones a la media dentro de cada grupo, entre las desviaciones a la media total sin
distinguir grupos. Si su valor es pequeo, la variable discrimina mucho: la variabilidad
total se debe a las diferencias entre grupos, no a las diferencias dentro de grupos.
(i ) Se incluye en el anlisis la variable que tenga el mayor valor aceptable para el criterio
de seleccin o de entrada.
(ii) Se evala el criterio de seleccin para las variables no seleccionadas. La variable que
presenta el valor ms alto para el criterio se selecciona (siempre que est dentro de
un lmite).
(iii) Se examinan las variables seleccionadas segn un criterio de salida y se examinan
tambin las variables no seleccionadas, para ver si cumplen el criterio de entrada. Se
excluyen o se incluyen variables segn cumplan los criterios de entrada y de salida.
(iv) Se repite el paso (iii) hasta que ninguna variable ms pueda ser seleccionada o
eliminada.
Adems de todo lo anterior, en el SPSS se considera un nmero mximo de pasos,
dado que una variable puede ser incluida y eliminada en ms de una ocasin. Se toma
el doble del nmero de variables originales como nmero mximo de pasos del mtodo
stepwise.
En el SPSS se considera tambin para cada variable la tolerancia asociada.
Tolerancia
Se define para un conjunto de p variables, Ri , el coeficiente de correlacin mltiple que
expresa el porcentaje de variabilidad de la variable xi (i = 1, . . . , p) recogida por el resto
de (p 1) variables. Si se eleva al cuadrado Ri2 se obtiene el coeficiente de determinacin.
Entonces, la tolerancia se define como 1 Ri2 . As, cuanto mayor sea la tolerancia de una
variable, ms informacin independiente del resto de variables recoger.
De este modo, si en una iteracin dada del procedimiento stepwise la variable seleccionada verifica que su tolerancia con respecto a las variables ya incluidas en la funcin
discriminante es muy pequea entonces la variable no se incluye en dicha etapa. As, se
evita la redundancia de informacin.
10
|B|
|W |
donde
|B| = determinante de la matriz de covarianzas entre grupos.
|W | = determinante de la suma de las matrices de covarianzas dentro de los grupos.
En general, el determinante de una matriz de covarianzas da una medida de la variabilidad total de un conjunto de variables.
A partir de este valor de F, se puede calcular la correspondiente de Wilks, ya que
nkp1
F =
k1
1
1
donde
n = nmero de observaciones
k = nmero de grupos
p = nmero de variables
La F y la de Wilks se interpretan del mismo modo que en el caso univariante.
Cuando se comparan covarianzas entre grupos, se hace en base a los centroides de los
grupos, es decir, a los vectores de medias de las variables en cada grupo.
11
F de salida (F to remove):
Expresa el incremento que se produce en la de Wilks, si se elimina de la funcin
discriminante una variable dada. Si el valor de la F de salida es pequeo, el incremento
no ser significativo y la variable se eliminar del anlisis.
Correlacin Cannica
Da una medida del grado de asociacin entre las puntuaciones discriminantes de cada
uno de los objetos y el grupo concreto de pertenencia:
2 =
SCENT RE
,
SCT OT AL
p+k
V = n1
ln()
2
de modo que V 2p(k1) aproximadamente. De este modo, si es pequeo V es grande
y se rechaza la hiptesis nula.
12
x1
..
.
y1
a11
..
.
...
ym
am1
..
.
xp
a1p
amp
Se pueden interpretar las magnitudes de los coeficientes como indicadores de la importancia relativa de las variables en cada funcin discriminante. As, si aij es grande en
valor absoluto, entonces hay una fuerte asociacin entre la variable xj y la funcin yi ,
en relacin al resto de variables. An as, al existir en general correlaciones significativas
entre las variables originales, se debe tener cuidado al hacer interpretaciones precipitadas.
Matriz de estructura
Otra forma de calcular la contribucin de cada variable a una funcin discriminante
es examinar las correlaciones entre los valores de la funcin y los valores de las variables.
Se calculan, dentro de cada grupo, las correlaciones entre las variables y las puntuaciones;
luego se combinan en una matriz pooled within-groups correlation matrix. Los valores
obtenidos dan una medida de las contribuciones.
13
Esto equivale al valor que se recoge en una ecuacin de regresin. As, si xij es el
valor que alcanza el objeto i-simo en la variable j-sima, entonces la puntuacin o valor
alcanzado en la funcin discriminante k ser:
yik = ak1 xi1 + + akp xip + ak0
Regla de Bayes
Se pueden usar las puntuaciones discriminantes para obtener una regla para clasificar
los casos en los grupos. En el SPSS se usa la regla de Bayes.
As, la probabilidad de que un objeto j, con una puntuacin discriminante D =
(yj1 , ..., yjm ), pertenezca al grupo i-simo se puede estimar mediante la regla de Bayes:
P (Gi |D) =
P (D|Gi ) P (Gi )
k
P
P (D|Gi ) P (Gi )
i=1
Ejemplos
Se consideran los datos recogidos sobre 32 crneos en el Tibet.
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Longitud
190.50
172.50
167.00
169.50
175.00
177.50
179.50
179.50
173.50
162.50
178.50
171.50
180.50
183.00
169.50
172.00
170.00
182.50
179.50
191.00
184.50
181.00
173.50
188.50
175.00
196.00
200.00
185.00
174.50
195.50
197.00
182.50
Anchura
152.50
132.00
130.00
150.50
138.50
142.50
142.50
138.00
135.50
139.00
135.00
148.50
139.00
149.00
130.00
140.00
126.50
136.00
135.00
140.50
141.50
142.00
136.50
130.00
153.00
142.50
139.50
134.50
143.50
144.00
131.50
131.00
Altura
145.00
125.50
125.50
133.50
126.00
142.50
127.50
133.50
130.50
131.00
136.00
132.50
132.00
121.50
131.00
136.00
134.50
138.50
128.50
140.50
134.50
132.50
126.00
143.00
130.00
123.50
143.50
140.00
132.50
138.50
135.00
135.00
Altura.Cara
73.50
63.00
69.50
64.50
77.50
71.50
70.50
73.50
70.00
62.00
71.00
65.00
74.50
76.50
68.00
70.50
66.00
76.00
74.00
72.50
76.50
79.00
71.50
79.50
76.50
76.00
82.50
81.50
74.00
78.50
80.50
68.50
.Anchura.Cara
136.50
121.00
119.50
128.00
135.50
131.00
134.50
132.50
133.50
126.00
124.00
146.50
134.50
142.00
119.00
133.50
118.50
134.00
132.00
131.50
141.50
136.50
136.50
136.00
142.00
134.00
146.00
137.00
136.50
144.00
139.00
136.00
Tipo
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Los datos corresponden a dos tipos raciales diferentes en los que se practicaron diferentes medidas antropomtricas de longitudes, anchuras de crneo y de cara. Se trata de
hacer un anlisis discriminante sobre los dos tipos raciales.
Se toma una muestra de 50 vehculos producidos en EE.UU, Japn y Europa. Se
consideran las siguientes variables: Consumo, Cilindrada, Potencia, Peso, Aceleracin,
Ao del modelo y Nmero de cilindros. Se trata de hacer un anlisis discriminante sobre
los tres tipos de vehculos, en funcin de su origen.
16
17
18
Media, desviacin tpica, nmero de casos vlidos (ponderado y no ponderado) para cada uno de
los grupos y para la muestra total:
Group Statistics
Country of
Origin
Mean
25
25,000
245,44
94,885
25
25,000
Horsepower
123,56
44,563
25
25,000
3368,28
799,303
25
25,000
14,85
2,311
25
25,000
75,16
3,496
25
25,000
6,24
1,763
25
25,000
28,92
6,345
9,000
105,56
21,190
9,000
76,56
18,882
9,000
2341,44
395,406
9,000
16,78
3,081
9,000
74,67
3,464
9,000
4,00
,000
9,000
30,64
6,966
16
16,000
106,50
30,124
16
16,000
83,81
22,489
16
16,000
2288,94
388,479
16
16,000
15,23
2,058
16
16,000
78,38
2,941
16
16,000
4,13
,806
16
16,000
24,97
8,572
50
50,000
175,80
98,537
50
50,000
Horsepower
102,38
40,616
50
50,000
2838,06
819,660
50
50,000
15,32
2,443
50
50,000
76,10
3,621
50
50,000
5,16
1,707
50
50,000
Number of Cylinders
Miles per Gallon
Engine Displacement (cu. inches)
Horsepower
Japanese
Number of Cylinders
Miles per Gallon
Total
Unweighted Weighted
7,236
Number of Cylinders
European
Valid N (listwise)
19,92
American
Std.
Deviation
Number of Cylinders
19
Tabla de ANOVA con estadsticos F que permiten contrastar la hiptesis de igualdad de medias
entre los grupos en cada variable independiente. La tabla de ANOVA incluye tambin el estadstico
lambda de Wilks univariante. La informacin de esta tabla suele utilizarse como prueba preliminar
para detectar si los grupos difieren en las variables de clasificacin seleccionadas; sin embargo,
debe tenerse en cuenta que una variable no significativa a nivel univariante podra aportar
informacin discriminativa a nivel multivariante.
Tests of Equality of Group Means
Wilks' Lambda
,641 13,186
47 ,000
,490 24,428
47 ,000
Horsepower
,719
9,195
47 ,000
,573 17,546
47 ,000
,915
2,180
47 ,124
,808
5,586
47 ,007
Number of Cylinders
,591 16,281
47 ,000
1,000
-,664
-,693
-,719
,421
,722
-,571
Engine
Displacement
(cu. inches)
-,664
1,000
,851
,788
-,520
-,442
,914
Horsepower
-,693
,851
1,000
,725
-,660
-,546
,740
-,719
,788
,725
1,000
-,302
-,363
,766
,421
-,520
-,660
-,302
1,000
,354
-,484
,722
-,442
-,546
-,363
,354
1,000
-,357
-,571
,914
,740
,766
-,484
-,357
1,000
Vehicle
Correlation Weight (lbs.)
Time to
Accelerate
from 0 to 60
mph (sec)
Model Year
(modulo 100)
Number of
Cylinders
20
Rank
Log Determinant
American
16,939
European
13,649
Japanese
14,181
Pooled within-groups
16,386
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
41,689
Box's M
3,061
Approx.
F
df1
12
df2
3043,281
Sig.
,000
Stepwise Statistics
Variables Entered/Removed(a,b,c,d)
Wilks' Lambda
Step
Entered
Exact F
Df3
Statistic df1
df2
Sig.
,490
2 47,000
24,428
2 47,000 ,000
,406
2 47,000
13,083
4 92,000 ,000
Horsepower
,344
2 47,000
10,569
6 90,000 ,000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a Maximum number of steps is 14.
b Minimum partial F to enter is 3.84.
c Maximum partial F to remove is 2.71.
d F level, tolerance, or VIN insufficient for further computation.
21
1,000
24,428
,804
22,737
,808
,804
4,756
,490
,275
14,713
,569
,701
5,981
,436
Horsepower
,240
4,063
,406
Tolerance
Min.
Tolerance
F to
Enter
Wilks'
Lambda
1,000
1,000
13,186
,641
1,000
1,000
24,428
,490
Horsepower
1,000
1,000
9,195
,719
1,000
1,000
17,546
,573
1,000
1,000
2,180
,915
1,000
1,000
5,586
,808
Number of Cylinders
1,000
1,000
16,281
,591
,559
,559
,419
,482
Horsepower
,275
,275
2,887
,436
,379
,379
,174
,487
,730
,730
3,246
,430
,804
,804
4,756
,406
Number of Cylinders
,165
,165
,796
,474
,331
,331
1,496
,381
Horsepower
,240
,240
4,063
,344
,379
,351
,154
,404
,711
,654
3,746
,348
Number of Cylinders
,162
,150
,810
,392
,325
,235
1,557
,321
,368
,214
,457
,337
,557
,188
1,101
,328
Number of Cylinders
,159
,097
1,142
,327
22
Wilks' Lambda
Exact F
Statistic df1
df2
Sig.
,490
47
24,428
2 47,000 ,000
,406
47
13,083
4 92,000 ,000
,344
47
10,569
6 90,000 ,000
1,263(a)
81,6
81,6
,747
,284(a)
18,4
100,0
,470
,344
49,067
6 ,000
,779
11,495
2 ,003
1,595
-,304
Horsepower
-,819
1,091
-,019
1,164
23
Structure Matrix
Function
1
,906(*)
,110
Number of Cylinders(a)
,858(*)
,114
,669(*)
,129
Horsepower
,549(*)
,197
-,505(*)
,286
-,294(*)
-,150
-,278
,703(*)
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant
functions
Variables ordered by absolute size of correlation within function.
* Largest absolute correlation between each variable and any discriminant function
a This variable not used in the analysis.
Coeficientes de clasificacin de Fisher. Pueden utilizarse directamente para la clasificacin. Se
obtiene un conjunto de coeficientes para cada grupo, y se asigna un caso al grupo para el que tiene
una mayor puntuacin discriminante.
Canonical Discriminant Function Coefficients
Function
1
,023
-,004
Horsepower
-,023
,031
-,006
,350
-1,150 -29,070
(Constant)
Unstandardized coefficients
Country of Origin
1
American
1,088
,027
European
-,980
-1,000
Japanese
-1,149
,520
24
Classification Statistics
Prior Probabilities for Groups
Country of Origin Prior
American
,500
25
25,000
European
,180
9,000
Japanese
,320
16
16,000
1,000
50
50,000
Total
-,015
-,057
-,067
,668
,684
,735
10,521
10,173
10,707
-435,516
-404,685 -447,914
25
Validacin cruzada: para comprobar la capacidad predictiva de la funcin discriminante,. para ello
el SPSS genera tantas funciones discriminantes como casos vlidos tiene el anlisis; cada una de
esas funciones se obtiene eliminando un caso; despus, cada caso es clasificado utilizando la
funcin discriminante en la que no ha intervenido.
Classification Results(b,c)
Predicted Group Membership
Country of Origin
American
Count
Original
%
Count
Cross-validated(a)
%
Total
Japanese
European
American
17
25
European
Japanese
14
16
American
68,0
12,0
20,0
100,0
European
11,1
66,7
22,2
100,0
Japanese
,0
12,5
87,5
100,0
American
17
25
European
Japanese
14
16
American
68,0
12,0
20,0
100,0
European
11,1
66,7
22,2
100,0
,0
12,5
87,5
100,0
Japanese
a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the
functions derived from all cases other than that case.
b 74,0% of original grouped cases correctly classified.
c 74,0% of cross-validated grouped cases correctly classified.
26
27
28
50
7
3
DF Total
DF Within Classes
DF Between Classes
49
47
2
origin
1
2
3
Variable
Name
_1
_2
_3
Frequency
Weight
Proportion
Prior
Probability
25
9
16
25.0000
9.0000
16.0000
0.500000
0.180000
0.320000
0.333333
0.333333
0.333333
29
DF = 24
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
52.3639
-603.5698
-245.8552
-4912.5463
6.9017
19.2432
-11.0957
-603.5698
9003.0900
3797.7017
60922.7050
-153.7553
-220.3650
155.9733
-245.8552
3797.7017
1985.8400
25744.2533
-73.8030
-102.8433
63.1933
-4912.5463
60922.7050
25744.2533
638885.6267
-707.9432
-1525.9217
1188.7633
origin = 1,
DF = 24
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
6.9017
-153.7553
-73.8030
-707.9432
5.3401
2.3962
-2.6370
19.2432
-220.3650
-102.8433
-1525.9217
2.3962
12.2233
-3.7900
-11.0957
155.9733
63.1933
1188.7633
-2.6370
-3.7900
3.1067
-------------------------------------------------------------------------------origin = 2,
DF = 8
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
40.2544
-43.1389
-82.3764
-468.6861
12.8193
13.5333
0.0000
-43.1389
449.0278
117.5278
7327.8472
12.1764
24.7083
0.0000
-82.3764
117.5278
356.5278
2054.7222
-35.5861
-33.2917
0.0000
-468.6861
7327.8472
2054.7222
156345.7778
459.0486
625.2917
0.0000
origin = 2,
DF = 8
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
12.8193
12.1764
-35.5861
459.0486
9.4919
7.6667
0.0000
13.5333
24.7083
-33.2917
625.2917
7.6667
12.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
30
-------------------------------------------------------------------------------origin = 3,
DF = 15
Variable
mpg
engine
horse
weight
mpg
engine
horse
weight
accel
year
cylinder
48.5200
-38.4300
-97.5446
-1883.6371
4.1705
14.6558
0.9608
-38.4300
907.4667
468.1667
8756.3667
-34.1833
14.9333
20.6000
-97.5446
468.1667
505.7625
8304.1208
-36.5471
-17.4583
8.0917
-1883.6371
8756.3667
8304.1208
150915.7958
-542.7379
-284.5083
132.8083
origin = 3,
DF = 15
Variable
accel
year
cylinder
mpg
engine
horse
weight
accel
year
cylinder
4.1705
-34.1833
-36.5471
-542.7379
4.2343
0.8742
-0.6308
14.6558
14.9333
-17.4583
-284.5083
0.8742
8.6500
1.0833
0.9608
20.6000
8.0917
132.8083
-0.6308
1.0833
0.6500
-------------------------------------------------------------------------------Simple Statistics
Total-Sample
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
50
50
50
50
50
50
50
1249
8790
5119
141903
765.90000
3805
258.00000
24.97000
175.80000
102.38000
2838
15.31800
76.10000
5.16000
73.48541
9710
1650
671843
5.96804
13.11224
2.91265
8.5724
98.5373
40.6156
819.6602
2.4430
3.6211
1.7066
--------------------------------------------------------------------------------
31
origin = 1
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
25
25
25
25
25
25
25
497.90000
6136
3089
84207
371.20000
1879
156.00000
19.91600
245.44000
123.56000
3368
14.84800
75.16000
6.24000
52.36390
9003
1986
638886
5.34010
12.22333
3.10667
7.2363
94.8846
44.5628
799.3032
2.3109
3.4962
1.7626
-------------------------------------------------------------------------------origin = 2
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
9
9
9
9
9
9
9
260.30000
950.00000
689.00000
21073
151.00000
672.00000
36.00000
28.92222
105.55556
76.55556
2341
16.77778
74.66667
4.00000
40.25444
449.02778
356.52778
156346
9.49194
12.00000
0
6.3446
21.1903
18.8819
395.4058
3.0809
3.4641
0
-------------------------------------------------------------------------------origin = 3
Variable
Sum
Mean
Variance
Standard
Deviation
mpg
engine
horse
weight
accel
year
cylinder
16
16
16
16
16
16
16
490.30000
1704
1341
36623
243.70000
1254
66.00000
30.64375
106.50000
83.81250
2289
15.23125
78.37500
4.12500
48.51996
907.46667
505.76250
150916
4.23429
8.65000
0.65000
6.9656
30.1242
22.4892
388.4788
2.0577
2.9411
0.8062
--------------------------------------------------------------------------------
origin
Covariance
Matrix Rank
1
2
3
Pooled
7
6
7
7
30.05306
8.92659
22.37342
30.35552
32
=
=
=
=
Number of Groups
Number of Variables
Total Number of Observations - Number of Groups
Number of Observations in the i'th Group - 1
__
N(i)/2
|| |Within SS Matrix(i)|
= ----------------------------------N/2
|Pooled SS Matrix|
_
|
1
= 1.0 - | SUM ----|_
N(i)
RHO
DF
_
2
1
| 2P + 3P - 1
--- | ------------N _| 6(P+1)(K-1)
= .5(K-1)P(P+1)
_
_
|
PN/2
|
|
N
V
|
-2 RHO ln | ------------------ |
|
__
PN(i)/2 |
|_ || N(i)
_|
Chi-Square
DF
Pr > ChiSq
220.637339
56
<.0001
Since the Chi-Square value is significant at the 0.1 level, the within
covariance matrices will be used in the discriminant function.
Reference: Morrison, D.F. (1976) Multivariate Statistical
Methods p252.
1
2
3
30.05306
35.53867
34.59605
291281292
8.92659
907076
67.84795
38.59525
22.37342
M=2
N=19.5
33
Statistic
Wilks' Lambda
Pillai's Trace
Hotelling-Lawley Trace
Roy's Greatest Root
Value
F Value
Num DF
Den DF
Pr > F
0.28802184
0.88078861
1.88585602
1.49339170
5.06
4.72
5.43
8.96
14
14
14
7
82
84
62.325
42
<.0001
<.0001
<.0001
<.0001
Total
18
72.00
7
28.00
0
0.00
25
100.00
0
0.00
9
100.00
0
0.00
9
100.00
0
0.00
9
56.25
7
43.75
16
100.00
Total
18
36.00
25
50.00
7
14.00
50
100.00
Priors
0.33333
0.33333
0.33333
Rate
Priors
Total
0.2800
0.3333
0.0000
0.3333
0.5625
0.3333
0.2808
34
Total
17
68.00
8
32.00
0
0.00
25
100.00
3
33.33
5
55.56
1
11.11
9
100.00
2
12.50
11
68.75
3
18.75
16
100.00
Total
22
44.00
24
48.00
4
8.00
50
100.00
Priors
0.33333
0.33333
0.33333
Rate
Priors
Total
0.3200
0.3333
0.4444
0.3333
0.8125
0.3333
0.5256
35
50
3
7
0
0.05
0.05
origin
1
2
3
Variable
Name
_1
_2
_3
Frequency
Weight
Proportion
25
9
16
25.0000
9.0000
16.0000
0.500000
0.180000
0.320000
R-Square
F Value
Pr > F
Tolerance
mpg
engine
horse
weight
accel
year
cylinder
0.3594
0.5097
0.2812
0.4275
0.0849
0.1920
0.4093
13.19
24.43
9.20
17.55
2.18
5.59
16.28
<.0001
<.0001
0.0004
<.0001
0.1244
0.0067
<.0001
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
Multivariate Statistics
Statistic
Wilks' Lambda
Pillai's Trace
Average Squared Canonical
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.490318
0.509682
0.254841
24.43
24.43
2
2
47
47
<.0001
<.0001
36
R-Square
F Value
Pr > F
0.5097
24.43
<.0001
engine
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
horse
weight
accel
year
cylinder
0.0179
0.1115
0.0075
0.1237
0.1714
0.0335
0.42
2.89
0.17
3.25
4.76
0.80
0.6604
0.0659
0.8412
0.0480
0.0133
0.4571
0.3645
0.2227
0.2187
0.7623
0.7843
0.1009
Multivariate Statistics
Statistic
Wilks' Lambda
Pillai's Trace
Average Squared Canonical
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.406296
0.674371
0.337185
13.08
11.95
4
4
92
94
<.0001
<.0001
Variable
engine
year
Partial
R-Square
F Value
Pr > F
0.4971
0.1714
22.74
4.76
<.0001
0.0133
37
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
horse
weight
accel
cylinder
0.0624
0.1530
0.0068
0.1427
0.0347
1.50
4.06
0.15
3.75
0.81
0.2349
0.0239
0.8576
0.0313
0.4514
0.2261
0.2034
0.2093
0.6454
0.0932
Multivariate Statistics
Statistic
Wilks' Lambda
Pillai's Trace
Average Squared Canonical
Correlation
Value
F Value
Num DF
Den DF
Pr > F
0.344148
0.779271
0.389636
10.57
9.79
6
6
90
92
<.0001
<.0001
Variable
Partial
R-Square
F Value
Pr > F
0.3954
0.1530
0.2100
14.71
4.06
5.98
<.0001
0.0239
0.0050
engine
horse
year
Variable
Partial
R-Square
F Value
Pr > F
Tolerance
mpg
weight
accel
cylinder
0.0661
0.0204
0.0477
0.0493
1.56
0.46
1.10
1.14
0.2222
0.6360
0.3416
0.3285
0.1779
0.1380
0.1435
0.0676
38
Step
Number
In
1
2
3
1
2
3
Entered
Removed
engine
year
horse
Step
Number
In
1
2
3
1
2
3
Entered
engine
year
horse
Partial
R-Square
F Value
Pr > F
Wilks'
Lambda
Pr <
Lambda
0.5097
0.1714
0.1530
24.43
4.76
4.06
<.0001
0.0133
0.0239
0.49031755
0.40629584
0.34414795
<.0001
<.0001
<.0001
Removed
Average
Squared
Canonical
Correlation
Pr >
ASCC
0.25484122
0.33718537
0.38963551
<.0001
<.0001
<.0001
39
Anlisis de Correspondencias
Introduccin
El anlisis de correspondencias es una tcnica descriptiva para representar tablas de
contingencia. Los datos de partida para el anlisis de correspondencias es una matriz X
de dimensiones n k que representa las frecuencias absolutas observadas en una tabla de
contingencia de dos variables, donde la primera se representa por filas y tiene n categoras
y la segunda por columnas y tiene k categoras. Por ejemplo, clasificamos un conjunto
de estudiantes en n posibles procedencias geogrficas y k posibles opiniones respecto a
la docencia. En general, el elemento xij de la matriz X representa la frecuencia absoluta
observada en la casilla (i, j) de la tabla de contingencia.
La metodologa la desarroll Benzecri, a principios de los aos 60 del siglo XX en la
Universidad de Renner (Francia). En esencia. es un tipo especial de anlisis de componentes principales pero realizado sobre una tabla de contingencia y usando una distancia
eucldea ponderada llamada chi-cuadrado.
Ejemplo: supongamos 400 tiendas de discos repartidas entre los pases de la U.E. Se
clasifica a los compradores en 3 categoras distintas: Jvenes, Edad Media, Mayores, y a
los tipos de msica en 5 tipos:
A = Msica disco
B = Rocknroll y msica americana
C = Pop y msica inglesa (meldicas)
D = Jazz y msica autctona
E = Clsica
1
Por ejemplo, las frecuencias del tipo de msica B son 0,5 0,5 0 ya que tenamos
A
B
C
D
E
Independencia
Si el hecho de que aparezca o se presente una categora junto con otra no es ni ms
ni menos probable de que se presenten las dos categoras por separado, se dice que las
variables son independientes y, en general, se dice que la tabla es homognea.
As, dadas dos variables aleatorias X e Y , son independientes si
P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj )
para todo i, j.
En el caso de una tabla de contingencia, si se aproxima la probabilidad de que sucedan
xi e yj como la frecuencia relativa en un experimento con N tiradas totales (regla de
Laplace), entonces:
nij
n
ni
=
n
nj
=
n
pij =
pi
pj
As, si
P (X = xi , Y = yj ) = pij = pi pj
para todo i, j, las variables X e Y son independientes y la tabla es homognea. Si es cierta
la hiptesis de independencia esperaremos encontrar Eij objetos dentro de la casilla (i, j)sima, donde
Eij = n pij = n pi pj =
ni nj
n
2
ni nj
nij
r X
c
X
n
2
.
X =
ni nj
i=1 j=1
n
Habitualmente se usa este contraste de independencia en tablas de contingencia.
Columnas
1
2
1 n11 n12
Filas 2 n21 n22
..
..
..
..
.
.
.
.
r nr1 nr2
n1 n2
c
n1c
n2c
..
.
n1
n2
..
.
nrc
nc
nr
n
1 p11
Filas 2 p21
..
.
r
pr1 =
1 q11
Filas 2 q21
..
.
r
1
=
=
..
.
1
=
=
..
.
qr1 =
Columnas
2
n11
p12 = nn12
n1
1
n21
n22
p
=
22
n2
n2
..
.
..
.
c
p1c =
p2c =
..
.
n1c
n1
n2c
n2
prc =
nrc
nr
Columnas
2
n11
n12
q
=
12
n1
n2
n21
n22
q
=
22
n1
n2
..
.
..
.
c
q1c =
q2c =
..
.
n1c
nc
n2c
nc
nr1
n1
qrc =
nrc
nc
nr1
nr
pr2 =
qr2 =
nr2
nr
nr2
n2
r
X
1
=
(pki pkj )2
pk
k=1
donde
pk =
nk
n
1
,
pk
la variable que est en la columna con pocos valores tienen una mayor influencia en el
clculo de la distancia que las categora comunes.
Se puede definir una distancia similar entre dos filas i y j
dfil
ij
c
X
1
=
(qik qjk )2
q
k
k=1
donde
qk =
nk
n
X2
N
interpretar como la media ponderada de las distancias chi cuadrado entre los perfiles fila
y su perfil medio. O, alternativamente, se puede definir del mismo modo para los perfiles
columna.
Reduccin de dimensiones
En general, los perfiles estn situados en espacios de altas dimensiones de modo que no
se pueden observar directamente. Se pueden determinar subespacios de dimensin menor
al nmero mnimo entre filas y columnas menos uno, donde se puede aproximar la posicin
Ejemplo
Supongamos la tabla de contingencia siguiente (de Everitt):
Sin Pareja
Con Pareja (no sexo)
Con Pareja (s sexo)
Total
1
21 (0.68 )
8 (0.26 )
2 (0.06 )
31(0.22 )
2
21 (0.64 )
9 (0.27 )
3 (0.09 )
33(0.24 )
Grupos de Edades
3
4
14 (0.58 ) 13(0.42 )
6 (0.25 )
8 (0.26 )
4 (0.17 )
10 (0.32 )
24(0.17 )
31(0.22 )
5
8(0.40 )
2 (0.10 )
10 (0.50 )
20(0.15 )
77(0.55 )
33(0.24 )
29(0.21 )
139
col
0,00
0,09
0,26
0,66
1,07
0,09
0,00
0,19
0,59
1,01
0,26
0,19
0,00
0,41
0,83
0,66
0,59
0,41
0,00
0,51
1,07
1,01
0,83
0,51
0,00
10