Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANÁLISIS MULTIVARIADO
EMAIL: lnieto@itam.mx
URL: http://allman.rhon.itam.mx/~lnieto
1
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
PLAN DE ESTUDIOS:
1. Introducción.
2. Análisis exploratorio multivariado.
3. Análisis de componentes principales.
4. La distribución normal multivariada.
5. Análisis de factores.
6. Análisis de cúmulos.
7. Escalamiento multidimensional.
8. Análisis de varias variables categóricas.
9. Solución de problemas prácticos.
REFERENCIA BÁSICA:
Johnson, D. E. (2000). Métodos multivariados aplicados. ITP International
Thomson Editores: México.
REFERENCIAS ADICIONALES:
Kachigan, S. K. (1991). Multivariate statistical analysis. Radius Press.
Hair, J. F., Anderson, R. E., Tatham, R. L. & Black, W. (1998).
Multivariate data analysis. Prentice Hall College Division.
Johnson, R. A. & Wichern, D. W. (2002). Applied multivariate statistical
analysis. Prentice Hall: London.
2
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
3
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
1. Introducción
4
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Tipos de variables
Numéricas Categóricas
5
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
6
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
7
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Matriz de datos:
x11 x12 L x1p
x 21 x 22 L x 2p
x =
M M O M
x x n2 L x np
n1
xij = elemento en el i-ésimo renglón y j-ésima columna
Renglones = individuos
Columnas = variables
8
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Vectores de datos:
Los renglones de la matriz de datos se pueden expresar como vectores de la
siguiente forma: El i-ésimo renglón de X se escribe como
x i' = (x i1 , x i 2 ,..., x ip )
Media:
E (X1 ) µ1
E ( X 2 µ2
)
µ = E (X) = =
M M
E (X ) µ
p p
Varianzas-Covarianzas:
{
Σ = Cov(X) = Var (X) = E (X − µ )(X − µ )
'
}
9
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
donde, { }
σ jj = Cov(X j , X j ) = Var (X j ) = E (X j − µ j ) 2 , para j=1,2,...,p, y
Correlaciones:
1 ρ12 L ρ1p
ρ 21 1 L ρ 2p
Ρ = Corr (X) =
M M O M
ρ L 1
p1 ρ p 2
σ kj
donde, ρ kj = Corr (X k , X j ) = , para k≠j=1,2,...,p
σ kk σ jj
10
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Cometarios:
1) El coeficiente de correlación ρ kj es una medida de la relación lineal
11
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
MEDIA MUESTRAL:
1 n
µˆ = ∑ X i ,
n i=1
12
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
VARIANZA MUESTRAL:
1 n '
Σˆ = ∑ (X i − µˆ )(X i − µˆ ) ,
n − 1 i=1
cuyos elementos se denotan como:
σˆ 11 σˆ 12 L σˆ 1p
σˆ 21 σˆ 22 L σˆ 2 p
Σˆ =
M M O M
σˆ L σˆ pp
p1 σˆ p 2
donde, σˆ jj =
1 n
∑ (X ij − µˆ j )2 , para j=1,2,...,p, y
n − 1 i=1
13
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
CORRELACIÓN MUESTRAL:
1 r12 L r1p
r21 1 L r2 p
R =
M M O M
r rp 2 L 1
p1
σˆ kj
donde, rkj = , para k≠j=1,2,...,p.
σˆ kk σˆ jj
Propiedades:
1) -1 ≤ rkj ≤ 1
2) E(R ) ≠ Ρ .
Splus: cor
14
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
15
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
x i1
f i (t ) = + x i 2 sen ( t ) + x i 3 cos( t ) + x i 4sen (2t ) + x i 5 cos(2 t ) + L
2
para − π < t < π . De esta forma, las observaciones para el individuo i dan
lugar a una única función fi(t). El diagrama de Andrews se construye
graficando las funciones f1(t), f2(t),... fn(t) para − π < t < π .
Estos diagramas son útiles para encontrar agrupamientos en los datos.
También son útiles para localizar datos extremos.
Es recomendable que las variables estén medidas en unidades semejantes
(estandarización).
El orden de las variables afecta la interpretación.
16
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
p
Traza de una matriz: tr (Σ ) = ∑ σ jj .
j=1
p
Determinante de una matriz (cuadrada): det (Σ ) = Σ = ∑ σ1 jΣ1 j , en donde
j=1
17
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Ejemplo numérico:
6 2
Sea Σ = .
2 3
Entonces, tr(Σ)=6+3=9, y Σ = 6(−1)1+1 3 + 2(−1)1+ 2 2 = 18 − 4 = 14 .
Splus: det
18
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Propiedades:
p
tr (Σ ) = ∑ λ j ,
j=1
p
Σ = ∏λ j .
j=1
Ejemplo numérico:
6 2
Sea Σ = .
2 3
Los eigenvalores de Σ deben satisfacer Σ − λI = 0 , es decir,
6 − λ 2 0
= .
2 3 − λ 0
( )
único vector normalizado w 1' w 1 = 1 es: w 1' = 2 ( 5 ,1 5 .)
Similarmente, resolviendo Σw 2 = λ 2 w 2 para λ2=2 se puede demostrar que
(
w '2 = 1 5 ,− 2 )
5 .
19
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
20
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
1) No estén correlacionadas.
2) La 1a componente principal explique la mayor variabilidad posible de
los datos.
3) Cada componente subsecuente explique la mayor variabilidad posible
restante no explicada por las componentes anteriores.
COMPONENTES:
1a componente principal: Y1 = a 1' X , donde a1 maximiza Var a 1' X sujeto a ( )
a 1' a 1 = 1
21
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
INTERPRETACIÓN de λk :
Recuerde que tr (Σ ) = σ11 + σ 22 + L + σ pp es una medida de la variabilidad
( )
total de las variables originales. Por otro lado, Var(Yk ) = Var a 'k X = λ k ,
k=1,...,p. Por lo tanto, la variabilidad total de las variables componentes
principales tr (Σ ) = λ1 + λ 2 + L + λ p es igual a la variabilidad total de las
variables originales.
Proporción de la variabilidad
λk
total explicada por la k - ésima = , k=1,2,...,p
componente principal λ 1 + λ 2 + L + λ p
22
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
23
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
Los componentes principales Y *' = Y1* , Y2* ,..., Yp* ( ) del conjunto de
24
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
X1
X2 p
a ' X = (a 1 , a 2 ,..., a p ) = ∑ a j X j
M
j=1
X
p
tiene una distribución normal univariada para todos los posibles valores del
vector a.
Definición 2 (Formal): Se dice que un vector aleatorio X ' = (X1 , X 2 ,..., X p )
25
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
1 1
f X (x; µ, Σ ) = exp− (x − µ ) Σ −1 (x − µ ) , para x ∈ ℜ p
'
1/ 2
( 2 π) p / 2 Σ 2
Notación: X ∼ Np(µ, Σ)
independientes.
26
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
µ σ σ12
µ = 1 y Σ = 11 .
µ
2 σ
21 σ 22
σ12
Recuerda que ρ12 = .
σ11 σ 22
27
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
µˆ 1 X11 X n1
1 n µˆ 2 1 X12 X n 2
µˆ = ∑ X i ó µˆ = = +L+ ,
n i=1 M n M M
µˆ X X
p 1p np
σˆ 11 σˆ 12 L σˆ 1p
1 n ' σˆ 21 σˆ 22 L σˆ 2 p
Σˆ = ∑ i (X − µ
ˆ )(X − µ
ˆ ) ó ˆ
Σ = M ,
n − 1 i=1
i
M O M
σˆ L σˆ pp
p1 σˆ p 2
1 r12 L r1p
r21 1 L r2 p
R = ,
M M O M
r rp 2 L 1
p1
donde, σˆ jj =
1 n
∑ (X ij − µˆ j )2 , para j=1,2,...,p,
n − 1 i=1
28
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
29
Módulo 6: Análisis Multivariado PROFESOR: LUIS E. NIETO BARAJAS
30