Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIÓN
El presente capítulo tiene como objetivo principal explicar los rasgos importantes de la
distribución Multivariada, así como realizar aplicaciones en el programa estadístico R.
MARCO TEÓRICO
Sea Z ' = ( Z1 ,...., Z p ) un vector con p variables aleatorias independientes y cada una con
distribución normal estándar; es decir, Z i N ( 0,1) . Entonces:
p
t2 t 't
E(Z ) = 0, Cov(Z ) = I , M z (t ) = exp i = exp .
i =1 2 2
E( X ) = , Cov( X ) = AA '.
t ' t
= exp ' t + ,
2
con = AA '
En consecuencia, se puede afirmar que un vector p − dimensional X , tiene distribución
normal p − variante, con vector de medias y matriz de covarianzas , si y sólo si, la
función generadora de momentos X es:
t 't
M x (t ) = exp ' t +
2
Se nota X N p ( , )
Ahora se encuentra la función de densidad para X. Del resultado anterior se afirma que
p
1 1 1 1
fz ( z ) = exp − zi2 = exp − z ' z .
i =1 (2 ) 2 (2 ) 2
1/2 p /2
1 1
f X ( x) = exp − ( x − ) ' −1 ( x − ) ,
(2 ) 2
p /2 1/2
Propiedad 1:
En adelante se indica que un vector aleatorio X tiene distribución normal p − variante con
vector de medias E( X ) = y matriz de covarianzas Cov( X ) = , escribiendo:
X N p ( , ).
Esto significa que la distribución normal queda completamente determinada a través del
vector y la matriz .
Propiedad 2:
Linealidad. Si X es un vector aleatorio p − dimensional distribuido normalmente, con
vector de medias y matriz de varianzas y covarianzas , entonces el vector Y = AX + b
, con A una matriz de tamaño (q p) y b un vector de tamaño (q 1) tiene distribución
normal q-variante, con vector de medias A + b matriz de varianzas y covarianzas A A ' .
En símbolos, si X N p ( , ) entonces
Y = ( AX + b) N q ( A + b; A A ').
X1 5 4 −1 0
Ejemplo: Si X = X 2 Normal3 = 3 , = −1 4 2 , calcule:
X 7 0 2 9
3
a. P ( X 1 6 )
P ( X 1 6 ) = pnorm(6,5,2,lower.tail = F) = 0.3085375
b. P ( 5 X 2 + 4 X 3 70 )
E ( 5 X 2 + 4 X 3 ) = 52 + 4 3 = 5 3 + 4 7 = 43
Var ( 5 X 2 + 4 X 3 ) = 25Var ( X 2 ) + 16Var ( X 3 ) + 20Cov ( X 2 , X 3 )
Var ( 5 X 2 + 4 X 3 ) = 25 4 + 16 9 + 40 2 = 324
c. P ( 4 X 1 − 3 X 2 + 5 X 3 80 )
0 2 9
5
Y X − 2X 2 +1
d. Halle la distribución de Y = 1 = 1
Y2 X 1 − X 2 + 3 X 3 + 2
De acuerdo a la propiedad dada anteriormente, se tiene un vector de la forma
1 − 2 0 1
Y = AX + b , donde A = y b = entonces:
1 − 1 3 2
0 24 3
Y = AX + b Normal2 ( A + b; A AT ) Normal2 ;
25 3 79
Propiedad 3:
12
= 11 ,
21 22
Propiedad 4:
1 1
f X ( x) = exp − ( x − ) ' −1 ( x − ) ,
(2 ) 2
p /2 1/2
como el producto de las funciones de densidad asociadas con cada una de las componentes
del vector aleatorio X , así:
p
1 1 x − u 2
f X ( x) = f1 ( x1 )... f p ( x p ) = exp − i i .
2 i
1
i =1 i
(2 ) 2
Distribuciones Asociadas a la Distribución Normal Multivariada
Distribución F no central
Distribución Wishart
n
La distribución Wishart central está ligada a la distribución de Z Z
i =1
i
T
i , donde los vectores
Definición
Suponga que G es una matriz p n , cada columna de la cual se extrae independientemente
de una distribución normal p variada con media cero: Gi = ( gi1 , , gip ) N p ( 0, ) .
T
W Wishart p ( , n ) .
Teorema
Propiedad
1 n
Por lo tanto, ˆ 1 = S = ( X i − ˆ )( X i − ˆ ) es un estimador insesgado de .
T
n − 1 i =1
La media muestral X se puede escribir como una función lineal sobre el vector X , de la
1
forma X T = 1T X , donde X = ( X 1 , , X n ) es la matriz de datos de una población
T
n
N p ( , ) y 1 es el vector de unos de tamaño ( n 1) . De acuerdo con las propiedades
1
anteriores X N p , .
n
La matriz de varianzas covarianzas se puede escribir de la siguiente forma:
1 1
ˆ = X T I − 1T1 X
n n
X 11 X 21 X n1 n − 1 − 1 − 1 X 11 X 12 X 1 p
n n n X 21 X 22 X 2 p
X 12 X 22 X n 2
− 1 n −1 − 1
ˆ = n n n
1j
X X 2j X nj X i1 X i2 X ip
1 1 n −1
X X X − −
1p 2p np n n n X n1 X n 2 X np
1 1
El vector de medias X T = 1T X es una forma lineal con B = 1T , la matriz de covarianzas
n n
1 1 1
muestral es una forma cuadrática S = X T I − 1T1 X , con A = I − 1T1 . Por una
n −1 n n
propiedad anterior, se obtiene que BSA = 0 ; de donde se concluye que X y S son
estadísticas independientes.
Algunas propiedades
1. nˆ Wishart p ( , n − 1)
2. Una propiedad útil para desarrollar pruebas de hipótesis sobre el vector de medias
es que n ( X − ) −1 ( X − ) 2 ( p) .
T
3. El teorema del límite central también se aplica en el caso multivariado. Con muestras
D
1
grandes X N p , .
n
4. X y S son estadísticas suficientes de y respectivamente.
5. X y S son estadísticas consistentes de y respectivamente.
Una población
En el caso multivariado, tanto la verificación de hipótesis como la construcción de regiones
de confianza, se basan en que la diferencia entre el vector de medias muestral y el poblacional
está normalmente distribuido con vector de medias cero y matriz de varianzas y covarianzas
conocida. Si n ( X − ) N ( 0, ) entonces:
n ( X − ) −1 ( X − ) 2 ( p)
T
APLICACIONES EN R
Se realiza un estudio de análisis de las variables que influyen en los sueldos de los
trabajadores en una empresa.
Las variables a estudiar son la siguientes:
$univariateNormality
Test Variable Statistic p value Normality
1 Shapiro-Wilk Column1 0.9900 0.9467 YES
2 Shapiro-Wilk Column2 0.9769 0.4304 YES
$Descriptives
n Mean Std.Dev Median Min Max
25th 75th Skew Kurtosis
1 50 2260.339743 1641.433021 2142.05963 -1223.733866 5841.97542 1105.02
6297 3532.06353 0.03492158 -0.6403271
2 50 3.580762 5.286258 3.17326 -7.945419 16.18597 1.24
9477 7.35956 0.08734077 -0.1038849
Es Test indica que la muestra proviene de una distribución normal. Tanto el Test de
Sesgo como el Test de Kurtosis indican que provienen de una distribución normal.
Observamos que las variables X1, X2, X3 y X4 se ajustan a una curva normal.
> X = colMeans(M)
> X
[1] 2238.18857 4.93132 33.55510 19.01999
> #Matriz de covarianza
> S = cov(M)
> S
[,1] [,2] [,3] [,4]
[1,] 2295195.555 2004.830954 6159.164084 1173.723213
[2,] 2004.831 16.028448 16.120738 1.333562
[3,] 6159.164 16.120738 56.276155 3.513265
[4,] 1173.723 1.333562 3.513265 4.088677
> #Matriz de correlación
> R = cor(M)
> R
[,1] [,2] [,3] [,4]
[1,] 1.0000000 0.3305386 0.5419381 0.3831461
[2,] 0.3305386 1.0000000 0.5367561 0.1647313
[3,] 0.5419381 0.5367561 1.0000000 0.2316100
[4,] 0.3831461 0.1647313 0.2316100 1.0000000
> G = det(S)
> G
[1] 3612572274
El vector de medias y varianza muestral se aproxima a la poblacional.
8. Distancia de Mahalanobis
$Descriptives
n Mean Std.Dev Median Min Max
25th 75th Skew Kurtosis
1 250 2238.18857 1514.990282 2275.283940 -1568.809816 6036.80154 1155.7
74426 3273.49718 -0.007446467 -0.3599870
2 250 4.93132 4.003554 5.282085 -6.573834 16.11905 2.2
27946 7.60682 -0.112476801 -0.2425099
3 250 33.55510 7.501743 33.815368 17.006538 54.88107 28.2
49977 38.63460 0.130933546 -0.3212622
4 250 19.01999 2.022048 19.062111 14.408722 24.41366 17.5
98079 20.52005 0.050267033 -0.5221880
Es Test indica que la muestra proviene de una distribución normal. Tanto en el Test
de Sesgo y el de Test de Kurtosis indica que sí.
CONCLUSIONES
BIBLIOGRAFÍA
• Porras, J. C. (2016). Comparación de pruebas de normalidad multivariada. In Anales
Científicos (Vol. 77, No. 2, pp. 141-146). Universidad Nacional Agraria La Molina.
• Salazar, E. R., & Simón-Fermín, J. (2016). Un índice de capacidad de procesos para
distribuciones multivariadas normales de variables correlacionadas y no
correlacionadas. Ingeniería Industrial, (034), 57-73.
• Monroy, L. G. D. (2007). Estadística multivariada: inferencia y métodos. Universidad
Nacional de Colombia.