D. Normal Multivariada

La Distribución Normal Multivariada
INTRODUCCIÓN
Muchos métodos de análisis estadísticos como: el Análisis Multivariado de la Varianza

(MANOVA), el Análisis Discriminante Lineal (ADL), el Análisis de Componentes
Principales (ACP), Correlación Canónica (CC), entre otros, requieren el cumplimiento del
supuesto de normalidad multivariada. Si los datos provienen de una distribución normal
multivariada (exacta o aproximadamente), los métodos antes mencionados podrían brindar
resultados confiables. Caso contrario, el rendimiento de los métodos podría disminuir
dramáticamente, es decir sus resultados no serían confiables.
Para verificar si un conjunto de datos proviene de una distribución normal multivariada se

puede hacer uso de gráficos (procedimientos descriptivos) o de pruebas estadísticas
(procedimientos inferenciales). Si bien es cierto que los métodos gráficos son más fáciles de
interpretar, las pruebas estadísticas nos permiten una mejor generalización de los resultados.
El presente capítulo tiene como objetivo principal explicar los rasgos importantes de la
distribución Multivariada, así como realizar aplicaciones en el programa estadístico R.
MARCO TEÓRICO
Aunque existen varias formas de presentar la distribución normal multivariada, se expone a

continuación, por construcción, la distribución normal multivariante. El camino a seguir es
la identificación de su distribución mediante la función generadora de momentos. Con esta
definición resulta sencillo construir un algoritmo computacional para simular datos
procedentes de una determinada distribución normal multivariada.
Sea Z ' = ( Z1 ,...., Z p ) un vector con p variables aleatorias independientes y cada una con
distribución normal estándar; es decir, Z i N ( 0,1) . Entonces:
p
t2  t 't
E(Z ) = 0, Cov(Z ) = I , M z (t ) =  exp  i  = exp .
i =1 2 2
Considérese el vector  y la matriz A de tamaño ( p  p) . El vector X = AZ +  es tal que
E( X ) = , Cov( X ) = AA '.
La función generadora de momentos de X es dada por
M X (t ) = exp  ' t M z ( A ' t )
 t '( A ' A)t 

= exp   ' t + 
 2 
 t '  t 
= exp   ' t + ,
 2 
con  = AA '
En consecuencia, se puede afirmar que un vector p − dimensional X , tiene distribución
normal p − variante, con vector de medias  y matriz de covarianzas  , si y sólo si, la
función generadora de momentos X es:
 t 't 
M x (t ) = exp   ' t + 
 2 
Se nota X N p ( , )
Ahora se encuentra la función de densidad para X. Del resultado anterior se afirma que
Z N p (0, I ), con Z ' = ( Z1 ,..., Z p ).
Por la independencia entre los Z i , su densidad conjunta es,
p
1  1  1  1 
fz ( z ) =  exp − zi2  = exp − z ' z  .
i =1 (2 )  2  (2 )  2 
1/2 p /2
Sea X = 1/2 Z +  , entonces por el resultado anterior X N p (  , ) .El vector Z se puede

expresar como Z = −1/2 ( X −  ) , expresión que es una transformación invertible. El
−1/2
jacobiano de la transformación es J =  .Por tanto la función de densidad conjunta de
X es
1  1 
f X ( x) = exp − ( x −  ) '  −1 ( x −  )  ,
(2 )   2 
p /2 1/2
donde  = ( 1 ,...,  p ) ' y  es una matriz simétrica definida positiva de tamaño p  p.
• Propiedades de la distribución normal multivariada
A continuación, se hace una caracterización muy sucinta sobre la distribución normal p

variante. Los interesados en seguir este desarrollo en una forma más detallada pueden
consultar a Anderson (1984) o Rencher (1998).
Propiedad 1:
Determinación. Si un vector aleatorio X p1 , tiene distribución normal multivariante,

entonces su media es  y su matriz de varianzas y covarianzas es  .
En adelante se indica que un vector aleatorio X tiene distribución normal p − variante con
vector de medias E( X ) =  y matriz de covarianzas Cov( X ) =  , escribiendo:
X N p (  , ).
Esto significa que la distribución normal queda completamente determinada a través del
vector  y la matriz  .
Propiedad 2:
Linealidad. Si X es un vector aleatorio p − dimensional distribuido normalmente, con
vector de medias  y matriz de varianzas y covarianzas  , entonces el vector Y = AX + b
, con A una matriz de tamaño (q  p) y b un vector de tamaño (q 1) tiene distribución
normal q-variante, con vector de medias A + b matriz de varianzas y covarianzas A  A ' .
En símbolos, si X N p (  , ) entonces
Y = ( AX + b) N q ( A + b; A  A ').
 X1   5  4 −1 0 
      
Ejemplo: Si X =  X 2  Normal3   =  3  ,  =  −1 4 2   , calcule:
X   7  0 2 9  
 3   
a. P ( X 1  6 )
P ( X 1  6 ) = pnorm(6,5,2,lower.tail = F) = 0.3085375
b. P ( 5 X 2 + 4 X 3  70 )
E ( 5 X 2 + 4 X 3 ) = 52 + 4 3 = 5  3 + 4  7 = 43
Var ( 5 X 2 + 4 X 3 ) = 25Var ( X 2 ) + 16Var ( X 3 ) + 20Cov ( X 2 , X 3 )
Var ( 5 X 2 + 4 X 3 ) = 25  4 + 16  9 + 40  2 = 324
5X 2 + 4X3 Normal ( 43,324 )

P ( 5 X 2 + 4 X 3  70 ) = pnorm(70,43,sqrt(324),lower.tail = F) = 0.0668072
c. P ( 4 X 1 − 3 X 2 + 5 X 3  80 )
E ( 4 X 1 − 3 X 2 + 5 X 3 ) = 41 − 32 + 53 = 4  5 − 3  3 + 5  7 = 46

 4 − 1 0  4 
  
Var ( 4 X 1 − 3 X 2 + 5 X 3 ) = AA = ( 4 − 3 5 )  −1 4 2  −3  = 289
T
 0 2 9  
  5 
4 X1 − 3 X 2 + 5 X 3 Normal ( 46, 289 )

P ( 4 X 1 − 3 X 2 + 5 X 3  80 ) = pnorm(80,46,sqrt(289)) = 0.9772499
Y   X − 2X 2 +1 
d. Halle la distribución de Y =  1  =  1 
 Y2   X 1 − X 2 + 3 X 3 + 2 
De acuerdo a la propiedad dada anteriormente, se tiene un vector de la forma
1 − 2 0  1 
Y = AX + b , donde A =   y b =   entonces:
1 − 1 3   2
  0   24 3  
Y = AX + b Normal2 ( A + b; A  AT ) Normal2    ;  
  25   3 79  
Propiedad 3:
Marginales. Considérese el vector X particionado como X = ( X (1) , X (2) ) , con

X (1) = ( X 1 ,..., X p1 ), X (2) = ( X p1+1 ,..., X p ) , y sea  particionado similarmente como
 ' = ( (1) , (2) ) y además  particionada:
 12 
 =  11  ,
  21  22 
donde 11 es la submatriz superior izquierda de  de tamaño p1  p1 .Si X tiene

distribución normal con media  y matriz de varianzas y covarianzas  (definida positiva)
y 12 =  '21 = 0 ,entonces los vectores X (1) y X (2) son independientes y normalmente
distribuidos con vectores de medias  (1) ,  (2) y matrices de varianzas y covarianzas 11 y
 22 respectivamente. De otra manera, cualquier subvector de un vector con distribución
normal p variante tiene distribución normal, con subvector de medias y submatriz de
covarianzas los asociados a las componentes de éste.
Propiedad 4:
Independencia. La matriz de varianzas y covarianzas de un vector aleatorio X p1 , con

distribución normal p variante es diagonal si y sólo si los componentes de X son variables
aleatorias normales e independientes.
De esta propiedad se puede expresar:
1  1 
f X ( x) = exp − ( x −  ) '  −1 ( x −  )  ,
(2 )   2 
p /2 1/2
como el producto de las funciones de densidad asociadas con cada una de las componentes
del vector aleatorio X , así:
p
1  1  x − u 2 
f X ( x) = f1 ( x1 )... f p ( x p ) =  exp −  i i   .
 2   i  
1
i =1 i
(2 ) 2
Distribuciones Asociadas a la Distribución Normal Multivariada
La distribución ji-cuadrado no central

Sea X un vector de tamaño ( p  1) distribuido N p (  , I ) , si se define U = X T X , la cual
tiene distribución ji-cuadrada no central, si su función de densidad de probabilidad es:
 p +2 j −2 u

− j  
−

e   u 2
e 2
f (u ) =     I 0, ( u ) , siendo el parámetro de no centralidad
j =0  j ! 
   p + 2 j  j +
p
( )
  2 
2
2 
   
 = uT u .
La distribución t-Student no central

Hay dos definiciones equivalentes:
1. Sea Z una variable aleatoria con distribución N ( 0,1) , U con distribución  2 ( p ) y 
una constante, si Z y U son independientes entonces la variable aleatoria
Z +
T= t ( p,  ) .
U
p
 
N (  ,  2 ) y sea
Y pX
2. Sea X  2 ( p ) independiente de Xt = t  p,  = 
 2
Y  
Distribución F no central
Sean U1  2 ( n1 ,  ) y U2  2 ( n2 , 0 ) independientes. La variable aleatoria

U1
n
W= 1 F ( n1 , n2 ,  ) .
U2
n2
Distribución Wishart
La distribución de Wishart se asocia con la distribución muestral para estadísticas de la forma

( X − X )( X i − X ) , con X i vector aleatorio de tamaño ( p  1) ; ella equivale a la suma
T
i
i
de cuadrados del caso univariado  xi − x . ( )

2
Si X 1 , , X n son vectores aleatorios independientes de tamaño ( p 1) , con n  p
normalmente distribuidos; es decir, si X i N p (  ,  ) , entonces W = XX T , con
X = ( X1, , X n ) , es una matriz de tamaño ( p  p ) de Wishart, con n grados de libertad,
1 T −1
matriz de varianzas y covarianzas  y parámetro de no centralidad  =    . Se emplea
2
la siguiente notación W Wishart p ( n, ,  ) . Esta distribución sirve para caracterizar la
distribución muestral de la matriz S (la matriz varianza covarianza muestral).
Un caso particular de la distribución Wishart es la distribución ji-cuadrado central. Recordar

que se define de la siguiente manera: W1 =  2 = Z12 + Z 22 + + Z p2 = Z T Z , con
Z T = ( Z1 , , Z p ) y las Z i N ( 0,1) e independientes, para i = 1, ,p.
n
La distribución Wishart central está ligada a la distribución de Z Z
i =1
i
T
i , donde los vectores
aleatorios Z i son independientes y distribuidos N ( 0,  ) . Cuando  = I p la distribución está

en su forma estándar.
La distribución Wishart es una generalización a múltiples dimensiones de la distribución

gamma. Es una familia de distribuciones de probabilidad definida sobre matrices aleatorias
definidas nonegativas, simétricas
Se dice que la variable aleatoria p variada X tiene distribución Wishart p ( , n ) con

parámetros n  p − 1 (grados de libertad), matriz de escala   0 ( p  p definida positiva )
y soporte en la matriz definida positiva X ( p  p ) si su función de densidad de probabilidad
n − p −1 −
(
tr  −1 x )
2
x 2 e
está dada por: f X ( x ) = , donde  p es la función gamma p variada
n
np n
2 2
 p  
2
2
p ( p −1) p
 n  n j −1 
 p   =  4    −   y tr es la función traza.
  2  j =1 2 2  
Estas distribuciones son de gran importancia para la estimación de matrices covariancia en

estadística multivariada.
Definición
Suponga que G es una matriz p  n , cada columna de la cual se extrae independientemente
de una distribución normal p variada con media cero: Gi = ( gi1 , , gip ) N p ( 0,  ) .
T
Entonces la distribución Wishart es la distribución de probabilidad de la matriz aleatoria

n
p  p : W = GGT =  Gi GiT conocida como la matriz de dispersión. Se dice que
i =1
W Wishart p ( , n ) .
Teorema
Si X tiene distribución Wishart p ( , n ) entonces

E ( X ) = n, Var ( X ij ) = n ( vij2 + vii v jj ) y la moda es ( n − p − 1)  para n  p + 1 .
Propiedad
Sean X1 Wishart p ( n1 ,  ) y X2 Wishart p ( n2 ,  ) independientes, entonces:

X1 + X 2 Wishart p ( n1 + n2 ,  ) .
Estimador Máximo Verosímil para la distribución Wishart
Si X tiene distribución Wishart p ( , n ) entonces el estimador máximo verosímil de  es

X
ˆ = .
n
Distribución de formas cuadráticas
Anteriormente se presentaron algunas formas cuadráticas, ahora se tratan casos más

generales y se dan algunas condiciones para establecer la independencia tanto entre formas
lineales y cuadráticas, como entre formas cuadráticas y ellas mismas. Las formas cuadráticas
resultan en algunos métodos inferenciales tales como la estadística T 2 de Hotelling, análisis
de varianza, como también en el cálculo de distancias, casos en los cuales se debe determinar
su distribución o garantizar el cumplimiento de algunas propiedades, tales como:
1. Distribución. Esta proposición muestra de manera amplia la distribución de formas

cuadráticas ligadas a distribuciones normales.
Sea X un vector de tamaño ( p  1) distribuido N ( 0, I ) . La forma cuadrática X T AX
tiene distribución ji-cuadrado central, con k grados de libertad, si y sólo si, A es una
matriz simétrica e idempotente, de rango k .
2. Independencia entre forma cuadrática y lineal. Sea X un vector de tamaño ( p 1)
con distribución N (  ,  ) .  de rango p . La forma cuadrática X T AX es
independiente de la forma lineal BX , con B matriz de tamaño ( q  p ) , si BA = 0 .
3. Independencia entre formas cuadráticas. Sea X un vector de tamaño ( p 1) con
distribución N (  ,  ) .  de rango p . Las formas cuadráticas X T AX y X T BX son
independientes sí AB = 0 .
4. Valor esperado de una forma cuadrática. Sea X un vector de tamaño ( p  1) con
E ( X ) =  y Cov ( X ) =  . Entonces
E ( X T AX ) = tr ( A ) +  T A
Para cualquier matriz A de tamaño ( p  p ) .
Estimadores Máximo Verosímiles para una distribución N p (  ,  )

Se buscan los valores de  y  que maximizan la probabilidad de que la muestra aleatoria
X 1 , , X n proceda de esa población N p (  ,  ) .
Se tiene una muestra aleatoria de n observaciones obtenida de una distribución N p (  ,  ) ; es
decir X 1 , , X n , con n  p ( cada X i es un vector aleatorio de tamaño ( p  1) ) entonces los
estimadores máximos verosímiles de  y  son:
 X1 
 
1 n  X2 
ˆ =  X i = X =   y
n i =1
 
X 
 p
1 n 
ˆ = S1 =  ( X i − ˆ )( X i − ˆ ) =   ( X ik − X i ) ( X jk − X j )  , i, j = 1,
n
1 T
,p
n i =1  n i =1 
respectivamente.
Propiedades de los estimadores máximos verosímiles de  y 

 2 
En el caso univariado X N  ,  y es independiente de la varianza muestral, siempre
 n 
que la muestra de tamaño n sea obtenida de una distribución normal. De manera similar, el
 X1 
 
1 n  X2 
vector de medias, ˆ =  X i = X =   , tiene distribución normal multivariada y es
n i =1
 
X 
 p
independiente de ̂ .
Suponga que X 1 , , X n son vectores independientes, donde cada uno de los
Xi N p (  ,  ) , i = 1, , n ; en otras palabras, se tiene una muestra aleatoria de una
población normal p variada.
1 n
Como E ( X ) =  E ( X i ) =  , se concluye que X es un estimador insesgado del vector de
n i =1
medias poblacionales  .
Por otro lado, como Cov ( X i ) =  y Cov ( X i , X j ) = 0 para i  j , entonces:
1 n  1  n  1
Cov ( X ) = Cov   X i  = 2  Cov ( X i ) +  Cov ( X i , X j )  =  .
 n i =1  n  i =1 i j  n
De otro lado, se demuestra que:
n −1
( )
E ˆ =
n
 , lo que indica que ̂ es un estimador sesgado de  .
1 n
Por lo tanto, ˆ 1 = S =  ( X i − ˆ )( X i − ˆ ) es un estimador insesgado de  .
T
n − 1 i =1
La media muestral X se puede escribir como una función lineal sobre el vector X , de la
1
forma X T = 1T X , donde X = ( X 1 , , X n ) es la matriz de datos de una población
T
n
N p (  ,  ) y 1 es el vector de unos de tamaño ( n  1) . De acuerdo con las propiedades
 1 
anteriores X N p  ,   .
 n 
La matriz de varianzas covarianzas se puede escribir de la siguiente forma:
1  1 
ˆ = X T  I − 1T1 X
n  n 
 X 11 X 21 X n1   n − 1 − 1 − 1   X 11 X 12 X 1 p 
  n n n   X 21 X 22 X 2 p 
 X 12 X 22 X n 2    
   − 1 n −1 − 1   
ˆ =   n n n  
 1j
X X 2j X nj     X i1 X i2 X ip 
     
  1 1 n −1   
X X X  − −   
 1p 2p np   n n n   X n1 X n 2 X np 
1 1
El vector de medias X T = 1T X es una forma lineal con B = 1T , la matriz de covarianzas
n n
1  1   1 
muestral es una forma cuadrática S = X T  I − 1T1 X , con A =  I − 1T1 . Por una
n −1  n   n 
propiedad anterior, se obtiene que BSA = 0 ; de donde se concluye que X y S son
estadísticas independientes.
Algunas propiedades
1. nˆ Wishart p ( , n − 1)
2. Una propiedad útil para desarrollar pruebas de hipótesis sobre el vector de medias 
es que n ( X −  )  −1 ( X −  )  2 ( p) .
T
3. El teorema del límite central también se aplica en el caso multivariado. Con muestras
D
 1 
grandes X N p   ,   .
 n 
4. X y S son estadísticas suficientes de  y  respectivamente.
5. X y S son estadísticas consistentes de  y  respectivamente.
Contrastes de hipótesis y regiones de confianza sobre 

En el contexto multivariado los contrastes de hipótesis son más complejos que los
 p  p ( p − 1)
univariados. La distribución N p (  ,  ) tiene p medias, p varianzas y   =
2  2
p ( p + 3)
covarianzas, de tal manera que el número total de parámetros es .
2
Matriz de varianzas y covarianzas conocida
Una población
En el caso multivariado, tanto la verificación de hipótesis como la construcción de regiones
de confianza, se basan en que la diferencia entre el vector de medias muestral y el poblacional
está normalmente distribuido con vector de medias cero y matriz de varianzas y covarianzas
conocida. Si n ( X −  ) N ( 0,  ) entonces:
n ( X −  )  −1 ( X −  )  2 ( p)
T
Esta última expresión es la distancia de Mahalanobis o medida de discrepancia entre el vector

de medias muestral y el vector de medias poblacional; con ella se construyen regiones de
confianza y se busca detectar la existencia de posibles diferencias entre el vector de medias
muestral y el vector de medias supuesto. Para verificar la hipótesis H0 :  = 0 , donde 0 es
un vector específico, se usa como región crítica el conjunto de puntos tales que:
 02 = n ( X − 0 )  −1 ( X − 0 )   2 ( , p )
T
Donde  2 ( , p ) , es el número tal que: P   2 ( p )   2 ( , p )  =  .
La función potencia de la prueba dada por  02 = n ( X − 0 )  −1 ( X − 0 )   2 ( , p ) , se

T
deriva del hecho de que n ( X − 0 )  −1 ( X − 0 )  2 ( p,  ) es una ji-cuadrado no central

T
con p grados de libertad parámetro de no centralidad  = n (  − 0 )  −1 (  − 0 ) .

T
APLICACIONES EN R
Se realiza un estudio de análisis de las variables que influyen en los sueldos de los
trabajadores en una empresa.
Las variables a estudiar son la siguientes:
• X1: Sueldo de trabajador en soles

• X2: Tiempo de Servicio del trabajador en años
• X3: Edad del trabajador en años
• X4: Años de estudio
Asumimos que las variables provienen de una Distribución Normal Multivariante.

> #Referenciando el paquete de matrices
> library(MASS)
> #Referenciando el paquete de multivariado
> #install.packages("MVN",dependencies = TRUE )
> library(MVN)
> #Refenciando el paquete para verificar si matriz es definida positiva
> library(matrixcalc)
Definimos una Población Normal Bivariada, verificando que la matriz de varianzas

y covarianzas sea simétrica y definida positiva.
> #----CREANDO LA POBLACION BIVARIADA

> #Numero de variables y cantidad de observaciones
> N = 500000
> p = 2
> n = 50
> #Creando el vector de medias poblacional
> U = matrix(c(2191.149915 ,4.662904),nrow = p, ncol = 1)
> U
[,1]
[1,] 2191.149915
[2,] 4.662904
> #Creando la matriz de varianzas y covarianzas
> V = matrix(c(2711321.073,3083.095,3083.095,19.265652),nrow = p, ncol
= p)
> V
[,1] [,2]
[1,] 2711321.073 3083.09500
[2,] 3083.095 19.26565
> #Validando matriz V sea simetrica y definida postiva

> if (identical(V,t(V))==TRUE) {
+ print("La Matriz es Simétrica")
+ } else {
+ print("La Matriz es No es Simétrica")
+ }
[1] "La Matriz es Simétrica"
> if (is.positive.definite(V) == TRUE ){

+ print("La Matriz es Definida Positiva")
+ } else {
+ print("La Matriz es No es Definida Positiva")
+ }
[1] "La Matriz es Definida Positiva"
Generamos la Población Norma Bivariada de tamaño N = 500000 y mostramos el

histograma de cada una de variables
> # Configuramos la semilla de generación de aleatorios

> set.seed(1)
> #Generamos la población de tamaño N
> T = mvrnorm(N,U, V)
> head(T)
[,1] [,2]
[1,] 3222.6695 10.122491
[2,] 1888.7639 1.899650
[3,] 3567.0967 12.188312
[4,] -435.6548 2.597481
[5,] 1648.5805 3.154567
[6,] 3542.1378 8.609249
> hist(T[,1],main= 'Histograma X1', xlab = 'X1', ylab = 'Densidad',pro

bability = TRUE,breaks = 100)
> lines(density(T[,1]),col="red")
> lines(density(T[,2]),col="blue")
Se observa que el histograma de las variables X1 y X2 de la población corresponde

a una curva normal.
1. Generamos la muestra de tamaño 50 y mostramos las 6 primeras filas:

> set.seed(1)
> M = T[sample(1:N,n,replace=F),]
> head(M)
[,1] [,2]
[1,] 3693.467 2.894912
[2,] 3556.567 2.646271
[3,] 1815.180 4.514337
[4,] 5401.018 8.109380
[5,] 2751.476 13.715344
[6,] 4789.793 8.244346
> hist(M[,1],main= 'Histograma X1', xlab = 'X1', ylab = 'Densidad',pro

> lines(density(M[,1]),col="red")

> lines(density(M[,2]),col="blue")
Nótese que los histogramas de las variables X1 y X2 generan curvas con sesgo casi
central y platicurticas.
2. Vector de medias, matriz de varianza y covarianza, matriz de correlación y

varianza generalizada
> #Vector de medias

> X = colMeans(M)
> X
[1] 2260.339743 3.580762
> #Matriz de covarianza
> S = cov(M)
> S
[,1] [,2]
[1,] 2694302.361 3962.82720
[2,] 3962.827 27.94453
> #Matriz de correlación
> R = cor(M)
> R
[,1] [,2]
[1,] 1.0000000 0.4567027
[2,] 0.4567027 1.0000000
> #Varianza Generalizada
> det(S)
[1] 59587001
Se puede observar que el vector de medias muestral y la varianza muestral se

aproxima a la poblacional.
3. Distancia de Mahalanobis
> #Distancia de Mahalanobis

> d2M = mahalanobis(M,X,S)
> d2M
[1] 1.11520280 0.98856857 0.18762054 3.66137952 4.09522481 2.41491810
2.70910131 0.45073511 0.63122462 1.52050375
[11] 0.08057830 5.37136960 4.22788572 2.94342195 0.29869836 3.43480427
0.84886851 0.22911557 4.51562444 1.75165558
[21] 2.98391768 0.56158553 2.08816149 5.48021547 1.45510552 2.56131254
4.17112404 1.19968343 1.39104025 8.11952927
[31] 0.24971625 2.43437395 0.49110722 1.99030073 0.00900876 2.06269587
3.35918597 1.97441073 0.14127664 1.32462682
[41] 0.49980885 3.83529424 2.42966178 0.79789307 1.48547771 1.75234713
0.15845717 0.52605287 0.04886660 0.94126100
4. Test de Multinormalidad: Método Gráfico
> #Multinormalidad Test gráfico Q-Q Plot

> plot(qchisq(((1:nrow(M)) - 1/2)/nrow(M),df=p),sort( d2M ) )
> abline(a=0, b=1,col="red")
Gráficamente se visualiza que el cuadrado de la distancia de Mahalanobis se ajusta

una distribución Chi2, en consecuencia, es muy probable que la muestra provenga
de una distribución normal multivariada.
5. Test de Multinormalidad: Método Sesgo de Mardia
> mvn(M,subset = NULL,mvn = "mardia", covariance = FALSE,showOutliers =

FALSE)
$multivariateNormality
Test Statistic p value Result
1 Mardia Skewness 1.54300753341728 0.818996887825243 YES
2 Mardia Kurtosis -1.08908015020925 0.276118542449808 YES
3 MVN <NA> <NA> YES
$univariateNormality
Test Variable Statistic p value Normality
1 Shapiro-Wilk Column1 0.9900 0.9467 YES
$Descriptives
n Mean Std.Dev Median Min Max
25th 75th Skew Kurtosis
1 50 2260.339743 1641.433021 2142.05963 -1223.733866 5841.97542 1105.02
6297 3532.06353 0.03492158 -0.6403271
2 50 3.580762 5.286258 3.17326 -7.945419 16.18597 1.24
9477 7.35956 0.08734077 -0.1038849
Es Test indica que la muestra proviene de una distribución normal. Tanto el Test de
Sesgo como el Test de Kurtosis indican que provienen de una distribución normal.
Distribución Normal Multivariante

> #----CREANDO LA POBLACION TETRAVARIADA
> #Numero de variables y cantidad de observaciones
> N = 500000
> p = 4
> n = 250
> f = 0.3
> #Creando el vector de medias poblacional
> U = matrix(c(2191.149915,4.662904,33.434251 ,18.896082 ),nrow = p, n
col = 1)
> U
[,1]
[1,] 2191.149915
[2,] 4.662904
[3,] 33.434251
[4,] 18.896082
> #Creando la matriz de varianzas y covarianzas

> V = matrix( ,nrow = p, ncol = p)
> V[1,1] = 2711321.073
> V[1,2] = 3083.095
> V[1,3] = 7904.764
> V[1,4] = 1503.618
> V[2,1] = 3083.095
> V[2,2] = 19.265652
> V[2,3] = 20.088258
> V[2,4] = 1.881349
> V[3,1] = 7904.764
> V[3,2] = 20.088258
> V[3,3] = 60.720102
> V[3,4] = 4.917222
> V[4,1] = 1503.618
> V[4,2] = 1.881349
> V[4,3] = 4.917222
> V[4,4] = 4.185428
> V
[,1] [,2] [,3] [,4]
[1,] 2711321.073 3083.095000 7904.764000 1503.618000
[2,] 3083.095 19.265652 20.088258 1.881349
[3,] 7904.764 20.088258 60.720102 4.917222
[4,] 1503.618 1.881349 4.917222 4.185428
> #Validando matriz V sea simetrica y definida postiva

> if (identical(V,t(V))==TRUE) {
+ print("La Matriz es Simétrica")
+ } else {
+ print("La Matriz es No es Simétrica")
+ }
[1] "La Matriz es Simétrica"
> if (is.positive.definite(V) == TRUE ){

+ print("La Matriz es Definida Positiva")
+ } else {
+ print("La Matriz es No es Definida Positiva")
+ }
[1] "La Matriz es Definida Positiva"
Se verifica que la matriz de varianza y covarianza simétrica y definida positiva.

Generamos una población normal multivariada de tamaño N = 500000 y mostramos
el histograma de cada una de las variables.
> #Generamos la población de tamaño N
> set.seed(1)
> T = mvrnorm(N,U, V)
> lines(density(T[,1]),col="red")
> lines(density(T[,2]),col="blue")

> lines(density(T[,3]),col="green")
> lines(density(T[,4]),col="yellow")
Observamos que las variables X1, X2, X3 y X4 se ajustan a una curva normal.
6. Genere una muestra aleatoria de tamaño 250
> #----TOMANDO UNA MUESTRA LA POBLACION BIVARIADA

> set.seed(1)
> M = T[sample(1:N,n,replace=F),]
> head(M)
[,1] [,2] [,3] [,4]
[1,] 688.8541 -2.226566 25.05052 17.70339
[2,] 825.7563 2.533415 23.38260 16.32519
[3,] 2567.1176 5.396072 34.89823 19.09926
[4,] -1018.7171 3.638471 22.60512 17.87042
[5,] 1630.7713 9.617298 44.40410 19.04934
[6,] -407.4966 7.333977 24.63084 16.69613


Se observa que las variables X1, X2, X3 y X4 se aproximan a una curva normal sin
llegar a serlo.
7. Vector de medias, matriz de varianza y convarianza, matriz de correlación y

varianza generalizada
> X = colMeans(M)
> X
[1] 2238.18857 4.93132 33.55510 19.01999
> #Matriz de covarianza
> S = cov(M)
> S
[,1] [,2] [,3] [,4]
[1,] 2295195.555 2004.830954 6159.164084 1173.723213
[2,] 2004.831 16.028448 16.120738 1.333562
[3,] 6159.164 16.120738 56.276155 3.513265
[4,] 1173.723 1.333562 3.513265 4.088677
> #Matriz de correlación
> R = cor(M)
> R
[,1] [,2] [,3] [,4]
[1,] 1.0000000 0.3305386 0.5419381 0.3831461
[2,] 0.3305386 1.0000000 0.5367561 0.1647313
[3,] 0.5419381 0.5367561 1.0000000 0.2316100
[4,] 0.3831461 0.1647313 0.2316100 1.0000000
> G = det(S)
> G
[1] 3612572274
El vector de medias y varianza muestral se aproxima a la poblacional.
8. Distancia de Mahalanobis
> #Distancia de Mahalanobis

> d2M = mahalanobis(M,X,S)
> head(d2M)
[1] 3.4515009 2.9854564 0.0552654 5.2213606 4.3882178 5.8336460
9. Test de Multinormalidad: Método Gráfico

> plot(qchisq(((1:nrow(M)) - 1/2)/nrow(M),df=p),sort( d2M ) )
> abline(a=0, b=1,col="red")
Gráficamente se visualiza que el cuadrado de la distancia de Mahalanobis se

aproxima una distribución Chi2, en consecuencia, es muy probable que la muestra
provenga de una distribución normal multivariada.
10. Test de Multinomalidad: Método Sesgo de Mardia

> mvn(M,subset = NULL,mvn = "mardia", covariance = FALSE,showOutliers =
FALSE)
$multivariateNormality
Test Statistic p value Result
1 Mardia Skewness 10.6908018656011 0.953850190417407 YES
2 Mardia Kurtosis -0.976249029472967 0.328941071829227 YES
3 MVN <NA> <NA> YES
$univariateNormality
Test Variable Statistic p value Normality
$Descriptives
n Mean Std.Dev Median Min Max
25th 75th Skew Kurtosis
1 250 2238.18857 1514.990282 2275.283940 -1568.809816 6036.80154 1155.7
74426 3273.49718 -0.007446467 -0.3599870
2 250 4.93132 4.003554 5.282085 -6.573834 16.11905 2.2
27946 7.60682 -0.112476801 -0.2425099
3 250 33.55510 7.501743 33.815368 17.006538 54.88107 28.2
49977 38.63460 0.130933546 -0.3212622
4 250 19.01999 2.022048 19.062111 14.408722 24.41366 17.5
98079 20.52005 0.050267033 -0.5221880
Es Test indica que la muestra proviene de una distribución normal. Tanto en el Test
de Sesgo y el de Test de Kurtosis indica que sí.
11. Contamine el 30% de los datos de la muestra
> #Contaminando el f=30% de la muestra

> a = matrix(,nrow = n*f, ncol = p)
> a[,1] = sample(1:1000,1,replace=FALSE)
> head(a)
[,1] [,2] [,3] [,4]
[1,] 472 3 27 10
[2,] 472 3 27 10
[3,] 472 3 27 10
[4,] 472 3 27 10
[5,] 472 3 27 10
[6,] 472 3 27 10
> #seleccionado las filas a contamina
> set.seed(1)
> i= sample(1:n,n*f,replace=FALSE)
> i
[1] 249 68 167 129 162 215 43 14 210 187 51 225 85 21 106 182 7
4 7 73 79 213 37 105 217 110 165 34 236
[29] 126 89 172 207 33 84 163 70 234 42 166 111 148 156 20 44 12
1 87 245 206 40 220 25 119 198 122 39 179
[57] 230 134 24 160 243 130 45 146 22 115 104 204 183 184 103 75 1
3 202 176
> #Copiamos la matriz de datos
> MC = M
> #Contaminamos
> MC[i,] = M[i,] + a
> #Verificamos la correcta contaminación
> head(MC - M)
[,1] [,2] [,3] [,4]
[1,] 0 0 0 0
[2,] 0 0 0 0
[3,] 0 0 0 0
[4,] 0 0 0 0
[5,] 0 0 0 0
[6,] 0 0 0 0
> hist(MC[,1],main= 'Histograma X1', xlab = 'X1', ylab = 'Densidad',pr
obability = TRUE,breaks = 100)
> lines(density(MC[,1]),col="red")

> lines(density(MC[,2]),col="blue")
> lines(density(MC[,3]),col="red")

> lines(density(MC[,4]),col="blue")
Se puede observar que algunas variables contaminadas son bimodales o
asimétricas, por lo tanto, distan de ser normales.
CONCLUSIONES
• La distribución multivariada es de suma importancia en la estadística, nos

permite observar el comportamiento de los datos, sirve como supuesto
importante para el correcto desarrollo de muchas pruebas estadísticas,
permite una visualización grafica de interpretación rápida, entre muchos otros
usos más.
• En el presente estudio se profundizo un poco en sus propiedades para lograr
entender más la complejidad de las funciones en el programa de R que
permiten desde graficar la distribución hasta identificar si un conjunto de
datos tiene o no la distribución Multivariada.
BIBLIOGRAFÍA
• Porras, J. C. (2016). Comparación de pruebas de normalidad multivariada. In Anales
Científicos (Vol. 77, No. 2, pp. 141-146). Universidad Nacional Agraria La Molina.
• Salazar, E. R., & Simón-Fermín, J. (2016). Un índice de capacidad de procesos para
distribuciones multivariadas normales de variables correlacionadas y no
correlacionadas. Ingeniería Industrial, (034), 57-73.
• Monroy, L. G. D. (2007). Estadística multivariada: inferencia y métodos. Universidad
Nacional de Colombia.

D. Normal Multivariada

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

D. Normal Multivariada

Cargado por

Copyright:

Formatos disponibles

La Distribución Normal Multivariada

Muchos métodos de análisis estadísticos como: el Análisis Multivariado de la Varianza

Para verificar si un conjunto de datos proviene de una distribución normal multivariada se

Aunque existen varias formas de presentar la distribución normal multivariada, se expone a

Considérese el vector  y la matriz A de tamaño ( p  p) . El vector X = AZ +  es tal que

La función generadora de momentos de X es dada por

M X (t ) = exp  ' t M z ( A ' t )

 t '( A ' A)t 

Z N p (0, I ), con Z ' = ( Z1 ,..., Z p ).

Por la independencia entre los Z i , su densidad conjunta es,

Sea X = 1/2 Z +  , entonces por el resultado anterior X N p (  , ) .El vector Z se puede

donde  = ( 1 ,...,  p ) ' y  es una matriz simétrica definida positiva de tamaño p  p.

• Propiedades de la distribución normal multivariada

A continuación, se hace una caracterización muy sucinta sobre la distribución normal p

Determinación. Si un vector aleatorio X p1 , tiene distribución normal multivariante,

5X 2 + 4X3 Normal ( 43,324 )

E ( 4 X 1 − 3 X 2 + 5 X 3 ) = 41 − 32 + 53 = 4  5 − 3  3 + 5  7 = 46

4 X1 − 3 X 2 + 5 X 3 Normal ( 46, 289 )

Marginales. Considérese el vector X particionado como X = ( X (1) , X (2) ) , con

donde 11 es la submatriz superior izquierda de  de tamaño p1  p1 .Si X tiene

Independencia. La matriz de varianzas y covarianzas de un vector aleatorio X p1 , con

De esta propiedad se puede expresar:

La distribución ji-cuadrado no central

La distribución t-Student no central

Sean U1  2 ( n1 ,  ) y U2  2 ( n2 , 0 ) independientes. La variable aleatoria

La distribución de Wishart se asocia con la distribución muestral para estadísticas de la forma

de cuadrados del caso univariado  xi − x . ( )

Un caso particular de la distribución Wishart es la distribución ji-cuadrado central. Recordar

aleatorios Z i son independientes y distribuidos N ( 0,  ) . Cuando  = I p la distribución está

La distribución Wishart es una generalización a múltiples dimensiones de la distribución

Se dice que la variable aleatoria p variada X tiene distribución Wishart p ( , n ) con

Estas distribuciones son de gran importancia para la estimación de matrices covariancia en

Entonces la distribución Wishart es la distribución de probabilidad de la matriz aleatoria

Si X tiene distribución Wishart p ( , n ) entonces

Sean X1 Wishart p ( n1 ,  ) y X2 Wishart p ( n2 ,  ) independientes, entonces:

Estimador Máximo Verosímil para la distribución Wishart

Si X tiene distribución Wishart p ( , n ) entonces el estimador máximo verosímil de  es

Distribución de formas cuadráticas

Anteriormente se presentaron algunas formas cuadráticas, ahora se tratan casos más

1. Distribución. Esta proposición muestra de manera amplia la distribución de formas

Para cualquier matriz A de tamaño ( p  p ) .

Estimadores Máximo Verosímiles para una distribución N p (  ,  )

Propiedades de los estimadores máximos verosímiles de  y 

Contrastes de hipótesis y regiones de confianza sobre 

Esta última expresión es la distancia de Mahalanobis o medida de discrepancia entre el vector

La función potencia de la prueba dada por  02 = n ( X − 0 )  −1 ( X − 0 )   2 ( , p ) , se

deriva del hecho de que n ( X − 0 )  −1 ( X − 0 )  2 ( p,  ) es una ji-cuadrado no central

con p grados de libertad parámetro de no centralidad  = n (  − 0 )  −1 (  − 0 ) .

• X1: Sueldo de trabajador en soles

Asumimos que las variables provienen de una Distribución Normal Multivariante.

Definimos una Población Normal Bivariada, verificando que la matriz de varianzas

> #----CREANDO LA POBLACION BIVARIADA

> #Validando matriz V sea simetrica y definida postiva

> if (is.positive.definite(V) == TRUE ){

Generamos la Población Norma Bivariada de tamaño N = 500000 y mostramos el

> # Configuramos la semilla de generación de aleatorios

> hist(T[,1],main= 'Histograma X1', xlab = 'X1', ylab = 'Densidad',pro

Se observa que el histograma de las variables X1 y X2 de la población corresponde

1. Generamos la muestra de tamaño 50 y mostramos las 6 primeras filas:

> hist(M[,1],main= 'Histograma X1', xlab = 'X1', ylab = 'Densidad',pro

> hist(M[,2],main= 'Histograma X2', xlab = 'X2', ylab = 'Densidad',pro

2. Vector de medias, matriz de varianza y covarianza, matriz de correlación y