Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dialnet ComparacionDePruebasDeNormalidadMultivariada 6171231 PDF
Dialnet ComparacionDePruebasDeNormalidadMultivariada 6171231 PDF
1
Jaime Carlos Porras Cerron
Resumen
La distribución Normal Multivariada es utilizada como supuesto de muchos análisis estadísticos paramétricos tales
como: MANOVA, Análisis Discriminante Lineal, Análisis de Componentes Principales, Correlación Canónica, entre
otras. Es importante verificar el cumplimiento de este supuesto para que los resultados obtenidos con los métodos
mencionados tengan validez. En la literatura estadística, existen diferentes pruebas que permiten verificar la normalidad
multivariada. Sin embargo, aun no se ha estudiado lo suficiente, los criterios para determinar cuál es la prueba más
adecuada que se debe utilizar bajo ciertas condiciones como: tamaño de muestra, número de variables, variabilidad
conjunta. En la investigación se utilizó simulación de Monte Carlo para la comparación de cuatro pruebas de normalidad
multivariada que son: Mardia, Henze-Zinkler, Shapiro-Wilk Generalizada y Royston. Se determinó que no existen
diferencias significativas en la potencia de las pruebas consideradas en la presente investigación. Por otro lado, la
implementación de las comparaciones se hizo con ayuda del programa estadístico R.
Palabras clave: Normalidad Multivariada, Simulación de Monte Carlo, Variabilidad total, Prueba de Mardia, Prueba
de Henze-Zirkler, Prueba de Royston, Prueba de Shapiro Wilk Generalizada.
Abstract
The Multivariate Normal distribution is used as a course of many parametric statistical analyzes such as: MANOVA,
Linear Discriminant Analysis, Principal Components Analysis, Canonical Correlation, among others. It is important to
verify compliance with this course for the results obtained with the above methods are valid. In the statistical literature,
there are different tests to verify multivariate normality. However, it has not yet been studied enough, the criteria to
determine the most appropriate test to be used under certain conditions such as sample size, number of variables, joint
variability. Mardia, Henze-Zinkler, Shapiro-Wilk Pervasive and Royston: Monte Carlo simulation for comparison of
four tests of multivariate normality that are used in research. It was determined that there are no significant differences
in the strength of the evidence considered in this investigation. Furthermore, the implementation of comparisons made
using the statistical program R.
Keywords: Multivariate Normality, Monte Carlo Simulation, Total Variability, Mardia test, test-Zirkler Henze, Royston
test, Shapiro Wilk test Generalized.
1. Introducción confiables.
Muchos métodos de análisis estadísticos como: el Para verificar si un conjunto de datos proviene de una
Análisis Multivariado de la Varianza (MANOVA), el distribución normal multivariada se puede hacer uso
Análisis Discriminante Lineal (ADL), el Análisis de de gráficos (procedimientos descriptivos) o de pruebas
Componentes Principales (ACP), Correlación Canónica estadísticas (procedimientos inferenciales).Si bien
(CC), entre otros, requieren el cumplimiento del supuesto es cierto que los métodos gráficos son más fáciles de
de normalidad multivariada. Si los datos provienen interpretar, las pruebas estadísticas nos permiten una
de una distribución normal multivariada (exacta o mejor generalización de los resultados.
aproximadamente), los métodos antes mencionados La presente investigación tiene como principal objetivo
podrían brindar resultados confiables. Caso contrario, comparar cuatro pruebas estadísticas que permiten
el rendimiento de los métodos podría disminuir evaluar si un conjunto de datos se ajusta a una distribución
dramáticamente, es decir sus resultados no serian normal multivariada. Las pruebas a utilizar son: Mardia,
1
Departamento de Estadística e Informática, Facultad de Economia y Planificacion. UNALM. E-mail: jaimepc@lamolina.edu.pe
141
Jaime Carlos Porras Cerron
Anales Científicos Vol. 77 No 2, pp. 141-146
Henze-Zinkler, Shapiro-Wilk Generalizada y Royston. datos (varianza generalizada). Para los datos simulados,
La potencia de prueba es el concepto que nos puede se considerará un vector de medias igual a cero, dado que
ayudar a elegir cuál es la mejor prueba en diferentes lo que se desea es priorizar la evaluación de la variabilidad
escenarios propuestos determinados según el tamaño de de los datos.
la muestra, el número de variables de la matriz de datos y Por ejemplo, si se fijan las siguientes características de
la variabilidad total de los datos. un conjunto de datos: 50 observaciones, 8 variables y con
La obtención de la potencia de prueba que permite una varianza generalizada de 5. Este tipo de conjunto de
comparar estas pruebas se realizará a través de datos por simulación de Monte Carlo se repite r veces y
simulación de Monte Carlo mediante la elaboración en cada una de las repeticiones se evalúan las diferentes
de procedimientos obtenidos con ayuda del programa pruebas estadísticas de interés.
estadístico R. Los paquetes MVN y mvShapiroTest del R fueron
utilizados para obtener los resultados de la evaluación a los
datos generados de las diferentes pruebas de normalidad
2. Revisión de Literatura
multivariada considerados en el presente estudio.
Existen diversos procedimientos (gráficos y pruebas
Finalmente, se elaboraron funciones (ver anexo) que
estadísticas) para verificar la normalidad multivariada.
permitan evaluar la potencia de las diferentes pruebas de
Burdenski (2000) evaluó algunos procedimientos normalidad multivariada consideradas.
univariados como: gráfico Q-Q, diagrama de cajas,
En la tabla 1, se presenta una breve descripción de los
diagrama de tallos y hojas. También utilizó otros gráficos
conjuntos de datos que serán simulados. Para cada
bivariados como: contorno, perspectiva y Chi cuadrado
escenario propuesto, se indica: el tamaño de la muestra
Q-Q. Asimismo, hizo uso de pruebas univariadas de
(n), el número de variables (p) y la variabilidad total de
Shapiro- Wilk y Kolmogorov-Smirnov.
los datos (VT).
Svantesson y Wallace (2003) aplicaron las pruebas de
Royston y Henze-Zirkler a conjuntos de datos simulados
con diferentes características. Tabla 1. Descripción de la estructura de los datos
simulados.
De acuerdo a lo revisado por Mecklin y Mundfrom (2005),
más de cincuenta métodos estadísticos están disponibles Escenario n p VT
para verificar si un conjunto de datos proviene de una 1 1
distribución normal multivariada. 3
2 144
Holgersson (2006) resaltó la importancia de los 30
3 1
procedimientos gráficos, y presentó una herramienta 7
gráfica simple basada en el diagrama de dispersión de 4 144
dos variables correlacionadas que permite verificar si 5 1
3
los datos provienen o no de una distribución normal 6 144
multivariada. 100
7 1
Ramzan et al. (2013) aplicaron a datos reales los gráficos 7
8 144
Chi- Cuadrado y beta Q-Q para verificar la normalidad
9 1
univariada y multivariada. 3
10 144
Como se puede apreciar, existen muy pocos trabajos de 500
investigación que permiten comparar diferentes pruebas 11 1
7
de normalidad multivariada mediante su potencia de 12 144
prueba. 13 1
3
14 144
1000
3. Materiales y métodos 15 1
7
16 144
Materiales Fuente: Elaboración propia
Para realizar la aplicación del presente trabajo de
investigación, se utilizaron diferentes funciones del En cada escenario, se estimará la potencia de prueba de
programa estadístico R versión 3.2.2. las diferentes pruebas de normalidad multivariada.
La función mvrnorm del paquete MASS permite la
generación pseudoaleatoria de datos provenientes de una
Métodos
distribución normal multivariada.
A continuación, se describen los aspectos teóricos de las
La idea es generar diferentes escenarios. Estos escenarios
diferentes pruebas de normalidad multivariada utilizadas
implican que los conjuntos de datos presenten distintas
en la presente investigación.
características que incluyen: el tamaño de la muestra (n),
el número de variables (p) y la variabilidad total de los
142
COMPARACIÓN DE PRUEBAS DE NORMALIDAD MULTIVARIADA
Julio-Diciembre 2016
• Prueba de Mardia
Mardia (1970) propuso una prueba de normalidad p
2
4
1 + pb + ( p ( p + 2 ) b )
−
a 2 a
multivariada la cual está basada en la extensión de la
^ m= 1−
asimetría γ^ y curtosis γ 2. p 2a 2
1. p
p 2a − p (1 + 2 pb 4 ) 3 p ( p + 2 ) b 8 −
p
3 pb 4 p ( p + 2 ) b
8
1 n n 1 n 2 (1 + 4 b 2 ) 2 +
−
^ ^ σ2 = + − 4ϖ b 2 1 + +
γ 1. p = 2 ∑∑ mij3 γ 2. p = ∑ mii2 2ϖ 2ϖ b
2 4 2
Donde: a 4a
(1) b
n =i 1 =j 1 n i =1
(1 + b 2 )(1 + 3b 2 ) . La media
a = 1 + 2b 2 y ϖ b =
y varianza log normalizada del estadístico HZ puede ser
Donde mij = ( ) (
−1
)
xi − x ´S xi − x es la distancia al
cuadrado de Mahalanobis y p es el número de variables.
definido de la siguiente manera:
^
La prueba estadística para la asimetría ( n 6 ) γ 1. p se m4 2 2
log ( m ) = log 2 2 y log (σ 2 ) = log σ + m (3)
distribuye aproximadamente como una Chi Cuadrado σ +m σ 2
con p ( p + 1)( p + 2 ) 6 grados de libertad.
^ Similarmente
la prueba estadística para la curtosis γ 2. p se distribuye Usando la distribución lognormal con parámetros µ
aproximadamente normal con media p ( p + 2 ) y varianza y σ, se puede probar la significancia de la normalidad
8 p ( p + 2) n . multivariada. La prueba de Wald para la normalidad
multivariada es dada por:
• Prueba de Henze-Zirkler log( HZ ) − log ( m )
z=
La prueba de Henze-Zirkler está basada en la distancia log (σ )
funcional no negativa, la cual mide la distancia entre
dos funciones de distribución. Si los datos presentan una • Prueba de Royston
distribución normal multivariada, la prueba estadística La prueba de Royston usa la estadística Shapiro-Wilk /
se distribuye aproximadamente como una lognormal. Shapiro-Francia para probar la normalidad multivariada.
Primero, la media, varianza y el parámetro de suavización Si la curtosis es mayor a 3, entonces se usa la prueba
son calculados. Entonces, la media y la varianza son de Shapiro-Francia para distribuciones leptocurticas.
lognormalizados y el pvalor es estimado. La prueba Mientras que se usa la prueba de Shapiro-Wilk para
estadística de normalidad multivariada de Henze-Zirkler distribuciones platicurticas.
es:
Si Wj es la prueba estadística de Shapiro-Wilk/Shapiro –
2 −
b2
D Francia para la j-ésima variable (j=1,2,..,p) y Zj son los
1 n n − b2 Dij p n
2(1+ b 2 )
i p
=HZ ∑∑
n=i 1 =j 1
e − 2 ( ) ∑
1 + b 2 −2
e + n ( )
1 + 2 b 2 −2
(2) valores obtenidos de la transformación para normalidad,
entonces:
=i 1
Donde:
Si 4≤ n ≤ 11; x = n y ϖj = -log[γ-log(1-Wj)]
p : Número de variables.
Si 12≤ n ≤ 2000; x = log(n) y ϖj = log(1-Wj) (5)
1
1 n ( 2 p + 1) p+4
b=
2 4 Como se ha visto, x y ϖj cambian debido al tamaño de
la muestra n. Usando ecuación 5 transforma los valores
de cada variable aleatorio, obteniéndose la siguiente
( xi − x j )´S −1 ( xi − x j )
Dij = ecuación:
wj − m
z=
σ
( ) (
Di = xi − x ´S −1 xi − x = mii ) Dondeγ, µ y σ son derivados de la siguiente aproximación
polinomial:
En la expresión 2, Di es la distancia al cuadrado de γ = a0γ + a1γ x + a2γ x 2 + + adγ x d
Mahalanobis de la i-ésima observación al centroide y Dij
es la distancia de Mahalanobis entre la i-ésima y j-ésima
m = a0 m + a1m x + a2 m x 2 + + ad m x d
observación. Si los datos son normales multivariados el log (σ ) = a0σ + a1σ x + a2σ x 2 + + adσ x d
estadístico HZ es aproximadamente lognormal con media
µ y varianza σ2 dado por: La prueba estadística de Royston para normalidad
univariada es dada por: e p ψ
∑ j j =1
H= ~ χ e2
p
143
Jaime Carlos Porras Cerron
Anales Científicos Vol. 77 No 2, pp. 141-146
4. Resultados
Donde e es el equivalente grados de libertad y Φ (⋅) es Para la determinación de la mejor prueba, se consideró la
la función de distribución acumulada de la distribución potencia de prueba, y para la obtención de este valor se
normal estándar tal que: implementó una función en R (ver anexo).
e= p 1 + ( p − 1) c Asimismo, para no favorecer a ninguna de las pruebas
estadísticas se realizaron 100 repeticiones para cada uno
c = ∑∑
cij
{c }
ij i ≠ j
Tabla 2. Potencia de Prueba para p=3 y VT=1
i j p ( p − 1) Prueba de Tamaño de Muestra
Normalidad 30 100 500 1000
Donde g ( r , n ) si i ≠ j Mardia 0.96 0.98 0.96 0.94
cij = ij
1 si i = j Shapiro -Wilk 0.93 0.97 0.94 0.95
HZ 0.94 0.96 0.97 0.96
Con los límites de g ( ⋅) como g ( 0, n ) = 0 y Royston 0.92 0.95 0.93 0.94
g (1, n ) = 1 . La función g ( ⋅) es definida de la siguiente Fuente: Elaboración propia
manera:
m m
g ( r , n ) = r λ 1 − (1 − r )
ν
1.0
ν (n) =
0.21364 + 0.015124 x 2 − 0.0018034 x3 Mardia.test
0.2
Shapiro.test
Donde x=log(n) HZ.test
0.0
Royston.test
Si la hipótesis nula H0: X1, …Xn es una muestra de NP(µ, Tabla 3. Potencia de Prueba para p=3 y VT=144
Σ) donde µ y Σ son desconocidos, se propone la siguiente Prueba de Tamaño de Muestra
prueba estadística: Normalidad
p
1 30 100 500 1000
W* = ∑WZ
p i =1 i Mardia 0.98 0.98 0.98 0.92
Shapiro -Wilk 0.95 0.98 0.96 0.94
Donde WZ es el estadístico Shapiro-Wilk evaluado en
i
la i-ésima coordenada de la observación transformada HZ 0.97 0.93 0.94 0.93
Zi1,…,Zin i=1,…,p. Royston 0.93 0.98 0.96 0.92
*
La prueba basada en W rechaza H0 en una prueba Fuente: Elaboración propia
*
de tamaño α si W < ca ;n , p donde ca ;n , p satisface la
ecuación:
=a P {W * < ca ;n , p / H 0 es verdadero}
144
COMPARACIÓN DE PRUEBAS DE NORMALIDAD MULTIVARIADA
Julio-Diciembre 2016
Tamaño de muestra
Gráfico 4: Potencia de Prueba para p=7 y VT=144.
1.0
Para la obtención de estos dos primeros resultados se
Eficiencia de prueba
0.8
ha considerado en la simulación pocas variables (p=3).
La diferencia fundamental de los escenarios radica en la
0.6
variabilidad generalizada que se ha tomado en cuenta.
Esta variabilidad generalizada está definida como el 0.4
determinante de la matriz de covarianza.
0.2
Mardia.test
Shapiro.test
Se puede observar que no existen diferencias significativas HZ.test
0.0
Royston.test
entre las pruebas de normalidad multivariada analizadas 0 200 400 600 800 1000
para los distintos tamaños de muestra. Tamaño de muestra
Shapiro.test
HZ.test
Royston.test
consideradas en el estudio y la variabilidad generalizada.
En esta investigación, se utilizaron 16 escenarios.
0 200 400 600 800 1000
Se consideraron dos niveles de variabilidad, los cuales
Tamaño de muestra
numéricamente fueron establecidos por el determinante
de la matriz de covarianza. Sin embargo, no se encontraron
Gráfico 3. Potencia de Prueba para p=7 y VT=1.
diferencias significativas entre las pruebas en estudio.
Fuente: Elaboración propia
Para generar las matrices de covarianza, se asumió
independencia entre las variables. Lo que implica que
145
Jaime Carlos Porras Cerron
Anales Científicos Vol. 77 No 2, pp. 141-146
146