41 Normality

Pruebas de normalidad
Una forma menos subjetiva de explorar la normalidad de un conjunto de datos es por medio de las pruebas
de normalidad. Las hipótesis para este tipo de pruebas son:
H0 : la muestra proviene de una población normal.

(1)
HA : la muestra NO proviene de una población normal.
En la literatura estadística se reportan varias pruebas, algunas de ellas se listan a continuación.
1. Prueba Shapiro-Wilk con la función shapiro.test.

2. Prueba Anderson-Darling con la función ad.test del paquete nortest.
3. Prueba Cramer-von Mises con la función cvm.test del paquete nortest.
4. Prueba Lilliefors (Kolmogorov-Smirnov) con la función lillie.test del paquete nortest.
5. Prueba Pearson chi-square con la función pearson.test del paquete nortest.
6. Prueba Shapiro-Francia con la función sf.test del paquete nortest).
Ejemplo con datos simulados
Generar una muestra aleatoria con n = 100 de una N (150, 25) y aplicar las pruebas de normalidad Shapiro-
Wilk y Anderson-Darling con un nivel de significancia del 3%.
Lo primero es generar la muestra aleatoria x así:
x <- rnorm(n=100, mean=150, sd=5)
Para aplicar la prueba Shapiro-Wilk se usa la función shapiro.test al vector x así:
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.98635, p-value = 0.3954
De la salida anterior se tiene que el valor-P para la prueba fue de 0.4 y que es mayor al nivel de significancia
3%, lo cual indica que no hay evidencias para rechazar la hipótesis nula de normalidad.
Para aplicar la prueba Anderson-Darling se usa la función ad.test al vector x así:
require(nortest) # Se debe haber instalado nortest

ad.test(x)
##
## Anderson-Darling normality test
##
## data: x
## A = 0.35754, p-value = 0.4479
De la salida anterior se tiene que el valor-P para la prueba fue de 0.4 y que es mayor al nivel de significancia
3%, esto indica que no hay evidencias para rechazar la hipótesis nula de normalidad.
1
Ejemplo normalidad para peso corporal
Retomando la base de datos medidas del cuerpo presentada en el Capítulo @ref(central), se desea saber si
el peso corporal, tanto de hombres y mujeres, tiene una distribución normal usando las pruebas normalidad
Shapiro-Wilks y Anderson-Darling con un nivel de significancia del 5%.
Lo primero es cargar la base de datos si aún no se ha cargado.
url <- 'https://raw.githubusercontent.com/fhernanb/datos/master/medidas_cuerpo'

datos <- read.table(file=url, header=T)
La variable peso del objeto datos contiene la información sobre el peso corporal de ambos sexos, debemos
entonces partir o dividir esta información diferenciando entre hombres y mujeres, para esto usamos la función
split de la siguiente forma.
pesos <- split(datos$peso, datos$sexo)

pesos
## $Hombre
## [1] 87.3 80.0 82.3 73.6 74.1 85.9 73.2 76.3 65.9 90.9 89.1 62.3 82.7 79.1 98.2
## [16] 84.1 83.2 83.2
##
## $Mujer
## [1] 51.6 59.0 49.2 63.0 53.6 59.0 47.6 69.8 66.8 75.2 55.2 54.2 62.5 42.0 50.0
## [16] 49.8 49.2 73.2
Para aplicar la prueba Shapiro-Wilk se usa la función shapiro.test. Como el objeto pesos es una lista se
debe usar la función lapply para aplicar shapiro.test a la lista, a continuación el código usado.
lapply(pesos, shapiro.test)
## $Hombre
##
##
## data: X[[i]]
## W = 0.97803, p-value = 0.9274
##
##
## $Mujer
##
##
## data: X[[i]]
## W = 0.94709, p-value = 0.3812
De la salida anterior se observa que ambos valores-P fueron mayores al nivel de significancia 5%, por lo
tanto, se puede concluir que ambas muestras provienen de poblaciones con distribución normal.
Para aplicar la prueba Anderson-Darling se usa la función ad.test del paquete nortest. Como el objeto
pesos es una lista se debe usar la función lapply para aplicar ad.test a la lista, a continuación el código
usado.
2
require(nortest) # Se debe haber instalado nortest
lapply(pesos, shapiro.test)
## $Hombre
##
##
## data: X[[i]]
## W = 0.97803, p-value = 0.9274
##
##
## $Mujer
##
##
## data: X[[i]]
## W = 0.94709, p-value = 0.3812
De la salida anterior se observa que ambos valores-P fueron mayores al nivel de significancia 5%, por lo
tanto, se puede concluir que ambas muestras provienen de poblaciones con distribución normal.
Al usar las pruebas Shapiro-Wilks y Anderson-Darling se concluye que no hay evidencias para pensar que
los pesos corporales de hombres y mujeres no provienen de una población normal.
EJERCICIOS
1. Para la base de datos medidas del cuerpo presentada en el Capítulo @ref(central), explorar si la
variable estatura, diferenciada por hombres y mujeres, tiene una distribución normal.

41 Normality

Cargado por

Copyright:

Formatos disponibles

También podría gustarte

41 Normality

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

41 Normality

Cargado por

Copyright:

Formatos disponibles

Pruebas de normalidad

H0 : la muestra proviene de una población normal.

En la literatura estadística se reportan varias pruebas, algunas de ellas se listan a continuación.

1. Prueba Shapiro-Wilk con la función shapiro.test.

Ejemplo con datos simulados

x <- rnorm(n=100, mean=150, sd=5)

Para aplicar la prueba Shapiro-Wilk se usa la función shapiro.test al vector x así:

require(nortest) # Se debe haber instalado nortest

url <- 'https://raw.githubusercontent.com/fhernanb/datos/master/medidas_cuerpo'

pesos <- split(datos$peso, datos$sexo)

También podría gustarte