41 Normality

También podría gustarte

Está en la página 1de 3

Pruebas de normalidad

Una forma menos subjetiva de explorar la normalidad de un conjunto de datos es por medio de las pruebas
de normalidad. Las hipótesis para este tipo de pruebas son:

H0 : la muestra proviene de una población normal.


(1)
HA : la muestra NO proviene de una población normal.

En la literatura estadística se reportan varias pruebas, algunas de ellas se listan a continuación.

1. Prueba Shapiro-Wilk con la función shapiro.test.


2. Prueba Anderson-Darling con la función ad.test del paquete nortest.
3. Prueba Cramer-von Mises con la función cvm.test del paquete nortest.
4. Prueba Lilliefors (Kolmogorov-Smirnov) con la función lillie.test del paquete nortest.
5. Prueba Pearson chi-square con la función pearson.test del paquete nortest.
6. Prueba Shapiro-Francia con la función sf.test del paquete nortest).

Ejemplo con datos simulados

Generar una muestra aleatoria con n = 100 de una N (150, 25) y aplicar las pruebas de normalidad Shapiro-
Wilk y Anderson-Darling con un nivel de significancia del 3%.
Lo primero es generar la muestra aleatoria x así:

x <- rnorm(n=100, mean=150, sd=5)

Para aplicar la prueba Shapiro-Wilk se usa la función shapiro.test al vector x así:

shapiro.test(x)

##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.98635, p-value = 0.3954

De la salida anterior se tiene que el valor-P para la prueba fue de 0.4 y que es mayor al nivel de significancia
3%, lo cual indica que no hay evidencias para rechazar la hipótesis nula de normalidad.
Para aplicar la prueba Anderson-Darling se usa la función ad.test al vector x así:

require(nortest) # Se debe haber instalado nortest


ad.test(x)

##
## Anderson-Darling normality test
##
## data: x
## A = 0.35754, p-value = 0.4479

De la salida anterior se tiene que el valor-P para la prueba fue de 0.4 y que es mayor al nivel de significancia
3%, esto indica que no hay evidencias para rechazar la hipótesis nula de normalidad.

1
Ejemplo normalidad para peso corporal

Retomando la base de datos medidas del cuerpo presentada en el Capítulo @ref(central), se desea saber si
el peso corporal, tanto de hombres y mujeres, tiene una distribución normal usando las pruebas normalidad
Shapiro-Wilks y Anderson-Darling con un nivel de significancia del 5%.
Lo primero es cargar la base de datos si aún no se ha cargado.

url <- 'https://raw.githubusercontent.com/fhernanb/datos/master/medidas_cuerpo'


datos <- read.table(file=url, header=T)

La variable peso del objeto datos contiene la información sobre el peso corporal de ambos sexos, debemos
entonces partir o dividir esta información diferenciando entre hombres y mujeres, para esto usamos la función
split de la siguiente forma.

pesos <- split(datos$peso, datos$sexo)


pesos

## $Hombre
## [1] 87.3 80.0 82.3 73.6 74.1 85.9 73.2 76.3 65.9 90.9 89.1 62.3 82.7 79.1 98.2
## [16] 84.1 83.2 83.2
##
## $Mujer
## [1] 51.6 59.0 49.2 63.0 53.6 59.0 47.6 69.8 66.8 75.2 55.2 54.2 62.5 42.0 50.0
## [16] 49.8 49.2 73.2

Para aplicar la prueba Shapiro-Wilk se usa la función shapiro.test. Como el objeto pesos es una lista se
debe usar la función lapply para aplicar shapiro.test a la lista, a continuación el código usado.

lapply(pesos, shapiro.test)

## $Hombre
##
## Shapiro-Wilk normality test
##
## data: X[[i]]
## W = 0.97803, p-value = 0.9274
##
##
## $Mujer
##
## Shapiro-Wilk normality test
##
## data: X[[i]]
## W = 0.94709, p-value = 0.3812

De la salida anterior se observa que ambos valores-P fueron mayores al nivel de significancia 5%, por lo
tanto, se puede concluir que ambas muestras provienen de poblaciones con distribución normal.
Para aplicar la prueba Anderson-Darling se usa la función ad.test del paquete nortest. Como el objeto
pesos es una lista se debe usar la función lapply para aplicar ad.test a la lista, a continuación el código
usado.

2
require(nortest) # Se debe haber instalado nortest
lapply(pesos, shapiro.test)

## $Hombre
##
## Shapiro-Wilk normality test
##
## data: X[[i]]
## W = 0.97803, p-value = 0.9274
##
##
## $Mujer
##
## Shapiro-Wilk normality test
##
## data: X[[i]]
## W = 0.94709, p-value = 0.3812

De la salida anterior se observa que ambos valores-P fueron mayores al nivel de significancia 5%, por lo
tanto, se puede concluir que ambas muestras provienen de poblaciones con distribución normal.
Al usar las pruebas Shapiro-Wilks y Anderson-Darling se concluye que no hay evidencias para pensar que
los pesos corporales de hombres y mujeres no provienen de una población normal.

EJERCICIOS

1. Para la base de datos medidas del cuerpo presentada en el Capítulo @ref(central), explorar si la
variable estatura, diferenciada por hombres y mujeres, tiene una distribución normal.

También podría gustarte