Está en la página 1de 6

Universidad del Bio-Bío

Facultad de Ciencias
Departamento de Estadística
JPH
APUNTE N°1
MÉTODOS NO PARAMÉTRICOS

Temas: Pruebas de Normalidad (parte 1)

Prueba de Normalidad de Kolmogórov-Smirnov

Esta prueba considera la siguiente prueba de hipótesis:

𝐻0 : Los datos analizados siguen una distribución 𝑓(𝑥).


𝐻1 : Los datos analizados no siguen una distribución 𝑓(𝑥).

El estadístico de prueba para verificar esta prueba es dado por

𝑖 𝑖−1
𝐷 = máx {| − 𝐹0 (𝑥𝑖 )| , |𝐹0 (𝑥𝑖 ) − |} = máx {𝐷+ , 𝐷− }
1≤𝑖≤𝑛 𝑛 𝑛 1≤𝑖≤𝑛

Donde:

𝑥𝑖 : es la observación i-ésima, ordenada previamente de menor a mayor.

𝐹0 (𝑥𝑖 ) = 𝑃(𝑋 ≤ 𝑥𝑖 ), es la probabilidad de obtener un valor menor o igual a la observación i-ésima,


si la hipótesis nula es cierta.

De acuerdo a esto, si esta discrepancia entre el orden de los datos y la probabilidad es pequeña,
generará en consecuencia un D pequeño, por lo tanto, con mayor chance de no-rechazar la
hipótesis nula, y por el contrario, si las diferencias son cada vez mayores, un valor mayor de D hará
eventualmente que la hipótesis nula se rechace.

Luego, para un nivel de significancia 𝛼, se tiene la siguiente regla de decisión:

Si 𝐷 ≤ 𝐷𝛼 , no se rechaza 𝐻0
Si 𝐷 > 𝐷𝛼 , se rechaza 𝐻0
𝐶𝛼
Con 𝐷𝛼 =
𝑘(𝑛)
Los valores de 𝐷𝛼 se obtienen dependiendo de la distribución de probabilidades que se desee
evaluar:

Observación: para generar los datos de 𝐷𝛼 no considera la distribución en particular que se está
evaluando.

Luego el 𝑘(𝑛) se obtiene como:


Ejemplo 1.

Determine si la siguiente muestra de una variable Y {6.0, 2.3, 4,8, 5.6, 4.5, 3.4, 3,3, 1.9, 4,8, 4.5} se
distribuye normal con parámetros 𝜇𝑦 = 4 y 𝜎𝑦2 = 2.1.

Solución:

𝐻0 : 𝑌 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒 𝑁(4; 2.1)


𝐻1 : : 𝑌 𝑛𝑜 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒 𝑁(4; 2.1)

A partir de la muestra aleatoria, se obtiene el siguiente resultado:

y y_ORD orden F Z F0 D+ D-
6 1.9 1 0.1 -1.449 0.0736 0.026 0.074
2.3 2.3 2 0.2 -1.173 0.1204 0.080 0.020
4.8 3.3 3 0.3 -0.483 0.3145 -0.015 0.115
5.6 3.4 4 0.4 -0.414 0.3394 0.061 0.039
4.5 4.5 5 0.5 0.345 0.6350 -0.135 0.235
3.4 4.5 6 0.6 0.345 0.6350 -0.035 0.135
3.3 4.8 7 0.7 0.552 0.7095 -0.010 0.110
1.9 4.8 8 0.8 0.552 0.7095 0.090 0.010
4.8 5.6 9 0.9 1.104 0.8652 0.035 0.065
4.5 6 10 1 1.380 0.9162 0.084 0.016

𝐷 = máx {𝐷+ , 𝐷− } = 0.235


1≤𝑖≤𝑛

Considerando un 𝛼 = 0.05, se tiene que


0.895 0.895 0.895
𝐷𝛼 = = = = 0.262
𝑘(𝑛) 0.85 3.42
√10 − 0.01 +
√10

Luego, como 𝐷 = 0.235 < 0.262, no se puede rechazar 𝐻0 .


Prueba de Normalidad de Anderson-Darling

Esta prueba de normalidad no-paramétrica considera la siguiente prueba de hipótesis:

𝐻0 : Los datos analizados siguen una distribución 𝑓(𝑥).


𝐻1 : Los datos analizados no siguen una distribución 𝑓(𝑥).

El estadístico de prueba para verificar esta prueba es dado por


𝑛
2
1
𝐴 = −𝑛 − 𝑆 = −𝑛 − ∑(2𝑖 − 1)[ln 𝐹0 (𝑥𝑖 ) + ln(1 − 𝐹0 (𝑥𝑛+1−𝑖 ))]
𝑛
𝑖=1

Donde:

𝑥𝑖 : es la observación i-ésima, ordenada previamente de menor a mayor.

𝐹0 (𝑥𝑖 ) = 𝑃(𝑋 ≤ 𝑥𝑖 ), es la probabilidad de obtener un valor menor o igual a la observación i-ésima,


si la hipótesis nula es cierta

𝑛: es el tamaño de la muestra

Este test es una versión modificada del test K-S, otorgando mayor peso a las colas de la distribución
sometida a prueba. A diferencia del test K-S, el test de Anderson-Darling si usa las distribuciones
en particular para calcular los valores críticos de su distribución propia y así poder tomar mejor la
decisión. Ahora para el test de normalidad, podemos distinguir cuatro situaciones:

Caso 0: La media 𝜇 y la varianza 𝜎 2 son ambas conocidas.


Caso 1: La varianza 𝜎 2 es conocida, pero la media es desconocida.
Caso 2: La media 𝜇 es conocida, pero la varianza es desconocida.
Caso 3: Tanto la media como la varianza son desconocidas.

En primer lugar, los datos de la muestra se deben ordenar de menor a mayor de tal manera de
obtener una secuencia. En segundo lugar, sean

μ, si la media es conocida
𝜇̂ = {
x̅, si la media es desconocida

σ2 , si la varianza es conocida.
𝜎̂ 2 = { Sn2 , si la varianza es desconocida pero la media si
2
Sn-1 , si ambas son desconocidas
Luego, se estandariza generando:

𝑋𝑖 − 𝜇̂
𝑍𝑖 =
𝜎̂
Y el estadístico de prueba para normalidad es dado por:
𝑛
1
𝐴2 = −𝑛 − 𝑆 = −𝑛 − ∑(2𝑖 − 1)[ln Φ(𝑍𝑖 ) + ln(1 − Φ(𝑥𝑛+1−𝑖 ))]
𝑛
𝑖=1

Donde:

𝑥𝑖 : es la observación i-ésima, ordenada previamente de menor a mayor.

Φ(𝑥𝑖 ) = 𝑃(𝑍 ≤ 𝑧𝑖 ), es la probabilidad de obtener un valor menor o igual a la observación i-ésima,


si la hipótesis nula es cierta, considerando una distribución normal estándar.

𝑛: es el tamaño de la muestra

Sólo para el caso 3, ambos parámetros desconocidos, se calcula el siguiente estadístico modificado:

0.75 2.25
𝐴∗2 = 𝐴2 (1 + + 2 )
𝑛 𝑛
En su libro, Stephens1 (1974) indica que este procedimiento debe ser utilizado cuando 𝑛 ≥ 8. De
acuerdo al método de cálculo, similarmente a K-S, si esta discrepancia entre el orden de los datos
y la probabilidad es pequeña, generará en consecuencia un 𝐴2 o 𝐴∗2 pequeño, por lo tanto, con
mayor chance de no-rechazar la hipótesis nula, y por el contrario, si las diferencias son cada vez
mayores, un valor mayor de 𝐴2 o 𝐴∗2 hará eventualmente que la hipótesis nula se rechace.

Luego, para un nivel de significancia 𝛼, se tiene la siguiente regla de decisión:

Si 𝐷 ≤ 𝐾𝛼 , no se rechaza 𝐻0
Si 𝐷 > 𝐾𝛼 , se rechaza 𝐻0
Los valores de acuerdo a distintos niveles de 𝛼, son los siguientes:

𝛼 𝐾𝛼
0.005 1.159
0.01 1.035
0.025 0.873
0.05 0.752
0.10 0.631

1
Stephens, M. A. (1974). EDF Statistics for Goodness of Fit and Some Comparisons, Journal of the American Statistical
Association, 69, pp. 730-737.
Ejemplo 2.

Determine si la siguiente muestra de una variable X {100.42, 96.20, 98.98, 106.82, 98.70, 84.27, 101.58,
90.87, 92.55, 113.75} se distribuye normal con parámetros 𝜇𝑦 = 100 y 𝜎𝑦2 = 100.

Solución:

𝐻0 : 𝑋 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒 𝑁(100; 100)


𝐻1 : : 𝑋 𝑛𝑜 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒 𝑁(100; 100)

A partir de la muestra aleatoria, se obtiene el siguiente resultado:

x x_ord orden Z F0 1-F0 log(F0) log(1-F0) invertidos Sumando


100.42 84.27 1 -1.71 0.0437 0.9563 -3.130 -0.045 -3.444 -6.5731
96.2 90.87 2 -0.91 0.1810 0.8190 -1.709 -0.200 -1.865 -10.7221
98.98 92.55 3 -0.71 0.2393 0.7607 -1.430 -0.274 -1.047 -12.3840
106.82 96.2 4 -0.27 0.3945 0.6055 -0.930 -0.502 -0.906 -12.8502
98.7 98.7 5 0.03 0.5138 0.4862 -0.666 -0.721 -0.749 -12.7365
84.27 98.98 6 0.07 0.5273 0.4727 -0.640 -0.749 -0.721 -14.9728
101.58 100.42 7 0.24 0.5958 0.4042 -0.518 -0.906 -0.502 -13.2562
90.87 101.58 8 0.38 0.6490 0.3510 -0.432 -1.047 -0.274 -10.5890
92.55 106.82 9 1.02 0.8451 0.1549 -0.168 -1.865 -0.200 -6.2563
113.75 113.75 10 1.85 0.9681 0.0319 -0.032 -3.444 -0.045 -1.4667
-101.8068
𝑛
2
1 −101.8068
𝐴 = −𝑛 − ∑(2𝑖 − 1)[ln Φ(𝑍𝑖 ) + ln(1 − Φ(𝑥𝑛+1−𝑖 ))] = −10 − = 0.1807
𝑛 10
𝑖=1

0.75 2.25 0.75 2.25


𝐴∗2 = 𝐴2 (1 + + 2 ) = 0.1807 (1 + + ) = 0.1983
𝑛 𝑛 10 100
Considerando un 𝛼 = 0.05, se tiene que 𝐾𝛼 = 0.752. Luego, como 𝐴∗2 = 0.1983 < 0.752, no se
puede rechazar 𝐻0.

También podría gustarte