Está en la página 1de 8

Prueba y Análisis de la Normalidad de una variable

1. Gráfico en papel de probabilidad normal


Un método muy simple de evaluar la suposición de normalidad es realizar un
gráfico de los datos sobre un papel de probabilidad normal. Para realizar este gráfico
se sigue el siguiente procedimiento:
1. Primero ordenar los datos de menor a mayor:
x[1] < x[ 2] <  < x[ n]
2. Encontrar los cuantiles de la distribución normal estándar:
i − 1 
Φ −1  2  , para i = 1, 2, … , n
 n 
3. Realice un gráfico de los puntos
 −1  i − 2  
1

 [i ]
x , Φ  n   , para i = 1, 2, … , n .
  

Para que este conjunto de puntos se ajuste a una distribución normal, deben formar
aproximadamente una línea recta.
Gráfico en papel de probabilidad normal realizan todos los paquetes
computacionales de uso común.

FIG 1. Gráficas de probabilidad normal: a) ideal; b) distribución de colas pesadas; c)


distribución de colas delgadas; d) asimetría positiva; e) asimetría negativa

Bioestadística Aplicada II Ing. LUZ BULLÓN 1


EJEMPLO. Se efectuaron mediciones del nivel de glucosa en la sangre (mg/100ml) de
36 hombres adultos en ayuno, no obesos y aparentemente sanos. Las mediciones se
presentan a continuación. Se pretende saber si los datos pertenecen a una población con
distribución normal cuya media es 80 y desviación estándar 6

75 84 80 77 68 87 92 77 92 86
78 76 80 81 72 77 92 80 80 77
77 92 68 87 84 75 78 80 80 77
72 81 76 78 81 86

Tally for Discrete Variables: Glucosa

Glucosa Count
68 2
72 2
75 2
76 2
77 6
78 3
80 6
81 3
84 2
86 2
87 2
92 4
N= 36

Probability Plot of X
Normal
99

95

90

80
Porcentaje

70
60
50
40
30
20

10

1
65 70 75 80 85 90 95
X

Bioestadística Aplicada II Ing. LUZ BULLÓN 2


2. Prueba de Normalidad de Kolmogorov - Smirnov

Función de Distribución Empírica

La verdadera función de distribución (FD) de una variable aleatoria casi nunca es


conocida. En su lugar, algunas veces podemos considerar una forma gráfica que se
aproxime a ésta.

Definición. Sea una muestra aleatoria X 1 , X 2 , … , X n de tamaño n. La función de


distribución empírica S (x) que abreviaremos (fde) es una función de x, la cual equivale
a la fracción de las X i que son menores o iguales que x, para cada x, −∞ < x < ∞

Ejemplo. En un estudio de resistencia física, el profesor de deportes selecciona una


muestra de 5 muchachos. Ellos deben correr un kilómetro y el profesor registra los
tiempos que a los alumnos les toma el recorrido. Los tiempos (en fracciones de minutos)
fueron:

6.23 5.58 7.06 6.42 5.20

Gráficamente, estos tiempos se presentan en el eje horizontal. La fde S (x) es la fracción


de valores muestrales menores o iguales que x de la forma siguiente:

FIG. 2

El gráfico de la fde es siempre una función escalera, donde cada peldaño es de altura 1/n
y ocurre sólo en el valor muestral

Bioestadística Aplicada II Ing. LUZ BULLÓN 3


Ejemplo 2. Suponga la muestra de 6 madres (o cuidadoras) a quienes se preguntó por el
número de hijos menores de 5 años (bajo su cuidado) y sean las respuestas:

0 2 4 1 2 3

En este caso el gráfico de la fde es:

FIG. 3

La Prueba de Bondad de ajuste de Kolmogorov

La lógica de las pruebas de bondad de ajuste es determinar si una muestra aleatoria de


alguna población con función de distribución F(x) no conocida puede ser modelada por
una función de distribución especificada F*(x).
En este caso podría suponerse que la función teórica especificada podría ser como la
siguiente que se muestra:

FIG. 4 Función de distribución hipotética

Luego, alguna estadística de prueba puede ser usada como medida de la discrepancia
entre S (x) y F*(x).

Bioestadística Aplicada II Ing. LUZ BULLÓN 4


La medida más simple que podemos imaginar es la mayor distancia entre los dos
gráficos de S (x) y F*(x), medida en la dirección vertical. Esta es la estadística sugerida
por Kolmogorov (1933).

Si el conjunto de 5 datos ha sido seleccionado de una población con distribución F*(x)


como en el gráfico 3, entonces la fde S (x) de estos datos puede ser graficada sobre el
mismo gráfico, como se muestra en el gráfico 4.

FIG. 5. Función de distribución hipotética F*(x), función de distribución


empírica S (x) y Estadística T de Kolmogorov

Se observa que la máxima distancia vertical entre ambos gráficos se da exactamente


antes del tercer peldaño de S (x). La distancia es aproximadamente 0.5, es decir T = 0.5.

Los valores grandes de T, conducen al rechazo de F*(x) como una aproximación


razonable a la verdadera función de distribución desconocida F(x).

Se prefiere esta prueba a la de bondad de ajuste usando la distribución Chi-cuadrado


cuando se tiene muestras pequeñas dado que la prueba de K-S aun para muestras
pequeñas tiene mejor potencia además de ser útil con datos ordinales.

La estadística de prueba

Sea S (x) la fde basada en la muestra X 1 , X 2 , … , X n . Sea F*(x) una fd hipotética,


completamente especificada

La estadística de prueba es la distancia vertical entre las funciones, de manera que:


T = máx F * ( x) − S ( x)
x

Los cuantiles de la distribución exacta se presentan en la tabla A13, para valores de n


menores que 40. Todas las pruebas rechazan unilateralmente, desde que la estadística
de prueba está definida de esa forma. Lo bilateral se refiere a la hipótesis alternativa.

Bioestadística Aplicada II Ing. LUZ BULLÓN 5


EJEMPLO. Se efectuaron mediciones del nivel de glucosa en la sangre (mg/100ml) de
36 hombres adultos en ayuno, no obesos y aparentemente sanos. Las mediciones se
presentan a continuación. Se pretende saber si los datos pertenecen a una población con
distribución normal cuya media es 80 y desviación estándar 6

H0 : F ( x) = F *( x) donde F *( x) es la distribución normal con µ = 80 y σ = 6


H1 : F ( x) ≠ F *( x) para al menos una x, ( F *( x) está especificada completamente)

X Frecuencia Frecuencia S (x) F *( x) T=


Acumulada (fde) F *( x) - S (x)
68 2 2 0.0556 0.022750 0.032850
72 2 4 0.1111 0.091211 0.019889
75 2 6 0.1667 0.202328 -0.035628
76 2 8 0.2222 0.252493 -0.030293
77 6 14 0.3889 0.308538 0.080362
78 3 17 0.4722 0.369441 0.102759
80 6 23 0.6389 0.500000 0.138900
81 3 26 0.7222 0.566184 0.156016
84 2 28 0.7778 0.747507 0.030293
86 2 30 0.8333 0.841345 -0.008045
87 2 32 0.8889 0.878327 0.010573
92 4 36 1.0000 0.977250 0.032850

El cuantil .95 de la tabla A 13, es 0.221, luego, no es posible rechazar la hipótesis nula

F D Empírica de X
Normal

100

80
Porcentaje

60

40

20

65 70 75 80 85 90 95
X

FIG 6. F *( x) y S (x) para los datos del ejemplo

Bioestadística Aplicada II Ing. LUZ BULLÓN 6


Probability Plot of Glucosa
Normal
99
Mean 80.08
StDev 6.199
95 N 36
KS 0.136
90
P-Value 0.092
80
70
Percent

60
50
40
30
20

10

1
65 70 75 80 85 90 95
Glucosa

Bioestadística Aplicada II Ing. LUZ BULLÓN 7


NPar Tests

One-Sample Kolmogorov-Smirnov Test

Glucosa

N 36
a,,b
Normal Parameters Mean 80,0833

Std. Deviation 6,19850

Most Extreme Differences Absolute ,163

Positive ,163

Negative -,095

Kolmogorov-Smirnov Z ,981

Asymp. Sig. (2-tailed) ,291

a. Test distribution is Normal.

b. Calculated from data.

Bioestadística Aplicada II Ing. LUZ BULLÓN 8

También podría gustarte