Está en la página 1de 12

6.3.3. Pruebas de hipótesis.

Una normal

Para identificar a una distribución normal dentro de la familia de distribuciones


normales se necesita conocer el valor de sus dos parámetros; media µ y
desviación estándar σ. En las aplicaciones para probar hipótesis sobre los
parámetros de una variable aleatoria con distribución normal no se conocen los
valores de la media ni de la desviación estándar; es posible estimar los valores de
los parámetros desconocidos µ y σ como se hizo en el tema de estimación y
también es posible probar hipótesis sobre sus valores.

6.3.3.1. Pruebas de hipótesis sobre la media en la norma l

Las pruebas de hipótesis sobre la media de una distribución normal, como en las
pruebas que vimos para la distribución Bernoulli contrastan a una pareja de
hipótesis formadas por las hipótesis nula y alternativa, la especificación de las
hipótesis nula y alternativa conduce a uno de los tres tipos de zona de rechazo:
unilateral hacia la derecha, unilateral hacia la izquierda o bilateral. El estadístico
de prueba se distribuye como una t con n-1 grados de libertad, t n-1, que se calcula
usando el estimador de la media x̄ , el valor de la media especificado en la
hipótesis nula µ0, el estimador de la desviación estándar s y el número de casos
en la muestra o tamaño de muestra. Antes de realizar el trabajo se fija el nivel de
significación de la prueba α y el tamaño de la muestra, se selecciona la muestra y
se obtienen los datos. Se calcula el estadístico de prueba, la t calculada y se usa
el tipo de zona de rechazo dado por las hipótesis nula y alternativa para calcular la
significación muestral con los datos que produce la muestra.

En la tabla siguiente se presentan los tipos de hipótesis sobre la media en una


distribución normal y el tipo de zona de rechazo que producen.

TIPOS DE HIPÓTESIS SOBRE LA MEDIA PARA UNA VARIABLE


ALEATORIA NORMAL
Hipótesi Hipótesis Tipo de zona de rechazo
s alternativa
nula
H0: µ= µ0 HA: µ > µ0 UD: Unilateral derecha. Nula simple1 y alternativa
compuesta2
H0: µ ≤ µ0 HA: µ > µ0 UD: Unilateral derecha. Nula compuesta y
alternativa compuesta
H0: µ= µ0 HA: µ = µA UD: Unilateral derecha. Nula simple y alternativa
con µA> µ0 simple
H0: µ= µ0 HA: µ < µ0 UI: Unilateral izquierda. Nula simple1 y alternativa
compuesta2
H0: µ≥ µ0 HA: µ < µ0 UI: Unilateral izquierda. Nula compuesta y
alternativa compuesta
H0: µ= µ0 HA: µ = µA UI: Unilateral izquierda. Nula simple y alternativa
con µA< µ0 simple
1
H0: µ= µ0 HA: µ ≠ µ0 B: Bilateral. Nula simple1 y alternativa compuesta2
1
Hipótesis simple consta de un solo valor
2
Hipótesis compuesta consta de uno o dos intervalos

Conviene recordar que en nuestras aplicaciones la hipótesis nula contiene a la


igualdad, ya sea sola, con el signo igual, =, o acompañada de una desigualdad
dando lugar a el signo de menor o igual, ≤, o el signo de mayor o igual, ≥. Esta
característica de la hipótesis nula se debe, entre otras cosas, a que las
probabilidades relacionadas con el nivel de significación y la significación muestral
se obtienen usando la distribución con el valor de la media µ 0 dado por la igualdad
en la hipótesis nula. La hipótesis alternativa compuesta no contiene a la igualdad y
se especifica con los signos de mayor, >, de menor, <, o de diferente, ≠. El signo >
produce una zona de rechazo unilateral derecha, el signo < produce una zona de
rechazo unilateral izquierda y el signo ≠ da una zona de rechazo bilateral. Las
hipótesis alternativas simples están definidas con una igualdad, cuando el valor de
la media en la hipótesis alternativa µ A es mayor que el valor en la hipótesis nula
dan lugar a una zona de rechazo unilateral derecha y cuando el valor de la media
en la hipótesis alternativa µA es menor que el valor en la hipótesis nula dan lugar a
una zona de rechazo unilateral izquierda.

Hay tres parejas de hipótesis que producen una zona de rechazo unilateral
derecha, las tres se prueban con el mismo estadístico de prueba y la significación
muestral se calcula de la misma manera, son las parejas de hipótesis en los tres
primeros renglones de la tabla y sin entrar a detalles teóricos sobre las
propiedades de las pruebas (vea Freund, J.E. et.al. 2000) se puede decir sobre
ellas lo siguiente: 1)La prueba de la pareja simple contra simple se conoce como
la prueba de nivel α más potente, o la que tiene menor probabilidad de cometer
error tipo II, 2) La prueba de simple contra compuesta es de nivel α, esto quiere
decir que la probabilidad de cometer error tipo I es igual que α y para cada valor
de μ en la hipótesis alternativa es la más potente, siendo entonces la prueba de
nivel α uniformemente más potente, que quiere decir que es la más potente (la
que produce menor probabilidad de error tipo II) para cada valor de μ en la
hipótesis alternativa y 3) La prueba de compuesta contra compuesta tiene nivel de
significación menor o igual que α para cada valor de μ en la hipótesis nula, vale α
cuando μ vale μ0 y es uniformemente más potente, quiere decir que es la más
potente (la que produce menor probabilidad de error tipo II) para cada valor de μ
en la hipótesis alternativa; es la prueba de tamaño α uniformemente más
potente; estas propiedades garantizan que se usa la prueba de nivel α para el
valor µ0 en la hipótesis nula, que para cada valor de µ en la hipótesis nula el nivel
es igual o menor que α y que para cada valor de la media µ en la hipótesis
alternativa se maximiza la probabilidad de rechazar la hipótesis nula. Lo mismo se
puede decir para las tres pruebas unilaterales hacia la izquierda.

Finalmente la prueba de una hipótesis bilateral es prueba insesgada de tamaño


α uniformemente más potente, esto quiere decir que para cada valor de µ en la
hipótesis alternativa la probabilidad de rechazar la hipótesis nula es igual o mayor

2
que el nivel de significación α, que tiene nivel α y que entre este tipo de pruebas
es uniformemente más potente. Estas propiedades tienen importancia teórica,
pero para las aplicaciones que haremos no necesitamos fijarnos en ellas.

En el caso que concierne a este texto, en el que no se conoce la media ni la


desviación estándar de la distribución de la variable aleatoria, el estadístico de
prueba es una t, que como variable aleatoria antes de tener la muestra aleatoria
de n casos y los datos, tiene distribución t con n-1 grados de libertad. La ecuación
para obtener su valor a partir de los datos, que llamamos t c para que se vea que
es un valor calculado y no una variable aleatoria, utiliza los valores de n (número
de casos), la media y la desviación estándar de los datos, x̄ y s
respectivamente y el valor de la media µ en la igualdad de la hipótesis nula µ 0, la
ecuación es:

√ n( x̄−μ0 )
t c=
s ,

Los tres tipos de parejas de hipótesis y su significación muestral se presentan en


la tabla de la página siguiente.

En todos los casos rechace la hipótesis nula si la significación muestral α^ es


menor que el nivel de significación α. Como en el caso de las pruebas de hipótesis
sobre el parámetro p en la Bernoulli, sugiero concluya como sigue: 1) si se
rechaza la hipótesis nula porque la significación muestral α^ es menor que el
nivel de significación α, la muestra da evidencia con significación muestral α^
(escriba el valor de α^ ) para rechazar la hipótesis nula (escriba la hipótesis nula)
y para fines prácticos se considera que la hipótesis alternativa (escriba la
hipótesis) es verdadera, en caso contrario 2) si no se rechaza la hipótesis nula, la
muestra no da evidencia para rechazar la hipótesis nula porque la significación
muestral α^ (escriba el valor de α^ ) es mayor que el nivel de significación α y
para fines prácticos se considera que la hipótesis nula (escriba la hipótesis) es
verdadera.

HIPÓTESIS SOBRE LA MEDIA. UNA NORMAL, UNA POBLACIÓN

Hipótesi Hipótesis Significación muestral


s alternativa
nula
H0: µ= µ0 HA: µ > µ0 UD1 α^ = Pt con n-1 gl[t ≥ tc]
H0: µ ≤ µ0 HA: µ > µ0 UD1 √ n( x̄−μ 0 )
H0: µ= µ0 HA: µ = µA UD1 tC =
s
con µA> µ0
H0: µ= µ0 HA: µ < µ0 UI1 α^ = Pt con n-1 gl[t≤ tc]
H0: µ≥ µ0 HA: µ < µ0 UI1

3
H0: µ= µ0 HA: µ = µA UI1 √ n( x̄−μ 0 )
con µA< µ0 tC =
s
1
H0: µ= µ0 HA: µ ≠ µ0 B Tome el valor positivo de tc, llámelo |tc|
α^ = 2Pt con n-1 gl[tn-1≥ |tc|],
√ n( x̄−μ 0 )
tC =
s
1
UD = unilateral derecha, UI = unilateral izquierda y B= bilateral
Nota: |tc| = valor absoluto de tc o la distancia de tc a cero, n es el
tamaño de muestra, x̄ es la media, s es la desviación estándar de la
muestra y
μ0 es el valor de la media bajo la hipótesis nula

Para quién se inicia en pruebas de hipótesis estadísticas puede parecer difícil dar
un valor al nivel de significación, que es la probabilidad de cometer el error de
rechazar una hipótesis nula verdadera. Desde que se plantearon por primera vez
las pruebas de hipótesis se sugirió usar para el nivel de significación α uno de los
tres valores: 0.01, 0.05 o 0.10. Estos valores parecieron convenientes a los
investigadores que construyeron la tabla con los percentiles 90%, 95%, 97.5%,
99% y 99.5% de las distribuciones t. Como no había otras tablas, los
investigadores se acostumbraron a los valores de 0.01, 0.05 y 0.10 para el nivel de
significación. Cuando se dispuso de tablas más extensas pocos investigadores
cambiaron a otros valores de α, con la excepción de los médicos que plantearon
valores más pequeños, de 0.001 y 0.0001, mismos valores que mucho después
fueron también usados en problemas de control de calidad. Tiene sentido utilizar
como probabilidad de error a 5% (0.05), 1% (0.01), o 10% (0.10), ya que son
valores pequeños de probabilidad y es fácil recordarlos y usarlos. Se dice, sin más
base que la tradición, que por ser muy grande, el 10% sólo es adecuado para
problemas donde la consecuencia de cometer error tipo I y rechazar una hipótesis
nula verdadera tiene poca importancia, o desde otro punto de vista, cuando la
obtención de la muestra es muy cara y la muestra es tan pequeña que es muy
difícil rechazar con un nivel de significación menor. El 5% y el 1% se usan en
problemas de investigación en casi todas las ramas de la ciencia, en medicina
cuando la consecuencia de rechazar una hipótesis nula verdadera puede ser muy
grave se utiliza el 1%, el 0.1% y el 0.01%, dependiendo del problema.

El uso de la significación muestral ha liberado en cierta manera al usuario de la


estadística aplicada del problema de especificar un nivel de significación, pues un
valor de la significación muestral, α^ , de 0.0000356 permite rechazar la hipótesis
nula para cualquier nivel de significación que sea mayor que 0.0000356, obvio que
se rechaza para los niveles usuales, de 5% y 1% y también para el 0.01% o uno
por diez mil. Por eso, a la significación muestral se le conoce como el menor nivel
de significación al que se rechaza la hipótesis nula con los datos disponibles.

Ejemplo. Media en la Normal. Pruebas de hipótesis 1

4
Para ilustrar piense que el administrador quiere que las mesas de su
restaurante queden sin ocupar el menor tiempo posible durante las horas de
mayor demanda. Le interesa el lapso que transcurre desde que se levantan
los ocupantes de la mesa hasta que los siguientes clientes reciben el menú.
Considerando las actividades que se desarrollan y el personal que tiene, se
fija como objetivo lograr que la media del tiempo de desocupación no supere
los 2 minutos. Un día mide el tiempo sin ocupación de 40 casos particulares y
obtiene los datos siguientes

1.37 1.81 2.97 3.57 1.05 4.42 1.96 3.06 1.26 1.98
1.19 1.56 3.60 3.12 2.32 1.83 4.27 1.63 8.33 8.58
1.37 2.63 2.66 3.37 2.03 4.22 1.83 2.61 1.52 1.44
6.04 2.82 1.37 0.91 4.85 3.35 5.47 4.41 1.94 4.44

La base de datos tiene una columna para la variable tiempo de ocupación y


40 renglones o casos. Al administrador le preocupa que la media de tiempo
de desocupación resulte mayor que 2 y plantea la pareja de hipótesis H 0: µ≤2
y HA: µ>2. Para hacer la prueba se usa el paquete estadístico y se le pide
realice la prueba de t para una normal, obteniendo lo siguiente:

Sección de estadística descriptiva. Tiempo de desocupación (TD)


Desviación Error
Variable casos Media Estándar estándar LII 95% Media
LSI 95% Media
TD 40 2.979 1.816552 0.2872221 2.398039 3.559962

Sección de prueba de suposiciones


Suposición Estadístico Prob. Decisión al 5%
Simetría normal 3.4520 0.000557 Rechace normalidad
Achatamiento normal 2.2933 0.021832 Rechace normalidad
Normal (general) 17.1752 0.000186 Rechace normalidad

Prueba de t
Hipótesis alternativa T calculada Prob. Decisión al 5%
Tiempo desocupación<>2 3.4085 0.001530 Rechace Ho
Tiempo desocupación<2 3.4085 0.999235 Acepte Ho
Tiempo desocupación>2 3.4085 0.000765 Rechace Ho

Sección de pruebas no paramétricas


Prueba de Wilcoxon del rango con signo para medianas
Prueba exacta
Aproximación normal Aproximación normal
corregida por continuo sin corregir
Hipótesis Decisión Decisión
Alternativa zc Prob. al 5% zc Prob. al 5%
Mediana<>2 2.8163 0.004858 Rechace Ho 2.8096 0.004961 Rechace Ho
Mediana<2 2.8163 0.997571 Acepte Ho 2.8230 0.997621 Acepte Ho
Mediana>2 2.8163 0.002429 Rechace Ho 2.8096 0.002480 Rechace Ho

La media de tiempo desocupado es 2.979, un valor mayor que el deseado y


el intervalo de confianza para la media que va de 2.398039 a 3.559962, no
incluye al valor 2 indicando que 2 no es valor para la media que esté

5
soportado por la muestra. Las tres pruebas sobre normalidad * indican que se
rechaza la hipótesis de que la distribución de tiempo desocupado sea normal,
las pruebas de simetría, de achatamiento y general de normalidad tienen
significaciones muestrales de 0.0005, 0.0218 y 0.0002 respectivamente,
entonces la prueba basada en la t es aproximada. El paquete reporta la
prueba para los tres tipos de hipótesis alternativas pero sólo nos interesa la
alternativa HA: µ>2, que en el paquete se escribe como Tiempo
desocupación>2, reporta una t calculada de 3.4085 y una significación
muestral de 0.000765, que es menor que 0.05, por lo que la hipótesis nula de
que H0: µ≤2 se rechaza y para fines prácticos la hipótesis alternativa es
verdadera, esto lo enfatiza el paquete escribiendo Rechace Ho.

Como la prueba de t es aproximada se puede revisar el resultado de la


prueba no paramétrica** de Wilcoxon, que prueba la misma pareja de
hipótesis que la prueba de t pero referidas a la mediana. No se reporta la
prueba exacta porque el tamaño de la muestra de 40 ya no permite obtener
(con facilidad) las probabilidades exactas, las aproximaciones usando la
normal llevan al rechazo de la hipótesis nula H0: Mediana≤2 con
significaciones muestrales de 0.002429 y 0.002480 y se puede considerar
que la hipótesis alternativa de que la mediana vale más que 2 es verdadera.
El administrador del restaurante tendrá que capacitar a su personal para
mejorar el tiempo que permanecen desocupadas las mesas.

El histograma que el paquete NCSS construye de manera automática, puede


mejorarse, muestra la asimetría de los datos y en la gráfica de probabilidad
normal, que se verá más adelante, los puntos de los datos no siguen una
línea recta y cuatro de ellos están fuera del área limitada por las dos líneas
curvas, indicando que los datos no siguen la distribución normal.

Histograma de tiempo Gráfica de probabilidad normal de tiempo


15.0 10.0

11.3 7.5
Frecuencia

Tiem po

7.5 5.0

3.8 2.5

0.0 0.0
0.0 2.5 5.0 7.5 10.0 -3.0 -1.5 0.0 1.5 3.0
Tiempo Valores esperados de la normal

Ejercicio

**
Estas pruebas se verán más adelante, en pruebas de normalidad
****
Esta prueba se verá más adelante en prueba no paramétrica de Wilcoxon.

6
Utilice el paquete estadístico para obtener los resultados del ejemplo de
tiempo desocupado. Los datos y resultados están en el libro EjemplosLibro de
Excel en la hoja 18 y en el archivo Ej17_PruebaNormal1 de NCSS en el CD
del texto. Las instrucciones para obtener el resultado usando Excel están en
el anexo 1 y las instrucciones para usar el NCSS están en el anexo 2, en
ambos identificados como Ejemplo. Media en la normal. Pruebas de hipótesis
1. Si dispone de otro paquete estadístico, trabaje con él para obtener los
mismos resultados del ejemplo.

6.3.3.1.1. Tamaño de muestra. Pruebas de hipótesis sobre la media en una


normal

En el tema de estimación se obtuvo el tamaño de muestra para obtener un


intervalo de confianza con alta probabilidad de cumplir con la especificación de
que la distancia entre el parámetro y el estimador fuera pequeña. Cuando se trata
de probar hipótesis se desea conocer el tamaño de muestra más pequeño para
hacer la prueba cumpliendo con las especificaciones del investigador: 1) nivel de
significación establecido α, 2) probabilidad dada por el investigador, β, de cometer
el error tipo II, esto es, de no rechazar la hipótesis nula cuando es falsa y 3) el
error tipo II se calcula cuando la distancia entre el valor de la media dado por la
hipótesis nula y el valor que realmente toma dicha media dentro de la hipótesis
alternativa sea igual que una constante dada d.

Dicho de otra manera, si se establece que la distancia entre el valor de la hipótesis


nula y el valor de la hipótesis alternativa que debe llevar al rechazo con un nivel de
significación α es d y se desea que la probabilidad de cometer error tipo II sea
menor o igual que β, para hipótesis bilaterales se debe usar un tamaño de muestra
n que cumpla con

tn−1,1−β +t n−1,1−α /2 ~ 2
n≥( σ)
d .
~
En la ecuación anterior σ es un valor inicial para la desviación estándar σ, que
es un parámetro desconocido; este valor se obtiene de la literatura, de trabajos
anteriores o de la experiencia del investigador. Como los percentiles t n-1,1-β y tn-1,1-α/2
dependen de n se inicia el procedimiento con los valores de los percentiles de la
normal estándar z1-β y z1-α/2 para obtener una primera aproximación al valor de n,
digamos n1, con este valor se obtienen los percentiles de la distribución t con n 1-1
grados de libertad y se calcula un nuevo valor de n, digamos n 2 y con este valor
se obtienen los percentiles de t con
n2 -1 grados de libertad y se calcula un tercer valor de n y así se continúa hasta
que dos valores sucesivos de n son iguales, cosa que ocurre por lo general con n 3.

Para hipótesis unilaterales se debe usar un tamaño de muestra n que cumpla con

7
t n−1,1−β +t n−1,1−α ~ 2
n≥( σ)
d ,

si la hipótesis alternativa es bilateral se debe usar t n-1,1-α/2 en lugar de tn-1,1-α.

Ejemplo (continúa). Tamaño de muestra en pruebas de hipótesis en una


normal

En el problema de tiempo desocupado se puede plantear que se desea


probar la hipótesis nula con nivel de significación de 5% y probabilidad de
error tipo II de 0.10 cuando la hipótesis alternativa difiera 0.5 de la nula, como
valor propuesto para la desviación estándar se usa el valor de la estimación
que fue de 1.82. Como es una hipótesis unilateral se usa el percentil 100(1-α)
% y para la primera iteración usando percentiles de la normal estándar se
tiene

z 0. 90 +z 0 .95 1 .28+1. 65
n0 ≥( 1 . 82)2 ( 1 . 82)2
0 .5 = 0.5 = 113.75,

la segunda iteración con t113 da los valores de los percentiles 1.29 y 1.66 con
dos decimales, sustituyendo en la ecuación queda

t 113 , 0 . 90+t 113 , 0. 95 1 .29+1. 66


n1 ≥( 1 . 82)2 ( 1 . 82)2
0.5 = 0.5 = 115.3,

debido a que los percentiles de la t 116 con dos decimales dan los mismos
valores que la t113, el tamaño de muestra deseado es 116. Para cumplir con
las especificaciones de la prueba, la próxima evaluación de los tiempos de
desocupación requiere un tamaño de muestra de 116 casos.

6.3.3.2. Pruebas de normalidad

Conviene revisar los argumentos que se utilizan cuando se propone el modelo de


la distribución normal para una variable aleatoria. Es fácil encontrar problemas que
tengan distribución parecida a la normal, pero es difícil que se encuentre un
problema que produzca una variable que tenga exactamente distribución normal.
En la práctica no se conoce la distribución de la variable aleatoria, solo se conocen
los valores de la muestra y de ellos se obtiene información que permite decidir si la
suposición de distribución normal es adecuada o no. Se puede pensar que si el
modelo de la distribución normal es adecuado, la variable debe tener una
distribución que tiene una función de densidad con forma acampanada parecida a
la de la normal, que es simétrica alrededor de su media, esto es, que los valores
mayores que la media ocurren con igual probabilidad que los valores menores que

8
la media y que los valores alejados de la media ocurren con probabilidades muy
parecidas a las dadas por la distribución normal.

La experiencia de investigación ha mostrado que el modelo de la normal es


adecuado para las variables que se mencionaron cuando se introdujo la
distribución normal: rendimientos de cosechas de todo tipo de productos
vegetales, cantidades de compuestos químicos en las hojas, en los frutos, o en
productos alimenticios, ganancia de peso en la cría de animales, cantidad de
contaminantes degradada por microbios, producción de antibióticos, cantidad de
agua que retiene el suelo, contenido de diferentes nutrientes en el suelo o en
productos vegetales y animales, variaciones en tamaño y peso de productos
manufacturados, tiempo que se tarda en realizar alguna tarea, los kilómetros que
recorre una llanta hasta llegar a cierto desgaste, aprendizaje medido con una
batería de exámenes, resultados de exámenes en grandes poblaciones humanas,
etc.

En todos los casos anteriores el modelo sirve para los propósitos de análisis, pero
no se ha demostrado que alguna de las variables mencionadas tenga la
distribución normal, en cambio, pueden ocurrir situaciones donde la definición de
la población, la forma de medir y el esquema de muestreo produzcan una variable
que no sigue la distribución normal. En los casos donde hay duda sobre lo
adecuado de la suposición de que la variable tiene distribución normal, se dispone
de las pruebas generales de normalidad (omnibus normality tests en inglés) .
Estas pruebas plantean la hipótesis nula de que la distribución es normal, contra la
alternativa de que no lo es. Las ecuaciones de los estadísticos de prueba van más
allá de los objetivos del texto (D’Agostino R.B. and Stephens, M.A. 1986), pero los
reportes de los paquetes de estadísticos permiten conocer el resultado de la
prueba. Si la hipótesis de que la distribución es normal se rechaza, se tiene
evidencia de que el modelo normal no es adecuado, aunque para estimar la media
y hacer pruebas de hipótesis sobre la media puede usarse la normal como
aproximación ya que la distribución de la media se parece más a la distribución
normal a medida que el tamaño de muestra es más grande; recuerde el Teorema
Central del Límite. También otros estadísticos de prueba tienen distribuciones
que se pueden aproximar con la distribución normal cuando el tamaño de muestra
es grande.

Cada paquete estadístico presenta su propia selección de pruebas generales de


normalidad. La prueba de la pareja de hipótesis H 0: La distribución es normal y H A:
La distribución no es normal, se efectúa generalmente con las prueba de
Kolmogorov-Smirnov o su modificación por Lilieford, con la prueba de Shapiro-Wilk
o con la prueba de normalidad de D’Agostino . Entre las pruebas de normalidad
general, cada autor o programador de paquete estadístico selecciona las más
adecuadas a sus necesidades. Se toman en cuenta los fundamentos teóricos de
cada prueba, la facilidad de cálculo y las comparaciones de potencia con otras
pruebas (D’Agostino R.B. and Stephens, M.A. 1986, pag. 404-406), se puede decir
que la prueba de Kolmorov-Smirnov deja de rechazar conjuntos de datos que son
rechazados por la prueba de Shapiro-Wilk y la prueba que usaremos en el texto, la
9
de D’Agostino es intermedia entre esas dos en su capacidad de rechazo de la
hipótesis nula.

Las pruebas de simetría y de achatamiento (Skewness y kurtosis en inglés)


permiten rechazar la hipótesis de que la distribución es normal, ya que se sabe
que la distribución normal es simétrica y su coeficiente de achatamiento vale 3.
Estas pruebas tienen la ventaja de son específicas contra alternativas de asimetría
o de achatamiento diferente al de la normal, presentan algunas ventajas en la
detección de no normalidad debida a asimetría o a achatamiento diferente al de la
normal. En el texto seleccionamos las pruebas basadas en los coeficientes de
asimetría y de achatamiento desarrolladas por D’Agostino (D’Agostino, R.B. and
Stephens, M.A. 1986 pags. 377 y 388) para probar simetría y achatamiento
normal.

La prueba de simetría de D’Agostino plantea la hipótesis nula de que la


distribución es simétrica con la alternativa de que la distribución no es simétrica.
Como la distribución normal es simétrica, si se rechaza la hipótesis de que la
distribución es simétrica (hipótesis de simetría), la distribución no es normal; Si se
rechaza la hipótesis nula de simetría H 0: La distribución es simétrica, contra la
hipótesis alternativa HA: La distribución no es simétrica, se sabe que la distribución
no es simétrica y por ello no es normal. Los paquetes presentan el valor de la
significación muestral α^ , si el valor de α^ es menor que el nivel de
significación α se rechaza la hipótesis nula de simetría y por esta causa la
distribución la distribución no es normal

La prueba de achatamiento de D’Agostino o prueba de kurtosis de


D’Agostino plantea la hipótesis nula de que el parámetro de achatamiento * de la
distribución toma el valor propio de la distribución normal, contra la alternativa de
que no lo toma y el rechazo de esta prueba da evidencia de que la distribución no
es la normal. Los paquetes presentan el valor de la significación muestral α^ , si
el valor de α^ es menor que el nivel de significación α se rechaza la hipótesis
nula de que el achatamiento de la distribución es normal y por ello se rechaza que
la distribución sea normal.

Para probar si la distribución es normal usaremos las pruebas de normalidad,


general, de simetría y de achatamiento de D’Agostino. Puede ocurrir que se
rechace una, dos, las tres o ninguna de las tres pruebas. Cuando ninguna de las
pruebas produce rechazo se puede concluir que la no hay razón para dudar de
que la distribución es normal. La duda sobre la normalidad de la distribución
ocurre cuando se rechaza por lo menos una de las pruebas, se incrementa si se
rechazan dos y se tiene seguridad en el rechazo cuando se rechazan las tres.
Cada una de las tres pruebas da información sobre la causa del rechazo, que se
puede deber a que la distribución no es simétrica (prueba de simetría), a que su
**
El parámetro de achatamiento y su correspondiente estimador se basan en las diferencias de las
observaciones con la media elevadas a la potencia cuatro. Permite conocer si la distribución asigna
probabilidades mayores o menores que la normal a intervalos alejados de la media.

10
parámetro de achatamiento no toma el valor que toma en la normal (prueba de
achatamiento), o a una causa no especificada en la prueba de normalidad de
D’Agostino (prueba general de normalidad).

Cuando se sabe que la distribución de la variable no es normal porque es muy


asimétrica, por los reportes de trabajos similares, o porque habiendo duda los
resultados de las pruebas de normalidad lo indican, los métodos basados en la
distribución normal son sólo aproximados. Si el tamaño muestra no es grande y se
desea un método que no dependa del uso del modelo de distribución normal, se
puede usar una prueba no paramétrica, que no usa la suposición de que la
distribución es normal.

Ejemplo (continúa). Pruebas de normalidad

En el problema del tiempo que permanecen desocupadas las mesas del


restaurante se vieron las pruebas de normalidad, ahora se presentan
nuevamente:

Sección de prueba de suposiciones. Tiempo de desocupación (TD)


Suposición Estadístico Prob. Decisión al 5%
Simetría normal 3.4520 0.000557 Rechace normalidad
Achatamiento normal 2.2933 0.021832 Rechace normalidad
Normal (general) 17.1752 0.000186 Rechace normalidad

La prueba de simetría establece la hipótesis nula de que la distribución es


simétrica y la hipótesis alternativa de que la distribución no es simétrica, en la
lista se reporta el valor del estadístico de prueba, la significación muestral de
0.000557 y la decisión que debe tomarse con nivel de significación de 5%, la
significación muestral indica que la hipótesis nula debe rechazarse para
cualquier nivel de significación mayor que 0.000557, el listado toma la
decisión de rechazar al 5% (α= 0.05), de hecho se rechaza también al 1% y al
0.1%; debido a que la distribución no es simétrica se rechaza la hipótesis de
distribución normal.

La prueba sobre el achatamiento considera la hipótesis nula de que el


parámetro que mide el achatamiento toma el mismo valor que una
distribución normal con la hipótesis alternativa de que dicho parámetro no
toma el valor que corresponde a una distribución normal, para esta prueba la
significación muestral vale 0.021832 y se rechaza la hipótesis nula de
achatamiento normal con nivel de significación de 5% y como consecuencia
se rechaza que la distribución sea normal.

La prueba general de normalidad plantea la hipótesis nula de que la


distribución es normal contra la hipótesis alternativa de que la distribución no
es normal, se obtiene una significación muestral de 0.000186 que lleva al
rechazo de la hipótesis nula de distribución normal. Con la evidencia que da

11
la muestra se sugiere se haga la prueba no paramétrica de Wilcoxon que se
verá en la siguiente sección.

12

También podría gustarte