Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Una normal
Las pruebas de hipótesis sobre la media de una distribución normal, como en las
pruebas que vimos para la distribución Bernoulli contrastan a una pareja de
hipótesis formadas por las hipótesis nula y alternativa, la especificación de las
hipótesis nula y alternativa conduce a uno de los tres tipos de zona de rechazo:
unilateral hacia la derecha, unilateral hacia la izquierda o bilateral. El estadístico
de prueba se distribuye como una t con n-1 grados de libertad, t n-1, que se calcula
usando el estimador de la media x̄ , el valor de la media especificado en la
hipótesis nula µ0, el estimador de la desviación estándar s y el número de casos
en la muestra o tamaño de muestra. Antes de realizar el trabajo se fija el nivel de
significación de la prueba α y el tamaño de la muestra, se selecciona la muestra y
se obtienen los datos. Se calcula el estadístico de prueba, la t calculada y se usa
el tipo de zona de rechazo dado por las hipótesis nula y alternativa para calcular la
significación muestral con los datos que produce la muestra.
Hay tres parejas de hipótesis que producen una zona de rechazo unilateral
derecha, las tres se prueban con el mismo estadístico de prueba y la significación
muestral se calcula de la misma manera, son las parejas de hipótesis en los tres
primeros renglones de la tabla y sin entrar a detalles teóricos sobre las
propiedades de las pruebas (vea Freund, J.E. et.al. 2000) se puede decir sobre
ellas lo siguiente: 1)La prueba de la pareja simple contra simple se conoce como
la prueba de nivel α más potente, o la que tiene menor probabilidad de cometer
error tipo II, 2) La prueba de simple contra compuesta es de nivel α, esto quiere
decir que la probabilidad de cometer error tipo I es igual que α y para cada valor
de μ en la hipótesis alternativa es la más potente, siendo entonces la prueba de
nivel α uniformemente más potente, que quiere decir que es la más potente (la
que produce menor probabilidad de error tipo II) para cada valor de μ en la
hipótesis alternativa y 3) La prueba de compuesta contra compuesta tiene nivel de
significación menor o igual que α para cada valor de μ en la hipótesis nula, vale α
cuando μ vale μ0 y es uniformemente más potente, quiere decir que es la más
potente (la que produce menor probabilidad de error tipo II) para cada valor de μ
en la hipótesis alternativa; es la prueba de tamaño α uniformemente más
potente; estas propiedades garantizan que se usa la prueba de nivel α para el
valor µ0 en la hipótesis nula, que para cada valor de µ en la hipótesis nula el nivel
es igual o menor que α y que para cada valor de la media µ en la hipótesis
alternativa se maximiza la probabilidad de rechazar la hipótesis nula. Lo mismo se
puede decir para las tres pruebas unilaterales hacia la izquierda.
2
que el nivel de significación α, que tiene nivel α y que entre este tipo de pruebas
es uniformemente más potente. Estas propiedades tienen importancia teórica,
pero para las aplicaciones que haremos no necesitamos fijarnos en ellas.
√ n( x̄−μ0 )
t c=
s ,
3
H0: µ= µ0 HA: µ = µA UI1 √ n( x̄−μ 0 )
con µA< µ0 tC =
s
1
H0: µ= µ0 HA: µ ≠ µ0 B Tome el valor positivo de tc, llámelo |tc|
α^ = 2Pt con n-1 gl[tn-1≥ |tc|],
√ n( x̄−μ 0 )
tC =
s
1
UD = unilateral derecha, UI = unilateral izquierda y B= bilateral
Nota: |tc| = valor absoluto de tc o la distancia de tc a cero, n es el
tamaño de muestra, x̄ es la media, s es la desviación estándar de la
muestra y
μ0 es el valor de la media bajo la hipótesis nula
Para quién se inicia en pruebas de hipótesis estadísticas puede parecer difícil dar
un valor al nivel de significación, que es la probabilidad de cometer el error de
rechazar una hipótesis nula verdadera. Desde que se plantearon por primera vez
las pruebas de hipótesis se sugirió usar para el nivel de significación α uno de los
tres valores: 0.01, 0.05 o 0.10. Estos valores parecieron convenientes a los
investigadores que construyeron la tabla con los percentiles 90%, 95%, 97.5%,
99% y 99.5% de las distribuciones t. Como no había otras tablas, los
investigadores se acostumbraron a los valores de 0.01, 0.05 y 0.10 para el nivel de
significación. Cuando se dispuso de tablas más extensas pocos investigadores
cambiaron a otros valores de α, con la excepción de los médicos que plantearon
valores más pequeños, de 0.001 y 0.0001, mismos valores que mucho después
fueron también usados en problemas de control de calidad. Tiene sentido utilizar
como probabilidad de error a 5% (0.05), 1% (0.01), o 10% (0.10), ya que son
valores pequeños de probabilidad y es fácil recordarlos y usarlos. Se dice, sin más
base que la tradición, que por ser muy grande, el 10% sólo es adecuado para
problemas donde la consecuencia de cometer error tipo I y rechazar una hipótesis
nula verdadera tiene poca importancia, o desde otro punto de vista, cuando la
obtención de la muestra es muy cara y la muestra es tan pequeña que es muy
difícil rechazar con un nivel de significación menor. El 5% y el 1% se usan en
problemas de investigación en casi todas las ramas de la ciencia, en medicina
cuando la consecuencia de rechazar una hipótesis nula verdadera puede ser muy
grave se utiliza el 1%, el 0.1% y el 0.01%, dependiendo del problema.
4
Para ilustrar piense que el administrador quiere que las mesas de su
restaurante queden sin ocupar el menor tiempo posible durante las horas de
mayor demanda. Le interesa el lapso que transcurre desde que se levantan
los ocupantes de la mesa hasta que los siguientes clientes reciben el menú.
Considerando las actividades que se desarrollan y el personal que tiene, se
fija como objetivo lograr que la media del tiempo de desocupación no supere
los 2 minutos. Un día mide el tiempo sin ocupación de 40 casos particulares y
obtiene los datos siguientes
1.37 1.81 2.97 3.57 1.05 4.42 1.96 3.06 1.26 1.98
1.19 1.56 3.60 3.12 2.32 1.83 4.27 1.63 8.33 8.58
1.37 2.63 2.66 3.37 2.03 4.22 1.83 2.61 1.52 1.44
6.04 2.82 1.37 0.91 4.85 3.35 5.47 4.41 1.94 4.44
Prueba de t
Hipótesis alternativa T calculada Prob. Decisión al 5%
Tiempo desocupación<>2 3.4085 0.001530 Rechace Ho
Tiempo desocupación<2 3.4085 0.999235 Acepte Ho
Tiempo desocupación>2 3.4085 0.000765 Rechace Ho
5
soportado por la muestra. Las tres pruebas sobre normalidad * indican que se
rechaza la hipótesis de que la distribución de tiempo desocupado sea normal,
las pruebas de simetría, de achatamiento y general de normalidad tienen
significaciones muestrales de 0.0005, 0.0218 y 0.0002 respectivamente,
entonces la prueba basada en la t es aproximada. El paquete reporta la
prueba para los tres tipos de hipótesis alternativas pero sólo nos interesa la
alternativa HA: µ>2, que en el paquete se escribe como Tiempo
desocupación>2, reporta una t calculada de 3.4085 y una significación
muestral de 0.000765, que es menor que 0.05, por lo que la hipótesis nula de
que H0: µ≤2 se rechaza y para fines prácticos la hipótesis alternativa es
verdadera, esto lo enfatiza el paquete escribiendo Rechace Ho.
11.3 7.5
Frecuencia
Tiem po
7.5 5.0
3.8 2.5
0.0 0.0
0.0 2.5 5.0 7.5 10.0 -3.0 -1.5 0.0 1.5 3.0
Tiempo Valores esperados de la normal
Ejercicio
**
Estas pruebas se verán más adelante, en pruebas de normalidad
****
Esta prueba se verá más adelante en prueba no paramétrica de Wilcoxon.
6
Utilice el paquete estadístico para obtener los resultados del ejemplo de
tiempo desocupado. Los datos y resultados están en el libro EjemplosLibro de
Excel en la hoja 18 y en el archivo Ej17_PruebaNormal1 de NCSS en el CD
del texto. Las instrucciones para obtener el resultado usando Excel están en
el anexo 1 y las instrucciones para usar el NCSS están en el anexo 2, en
ambos identificados como Ejemplo. Media en la normal. Pruebas de hipótesis
1. Si dispone de otro paquete estadístico, trabaje con él para obtener los
mismos resultados del ejemplo.
tn−1,1−β +t n−1,1−α /2 ~ 2
n≥( σ)
d .
~
En la ecuación anterior σ es un valor inicial para la desviación estándar σ, que
es un parámetro desconocido; este valor se obtiene de la literatura, de trabajos
anteriores o de la experiencia del investigador. Como los percentiles t n-1,1-β y tn-1,1-α/2
dependen de n se inicia el procedimiento con los valores de los percentiles de la
normal estándar z1-β y z1-α/2 para obtener una primera aproximación al valor de n,
digamos n1, con este valor se obtienen los percentiles de la distribución t con n 1-1
grados de libertad y se calcula un nuevo valor de n, digamos n 2 y con este valor
se obtienen los percentiles de t con
n2 -1 grados de libertad y se calcula un tercer valor de n y así se continúa hasta
que dos valores sucesivos de n son iguales, cosa que ocurre por lo general con n 3.
Para hipótesis unilaterales se debe usar un tamaño de muestra n que cumpla con
7
t n−1,1−β +t n−1,1−α ~ 2
n≥( σ)
d ,
z 0. 90 +z 0 .95 1 .28+1. 65
n0 ≥( 1 . 82)2 ( 1 . 82)2
0 .5 = 0.5 = 113.75,
la segunda iteración con t113 da los valores de los percentiles 1.29 y 1.66 con
dos decimales, sustituyendo en la ecuación queda
debido a que los percentiles de la t 116 con dos decimales dan los mismos
valores que la t113, el tamaño de muestra deseado es 116. Para cumplir con
las especificaciones de la prueba, la próxima evaluación de los tiempos de
desocupación requiere un tamaño de muestra de 116 casos.
8
la media y que los valores alejados de la media ocurren con probabilidades muy
parecidas a las dadas por la distribución normal.
En todos los casos anteriores el modelo sirve para los propósitos de análisis, pero
no se ha demostrado que alguna de las variables mencionadas tenga la
distribución normal, en cambio, pueden ocurrir situaciones donde la definición de
la población, la forma de medir y el esquema de muestreo produzcan una variable
que no sigue la distribución normal. En los casos donde hay duda sobre lo
adecuado de la suposición de que la variable tiene distribución normal, se dispone
de las pruebas generales de normalidad (omnibus normality tests en inglés) .
Estas pruebas plantean la hipótesis nula de que la distribución es normal, contra la
alternativa de que no lo es. Las ecuaciones de los estadísticos de prueba van más
allá de los objetivos del texto (D’Agostino R.B. and Stephens, M.A. 1986), pero los
reportes de los paquetes de estadísticos permiten conocer el resultado de la
prueba. Si la hipótesis de que la distribución es normal se rechaza, se tiene
evidencia de que el modelo normal no es adecuado, aunque para estimar la media
y hacer pruebas de hipótesis sobre la media puede usarse la normal como
aproximación ya que la distribución de la media se parece más a la distribución
normal a medida que el tamaño de muestra es más grande; recuerde el Teorema
Central del Límite. También otros estadísticos de prueba tienen distribuciones
que se pueden aproximar con la distribución normal cuando el tamaño de muestra
es grande.
10
parámetro de achatamiento no toma el valor que toma en la normal (prueba de
achatamiento), o a una causa no especificada en la prueba de normalidad de
D’Agostino (prueba general de normalidad).
11
la muestra se sugiere se haga la prueba no paramétrica de Wilcoxon que se
verá en la siguiente sección.
12