Está en la página 1de 52

PRUEBA DE HIPÓTESIS

CONCEPTOS BÁSICOS
La prueba de hipótesis comienza con una suposición,
denominada hipótesis, que hacemos entorno a un
parámetro de la población. Reunimos datos muéstrales,
producimos estadísticos de la muestra y con esta
información decidimos la probabilidad de que el parámetro
supuesto de la población sea correcto. Por ejemplo,
suponemos cierto valor de una media de la población. Para
verificar la validez de la suposición, obtenemos los datos
muéstrales y determinamos la diferencia entre el valor
supuesto y el valor real de la media muestral. A
continuación juzgamos si la diferencia es significativa.
Cuanto menos sea la diferencia, mayores probabilidades
habrá de que sea correcto el valor supuesto de la media. Y
a una diferencia más amplia corresponderá una
probabilidad menor.
No podemos aceptar ni rechazar una hipótesis referente a un
parámetro de la población por mera intuición. Por el
contrario, necesitamos aprender a decidir con objetividad,
basándonos en la información de la muestra, si aceptamos
o rechazamos un presentimiento.
a) Hipótesis
Se debe formular el supuesto valor del parámetro de la población antes de
empezar el muestreo. La suposición que se desea probar, se denomina
hipótesis nula y se representa por H0. Si se rechaza la hipótesis nula, la
conclusión que debemos aceptar se llama hipótesis alternativa y se
simboliza por H1.
Supongamos que se quiere probar la hipótesis de que el promedio de
calificación de los alumnos de la Universidad es de 85, entonces:

H0 :  = 85 Establece que la media de la población es igual a 85

La hipótesis alternativa se puede interpretar de tres maneras:

H1 :   85 Establece que la media de la población no es igual a 85.


H1 :   85 Establece que la media de la población es mayor que 85.
H1 :   85 Establece que la media de la población es menor que 85.

La prueba de hipótesis tiene como finalidad emitir un juicio sobre la


diferencia que existe entre el valor calculado del estadístico muestral y el
parámetro supuesto de la población. No consiste en poner en duda el
valor calculado del estadístico muestral.
Después de formular las hipótesis nula y alternativa, se debe decidir el criterio
que se va a aplicar para aceptar o rechazar la primera.
b) Nivel de significancia

Supongamos que la media de


calificaciones del ejemplo anterior de
85, se expresa con un nivel de
confianza del 95%, entonces el nivel de
significancia será de 0.05, es decir:
 = 1 – 0.95
Entonces:  = 0.05 Que representa el nivel
de significancia.
Se puede comprender mejor observando
la gráfica siguiente:
Zonas
El nivel de significancia está repartido en las zonas
de rechazo, 0.025 + 0.025 = 0.05, significa que
existe una diferencia significativa entre el
estadístico de la muestra y el supuesto
parámetro de la población, es decir, que si esto
se demuestra, se rechaza la hipótesis nula H0 de
que el promedio de la población sea de 85 y se
acepta la hipótesis alternativa H1.
Entonces se concluiría que el promedio de las
calificaciones de la población, no es de 85,
puede ser diferente, mayor o menor de 85.
El nivel de significancia representa la zona de
rechazo de la hipótesis nula y el nivel de
confianza de la zona de aceptación.
c) Selección de un nivel de significancia

No hay un nivel de significancia que sea


oficial o universal con el cual probar las
hipótesis. Pero la elección del criterio
mínimo de una probabilidad aceptable,
o nivel de significancia, es asimismo el
riesgo que se corre de rechazar una
hipótesis nula aunque sea verdadera.
Cuando más alto sea el nivel de
significancia que utilizamos al probar una
hipótesis, mayores probabilidades habrá
de rechazar una hipótesis nula que sea
verdadera.
d) Errores de tipo I y II
Si se rechaza una hipótesis nula que sea verdadera es un
error de tipo I, y su probabilidad se representa con . Si se
acepta una hipótesis nula que sea falsa se llama error de
tipo II, y su probabilidad se representa con . La
probabilidad de cometer uno de estos errores se reduce si
se aumenta la probabilidad de incurrir en otro tipo de
error. A fin de conseguir una  baja, habremos de
conformarnos con una  alta. Para sortear esto en
situaciones personales y profesionales, los encargados de
tomar decisiones eligen el nivel apropiado de significancia
examinando los costos o castigos que conllevan a ambos
tipos de error.
Por ejemplo: supóngase que el cometer un error de tipo I
implica el tiempo y el trabajo de reelaborar un lote de
sustancias químicas que debería haber sido aceptado. En
cambio, el incurrir en un error de tipo II significa correr el
riesgo de que se envenene un grupo entero de usuarios de
la sustancia. La gerencia de esta compañía preferiría el
error de tipo I al de tipo II y, en consecuencia, establecería
niveles muy elevados de significancia en sus pruebas para
conseguir  bajas.
e) Pasos para seleccionar la distribución correcta

1.- Se define el nivel de significancia a usar.


2.- Determinar la distribución adecuada de
probabilidad: puede ser la distribución normal o
la distribución t. Las reglas para elegir la
distribución apropiada al efectuar pruebas de
las medias son:
a. Si la muestra tomada es mayor de 30 (muestras
grandes), debe elegirse la distribución normal
(Z).
b. Si la muestra tomada es igual o menor que 30
(muestras pequeñas), debe elegirse la
distribución t.
PRUEBA DE HIPÓTESIS DE LAS MEDIAS DE
MUESTRAS GRANDES

Realizaremos algunos ejemplos, en


diferentes condiciones cuando
se conocen las desviaciones
estándar de la población.
a) Prueba de dos extremos para las medias

Es cuando el nivel de
significancia (zona de
rechazo) abarca los dos
extremos o colas de la
campana de Gauss.
Ejemplo 1.-

El fabricante de una llanta especial para camiones


afirma que la duración media de la parte
rodante de agarre es de 60,000 mi. La desviación
estándar de los millajes es de 5,000 mi. Una
empresa de transportes compró 48 llantas y halló
que la duración media para sus vehículos fue de
59,500 mi. ¿Es la experiencia distinta de la
expresada por el fabricante al nivel de
significación de 0.05?
 = 60,000 mi
 = 5,000 mi
Datos: n = 48 llantas
x = 59,500 mi
 = 0.05
Solución:

Las hipótesis se expresan de la siguiente manera:

H0 :  = 60,000 mi La duración de las llantas es de 60,000 millas


H1 :   60,000 mi La duración de las llantas es distinta a 60,000
millas

Primero, vamos a calcular el error estándar de la media y para


ello emplearemos la expresión del error estándar:

x 
n
Sustituyendo valores en ella, se tiene:

5,000 5,000
x  x  x  721.69 mi
48 6.9282
En el siguiente paso vamos a obtener el valor de “Z” y
para ello vamos a apoyarnos en la gráfica siguiente:
Recurrimos a las tablas de la distribución normal y
en ellas localizamos 0.475, que se ubica en un
valor de Z = 1.96 x
En el tercer paso, vamos a determinar los límites
superior e inferior de confianza para el intervalo
de la media poblacional ya que se trata de
una prueba de dos extremos. Para ello
aplicaremos la expresión siguiente:

Lc   H 0  Zx

Sustituyendo valores en ella, se tiene:

Lc = 60,000  1.96 (721.69)


Ls = 60,000 + 1,414.51 Ls = 61,414.51 millas.
Li = 60,000 – 1,414.51 Li = 58,585.49 millas

Entonces la media de la población fluctúa entre


58,585.49 y 61,414.51 millas en un nivel de
confianza del 95%.
Regresemos a la gráfica anterior para ubicar los
límites de confianza y la media muestral. Con
ello analizaremos si se acepta la hipótesis
nula además de verificar si es verdadera o
falsa.
La media muestral se ubica dentro de la zona de
aceptación, por lo que podemos decir que la
hipótesis nula es verdadera, pero vamos a verificar
está aseveración por medio de la expresión siguiente:

x
Z
x
59,500  60,000
Z
721.69
Z  0.693 __
X

Entonces la media muestral se ubica en -0.693 x y


se confirma que cae en la zona de aceptación.
Concluimos que la duración media de las
llantas es muy cercana a la que afirma el
fabricante de 60,000 millas, con un nivel de
significancia de 0.05.
b) Prueba de un extremo para las medias

En este caso, el nivel de significancia (zona de rechazo)


sólo abarca un extremo o cola de la campana de
Gauss.
Ejemplo 2.-
Una cadena de restaurantes afirma que el
tiempo medio de espera de clientes por
atender está distribuido normalmente con
una media de 3 minutos y una desviación
estándar de 1 minuto. Su departamento
de aseguramiento de la calidad halló en
una muestra de 50 clientes en un cierto
establecimiento que el tiempo medio de
espera era de 2.75 minutos. Al nivel de
significación de 0.05, ¿Es dicho tiempo
menor de 3 minutos?
 = 3 minutos.
 = 1minutos.
Datos: xn = 50 clientes.
= 2.75 minutos.
 = 0.05
Representemos estos datos en la campana de
Gauss:

Las hipótesis son:

Ho :  = 3 El tiempo promedio de espera es de 3 minutos.

H1 :   3 El tiempo promedio de espera es menor de 3 minutos.


Primero calculemos el error estándar de la media:

1 1
x  x  x  0.1414
50 7.07

Ahora determinemos el valor de Z, ya que tenemos una


muestra mayor de 30:
Como  = 0.05 y es una prueba de hipótesis para un
extremo, en este caso, el extremo izquierdo, entonces, el
nivel de significancia está contenido en este extremo,
por lo que el nivel de confianza es 0.5 – 0.05 = 0.45 .
Buscando en las tablas de la distribución normal 0.45,
encontramos que: Z= 1.64
x
El límite izquierdo del intervalo de confianza será:

Li = 3 – 1.64 (0.1414)
Li = 3 – 0.2319
Li = 2.768

Gráficamente esto se representa así:


La media muestral 2.75, se localiza en la zona
de rechazo, por lo que se puede
establecer que se rechaza la hipótesis
nula y se acepta la alternativa.
Comprobemos con :
x
Z 
x
2.75  3  0.25
Z Z Z  1.77 x
0.1414 0.1414

Como podemos observar 1.77 está localizado


más hacia la izquierda del límite de
confianza 1.64.
Podemos concluir que el tiempo medio de
espera de clientes por atender en este
establecimiento es menor de 3 minutos.
Ahora realizaremos un ejemplo cuando se desconoce la
desviación estándar de la población.
Ejemplo 3.-
Una cadena grande de tiendas de
autoservicio, expide su propia tarjeta de
crédito. El gerente de crédito desea
averiguar si el saldo insoluto medio
mensuales mayor que 400 dólares. El nivel de
significación se fija en 0.05. Una revisión
aleatoria de 172 saldos insolutos reveló que
la media muestral 407 dólares y la desviación
estándar de la muestra es 38 dólares.
¿Debería concluir ese funcionario de la
media poblacional es mayor que 400
dólares, o es razonable suponer que la
diferencia de 7 dólares (obtenida de 407-
400 = 7) se debe al azar?
 = 400 dólares.
n = 172 saldos insolutos.
Datos:
x = 407
ˆ dólares.
s = = 38 dólares (desviación
estándar estimada).
 = 0.05
Las hipótesis son:
Ho :  = 400 dólares.
H1 :   400 dólares.
Debido a que la hipótesis alternativa nos indica un
sentido a la derecha de la media, debemos aplicar
una prueba de una cola. Veamos la gráfica:
Si calculamos el error estándar estimados, tenemos que:

ˆ
ˆx 
n
38 38
x 
ˆ ˆx  ˆx  2.897
172 13.115

Si leemos en las tablas de la distribución


normal 0.45, encontramos que: Z = 1.64 ˆx
Determinando el límite superior del intervalo
de confianza, se tiene:
Ls = 400 + 1.64 (2.897)
Ls = 404.75 dólares.
Gráficamente esto ocurre:
Comprobando con: x
Z 
ˆx
407  400 7
Z Z Z  2.416 ˆx
2.897 2.897

Con esto comprobamos que el valor de la


media muestral, cae dentro de la zona de
rechazo, por lo que se rechaza la
hipótesis nula y se acepta la alternativa.
Con esto el gerente de crédito debe
concluir que el saldo insoluto medio
mensuales es mayor que 400 dólares.
PRUEBAS DE HIPOTESIS DE LAS
MEDIAS DE MUESTRAS PEQUEÑAS.
a) Prueba de dos extremos para
medias
Mediante el siguiente ejemplo explicaremos el
razonamiento a seguir para demostrar una prueba
de hipótesis de dos extremos con una muestra
menor a 30, en donde aplicaremos la distribución t.
Ejemplo 1.-
Un especialista en personal que labora en una
gran corporación, está reclutando un vasto
número de empleados para un trabajo en el
extranjero. Durante la realización de pruebas,
la gerencia pregunta cómo marchan las cosas
y el especialista contesta: “Bien, creo que la
puntuación promedio en el test de actitudes
será 90”. Cuando la gerencia revisa 20 de los
resultados de la prueba, averigua que la
puntuación media es 84 y la desviación
estándar de esta puntuación es 11. Si la
gerencia quiere probar la hipótesis del
especialista en personal en el nivel de
significancia de 0.10, ¿cuál será el
procedimiento a que recurra?
 = 90’’
n = 20
Datos: x = 84
s = = 11
 = 0.10
Las hipótesis son:
Ho:  = 90’’
H1 :   90’’
El error estándar estimado de la media será:

ˆ 11 11
x 
ˆ ˆx  ˆx  ˆx  2.46
n 20 4.472
En la tabla t de Student se localiza  = 0.10 y gl = 20 – 1, o
sea gl = 19 y se encuentra que: t = 1.729 ˆx
Con estos datos ya podemos determinar los limites superior
e inferior del intervalo de confianza, mediante la

Lc    tˆx
expresión:

Lc = 90”  1.729 (2.46) Ls = 90” + 4.246 Ls = 94.25”


Li = 90” – 1.729 (2.46) Li = 90” – 4.246 Li = 85.75”

Gráficamente esto sucede:


Como la media muestral cae en la zona de rechazo,
entonces se rechaza la hipótesis nula y se acepta
la hipótesis alternativa.
Concluimos que la gerencia tiene suficientes
evidencias para demostrar que el especialista está
equivocado, que la puntuación media no es 90.
b) Prueba de un extremo para
medias

Para este caso, ya sabemos que el nivel de significancia


(zona de rechazo) sólo abarca un extremo o cola de
la campana de Gauss.
Ejemplo 2.-
Una persona tomó una muestra aleatoria de
7 casas en un suburbio muy elegante de
una gran ciudad y encontró que el valor
promedio estimado del mercado era de
$560,000, con una desviación estándar de
$49,000. Pruebe la hipótesis de que, para
todas las casas del área, el valor medio
estimado es de $600,000, contra la
alternativa de que sea menor que
$600,000. Use el nivel de significancia de
0.05.
n = 7 casas
= $560,000
Datos:
x
s = = $49,000
ˆ
 = $600,000
 = 0.05
Las hipótesis son:
Ho :  = $600,000
H1 :   $600,000
Calculando el error estimado de la muestra, se tiene que:

ˆ 49,000 49,000
ˆx  ˆx  ˆx  ˆx  $18,518.52
n 7 2.646

Sabemos que el nivel de significancia es de 0.05, para una


cola, por lo que se supone, que si fuera una prueba para
dos colas, cada una tendría 0.05, es decir, el nivel de
significancia  = 0.10. Por lo tanto 0.10 es el valor que
debemos localizar en la tabla correspondiente de la
distribución t de Student, con 6 grados de libertad (7 – 1).
Encontramos entonces que t = 1.943 ˆx
Con estos datos, ya podemos determinar el límite inferior del
intervalo de confianza en donde se encuentra la
verdadera media de la población.

Li    t ˆx
Li = 600,000 – 1.943 (18,518.52) Li = $564,018.52

En la campana de Gauss:
Como la media muestral cae la zona de
rechazo, entonces se rechaza la hipótesis
nula y se acepta la hipótesis alternativa.
Comprobando lo anterior, se tiene que:

560,000  600,000  40,000


Z Z Z  2.16x
18,518.52 18,518.52

Podemos concluir que el valor medio estimado


del valor de todas las casas es menor de
$600,000.
PRUEBA DE HIPOTESIS PARA
PROPORCIONES

a) Prueba de dos extremos para proporciones.


La prueba de hipótesis para proporciones, tiene algunas
variantes en la demostración de las hipótesis respecto
a la prueba de hipótesis de medias, variantes que se
irán explicando conforme se vayan aplicando.
Ejemplo 1.-
Una compañía que está evaluando la promovibilidad de
sus empleados; es decir, está determinando la
proporción de aquellos cuya habilidad, preparación y
experiencia en la supervisión los clasifica para un
ascenso a niveles superiores de la jerarquía. El director
de recursos humanos le dice al presidente que el 80%,o
sea el 0.8, de los empleados son “promovibles”. El
presidente crea un comité especial para valorar la
promovibilidad de todo el personal. El comité realiza
entrevistas en profundidad con 150 empleados y en su
juicio se da cuenta que sólo el 70% de la muestra llena
los requisitos de la promoción. El presidente quiere
probar, en un nivel de significancia de 0.05, la hipótesis
de que 0.8 de los empleados pueden ser promovidos.
p = 0.8
q = 0.2
Datos: n = 150
p= 0.7
q = 0.3
 = 0.05
Las hipótesis son:
Ho : p = 0.8 80% de los empleados son
promovibles.
H1 : p  0.8 La proporción de empleados
promovibles no es 80%.
Primero calculamos el error estándar de la
proporción, mediante la siguiente expresión:

pH 0 qH 0
 
n

Sustituyendo valores:

(.8)(.2)
p  p  0.0010666 p  0.0327
150
En este caso, la compañía quiere saber si la
verdadera proporción es mayor o menor que
la supuesta proporción. Por consiguiente, es
apropiada una prueba de dos extremos para
una proporción. El nivel de significancia
corresponde a las dos regiones sombreadas,
cada una de las cuales contiene 0.025 del
área. La región de aceptación de 0.95 se
ilustra como dos áreas de 0.475 cada una.
Puesto que la muestra es mayor que 30,
podemos recurrir la distribución normal.
Basándonos en la tabla de ésta distribución,
podemos calcular que el valor
correspondiente de Z para 0.475 del área bajo
la curva es 1.96 . Por tanto, los limites de la
región de aceptación son:
Lc = PH0  Z 
Lc = 0.8  1.96(0.0327)
Ls = 0.8 + 0.06409 Ls = 0.8641
Li = 0.8 – 0.06409 Li = 0.7359

Viéndolo en la campana de Gauss:


La probabilidad
p de la muestra =
0.7, se localiza en la zona de
rechazo, por lo que se rechaza la
hipótesis nula y se acepta la
alternativa. Vamos a demostrarlo:

0.7  0.8  0.1


Z Z Z  3.058p
0.0327 0.0327

Podemos concluir que existe una


diferencia significativa entre la supuesta
proporción de empleados promovibles
comunicada por el director de recursos
humanos y la observada en la muestra,
la proporción de toda la compañía no es
del 80%.
b) Prueba de un extremo para
proporciones

Ejemplo 2.- Un artículo reciente en el periódico


Reforma reportó que un empleado está
disponible sólo para que uno de tres egresados
universitarios con grado. Las principales razones
aportadas fueron que existe una
sobreabundancia de graduados de universidad y
una economía débil. Suponga que una encuesta
con 200 graduados recientes de la institución de
usted, revela que 80 estudiantes tenían empleo.
Al nivel de significancia de 0.02, ¿se puede
concluir que una proporción mayor de
estudiantes egresados tienen trabajo?
p = 0.8
q = 0.2
Datos: n = 150
p = 0.7
q = 0.3
 = 0.05
Las hipótesis son:
Ho : p = 0.3333
H1 : p  0.3333
Calcularemos primero el error estándar de la
proporción:

pHo qHo
p 
n

Sustituyendo valores:

(0.3333) (0.6667) 0.2222


p  p  p  .0011 p  0.0333
200 200
En este caso, se quiere saber si la verdadera
proporción es mayor que la supuesta proporción.
Por consiguiente, es apropiada una prueba de un
extremo para una proporción. El nivel de
significancia corresponde a la región derecha de
rechazo. La región de aceptación de 0.98 se ilustra
como un área de 0.5 y otra de 0.48 como la
muestra es mayor de 30, podemos recurrir a la
distribución normal. Basándonos en la tabla de de
esta distribución el valor correspondiente de Z, para
0.48 del área bajo la curva es 2.05, por tanto, el
límite de la región de aceptación es:
p Ls = 0.3333 + 2.05 (0.0333) Ls = 0.3333 + 0.068265
Ls = 0.4016
Como = 0.4, y es menor que 0.4016, se localiza en la
zona de aceptación, entonces, p se pacepta la
hipótesis nula. Z
Demostrando lo anterior se tiene: p
0.4  0.3333 0.0667
Z Z Z  2.003p
0.0333 0.0333

En la campana de Gauss:
Concluimos que no es mayor la proporción de
estudiantes egresados que tienen trabajo.
C) Prueba de hipótesis para
proporciones de muestras pequeñas.

Si usamos la distribución t para una prueba hipótesis


para proporciones en muestras pequeñas, de dos
colas, seguimos el mismo procedimiento que se
utilizó en la prueba para medias de muestras
pequeñas.
Lo mismo sucede si se trata de una prueba de un
extremo, recordando que, para obtener el valor
apropiado de t en un nivel de significancia de 0.05
con 10 grados de libertad, buscaremos en la tabla
de la distribución t bajo la columna 0.10, frente al
renglón 10 grados de libertad. Esto es verdad
porque la columna 0.10 del área bajo la curva
contenida en ambos extremos combinados; por
ello también representa 0.05 del área bajo la curva
contenida en cada uno de los extremos. Por esta
razón en lugar de buscar en la columna 0.05, se
busca 0.10.

También podría gustarte