Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contrastes de hipótesis
Introducción
En este Tema desarrollamos métodos para contrastar hipótesis que nos permiten contrastar la
validez de una conjetura o de una afirmación utilizando datos muestrales. Este tipo de inferencia
contrasta con los métodos de estimación y los complementa. El proceso comienza cuando un
investigador formula una hipótesis sobre la naturaleza de una población. La formulación de esta
hipótesis implica claramente la elección entre dos opciones; a continuación, el investigador
selecciona una opción basándose en los resultados de un estadístico calculado a partir de una
muestra aleatoria de datos. He aquí algunos ejemplos de problemas representativos:
En este Tema desarrollamos métodos para contrastar hipótesis que nos permiten contrastar la
validez de una conjetura o de una afirmación utilizando datos muestrales. Este tipo de inferencia
contrasta con los métodos de estimación y los complementa. El proceso comienza cuando un
investigador formula una hipótesis sobre la naturaleza de una población. La formulación de esta
hipótesis implica claramente la elección entre dos opciones; a continuación, el investigador
selecciona una opción basándose en los resultados de un estadístico calculado a partir de una
muestra aleatoria de datos. He aquí algunos ejemplos de problemas representativos:
1. Cereales Malteados, S.A., fabricante de cereales de desayuno, sostiene que sus cajas
de cereales pesan al menos 16 onzas. La empresa puede contrastar esta afirmación
recogiendo una muestra aleatoria de cajas de cereales, pesando cada una y
calculando el peso medio de los datos de la muestra.
2. Un fabricante de piezas de automóvil quiere verificar su proceso de producción para
garantizar que el diámetro de los pistones cumple las especificaciones sobre
tolerancia. Podría obtener muestras aleatorias cada 2 horas de la línea de producción
y utilizarlas para averiguar si están cumpliéndose las normas.
Estos ejemplos se basan en un tema común. Formulamos una hipótesis sobre un parámetro
poblacional y utilizamos datos muestrales para contrastar la validez de nuestra hipótesis.
Aquí presentamos un modelo general para contrastar hipótesis utilizando estadísticos calculados
a partir de muestras aleatorias. Dado que estos estadísticos tienen una distribución en el
muestreo, tomamos nuestra decisión en presencia de una cierta variación aleatoria. Por lo tanto,
necesitamos unas reglas claras de decisión para elegir entre las dos opciones. El proceso que
desarrollamos aquí tiene una analogía directa con un juicio con jurado. En un juicio con jurado,
suponemos que el acusado es inocente y el jurado decide que una persona es culpable sólo si
existen pruebas muy contundentes en contra de la presunción de inocencia. Ese proceso para
elegir entre la culpabilidad y la inocencia tiene:
1. Rigurosos procedimientos para presentar y evaluar la evidencia
2. Un juez para aplicar las reglas
3. Un proceso de decisión que supone que el acusado es inocente a menos que exista
evidencia que demuestre su culpabilidad más allá de una duda razonable.
Obsérvese que este proceso no condena a algunas personas que, en realidad, son culpables. Pero
si se rechaza la inocencia de una persona y se la halla culpable, tenemos la firme convicción de
que es culpable.
Comenzamos el método del contraste de hipótesis considerando un valor de un parámetro de la
distribución de probabilidad de una población, por ejemplo, la media, µ, la varianza, σ2, o la
proporción, P. Nuestro método empieza con una hipótesis sobre el parámetro —llamada
hipótesis nula— que mantendremos a menos que existan pruebas contundentes en contra de
ella. Si rechazamos la hipótesis nula, entonces aceptaremos la segunda hipótesis, llamada
hipótesis alternativa. Sin embargo, si no rechazamos la hipótesis nula, no podemos concluir
necesariamente que es correcta. Si no la rechazamos, o bien es correcta la hipótesis nula, o bien
es correcta la hipótesis alternativa, pero nuestro método de contraste no es suficientemente
fuerte para rechazar la hipótesis nula.
Utilizando nuestro ejemplo del fabricante de cereales, podríamos comenzar suponiendo que el
peso medio de los paquetes es de 16 onzas, por lo que nuestra hipótesis nula es:
𝐻0 ∶ 𝜇 = 16
Una hipótesis, ya sea nula o alternativa, puede especificar un único valor —en este caso, µ =
16— para el parámetro poblacional µ. Decimos que esta hipótesis es una hipótesis simple, que
se lee de la siguiente manera: «la hipótesis nula es que el parámetro poblacional µ es igual a un
valor específico de 16». En este ejemplo de los cereales, una hipótesis alternativa posible es que
el peso medio de los paquetes se encuentra en el intervalo de valores superiores a 16 onzas:
𝐻0 ∶ 𝜇 > 16
Esta hipótesis alternativa se llama hipótesis alternativa compuesta unilateral. Otra posibilidad
sería contrastar la hipótesis nula frente a la hipótesis alternativa compuesta bilateral:
𝐻0 ∶ 𝜇 ≠ 16
Elegimos estas hipótesis de manera que una o la otra tenga que ser cierta. En este libro,
representamos la hipótesis nula por medio del símbolo 𝐻0 y la hipótesis alternativa por medio
del símbolo 𝐻1 .
Al igual que ocurre en un juicio con jurado, seguimos un riguroso método para elegir una
hipótesis o la otra. Utilizamos un estadístico calculado a partir de una muestra aleatoria, como
una media muestral, 𝑋, una varianza muestral, 𝑆 2 , o una proporción muestral, 𝑝.
El estadístico tendrá una distribución en el muestreo conocida, basada en el método de muestreo
y el valor del parámetro especificado por la hipótesis nula. A partir de esta distribución en el
muestreo, hallamos los valores del estadístico que tienen una pequeña probabilidad de ocurrir si
la hipótesis nula es verdadera. Si el estadístico tiene un valor que tiene una pequeña
probabilidad de ocurrir cuando la hipótesis nula es verdadera, rechazamos la hipótesis nula y
aceptamos la hipótesis alternativa.
Sin embargo, si el estadístico no tiene una pequeña probabilidad de ocurrir cuando la hipótesis
nula es verdadera, no rechazaremos la hipótesis nula. La especificación de la hipótesis nula y de
la hipótesis alternativa depende del problema, como indican los siguientes ejemplos.
1. Cereales Malteados quiere averiguar si el peso medio de las cajas es mayor de lo que
éstas indican. Sea k el peso medio poblacional (en onzas) de los cereales por caja. La
hipótesis nula compuesta es que esta media es de 16 onzas como máximo:
𝐻0 ∶ 𝜇 ≤ 16
y la alternativa evidente es que el peso medio es de más de 16 onzas:
𝐻0 ∶ 𝜇 > 16
En este problema, buscaríamos pruebas contundentes de que el peso medio de las cajas es de
más de 16 onzas. Por ejemplo, una empresa querría evitar que se emprendieran acciones legales
contra ella porque el peso de las cajas fuera bajo. Tendría confianza en su creencia si tuviera
pruebas contundentes que permitieran rechazar 𝐻0 .
2. Una fábrica de pistones para automóviles ha propuesto un proceso para controlar
periódicamente el diámetro de los pistones. Cada 2 horas se seleccionaría una muestra
aleatoria de 𝑛 = 6 pistones del proceso de producción y se medirían sus diámetros. Se
calcularía el diámetro medio de los 6 pistones y se utilizaría para contrastar la hipótesis
nula simple:
𝐻0 ∶ 𝜇 = 3.800
frente a la hipótesis alternativa:
𝐻0 ∶ 𝜇 ≠ 3.800
En este caso, la empresa continuaría funcionando a menos que se rechazara la hipótesis nula en
favor de la hipótesis alternativa. La existencia de pruebas contundentes de que los pistones no
están cumpliendo las normas de tolerancia llevaría a interrumpir el proceso de producción.
Una vez que hemos especificado la hipótesis nula y la hipótesis alternativa y hemos recogido
datos muestrales, debemos tomar una decisión sobre la hipótesis nula. Podemos rechazarla y
aceptar la hipótesis alternativa o no rechazarla. Hay buenas razones por las que muchos
estadísticos prefieren no decir «aceptamos la hipótesis nula» en lugar de «no rechazamos la
hipótesis nula».
Cuando no rechazamos la hipótesis nula, o bien ésta es verdadera, o bien nuestro método de
contraste no es suficientemente fuerte para rechazarla y hemos cometido un error. Para
seleccionar la hipótesis —nula o alternativa— desarrollamos una regla de decisión basada en la
evidencia muestral. Más adelante presentamos reglas de decisión específicas para varios
problemas. En muchos casos, la forma de la regla es bastante obvia.
Para contrastar la hipótesis nula de que el peso medio de las cajas de cereales es de menos de 16
onzas, obtenemos una muestra aleatoria de cajas y calculamos la media muestral. Si la media
muestral es considerablemente superior a 16 onzas, podemos rechazar la hipótesis nula y aceptar
la hipótesis alternativa. En general, cuanto más distante de 16 sea la media muestral, mayor será
la probabilidad de rechazar la hipótesis nula. Más adelante desarrollamos reglas de decisión
específicas.
En el curso anterior se vieron las distribuciones en el muestreo, vimos que la media muestral es
diferente de la media poblacional. Con una media muestral solamente, no podemos estar
seguros del valor de la media poblacional. Por lo tanto, sabemos que la regla de decisión
adoptada tiene alguna probabilidad de extraer una conclusión errónea.
La Tabla 1 resume los tipos posibles de error. El error de Tipo I es la probabilidad de rechazar la
hipótesis nula cuando ésta es verdadera. Definimos nuestra regla de decisión de tal forma que la
probabilidad de rechazar una hipótesis nula verdadera, representada por α, es «pequeña». α es el
nivel de significación del contraste. La probabilidad de no rechazar la hipótesis nula cuando es
verdadera es (1 − 𝛼).
También existe otro error posible, llamado error de Tipo II, que se comete cuando no se rechaza
una hipótesis nula falsa. En una regla de decisión específica, la probabilidad de cometer ese
error cuando la hipótesis nula es falsa se representa por medio de 𝛽. La probabilidad de rechazar
una hipótesis nula falsa es (1 − 𝛽) y se denomina potencia del contraste.
Tabla 1. Estados de la naturaleza y decisiones sobre la hipótesis nula, con las probabilidades
de tomar las decisiones, dados los estados de la naturaleza.
Decisiones sobre Estados de la naturaleza
la hipótesis nula La hipótesis nula es verdadera La hipótesis nula es falsa
No rechazar 𝐻0 Decisión correcta Error de Tipo II
Probabilidad= 1 − 𝛼 Probabilidad= 𝛽
Rechazar 𝐻0 Error de Tipo I Decisión correcta
Probabilidad= 𝛼 Probabilidad= 1 − 𝛽
(𝛼se llama nivel de significación) (1 − 𝛽se llama potencia del
contraste)
Ilustraremos estas ideas por medio del ejemplo anterior. El director de una fábrica está tratando
de averiguar si la media poblacional del peso de las cajas es mayor de lo que indican éstas. La
hipótesis nula es que en la población el peso medio de las cajas es inferior o igual al de 16 onzas
que indican éstas. Se contrasta esta hipótesis nula frente a la hipótesis alternativa de que el peso
medio de las cajas es de más de 16 onzas.
Para contrastar la hipótesis, tomamos una muestra aleatoria independiente de cajas de cereales y
calculamos la media muestral. Si ésta es muy superior a 16 onzas, rechazamos la hipótesis nula.
En caso contrario, no la rechazamos. Sea 𝑋 la media muestral. Una regla de decisión posible es
Rechazar 𝐻0 si 𝑋 > 16.13
Supongamos ahora que la hipótesis nula es verdadera. Podríamos observar, aun así, que la
media muestral es superior a 16,13 y, según nuestra regla de decisión, la hipótesis nula se
rechazaría. En ese caso, habríamos cometido un error de Tipo I. La probabilidad de rechazo
cuando la hipótesis nula es verdadera es el nivel de significación α.
Supongamos, por el contrario, que la hipótesis nula es falsa y que la media poblacional del peso
de las cajas es de más de 16. Podríamos observar, aun así, que la media muestral es inferior a
16,13 y, según nuestra regla de decisión, la hipótesis nula no se rechazaría. Por lo tanto,
habríamos cometido un error de Tipo II. La probabilidad de cometer ese error dependerá de la
cuantía exacta en que la media poblacional sea superior a 16. Veremos que es más probable que
se rechace la hipótesis nula, dado el tamaño de la muestra, si la media poblacional es 16,5 que si
es 16,1.
En teoría, nos gustaría que las probabilidades de los dos tipos de error fueran lo más pequeñas
posible. Sin embargo, existe una disyuntiva entre las probabilidades de los dos tipos de errores.
Dada una muestra, cualquier reducción de la probabilidad de cometer un error de Tipo I, α,
provocará un aumento de la probabilidad de cometer un error de Tipo II, β, y viceversa.
Debemos hacer hincapié aquí en que no existe una sustitución lineal directa (por ejemplo, una
reducción de α de 0,02 no provoca normalmente un aumento de β de 0,02). Por lo tanto, en el
ejemplo anterior, la probabilidad de cometer un error de Tipo I, α, podría reducirse cambiando
la regla de decisión por:
Dado que la regla de decisión depende del nivel de significación elegido para el contraste, el
concepto de potencia no afecta directamente a la decisión de rechazar o no rechazar una
hipótesis nula. Sin embargo, calculando la potencia del contraste para niveles de significación y
valores de 𝜇 específicos incluidos en H1, tendremos valiosa información sobre las propiedades
de la regla de decisión.
Por ejemplo, veremos que aumentando el tamaño de la muestra, la potencia del contraste
aumentará para un nivel dado de significación, α. Por lo tanto, sopesaremos el incremento de los
costes que implica un aumento del tamaño de la muestra y los beneficios de aumentar la
potencia del contraste. El cálculo de la potencia también es útil cuando, dado el tamaño de la
muestra, podemos elegir entre dos o más contrastes que tienen los mismos niveles de
significación. En ese caso, sería adecuado elegir el contraste que tenga la menor probabilidad de
cometer un error de Tipo II, es decir, el contraste que tenga la mayor potencia.
Más adelante mostramos cómo pueden formularse reglas de decisión, dados unos niveles de
significación, para algunas clases importantes de problemas de contraste de hipótesis. También
mostramos cómo puede calcularse la potencia de un contraste. A continuación, resumimos los
términos y las ideas importantes que hemos presentado hasta ahora.
Resumen de la terminología del contraste de hipótesis
Hipótesis nula 𝑯𝟎 : hipótesis que se mantiene que es verdadera, a menos
que se obtenga suficiente evidencia en contra.
Hipótesis alternativa 𝑯𝟏 : hipótesis frente a la que se contrasta la
hipótesis nula y que se mantiene que es verdadera si se rechaza la
hipótesis nula.
Hipótesis simple: hipótesis que especifica un único valor para un
parámetro poblacional de interés.
Hipótesis compuesta: hipótesis que especifica un rango de valores para
un parámetro poblacional.
Hipótesis alternativa unilateral: hipótesis alternativa que implica todos
los valores posibles de un parámetro poblacional a un lado o al otro (es
decir, mayores o menores) del valor especificado por una hipótesis nula
simple.
Hipótesis alternativa bilateral: hipótesis alternativa que implica todos los
valores posibles de un parámetro poblacional distintos del valor
especificado por una hipótesis nula simple.
Decisiones de un contraste de hipótesis: se formula una regla de decisión
que lleva al investigador a rechazar o no la hipótesis nula basándose en la
evidencia muestral.
Error de Tipo I: rechazo de una hipótesis nula verdadera.
Error de Tipo II: aceptación de una hipótesis nula falsa.
Nivel de significación: probabilidad de rechazar una hipótesis nula que es
verdadera. Esta probabilidad a veces se expresa en porcentaje, por lo que
un contraste de nivel de significación α se denomina contraste de nivel
100α%.
Potencia: probabilidad de rechazar una hipótesis nula que es falsa.
En los resúmenes formales de los resultados de los contrastes, utilizamos los términos rechazar
y no rechazar posibles decisiones sobre una hipótesis nula. Veremos que estos términos no
reflejan correctamente la asimetría de los estatus de hipótesis nula e hipótesis alternativa o las
consecuencias de un método en el que el nivel de significación es fijo y la probabilidad de
cometer un error de Tipo II no se controla.
La hipótesis nula tiene el estatus de una hipótesis que se mantiene —que se sostiene que es
verdadera— a menos que los datos contengan pruebas contundentes para rechazarla. Fijando un
bajo nivel de significación, α, tenemos una pequeña probabilidad de rechazar una hipótesis nula
verdadera. Cuando la rechazamos, la probabilidad de cometer un error es el nivel de
significación, α.
Pero si sólo hay una pequeña muestra, rechazamos la hipótesis nula solamente cuando es
totalmente errónea. A medida que aumenta el tamaño de la muestra, también aumenta la
probabilidad de rechazar una hipótesis nula falsa. Pero si no se rechaza una hipótesis nula, es
mucho mayor la incertidumbre, porque no sabemos cuál es la probabilidad de cometer un error
de Tipo II.
Por lo tanto, si no rechazamos una hipótesis nula, o bien es verdadera, o bien nuestro método
para detectar una hipótesis nula falsa no tiene suficiente potencia, por ejemplo, el tamaño de la
muestra es demasiado pequeño. Cuando rechazamos la hipótesis nula, tenemos pruebas
contundentes de que no es verdadera y, por lo tanto, de que la hipótesis alternativa es verdadera.
Si buscamos pruebas contundentes a favor de un determinado resultado, ese resultado es la
hipótesis alternativa, H1, y el otro es la hipótesis nula, H0.Se denomina argumento
contrafactual. Cuando rechazamos H0, existen pruebas contundentes a favor de H1 y estamos
seguros de que nuestra decisión es correcta. Pero si no rechazamos la hipótesis nula, tenemos
una gran incertidumbre. En los siguientes apartados vemos muchas aplicaciones de esta idea.
La analogía con un juicio es evidente. El acusado goza de la presunción de inocencia (la
hipótesis nula) a menos que existan pruebas contundentes que indiquen que es culpable más allá
de una duda razonable (rechazo de la hipótesis nula). El acusado puede ser declarado inocente
bien porque lo es, bien porque las pruebas no son lo bastante poderosas para condenarlo. La
carga de la prueba está en los datos muestrales.
Recuerden que el valor𝜇0 es cualquier valor que pueda tomar por hipótesis la media
poblacionalµ.
Como ejemplo supongamos que se está haciendo un contraste sobreµla media poblacional.
Además supongamos que la desviación estándar poblacional σ es conocida y la población se
distribuye normal. Como sabemos el mejor estimador puntual para µes𝑋, y desde el principio se
asume que𝜇 = 𝜇0 es verdadera al menos que la evidencia proporcionada en una muestra
aleatoria determine lo contrario.
Si el tamaño de la muestra es grande de tamaño 𝑛 la distribución muestral del estadístico de
prueba𝑋es normal sin importar la distribución poblacional de procedencia según el teorema del
límite central, razón por la cual𝐸 𝑋 = 𝜇0 .
Sabemos además que la probabilidad de rechazar𝐻0 siendo esta cierta es igual a α, y si tenemos
que calcular una probabilidad para la distribución normal descubriremos que el estadístico
𝑋 − 𝜇0
𝑍0 = 𝜎
𝑛
𝑋 − 𝜇0
𝑃 −𝑧𝛼 < 𝜎 < 𝑧𝛼 = 1−𝛼
2 2
𝑛
𝑋 − 𝜇0
−𝑧𝛼 < 𝜎 < 𝑧𝛼
2 2
𝑛
𝜎 𝜎
𝑋 − 𝑧𝛼 < 𝜇0 < 𝑋 + 𝑧𝛼
2 𝑛 2 𝑛
Se espera que contenga el 1 − 𝛼 100% de las veces el valor de 𝜇0 . Ahora lo que realmente nos
importa es obtener la probabilidad de rechazar 𝐻0 si esta es verdadera que sería el área
contraria ocomplementaria del intervalo anterior es decir calcular la siguiente probabilidad
𝑋 − 𝜇0
𝑃 𝜎 > 𝑧𝛼 =𝛼
2
𝑛
𝑃 𝑍0 > = 𝛼
Y de esta expresión deducimos que las áreas en las cuales rechazamos la hipótesis nula, vienen
dadas por las siguientes expresiones
𝑍0 > 𝑧𝛼
2
𝑍0 < −𝑧𝛼
2
Al costado superior derecho se pueden apreciar las hipótesis, siendo las regiones sombreadas en
amarillo las áreas donde se rechaza 𝐻0 , es decir que si el valor 𝑍0 es mayor que el valor
𝑧𝛼 entonces rechazamos 𝐻0 , o si el valor 𝑍0 es menor que el valor −𝑧𝛼 rechazamos 𝐻0 .
2 2
Como existen tres contrastes posibles resumamos las hipótesis y sus regiones de rechazo.
Si la hipótesis alternativa 𝐻1 es:
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 > 𝜇0
Como anteriormente se mencionó anteriormente las regiones de rechazo serán calculas según el
tipo de hipótesis alternativa que tengamos. De esta forma las regiones de rechazo para las
diferentes hipótesis alternativas serán
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 > 𝜇0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑍0 > 𝑧𝛼 .
𝑍0 < −𝑧𝛼 2
𝑍0 > 𝑧𝛼
𝑍0 < −𝑧𝛼 o𝑍0 > 𝑧𝛼
2 2
Ahora que sabemos los pasos a seguir procederemos a demostrar lo anteriormente expresado
con algunos ejemplos. El lector debe tener en cuenta que en situaciones reales se puede
presentar variaciones a los ejemplos pero esta metodología es aplicable tanto para el caso en el
que se nos dan los valores que se requieren en la formula, o cuando nos den los datos
individuales en una lista (como comúnmente los tienen la mayoría de las empresas en hojas de
cálculo). En este último caso solamente se calcula la media aritmética 𝑋 , y como la varianza
poblacional 𝜎 2 es conocida ya estamos en el primer caso.
Ejemplo 1.
El director de producción de Circuitos Ilimitados le ha pedido ayuda para analizar un proceso de
producción. Este proceso consiste en hacer taladros cuyo diámetro sigue una distribución
normal de media poblacional 2 centímetros y desviación típica poblacional 0,06 centímetros.
Una muestra aleatoria de 30 mediciones tenía una media muestral de 1,95 centímetros. Utilice
un nivel de significación de α = 0,05 para averiguar si la media muestral observada es
excepcional y sugiere que debe ajustarse la taladradora.
Solución
Paso 1
En primer lugar nos dicen que la media poblacional es de 2 cm por lo tanto 𝐻0 : 𝜇 = 2 𝑐𝑚.
Por otro lado nos dicen que se tiene que para averiguar si la media muestral observada es
excepcional y sugiere que debe ajustarse la taladradora por tanto 𝐻1 : 𝜇 ≠ 2 𝑐𝑚.
Resumiendo la información anterior
𝐻0 : 𝜇 = 2 𝑐𝑚
𝐻1 : 𝜇 ≠ 2 𝑐𝑚.
Paso 2
α = 0,05.
Paso 3
Como el tamaño de la muestra es de 30, la población es normal y la varianza es conocida el
estadístico de prueba es
𝑋 − 𝜇0
𝑍0 = 𝜎
𝑛
Paso 4
Como la hipótesis alternativa es 𝜇 ≠ 2 𝑐𝑚 la región de rechazo viene dada por
Si α = 0.05 entonces α/2 = 0.025. Utilizando la aplicación o la tabla el valor de la normal sería
𝑧𝛼 = 𝑧0.025 = 1.96por lo cual nuestras regiones de rechazo serían
2
𝑋 − 𝜇0
𝑍0 = 𝜎
𝑛
Paso 4: como 𝛼 = 0.05 entonces 𝑧0.05 = 1.645. La regla de decisión es si 𝑍0 es mayor que
1.645 se rechaza 𝐻0 .
𝑋 − 𝜇0 71.8 − 70
𝑍0 = 𝜎 = 8.9 = 2.02
𝑛 100
Decisión: se concluye rechazar𝐻0 y afirmar que la vida media actual es mayor que 70 años con
un nivel de significancia del 5%.
Este representa el único cambio en la metodología que hemos seguido hasta ahora.
Demostrémoslo con un ejemplo
Ejemplo 3
La producción diaria para una planta química local ha promediado 880 toneladas en los últimos
años. A la gerente de control de calidad le gustaría saber si este promedio ha cambiado en meses
recientes. Ella selecciona al azar 50 días de entre la base de datos y calcula el promedio y
desviación estándar de las 𝑛 = 50 producciones como 𝑥 = 871 toneladas y 𝑠 = 21 toneladas,
respectivamente. Pruebe la hipótesis apropiada usando 𝛼 = 0.05.
Solución
Paso 1: las hipótesis son las siguientes
𝐻0 : 𝜇 = 880
𝐻1 : 𝜇 ≠ 880
Paso 2: 𝛼 = 0.05.
Paso 3:
𝑋 − 𝜇0
𝑍0 = 𝑠
𝑛
Paso 4: como 𝛼 = 0.05 entonces 𝛼/2 = 0.025 y 𝑧0.025 = 1.96. La regla de decisión es si 𝑍0
es mayor que 1.96 o es menor que −1.96 se rechaza 𝐻0 .
Paso 5: la información suministrada por el enunciado es la siguiente 𝑥 = 871, 𝑠 = 21,𝜇0 =
880 y 𝑛 = 50
Sustituyendo
𝑋 − 𝜇0 871 − 880
𝑍0 = 𝑠 = 21 = −3.03
𝑛 50
Definición: Un valor-p es una probabilidad que aporta una medida de una evidencia
suministrada por la muestra contra la hipótesis nula. Valores-p pequeños indican una evidencia
mayor contra la hipótesis nula.
Cuando se utilizan paquetes de software estadístico es más común la interpretación de la región
de rechazo sobre 𝐻0 bajo el criterio del p-valor comparado con la metodología anteriormente
expuesta. Esto se debe a que es más intuitiva o más sencilla la interpretación en cuanto a
rechazar o no 𝐻0 . A continuación se presenta este criterio.
REGLA PARA EL RECHAZO USANDO EL VALOR-p
Rechazar 𝐻0 si el 𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≤ 𝛼
Para entenderlo mejor presentamos el siguiente ejemplo
Ejemplo 4
El promedio semanal de ganancias para trabajadoras sociales es $670. ¿Los hombres de la
misma posición tienen ganancias semanales promedio más altas que los de las mujeres? Se toma
Una muestra aleatoria de 𝑛 = 40 trabajadores sociales y se pide probar la hipótesis apropiada
usando 𝛼 = 0.01.Los datos se muestran a continuación
820 784 796 835 736 795 700 870 543 809
638 693 887 679 683 733 648 790 681 787
748 735 542 702 713 757 593 751 671 845
532 882 726 716 654 722 753 659 906 905
Solución
En este caso vamos a hacer uso del paquete estadístico R para desarrollar los cálculos y
presentar el resultado del p-valor.
Paso 1: las hipótesis son las siguientes
𝐻0 : 𝜇 = 670
𝐻1 : 𝜇 > 670
Paso 2: 𝛼 = 0.01.
Los siguientes pasos aplicados anteriormente están resumidos en la siguiente salida la cual
vamos a conocer e interpretar
>t.test(x,alternative = "greater",mu = 670, conf.level = 0.99)
One Sample t-test
data: x
t = 4.338, df = 39, p-value = 4.921e-05
alternative hypothesis: true mean is greater than 670
99 percent confidence interval:
698.8607 Inf
sample estimates:
mean of x
735.475
El valor correspondiente a t = 4.338 corresponde al valor de 𝑍0 pero notamos que no nos dan los
valores críticos correspondientes a 𝑧𝛼 2 para conformar las regiones de rechazo del paso 4 y
tomar la decisión del paso 5. Sin embargo en lugar de esto nos otorgan el valor correspondiente
al valor-p como p-value = 4.921e-05 pero este valor esta en notación científica por lo tanto es
necesario expresarlo en notación decimal como 0.00004921.
Ahora tomaremos nuestra decisión tomando en cuenta el criterio del p-valor el cual dice que se
rechaza la hipótesis nula si el p-valor es menor o igual a α.
Tomando en cuenta el criterio anteriormente expuesto concluimos rechazar 𝐻0 debido a que el
valor-p = 0.00004921 es menor que 𝛼 = 0.01 es decir podemos concluir que el promedio
semanal de ganancia para trabajadores sociales de sexo masculino es más alta que el promedio
para trabajadoras.
Contrastes de hipótesis sobre una proporción poblacional p
Otro importante conjunto de problemas empresariales y económicos consiste en contrastar
proporciones poblacionales. Los ejecutivos tienen interés en saber cuál es la cuota porcentual de
mercado de sus productos y las autoridades tienen interés en saber cuál es el porcentaje de la
población que apoya una nueva propuesta. Por lo tanto, la inferencia sobre la proporción
poblacional basada en proporciones muestrales es una importante aplicación del contraste de
hipótesis.
Comenzamos con una muestra aleatoria de 𝑛 observaciones procedentes de una población que
tiene una proporción 𝑃 cuyos miembros poseen un determinado atributo. Si 𝑃(1 − 𝑃) > 9 y la
proporción muestral es 𝑝, los siguientes contrastes tienen el nivel de significación α:
𝐻0 : 𝑃 = 𝑃0 𝐻0 : 𝑃 = 𝑃0 𝐻0 : 𝑃 = 𝑃0
𝐻1 : 𝑃 < 𝑃0 𝐻1 : 𝑃 ≠ 𝑃0 𝐻1 : 𝑃 > 𝑃0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑍0 > 𝑧𝛼 .
𝑍0 < −𝑧𝛼 2
𝑍0 > 𝑧𝛼
𝑍0 < −𝑧𝛼 o𝑍0 > 𝑧𝛼
2 2
Conociendo ya los pasos a seguir para realizar un contraste de hipótesis procederemos ahora a
realizar un ejemplo de cómo utilizar lo anterior en casos de la vida cotidiana.
Ejemplo 5
Una empresa de estudios de mercado quiere saber si los compradores son sensibles a los precios
de los artículos que se venden en un supermercado. Obtiene una muestra aleatoria de 802
compradores y observa que 378 son capaces de decir el precio correcto de un artículo
inmediatamente después de colocarlo en el carro. Contraste al nivel del 7 por ciento la hipótesis
nula de que al menos la mitad de todos los compradores son capaces de decir el precio correcto.
Solución
Paso 1: Sea P la proporción poblacional de compradores de los supermercados que son capaces
de decir el precio correcto en estas circunstancias. Contraste la hipótesis nula
𝐻0 : 𝑃 = 0.50
frente a la alternativa
𝐻1 : 𝑃 < 0.50
Paso 2: 𝛼 = 0.07.
Paso 3 el estadístico de contraste es
𝑝 − 𝑃0
𝑧=
𝑃0 1−𝑃0
𝑛
Paso 4: como 𝛼 = 0.07 entonces 𝑧0.07 = −1.476 (recuerde que la aplicación da los valores z
opuestos). La regla de decisión es si 𝑍0 es menor que −1.476 se rechaza 𝐻0 .
Decisión: Dado que −1.64 es menor que −1.476, rechazamos la hipótesis nula y concluimos
que menos de la mitad de los compradores puede decir correctamente el precio inmediatamente
después de colocar un artículo en el carro
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑍0 =
𝜎𝑥2 𝜎𝑦2
𝑛𝑥
+𝑛
𝑦
Y las correspondientes regiones de rechazo vendrán dadas por los siguientes intervalos.
𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0
𝐻1 : 𝜇𝑥 − 𝜇𝑦 < 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 ≠ 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 > 𝐷0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑍0 > 𝑧𝛼 .
𝑍0 < −𝑧𝛼 2
𝑍0 > 𝑧𝛼
𝑍0 < −𝑧𝛼 o 𝑍0 > 𝑧𝛼
2 2
Nótese particularmente que si el valor de 𝐷0 es igual a 0 las hipótesis alternativas varían un poco
de forma que se puede presentar los cambios en siguiente tabla
𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0
𝐻0 : 𝜇𝑥 = 𝜇𝑦 𝐻0 : 𝜇𝑥 = 𝜇𝑦 𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 < 𝜇𝑦 𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦 𝐻1 : 𝜇𝑥 > 𝜇𝑦
Ejemplo 6
Sara Briones, economista agraria, quiere comparar el uso de estiércol de vaca con el de pavo
como fertilizantes. Históricamente, los agricultores han utilizado estiércol de vaca en los
maizales. Recientemente, un importante criador de pavos vende el estiércol a un precio
favorable. Los agricultores han decidido que sólo utilizarán este nuevo fertilizante si existen
pruebas contundentes de que la productividad es mayor que cuando se utiliza estiércol de pavo.
Le han pedido a Sara que realice el estudio y el análisis estadístico para hacerles una
recomendación.
Solución
Paso 1
Para comenzar el estudio, Sara especifica un contraste de hipótesis con una hipótesis nula
siendo 𝑥 el estiércol de pavo y 𝑦 el estiércol de vaca.
Como nos piden es confirmar si la productividad es mayor que cuando se utiliza estiércol de
pavo las hipótesis quedan de la siguiente forma
𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 > 𝜇𝑦
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑍0 =
𝜎𝑥2 𝜎𝑦2
+
𝑛𝑥 𝑛𝑦
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦 115 − 100 − 0
𝑍0 = = = 2.34
𝜎𝑥2 𝜎𝑦2 625 400
+ +
𝑛𝑥 𝑛𝑦 25 25
Comparando el valor calculado de𝑍0 = 2.34 con 𝑧0.05 = 1.645, Sara llega a la conclusión de
que se rechaza claramente la hipótesis nula con un valor de significancia del 5% es decir
existen, pues, pruebas contundentes de que la productividad es mayor con el estiércol de pavo
que con el de vaca.
Ejemplo 7
Paso 1
Para detectar una diferencia, si existe, entre los rendimientos académicos medios para no
propietarios de autos 𝜇𝑥 y los propietarios 𝜇𝑦 , probaremos la hipótesis nula de que no hay
diferencia entre las medias contra la hipótesis alternativa de que
𝜇𝑥 − 𝜇𝑦 ≠ 0; esto es,
𝜇𝑥 − 𝜇𝑦 = 𝐷0 = 0
𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦
Paso 2.
Use 𝛼 = 0.05.
Paso 3
El estadístico de prueba será el siguiente debido a que no conocemos las varianzas
poblacionales
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑍0 =
𝑠𝑥2 𝑠𝑦2
+
𝑛𝑥 𝑛𝑦
Paso 4: como 𝛼 = 0.05 entonces𝑧0.05 2 = 𝑧0.025 = 1.96 (recuerde que la aplicación da los
valores z opuestos). La regla de decisión es que si 𝑍0 es mayor que 1.96o si 𝑍0 es menor que
−1.96se rechaza 𝐻0 .
Paso 5: la información suministrada por el enunciado calculamos el valor de 𝑍0 .
Como no nos piden diferencia en unas cuantas unidades entonces 𝜇𝑥 − 𝜇𝑦 = 𝐷0 = 0
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦 2.7 − 2.54 − 0
𝑍0 = = = 1.84
𝑠𝑥2 𝑠𝑦2 0.36 0.40
+𝑛 100
+ 100
𝑛𝑥 𝑦
Como 𝑍0 = 1.84 no excede de 1.96 y no es menor a -1.96, 𝐻0 no puede ser rechazada. Esto es, hay
evidencia insuficiente para declarar una diferencia en el promedio de los rendimientos académicos
para los dos grupos, con un nivel de significancia del 5%
50073 54923 53761 46615 50536 53989 48262 48926 52342 48169
48836 49920 54890 46566 55731 48023 52663 54087 55137 45202
51370 51348 55071 51235 51835 49203 49361 51643 46115 51047
49873 53689 49876 50122 48411 53534 58105 51142 48656 54987
53836 45794 47371 53480 51897 49565 49306 50079 49217 51722
Por estudios anteriores se sabe que la varianza poblacional para salarios iniciales promedio para
graduados universitarios con especialidad en ingeniería química es de 22252$ y para los de
ciencias computacionales es de 23752$. ¿Los datos dan suficiente evidencia para indicar una
diferencia en salarios iniciales promedio para graduados universitarios con especialidad en
ingeniería química y ciencias computacionales? Pruebe usando 𝛼 = 0.05.
Solución
Paso 1.
Para establecer las hipótesis veamos que nos piden una diferencia salarios iniciales promedio
para graduados universitarios con especialidad en ingeniería química y ciencias
computacionales.Definamos como 𝑥 a los sueldos promedios de los estudiantes recién
egresados en Ingeniería química, y 𝑦 como los sueldos promedios de los estudiantes recién
egresados en ciencias de la computación. Las hipótesis quedaran de la siguiente manera
𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦
Paso 2
Use 𝛼 = 0.05.
De este paso en adelante se utilizara el computador para obtener los resultados ya que como se
observa la muestra es grande y los números demasiado altos como para decir que los cálculos
son fáciles de realizar. Para realizar este ejercicio en Excel debemos ingresar los datos en dos
columnas una para los estudiantes de ingeniería y otra para los estudiantes de computación. Se
tiene que activar las herramientas para el análisis. Luego seguimos la siguiente ruta “DATOS”-›
“Análisis de datos” -› “Prueba z para dos muestras” y en el cuadro de diálogo rellenan las
casillas con la información que se les pide.
A continuación se presentan los resultados
ingeniería computación
Media 53530,58 50950,82
Varianza (conocida) 4950625 5640625
Observaciones 50 50
Diferencia hipotética de las medias 0
z 5,61
P(Z<=z) una cola 0,0000000104
Valor crítico de z (una cola) 1,64
Valor crítico de z (dos colas) 0,0000000208
Valor crítico de z (dos colas) 1,96
En las primeras 3 filas se presenta la información de las muestras media, varianza y el número
de observaciones. En la fila cuatro tenemos en valor de la hipótesis nula 𝜇𝑥 − 𝜇𝑦 = 𝐷0 = 0. En
la fila 5 tenemos el vapor de 𝑍0 . En la fila 6 tenemos el valor-p si el contraste es de una cola y
en la fila 8 el valor-p para el contraste de dos colas. En las filas 7 y 9 se tienen los valores de Z
para un contraste de una cola ( 𝑍𝛼 ) como para un contraste de dos colas (𝑍𝛼 2 ) cuando alfa es
igual a 0,05.
Utilizando el criterio del p-valor llegamos a la conclusión que debemos rechazar 𝐻0 con un
nivel de significancia del 5%, es decir existen diferencias estadísticamente significativas como
para afirmar que la diferencia entre los sueldos promedios de los egresados en ingeniería
química y ciencias de la computación no son parecidas.
Dos muestras: pruebas sobre dos proporciones
A menudo surgen situaciones en las que se desea probar la hipótesis de que dos proporciones
son iguales. Por ejemplo, podemos tratar de mostrar evidencia de que la proporción de médicos
que son pediatras en un estado es igual a la proporción de pediatras en otro estado. Quizás un
individuo decida dejar de fumar sólo si se convence de que la proporción de fumadores con
cáncer pulmonar excede a la proporción de no fumadores con ese tipo de cáncer.
Examinamos un modelo aplicable a una muestra aleatoria de 𝑛𝑥 observaciones procedentes de
una población que tiene una proporción 𝑃𝑥 de «éxitos» y una segunda muestra aleatoria
independiente de 𝑛𝑦 observaciones procedentes de una población que tiene una proporción 𝑃𝑦
de «éxitos».
En el curso anterior de estadística I vimos que, cuando las muestras son grandes, las variables
aleatorias que siguen una distribución normal son una buena aproximación de las proporciones,
por lo que
𝑝𝑥 − 𝑝𝑦 − 𝑃𝑥 − 𝑃𝑦
𝑍= ~𝑁 0, 1
𝑃𝑥 1−𝑃𝑥 𝑃𝑦 1−𝑃𝑦
𝑛𝑥
+ 𝑛𝑦
Queremos contrastar la hipótesis de que las proporciones poblacionales 𝑃𝑥 y 𝑃𝑦 son iguales. Sea
𝑃0 su valor común. Entonces, partiendo de esta hipótesis,
𝑝𝑥 − 𝑝𝑦
𝑍= ~𝑁 0, 1
𝑃0 1−𝑃0 𝑃0 1−𝑃0
𝑛𝑥
+ 𝑛𝑦
Por último, la proporción desconocida 𝑃0 puede estimarse por medio de un estimador agrupado
𝑛𝑥 𝑝𝑥 + 𝑛𝑦 𝑝𝑦
𝑝0 =
𝑛𝑥 + 𝑛𝑦
En estos contrastes, la hipótesis nula supone que las proporciones poblacionales son iguales.En
ese caso, podemos sustituir la 𝑃0 desconocida por 𝑝0 para obtener una variable aleatoria que
tiene una distribución parecida a la normal estándar, cuando el tamaño de la muestra es grande.
Sin embargo aún nos falta definir nuestro estadístico de contraste el cual vendría dado por
𝑝𝑥 − 𝑝𝑦
𝑍0 =
𝑝 0 1−𝑝 0 𝑝 0 1−𝑝 0
𝑛𝑥
+ 𝑛𝑦
𝐻0 : 𝑃𝑥 − 𝑃𝑦 = 𝐷0 𝐻0 : 𝑃𝑥 − 𝑃𝑦 = 𝐷0 𝐻0 : 𝑃𝑥 − 𝑃𝑦 = 𝐷0
𝐻1 : 𝑃𝑥 − 𝑃𝑦 < 𝐷0 𝐻1 : 𝑃𝑥 − 𝑃𝑦 ≠ 𝐷0 𝐻1 : 𝑃𝑥 − 𝑃𝑦 > 𝐷0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑍0 > 𝑧𝛼 .
𝑍0 < −𝑧𝛼 2
𝑍0 > 𝑧𝛼
𝑍0 < −𝑧𝛼 o𝑍0 > 𝑧𝛼
2 2
Ejemplo 8
Se ha realizado un estudio para averiguar si existe alguna diferencia entre el contenido
humorístico de los anuncios de las revistas británicas y las estadounidenses. En una muestra
aleatoria independiente de 270 anuncios de revistas estadounidenses, 56 eran humorísticos. En
una muestra aleatoria independiente de 203 anuncios de revistas británicas, 52 eran
humorísticos. ¿Constituyen estos datos una prueba de que existe una diferencia entre las
proporciones de anuncios humorísticos de las revistas británicas y las de las revistas
estadounidenses?
Solución
Paso 1
Sean 𝑃𝑥 y 𝑃𝑦 las proporciones poblacionales de anuncios británicos y estadounidenses
humorísticos, respectivamente. No se especifica de cuanto es la diferencia por lo tanto 𝐷0 = 0.
La hipótesis nula es
𝐻0 : 𝑃𝑥 − 𝑃𝑦 = 0
𝐻1 : 𝑃𝑥 − 𝑃𝑦 ≠ 0
Paso 2
Como no nos dan el nivel de significancia asumiremos que es del 5%
Paso 3
El estadístico del contraste es
𝑝𝑥 − 𝑝𝑦
𝑍0 =
𝑝 0 1−𝑝 0 𝑝 0 1−𝑝 0
𝑛𝑥
+ 𝑛𝑦
Paso 4
Como 𝛼 = 0.05 entonces𝑧0.05 2 = 𝑧0.025 = 1.96. La regla de decisión es que si 𝑍0 es mayor
que 1.96o si 𝑍0 es menor que −1.96se rechaza 𝐻0 .
Paso 5
Los datos de este problema son
52 56
𝑛𝑥 = 203, 𝑝𝑥 = 203 = 0,256,𝑛𝑦 = 270, 𝑝𝑦 = 270 = 0,207
𝑝𝑥 − 𝑝𝑦 0.256 − 0.207
𝑍0 = = = 1.26
𝑝 0 1−𝑝 0 𝑝 0 1−𝑝 0 (0.228)(1−0.228 ) (0.228 )(1−0.228)
+ +
𝑛𝑥 𝑛𝑦 203 270
Como 𝑍0 = 1.26 no es mayor que 𝑧0.025 = 1.96 ni menor que −1.96 no es posible rechazar 𝐻0
con un nivel de significancia del 5%.Por lo tanto, no es posible rechazar la hipótesis nula, por lo
que tenemos pocas pruebas de que exista una diferencia entre los anuncios humorísticos de los
dos países.
Contrastes de hipótesis sobre muestras pequeñas
En esta sección vamos a estudiar qué pasa si la muestra es pequeña es decir no sobrepasa los 30
elementos, y desarrollaremos la metodología a seguir en estos casos. Anteriormente ya se pudo
ver algunas cosas referentes a los intervalos de confianza cuando la muestra es menor que 30.
Estos resultados nos serán de gran utilidad en esta sección por la inminente relación existente
entre los intervalos de confianza y los contrastes de hipótesis. Sin más preámbulo iniciemos el
estudio de nuestro primer caso.
Contrastes de hipótesis para una media poblacional µ, cuando σ es conocida y 𝒏 < 30
Cuando nos encontramos en este tipo de situaciones no debemos preocuparnos en lo absoluto si
conocemos la desviación estándar poblacional y procedemos de idéntica forma que cuando
contrastamos una hipótesis para una media poblacional µ, cuando σ es conocida y n≥30. No hay
diferencias en cuanto a metodología de todas maneras se abordara un ejemplo con este tipo de
situaciones para evitar posibles confusiones por parte del lector.
Ejemplo 9
El director de producción de Rodamientos Niquelados, S.A., le ha pedido ayuda para evaluar un
proceso modificado de producción de rodamientos. Cuando el proceso funciona correctamente,
produce rodamientos cuyo peso sigue una distribución normal de media poblacional 5 onzas y
desviación típica poblacional 0,1 onzas. Se ha recurrido a un nuevo proveedor de materia prima
para un lote reciente de producción y el director quiere saber si, como consecuencia del cambio,
el peso medio de los rodamientos es menor. No hay razón alguna para sospechar que el nuevo
proveedor plantea problemas y el director continuará recurriendo a él a menos que existan
pruebas contundentes de que están produciéndose rodamientos de menor peso que antes. Para
probar si realmente sucede lo anteriormente planteado se selecciona una muestra aleatoria de 16
rodamientos y esta arroja una media muestral de 4,962onzas. Se especifica un nivel de
significación𝛼 = 0,05.
Solución
Paso 1
En este caso, nos interesa saber si existen pruebas contundentes para concluir que están
produciéndose rodamientos de menor peso. Por lo tanto, contrastamos las hipótesis son las
siguientes.
𝐻0 : 𝜇 = 𝜇0 = 5
𝐻1 : 𝜇 < 5
Paso 2
El nivel de significancia se establece en 0.05
Paso 3
Nuestro estadístico de prueba es
𝑋 − 𝜇0
𝑍0 = 𝜎 ~𝑁(0,1)
𝑛
Paso 4
La regla de decisión será la misma que se ha aplicado hasta estos momentos que consiste en
rechazar 𝐻0 si el valor de 𝑍0 es menor que −𝑧0.05 = −1.645.
Paso 5.
Por la información suministrada sabemos que 𝑛 = 16, 𝜎 = 0.1 y 𝑥 = 4,962. Sustituimos los
valores en la expresión del estadístico de prueba que resulta en
𝑋 − 𝜇0 4,962 − 5,0
𝑍0 = 𝜎 = 0.1 = −1.52
𝑛 16
Por lo tanto concluimos que como 𝑍0 = −1.52 no es menor que −𝑧0.05 = −1.645 entonces no
rechazamos 𝐻0 es decir que no tenemos pruebas contundentes de que el proceso de producción
esté produciendo rodamientos de menor peso que antes.
Contrastes de hipótesis para una media poblacional µ, cuando σ es desconocida y 𝒏 < 30
Cuando se desconoce la desviación estándar poblacional σ, el tamaño de la muestra es menor de
30 proveniente de una distribución normal o casi normal el estadístico
𝑋 − 𝜇0
𝑠 ~𝑡𝜈
𝑛
Observe que este estadístico es muy parecido al estadístico 𝑍0 (a la final es el mismo) pero este
tiene un comportamiento diferente en cuanto a cómo se distribuye debido al pequeño tamaño de
la muestra. El estadístico anterior tiene una distribución t-Student con υ grados de libertad. Para
probar hipótesis con respecto a una media poblacional µ se utilizara el siguiente estadístico
𝑋 − 𝜇0
𝑡0 = 𝑠 ~𝑡𝑛 −1
𝑛
Las hipótesis a probar sobre µ son las mismas que en el apartado cuando se conoce σ y el
tamaño de la muestra es grande sin embargo la distribución de µ bajo 𝐻0 cambia radicalmente,
de una distribución normal a una distribución t-Student. Las posibles hipótesis alternativas se
muestran a continuación conjuntamente con su región de rechazo de 𝐻0 .
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 > 𝜇0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑡0 < −𝑡𝛼 ;𝑛−1 𝑡0 > 𝑡𝛼 ;𝑛−1 .
2
𝑡0 > 𝑡𝛼 ;𝑛−1
𝑡0 < −𝑡𝛼 ;𝑛−1 𝑡0 > 𝑡𝛼 ;𝑛−1
2 2
𝑋 − 𝜇0
𝑡0 = 𝑠
𝑛
Paso 4.
La regla de decisión será rechazar 𝐻0 si 𝑡0 > 𝑡𝛼 ;𝑛−1 = 𝑡0.05;9 = 2.821
Paso 5
Calculamos los valores de interés, en este caso la media y la desviación estándar muestral
𝑛
𝑥𝑖
𝑥= = 5.38
𝑛
𝑖=1
𝑥𝑖 − 𝑥 2
𝑠= = 0.44
𝑛−1
𝑋 − 𝜇0 5.38 − 5
𝑡0 = 𝑠 = 0.44 = 2.714
𝑛 10
𝑡0 = 2.714
Como el valor 𝑡0 = 2.714 es menor que el valor 𝑡0.05;9 = 2.821 no rechazamos 𝐻0 al nivel de
significancia del 1%, es decir que los datos que los datos muestrales no apoyan la sospecha del
gerente de que el tiempo promedio que tarda el operador para realizar una operación es mayor
de 5 minutos.
Ahora procederemos a realizar el mismo ejercicio en el paquete estadístico R y analizaremos la
salida del software a través del criterio del p-valor
>Tiempo_operacion<- c(5.8, 5.6, 5.3, 5.2, 4.9, 4.7, 5.7, 4.9, 5.7,
6.0)
>t.test(Tiempo_operacion,
+ alternative = "greater",
+ mu = 5, paired = FALSE, var.equal = FALSE,
+ conf.level = 0.95)
One Sample t-test
data: Tiempo_operacion
t = 2.7051, df = 9, p-value = 0.0121
alternative hypothesis: true mean is greater than 5
99 percent confidence interval:
5.122493 Inf
sample estimates:
mean of x
5.38
En primer lugar introducimos los datos muestrales bajo el nombre Tiempo_operacion
yseguidamente con el comandot.test() calculamos todos los valores necesarios para tomar
nuestra decisión. En letras blancas se muestran los resultados, observamos en la primera línea el
tipo de contraste que estamos realizando en este caso una prueba t sobre una muestra. En la
segunda línea nos enseña la data sobre la cual está contrastando la hipótesis.
La tercera línea es la fundamental para nuestro análisis
t = 2.7051, df = 9, p-value = 0.0121
debido a que nos arroja el valor del estadístico 𝑡0 en este caso igual a 2.7051 (la diferencia con
el valor 𝑡0 que se calculó manualmente es mínima y se debe principalmente a que el programa
al realizar todos los cálculos toma la totalidad de los decimales), seguidamente muestra los
grados de libertad para la distribución t-Student que en este caso serían 9 y por último en esa
fila encontramos el valor-p o 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.0121.
Según este criterio rechazamos la hipótesis nula si el p-valor es menor que el nivel de
significancia α,y como el p-valor =0.0121 es mayor que α=0.01 no rechazamos la hipótesis nula
y tendremos la misma conclusión que cuando utilizamos el criterio del valor 𝑡0 .
Además de esto el programa nos muestra la hipótesis alternativa:
alternative hypothesis: true mean is greater than 5
1 1
𝜎𝑥 −𝑦 = 𝜎 +
𝑛𝑥 𝑛𝑦
Ahora bien como la desviación típica común σ es desconocida y se desea obtener la mejor
estimación posible, es razonable usar un estimador que combine la información de ambas
muestras y este puede obtenerse fusionando las varianzas de las dos muestras de manera
siguiente.
𝑛𝑥 − 1 𝑆𝑥2 + 𝑛𝑦 − 1 𝑆𝑦2
𝑆𝑝2 =
𝑛𝑥 + 𝑛𝑦 − 2
Así el estimador del error de la diferencia entre dos medias poblacionales es
1 1
𝑆𝑥 −𝑦 = 𝑆𝑝 +
𝑛𝑥 𝑛𝑦
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 = ~𝑡𝑛𝑥 +𝑛𝑦 −2
1 1
𝑆𝑝 𝑛𝑥
+𝑛
𝑦
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 = ~𝑡𝜈
1 1
𝑆𝑝 𝑛𝑥
+𝑛
𝑦
Los contrastes sobre la diferencia de dos medias con sus correspondientes regiones de rechazo
son los siguientes
𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0
𝐻1 : 𝜇𝑥 − 𝜇𝑦 < 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 ≠ 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 > 𝐷0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑡0 < −𝑡𝛼 ;𝜈 𝑡0 > 𝑡𝛼 ;𝜈 .
2
𝑡0 > 𝑡𝛼 ;𝜈
𝑡0 < −𝑡𝛼 ;𝜈 o𝑡0 > 𝑡𝛼 ;𝜈
2 2
Nótese particularmente que si el valor de 𝐷0 es igual a 0 las hipótesis alternativas varían un
poco de forma que se puede presentar los cambios en siguiente tabla
𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0
𝐻0 : 𝜇𝑥 = 𝜇𝑦 𝐻0 : 𝜇𝑥 = 𝜇𝑦 𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 < 𝜇𝑦 𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦 𝐻1 : 𝜇𝑥 > 𝜇𝑦
Las áreas de rechazo después de haber cambiado las hipótesis no varían, es decir no cambian.
Ejemplo 10
Un gerente está interesado en el efecto que podrían tener dos tipos de publicidad (A y B) sobre
las ventas de un producto. Pare ello selecciona una muestra aleatoria de 11 del total de
almacenes que venden el producto. El tipo de publicidad A se utilizó en 5 almacenes y el tipo de
publicidad B se utilizó en 6 almacenes seleccionados también al azar. Las ventas del producto
en cada almacén fueron registradas durante el periodo de una semana. En la siguiente tabla se
presentan los resultados.
Basándose en los resultados obtenidos, y suponiendo que las ventas del producto para ambos
tipos de publicidad son normales, con varianzas poblacionales iguales, determine si existe
diferencia significativa en las ventas medias para los dos tipos de publicidad con un nivel de
significación de 0.05.
Solución
Paso 1
𝐻0 : 𝜇𝐴 = 𝜇𝐵
𝐻1 : 𝜇𝐴 ≠ 𝜇𝐵
Paso 2
𝛼 = 0.05.
Paso 3
Estadístico de prueba
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 =
1 1
𝑆𝑝 𝑛𝑥
+𝑛
𝑦
Paso 4
La regla de decisión será rechazar 𝐻0 si 𝑡0 < −𝑡0.025 ;𝜈 o si𝑡0 > 𝑡0.025 ;𝜈 donde
𝜈 = 𝑛𝐴 + 𝑛𝐵 − 2 = 9
por tanto rechazamos si 𝑡0 < −𝑡0.025 ;9 = −2.262o si𝑡0 > 𝑡0.025 ;9 = 2.262.
Paso 5.
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦 33 − 27 − 0
𝑡0 = = = 2.30
1 1 1 1
𝑆𝑝 + 4.28 ∗ +6
𝑛𝑥 𝑛𝑦 5
𝑡0 = 2.30
Cuando las varianzas poblacionales son desconocidas, pero se suponen diferentes o se tiene
evidencia de que son distintas, las muestras son independientes, de pequeño tamaño,
seleccionadas de poblaciones normales o aproximadamente normales, bajo estas condiciones el
estadístico apropiado es
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 = ~𝑡𝛼 ;𝜈
𝑠𝑥2 𝑠𝑦2
𝑛𝑥
+𝑛
𝑦
𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0
𝐻1 : 𝜇𝑥 − 𝜇𝑦 < 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 ≠ 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 > 𝐷0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑡0 < −𝑡𝛼 ;𝜈 𝑡0 > 𝑡𝛼 ;𝜈 .
2
𝑡0 > 𝑡𝛼 ;𝜈
𝑡0 < −𝑡𝛼 ;𝜈 o𝑡0 > 𝑡𝛼 ;𝜈
2 2
El cambio evidente en este caso será el valor de los grados de libertad 𝜈 los cuales viene dados
por la siguiente expresión
2
𝑆2𝑥 𝑆2𝑦
𝑛𝑥
+𝑛
𝑦
𝜈= 2 2
𝑆2
𝑥 𝑆2
𝑦
𝑛𝑥 𝑛𝑦
𝑛𝑥 −1
+𝑛
𝑦 −1
Ejemplo 11
Un investigador de mercados quiere determinar si hay alguna diferencia en las ventas cuando las
máquinas de afeitar desechables se colocan en las cajas registradoras o en el departamento de
cosméticos. Se seleccionó una muestra aleatoria de 10 tiendas de la cadena de almacenes, en 6
tiendas en donde las máquinas de afeitar desechables se colocaron en la caja registradora y en
otras 4 tiendas donde se colocaron en el departamento de cosméticos. En la tabla siguiente se
muestran los resultados, en términos de cantidad de máquinas de afeitar vendidas por semana
Suponiendo que las poblaciones son normales, y que sus varianzas no fueran iguales se pide
determinar si existe diferencia significativa en las ventas medias del número de máquinasde
afeitar por semana en las tiendas donde las maquinas estaban ubicadas en las cajas registradoras
y en las tiendas en las que se encontraban en el departamento de cosméticos con 𝛼 = 0.05.
Solución
Paso 1
𝑥: Caja registradora
𝑦: Departamento de cosméticos
𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦
Paso 2
𝛼 = 0.05.
Paso 3
Estadístico de prueba
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 =
𝑠𝑥2 𝑠𝑦2
𝑛𝑥
+𝑛
𝑦
Paso 4
Para calcular los grados de libertad y obtener la región de rechazo debemos realizar los cálculos
para encontrar las varianzas muestrales.
571 266
𝑥= 6
= 95.17 ; 𝑦 = 4
= 66.5
6 4
𝑥 𝑖 −𝑥 2 𝑦 𝑖 −𝑦 2
𝑠𝑥2 = 𝑖=1
= 488.61 ; 𝑠𝑦2 = 𝑖=1
= 15.00
𝑛 𝑥 −1 𝑛 𝑦 −1
La regla de decisión será rechazar 𝐻0 si 𝑡0 < −𝑡0.025 ;𝜈 o si𝑡0 > 𝑡0.𝑜25;𝜈 donde
2
𝑆2𝑥 𝑆2 15.00 2
𝑛𝑥
+ 𝑛𝑦 488.61
+
𝑦 6 4
𝜈= 2 2
= 488 .61 2 15.00 2
= 5.45 ≈ 6
𝑆2
𝑥 𝑆2
𝑦
𝑛𝑥 𝑛𝑦
6
+ 4
𝑛𝑥 −1
+𝑛 6−1 4−1
𝑦 −1
por tanto rechazamos𝐻0 si 𝑡0 < −𝑡0.025 ;6 = −2.447o si𝑡0 > 𝑡0.𝑜25;6 = 2.447.
Paso 5.
95.17 − 66.5 − 0
𝑡0 = = 3.11
488.61 15.00
6
+ 4
Como el valor del estadístico de prueba cae en la región de rechazo rechazamos 𝐻0 es decir que
si existe diferencia significativa en las ventas medias del número de máquinas de afeitar por
semana en las tiendas donde las maquinas estaban ubicadas en las cajas registradoras y en las
tiendas en las que se encontraban en el departamento de cosméticos con un nivel de
significancia del 5%
Realizando los cálculos en Excel “DATOS”-› “Análisis de datos” -› “Prueba t para dos muestras
suponiendo varianzas desiguales” y aplicando el criterio del p-valor
Nos muestra la siguiente salida
Caja Departamento de
Registradora Cosméticos.
Media 95,16666667 66,5
Varianza 489,3666667 15
Observaciones 6 4
Diferencia hipotética de las
medias 0
Grados de libertad 5
Estadístico t 3,103661846
P(T<=t) una cola 0,013371004
Valor crítico de t (una cola) 2,015048373
P(T<=t) dos colas 0,027
Valor crítico de t (dos colas) 2,570581836
Como el p-valor 0.027 es menor que 0.05 el valor de significancia rechazamos la hipótesis nula
y llegamos a la misma conclusión anterior.
Ya hemos visto en las secciones precedentes que una estimación de la varianza poblacional 𝜎 2
suele ser necesaria antes de hacer inferencias acerca de medias poblacionales, pero a veces la
varianza poblacional 𝜎 2 es el objetivo principal en una investigación experimental. Puede ser
más importante para el experimentador que la media poblacional.
Las hipótesis a probar van a ser las siguientes, con sus correspondientes regiones de rechazo
𝐻0 : 𝜎 2 = 𝜎0 2 𝐻0 : 𝜎 2 = 𝜎0 2 𝐻0 : 𝜎 2 = 𝜎0 2
𝐻1 : 𝜎 2 < 𝜎0 2 𝐻1 : 𝜎 2 ≠ 𝜎0 2 𝐻1 : 𝜎 2 > 𝜎0 2
contraste de cola inferior contraste de dos colas contraste de cola superior
2
𝜒02 < 𝜒1− 𝛼 o
𝜒02 < 𝜒1−𝛼
2 ;𝑛−1
;𝑛−1 2
𝜒02 > 𝜒𝛼;𝑛
2
−1
𝜒02 > 𝜒𝛼2;𝑛−1
2
𝑛 − 1 𝑆2
𝜒02 = 2
~𝜒𝑛−1
𝜎02
Si el contraste se pide sobre la desviación estándar no existe ningún problema debido a que la
desviación estándar es la raíz de la varianza y la varianza es el cuadrado de la desviación
estándar. Ahora veamos cómo se aplica a un ejemplo
Ejemplo 12
Un fabricante de baterías para automóvil afirma que la duración de sus baterías se distribuyede
forma aproximadamente normal con una desviación estándar igual a 0.9 años. Si una muestra
aleatoria de 10 de tales baterías tiene una desviación estándar de 1.2 años, ¿considera que σ >
0.9 años? Utilice un nivel de significancia de 0.05.
Solución
Paso 1
𝐻0 : 𝜎 2 = 0.81
𝐻1 : 𝜎 2 > 0,81
Paso 2
Paso 4
𝑛 − 1 𝑆2
𝜒02 =
𝜎02
Paso 5
Sustituimos valores
10 − 1 1.22
𝜒02 = = 16.0
0.92
No rechazamos la hipótesis nula con un nivel de significancia de 0.05, es decir que la varianza
de la duración de las baterías para automóviles del fabricante es mayor a 0.81
Existen situaciones donde nos interesa probar si dos poblaciones tienen la misma varianza, bien
para probar la suposición de varianzas iguales cuando se contrastan hipótesis sobre la diferencia
de medias poblacionales con muestras aleatorias independientes de pequeño tamaño, o para
obtener información sobre las varianzas poblacionales.
Para probar la hipótesis 𝜎12 = 𝜎22 se utiliza la distribución F, y mediante esta distribución se ha
𝑆12
creado un procedimiento estadístico basado en la razón de varianzas muestrales 𝑆22
, y se
𝑆12
considera que el grado en que la razón difiere de 1. Si se cumple que 𝜎12 = 𝜎22 cabría esperar
𝑆22
𝑆2 𝑆2
que la razón 𝑆12 tuviese un valor cercano a 1. Así que mientras mayor sea la discrepancia entre 𝑆12
2 2
y 1menor confianza se tendrá de que 𝜎12 sea significativamente igual a 𝜎22 .
Las hipótesis a probar en este caso serán las siguientes y se presentan con su correspondiente
región de rechazo o región critica.
𝑆12
𝐹0 = ~𝐹
𝑆22 𝜈 1 ;𝜈 2
Veamos un ejemplo
Ejemplo 13
Lammers Limos ofrece servicio de transporte en limusina del ayuntamiento de Toledo, Ohio, al
aeropuerto metropolitano de Detroit. Sean Lammers, presidente de la compañía, considera dos
rutas. Una por la carretera 25 y la otra por la autopista I-75. Lammers desea estudiar el tiempo
que tardaría en conducir al aeropuerto por cada una de las rutas y luego comparar los resultados.
Recopiló los siguientes datos muestrales, reportados en minutos. Usando el nivel de
significancia de 0.10, ¿hay alguna diferencia entre las variaciones de los tiempos de manejo por
las dos rutas?
Solución
Paso 1
Inicia por formular las hipótesis nula y alternativa. La prueba es de dos colas debido a que se
busca una diferencia entre las variaciones de las dos rutas. No se trata de demostrar que el
tiempo que se emplea varía más por una ruta que por la otra
𝜎𝑥2
𝐻0 : =1
𝜎𝑦2 𝐻0 : 𝜎𝑥2 = 𝜎𝑦2
𝜎𝑥2 𝐻1 : 𝜎𝑥2 ≠ 𝜎𝑦2
𝐻1 : 2 ≠ 1
𝜎𝑦
Paso 2
Paso 3
𝑆𝑥2
𝐹0 =
𝑆𝑦2
Rechazamos 𝐻0 si𝐹0 < 𝐹1−𝛼 ;𝜈 1 ;𝜈 2 o𝐹0 > 𝐹𝛼 ;𝜈 1 ;𝜈 2 . Calculamos entonces estos valores
2 2
𝐹𝛼 ;𝜈 1 ;𝜈 2 = 𝐹0.05;6;7 = 3.866
2
Paso 5
7 2
𝑖=1 𝑥𝑖 − 𝑥
𝑠𝑥 = = 8.9947
𝑛𝑥 − 1
8 2
𝑖=1 𝑦𝑖 − 𝑦
𝑠𝑦 = = 4.3753
𝑛𝑦 − 1
𝑆𝑥2 8.99472
𝐹0 = 2 = = 4.23
𝑆𝑦 4.37532
La decisión es rechazar la hipótesis nula, debido a que el valor F calculado (4.23) es mayor que
el valor crítico (3.87). Se concluye que hay una diferencia entre las variaciones de los tiempos
de recorrido por las dos rutas con un nivel de significancia de 0.05.
Realizando los cálculos en Excel “DATOS”-› “Análisis de datos” -› “Prueba F para varianzas de
dos muestras” y aplicando el criterio del p-valor
Veamos los resultados obtenidos luego de aplicar la prueba a los datos
Vemos que el F calculado es bastante similar, mejor dicho es igual si redondeamos a dos cifras
decimales pero lo que nos importa es observar el valor p que es igual a 0,0404 y es menor que
0.1 el valor del nivel de significancia razón suficiente para rechazar la hipótesis nula y llegar a
la conclusión anterior.