Está en la página 1de 38

Tema II.

Contrastes de hipótesis
Introducción
En este Tema desarrollamos métodos para contrastar hipótesis que nos permiten contrastar la
validez de una conjetura o de una afirmación utilizando datos muestrales. Este tipo de inferencia
contrasta con los métodos de estimación y los complementa. El proceso comienza cuando un
investigador formula una hipótesis sobre la naturaleza de una población. La formulación de esta
hipótesis implica claramente la elección entre dos opciones; a continuación, el investigador
selecciona una opción basándose en los resultados de un estadístico calculado a partir de una
muestra aleatoria de datos. He aquí algunos ejemplos de problemas representativos:
En este Tema desarrollamos métodos para contrastar hipótesis que nos permiten contrastar la
validez de una conjetura o de una afirmación utilizando datos muestrales. Este tipo de inferencia
contrasta con los métodos de estimación y los complementa. El proceso comienza cuando un
investigador formula una hipótesis sobre la naturaleza de una población. La formulación de esta
hipótesis implica claramente la elección entre dos opciones; a continuación, el investigador
selecciona una opción basándose en los resultados de un estadístico calculado a partir de una
muestra aleatoria de datos. He aquí algunos ejemplos de problemas representativos:
1. Cereales Malteados, S.A., fabricante de cereales de desayuno, sostiene que sus cajas
de cereales pesan al menos 16 onzas. La empresa puede contrastar esta afirmación
recogiendo una muestra aleatoria de cajas de cereales, pesando cada una y
calculando el peso medio de los datos de la muestra.
2. Un fabricante de piezas de automóvil quiere verificar su proceso de producción para
garantizar que el diámetro de los pistones cumple las especificaciones sobre
tolerancia. Podría obtener muestras aleatorias cada 2 horas de la línea de producción
y utilizarlas para averiguar si están cumpliéndose las normas.
Estos ejemplos se basan en un tema común. Formulamos una hipótesis sobre un parámetro
poblacional y utilizamos datos muestrales para contrastar la validez de nuestra hipótesis.

Conceptos del contraste de hipótesis

Aquí presentamos un modelo general para contrastar hipótesis utilizando estadísticos calculados
a partir de muestras aleatorias. Dado que estos estadísticos tienen una distribución en el
muestreo, tomamos nuestra decisión en presencia de una cierta variación aleatoria. Por lo tanto,
necesitamos unas reglas claras de decisión para elegir entre las dos opciones. El proceso que
desarrollamos aquí tiene una analogía directa con un juicio con jurado. En un juicio con jurado,
suponemos que el acusado es inocente y el jurado decide que una persona es culpable sólo si
existen pruebas muy contundentes en contra de la presunción de inocencia. Ese proceso para
elegir entre la culpabilidad y la inocencia tiene:
1. Rigurosos procedimientos para presentar y evaluar la evidencia
2. Un juez para aplicar las reglas
3. Un proceso de decisión que supone que el acusado es inocente a menos que exista
evidencia que demuestre su culpabilidad más allá de una duda razonable.
Obsérvese que este proceso no condena a algunas personas que, en realidad, son culpables. Pero
si se rechaza la inocencia de una persona y se la halla culpable, tenemos la firme convicción de
que es culpable.
Comenzamos el método del contraste de hipótesis considerando un valor de un parámetro de la
distribución de probabilidad de una población, por ejemplo, la media, µ, la varianza, σ2, o la
proporción, P. Nuestro método empieza con una hipótesis sobre el parámetro —llamada
hipótesis nula— que mantendremos a menos que existan pruebas contundentes en contra de
ella. Si rechazamos la hipótesis nula, entonces aceptaremos la segunda hipótesis, llamada
hipótesis alternativa. Sin embargo, si no rechazamos la hipótesis nula, no podemos concluir
necesariamente que es correcta. Si no la rechazamos, o bien es correcta la hipótesis nula, o bien
es correcta la hipótesis alternativa, pero nuestro método de contraste no es suficientemente
fuerte para rechazar la hipótesis nula.
Utilizando nuestro ejemplo del fabricante de cereales, podríamos comenzar suponiendo que el
peso medio de los paquetes es de 16 onzas, por lo que nuestra hipótesis nula es:

𝐻0 ∶ 𝜇 = 16
Una hipótesis, ya sea nula o alternativa, puede especificar un único valor —en este caso, µ =
16— para el parámetro poblacional µ. Decimos que esta hipótesis es una hipótesis simple, que
se lee de la siguiente manera: «la hipótesis nula es que el parámetro poblacional µ es igual a un
valor específico de 16». En este ejemplo de los cereales, una hipótesis alternativa posible es que
el peso medio de los paquetes se encuentra en el intervalo de valores superiores a 16 onzas:

𝐻0 ∶ 𝜇 > 16
Esta hipótesis alternativa se llama hipótesis alternativa compuesta unilateral. Otra posibilidad
sería contrastar la hipótesis nula frente a la hipótesis alternativa compuesta bilateral:

𝐻0 ∶ 𝜇 ≠ 16
Elegimos estas hipótesis de manera que una o la otra tenga que ser cierta. En este libro,
representamos la hipótesis nula por medio del símbolo 𝐻0 y la hipótesis alternativa por medio
del símbolo 𝐻1 .
Al igual que ocurre en un juicio con jurado, seguimos un riguroso método para elegir una
hipótesis o la otra. Utilizamos un estadístico calculado a partir de una muestra aleatoria, como
una media muestral, 𝑋, una varianza muestral, 𝑆 2 , o una proporción muestral, 𝑝.
El estadístico tendrá una distribución en el muestreo conocida, basada en el método de muestreo
y el valor del parámetro especificado por la hipótesis nula. A partir de esta distribución en el
muestreo, hallamos los valores del estadístico que tienen una pequeña probabilidad de ocurrir si
la hipótesis nula es verdadera. Si el estadístico tiene un valor que tiene una pequeña
probabilidad de ocurrir cuando la hipótesis nula es verdadera, rechazamos la hipótesis nula y
aceptamos la hipótesis alternativa.
Sin embargo, si el estadístico no tiene una pequeña probabilidad de ocurrir cuando la hipótesis
nula es verdadera, no rechazaremos la hipótesis nula. La especificación de la hipótesis nula y de
la hipótesis alternativa depende del problema, como indican los siguientes ejemplos.
1. Cereales Malteados quiere averiguar si el peso medio de las cajas es mayor de lo que
éstas indican. Sea k el peso medio poblacional (en onzas) de los cereales por caja. La
hipótesis nula compuesta es que esta media es de 16 onzas como máximo:
𝐻0 ∶ 𝜇 ≤ 16
y la alternativa evidente es que el peso medio es de más de 16 onzas:

𝐻0 ∶ 𝜇 > 16
En este problema, buscaríamos pruebas contundentes de que el peso medio de las cajas es de
más de 16 onzas. Por ejemplo, una empresa querría evitar que se emprendieran acciones legales
contra ella porque el peso de las cajas fuera bajo. Tendría confianza en su creencia si tuviera
pruebas contundentes que permitieran rechazar 𝐻0 .
2. Una fábrica de pistones para automóviles ha propuesto un proceso para controlar
periódicamente el diámetro de los pistones. Cada 2 horas se seleccionaría una muestra
aleatoria de 𝑛 = 6 pistones del proceso de producción y se medirían sus diámetros. Se
calcularía el diámetro medio de los 6 pistones y se utilizaría para contrastar la hipótesis
nula simple:
𝐻0 ∶ 𝜇 = 3.800
frente a la hipótesis alternativa:

𝐻0 ∶ 𝜇 ≠ 3.800
En este caso, la empresa continuaría funcionando a menos que se rechazara la hipótesis nula en
favor de la hipótesis alternativa. La existencia de pruebas contundentes de que los pistones no
están cumpliendo las normas de tolerancia llevaría a interrumpir el proceso de producción.
Una vez que hemos especificado la hipótesis nula y la hipótesis alternativa y hemos recogido
datos muestrales, debemos tomar una decisión sobre la hipótesis nula. Podemos rechazarla y
aceptar la hipótesis alternativa o no rechazarla. Hay buenas razones por las que muchos
estadísticos prefieren no decir «aceptamos la hipótesis nula» en lugar de «no rechazamos la
hipótesis nula».
Cuando no rechazamos la hipótesis nula, o bien ésta es verdadera, o bien nuestro método de
contraste no es suficientemente fuerte para rechazarla y hemos cometido un error. Para
seleccionar la hipótesis —nula o alternativa— desarrollamos una regla de decisión basada en la
evidencia muestral. Más adelante presentamos reglas de decisión específicas para varios
problemas. En muchos casos, la forma de la regla es bastante obvia.
Para contrastar la hipótesis nula de que el peso medio de las cajas de cereales es de menos de 16
onzas, obtenemos una muestra aleatoria de cajas y calculamos la media muestral. Si la media
muestral es considerablemente superior a 16 onzas, podemos rechazar la hipótesis nula y aceptar
la hipótesis alternativa. En general, cuanto más distante de 16 sea la media muestral, mayor será
la probabilidad de rechazar la hipótesis nula. Más adelante desarrollamos reglas de decisión
específicas.
En el curso anterior se vieron las distribuciones en el muestreo, vimos que la media muestral es
diferente de la media poblacional. Con una media muestral solamente, no podemos estar
seguros del valor de la media poblacional. Por lo tanto, sabemos que la regla de decisión
adoptada tiene alguna probabilidad de extraer una conclusión errónea.
La Tabla 1 resume los tipos posibles de error. El error de Tipo I es la probabilidad de rechazar la
hipótesis nula cuando ésta es verdadera. Definimos nuestra regla de decisión de tal forma que la
probabilidad de rechazar una hipótesis nula verdadera, representada por α, es «pequeña». α es el
nivel de significación del contraste. La probabilidad de no rechazar la hipótesis nula cuando es
verdadera es (1 − 𝛼).
También existe otro error posible, llamado error de Tipo II, que se comete cuando no se rechaza
una hipótesis nula falsa. En una regla de decisión específica, la probabilidad de cometer ese
error cuando la hipótesis nula es falsa se representa por medio de 𝛽. La probabilidad de rechazar
una hipótesis nula falsa es (1 − 𝛽) y se denomina potencia del contraste.
Tabla 1. Estados de la naturaleza y decisiones sobre la hipótesis nula, con las probabilidades
de tomar las decisiones, dados los estados de la naturaleza.
Decisiones sobre Estados de la naturaleza
la hipótesis nula La hipótesis nula es verdadera La hipótesis nula es falsa
No rechazar 𝐻0 Decisión correcta Error de Tipo II
Probabilidad= 1 − 𝛼 Probabilidad= 𝛽
Rechazar 𝐻0 Error de Tipo I Decisión correcta
Probabilidad= 𝛼 Probabilidad= 1 − 𝛽
(𝛼se llama nivel de significación) (1 − 𝛽se llama potencia del
contraste)

Ilustraremos estas ideas por medio del ejemplo anterior. El director de una fábrica está tratando
de averiguar si la media poblacional del peso de las cajas es mayor de lo que indican éstas. La
hipótesis nula es que en la población el peso medio de las cajas es inferior o igual al de 16 onzas
que indican éstas. Se contrasta esta hipótesis nula frente a la hipótesis alternativa de que el peso
medio de las cajas es de más de 16 onzas.
Para contrastar la hipótesis, tomamos una muestra aleatoria independiente de cajas de cereales y
calculamos la media muestral. Si ésta es muy superior a 16 onzas, rechazamos la hipótesis nula.
En caso contrario, no la rechazamos. Sea 𝑋 la media muestral. Una regla de decisión posible es
Rechazar 𝐻0 si 𝑋 > 16.13
Supongamos ahora que la hipótesis nula es verdadera. Podríamos observar, aun así, que la
media muestral es superior a 16,13 y, según nuestra regla de decisión, la hipótesis nula se
rechazaría. En ese caso, habríamos cometido un error de Tipo I. La probabilidad de rechazo
cuando la hipótesis nula es verdadera es el nivel de significación α.
Supongamos, por el contrario, que la hipótesis nula es falsa y que la media poblacional del peso
de las cajas es de más de 16. Podríamos observar, aun así, que la media muestral es inferior a
16,13 y, según nuestra regla de decisión, la hipótesis nula no se rechazaría. Por lo tanto,
habríamos cometido un error de Tipo II. La probabilidad de cometer ese error dependerá de la
cuantía exacta en que la media poblacional sea superior a 16. Veremos que es más probable que
se rechace la hipótesis nula, dado el tamaño de la muestra, si la media poblacional es 16,5 que si
es 16,1.
En teoría, nos gustaría que las probabilidades de los dos tipos de error fueran lo más pequeñas
posible. Sin embargo, existe una disyuntiva entre las probabilidades de los dos tipos de errores.
Dada una muestra, cualquier reducción de la probabilidad de cometer un error de Tipo I, α,
provocará un aumento de la probabilidad de cometer un error de Tipo II, β, y viceversa.
Debemos hacer hincapié aquí en que no existe una sustitución lineal directa (por ejemplo, una
reducción de α de 0,02 no provoca normalmente un aumento de β de 0,02). Por lo tanto, en el
ejemplo anterior, la probabilidad de cometer un error de Tipo I, α, podría reducirse cambiando
la regla de decisión por:

Rechazar 𝐻0 si 𝑋 > 16,13


Pero es más probable que no se rechace la hipótesis nula, aunque sea falsa. Como consecuencia,
aumentaría la probabilidad de cometer un error de Tipo II. En la práctica, seleccionamos una
pequeña probabilidad de cometer un error de Tipo I (por ejemplo, de menos de 0,10) y
utilizamos esa probabilidad para fijar la regla de decisión. A continuación, hallamos la
probabilidad de cometer un error de Tipo II, como muestra la siguiente figura.
Supongamos que el director de la fábrica quisiera averiguar si el verdadero peso medio de las
cajas de cereales es de más de 16 onzas. Comenzaría el análisis fijando primero la probabilidad
de cometer un error de Tipo I, lo cual es en cierto sentido como decidir las reglas de un partido
de béisbol o de fútbol antes de que comience en lugar de ir estableciendo las reglas a medida
que se juega el partido.
Tras analizar la naturaleza del proceso de decisión, podría decidir que la regla de decisión debe
tener una probabilidad de 0,05 o menos de rechazar la hipótesis nula cuando es verdadera. Lo
haría seleccionando un número apropiado, K, en la regla de decisión: «rechazar la hipótesis nula
si la media muestral es superior a K onzas». En los apartados siguientes explicamos el método
para elegir K. Una vez elegido el número K, puede calcularse la probabilidad de cometer un
error de Tipo II —para un valor de µ incluido en 𝐻1 — utilizando los métodos que
desarrollamos más adelante.
Otro concepto que se utiliza en el contraste de hipótesis es la potencia del contraste, que es la
probabilidad de rechazar H0 cuando H1 es verdadera. Se calcula para valores específicos de µ
que satisfacen la hipótesis nula. La potencia normalmente es diferente para cada valor de µ.
Consideremos el problema de los cereales, en el que
𝐻0 ∶ 𝜇 = 16
𝐻1 ∶ 𝜇 > 16
Así, para cualquier valor de µ contenido en la hipótesis nula, H1

𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 𝑃 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 |𝜇, 𝜇 ⊂ 𝐻1

Dado que la regla de decisión depende del nivel de significación elegido para el contraste, el
concepto de potencia no afecta directamente a la decisión de rechazar o no rechazar una
hipótesis nula. Sin embargo, calculando la potencia del contraste para niveles de significación y
valores de 𝜇 específicos incluidos en H1, tendremos valiosa información sobre las propiedades
de la regla de decisión.
Por ejemplo, veremos que aumentando el tamaño de la muestra, la potencia del contraste
aumentará para un nivel dado de significación, α. Por lo tanto, sopesaremos el incremento de los
costes que implica un aumento del tamaño de la muestra y los beneficios de aumentar la
potencia del contraste. El cálculo de la potencia también es útil cuando, dado el tamaño de la
muestra, podemos elegir entre dos o más contrastes que tienen los mismos niveles de
significación. En ese caso, sería adecuado elegir el contraste que tenga la menor probabilidad de
cometer un error de Tipo II, es decir, el contraste que tenga la mayor potencia.
Más adelante mostramos cómo pueden formularse reglas de decisión, dados unos niveles de
significación, para algunas clases importantes de problemas de contraste de hipótesis. También
mostramos cómo puede calcularse la potencia de un contraste. A continuación, resumimos los
términos y las ideas importantes que hemos presentado hasta ahora.
Resumen de la terminología del contraste de hipótesis
Hipótesis nula 𝑯𝟎 : hipótesis que se mantiene que es verdadera, a menos
que se obtenga suficiente evidencia en contra.
Hipótesis alternativa 𝑯𝟏 : hipótesis frente a la que se contrasta la
hipótesis nula y que se mantiene que es verdadera si se rechaza la
hipótesis nula.
Hipótesis simple: hipótesis que especifica un único valor para un
parámetro poblacional de interés.
Hipótesis compuesta: hipótesis que especifica un rango de valores para
un parámetro poblacional.
Hipótesis alternativa unilateral: hipótesis alternativa que implica todos
los valores posibles de un parámetro poblacional a un lado o al otro (es
decir, mayores o menores) del valor especificado por una hipótesis nula
simple.
Hipótesis alternativa bilateral: hipótesis alternativa que implica todos los
valores posibles de un parámetro poblacional distintos del valor
especificado por una hipótesis nula simple.
Decisiones de un contraste de hipótesis: se formula una regla de decisión
que lleva al investigador a rechazar o no la hipótesis nula basándose en la
evidencia muestral.
Error de Tipo I: rechazo de una hipótesis nula verdadera.
Error de Tipo II: aceptación de una hipótesis nula falsa.
Nivel de significación: probabilidad de rechazar una hipótesis nula que es
verdadera. Esta probabilidad a veces se expresa en porcentaje, por lo que
un contraste de nivel de significación α se denomina contraste de nivel
100α%.
Potencia: probabilidad de rechazar una hipótesis nula que es falsa.
En los resúmenes formales de los resultados de los contrastes, utilizamos los términos rechazar
y no rechazar posibles decisiones sobre una hipótesis nula. Veremos que estos términos no
reflejan correctamente la asimetría de los estatus de hipótesis nula e hipótesis alternativa o las
consecuencias de un método en el que el nivel de significación es fijo y la probabilidad de
cometer un error de Tipo II no se controla.
La hipótesis nula tiene el estatus de una hipótesis que se mantiene —que se sostiene que es
verdadera— a menos que los datos contengan pruebas contundentes para rechazarla. Fijando un
bajo nivel de significación, α, tenemos una pequeña probabilidad de rechazar una hipótesis nula
verdadera. Cuando la rechazamos, la probabilidad de cometer un error es el nivel de
significación, α.
Pero si sólo hay una pequeña muestra, rechazamos la hipótesis nula solamente cuando es
totalmente errónea. A medida que aumenta el tamaño de la muestra, también aumenta la
probabilidad de rechazar una hipótesis nula falsa. Pero si no se rechaza una hipótesis nula, es
mucho mayor la incertidumbre, porque no sabemos cuál es la probabilidad de cometer un error
de Tipo II.
Por lo tanto, si no rechazamos una hipótesis nula, o bien es verdadera, o bien nuestro método
para detectar una hipótesis nula falsa no tiene suficiente potencia, por ejemplo, el tamaño de la
muestra es demasiado pequeño. Cuando rechazamos la hipótesis nula, tenemos pruebas
contundentes de que no es verdadera y, por lo tanto, de que la hipótesis alternativa es verdadera.
Si buscamos pruebas contundentes a favor de un determinado resultado, ese resultado es la
hipótesis alternativa, H1, y el otro es la hipótesis nula, H0.Se denomina argumento
contrafactual. Cuando rechazamos H0, existen pruebas contundentes a favor de H1 y estamos
seguros de que nuestra decisión es correcta. Pero si no rechazamos la hipótesis nula, tenemos
una gran incertidumbre. En los siguientes apartados vemos muchas aplicaciones de esta idea.
La analogía con un juicio es evidente. El acusado goza de la presunción de inocencia (la
hipótesis nula) a menos que existan pruebas contundentes que indiquen que es culpable más allá
de una duda razonable (rechazo de la hipótesis nula). El acusado puede ser declarado inocente
bien porque lo es, bien porque las pruebas no son lo bastante poderosas para condenarlo. La
carga de la prueba está en los datos muestrales.

Pasos para resolver un contraste de hipótesis.


Continuando con la idea de los contrastes de hipótesis es necesario conocer el procedimiento
para llevar a cabo esta tarea. Los siguientes pasos son una enumeración que resume el
procedimiento sobre los contrastes y es aplicable para contrastar hipótesis sobre los parámetros
como también para contrastar hipótesis sobre la forma de la distribución. Para hacer más
entendible estos pasos tomaremos como ejemplo el contraste sobre la media poblacionalµ.

Paso 1: Formulación de las hipótesis


Como se vio en las notas anteriores, ya es posible entender como formular las hipótesis sobre un
determinado parámetro poblacional. En este paso se debe plantear la hipótesis nula y la
hipótesis alternativa. Ya estos conceptos fueron abordados en las notas anteriores. De todas
maneras tomando como ejemplo la media poblacional µ veremos los tres posibles casos en que
pueden plantearse la hipótesis nula y las hipótesis alternativas.
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 > 𝜇0

Recuerden que el valor𝜇0 es cualquier valor que pueda tomar por hipótesis la media
poblacionalµ.

Paso 2: Determinación del nivel de significancia α.


El nivel de significancia en una prueba de hipótesis es la probabilidad de cometer error tipo I en
otras palabras el error tipo I para una prueba estadística es el error de rechazar la hipótesis nula
cuando es verdadera. El nivel de significancia (nivel de significancia) para una prueba
estadística de hipótesis es
𝛼 = 𝑃 𝑒𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝐼 = 𝑃 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝑓𝑎𝑙𝑠𝑎𝑚𝑒𝑛𝑡𝑒 𝐻0 = 𝑃 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 | 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎
Este valor a representa el máximo riesgo tolerable de rechazar incorrectamente 𝐻0 . Una vez fijo
este nivel de significancia, la región de rechazo se puede fijar para permitir que el investigador
rechace𝐻0 con un grado fijo de confianza en la decisión. Los niveles de significancia,
comúnmente seleccionados para pruebas de hipótesis son del 10%, 5% y del 1%. Sin embargo
al igual de los intervalos de confianza no hay nada de especial o mágico sobre estos valores de
α. Se podría probar una hipótesis con un nivel de significancia del 4% 0 del 15% si así se
decide. En la práctica la persona responsable de la prueba de hipótesis especifica el nivel de
significancia.
Paso 3: Selección del estadístico de prueba
La selección del estadístico de prueba dependerá principalmente del parámetro que se esté
probando en la hipótesis y de las condiciones que reúna el contraste. Estos estadísticos van a
depender en gran medida de las estimaciones puntuales de los parámetros que estén
involucrados en el contraste.

Como ejemplo supongamos que se está haciendo un contraste sobreµla media poblacional.
Además supongamos que la desviación estándar poblacional σ es conocida y la población se
distribuye normal. Como sabemos el mejor estimador puntual para µes𝑋, y desde el principio se
asume que𝜇 = 𝜇0 es verdadera al menos que la evidencia proporcionada en una muestra
aleatoria determine lo contrario.
Si el tamaño de la muestra es grande de tamaño 𝑛 la distribución muestral del estadístico de
prueba𝑋es normal sin importar la distribución poblacional de procedencia según el teorema del
límite central, razón por la cual𝐸 𝑋 = 𝜇0 .
Sabemos además que la probabilidad de rechazar𝐻0 siendo esta cierta es igual a α, y si tenemos
que calcular una probabilidad para la distribución normal descubriremos que el estadístico
𝑋 − 𝜇0
𝑍0 = 𝜎
𝑛

Es nuestra mejor opción y en el siguiente punto explicaremos porque.


Paso 4: Determinación de la región de rechazo
Consideremos la hipótesis alternativa a nuestra hipótesis nula como 𝜇 ≠ 𝜇0 . Ahora
considerando que𝐻0 es verdadera,α es la probabilidad de rechazarla sabiendo que es cierta y
1 − 𝛼 es la probabilidad de no rechazarla, esto último es el nivel de confianza en la estimación
por intervalos de confianza. Un intervalo de confianza para 𝜇0 estaría dado por

𝑋 − 𝜇0
𝑃 −𝑧𝛼 < 𝜎 < 𝑧𝛼 = 1−𝛼
2 2
𝑛

Donde el intervalo formado por

𝑋 − 𝜇0
−𝑧𝛼 < 𝜎 < 𝑧𝛼
2 2
𝑛

𝜎 𝜎
𝑋 − 𝑧𝛼 < 𝜇0 < 𝑋 + 𝑧𝛼
2 𝑛 2 𝑛

Se espera que contenga el 1 − 𝛼 100% de las veces el valor de 𝜇0 . Ahora lo que realmente nos
importa es obtener la probabilidad de rechazar 𝐻0 si esta es verdadera que sería el área
contraria ocomplementaria del intervalo anterior es decir calcular la siguiente probabilidad
𝑋 − 𝜇0
𝑃 𝜎 > 𝑧𝛼 =𝛼
2
𝑛

𝑃 𝑍0 > = 𝛼
Y de esta expresión deducimos que las áreas en las cuales rechazamos la hipótesis nula, vienen
dadas por las siguientes expresiones
𝑍0 > 𝑧𝛼
2

𝑍0 < −𝑧𝛼
2

Gráficamente se plantean las regiones de rechazo de la siguiente forma

Al costado superior derecho se pueden apreciar las hipótesis, siendo las regiones sombreadas en
amarillo las áreas donde se rechaza 𝐻0 , es decir que si el valor 𝑍0 es mayor que el valor
𝑧𝛼 entonces rechazamos 𝐻0 , o si el valor 𝑍0 es menor que el valor −𝑧𝛼 rechazamos 𝐻0 .
2 2

Como existen tres contrastes posibles resumamos las hipótesis y sus regiones de rechazo.
Si la hipótesis alternativa 𝐻1 es:

𝐻1 : 𝜇 > 𝜇0 entonces se rechaza 𝐻0 si 𝑍0 > 𝑧𝛼 . (contraste de cola superior)


𝐻1 : 𝜇 < 𝜇0 entonces se rechaza 𝐻0 si 𝑍0 < −𝑧𝛼 . (contraste de cola inferior)
𝐻1 : 𝜇 ≠ 𝜇0 entonces se rechaza 𝐻0 si 𝑍0 > 𝑧𝛼 . (contraste de dos colas)
2

Paso 5: Se calcula el valor del estadístico de prueba y se toma una decisión.


Una vez realizados los pasos anteriores solo nos queda seleccionar una muestra aleatoria de
tamaño n, 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 y procedemos a calcular el valor de 𝑍0 y dependiendo de la hipótesis
alternativa planteada determinar si este valor se encuentra en la región de rechazo o no, para
luego tomar una decisión y realizar la correspondiente interpretación según sea el caso.
A continuación se presentan las posibles situaciones en las que podemos resolver problemas
aplicando contrastes de hipótesis en diversas situaciones sobre una variedad de parámetros
poblacionales.

Contrastes de hipótesis sobre muestras grandes


Contrastes de hipótesis para una media poblacional µ, cuandoσ es conocida y 𝒏 ≥ 𝟑𝟎

Supóngase que la variable aleatoria X representa algún proceso o población de interés.


Suponemos que la distribución de X es normal o que, si no lo es, se cumplen las condiciones del
teorema central del límite. Además, consideramos que se desconoce la media µ pero que se
conoce la varianza 𝜎 2 . Estamos interesados en probar las hipótesis

𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 > 𝜇0

donde𝜇0 , es una constante especificada.


Se dispone de una muestra aleatoria de tamaño n, 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 . Cada observación de esta
muestra tiene una media µ desconocida y una varianza 𝜎 2 conocida.
𝑋 −𝜇 0
El estadístico de prueba será 𝑍0 = 𝜎 ~𝑁(0,1)
𝑛

Como anteriormente se mencionó anteriormente las regiones de rechazo serán calculas según el
tipo de hipótesis alternativa que tengamos. De esta forma las regiones de rechazo para las
diferentes hipótesis alternativas serán

𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 > 𝜇0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑍0 > 𝑧𝛼 .
𝑍0 < −𝑧𝛼 2
𝑍0 > 𝑧𝛼
𝑍0 < −𝑧𝛼 o𝑍0 > 𝑧𝛼
2 2

Ahora que sabemos los pasos a seguir procederemos a demostrar lo anteriormente expresado
con algunos ejemplos. El lector debe tener en cuenta que en situaciones reales se puede
presentar variaciones a los ejemplos pero esta metodología es aplicable tanto para el caso en el
que se nos dan los valores que se requieren en la formula, o cuando nos den los datos
individuales en una lista (como comúnmente los tienen la mayoría de las empresas en hojas de
cálculo). En este último caso solamente se calcula la media aritmética 𝑋 , y como la varianza
poblacional 𝜎 2 es conocida ya estamos en el primer caso.
Ejemplo 1.
El director de producción de Circuitos Ilimitados le ha pedido ayuda para analizar un proceso de
producción. Este proceso consiste en hacer taladros cuyo diámetro sigue una distribución
normal de media poblacional 2 centímetros y desviación típica poblacional 0,06 centímetros.
Una muestra aleatoria de 30 mediciones tenía una media muestral de 1,95 centímetros. Utilice
un nivel de significación de α = 0,05 para averiguar si la media muestral observada es
excepcional y sugiere que debe ajustarse la taladradora.
Solución
Paso 1
En primer lugar nos dicen que la media poblacional es de 2 cm por lo tanto 𝐻0 : 𝜇 = 2 𝑐𝑚.
Por otro lado nos dicen que se tiene que para averiguar si la media muestral observada es
excepcional y sugiere que debe ajustarse la taladradora por tanto 𝐻1 : 𝜇 ≠ 2 𝑐𝑚.
Resumiendo la información anterior
𝐻0 : 𝜇 = 2 𝑐𝑚
𝐻1 : 𝜇 ≠ 2 𝑐𝑚.
Paso 2
α = 0,05.
Paso 3
Como el tamaño de la muestra es de 30, la población es normal y la varianza es conocida el
estadístico de prueba es
𝑋 − 𝜇0
𝑍0 = 𝜎
𝑛

Paso 4
Como la hipótesis alternativa es 𝜇 ≠ 2 𝑐𝑚 la región de rechazo viene dada por

𝑍0 < −𝑧𝛼 o𝑍0 > 𝑧𝛼


2 2

Si α = 0.05 entonces α/2 = 0.025. Utilizando la aplicación o la tabla el valor de la normal sería
𝑧𝛼 = 𝑧0.025 = 1.96por lo cual nuestras regiones de rechazo serían
2

𝑍0 < −1.96o𝑍0 > 1.96


Esto lo que quiere decir en palabras simples es que sí calculamos el valor 𝑍0 y este es menor
que −1.96 o es mayor a 1.96 rechazamos la hipótesis nula.
Paso 5
Realizamos los cálculos. Primero determinamos los valores que no proporciona el ejercicio.

La media muestral 𝑋 = 1.95 𝑐𝑚.


La media poblacional bajo la hipótesis nula 𝜇0 = 2 𝑐𝑚.
La desviación estándar poblacional 𝜎 = 0.06.
El tamaño de la muestra 𝑛 = 30.
Sustituyendo
𝑋 − 𝜇0 1.95 − 2
𝑍0 = 𝜎 = 0.06 = −4.56
𝑛 30

Decisión: como 𝑍0 = −4.56 es menor que −1.96, rechazamos 𝐻0 con α = 0,05.


Interpretación: rechazamos la hipótesis nula, es decir que el diámetro promedio de los taladros
es significativamente diferente de 2 cm con un nivel de significancia del 5% razón por la cual se
recomienda que debe ajustarse la taladradora.
En el ejemplo anterior se desarrolló el proceso con toda la minuciosidad que requiere el caso en
los siguientes ejemplos se omitirán algunos detalles a que con el ejemplo anterior el lector ya le
habrá quedado en claro la metodología a seguir. Continuemos con otra situación interesante.
Ejemplo 2
Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado reveló una
vida promedio de 71.8 años. Si se supone una desviación estándar de la población de 8.9 años,
¿esto parece indicar que la vida media actual es mayor que 70 años? Utilice un nivel de
significancia de 0.05.
Solución
Paso 1: las hipótesis son las siguientes
𝐻0 : 𝜇 = 70 𝑎ñ𝑜𝑠
𝐻1 : 𝜇 > 70 𝑎ñ𝑜𝑠
Paso 2: 𝛼 = 0.05.
Paso 3:

𝑋 − 𝜇0
𝑍0 = 𝜎
𝑛

Paso 4: como 𝛼 = 0.05 entonces 𝑧0.05 = 1.645. La regla de decisión es si 𝑍0 es mayor que
1.645 se rechaza 𝐻0 .

Paso 5: la información suministrada por el enunciado es la siguiente 𝑋 = 71.8 𝑎ñ𝑜𝑠, 𝜎 =


8,9 𝑎ñ𝑜𝑠,𝜇0 = 70 𝑎ñ𝑜𝑠 y 𝑛 = 100
Sustituyendo

𝑋 − 𝜇0 71.8 − 70
𝑍0 = 𝜎 = 8.9 = 2.02
𝑛 100

Decisión: se concluye rechazar𝐻0 y afirmar que la vida media actual es mayor que 70 años con
un nivel de significancia del 5%.

Contrastes de hipótesis para una media poblacional µ, cuando σ es desconocida y 𝒏 ≥ 𝟑𝟎


Al igual que en el caso anterior la variable aleatoria X representa algún proceso o población de
interés. Suponemos que la distribución de X es normal o que, si no lo es, se cumplen las
condiciones del teorema central del límite. Además, consideramos que se desconoce la media µ
y se desconoce la varianza 𝜎 2 .
Los procedimientos explicados en la sección anterior son exactamente los mismos con la única
diferencia en que en este caso debemos estimar 𝜎 2 a través de su estimador puntual 𝑆 2 . Se
puede demostrar que la distribución muestral de 𝑋 sigue siendo normal si el tamaño de la
muestra es grande.
En palabras sencillas lo que haremos ahora será reemplazar el valor de la varianza poblacional
𝜎 2 por el de su estimador 𝑆 2 en la expresión del estadístico 𝑍0 el cual va a quedar de la
siguiente forma
𝑋 − 𝜇0
𝑍0 = 𝑠
𝑛

Este representa el único cambio en la metodología que hemos seguido hasta ahora.
Demostrémoslo con un ejemplo
Ejemplo 3
La producción diaria para una planta química local ha promediado 880 toneladas en los últimos
años. A la gerente de control de calidad le gustaría saber si este promedio ha cambiado en meses
recientes. Ella selecciona al azar 50 días de entre la base de datos y calcula el promedio y
desviación estándar de las 𝑛 = 50 producciones como 𝑥 = 871 toneladas y 𝑠 = 21 toneladas,
respectivamente. Pruebe la hipótesis apropiada usando 𝛼 = 0.05.
Solución
Paso 1: las hipótesis son las siguientes

𝐻0 : 𝜇 = 880
𝐻1 : 𝜇 ≠ 880
Paso 2: 𝛼 = 0.05.
Paso 3:

𝑋 − 𝜇0
𝑍0 = 𝑠
𝑛

Paso 4: como 𝛼 = 0.05 entonces 𝛼/2 = 0.025 y 𝑧0.025 = 1.96. La regla de decisión es si 𝑍0
es mayor que 1.96 o es menor que −1.96 se rechaza 𝐻0 .
Paso 5: la información suministrada por el enunciado es la siguiente 𝑥 = 871, 𝑠 = 21,𝜇0 =
880 y 𝑛 = 50
Sustituyendo

𝑋 − 𝜇0 871 − 880
𝑍0 = 𝑠 = 21 = −3.03
𝑛 50

Decisión: Como 𝑍0 = −3.03 y el valor 𝑍0 cae en la región de rechazo, la gerente puede


rechazar la hipótesis nula de que 𝜇 = 880 toneladas y concluir que ha cambiado con un nivel de
significancia del 5%.
Método del valor p (o p-value).
En el método del valor-p se usa el valor del estadístico de prueba z para calcular una
probabilidad llamada valor-p. En este curso no vamos a profundizar en su cálculo sino que nos
vamos a enfocar en su uso en las hojas de cálculo de Excel y en las salidas por computador
generadas por el software estadístico R. (para más información sobre R visite https://www.r-
project.org ).

Definición: Un valor-p es una probabilidad que aporta una medida de una evidencia
suministrada por la muestra contra la hipótesis nula. Valores-p pequeños indican una evidencia
mayor contra la hipótesis nula.
Cuando se utilizan paquetes de software estadístico es más común la interpretación de la región
de rechazo sobre 𝐻0 bajo el criterio del p-valor comparado con la metodología anteriormente
expuesta. Esto se debe a que es más intuitiva o más sencilla la interpretación en cuanto a
rechazar o no 𝐻0 . A continuación se presenta este criterio.
REGLA PARA EL RECHAZO USANDO EL VALOR-p
Rechazar 𝐻0 si el 𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≤ 𝛼
Para entenderlo mejor presentamos el siguiente ejemplo
Ejemplo 4
El promedio semanal de ganancias para trabajadoras sociales es $670. ¿Los hombres de la
misma posición tienen ganancias semanales promedio más altas que los de las mujeres? Se toma
Una muestra aleatoria de 𝑛 = 40 trabajadores sociales y se pide probar la hipótesis apropiada
usando 𝛼 = 0.01.Los datos se muestran a continuación
820 784 796 835 736 795 700 870 543 809
638 693 887 679 683 733 648 790 681 787
748 735 542 702 713 757 593 751 671 845
532 882 726 716 654 722 753 659 906 905
Solución
En este caso vamos a hacer uso del paquete estadístico R para desarrollar los cálculos y
presentar el resultado del p-valor.
Paso 1: las hipótesis son las siguientes

𝐻0 : 𝜇 = 670
𝐻1 : 𝜇 > 670
Paso 2: 𝛼 = 0.01.
Los siguientes pasos aplicados anteriormente están resumidos en la siguiente salida la cual
vamos a conocer e interpretar
>t.test(x,alternative = "greater",mu = 670, conf.level = 0.99)
One Sample t-test
data: x
t = 4.338, df = 39, p-value = 4.921e-05
alternative hypothesis: true mean is greater than 670
99 percent confidence interval:
698.8607 Inf
sample estimates:
mean of x
735.475
El valor correspondiente a t = 4.338 corresponde al valor de 𝑍0 pero notamos que no nos dan los
valores críticos correspondientes a 𝑧𝛼 2 para conformar las regiones de rechazo del paso 4 y
tomar la decisión del paso 5. Sin embargo en lugar de esto nos otorgan el valor correspondiente
al valor-p como p-value = 4.921e-05 pero este valor esta en notación científica por lo tanto es
necesario expresarlo en notación decimal como 0.00004921.
Ahora tomaremos nuestra decisión tomando en cuenta el criterio del p-valor el cual dice que se
rechaza la hipótesis nula si el p-valor es menor o igual a α.
Tomando en cuenta el criterio anteriormente expuesto concluimos rechazar 𝐻0 debido a que el
valor-p = 0.00004921 es menor que 𝛼 = 0.01 es decir podemos concluir que el promedio
semanal de ganancia para trabajadores sociales de sexo masculino es más alta que el promedio
para trabajadoras.
Contrastes de hipótesis sobre una proporción poblacional p
Otro importante conjunto de problemas empresariales y económicos consiste en contrastar
proporciones poblacionales. Los ejecutivos tienen interés en saber cuál es la cuota porcentual de
mercado de sus productos y las autoridades tienen interés en saber cuál es el porcentaje de la
población que apoya una nueva propuesta. Por lo tanto, la inferencia sobre la proporción
poblacional basada en proporciones muestrales es una importante aplicación del contraste de
hipótesis.
Comenzamos con una muestra aleatoria de 𝑛 observaciones procedentes de una población que
tiene una proporción 𝑃 cuyos miembros poseen un determinado atributo. Si 𝑃(1 − 𝑃) > 9 y la
proporción muestral es 𝑝, los siguientes contrastes tienen el nivel de significación α:

𝐻0 : 𝑃 = 𝑃0 𝐻0 : 𝑃 = 𝑃0 𝐻0 : 𝑃 = 𝑃0
𝐻1 : 𝑃 < 𝑃0 𝐻1 : 𝑃 ≠ 𝑃0 𝐻1 : 𝑃 > 𝑃0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑍0 > 𝑧𝛼 .
𝑍0 < −𝑧𝛼 2
𝑍0 > 𝑧𝛼
𝑍0 < −𝑧𝛼 o𝑍0 > 𝑧𝛼
2 2

En este caso el estadístico de prueba se basara en el estimador puntual de P


𝑝 − 𝑃0
𝑧= ~𝑁(0, 1)
𝑃0 1−𝑃0
𝑛

Conociendo ya los pasos a seguir para realizar un contraste de hipótesis procederemos ahora a
realizar un ejemplo de cómo utilizar lo anterior en casos de la vida cotidiana.
Ejemplo 5
Una empresa de estudios de mercado quiere saber si los compradores son sensibles a los precios
de los artículos que se venden en un supermercado. Obtiene una muestra aleatoria de 802
compradores y observa que 378 son capaces de decir el precio correcto de un artículo
inmediatamente después de colocarlo en el carro. Contraste al nivel del 7 por ciento la hipótesis
nula de que al menos la mitad de todos los compradores son capaces de decir el precio correcto.
Solución
Paso 1: Sea P la proporción poblacional de compradores de los supermercados que son capaces
de decir el precio correcto en estas circunstancias. Contraste la hipótesis nula

𝐻0 : 𝑃 = 0.50
frente a la alternativa

𝐻1 : 𝑃 < 0.50
Paso 2: 𝛼 = 0.07.
Paso 3 el estadístico de contraste es
𝑝 − 𝑃0
𝑧=
𝑃0 1−𝑃0
𝑛

Paso 4: como 𝛼 = 0.07 entonces 𝑧0.07 = −1.476 (recuerde que la aplicación da los valores z
opuestos). La regla de decisión es si 𝑍0 es menor que −1.476 se rechaza 𝐻0 .

Paso 5: la información suministrada por el enunciado calculamos el valor de 𝑝


378
𝑝= = 0.471
802
Sustituyendo
𝑝 − 𝑃0 0.471 − 0.50
𝑧= = = −1.64
𝑃0 1−𝑃0 0.50 1−0.50
𝑛 802

Decisión: Dado que −1.64 es menor que −1.476, rechazamos la hipótesis nula y concluimos
que menos de la mitad de los compradores puede decir correctamente el precio inmediatamente
después de colocar un artículo en el carro

Contrastes de hipótesis para la diferencia de medias poblacionales µ1 - µ2, cuando σ1 y


σ2son conocidas y 𝒏𝟏 , 𝒏𝟐 ≥ 𝟑𝟎

A continuación, analizamos el caso en el que tenemos muestras aleatorias independientes


procedentes de dos poblaciones que siguen una distribución normal. La primera población tiene
una media 𝜇𝑥 y una varianza 𝜎𝑥2 y obtenemos una muestra aleatoria de tamaño 𝑛𝑥 . La segunda
población tiene una media 𝜇𝑦 y una varianza 𝜎𝑦2 y obtenemos una muestra aleatoria de tamaño
𝑛𝑦 .

En este caso el estadístico de prueba se basara en el estimador puntual de 𝜇𝑥 − 𝜇𝑦

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑍0 =
𝜎𝑥2 𝜎𝑦2
𝑛𝑥
+𝑛
𝑦

Y las correspondientes regiones de rechazo vendrán dadas por los siguientes intervalos.

𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0
𝐻1 : 𝜇𝑥 − 𝜇𝑦 < 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 ≠ 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 > 𝐷0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑍0 > 𝑧𝛼 .
𝑍0 < −𝑧𝛼 2
𝑍0 > 𝑧𝛼
𝑍0 < −𝑧𝛼 o 𝑍0 > 𝑧𝛼
2 2

Nótese particularmente que si el valor de 𝐷0 es igual a 0 las hipótesis alternativas varían un poco
de forma que se puede presentar los cambios en siguiente tabla

𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0
𝐻0 : 𝜇𝑥 = 𝜇𝑦 𝐻0 : 𝜇𝑥 = 𝜇𝑦 𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 < 𝜇𝑦 𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦 𝐻1 : 𝜇𝑥 > 𝜇𝑦

Las áreas de rechazo después de haber cambiado las hipótesis no varían.

El estadístico que resume la información muestral respecto a la diferencia en medias


poblacionales 𝜇𝑥 − 𝜇𝑦 es la diferencia en medias muestrales𝑋 − 𝑌. Por tanto, al probar si la
diferencia en medias muestrales indica que la diferencia verdadera en medias poblacionales
difiere de un valor especificado, 𝜇𝑥 − 𝜇𝑦 = 𝐷0 , se puede usar el error estándar de (𝑋 − 𝑌),

𝜎𝑥2 𝜎𝑦2 𝑆𝑥2 𝑆𝑦2


+ Es estimado por +
𝑛𝑥 𝑛𝑦 𝑛𝑥 𝑛𝑦

Ahora aplicaremos los pasos a seguir y procederemos a demostrar lo anteriormente expresado


con algunos ejemplos. El lector debe tener en cuenta que en situaciones reales se puede
presentar variaciones a los ejemplos pero esta metodología es aplicable tanto para el caso en el
que se nos dan los valores que se requieren en la formula, o cuando nos den los datos
individuales para cada una de las variables en una lista. Además realizaremos algunos ejemplos
utilizando el computador.

Ejemplo 6

Sara Briones, economista agraria, quiere comparar el uso de estiércol de vaca con el de pavo
como fertilizantes. Históricamente, los agricultores han utilizado estiércol de vaca en los
maizales. Recientemente, un importante criador de pavos vende el estiércol a un precio
favorable. Los agricultores han decidido que sólo utilizarán este nuevo fertilizante si existen
pruebas contundentes de que la productividad es mayor que cuando se utiliza estiércol de pavo.
Le han pedido a Sara que realice el estudio y el análisis estadístico para hacerles una
recomendación.

Utiliza estiércol de vaca en un conjunto de 𝑛𝑦 = 25 explotaciones agrícolas seleccionadas


aleatoriamente. La media muestral de la productividad es 𝑦 = 100. Basándose en la
experiencia, supone que la varianza de la productividad de estas explotaciones es𝜎𝑦2 = 400.
Utiliza estiércol de pavo en una segunda muestra aleatoria de 𝑛𝑥 = 25 explotaciones y la media
muestral de la productividad es 𝑥 = 115. Basándose en algunos estudios publicados, se supone
que la varianza de estas explotaciones es 𝜎𝑥2 = 625.

Solución
Paso 1
Para comenzar el estudio, Sara especifica un contraste de hipótesis con una hipótesis nula
siendo 𝑥 el estiércol de pavo y 𝑦 el estiércol de vaca.
Como nos piden es confirmar si la productividad es mayor que cuando se utiliza estiércol de
pavo las hipótesis quedan de la siguiente forma
𝐻0 : 𝜇𝑥 = 𝜇𝑦

𝐻1 : 𝜇𝑥 > 𝜇𝑦

donde 𝜇𝑥 es la media poblacional de la productividad utilizando estiércol de pavo y𝜇𝑦 es la


media poblacional de la productividad utilizando estiércol de vaca. 𝐻1 indica que el estiércol de
pavo aumenta la productividad. Los agricultores no cambiarán de fertilizante a menos que
existan pruebas contundentes de que aumenta la productividad.
Paso 2
Como no se especifica el nivel de significancia Sara decide antes de recoger los datos que
utilizará para este contraste un nivel de significación de 𝛼 = 0,05.
Paso 3
El estadístico de contraste es

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑍0 =
𝜎𝑥2 𝜎𝑦2
+
𝑛𝑥 𝑛𝑦

Debido a que se conocen las varianzas poblacionales.


Paso 4: como 𝛼 = 0.05 entonces 𝑧0.05 = 1.645 (recuerde que la aplicación da los valores z
opuestos). La regla de decisión es que si 𝑍0 es mayor que 1.645 se rechaza 𝐻0 .

Paso 5: la información suministrada por el enunciado calculamos el valor de 𝑍0 .

𝑛𝑥 = 25𝑥 = 115𝜎𝑥2 = 625


𝑛𝑦 = 25𝑦 = 100𝜎𝑦2 = 400

Como no nos piden diferencia en unas cuantas unidades entonces 𝜇𝑥 − 𝜇𝑦 = 𝐷0 = 0

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦 115 − 100 − 0
𝑍0 = = = 2.34
𝜎𝑥2 𝜎𝑦2 625 400
+ +
𝑛𝑥 𝑛𝑦 25 25

Comparando el valor calculado de𝑍0 = 2.34 con 𝑧0.05 = 1.645, Sara llega a la conclusión de
que se rechaza claramente la hipótesis nula con un valor de significancia del 5% es decir
existen, pues, pruebas contundentes de que la productividad es mayor con el estiércol de pavo
que con el de vaca.

Ejemplo 7

Para determinar si la propiedad de un auto afecta el rendimiento académico de un estudiante, se


tomaron dos muestras aleatorias de 100 estudiantes de sexo masculino. El promedio de
calificaciones para los 𝑛𝑥 = 100 que no eran dueños de autos tuvieron un promedio y variancia
igual a 𝑥 = 2.70 y 𝑠𝑥2 = 0.36, en tanto que 𝑦 = 2.54y 𝑠𝑦2 = 0.40para los 𝑛𝑦 = 100
propietarios de autos. ¿Los datos presentan suficiente evidencia para indicar una diferencia en el
rendimiento medio entre propietarios de autos y no propietarios? Pruebe usando 𝛼 = 0.05.
Solución

Paso 1

Para detectar una diferencia, si existe, entre los rendimientos académicos medios para no
propietarios de autos 𝜇𝑥 y los propietarios 𝜇𝑦 , probaremos la hipótesis nula de que no hay
diferencia entre las medias contra la hipótesis alternativa de que
𝜇𝑥 − 𝜇𝑦 ≠ 0; esto es,

𝜇𝑥 − 𝜇𝑦 = 𝐷0 = 0

𝐻0 : 𝜇𝑥 = 𝜇𝑦

𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦

Paso 2.

Use 𝛼 = 0.05.
Paso 3
El estadístico de prueba será el siguiente debido a que no conocemos las varianzas
poblacionales

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑍0 =
𝑠𝑥2 𝑠𝑦2
+
𝑛𝑥 𝑛𝑦

Paso 4: como 𝛼 = 0.05 entonces𝑧0.05 2 = 𝑧0.025 = 1.96 (recuerde que la aplicación da los
valores z opuestos). La regla de decisión es que si 𝑍0 es mayor que 1.96o si 𝑍0 es menor que
−1.96se rechaza 𝐻0 .
Paso 5: la información suministrada por el enunciado calculamos el valor de 𝑍0 .
Como no nos piden diferencia en unas cuantas unidades entonces 𝜇𝑥 − 𝜇𝑦 = 𝐷0 = 0

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦 2.7 − 2.54 − 0
𝑍0 = = = 1.84
𝑠𝑥2 𝑠𝑦2 0.36 0.40
+𝑛 100
+ 100
𝑛𝑥 𝑦

Como 𝑍0 = 1.84 no excede de 1.96 y no es menor a -1.96, 𝐻0 no puede ser rechazada. Esto es, hay
evidencia insuficiente para declarar una diferencia en el promedio de los rendimientos académicos
para los dos grupos, con un nivel de significancia del 5%

Ahora veamos un ejemplo aplicando el uso del computador.


En un intento por comparar los salarios iniciales para estudiantes universitarios que tienen
especialidad en ingeniería química y ciencias computacionales, se seleccionaron muestras
aleatorias de 50 recién graduados universitarios en cada especialidad y se obtuvo la siguiente
información.
Ingeniería química
55450 55837 53334 55649 52779 53153 54490 51143 53781 56791
50740 51997 54999 53224 54172 56387 55398 52389 53755 50325
50635 55802 51377 55713 53453 56332 55336 52892 50245 57797
50470 52319 55930 56343 52867 53644 51587 52946 52376 54692
55358 53739 56072 51813 52675 48365 51144 53866 51606 53342
Ciencias de la computación

50073 54923 53761 46615 50536 53989 48262 48926 52342 48169
48836 49920 54890 46566 55731 48023 52663 54087 55137 45202
51370 51348 55071 51235 51835 49203 49361 51643 46115 51047
49873 53689 49876 50122 48411 53534 58105 51142 48656 54987
53836 45794 47371 53480 51897 49565 49306 50079 49217 51722

Por estudios anteriores se sabe que la varianza poblacional para salarios iniciales promedio para
graduados universitarios con especialidad en ingeniería química es de 22252$ y para los de
ciencias computacionales es de 23752$. ¿Los datos dan suficiente evidencia para indicar una
diferencia en salarios iniciales promedio para graduados universitarios con especialidad en
ingeniería química y ciencias computacionales? Pruebe usando 𝛼 = 0.05.
Solución
Paso 1.
Para establecer las hipótesis veamos que nos piden una diferencia salarios iniciales promedio
para graduados universitarios con especialidad en ingeniería química y ciencias
computacionales.Definamos como 𝑥 a los sueldos promedios de los estudiantes recién
egresados en Ingeniería química, y 𝑦 como los sueldos promedios de los estudiantes recién
egresados en ciencias de la computación. Las hipótesis quedaran de la siguiente manera
𝐻0 : 𝜇𝑥 = 𝜇𝑦

𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦

Paso 2
Use 𝛼 = 0.05.
De este paso en adelante se utilizara el computador para obtener los resultados ya que como se
observa la muestra es grande y los números demasiado altos como para decir que los cálculos
son fáciles de realizar. Para realizar este ejercicio en Excel debemos ingresar los datos en dos
columnas una para los estudiantes de ingeniería y otra para los estudiantes de computación. Se
tiene que activar las herramientas para el análisis. Luego seguimos la siguiente ruta “DATOS”-›
“Análisis de datos” -› “Prueba z para dos muestras” y en el cuadro de diálogo rellenan las
casillas con la información que se les pide.
A continuación se presentan los resultados

Prueba z para medias de dos muestras

ingeniería computación
Media 53530,58 50950,82
Varianza (conocida) 4950625 5640625
Observaciones 50 50
Diferencia hipotética de las medias 0
z 5,61
P(Z<=z) una cola 0,0000000104
Valor crítico de z (una cola) 1,64
Valor crítico de z (dos colas) 0,0000000208
Valor crítico de z (dos colas) 1,96

En las primeras 3 filas se presenta la información de las muestras media, varianza y el número
de observaciones. En la fila cuatro tenemos en valor de la hipótesis nula 𝜇𝑥 − 𝜇𝑦 = 𝐷0 = 0. En
la fila 5 tenemos el vapor de 𝑍0 . En la fila 6 tenemos el valor-p si el contraste es de una cola y
en la fila 8 el valor-p para el contraste de dos colas. En las filas 7 y 9 se tienen los valores de Z
para un contraste de una cola ( 𝑍𝛼 ) como para un contraste de dos colas (𝑍𝛼 2 ) cuando alfa es
igual a 0,05.
Utilizando el criterio del p-valor llegamos a la conclusión que debemos rechazar 𝐻0 con un
nivel de significancia del 5%, es decir existen diferencias estadísticamente significativas como
para afirmar que la diferencia entre los sueldos promedios de los egresados en ingeniería
química y ciencias de la computación no son parecidas.
Dos muestras: pruebas sobre dos proporciones
A menudo surgen situaciones en las que se desea probar la hipótesis de que dos proporciones
son iguales. Por ejemplo, podemos tratar de mostrar evidencia de que la proporción de médicos
que son pediatras en un estado es igual a la proporción de pediatras en otro estado. Quizás un
individuo decida dejar de fumar sólo si se convence de que la proporción de fumadores con
cáncer pulmonar excede a la proporción de no fumadores con ese tipo de cáncer.
Examinamos un modelo aplicable a una muestra aleatoria de 𝑛𝑥 observaciones procedentes de
una población que tiene una proporción 𝑃𝑥 de «éxitos» y una segunda muestra aleatoria
independiente de 𝑛𝑦 observaciones procedentes de una población que tiene una proporción 𝑃𝑦
de «éxitos».
En el curso anterior de estadística I vimos que, cuando las muestras son grandes, las variables
aleatorias que siguen una distribución normal son una buena aproximación de las proporciones,
por lo que

𝑝𝑥 − 𝑝𝑦 − 𝑃𝑥 − 𝑃𝑦
𝑍= ~𝑁 0, 1
𝑃𝑥 1−𝑃𝑥 𝑃𝑦 1−𝑃𝑦
𝑛𝑥
+ 𝑛𝑦

Queremos contrastar la hipótesis de que las proporciones poblacionales 𝑃𝑥 y 𝑃𝑦 son iguales. Sea
𝑃0 su valor común. Entonces, partiendo de esta hipótesis,

𝑝𝑥 − 𝑝𝑦
𝑍= ~𝑁 0, 1
𝑃0 1−𝑃0 𝑃0 1−𝑃0
𝑛𝑥
+ 𝑛𝑦

Por último, la proporción desconocida 𝑃0 puede estimarse por medio de un estimador agrupado
𝑛𝑥 𝑝𝑥 + 𝑛𝑦 𝑝𝑦
𝑝0 =
𝑛𝑥 + 𝑛𝑦

En estos contrastes, la hipótesis nula supone que las proporciones poblacionales son iguales.En
ese caso, podemos sustituir la 𝑃0 desconocida por 𝑝0 para obtener una variable aleatoria que
tiene una distribución parecida a la normal estándar, cuando el tamaño de la muestra es grande.
Sin embargo aún nos falta definir nuestro estadístico de contraste el cual vendría dado por

𝑝𝑥 − 𝑝𝑦
𝑍0 =
𝑝 0 1−𝑝 0 𝑝 0 1−𝑝 0
𝑛𝑥
+ 𝑛𝑦

A continuación se presentaran los contrastes que evaluaremos en esta sección si y solo si


− 𝑛𝑃0 1 − 𝑃0 > 9 − a un nivel de significancia α

𝐻0 : 𝑃𝑥 − 𝑃𝑦 = 𝐷0 𝐻0 : 𝑃𝑥 − 𝑃𝑦 = 𝐷0 𝐻0 : 𝑃𝑥 − 𝑃𝑦 = 𝐷0
𝐻1 : 𝑃𝑥 − 𝑃𝑦 < 𝐷0 𝐻1 : 𝑃𝑥 − 𝑃𝑦 ≠ 𝐷0 𝐻1 : 𝑃𝑥 − 𝑃𝑦 > 𝐷0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑍0 > 𝑧𝛼 .
𝑍0 < −𝑧𝛼 2
𝑍0 > 𝑧𝛼
𝑍0 < −𝑧𝛼 o𝑍0 > 𝑧𝛼
2 2

Ejemplo 8
Se ha realizado un estudio para averiguar si existe alguna diferencia entre el contenido
humorístico de los anuncios de las revistas británicas y las estadounidenses. En una muestra
aleatoria independiente de 270 anuncios de revistas estadounidenses, 56 eran humorísticos. En
una muestra aleatoria independiente de 203 anuncios de revistas británicas, 52 eran
humorísticos. ¿Constituyen estos datos una prueba de que existe una diferencia entre las
proporciones de anuncios humorísticos de las revistas británicas y las de las revistas
estadounidenses?
Solución
Paso 1
Sean 𝑃𝑥 y 𝑃𝑦 las proporciones poblacionales de anuncios británicos y estadounidenses
humorísticos, respectivamente. No se especifica de cuanto es la diferencia por lo tanto 𝐷0 = 0.
La hipótesis nula es
𝐻0 : 𝑃𝑥 − 𝑃𝑦 = 0

𝐻1 : 𝑃𝑥 − 𝑃𝑦 ≠ 0

Paso 2
Como no nos dan el nivel de significancia asumiremos que es del 5%
Paso 3
El estadístico del contraste es

𝑝𝑥 − 𝑝𝑦
𝑍0 =
𝑝 0 1−𝑝 0 𝑝 0 1−𝑝 0
𝑛𝑥
+ 𝑛𝑦

Paso 4
Como 𝛼 = 0.05 entonces𝑧0.05 2 = 𝑧0.025 = 1.96. La regla de decisión es que si 𝑍0 es mayor
que 1.96o si 𝑍0 es menor que −1.96se rechaza 𝐻0 .
Paso 5
Los datos de este problema son
52 56
𝑛𝑥 = 203, 𝑝𝑥 = 203 = 0,256,𝑛𝑦 = 270, 𝑝𝑦 = 270 = 0,207

La estimación de la varianza común 𝑃0 según la hipótesis nula es


𝑛𝑥 𝑝𝑥 + 𝑛𝑦 𝑝𝑦 203 0.256 + (270)(0.207)
𝑝0 = = = 0.228
𝑛𝑥 + 𝑛𝑦 203 + 270

El estadístico del contraste es

𝑝𝑥 − 𝑝𝑦 0.256 − 0.207
𝑍0 = = = 1.26
𝑝 0 1−𝑝 0 𝑝 0 1−𝑝 0 (0.228)(1−0.228 ) (0.228 )(1−0.228)
+ +
𝑛𝑥 𝑛𝑦 203 270

Como 𝑍0 = 1.26 no es mayor que 𝑧0.025 = 1.96 ni menor que −1.96 no es posible rechazar 𝐻0
con un nivel de significancia del 5%.Por lo tanto, no es posible rechazar la hipótesis nula, por lo
que tenemos pocas pruebas de que exista una diferencia entre los anuncios humorísticos de los
dos países.
Contrastes de hipótesis sobre muestras pequeñas
En esta sección vamos a estudiar qué pasa si la muestra es pequeña es decir no sobrepasa los 30
elementos, y desarrollaremos la metodología a seguir en estos casos. Anteriormente ya se pudo
ver algunas cosas referentes a los intervalos de confianza cuando la muestra es menor que 30.
Estos resultados nos serán de gran utilidad en esta sección por la inminente relación existente
entre los intervalos de confianza y los contrastes de hipótesis. Sin más preámbulo iniciemos el
estudio de nuestro primer caso.
Contrastes de hipótesis para una media poblacional µ, cuando σ es conocida y 𝒏 < 30
Cuando nos encontramos en este tipo de situaciones no debemos preocuparnos en lo absoluto si
conocemos la desviación estándar poblacional y procedemos de idéntica forma que cuando
contrastamos una hipótesis para una media poblacional µ, cuando σ es conocida y n≥30. No hay
diferencias en cuanto a metodología de todas maneras se abordara un ejemplo con este tipo de
situaciones para evitar posibles confusiones por parte del lector.
Ejemplo 9
El director de producción de Rodamientos Niquelados, S.A., le ha pedido ayuda para evaluar un
proceso modificado de producción de rodamientos. Cuando el proceso funciona correctamente,
produce rodamientos cuyo peso sigue una distribución normal de media poblacional 5 onzas y
desviación típica poblacional 0,1 onzas. Se ha recurrido a un nuevo proveedor de materia prima
para un lote reciente de producción y el director quiere saber si, como consecuencia del cambio,
el peso medio de los rodamientos es menor. No hay razón alguna para sospechar que el nuevo
proveedor plantea problemas y el director continuará recurriendo a él a menos que existan
pruebas contundentes de que están produciéndose rodamientos de menor peso que antes. Para
probar si realmente sucede lo anteriormente planteado se selecciona una muestra aleatoria de 16
rodamientos y esta arroja una media muestral de 4,962onzas. Se especifica un nivel de
significación𝛼 = 0,05.

Solución

Paso 1

En este caso, nos interesa saber si existen pruebas contundentes para concluir que están
produciéndose rodamientos de menor peso. Por lo tanto, contrastamos las hipótesis son las
siguientes.
𝐻0 : 𝜇 = 𝜇0 = 5
𝐻1 : 𝜇 < 5
Paso 2
El nivel de significancia se establece en 0.05
Paso 3
Nuestro estadístico de prueba es

𝑋 − 𝜇0
𝑍0 = 𝜎 ~𝑁(0,1)
𝑛

Paso 4
La regla de decisión será la misma que se ha aplicado hasta estos momentos que consiste en
rechazar 𝐻0 si el valor de 𝑍0 es menor que −𝑧0.05 = −1.645.
Paso 5.
Por la información suministrada sabemos que 𝑛 = 16, 𝜎 = 0.1 y 𝑥 = 4,962. Sustituimos los
valores en la expresión del estadístico de prueba que resulta en

𝑋 − 𝜇0 4,962 − 5,0
𝑍0 = 𝜎 = 0.1 = −1.52
𝑛 16

Por lo tanto concluimos que como 𝑍0 = −1.52 no es menor que −𝑧0.05 = −1.645 entonces no
rechazamos 𝐻0 es decir que no tenemos pruebas contundentes de que el proceso de producción
esté produciendo rodamientos de menor peso que antes.
Contrastes de hipótesis para una media poblacional µ, cuando σ es desconocida y 𝒏 < 30
Cuando se desconoce la desviación estándar poblacional σ, el tamaño de la muestra es menor de
30 proveniente de una distribución normal o casi normal el estadístico

𝑋 − 𝜇0
𝑠 ~𝑡𝜈
𝑛

Observe que este estadístico es muy parecido al estadístico 𝑍0 (a la final es el mismo) pero este
tiene un comportamiento diferente en cuanto a cómo se distribuye debido al pequeño tamaño de
la muestra. El estadístico anterior tiene una distribución t-Student con υ grados de libertad. Para
probar hipótesis con respecto a una media poblacional µ se utilizara el siguiente estadístico

𝑋 − 𝜇0
𝑡0 = 𝑠 ~𝑡𝑛 −1
𝑛

Las hipótesis a probar sobre µ son las mismas que en el apartado cuando se conoce σ y el
tamaño de la muestra es grande sin embargo la distribución de µ bajo 𝐻0 cambia radicalmente,
de una distribución normal a una distribución t-Student. Las posibles hipótesis alternativas se
muestran a continuación conjuntamente con su región de rechazo de 𝐻0 .

𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 > 𝜇0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑡0 < −𝑡𝛼 ;𝑛−1 𝑡0 > 𝑡𝛼 ;𝑛−1 .
2
𝑡0 > 𝑡𝛼 ;𝑛−1
𝑡0 < −𝑡𝛼 ;𝑛−1 𝑡0 > 𝑡𝛼 ;𝑛−1
2 2

Procederemos a explicar el procedimiento con un ejemplo.


Ejemplo 9
En una planta de armado, el gerente sospecha que el tiempo promedio que tarda el operador
para realizar una operación es mayor de 5 minutos. Selecciona una muestra aleatoria de 10
tiempos de operación y obtiene los siguientes resultados (en minutos)
5.8, 5.6, 5.3, 5.2, 4.9, 4.7, 5.7, 4.9, 5.7, 6.0
Se supone que el tiempo de operación se aproxima a una distribución normal. ¿Se encuentra la
sospecha del gerente apoyada por la evidencia en la muestra con 𝛼 = 0.01?
Solución
Paso 1
La sospecha del gerente es que el tiempo promedio que tarda el operador para realizar una
operación es mayor de 5 minutos entonces
𝐻0 : 𝜇 = 5
𝐻1 : 𝜇 > 5
Paso 2
𝛼 = 0.01.
Paso 3
Como no se conoce σ y n es menor que 30 el estadístico a utilizar es

𝑋 − 𝜇0
𝑡0 = 𝑠
𝑛

Paso 4.
La regla de decisión será rechazar 𝐻0 si 𝑡0 > 𝑡𝛼 ;𝑛−1 = 𝑡0.05;9 = 2.821

Paso 5
Calculamos los valores de interés, en este caso la media y la desviación estándar muestral
𝑛
𝑥𝑖
𝑥= = 5.38
𝑛
𝑖=1

𝑥𝑖 − 𝑥 2
𝑠= = 0.44
𝑛−1

Luego de obtener estos valores calculamos el valor del estadístico de prueba

𝑋 − 𝜇0 5.38 − 5
𝑡0 = 𝑠 = 0.44 = 2.714
𝑛 10

𝑡0 = 2.714

Como el valor 𝑡0 = 2.714 es menor que el valor 𝑡0.05;9 = 2.821 no rechazamos 𝐻0 al nivel de
significancia del 1%, es decir que los datos que los datos muestrales no apoyan la sospecha del
gerente de que el tiempo promedio que tarda el operador para realizar una operación es mayor
de 5 minutos.
Ahora procederemos a realizar el mismo ejercicio en el paquete estadístico R y analizaremos la
salida del software a través del criterio del p-valor
>Tiempo_operacion<- c(5.8, 5.6, 5.3, 5.2, 4.9, 4.7, 5.7, 4.9, 5.7,
6.0)
>t.test(Tiempo_operacion,
+ alternative = "greater",
+ mu = 5, paired = FALSE, var.equal = FALSE,
+ conf.level = 0.95)
One Sample t-test
data: Tiempo_operacion
t = 2.7051, df = 9, p-value = 0.0121
alternative hypothesis: true mean is greater than 5
99 percent confidence interval:
5.122493 Inf
sample estimates:
mean of x
5.38
En primer lugar introducimos los datos muestrales bajo el nombre Tiempo_operacion
yseguidamente con el comandot.test() calculamos todos los valores necesarios para tomar
nuestra decisión. En letras blancas se muestran los resultados, observamos en la primera línea el
tipo de contraste que estamos realizando en este caso una prueba t sobre una muestra. En la
segunda línea nos enseña la data sobre la cual está contrastando la hipótesis.
La tercera línea es la fundamental para nuestro análisis
t = 2.7051, df = 9, p-value = 0.0121

debido a que nos arroja el valor del estadístico 𝑡0 en este caso igual a 2.7051 (la diferencia con
el valor 𝑡0 que se calculó manualmente es mínima y se debe principalmente a que el programa
al realizar todos los cálculos toma la totalidad de los decimales), seguidamente muestra los
grados de libertad para la distribución t-Student que en este caso serían 9 y por último en esa
fila encontramos el valor-p o 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.0121.
Según este criterio rechazamos la hipótesis nula si el p-valor es menor que el nivel de
significancia α,y como el p-valor =0.0121 es mayor que α=0.01 no rechazamos la hipótesis nula
y tendremos la misma conclusión que cuando utilizamos el criterio del valor 𝑡0 .
Además de esto el programa nos muestra la hipótesis alternativa:
alternative hypothesis: true mean is greater than 5

nos ofrece ademásun intervalo de confianza superior del 99% para µ


99percentconfidenceinterval:
5.122493 Inf
Y por último nos calcula el estimador puntual para µ
sample estimates:
mean of x
5.38
Como se observa el programa puede realizar todos los procedimientos de cálculo y lo
fundamental por parte de la persona que lo opera es saber que procedimiento utilizar según sea
el caso y sobre todo saber interpretar los resultados para obtener las mejores conclusiones en
miras de tomar la mejor decisión de negocios según las mejores prácticas.

Contrastes de hipótesis para la diferencia de medias poblacionales µx - µy, cuando σx y


σysondesconocidasy se suponen iguales y 𝒏𝒙 , 𝒏𝒚 < 30 𝑦 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.
Cuando las varianzas poblacionales son desconocidas pero se suponen iguales, las muestras son
independientes de tamaño pequeño, seleccionadas de poblaciones normales o casi normales los
procedimientos para contrastar diferencias entre promedios poblacionales varía
considerablemente con la metodología para muestras grandes pero es muy similar al caso de
intervalos de confianza cuando se cumplen las condiciones antes mencionadas.
En primer lugar consideremos que las varianzas poblacionales son iguales aunque desconocidas
es decir 𝜎𝑥2 = 𝜎𝑦2 = 𝜎 2 , la formula del error estándar de la diferencia entre las medias
muestrales 𝜎∆𝑥 puede ser escrita como

1 1
𝜎𝑥 −𝑦 = 𝜎 +
𝑛𝑥 𝑛𝑦

Ahora bien como la desviación típica común σ es desconocida y se desea obtener la mejor
estimación posible, es razonable usar un estimador que combine la información de ambas
muestras y este puede obtenerse fusionando las varianzas de las dos muestras de manera
siguiente.

𝑛𝑥 − 1 𝑆𝑥2 + 𝑛𝑦 − 1 𝑆𝑦2
𝑆𝑝2 =
𝑛𝑥 + 𝑛𝑦 − 2
Así el estimador del error de la diferencia entre dos medias poblacionales es

1 1
𝑆𝑥 −𝑦 = 𝑆𝑝 +
𝑛𝑥 𝑛𝑦

El estadístico de prueba para este caso vendrá dado por

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 = ~𝑡𝑛𝑥 +𝑛𝑦 −2
1 1
𝑆𝑝 𝑛𝑥
+𝑛
𝑦

Para mayor comodidad llamemos 𝜈 = 𝑛𝑥 + 𝑛𝑦 − 2. Entonces

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 = ~𝑡𝜈
1 1
𝑆𝑝 𝑛𝑥
+𝑛
𝑦

Los contrastes sobre la diferencia de dos medias con sus correspondientes regiones de rechazo
son los siguientes

𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0
𝐻1 : 𝜇𝑥 − 𝜇𝑦 < 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 ≠ 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 > 𝐷0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑡0 < −𝑡𝛼 ;𝜈 𝑡0 > 𝑡𝛼 ;𝜈 .
2
𝑡0 > 𝑡𝛼 ;𝜈
𝑡0 < −𝑡𝛼 ;𝜈 o𝑡0 > 𝑡𝛼 ;𝜈
2 2
Nótese particularmente que si el valor de 𝐷0 es igual a 0 las hipótesis alternativas varían un
poco de forma que se puede presentar los cambios en siguiente tabla

𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0
𝐻0 : 𝜇𝑥 = 𝜇𝑦 𝐻0 : 𝜇𝑥 = 𝜇𝑦 𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 < 𝜇𝑦 𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦 𝐻1 : 𝜇𝑥 > 𝜇𝑦

Las áreas de rechazo después de haber cambiado las hipótesis no varían, es decir no cambian.

Ejemplo 10

Un gerente está interesado en el efecto que podrían tener dos tipos de publicidad (A y B) sobre
las ventas de un producto. Pare ello selecciona una muestra aleatoria de 11 del total de
almacenes que venden el producto. El tipo de publicidad A se utilizó en 5 almacenes y el tipo de
publicidad B se utilizó en 6 almacenes seleccionados también al azar. Las ventas del producto
en cada almacén fueron registradas durante el periodo de una semana. En la siguiente tabla se
presentan los resultados.

Medias y varianzas muestrales de las


ventas de producto
tipos de publicidad
A B
media 33 27
varianza 20,5 26,5

Basándose en los resultados obtenidos, y suponiendo que las ventas del producto para ambos
tipos de publicidad son normales, con varianzas poblacionales iguales, determine si existe
diferencia significativa en las ventas medias para los dos tipos de publicidad con un nivel de
significación de 0.05.

Solución

Paso 1

Las hipótesis en este caso son las siguientes

𝐻0 : 𝜇𝐴 = 𝜇𝐵

𝐻1 : 𝜇𝐴 ≠ 𝜇𝐵

Paso 2

𝛼 = 0.05.

Paso 3

Estadístico de prueba

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 =
1 1
𝑆𝑝 𝑛𝑥
+𝑛
𝑦

Paso 4
La regla de decisión será rechazar 𝐻0 si 𝑡0 < −𝑡0.025 ;𝜈 o si𝑡0 > 𝑡0.025 ;𝜈 donde

𝜈 = 𝑛𝐴 + 𝑛𝐵 − 2 = 9

por tanto rechazamos si 𝑡0 < −𝑡0.025 ;9 = −2.262o si𝑡0 > 𝑡0.025 ;9 = 2.262.

Paso 5.

Calculamos primero el valor de 𝑆𝑝

𝑛𝐴 − 1 𝑆𝐴2 + 𝑛𝐵 − 1 𝑆𝐵2 5 − 1 ∗ 20.5 + 6 − 1 ∗ 16.5


𝑆𝑝 = = = 4.28
𝑛𝐴 + 𝑛𝐵 − 2 5+6−2

Ahora calculamos el valor de 𝑡0

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦 33 − 27 − 0
𝑡0 = = = 2.30
1 1 1 1
𝑆𝑝 + 4.28 ∗ +6
𝑛𝑥 𝑛𝑦 5

𝑡0 = 2.30

Como el valor del estadístico de prueba 𝑡0 = 2.30cae en la región de rechazo, se decide


rechazar 𝐻0 y se concluye que existen diferencias significativas en las ventas medias para los
dos tipos de publicidad con un nivel de significancia del 5%.

Contrastes de hipótesis para la diferencia de medias poblacionales µx - µy, cuando σx y


σysondesconocidasy se suponen diferentes y 𝒏𝒙 , 𝒏𝒚 < 30 𝑦 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.

Cuando las varianzas poblacionales son desconocidas, pero se suponen diferentes o se tiene
evidencia de que son distintas, las muestras son independientes, de pequeño tamaño,
seleccionadas de poblaciones normales o aproximadamente normales, bajo estas condiciones el
estadístico apropiado es

𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 = ~𝑡𝛼 ;𝜈
𝑠𝑥2 𝑠𝑦2
𝑛𝑥
+𝑛
𝑦

Para probar las hipótesis

𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0 𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 𝐷0
𝐻1 : 𝜇𝑥 − 𝜇𝑦 < 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 ≠ 𝐷0 𝐻1 : 𝜇𝑥 − 𝜇𝑦 > 𝐷0
contraste de cola inferior contraste de dos colas contraste de cola superior
𝑡0 < −𝑡𝛼 ;𝜈 𝑡0 > 𝑡𝛼 ;𝜈 .
2
𝑡0 > 𝑡𝛼 ;𝜈
𝑡0 < −𝑡𝛼 ;𝜈 o𝑡0 > 𝑡𝛼 ;𝜈
2 2

El cambio evidente en este caso será el valor de los grados de libertad 𝜈 los cuales viene dados
por la siguiente expresión
2
𝑆2𝑥 𝑆2𝑦
𝑛𝑥
+𝑛
𝑦
𝜈= 2 2
𝑆2
𝑥 𝑆2
𝑦
𝑛𝑥 𝑛𝑦
𝑛𝑥 −1
+𝑛
𝑦 −1

Ejemplo 11

Un investigador de mercados quiere determinar si hay alguna diferencia en las ventas cuando las
máquinas de afeitar desechables se colocan en las cajas registradoras o en el departamento de
cosméticos. Se seleccionó una muestra aleatoria de 10 tiendas de la cadena de almacenes, en 6
tiendas en donde las máquinas de afeitar desechables se colocaron en la caja registradora y en
otras 4 tiendas donde se colocaron en el departamento de cosméticos. En la tabla siguiente se
muestran los resultados, en términos de cantidad de máquinas de afeitar vendidas por semana

Numero de máquinas de afeitar vendidas


Caja Departamento de
Registradora Cosméticos.
80 68
115 62
62 65
119 71
106
89

Suponiendo que las poblaciones son normales, y que sus varianzas no fueran iguales se pide
determinar si existe diferencia significativa en las ventas medias del número de máquinasde
afeitar por semana en las tiendas donde las maquinas estaban ubicadas en las cajas registradoras
y en las tiendas en las que se encontraban en el departamento de cosméticos con 𝛼 = 0.05.

Solución

Paso 1

Las hipótesis son las siguientes y siendo

𝑥: Caja registradora
𝑦: Departamento de cosméticos

𝐻0 : 𝜇𝑥 = 𝜇𝑦

𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦

Paso 2

𝛼 = 0.05.

Paso 3

Estadístico de prueba
𝑋 − 𝑌 − 𝜇𝑥 − 𝜇𝑦
𝑡0 =
𝑠𝑥2 𝑠𝑦2
𝑛𝑥
+𝑛
𝑦

Paso 4

Para calcular los grados de libertad y obtener la región de rechazo debemos realizar los cálculos
para encontrar las varianzas muestrales.
571 266
𝑥= 6
= 95.17 ; 𝑦 = 4
= 66.5

6 4
𝑥 𝑖 −𝑥 2 𝑦 𝑖 −𝑦 2
𝑠𝑥2 = 𝑖=1
= 488.61 ; 𝑠𝑦2 = 𝑖=1
= 15.00
𝑛 𝑥 −1 𝑛 𝑦 −1

La regla de decisión será rechazar 𝐻0 si 𝑡0 < −𝑡0.025 ;𝜈 o si𝑡0 > 𝑡0.𝑜25;𝜈 donde

2
𝑆2𝑥 𝑆2 15.00 2
𝑛𝑥
+ 𝑛𝑦 488.61
+
𝑦 6 4
𝜈= 2 2
= 488 .61 2 15.00 2
= 5.45 ≈ 6
𝑆2
𝑥 𝑆2
𝑦
𝑛𝑥 𝑛𝑦
6
+ 4

𝑛𝑥 −1
+𝑛 6−1 4−1
𝑦 −1

por tanto rechazamos𝐻0 si 𝑡0 < −𝑡0.025 ;6 = −2.447o si𝑡0 > 𝑡0.𝑜25;6 = 2.447.

Paso 5.

Procedemos a calcular el valor del estadístico de prueba

95.17 − 66.5 − 0
𝑡0 = = 3.11
488.61 15.00
6
+ 4

Como el valor del estadístico de prueba cae en la región de rechazo rechazamos 𝐻0 es decir que
si existe diferencia significativa en las ventas medias del número de máquinas de afeitar por
semana en las tiendas donde las maquinas estaban ubicadas en las cajas registradoras y en las
tiendas en las que se encontraban en el departamento de cosméticos con un nivel de
significancia del 5%

Realizando los cálculos en Excel “DATOS”-› “Análisis de datos” -› “Prueba t para dos muestras
suponiendo varianzas desiguales” y aplicando el criterio del p-valor
Nos muestra la siguiente salida

Prueba t para dos muestras suponiendo varianzas desiguales

Caja Departamento de
Registradora Cosméticos.
Media 95,16666667 66,5
Varianza 489,3666667 15
Observaciones 6 4
Diferencia hipotética de las
medias 0
Grados de libertad 5
Estadístico t 3,103661846
P(T<=t) una cola 0,013371004
Valor crítico de t (una cola) 2,015048373
P(T<=t) dos colas 0,027
Valor crítico de t (dos colas) 2,570581836

Como el p-valor 0.027 es menor que 0.05 el valor de significancia rechazamos la hipótesis nula
y llegamos a la misma conclusión anterior.

Contrastes de hipótesis sobre la varianza poblacional σ2 o sobre la desviación estándar


poblacional σ

Ya hemos visto en las secciones precedentes que una estimación de la varianza poblacional 𝜎 2
suele ser necesaria antes de hacer inferencias acerca de medias poblacionales, pero a veces la
varianza poblacional 𝜎 2 es el objetivo principal en una investigación experimental. Puede ser
más importante para el experimentador que la media poblacional.

Considere estos ejemplos:


 Los instrumentos de mediciones científicas deben dar lecturas no sesgadas con un muy
pequeño error de medición. Un altímetro de un avión que mida la altitud correcta en
promedio es bastante inútil si las mediciones están en error de hasta 1000 pies arriba o
debajo de la altitud correcta.
 Las piezas maquinadas en un proceso de manufactura deben ser producidas con mínima
variabilidad para reducir piezas fuera de dimensiones y, por tanto, defectuosas.
 Las pruebas de aptitud deben estar diseñadas de manera que las calificaciones exhibirán
una cantidad razonable de variabilidad. Por ejemplo, un examen de 800 puntos no es
muy discriminatorio si todos los estudiantes obtienen calificaciones entre 601 y 605.

Cuando el tamaño de la muestra es pequeño y la población de donde se selecciona la muestra es


normal o aproximadamente normal se utiliza la distribución chi-cuadrado para probar la
hipótesis con respecto a una varianza poblacional utilizando los pasos aprendidos con
anterioridad y modificando las hipótesis y los correspondientes estadísticos de prueba y las
regiones de rechazo.

Las hipótesis a probar van a ser las siguientes, con sus correspondientes regiones de rechazo

𝐻0 : 𝜎 2 = 𝜎0 2 𝐻0 : 𝜎 2 = 𝜎0 2 𝐻0 : 𝜎 2 = 𝜎0 2
𝐻1 : 𝜎 2 < 𝜎0 2 𝐻1 : 𝜎 2 ≠ 𝜎0 2 𝐻1 : 𝜎 2 > 𝜎0 2
contraste de cola inferior contraste de dos colas contraste de cola superior
2
𝜒02 < 𝜒1− 𝛼 o
𝜒02 < 𝜒1−𝛼
2 ;𝑛−1
;𝑛−1 2
𝜒02 > 𝜒𝛼;𝑛
2
−1
𝜒02 > 𝜒𝛼2;𝑛−1
2

El estadístico de prueba para estos casos será

𝑛 − 1 𝑆2
𝜒02 = 2
~𝜒𝑛−1
𝜎02

Si el contraste se pide sobre la desviación estándar no existe ningún problema debido a que la
desviación estándar es la raíz de la varianza y la varianza es el cuadrado de la desviación
estándar. Ahora veamos cómo se aplica a un ejemplo

Ejemplo 12

Un fabricante de baterías para automóvil afirma que la duración de sus baterías se distribuyede
forma aproximadamente normal con una desviación estándar igual a 0.9 años. Si una muestra
aleatoria de 10 de tales baterías tiene una desviación estándar de 1.2 años, ¿considera que σ >
0.9 años? Utilice un nivel de significancia de 0.05.

Solución

Paso 1

Las hipótesis serían las siguientes para este caso

𝐻0 : 𝜎 2 = 0.81

𝐻1 : 𝜎 2 > 0,81

Paso 2

Nivel de significancia de 0.05


Paso 3

La región critica o de rechazo será 𝜒02 > 𝜒0.05;9


2
, es decir se rechaza la hipótesis nula si será
2
𝜒0 > 16.919.

Paso 4

El estadístico de prueba será

𝑛 − 1 𝑆2
𝜒02 =
𝜎02

Paso 5

Sustituimos valores

10 − 1 1.22
𝜒02 = = 16.0
0.92

No rechazamos la hipótesis nula con un nivel de significancia de 0.05, es decir que la varianza
de la duración de las baterías para automóviles del fabricante es mayor a 0.81

Prueba de hipótesis para la igualdad de dos varianzas poblacionales

Existen situaciones donde nos interesa probar si dos poblaciones tienen la misma varianza, bien
para probar la suposición de varianzas iguales cuando se contrastan hipótesis sobre la diferencia
de medias poblacionales con muestras aleatorias independientes de pequeño tamaño, o para
obtener información sobre las varianzas poblacionales.

Para probar la hipótesis 𝜎12 = 𝜎22 se utiliza la distribución F, y mediante esta distribución se ha
𝑆12
creado un procedimiento estadístico basado en la razón de varianzas muestrales 𝑆22
, y se
𝑆12
considera que el grado en que la razón difiere de 1. Si se cumple que 𝜎12 = 𝜎22 cabría esperar
𝑆22
𝑆2 𝑆2
que la razón 𝑆12 tuviese un valor cercano a 1. Así que mientras mayor sea la discrepancia entre 𝑆12
2 2
y 1menor confianza se tendrá de que 𝜎12 sea significativamente igual a 𝜎22 .

Las hipótesis a probar en este caso serán las siguientes y se presentan con su correspondiente
región de rechazo o región critica.

𝐻0 : 𝜎12 = 𝜎22 𝐻0 : 𝜎12 = 𝜎22 𝐻0 : 𝜎12 = 𝜎22


𝐻1 : 𝜎12 < 𝜎22 𝐻1 : 𝜎12 ≠ 𝜎22 𝐻1 : 𝜎12 > 𝜎22
contraste de cola inferior contraste de dos colas contraste de cola superior
𝐹0 < 𝐹1−𝛼 ;𝜈 1 ;𝜈 2 o
𝐹0 < 𝐹1−𝛼;𝜈 1 ;𝜈 2 2
𝐹0 > 𝐹𝛼;𝜈 1 ;𝜈 2
𝐹0 > 𝐹𝛼 ;𝜈 1 ;𝜈 2
2

Donde 𝜈1 = 𝑛1 − 1 y representa los grados de libertad del numerador de la distribución F y


𝜈2 = 𝑛2 − 1 y representa los grados de libertad del denominador.

Recordemos que 𝐹1−𝛼;𝜈 1 ;𝜈 2 también puede calcularse como


1
𝐹1−𝛼;𝜈 1 ;𝜈 2 =
𝐹𝛼;𝜈 2 ;𝜈 1

Las hipótesis también pueden escribirse en términos de razón como

𝜎12 𝜎12 𝜎12


𝐻0 : 2 = 1 𝐻0 : 2 = 1 𝐻0 : 2 = 1
𝜎2 𝜎2 𝜎2
𝜎12 𝜎12 𝜎12
𝐻1 : 2 < 1 𝐻1 : 2 ≠ 1 𝐻1 : 2 > 1
𝜎2 𝜎2 𝜎2

Nuestro estadístico de prueba será el siguiente

𝑆12
𝐹0 = ~𝐹
𝑆22 𝜈 1 ;𝜈 2

Veamos un ejemplo

Ejemplo 13

Lammers Limos ofrece servicio de transporte en limusina del ayuntamiento de Toledo, Ohio, al
aeropuerto metropolitano de Detroit. Sean Lammers, presidente de la compañía, considera dos
rutas. Una por la carretera 25 y la otra por la autopista I-75. Lammers desea estudiar el tiempo
que tardaría en conducir al aeropuerto por cada una de las rutas y luego comparar los resultados.
Recopiló los siguientes datos muestrales, reportados en minutos. Usando el nivel de
significancia de 0.10, ¿hay alguna diferencia entre las variaciones de los tiempos de manejo por
las dos rutas?

Carretera 25 Autopista 1-75


52 59
67 60
56 61
45 51
70 56
54 63
64 57
65

Solución

Paso 1

Inicia por formular las hipótesis nula y alternativa. La prueba es de dos colas debido a que se
busca una diferencia entre las variaciones de las dos rutas. No se trata de demostrar que el
tiempo que se emplea varía más por una ruta que por la otra

Sea x viajar por la carretera 25 y sea y viajar por la autopista 1-75

𝜎𝑥2
𝐻0 : =1
𝜎𝑦2 𝐻0 : 𝜎𝑥2 = 𝜎𝑦2
𝜎𝑥2 𝐻1 : 𝜎𝑥2 ≠ 𝜎𝑦2
𝐻1 : 2 ≠ 1
𝜎𝑦
Paso 2

Selecciona el nivel de significancia de 0.10.

Paso 3

El estadístico de prueba apropiado sigue la distribución F.

𝑆𝑥2
𝐹0 =
𝑆𝑦2

Paso 4 establecemos la región de rechazo

Rechazamos 𝐻0 si𝐹0 < 𝐹1−𝛼 ;𝜈 1 ;𝜈 2 o𝐹0 > 𝐹𝛼 ;𝜈 1 ;𝜈 2 . Calculamos entonces estos valores
2 2

𝐹1−𝛼 ;𝜈 = 𝐹0.95;6;7 = 0.234


2 1 ;𝜈 2

𝐹𝛼 ;𝜈 1 ;𝜈 2 = 𝐹0.05;6;7 = 3.866
2

Entonces rechazamos 𝐻0 si𝐹0 < 0.234o si𝐹0 > 3.866.

Paso 5

Calculamos los valores para el estadístico de prueba

7 2
𝑖=1 𝑥𝑖 − 𝑥
𝑠𝑥 = = 8.9947
𝑛𝑥 − 1

8 2
𝑖=1 𝑦𝑖 − 𝑦
𝑠𝑦 = = 4.3753
𝑛𝑦 − 1

Sustituyendo en el estadístico de prueba

𝑆𝑥2 8.99472
𝐹0 = 2 = = 4.23
𝑆𝑦 4.37532

La decisión es rechazar la hipótesis nula, debido a que el valor F calculado (4.23) es mayor que
el valor crítico (3.87). Se concluye que hay una diferencia entre las variaciones de los tiempos
de recorrido por las dos rutas con un nivel de significancia de 0.05.

¿A que conclusión llegaríamos si aplicamos la prueba en Excel?

Realizando los cálculos en Excel “DATOS”-› “Análisis de datos” -› “Prueba F para varianzas de
dos muestras” y aplicando el criterio del p-valor
Veamos los resultados obtenidos luego de aplicar la prueba a los datos

Prueba F para varianzas de dos muestras

Carretera 25 Autopista 1-75


Media 58,28571429 59
Varianza 80,9047619 19,14285714
Observaciones 7 8
Grados de libertad 6 7
F 4,226368159
P(F<=f) una cola 0,040396607
Valor crítico para F (una cola) 2,827392271

Vemos que el F calculado es bastante similar, mejor dicho es igual si redondeamos a dos cifras
decimales pero lo que nos importa es observar el valor p que es igual a 0,0404 y es menor que
0.1 el valor del nivel de significancia razón suficiente para rechazar la hipótesis nula y llegar a
la conclusión anterior.

También podría gustarte