Está en la página 1de 27

Inferencia estadística:

Pruebas de hipótesis
ECON. JORGE LUIS ARRUÉ FLORES
CONTENIDO
1. PRUEBA DE HIPOTESIS.
2. PRUEBA DE HIPÓTESIS SOBRE LA MEDIA DE LA POBLACIÓN Y LAS PROPORCIONES.
3. PRUEBA DE HIPÓTEIS PARA LAS DIFERENCIAS ENTRE DOS MEDIAS O DOS PROPORCIONES.
4. PRUEBA DEL CHI – CUADRADO PARA LA BONDAD DE AJUSTE Y PARA LA INDEPENDENCIA.
5. ANALISIS DE VARIANZA.
1 PRUEBAS DE HIPÓTESIS
• La prueba de hipótesis es una suposición respecto de una característica poblacional desconocida.
Prueb • Se toma una muestra aleatoria de la población, y sobre la base de la característica muestral
a de correspondiente, aceptamos o rechazamos la hipótesis con un grado particular de confianza.
Hipót
esis

• Sobre la base de la información muestral, podemos rechazar una hipótesis que indudablemente es
Error
del verdadera, a este tipo de error se le llama error del tipo I.
Tipo
I

• Podemos aceptar una hipótesis falsa y cometer así un error del tipo II.
Error
del
Tipo II

• Podemos controlar o determinar un error del tipo I, α. Sin embargo reduciendo α, tendremos que aceptar
una probabilidad mayor de cometer un error del tipo II, β, a menos que el tamaño de la muestra se
α incremente. A α se le denomina nivel de significación, y 1-α es el nivel de confianza de la prueba.
β
Ejemplo:
Supongamos que una empresa que produce bombillas quiere saber si puede afirmar que sus
bombillas duran 1000 horas de vida útil, .
Para hacer esto, la empresa puede tomar una muestra aleatoria de 100 bombillas y encontrar su
vida útil promedio . Cuanto menor es la diferencia entre y , tanto más factible es la aceptación
de la hipótesis de que = 1000 horas de vida útil a un nivel de significancia, . Si es igual al 5%, la
firma acepta el riesgo calculado de rechazar una hipótesis verdadera 5% de las veces.
Colocando α al 1%, la firma tendría que considerar una mayores probabilidades de aceptar una
falsa hipótesis, β.
2. PRUEBA DE HIPÓTESIS SOBRE LA MEDIA
DE LA POBLACIÓN Y LAS PROPORCIONES.
Pasos
• Los pasos formales establecidos para la prueba de hipótesis sobre la media de la población (o sobre una proporción) son los
para la
Prueba siguientes:
de
Hipótesi
s

• Supongamos que es igual a algún valor hipotético 0. Esto se representa por H0: = 0 y se denomina hipótesis nula. Las
hipótesis alternativas es H1: 0 (lea “ no es igual a 0’’).
Paso 01 • Entonces: H1: 0 o H1: 0 dependiendo del problema.

• Decidir sobre el nivel de significancia de la prueba (generalmente 5%, pero a veces 1%) y defina la región de aceptación y
Paso 02
región de rechazo para la prueba utilizando la distribución apropiada.

• Tomar una muestra aleatoria de la población y calcular . Si (en unidades de desviación estándar) cae en la región de
Paso 03
aceptación, acepta H0; de lo contrario, se rechaza H0 a favor de H1.
Ejemplo
Supongamos que la empresa que produce bombillas, ahora quiere probar si puede garantizar
que las bombillas eléctricas que produce duran 1000 horas de operación útil. La empresa toma
una muestra aleatoria de n = 100 de sus bombillas y encuentra que la media muestral = 980 h y
la desviación estándar de la muestra s = 80 h. Si la firma quiere realizar la prueba al nivel de
significancia del 5%, debe proceder de la siguiente manera:
Paso 01: Como podría ser igual, mayor o menor que 1000 h, la empresa Debe establecer las
hipótesis nula y alternativa como sigue,
H 0: 1000 H 1: 1000
Paso 02: Como n > 30, la distribución muestral de la media es aproximadamente normal (y
podemos usar s como una estimación de ). La región de aceptación de la prueba en el nivel de
significancia del 5% está dentro de 1.96 bajo la curva normal estándar y la región de rechazo
está fuera. Como la región de rechazo está en ambas colas, tenemos una prueba de dos colas.
Paso 03: Encontrar el valor z correspondiente a :

Dado que el valor de z calculado cae en la región de rechazo, la empresa debe rechazar H 0, que
= 1000 y acepta H1, que , en el nivel de significación del 5%.
EJEMPLO
Una empresa quiere saber con un nivel de confianza del 95% si puede afirmar que las cajas de
detergente las ventas contienen más de 500 gr de detergente. Por experiencia del pasado, la
firma sabe que la cantidad de detergente en las cajas se tiene una distribución normal. La firma
toma una muestra aleatoria de n = 25 y encuentra que = 520 gr y s = 75 gr.
Paso 01: Dado que la firma está interesada en probar si 500g, tenemos

H0: = 500 H 1: 500


Paso 02: Dado que la distribución de la población es normal, pero n < 30 y no se conoce,
debemos usar la distribución t (con n - 1 = 24 gl) para definir la región crítica o de rechazo de la
prueba en el nivel de significancia del 5%. Esto se encuentra en el apéndice 5. Esta es una
prueba de cola derecha.
Paso 03: Encontrar el valor de t.

Cae dentro de la región de aceptación, aceptamos H0, que = 500 gr, en el nivel de significancia
del 5% (o con un 95% nivel de confianza).
PRUEBAS DE HIPOTESIS PARA DIFERENCIAS
ENTRE DOS MEDIOS O PROPORCIONES
• Es importante determinar si los medios o las proporciones de dos poblaciones son
Toma de iguales o diferentes
decisiones

• Sólo si la diferencia en las medias muestrales o proporciones de la muestra se


Tomamos
una
puede atribuir al azar aceptamos la hipótesis de que las dos poblaciones tienen
muestra
aleatoria
de cada
iguales medias o proporciones.
población

• Si n1 y n2 ≥ 30, entonces la distribución muestral de la diferencia entre las medias o


Si las dos
proporcio
nes está
proporciones de la muestra es normal o aproximadamente normal con error
normalme
nte estándar dado por:
distribuid
as
para probar si 1 = 2

Y para probar si 1 = 2

Donde un promedio ponderado de 1 y 2


EJEMPLO
Un gerente quiere determinar en el nivel de significancia del 5% si el salario por hora para
trabajadores semi calificados es lo mismo en dos ciudades. Para hacer esto, toma una muestra
aleatoria de salarios por hora en ambas ciudades y encuentra que 1 = $6.00, 2 = $5.40, s1 = $2.00,
y s2 = $1.80 para n1 = 40 y n2 = 54. Las hipótesis a probarse es:

H0 : 1 = 2 ó H0 : 1 - 2=0
H1 : 1 = 2 ó H1 : 1 - 2 0

Esta es una prueba de dos colas y la región de aceptación para H0 se encuentra dentro de 1.96
bajo la curva normal estándar .
z
Como el valor de z calculado se encuentra dentro de la región de aceptación, aceptamos H 0, que es 1
=2, al nivel del 5% de significancia. Sin embargo, si se sabía que las dos poblaciones estaban
distribuidas normalmente, tanto n1 como n2 eran menos de 30 y se suponía que = (pero
desconocidos), entonces la distribución muestral de la diferencia entre los medias tendría una
distribución t con n1 + n2 – 1 grados de libertad.
Ejemplo
Una empresa quiere determinar en el nivel de significancia del 1% si la proporción de
componentes electrónicos aceptables de un proveedor extranjero, p1, es mayor que para un
proveedor nacional, p2. La firma toma una muestra aleatoria del envío de cada proveedor y
encuentra que 1 = 0.9 y p2 = 0.7 para n1 = 100 y n2 = 80. La firma establece las siguientes
hipótesis:
H 0: p 1 = p 2 H 1: p 1 p 2
Esta es una prueba de cola derecha y la región de rechazo para H0 se encuentra a la derecha de
2.33 bajo la curva normal estándar.
Ya que

rechazamos H0 y aceptamos la hipótesis de que p1 > p2 en el nivel de significación del 1%.


PRUEBA DEL CHI-CUADRADO PARA LA
BONDAD DE AJUSTE Y PARA LA
INDEPENDENCIA
La distribución (chi-cuadrado) se usa para probar:
1. Las frecuencias observadas difieren ‘significativamente’ de las frecuencias esperadas cuando son posibles
más de dos resultados;
2. La distribución muestral es binomial, normal, u otro; y
3. Si dos variables son independientes.
El estadístico calculado de los datos muéstrales está dado por:
X2 =
Donde:
 fo denota las frecuencias observadas
 fe las frecuencias esperadas.

Si el x2 calculado es mayor que el valor tabulado de x 2 en el nivel de significación especificado y los grados de
libertad (apéndice 6), la hipótesis nula H o se rechaza en favor de la hipótesis alternativa H 1.
Los grados de libertad para las pruebas de bondad de ajuste (1 y 2) están dados por:
gl = c – m – 1
Donde:
• c: representa las categorías y
• m: el número de parámetros de población estimados a partir de la muestra estadística.
Los grados de libertad para las pruebas de independencia, o pruebas de tabla de contingencia (3), están
dados por
gl =
Donde:
• r: indica el número de filas de la tabla de contingencia y
• c: el número de columnas.
La frecuencia esperada para cada celda Interacción) de una tabla de contingencia es:

Dónde y indica la suma sobre la fila y la columna, respectivamente, de la celda observada y n representa
el tamaño total de la muestra global.
EJEMPLO
En el pasado, el 30% de los televisores vendidos por una tienda eran pantallas pequeñas, el 40%
eran medianos y el 30% grande. Para determinar el inventario a mantener de cada tipo de
televisor, el administrador toma una muestra aleatoria. De 100 compras recientes y se encontró
que 20 eran pantallas pequeñas, 40 medianas y 40 grandes. Para probar al 5%, la hipótesis que
el patrón anterior de ventas, H0 aún prevalece, el gerente procede de la siguiente manera:
Compras observadas y esperadas de televisores por tamaño de pantalla

Tamaño de Pantalla
Total
Pequeña Medio Grande
Patrón observado f0 20 40 40 100
Patrón pasado fe 30 40 30 100
Desarrollo:
X2 = = + + = + + = + 6.66
gl =
Debido a que no se estimó ningún parámetro de población, m = 0. gl = 2 significa que si
conocemos el valor de 2 de las 3 clases (y el total), la tercera clase no esta libre de variar. Dado
que el valor calculado de X2 = 6.66 es mayor que el valor tabulado de X2 = 5.99 con =0.05 y gl = 2
(apéndice 6), se rechaza H0, ya que el patrón de ventas anterior no prevalece. Cuando la
frecuencia esperada de una categoría es menor que 5, la categoría debe combinarse con una
adyacente.
Ejemplo
Un concesionario de automóviles ha recopilado los datos que se muestran en la Tabla 1 sobre el
número de automóviles extranjeros y nacionales comprado por clientes menores de 30 años y
mayores de 30 años. Para probar en el nivel de significación del 1% si el tipo de el auto
comprado (extranjero o nacional) es independiente de la edad del comprador, el concesionario
construye una tabla de los productos esperados. Frecuencias (tabla 2). Para la primera celda en
la fila 1 y columna 1, obtenemos:
Tabla 1: Tabla de contingencia para compradores de automóviles
Tipo de Coche
Años Total
Exterior Nacional

30 30 40 70
20 80 100

Total 50 120 170


= 21

Tabla 2: Frecuencias esperadas para Frecuencias observadas

Tipo de Coche
Años Total
Exterior Nacional
21 49 70
29 71 100

Total 50 120 170


gl =
X2 = = + + + = 9.44

Dado que el valor calculado de x2 excede el valor tabular de x2 con = 0.01 y gl = 1 (Apéndice 6),
rechazamos H0, que la edad no es un factor en el tipo de automóvil comprado (y concluyen que
las personas más jóvenes parecen más propensas a comprar autos extranjeros). Cuando gl = 1
pero n < 50, se debe hacer una corrección de continuidad usando (|f0 – fe| - 0.52) en el
numerador.
ANALISIS DE LA VARIANZA
El análisis de varianza se utiliza para probar la hipótesis nula de que las medias de dos o más
poblaciones son iguales o diferentes cuando las poblaciones están normalmente distribuidas con
igual varianza. Los pasos son los siguientes:
Paso 01: Estimar la varianza de población partiendo de la varianza entre las medias muéstrales
(MSA en la Tabla 1)
Paso 02: Estimar la varianza de la población partiendo de la varianza entre las medias muéstrales
(MSE en la tabla 1)
Paso 03: Calcular la relación F (MSA / MSE en la Tabla 1):
F=
Paso 04: Si la relación F calculada es mayor que el valor tabular de F al nivel de significación
especificado y grados de libertad (Apéndice 7), la hipótesis nula, H 0, de medias poblacionales
iguales se rechaza a favor de la hipótesis alternativa, H1. Los pasos anteriores se formalizan en
tabla 1.
Grados
Fuente de Variación Suma de Cuadrados de Cuadrado Medio F Ratio
Libertad

Entre los medios


(explicado por SSA = r  MSA=
factor A)

Dentro de las
muestras SSE =   MSE=
(error o inexplicable)

Total SST =   = SSA+SSE

Dónde = media de la muestra J compuesta de observaciones r =


= gran media de todas las muestras c =
SSA = suma de cuadrados explicada por el factor A =
SSE = suma de cuadrados de error inexplicable por factor A =
SST = suma total de cuadrados = SSA + SSE =

El apéndice 7 da valores de F para = 0.05 (el número superior) y = 0.01 (la parte inferior o negrita número) para cada par de grados de libertad:
gl del numerador =
Donde c es el número de muestras y
gl de denominador =
Donde r es el número de observaciones en cada muestra.
Ejemplo
Una empresa vende jabón idéntico en tres envoltorios diferentes al mismo precio. Las ventas de 5 los
meses se dan en la tabla adjunta. Los datos de ventas se distribuyen normalmente con la misma
varianza.
Ventas a cinco meses de jabón en envoltorios 1, 2 y 3
Envoltorios 1 Envoltorios 2 Envoltorios 3
87 78 90
83 81 91
79 79 84
81 82 82
80 80 88
410 400 435

Para probar el nivel de significancia del 5% si las ventas medias de jabón para cada envoltura son
iguales o no (es decir, H0: versus no son iguales), la empresa procede de la siguiente manera:
SSA =

SSE =

SST =

Los datos anteriores se utilizan para construir la Tabla para el análisis de varianza (ANOVA).
Tabla ANOVA para envolturas de jabón
La suma de Grados de
Variación Cuadrado Medio F Ratio
Cuadrícula Libertad
Explicado por
envolturas SSA = 130 =2
(entre columnas)
Error o inexplicable
(dentro de SSE = 110
columnas)
TOTAL SST = 240

Dado que el valor calculado de F = 7.09 excede el valor tabular de F = 3.88 para = 0.05 y 2 y 12 grados de
libertad (Apéndice 7), rechazamos H0, que las ventas promedio de jabón para cada envoltorio son las
mismas, y aceptamos H1, que son diferentes. El procedimiento anterior se conoce como análisis de varianza
de una clase o de un factor.

También podría gustarte