Está en la página 1de 39

Probabilidad y Estadística II

Ensayo de Hipótesis y
Significación

Material elaborado por:

Lic. Roberto Adriano Páez Giménez

Campus Universitario

San Lorenzo, Paraguay


Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Índice
1. Ensayo de Hipótesis y Significación ............................................................................. 3
1.1. Introducción ................................................................................................................. 3
2. Prueba de Hipótesis .................................................................................................... 3
3. Errores de tipo I y tipo II ............................................................................................. 4
4. Nivel de significancia .................................................................................................. 4
5. Pruebas Especiales de significación para muestras grandes ......................................... 5
6. Pruebas Especiales de significación para muestras pequeñas .................................... 15
6.1. Distribución t-Student................................................................................................ 16
Tabla de la Distribución t-Student ........................................................................................ 18
6.2. Prueba Ji-cuadrado para la bondad del ajuste .......................................................... 26
Tabla de la Distribución Ji-Cuadrado .................................................................................... 27
6.3. Tabla de contingencia ................................................................................................ 32
Coeficiente de Contingencia (CC) ......................................................................................... 33
Bibliografía...................................................................................................................... 39

2 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

1. Ensayo de Hipótesis y Significación

1.1. Introducción

En la práctica, en diferentes ramas del saber científico, nos vemos en la necesidad de tomar
decisiones relativas a una población sobre la base de las informaciones obtenidas de una
muestra. Para establecer si un método pedagógico es mejor que otro, si un medicamento
elimina en menos tiempo promedio una afección que otro medicamento, si la calificación
promedio en matemática de los alumnos egresados de la educación media ha disminuido
con los años, etc., podemos basar nuestra decisión en los datos de una muestra aleatoria
que extraemos de la población objeto de estudio. Para ello, debemos establecer una
hipótesis que enmarque nuestra línea de investigación, una premisa que nos permita
determinar el rumbo a seguir.

Una hipótesis es una suposición acerca del valor de un parámetro de una población que
establecemos con el propósito de discutir su validez. Son ejemplos de hipótesis:

• El sueldo promedio de un profesional es $ 2500.


• El veinte por cierto de los jóvenes universitarios fuma.
• No existe diferencia entre las proporciones de hombres y mujeres que cuentan con
estudios universitarios.
• El promedio de calificaciones de dos cursos en matemática es el mismo.

Para validar las hipótesis utilizamos las pruebas o ensayos de hipótesis, que son
procedimientos, basados en la evidencia de la muestra y en la teoría de probabilidades, que
nos permite determinar si la hipótesis planteada es una afirmación razonable o no, si debe
ser aceptada o rechazada.

2. Prueba de Hipótesis
Levin, Rubin (2010) señalan lo siguiente: En una prueba de hipótesis, debemos establecer el
valor supuesto o hipotético del parámetro de la población antes de tomar la muestra. La
suposición que deseamos probar se conoce como hipótesis nula y se simboliza H 0 .

Supongamos que deseamos probar la hipótesis de que la media de la población es igual a


500. En símbolos se escribe como sigue y se lee “la hipótesis nula es que la media de la
población es igual a 500”

H0 : µ = 500

Si los resultados de nuestra muestra no respaldan la hipótesis nula, debemos contar con otra
opción para respaldar nuestra investigación. Cualquier hipótesis que difiera de la hipótesis
nula recibe el nombre de hipótesis alternativa su símbolo es H 1 . Consideremos tres
hipótesis alternas posibles:

• H 1 ≠ 500 la hipótesis alternativa es que la media de la población no es igual a 500.

3 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

• H 1 > 500 la hipótesis alternativa es que la media de la población es mayor que 500.

• H 1 < 500 la hipótesis alternativa es que la media de la población es menor que 500.

Si suponemos que una hipótesis nula es verdadera, pero notamos que los resultados
muestrales difieren marcadamente de los esperados bajo la distribución de muestreo
seleccionada, podremos decir que las diferencias observadas son significativas y nos
inclinamos a rechazar la hipótesis nula, o por lo menos no aceptarla debida a la evidencia
muestral obtenida.

Los procedimientos que nos permiten aceptar o rechazar la hipótesis nula o lo que es lo
mismo, determinar si las muestras observadas difieren significativamente de los resultados
esperados reciben el nombre de pruebas de hipótesis.

3. Errores de tipo I y tipo II


Si rechazamos una hipótesis nula cuando en realidad es verdadera, decimos que se ha
cometido un error de tipo I, cuyo símbolo es α

Si por el contrario, aceptamos una hipótesis nula cuando ésta debía rechazarse, decimos que
se ha cometido un error de tipo II, su símbolo es β

Esquematizamos los resultados posibles en una prueba de hipótesis en el siguiente cuadro

Aceptar H 0 Rechazar H 0
H 0 verdadera Decisión correcta Error de tipo I = α
H 0 falsa Error de tipo II = β Decisión correcta
Tabla 1: Esquematización de los errores

4. Nivel de significancia
Spiegel, Schiller, Alu (2003) indican que al probar una hipótesis dada, la probabilidad máxima
con la que queremos tomar el riesgo de un error de tipo I se llama nivel de significación de la
prueba. Esta probabilidad se especifica antes de que se hayan tomado muestras, para que
los resultados no influyan en nuestra decisión.

Un nivel de significancia del 5% indica que el error de tipo I es α = 0,05 . Esto nos dice que
hay posibilidad de 5 en 100 de que rechacemos la hipótesis nula cuando deberíamos
aceptarla.

Es decir, siempre que la hipótesis nula sea verdadera, tenemos 95% de confianza de que
tomaremos la decisión correcta.

4 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

5. Pruebas Especiales de significación para muestras grandes

Para muestras grandes, muchos estadísticos como x , p , X 1 − X 2 , etc. tienen distribución


aproximada normal y por lo tanto podemos utilizar los resultados obtenidos en las
distribuciones muestrales de los estadísticos mencionados.

En las pruebas que tendremos en cuenta, la hipótesis nula H 0 será una afirmación de que
cierto parámetro de una población tiene un valor específico, y la hipótesis alternativa será
alguna de las siguientes afirmaciones:

• El parámetro es mayor que el valor indicado en H 0

• El parámetro es menor que el valor indicado en H 0

• El parámetro es diferente al valor indicado en H 0

Esto nos indica que las pruebas o ensayos pueden ser

• Unilaterales, cuando nos interesa un solo extremo de la distribución, decimos


entonces que la prueba es de una cola

• Bilateral, cuando nos interesa ambos extremos de la distribución, la prueba es de dos


colas

Esquema básico de las pruebas unilaterales

a) Prueba de Cola Derecha

H0 : θ = θ0
H1 : θ > θ0

Gráfico 1: Prueba Unilateral Derecha

Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

5 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

b) Prueba de Cola Izquierda

H0 : θ = θ0
H1 : θ < θ0

Gráfico 2: Prueba Unilateral Izquierda

Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Esquema básico de la prueba bilateral (Prueba de Dos Colas)

H0 : θ = θ0
H1 : θ ≠ θ0

Gráfico 3: Prueba Bilateral

Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

6 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Resumimos en la siguiente tabla los niveles de significación más utilizados y sus


correspondientes valores críticos para Z.

Nivel de significancia α 0,10 0,05 0,01


Valores críticos de z para pruebas de una ± 1,28 ± 1,645 ± 2,33
cola
Valores críticos de z para pruebas de dos ± 1,645 ± 1,96 ± 2,58
colas
Tabla 2: Valores críticos de Z

Veamos algunos ejemplos de aplicación práctica:

Ejemplo 1

La acción de un medicamento es tal que el cuerpo tolera dosis excesivas sin sufrir daño. Por
otra parte, las dosis insuficientes no producen el efecto médico deseado e interfieren con el
tratamiento del paciente. El hospital ha adquirido la cantidad de medicamento que necesita
al mismo fabricante durante varios años y sabe que la desviación estándar de la población es
2 cm3. El hospital inspecciona aleatoriamente, 50 dosis, tomadas de un envío muy grande y
encuentra que la media de estas dosis es 99,75 cm3.

Si el hospital establece un nivel de significación de 0,10 y nos pregunta si las dosis de esta
entrega son demasiados pequeñas, ¿cuál es la respuesta?

Solución

Para llegar a la respuesta sigamos los siguientes pasos:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H0 : µ = 100 la media de las dosis de la remesa es 100 cm3

H1 : µ < 100 la media es menor que 100 cm3

α = 0,10 nivel de significación para probar esta hipótesis

La prueba es de cola izquierda.

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como conocemos la desviación estándar de la población y n es mayor que 30, podemos


utilizar la distribución normal.

De la Tabla 2 notamos que el valor crítico de z para una prueba unilateral y para un nivel de
significancia de 0,10 es Z c = −1,28 .

7 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Paso 3: Escribimos el criterio de decisión

Gráfico 4: Regiones de aceptación – rechazo para H 0 : µ = 100


Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Si Z cal ≥ Z c = −1,28 se
Criterio de decisión acepta H 0 , se rechaza en
caso contrario

Paso 4: Estandarizamos el estadístico muestral

Hallamos el valor estandarizado, Z cal , de la media muestral x = 99,75 , dado que la


desviación estándar σ = 2 y n = 50

x−µ 99,75 − 100


Z cal = Z cal = Z cal = −0,88
σ 2
n 50

Paso 5: Interpretamos el resultado

Como Z cal = −0,88 > Z c = −1,28 , se acepta H 0 para un nivel de significancia de 0,10. Por lo
tanto, el hospital debe aceptar la hipótesis nula, porque la media observada de la muestra
no es significativamente menor que la media hipotética de 100 cm3. Con base en esta
muestra de 50 dosis, el hospital debe concluir que las dosis de la entrega son adecuadas.

Ejemplo 2

Paraguay Cines sabe que la película 7 Cajas se exhibió con éxito un promedio de 84 días en
varios departamentos del país y que la desviación estándar correspondiente fue de 10 días.
El intendente de Ciudad del Este se interesó en comparar la popularidad de la película en
Alto Paraná con la que tuvo en otros departamentos. Eligió 75 lugares, entre cines, colegios,
barrios, etc., donde la película fue exhibida en su región y encontró que la película estuvo en
cartelera, en promedio 87 días. ¿El intendente de Ciudad del Este puede asegurar que en
Alto Paraná la película tuvo más éxito que en el resto del país?, pruebe las hipótesis
adecuadas al 1% de significancia.

8 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Solución

Para llegar a la respuesta sigamos los siguientes pasos:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H0 : µ = 84 la película se exhibió en promedio 84 días

H1 : µ > 84 la película se exhibió en promedio más de 84 días

α = 0,01 nivel de significación para probar esta hipótesis

La prueba es de cola derecha

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como conocemos la desviación estándar de la población y n es mayor que 30, podemos


utilizar la distribución normal.

De la Tabla 2 notamos que el valor crítico de z para una prueba unilateral y para un nivel de
significancia de 0,01 es Z c = 2,33 .

Paso 3: Escribimos el criterio de decisión

Gráfico 5: Regiones de aceptación – rechazo para H 0 : µ = 84


Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Si se acepta
, se rechaza en caso
Criterio de decisión
contrario

9 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Paso 4: Estandarizamos el estadístico muestral

Hallamos el valor estandarizado, Z cal , de la media muestral x = 87 , dado que la desviación


estándar σ = 10 y n = 75

x−µ 87 − 84
Z cal = Z cal =
σ 10
n 75

Z cal = 2,60

Paso 5: Interpretamos el resultado

Como Z cal = 2,60 > Z c = 2,33 , se rechaza H 0 para un nivel de significancia de 0,01. Por lo
tanto, el intendente no debe aceptar la hipótesis nula, porque la media observada de la
muestra es significativamente mayor que la media hipotética de 84 días. Con base en esta
muestra de 75 salas, el intendente tiene razón y debe concluir que la película tuvo más éxito
en Alto Paraná.

Ejemplo 3

Un ingeniero industrial afirma que un nuevo motor de cierto artefacto funciona sin
problemas con un promedio de 800 kilovatios de potencia diaria. La potencia a utilizar por
día es generada por un molino, se asume que la potencia tiene una distribución normal con
σ = 120 kilovatios. Se decide tomar una muestra de 45 observaciones del molino y se
obtuvo una media muestral de 776 kilovatios. Se puede asegurar que la potencia generada
por el molino diariamente servirá para que el motor funcione sin contratiempos. Pruebe las
hipótesis adecuadas al 5% de significancia.

Solución

Para llegar a la respuesta sigamos los siguientes pasos:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H0 : µ = 800 el molino produce una media igual a 800 kilovatios

H1 : µ ≠ 800 el molino produce una media diferente de 800 kilovatios

α = 0,05 nivel de significación para probar esta hipótesis

La prueba es de dos colas (bilateral)

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como conocemos la desviación estándar de la población y n es mayor que 30, podemos


utilizar la distribución normal.

10 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

De la Tabla 2 notamos que el valor crítico de z para una prueba bilateral y para un nivel de
significancia de 0,05 es Z c = ±1,96

Paso 3: Escribimos el criterio de decisión

Gráfico 6: Regiones de aceptación – rechazo para H 0 : µ = 800


Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Si se
acepta , se rechaza en caso
Criterio de decisión
contrario

Paso 4: Estandarizamos el estadístico muestral

Hallamos el valor estandarizado, Z cal , de la media muestral x = 776 , dado que la desviación
estándar σ = 120 y n = 45

x−µ 776 − 800


Z cal = Z cal = Z cal = −1,34
σ 120
n 45

Paso 5: Interpretamos el resultado

Como Z c = −1,96 < Z cal = −1,34 < Z c = 1,96 , se acepta H 0 para un nivel de significancia de
0,05. Por lo tanto, se debe aceptar la hipótesis nula, porque la media observada de la
muestra no es significativamente diferente de la media hipotética de 800 kilovatios. Con
base en esta muestra de 45 observaciones, se debe concluir que la potencia generada por el
molino hará que el motor funcione sin contratiempos.

11 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Ejemplo 4

Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas.
El proceso de llenado puede suponerse normal, con desviaciones estándar de σ 1 = 0,015 y
σ 2 = 0,018 . El ingeniero de control de calidad sospecha que ambas máquinas no llenan el
volumen neto necesario. Se toma una muestra aleatoria de la salida de cada máquina. ¿El
ingeniero tiene razón?, pruebe las hipótesis para α = 0,05 .

Máquina 1 Máquina 2
16,03 16,01 16,02 16,03
16,04 15,96 15,97 16,04
16,05 15,98 15,96 16,02
16,05 16,02 16,01 16,01
16,02 15,99 15,99 16,00
Solución

Para llegar a la respuesta sigamos los siguientes pasos:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H 0 : µ1 = µ 2 el promedio llenado por la máquina 1 es igual al de la máquina 2

H 1 : µ1 ≠ µ 2 los promedios de llenado de las máquinas son diferentes

α = 0,05 nivel de significación para probar esta hipótesis

La prueba es de dos colas (bilateral)

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como conocemos las desviaciones estándar poblacionales de las dos máquinas y aunque
n1 = n2 = 10 son menores que 30, podemos utilizar la distribución normal.

De la Tabla 2 notamos que el valor crítico de z para una prueba bilateral y para un nivel de
significancia de 0,05 es Z c = ±1,96

Paso 3: Escribimos el criterio de decisión

12 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Gráfico 7: Regiones de aceptación – rechazo para H 0 : µ1 = µ 2


Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Si se
Criterio de decisión acepta , se rechaza en caso
contrario

Paso 4: Estandarizamos el estadístico muestral

Hallamos el valor estandarizado, Z cal , para ello calculamos las medias de la muestra de las
mediciones correspondientes a las máquinas 1 y 2; X 1 = 16,015 y X 2 = 16,005 , dados las
desviación estándar σ 1 = 0,015 y σ 2 = 0,018 y n1 = n2 = 10

Z cal =
(X 1 − X 2 ) − (µ1 − µ 2 )
σ 21 σ 22
+
n1 n2

16,015 − 16,005
Z cal = Z cal = 1,34
0,015 2 0,018 2
+
10 10

Paso 5: Interpretamos el resultado

Como Z c = −1,96 < Z cal = 1,34 < Z c = 1,96 , se acepta H 0 para un nivel de significancia de
0,05. Por lo tanto no existe evidencia estadística para pensar que las medias son diferentes,
por lo que concluimos que las sospechas del ingeniero son infundadas.

Ejemplo 5

La fracción de productos defectuosos producidos por dos líneas de producción se está


analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en

13 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

tanto que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas. ¿Es
razonable concluir que la línea de producción 1 produce una fracción más baja de producto
defectuoso que la línea 2? Use α = 0,01.

Solución

Para llegar a la respuesta sigamos los siguientes pasos:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H 0 : P1 = P2 la proporción de productos defectuosos es la misma para las


dos líneas

H 1 : p1 < p 2 la proporción de productos defectuosos es menor en la línea 1

α = 0,01 nivel de significación para probar esta hipótesis

La prueba es de cola izquierda

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como n1 = 1.000 y n2 = 1.200 vamos a utilizar la distribución normal.

De la Tabla 2 notamos que el valor crítico de z para una prueba de cola izquierda y para un
nivel de significancia de 0,01 es Z c = −2,33 .

Paso 3: Escribimos el criterio de decisión

Gráfico 8: Regiones de aceptación – rechazo para H 0 : P1 = P2


Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Criterio de decisión Si se acepta , se


rechaza en caso contrario

14 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Paso 4: Estandarizamos el estadístico muestral

Hallamos el valor estandarizado, Z cal , correspondiente al estadístico diferencia de


10
proporciones p1 − p 2 , dado que las proporciones muestrales son p1 = = 0,01 y
1.000
24
p2 = = 0,02
1.200
p1 − p 2 = 0,01 − 0,02 = −0,01

( p1 − p 2 ) − (P1 − P2 )
Z cal =
p1 .(1 − p1 ) p 2 .(1 − p 2 )
+
n1 n2

Z cal =
(− 0,01) − (0) Z cal = −1,95
0,01.(1 − 0,01) 0,02.(1 − 0,02)
+
1.000 1.200

Paso 5: Interpretamos el resultado

Como Z cal = −1,95 > Z c = −2,33 , se acepta H 0 para un nivel de significancia de 0,01. Por lo
tanto, no existe evidencia estadísticamente significativa para rechazar la hipótesis de que las
proporciones son iguales. Con base en estas muestras de 1.000 y 1.200 unidades, debemos
concluir que no es razonable decir que la línea de producción 1 produce una fracción más
baja de producto defectuoso que la línea 2.

6. Pruebas Especiales de significación para muestras pequeñas


Para muestras de tamaño n > 30 , llamadas grandes muestras, las distribuciones de
muestreo de los estadísticos estudiados son aproximadamente normales, siendo mejor la
aproximación a medida que incrementamos el tamaño de la muestra, por eso utilizábamos
la Tabla de la Distribución Z para estandarizar las variables. Para muestras de tamaño menor
que 30, llamadas pequeñas muestras, esa aproximación no es buena y empeora a medida
que disminuimos n , por lo tanto la estandarización por la Z ya no es viable.

Debemos, por lo tanto, estudiar distribuciones que permitan trabajar con pequeñas
muestras, como la distribución t de Student y la distribución ji-cuadrada. Destaquemos que
las distribuciones mencionadas son adecuadas para trabajar con muestras pequeñas, pero
también son útiles para muestras grandes.

15 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

6.1. Distribución t-Student

La distribución t-Student es una distribución de probabilidad que surge del problema de


estimar la media de una población normalmente distribuida cuando el tamaño de la muestra
es pequeño y se desconoce la varianza poblacional.

Definamos el estadístico t como

∑ (X )
n 2
X −µ ∧ −X
t= , donde s = i =1
es la estimación puntual de σ
i

s n −1
n

Decimos que el estadístico t tiene una distribución t-Student con v = n − 1 grados de


libertad.

Definimos los grados de libertad como la cantidad de valores que pueden ser asignados de
manera arbitraria antes de que empiecen a tomar valores de manera automática. Si
tenemos la suma de las edades de 20 personas, podemos asignar valores arbitrarios a las
edades de 19 de ellos, puesto que el valor de la vigésima dependerá del valor que haga falta
para completar la suma dada. Decimos entonces que tenemos 19 grados de libertad.

Por lo tanto para los problemas prácticos de esta sección, la definición analítica de los grados
de libertad que utilizaremos es:

v = n −1

Ejemplo 6

La vida útil promedio de una muestra aleatoria de 10 focos es 4000 horas, con una
desviación estándar muestral de 200 horas. Se supone que la vida útil de los focos tiene una
distribución aproximadamente normal. Estimar la vida útil promedio de la población de los
focos de la cual se tomó la muestra, utilizando un intervalo de confianza del 95%.

Solución

Notemos que el tamaño de la muestra es n = 10 y que los datos que tenemos son
muestrales.

El promedio muestral es x = 4000 horas y la desviación típica muestral es s = 200 horas. Por
lo tanto:

• El tamaño de la muestra es menor que 30


• Se desconoce la varianza muestral

16 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Dadas las dos condiciones mencionadas, debemos utilizar la distribución t-Student para
realizar la estimación pedida.

El intervalo de confianza pedido está definido como:


∧ ∧
s s
x−t α . < µ < x+t α .
v ; 1− n v ; 1− n
2 2

Donde t α indica el valor crítico que veremos en la tabla de la distribución t.


v ; 1−
2

v = n − 1 , v = 10 − 1 ; v = 9 , designamos 9 grados de libertad

Como el intervalo de confianza es del 95%, entonces α = 5% = 0,05 y eso nos indica que
α 0,05
1− = 1− = 0,975 .
2 2

En la tabla de la distribución t, buscamos t α = t 9; 0 ,975 , el valor correspondiente a la fila de


v ;1−
2

9 grados de libertad y la columna 0,975. Ese valor es:

t α = t 9; 0,975 = 2,262 .
v ; 1−
2

Por último calculamos el intervalo de confianza definido anteriormente


∧ ∧
s s
x−t α . < µ < x+t α .
v ; 1− n v ; 1− n
2 2

200 200
4.000 − 2,262. < µ < 4.000 + 2,262.
10 10

3.857 < µ < 4.143

Para un nivel de confianza del 95%, la duración media de los focos está comprendida entre
3.857 y 4.143 horas.

17 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Tabla de la Distribución t-Student

La tabla da áreas 1 − α y valores t1−α ; v , donde T tiene distribución t-Student con v grados de
libertad

v 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995


1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032

6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707


7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169

11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106


12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947

16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921


17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845

21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831


22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787

26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779


27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750

40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704


60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
∞ 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576
Tabla 3: Distribución t-Student

Fuente: http://webs.uvigo.es/pintos-clapes/docencia/Tabla-t.doc

18 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Ejemplo 7

En el pasado una máquina produjo empaques cuyo grosor medio era 0,05 cm. Para
determinar si la máquina estaba trabajando correctamente se tomó una muestra de 12
empaques. Se calculó el promedio de la muestra y la desviación estándar muestral y
resultaron 0,054 cm y 0,003 cm respectivamente. El resultado muestral hace creer que la
máquina produce empaques de un grosor mayor al promedio. Pruebe las hipótesis
adecuadas al 1% de significancia

Solución

Para llegar a la respuesta sigamos los mismos pasos establecidos en los ensayos
correspondientes a grandes muestras:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H0 : µ = 0,05 el grosor medio de los empaques es 0,05 cm

H1 : µ > 0,05 el grosor medio es mayor de 0,05 cm

α = 0,01 nivel de significación para probar esta hipótesis

La prueba es de cola derecha

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como no conocemos la desviación estándar de la población y n es menor que 30, podemos


utilizar la distribución t-Student.

Como n = 12 , los grados de libertad son v = n − 1 , v = 12 − 1 , v = 11

El nivel de significancia es α = 0,01 , y como el test es de una sola cola, el valor crítico es
t v ;1−α = t11; 0 ,99 . En la tabla t buscamos la fila correspondiente a 11 grados de libertad y la
columna 0,99

t v ;1−α = t11; 0 ,99 = 2,718

v 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995


1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169

11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106


12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
Tabla 4: Sección de la Tabla t-Student (1 a 12 grados de libertad)

19 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Paso 3: Escribimos el criterio de decisión

Gráfico 9: Regiones de aceptación – rechazo para H 0 : µ = 0,05


Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Si t cal ≤ t v ;1−α = t11; 0 ,99 = 2,718 se


Criterio de decisión acepta H 0 , se rechaza en caso
contrario

Paso 4: Estandarizamos el estadístico muestral

Hallamos el valor estandarizado, t cal , de la media muestral x = 0,054 , dado que la



desviación estándar muestral s = 0,003 y n = 12

x−µ 0,054 − 0,05


t cal = ∧
t cal = t cal = 2,77
0,005
s
12
n

Paso 5: Interpretamos el resultado

Como t cal = 2,77 > t11; 0 ,99 = 2,718 , se rechaza H 0 para un nivel de significancia de 0,01. Por
lo tanto, basado en la información obtenida de la muestra, la máquina produce empaques
cuyo grosor no es 0,05.

Ejemplo 8

Las horas extras promedio laboradas en el 2010 por 12 obreros de una tabacalera de la
región fue de 67,5 horas con una desviación estándar de 2,8 horas, mientras que 14 obreros
de la misma tabacalera en el 2011 tenían un promedio de horas extras laboradas igual a
68,2 horas con una desviación típica de 2,5 horas. El Gerente de Recursos Humanos de la
empresa mantiene que el promedio de horas extras laboradas por los obreros de la empresa
en el 2010 es más bajo que el promedio de horas extras laboradas por los obreros en el
2011. ¿Tiene razón el gerente?. Pruebe las hipótesis adecuadas con α = 0,05 .

20 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Solución

Recordemos seguir los pasos establecidos para el ensayo de hipótesis:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

Partimos de la idea de que los promedios de las horas extras trabajadas son iguales en los
años 2010 y 2011

H 0 : µ1 = µ 2

El Gerente de Recursos Humanos de la empresa asegura que el promedio de horas extras


trabajadas en 2010 es menor a las horas correspondientes al 2011, por lo tanto la hipótesis
alternativa es:

H 1 : µ1 < µ 2

α = 0,05 nivel de significación para probar esta hipótesis

La prueba es de una cola (unilateral izquierdo)

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como no conocemos las desviaciones estándar poblacionales y n1 = 12; n2 = 14 son menores


que 30, debemos utilizar la distribución t-Student.

Los grados de libertad para un contraste de diferencia de medias se define como


v = n1 + n2 − 2 , v = 12 + 14 − 2 , v = 24 .

El nivel de significancia es α = 0,05 , y como el test es de una cola, el valor crítico es


t v ;1−α = t 24; 0,95 . En la tabla t buscamos la fila correspondiente a 24 grados de libertad y la
columna 0,95.

t v ;1−α = t 24; 0 ,95 = 1,711

v 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995

16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921


17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845

21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831


22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787

Tabla 5: Sección de la Tabla t-Student (16 a 25 grados de libertad)

21 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Paso 3: Escribimos el criterio de decisión

Gráfico 10: Regiones de aceptación – rechazo para H 0 : µ1 = µ 2


Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Si se
Criterio de decisión acepta , se rechaza en caso
contrario

Paso 4: Estandarizamos el estadístico muestral

Hallamos el valor estandarizado, t cal , para ello extraemos los datos del problema dado,
donde las medias de las muestras son; x 1 = 67,5 y x 2 = 68,2 , y las desviaciones estándar
∧ ∧
muestrales son s 1 = 2,8 y s 2 = 2,5 y n1 = 12; n2 = 14

El estadístico t cal está definido como t cal =


(X 1 − X 2 ) − (µ 1 − µ 2 )
, siendo S p la raíz cuadrada
1 1
Sp × +
n1 n 2
∧2 ∧2
n1 . S 1 + n 2 . S 2
de la varianza conjunta de ambas muestras. S p = .
n1 + n 2 − 2

Por lo tanto calculamos primero el valor de S p

12 × 2,8 2 + 14 × 2,5 2
Sp = S p = 2,75
12 + 14 − 2

Luego calculamos el valor de t cal

22 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

t cal =
(67,5 − 68,2) − (0) t cal = −0,65
1 1
2,75 × +
12 14

Paso 5: Interpretamos el resultado

Como t cal = −0,65 > t v ;1−α = t 24; 0,95 = −1,711 , se acepta H 0 para un nivel de significancia de
0,05. Por lo tanto no existe evidencia estadística para pensar que las medias son diferentes,
por lo que concluimos que el Gerente no tiene razón.

Ejemplo 9

El coeficiente de inteligencia (CI) de 15 estudiantes de un área de la universidad mostró una


media de 107 con una desviación estándar de 10, mientras que el CI de 14 estudiantes de
otra área mostró una media de 112 con una desviación estándar de 8. ¿Hay alguna
diferencia significativa entre el CI de los dos grupos con un nivel de significancia de 0,01?

Solución

Para dar respuesta a la pregunta planteada en el problema, realicemos la prueba de


hipótesis. Para ello seguimos el algoritmo establecido:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

Como punto de partida sugerimos que los coeficientes de inteligencia, en promedio, son
iguales

H 0 : µ1 = µ 2

Contra la hipótesis que indica diferencia significativa entre los coeficientes de inteligencia

H 1 : µ1 ≠ µ 2

α = 0,01 nivel de significación para probar esta hipótesis

La prueba es de dos colas (bilateral)

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como no conocemos las desviaciones estándar poblacionales y n1 = 15; n2 = 14 son menores


que 30, debemos utilizar la distribución t-Student.

Los grados de libertad para un contraste de diferencia de medias se define como


v = n1 + n2 − 2 , v = 15 + 14 − 2 , v = 27

El nivel de significancia es α = 0,01 , y como el test es de dos colas, el valor crítico es


t α = t 27 ; 0 ,995 . En la tabla t buscamos la fila correspondiente a 27 grados de libertad y la
v ;1−
2

columna 0,995

23 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

t α = t 27 ; 0,995 = 2,771
v ;1−
2

v 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995

26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779


27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750

Tabla 6: Sección de la Tabla t-Student (26 a 30 grados de libertad)

Paso 3: Escribimos el criterio de decisión

Gráfico 11: Regiones de aceptación – rechazo para H 0 : µ1 = µ 2


Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html

Si −t α = −t 27 ; 0 ,995 = −2,771 ≤ t cal ≤ t α = t 27 ; 0,995 = 2,771


v ;1− v ;1−
2 2
Criterio de decisión se acepta H 0 , se rechaza en caso contrario

Paso 4: Estandarizamos el estadístico muestral

Hallamos el valor estandarizado, t cal , para ello extraemos los datos del problema dado,
donde las medias de las muestras son los coeficientes de inteligencia; x 1 = 107 y x 2 = 112 ,
∧ ∧
con las desviaciones estándar muestrales respectivas s 1 = 10 y s 2 = 8 y n1 = 15; n 2 = 14

24 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

El estadístico t cal está definido como t cal =


(X 1 − X 2 ) − (µ 1 − µ 2 )
, siendo S p la raíz cuadrada
1 1
Sp × +
n1 n 2
∧2 ∧2
n1 . S 1 + n 2 . S 2
de la varianza conjunta de ambas muestras. S p = .
n1 + n 2 − 2

Calculamos primero el valor de S p

15 × 10 2 + 14 × 8 2
Sp = S p = 9,42
15 + 14 − 2

Luego calculamos el valor de t cal

t cal =
(107 − 112) − (0) t cal = −1,43
1 1
9,42 × +
15 14

Paso 5: Interpretamos el resultado

Como − t 27 ;0 ,995 = −2,771 < t cal = −0,65 < t 27; 0 ,995 = 2,771 , se acepta H 0 para un nivel de
significancia de 0,01, no existe evidencia estadística para pensar que las medias son
diferentes, la diferencia observada entre las medias muestrales no es significativa.

25 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

6.2. Prueba Ji-cuadrado para la bondad del ajuste

Consideraremos una prueba para determinar si una población tiene una distribución teórica
específica. La prueba se basa en qué tan buen ajuste tenemos, entre la frecuencia de
ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que
se obtienen a partir de la distribución hipotética.

Supongamos que en una muestra en particular observamos que ocurre un conjunto de


eventos posibles E1, E2, E3, …, Ek, con frecuencias o1, o2, o3, …, ok, denominadas frecuencias
observadas, y que de acuerdo con las reglas de probabilidad, esperamos que ocurran con
frecuencias e1, e2, e3, …, ek, llamadas frecuencias esperadas. En un escenario como el
descrito arriba se deseamos saber si las frecuencias observadas difieren significativamente
de las frecuencias esperadas.

Evento E1 E2 E3 … Ek
Frecuencias observadas o1 o2 o3 … ok
Frecuencias esperadas e1 e2 e3 … ek
Tabla 7: k posibles eventos y sus frecuencias

El estadístico χ 2 (léase ji cuadrado) nos proporciona una medida de la discrepancia


existente entre la frecuencia observada y la frecuencia esperada, que está dada por:

(o1 − e1 )2 (o2 − e2 )2 (ok − ek )2


χ =
2
+ + ... +
e1 e2 ek

k
(oi − ei )2
χ =∑
2

i =1 ei

Donde, se la frecuencia total es n , además la sumatoria de las frecuencias observadas es


igual a la sumatoria de las frecuencias esperadas e igual al tamaño de la muestra.
Decimos entonces que el estadístico χ 2 tiene una distribución ji-cuadrado con v = k − 1
grados de libertad, observemos que k es el número de eventos.

26 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Tabla de la Distribución Ji-Cuadrado

α
v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 20,09 21,95
9 1,73 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 23,21 25,19
11 2,60 3,05 3,82 4,57 5,58 7,58 10,34 13,70 17,28 19,68 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 27,69 29,82
14 4,07 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 33,41 35,72
18 6,26 7,01 8,23 9,39 10,86 13,68 17,34 21,60 25,99 28,87 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,93 29,62 32,67 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 48,28 50,99
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 50,89 53,67
Tabla 8: Distribución χ2´

27 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Ejemplo 10
En un supermercado, en una semana, se venden 120 latas de tomates en conserva de 500 g.
En una semana específica se observan las siguientes ventas por día:

Lunes Martes Miércoles Jueves Viernes Sábados


Frecuencia
Observada 20 22 17 18 19 24
( oi )

El gerente de ventas del supermercado está interesado en saber si las ventas están
relacionadas con el día de la semana. Pruebe las hipótesis adecuadas para un nivel de
significación del 5%.

Solución

Para llegar a la respuesta sigamos los siguientes pasos establecidos para problemas de
ensayos de hipótesis:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H0 : la cantidad de latas vendidas es la misma para cada día de la semana

H1 : la cantidad de latas vendidas no es la misma para cada día de la semana

α = 0,05 nivel de significación para probar esta hipótesis

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como los datos del problema son frecuencias, cantidad de ventas de latas, y queremos
probar si las ventas de distribuyen de manera uniforme en cada día de la semana,
utilizaremos la prueba Ji-Cuadrado.

Para ello utilizamos v = k − 1 grados de libertad, donde k es la cantidad de categorías, en


este caso k = 6 porque son seis días de la semana. Tenemos v = 5 grados de libertad.

Buscamos en la tabla el valor de χ 2 v ;α = χ 2 5;0, 05 = 11,07 . Vamos hasta la fila


correspondiente a 5 grados de libertad y en la columna correspondiente a 0,05

v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
Tabla 9: Sección de la Tabla Ji-Cuadrado (1 a 6 grados de libertad)

28 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Paso 3: Escribimos el criterio de decisión

Gráfico 12: Regiones de aceptación – rechazo para H0


Fuente: http://www.dccia.ua.es/~violeta/Normal/distribnormal.html

Si se
acepta , se rechaza en caso
Criterio de decisión
contrario

Paso 4: Hallamos el estadístico muestral

Hallamos el valor de χ 2 cal para lo cual completamos primero el cuadro de ventas diarias
dado en el problema con las frecuencias esperadas.

Si las ventas tienen una distribución uniforme, esperamos que en los seis días analizados se
venda la misma cantidad de latas. Esto es:

120 latas
= 20 latas / día
6 días

La frecuencia esperada de venta diaria es 20 latas

Lunes Martes Miércoles Jueves Viernes Sábados


Frecuencia
Observada 20 22 17 18 19 24
( oi )
Frecuencia
Esperada 20 20 20 20 20 20
( ei )

Como χ 2 =
(o1 − e1 )2 + (o2 − e2 )2 (ok − ek )2 , entonces:
+ ... +
e1 e2 ek

χ 2 cal =
(20 − 20)2 + (22 − 20 )2 + (17 − 20)2 + (18 − 20)2 + (19 − 20)2 + (24 − 20)2
20 20 20 20 20 20

29 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

χ 2 cal = 1,7

Paso 5: Interpretamos el resultado

Como χ 2 cal = 1,7 < χ 2 5;0, 05 = 11,07 , se acepta H 0 para un nivel de significancia de 0,05. Por
lo tanto, las ventas diarias siguen una distribución uniforme.

Ejemplo 11
Las calificaciones de 150 alumnos de un curso de estadística para un semestre específico
fueron los siguientes:

Calificación Excelente Muy Bueno Bueno Logrado No Logrado


Cantidad de alumnos 35 25 33 40 17

El Director General del instituto está interesado en saber si las calificaciones tienen una
distribución uniforme. Pruebe las hipótesis adecuadas para un nivel de significación del 1%.

Solución

Sigamos los siguientes pasos establecidos:

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H0 : las calificaciones tienen una distribución uniforme

H1 : las calificaciones no tienen una distribución uniforme

α = 0,01 nivel de significación para probar esta hipótesis

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como los datos del problema son frecuencias, cantidad de alumnos que tienen cierta
calificación, y queremos probar si las esas calificaciones se distribuyen de manera uniforme,
utilizaremos la prueba Ji-Cuadrado.

Para ello utilizamos v = k − 1 grados de libertad, donde k es la cantidad de categorías, en


este caso k = 5 porque son cinco calificaciones. Tenemos v = 4 grados de libertad.

30 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Buscamos en la tabla el valor de χ 2 v ;α = χ 2 4;0, 01 = 13,28 . Vamos hasta la fila


correspondiente a 4 grados de libertad y en la columna correspondiente a 0,01

v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
Tabla 9: Sección de la Tabla Ji-Cuadrado (1 a 6 grados de libertad)

Paso 3: Escribimos el criterio de decisión

Gráfico 13: Regiones de aceptación – rechazo para H0


Fuente: http://www.dccia.ua.es/~violeta/Normal/distribnormal.html

Si se
acepta , se rechaza en caso
Criterio de decisión
contrario

Paso 4: Hallamos el estadístico muestral

Hallamos el valor de χ 2 cal para lo cual completamos primero el cuadro de las calificaciones
con las frecuencias esperadas.

Si las calificaciones tienen una distribución uniforme, esperamos que las cinco calificaciones
analizadas sean obtenidas por la misma cantidad de alumnos.

150 alumnos
= 30 alumnos / calificación
5 calificaciones

31 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

La frecuencia esperada es 30 alumnos por cada calificación

Excelente Muy Bueno Logrado No Logrado


Bueno
Frecuencia
Observada 35 25 33 40 17
( oi )
Frecuencia
Esperada ( 30 30 30 30 30
ei )

Como χ 2 =
(o1 − e1 )2 + (o2 − e2 )2 (ok − ek )2 , entonces:
+ ... +
e1 e2 ek

χ 2 cal =
(35 − 30)2 + (25 − 30)2 + (33 − 30)2 + (40 − 30)2 + (17 − 30)2
30 30 30 30 30

χ 2 cal = 10,93

Paso 5: Interpretamos el resultado

Como χ 2 cal = 10,93 < χ 2 4;0, 01 = 13,28 , se acepta H 0 para un nivel de significancia de 0,01,
las calificaciones obtenidas por los alumnos siguen una distribución uniforme.

6.3. Tabla de contingencia


Llamamos tabla de contingencia a una tabla que contiene F filas y C columnas. Cada fila
corresponde a un nivel de una variable; cada columna, a un nivel de otra variable. Los
elementos del cuerpo de la tabla son las frecuencias con que ocurre cada combinación de
variables.

Afiliación Política
P. Colorado P. Liberal
Género Hombre a b
Mujer c d

Tabla 10: Afiliación Política por Género

La prueba χ 2 nos permite determinar si dos variables cualitativas están o no asociadas, si la


afiliación política a los dos partidos tradicionales del Paraguay es independiente o no del
género, por ejemplo.

32 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Si al final del estudio concluimos que las variables no están relacionadas podremos concluir
con un determinado nivel de confianza que ambas son independientes.

Trataremos específicamente con tablas de contingencia 2x2, como el mostrado en la Tabla


10, con dos variables de dos niveles cada uno. El estadístico de prueba χ 2 se obtiene de la
siguiente manera:

n.(a.d − b.c )
2
χ2 =
(a + b )(. c + d )(. a + c )(. b + d )
Bajo la hipótesis nula de independencia, χ 2 tiene una distribución ji-cuadrado con
v = (F − 1)(
. C − 1) grados de libertad.

Cuando el tamaño muestral es reducido, calculamos el estadístico χ 2 con la corrección de


Yates χ Y , para evitar problemas por la utilización de una distribución continua con
2

variables cualitativas.
2
 n
n. a.d − b.c − 
χY 2 =  2
(a + b)(. c + d )(. a + c )(. b + d )

Coeficiente de Contingencia (CC)


Este coeficiente está basado en el valor de χ cal y se define como:
2

χ 2 cal
CC =
n
Este coeficiente toma valores entre 0 y 1 y para tablas de contingencia 2x2 se interpreta de
la siguiente manera:
• Si el coeficiente es cercano a uno, la dependencia es alta
• El valor 0 se obtiene cuando hay independencia.

Ejemplo 12

Prueba la hipótesis de independencia entre la afiliación política y el género para un nivel de


significancia del 5%.

Afiliación Política
P. Colorado P. Liberal
Género Hombre 43 207
Mujer 105 1645

33 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Solución

Para los ensayos de hipótesis que involucran tablas de contingencia, también seguimos los
pasos ya establecidos en las pruebas anteriores.

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H0 : la afiliación política es independiente del género

H1 : la afiliación política no es independiente del género

α = 0,05 nivel de significación para probar esta hipótesis

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como los datos del problema están presentados en una tabla de contingencia, utilizaremos
la prueba Ji-Cuadrado.

Para ello utilizamos v = (F − 1)(


. C − 1) grados de libertad, donde F es la cantidad de niveles
de la variable correspondiente a las filas de la tabla y C a los niveles de la variable
presentada en la columna, en este caso F = C = 2 porque son dos niveles para la variable
género y dos niveles para la variable afiliación política. Tenemos v = 1 grado de libertad.

Buscamos en la tabla el valor de χ 2 v ;α = χ 21;0, 05 = 3,84 . Vamos hasta la fila correspondiente


a 1 grado de libertad y en la columna correspondiente a 0,05.

v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
Tabla 9: Sección de la Tabla Ji-Cuadrado (1 a 6 grados de libertad)

34 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Paso 3: Escribimos el criterio de decisión

Gráfico 14: Regiones de aceptación – rechazo para H0


Fuente: http://www.dccia.ua.es/~violeta/Normal/distribnormal.html

Si se
acepta , se rechaza en caso
Criterio de decisión
contrario

Paso 4: Hallamos el estadístico muestral

Hallamos el valor de χ 2 cal con los datos de la tabla de contingencia

Afiliación Política
P. Colorado P. Liberal
Género Hombre a = 43 b = 207 a + b = 250
Mujer c = 105 d = 1.645 c + d = 1.750
a + c = 148 b + d = 1.852 n = 2.000

n.(a.d − b.c )
2
χ2 =
(a + b )(. c + d )(. a + c )(. b + d )
2.000 × (43 × 1645 − 207 × 105)
2
χ =
2

250 × 1.750 × 148 × 1.852

χ 2 cal = 40,04

35 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

χ 2 cal
También calculamos el coeficiente de contingencia CC = n

40,04
CC =
2.000 CC = 0,14

Paso 5: Interpretamos el resultado

Como χ 2 cal = 40,04 > χ 21;0, 05 = 3,84 , se rechaza H 0 para un nivel de significancia de 0,05, la
afiliación política no es independiente del género.

El coeficiente de contingencia es positivo CC = 0,14 , indica que la dependencia es baja.

Ejemplo 13

Un médico desea saber si el bajo peso de los bebés recién nacidos es independiente de la
condición de fumadora de la madre.

Para ello toma una muestra de recién nacidos de bajo y no bajo peso al nacer y los
resultados se describen en la siguiente tabla:

Bajo peso al nacer


Si No
Madre fumadora Si 10 6
No 5 8

Prueba las hipótesis adecuadas al 10% de significancia

Solución

Paso 1: Establecemos las hipótesis, el tipo de prueba y el nivel de significancia

H0 : el bajo peso al nacer es independiente de la condición de fumadora de la madre

H1 : el bajo peso al nacer no es independiente de la condición de fumadora de la madre.

α = 0,10 nivel de significación para probar esta hipótesis

Paso 2: Seleccionamos la distribución apropiada y hallamos el valor crítico

Como los datos del problema están presentados en una tabla de contingencia, utilizaremos
la prueba Ji-Cuadrado.

Para ello utilizamos v = (F − 1)(


. C − 1) grados de libertad, en este caso F = C = 2 porque son
dos niveles para la variable madre fumadora y dos niveles para la variable bajo peso al nacer.
Tenemos v = 1 grado de libertad.

36 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Buscamos en la tabla el valor de χ 2 v ;α = χ 21;0,10 = 2,71 . Vamos hasta la fila correspondiente


a 1 grado de libertad y en la columna correspondiente a 0,10.

v 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,01 0,005
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 16,81 18,55
Tabla 9: Sección de la Tabla Ji-Cuadrado (1 a 6 grados de libertad)

Paso 3: Escribimos el criterio de decisión

Gráfico 15: Regiones de aceptación – rechazo para H0


Fuente: http://www.dccia.ua.es/~violeta/Normal/distribnormal.html

Si se
acepta , se rechaza en caso
Criterio de decisión
contrario

Paso 4: Hallamos el estadístico muestral

Hallamos el valor de χ 2 cal con la corrección de Yates, porque la muestra es pequeña, con los
datos de la tabla de contingencia.

Bajo peso al nacer


Si No
Madre fumadora Si a = 10 b =6 a + b = 16
No c =5 d =8 c + d = 13
a + c = 15 b + d = 14 n = 29

37 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

2
 n
n. a.d − b.c − 
χY 2 =  2
(a + b)(. c + d )(. a + c )(. b + d )
2
 29 
29 ×  10 × 8 − 6 × 5 − 
χY 2 =  2 
16 × 13 × 15 × 14

χ 2 cal = χ Y 2 = 0,84

χ 2 cal
También calculamos el coeficiente de contingencia CC = n

0,84
CC =
29 CC = 0,17

Paso 5: Interpretamos el resultado

Como χ 2 cal = 0,84 < χ 21;0,10 = 2,71 , se acepta H 0 para un nivel de significancia de 0,10, el
bajo peso al nacer es independiente a la condición de fumadora de la madre.

El coeficiente de contingencia indica también que la dependencia es muy baja.

38 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Bibliografía
LEVIN, R.; RUBIN, R. 2010. Estadística para administración y economía. 7ª Edición. México.
Pearson Educación.

WALPOLE, R.; MYERS, R.; MYERS, S.; YE, K. 2007. Probabilidad y Estadística para ingeniería y
ciencias. 8ª Edición. México. Pearson Educación. 816 p.

DEVORE, J. 2008. Probabilidad y Estadística para Ingeniería y Ciencias. 7ª Edición. México.


Thomson Editores S.A. 715 p.

MIGALLÓN V. 2011. Distribución Normal con Geogebra (en línea). Consultado 8 agosto 2013.
Disponible en http://blogs.ua.es/violeta/2011/04/01/distribucion-normal-con-
geogebra/

SPIEGEL, M. 2000. Estadística. 2ª Edición. México. McGraw-Hill. 556 p.

SPIEGEL, M.; SCHILLER, J.; ALU, R. 2003. Probabilidad y Estadística. 2ª Edición. México.
McGraw-Hill. 416 p.

39 www.virtual.facen.una.py

También podría gustarte