Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Texto de Problemas de Inferencia Estadística: Autor: Juan Francisco Bazán Baca
Texto de Problemas de Inferencia Estadística: Autor: Juan Francisco Bazán Baca
VICERECTORADO DE INVESTIGACIÓN
FACULTAD DE CIENCIAS ECONÓMICAS
TEXTO DE PROBLEMAS DE
INFERENCIA ESTADÍSTICA
AUTOR:
01-09-11 al 31-08-13
CALLAO – PERÚ
2013
1
ÍNDICE
Pág.
INDICE 2
INTRODUCCIÓN 5
Capítulo 1. LA DISTRIBUCIÓN NORMAL Y EL TEOREMA DEL LÍMITE
CENTRAL 6
1.1 Distribución normal 6
1.2 Distribución normal estándar 7
1.3 Propiedad reproductiva de la distribución normal 9
1.4 Teorema del límite central 10
1.5 Ejercicios resueltos 13
1.6 Ejercicios propuestos 29
Apéndice 400
Tabla 1. Distribción acumulativa normal estándar 401
Tabla 2. Distribución acumulativa chi-cuadrado 403
Tabla 3. Distribución acumulativa T de student 407
Tabla 4. Distribución acumulativa F 408
Tabla 5. De Wilcoxon para n ≤ 40 y = 0.05 o 0.01 409
Tabla 6. Valores críticos para la prueba del signo S 409
4
INTRODUCCIÓN
Gratitud eterna a nuestra querida UNAC, por el continuo apoyo ofrecido para
alcanzar estos logros que permiten sistematizar conocimientos e incorporar temas
para la discusión en clases. El reconocimiento especial a los estudiantes de
economía de la FCE-UNAC, ya que gracias a su esfuerzo y comprensión en los
últimos años se han puesto en práctica los resultados de este modesto trabajo.
5
Capítulo 1. LA DISTRIBUCIÓN NORMAL Y EL TEOREMA
CENTRAL DEL LÍMITE
CONTENIDO
Definición.- una variable aleatoria continua X tiene distribución normal con media
μ y varianza σ2 , si su función de densidad de probabilidad esta dada por:
( X )2
1
f ( x) e 2 2
-∞ < x < ∞
2 2
donde: π = 3.14159265.... y e = 2.71828184 (la base de los logaritmos
neperianos).
Notación.- una notación muy común para la distribución normal es: X ~ N(μ , σ2 )
Que se lee “la variable aleatoria X se distribuye normalmente con media μ y
varianza σ2 ”.
Características geométricas.-
La gráfica tiene forma acampanada, con centro en μ.
6
Es una función creciente en el intervalo (- ∞ , μ).
Es una función decreciente en el intervalo (μ , ∞).
Tiene sus puntos de inflexión en μ – σ y μ + σ.
Características estadísticas.-
Media: E (X) = μ
Varianza: V (X) = σ2
Si X ~ N(μ , σ2 ). Entonces, la variable aleatoria Y = a + b X también se
distribuye normalmente con media: E(Y) = a + bμ y varianza: V(Y) = b2 σ2
. Es decir: Y ~ N(a + bμ , b2 σ2 )
Si X ~ N(μ , σ2 ) el cálculo de probabilidades se efectúa realizando el
proceso de estandarización siguiente:
Z = (X - μ ) / σ ~ N(0, 1) y decimos que la v.a. Z tiene distribución
normal estándar.
DISTRIBUCIÓN NORMAL
40
35
30
25
20
15
10
0
X
μ - 3σ μ - 2σ μ-σ μ μ+σ μ + 2σ μ + 3σ
Definición.- Se dice que una variable aleatoria Z, es una variable aleatoria normal
estándar, si tiene distribución normal con media cero (μ = 0) y varianza uno (σ2 =
1) y su función de densidad de probabilidades es:
1 z2 / 2
f ( z) e -∞ < z < ∞
2
La función de distribución acumulativa de Z se denota por Φ (z) o F(z) y se calcula
así:
7
z
1 t 2 / 2
Φ (z) = F(z) = P [Z z] =
2
e dt
Esta probabilidad nos da el área bajo la curva normal desde - ∞ hasta el valor z.
Entonces, conocidos los valores de la media μ y la varianza σ2 de una variable aleatoria
X ~ N(μ , σ2 ) utilizando el proceso de estandarización Z = (X - μ ) / σ , se puede
efectuar el cálculo de probabilidades tales como:
P[a X b] = P[ (a - μ ) / σ (X - μ ) / σ (b - μ ) / σ ]
= P[ (a - μ ) / σ Z (b - μ ) / σ ]
= Φ [(b - μ ) / σ ] - Φ [(a - μ ) / σ ]
8
Entre μ – 2σ y μ + 2σ se encuentra el 95.45% de las observaciones, puesto que:
2 2
P(μ – 2σ X μ + 2σ) = P
Z
P 2 Z 2
9
Puesto que:
n
= a0 + a1 μ1 + a2 μ2 + .... + an μn = a0 + ai i
i 1
n
= a12 σ12 + a22 σ22 + .... + a2n σn2 = a
i 1
i
2
i
2
n
Si: Yn = X1 + X2 + .... + Xn = X
i 1
i , entonces bajo ciertas condiciones generales,
n n
Y E (Yn ) X
i i
Zn n i 1
n
i 1
V (Yn )
i 1
2
i
Nota.-
10
n
= μ1 + μ2 + .... + μn =
i 1
i .
Observaciones.-
n
1. La variable aleatoria Yn = X
i 1
i (suma de v.a. independientes) puede ser
aproximada por una v.a. distribuida normalmente, cualquiera que sea la distribución
de las Xi .
2. Las condiciones generales indicadas en el teorema están referidas a que los términos
Xi tomados individualmente, contribuyen con una cantidad despreciable a la
variación de la suma, y no es probable que un simple término tenga una gran
contribución a la suma.
Una aplicación importante de estas condiciones generales del teorema central del
límite, se da en los modelos de regresión: Yi = β0 + β1 X1i + β2 X2i + .... + βk Xki + ei
Donde la variable explicada o dependiente Y es función de un conjunto de variables
explicativas o independientes (X1 , X2 , .... , Xk ) más un error e. La aplicación del
teorema central del límite se da cuando se asume que los errores ei se distribuyen
normalmente, debido a que estos errores recogen la suma de las contribuciones
despreciables de todas las variables dejadas de considerar en el modelo.
11
3. Una situación especial del teorema central del límite se presenta cuando cada Xi
tiene la misma distribución (que es el caso de la definición de muestra aleatoria,
como veremos más adelante) y que permita encontrar la distribución de una media
muestral. La propuesta es la siguiente:
Y E (Yn ) X i n
Xn
por : Zn n i 1
V (Yn ) n / n
1 n
tiene aproximadamente distribución normal estándar N(0 , 1). Donde X n Xi
n i 1
es la media muestral de las Xi .
Nota.-
= μ + μ + .... + μ = n μ .
12
1.5 EJERCICIOS RESUELTOS
1. Sea Z una variable aleatoria con distribución normal estándar [Z ~ N(0, 1)]. Hallar
las probabilidades siguientes: a) P(Z > 1.13) ; b) P(1.00 < Z < 1.42) c) P(-1.5 < Z <
0.50) ; d) P(-1.65 < Z < -1.00) ; e) P(Z < -1.52) ; f) P(0 < Z < 1.25) y g)
P(-1.63 < Z < 0).
0.4 0.4
0.6247
0.3 0.3
Densidad
Densidad
0.1 0.1
0.0 0.0
0 1 1.42 -1.5 0 0.5
Z Z
2. Sea Z una variable aleatoria normal estándar [Z ~ N(0, 1)]. Hallar el valor de z
para los casos siguientes: a) Φ(z) = 0.9500; b) Φ(z) = 0.9772; c) Φ(z) =
0.9987; d) el área entre –z y z es 0.95; e) el área a la izquierda de z es 0.01; y
f) el área a la derecha de z es 0.05.
13
Solución
14
X 10000 8000 10000
b) P(X ≤ 8000) = P =
1000 1000
= P(Z ≤ -2.0) = Φ(-2.00) = 0.02275 Rpta.
Interpretación: el 2.28% (ó en 228 de cada 10000 solicitudes) de los montos
de préstamo solicitados por los comerciantes es menor a S/. 8,000.
0.0004
0.0003
Densidad
0.0002
0.0001
0.0228
0.0000
8000 10000
X = monto del préstamo
C 10000 C 10000
0.80 = Z 0 . 8 0 0.84 C = S/. 10840
1000 1000
Rpta.
15
Distribución del monto de préstamo
Normal, Media=10000, Desv.Est.=1000
0.0004
0.0003
Densidad 0.0002
0.20
0.0001
0.0000
10000 10840
X = monto del préstamo
4. Para cierto examen la calificación vigesimal tiene distribución normal con media
11 y desviación estándar 2. Se desea desaprobar al 40% de los examinados.
¿Cuál debe ser la calificación máxima desaprobatoria? Interprete el resultado.
Solución
M 11 M 11
0.40 = P(X < M) = P Z = 2
2
M 11
Z 0.40 0.25 M = 10.5 Rpta.
2
5. Los ingresos de los trabajadores tiene distribución normal con media µ= S/.
1000 y desviación estándar σ = S/. 200. Si se selecciona a 2000 de estos
trabajadores, calcule e interprete:
a) ¿Cuántos trabajadores tienen ingreso menor a S/. 600?
b) ¿Cuántos trabajadores tienen ingreso entre S/. 850 y 1300?
Solución
16
Si X = ingreso de los trabajadores ~ N(1000, 2002), Z = (X – 1000)/ 200 ~ N(0,
1).
Para determinar cuántos de los n = 2000 trabajadores tienen ingresos en los
intervalos dados, primero se determina la probabilidad P y después multiplica
por n. Se pide:
X 1000 600 1000
a) P = P(X < 600) = P = P(Z < -2.0) = Φ(-2.0) =
200 200
0.02275
Luego nP = 0.02275 x 2000 = 45.5 trabajadores Rpta.
Interpretación: 46 trabajadores (2.28%) tienen ingreso menor a S/. 600.
850 1000 X 1000 1300 1000
b) P = P(850 ≤ X ≤ 1300) = P =
200 200 200
= P(-0.75 ≤ Z ≤ 1.5) = Φ(1.5) - Φ(-0.75) = 0.93319 – 0.22663 = 0.70656
0.0020
0.0015
0.7066
Densidad
0.0010
0.0005
0.0000
850 1000 1300
X = ingreso
0.08
0.07
0.06
0.8186
Densidad
0.05
0.04
0.03
0.02
0.01
0.00
75 80 90
X = peso
19
Interpretación: alrededor de 1.4 alumnos (2.28%) terminan el examen en una
hora o menos.
60 80 X 80 75 80
b) P = P(60 ≤ X ≤ 75) = P = P(-2 ≤ Z ≤ -0.5) =
10 10 10
= Φ(-0.50) - Φ(-2.0) = 0.30854 – 0.02275 = 0.28579.
Resultado gráfico en Minitab
0.04
0.03
Densidad
0.02 0.286
0.01
0.00
60 75 80
X = tiempo duración examen
Solución
20
Si X = ingreso familiar mensual ~ N(400, 502), Z = (X – 400)/ 50 ~ N(0, 1).
Se pide:
P(C < 320) = P(0.80 X + 50 < 320) = P(X < 337.5) =
X 400 337.5 400
= P = P(Z < -1.25)
50 50
= Φ(-1.25) = 0.10565 Rpta.
Otra forma de resolver es usando la propiedad reproductiva de la distribución
normal. Sí C = 0.80 X + 50, entonces la media y la varianza de C son:
C E(C) 0.8E( X ) 50 0.8(400) 50 370
Solución
X1 ~ N (10 , 3 ) 1 10 ; 12 3
X2 ~ N (12 , 4 ) 2 12 ; 22 4
X3 ~ N (14 , 6 ) 3 14 ; 32 6
a) Cálculo de la media y la varianza de Y
Y E Y E X1 2 X 2 X 3 E( X1 ) 2E( X 2 ) E( X 3 ) =
21
b) Cálculo de la P 8 Y 10
Sabemos que Y 0 y Y2 25 Y 5 .
30; μ2 = 25 ; μ3 = 12 ; μ4 = 8 ; 1 = 8 ; 2 = 6 ; 3 = 6 ; 4 = 2. Sí:
2 2 2 2
X 2X 2 X3 X4
Y= 1 - 2
4
Calcule e interprete: a) P 8 Y 14 y b) P Y 12
Solución:
X 2X 2 X3 X4 X X X X
Y = 1 - = 1 2 3 4
4 2 4 2 2 2
1 1 1 1
μY = E(Y) = E X1 E X 2 E X 3 E X 4
4 2 2 2
1 1 1 1
= (30) (25) (12) (8) 10
4 2 2 2
Y2 = V (y) = 1 V ( X ) 1 V ( X ) 1 V ( X ) 1 V ( X )
1 2 3 4
16 4 4 4
1 1 1 1
= (8) (6) (6) (2) 4
16 4 4 4
Siendo Y una combinación lineal de las variables independientes Xi cada una
con distribución normal, entonces por la propiedad reproductiva de la
distribución normal se cumple que Y ~ N [10, 4] Z = (Y – 10)/ 2 ~ N(0, 1).
Luego:
8 10 Y 10 14 10
a) P 8 Y 14 = P = P (-1.0 ≤ Z ≤ 2.0) =
2 2 2
= Φ(2.0) - Φ(-1.0) = 0.97725 – 0.15866 = 0.81859 Rpta.
22
Interpretación: el 81.86% de los valores de Y se encuentran entre 8 y 14.
12 10 Y 10 12 10
b) P Y 12 = P 12 Y 12 = P =
2 2 2
= P (-11.0 ≤ Z ≤ 2.0) = Φ(2.0) - Φ(-11.0) =
Solución
13. En una de las etapas de un proceso de ensamble un tapón cilíndrico tiene que
ajustarse a una abertura circular seleccionando cada elemento al azar en un
suministro continuo. Los diámetros del tapón y de los casquillos en mm, son
N(24.9, 0.032 ) y N(25, 0.042 ) respectivamente. Si para que el ajuste sea
23
satisfactorio se requiere un claro de diámetro de cuando menos 0.02 mm, ¿en
qué proporción de los casos el ajuste no será satisfactorio? Interprete el
resultado. (claro del diámetro = diámetro del casquillo – diámetro del tapón)
Solución
24
9 9 9
V(L) = V( X i ) =
i 1
V ( X i ) =
i 1
0.016
i1
2
= 9 x 0.0162 = 0.002304 cm2.
Luego:
9
L = longitud del recipiente con 9 pastillas = X
i 1
i ~ N(2.61, 0.0002304)
15. Suponga que las variables aleatorias X1 , X2 , .... , X50 representan la vida útil de
50 tubos electrónicos; los mismos que se usan de la siguiente manera: tan pronto
como falla el primer tubo, empieza a funcionar el segundo y cuando falla el
segundo empieza a funcionar el tercero, etc. Suponga que los Xi, i = 1, 2, …., 50
tienen distribución exponencial con parámetro λ = 1/500. ¿Cuál es la
probabilidad que el tiempo de funcionamiento de los 50 tubos esté comprendido
entre 20 000 y 30 000 horas? Interprete el resultado.
Solución
16. Las botellas de aceite vegetal “Primor” tienen un contenido medio de 1 litro y
una desviación estándar de 0.04. Para la distribución se acomodan en cajas de 36
botellas, Calcule e interprete la probabilidad que una caja contenga más de 36.6
litros.
Solución
16]
Entonces, por el teorema del límite central la probabilidad solicitada es:
26
P(Y100 > 30) = 1 - P(Y100 ≤ 30) = 1 -
100
X i 100 x0.20 30 100 x0.20
P i 1 =
0.20 x0.80 100 0.20 x0.80 100
= 1 – P(Z ≤ 2.5) = 1- Φ(2.5) = 1 – 0.99379 = 0.00621 Rpta.
Interpretación: en alrededor del 0.62% de los (ó en 62 de cada 10000) grupos de
100 hogares escogidos, más de 30 hogares no tienen desagüe.
18. Un lote de 10 000 pavos tiene un peso medio de 7 Kg. y una desviación
estándar de 0.15 Kg. Este lote debe ser entregado a los vendedores minoristas a
razón de 100 cada uno. ¿Cuál es la probabilidad de que un vendedor cualquiera
de estos tomados al azar, reciba un peso total de menos de 697 kilos? Interprete
su resultado.
Solución
27
Sea Xi = peso de las personas ~ [µ = 68, σ = 15 Kg.]
36
Sea Y36 = peso total de las 36 personas = X1 X 2 ............ X 36 X i
i 1
20. Las botellas de ron “Pepito” tienen un contenido medio de 2 litros y una
desviación estándar de 0.018. Para la distribución se acomodan en cajas de 36
botellas, Calcule e interprete la probabilidad que una caja contenga más de 72.36
litros.
Solución
28
EJERCICIOS PROPUESTOS
1. Sea Z una variable aleatoria con distribución normal estándar [Z ~ N(0, 1)].
Hallar las probabilidades siguientes:
a) P(Z ≤ 2.15)
b) P(0.80 < Z < 1.96)
c) P(-2.45 < Z ≤ 1.65)
d) P(-2.75 ≤ Z ≤ -0.65)
e) P(Z ≥ -1.38)
f) P(-2.57 ≤ Z < 0)
g) P(0 ≤ Z < 2.33).
2. Sea Z una variable aleatoria normal estándar [Z ~ N(0, 1)]. Hallar el valor de z
para los casos siguientes:
a) Φ(z) = 0.8665
b) Φ(z) = 0.9222
c) Φ(z) = 0.9972
d) el área entre –z y z es 0.99
e) el área a la izquierda de z es 0.05
f) el área a la derecha de z es 0.025
4. El precio que pagan los hogares por el kilo de pescado en una gran ciudad tiene
distribución normal con media µ= S/. 12 y desviación estándar σ = S/. 0.80.
Calcule e interprete la probabilidad de que el precio pagado por el kilo de
pescado:
a) Sea menor de S/. 10.
b) Se encuentre entre S/. 10.50 y 13.50.
c) Por arriba de que precio paga el 10% superior de los consumidores.
29
5. El tiempo que dura la atención a los clientes de un negocio se distribuye
normalmente con media µ= 30 minutos y desviación estándar σ = 4 minutos.
Calcule e interprete la probabilidad de que el tiempo de atención a los clientes:
a) dure entre 25 y 40 minutos.
b) Entre que límites simétricos alrededor de µ dura el 95% de las atenciones.
a) La media y la varianza de Y
b) P 10 Y 25
30
11. Sean X1, X2 y X3 variables aleatorias independientes distribuidas normalmente
X3
Calcule e interprete:
a) P 20 Y 40
b) P Y 18
12. Los teléfonos celulares A y B tienen una duración (en días) que son N(2190,
2002 ) y N(2878, 2502 ) respectivamente. Si se prueba la vida de cada uno de los
teléfonos correspondientes a cada una de las marcas, ¿cuál es la probabilidad que
los A duren un año o más que los B? Interprete su resultado.
13. En una ciudad grande el 20% de hogares no tiene agua. Si se escogen 100
hogares, calcule e interprete la probabilidad que más de 30 no tengan agua.
14. Al lanzar una moneda 100 veces, calcule e interprete la probabilidad de obtener
entre 40 y 60 caras.
15. Las cajas con limón tienen un peso medio de 20 Kg. y una desviación estándar
de 750 gr. Calcule e interprete la probabilidad de que el peso de 410 cajas
recibidas al azar y cargadas en un camión, supere su capacidad máxima que es
de 8,250 kg.
16. Los pesos de los sacos de algodón Pima cosechados tienen una media de 50
kilos y una desviación estándar de 1.4 kilos. Calcule e interprete la probabilidad
de que el peso de 100 paquetes seleccionados al azar sea menor de 4975 kilos.
17. Las cajas con naranja tienen un peso medio de 15 Kg. y una desviación estándar
de 0.5 kilos. Calcule e interprete la probabilidad de que el peso de 400 cajas
tomadas al azar sea menor de 5,980 kg.
18. Un lote de 10 000 pollos para parrilla tiene un peso medio de 1 Kg. y una
desviación estándar de 0.05 Kg. Este lote debe ser entregado a las pollerías a
razón de 100 cada una. ¿Cuál es la probabilidad de que una pollería, cualquiera
31
de estas tomada al azar, reciba un peso total de menos de 98.5 kilos? Interprete
su resultado.
19. Los pesos de los paquetes recibidos en las tiendas Ripley tienen una media de
580 libras y una desviación estándar de 80 libras. Calcule e interprete la
probabilidad de que el peso de 49 paquetes recibidos al azar y cargados en un
montacargas, supere su capacidad de 30 000 libras.
20. Un lote muy grande de cajas con palta tiene un peso medio μ = 20 Kg. y una
desviación estándar σ = 0.5 Kg. Este lote debe ser entregado a los
supermercados a razón de 100 cajas cada uno. Calcule e interprete ¿la
probabilidad de que un supermercado cualquiera, reciba un peso total de
menos de 1 990.2 Kg.?
32
Capítulo 2. DISTRIBUCIONES MUESTRALES
CONTENIDO
X i
= μ con i 1
y la misma varianza X2 I = V(Xi ) = V(X) =
N
N
(X i )2
2 i 1
.
N
2. Las variables aleatorias Xi (i = 1, 2, .... , n) son independientes. Por lo tanto la
función de probabilidad conjunta de la muestra aleatoria X1 , X2 , .... , Xn está
dada por:
n
f X1 , X 2 ,...., X n ( X 1 , X 2 ,...., X n ) f X ( X 1 ) f X ( X 2 ).... f X ( X n ) f X ( X i ) .
i 1
34
La definición de m.a. se cumple cuando la muestra proviene de una población
infinita (discreta o continua) y cuando la muestra se extrae con reemplazo de
una población finita.
La definición de m.a. no se cumple cuando el muestreo es sin reemplazo de una
población finita, ya que las v.a. X1 , X2 , .... , Xn no son independientes. Sin
embargo, si el tamaño n de la muestra es muy pequeño en comparación con el
tamaño N de la población (n < 5% N ) se cumple aproximadamente la
definición.
Ejemplo 1.-
Si se toma una m.a. de tamaño n, de una población X con distribución de Poisson,
con parámetro λ, hallar la función de probabilidad conjunta (función de
verosimilitud) para dicha muestra.
Solución:
Como la v.a. X ~ Poisson (λ), entonces Xi ~ Poisson (λ) y su función de
X e
i
X1 e X 2 e X n e
= .... =
X 1! X 2 ! X n!
n
Xi
i 1
e n
= n
, Xi = 0, 1, 2, 3, ...... ; i = 1, 2, .... , n .
X !
i 1
i
Rpta.
Ejemplo 2.-
Si se toma una m.a. de tamaño n, de una población X con distribución N(μ , σ2 ),
hallar la función de probabilidad conjunta (función de verosimilitud) para dicha
muestra.
Solución:
35
Como la v.a. X ~ N(μ , σ2 ), entonces Xi ~ N(μ , σ2 ) y su función de probabilidad
1
f X (Xi ) e ( X i ) / 2 2
; X i , i = 1, 2, 3, .... , n.
2
está dada por:
2 2
Luego la función de densidad conjunta (función de verosimilitud) será:
f X1 , X 2 ,....,X n ( X 1 , X 2 ,...., X n ) f X ( X 1 ) f X ( X 2 ).... f X ( X n ) =
1 2 2 1 2
e ( X 2 ) / 2 ....
1
e ( X1 ) / 2 e ( X n ) / 2
2 2 2
=
2 2 2
2 2 2
=
n n
1 2 ( X i ) 2 / 2 2
= e i 1
; xi , i = 1, 2, 3, .... , n. Rpta.
2
2
Xi ( X i X )2
X i 1
y s2 i 1
n n 1
Distribución muestral.- es la distribución de probabilidad de un estadístico.
Error estándar de un estadístico.- es la desviación estándar de la distribución
muestral de un estadístico.
Error relativo de un estadístico.- es el coeficiente de variación de la distribución
muestral de un estadístico.
Teorema 1.- Sea X1 , X2 , .... , Xn una muestra aleatoria de tamaño n de una
n
X i
población X, con media E(X) = μ y varianza Var (X) = σ . Sea X 2 i 1
la
n
2
media muestral, entonces: E (X ) y X2 Var( X ) .
n
Teorema 2.- Sea X1 , X2 , .... , Xn una muestra aleatoria sin reemplazo de tamaño n
de una población X de tamaño N, con media E(X) = E(Xi ) = μ y varianza Var (X)
= Var (Xi) = σ2.
S2 N n 2 N n
Entonces: E (X ) y Var( X )
2
.
n N 1 n N
X
36
N
( X i )2
Donde: S2 i 1
, representa la cuasivarianza poblacional y el factor
N 1
N n
se llama factor de corrección para poblaciones finitas (f.c.p.f.) el mismo que
N 1
es descartado cuando la fracción de muestreo (f )
n N n
f 0.05 0.97 1.
N N 1
A continuación presentamos las distribuciones muestrales de la media, del total
(conocida la media), de la diferencia de medias muestrales, de la proporción, del total
(conocida la proporción) y de la diferencia de proporciones. Todas ellas de suma
importancia en el diario quehacer de muchos campos de la investigación científica,
ya que como estudiaremos más adelante, van a permitir la determinación de
intervalos de confianza y la verificación de hipótesis para los parámetros
poblacionales.
2.1 DISTRIBUCIÓN MUESTRAL DE LA MEDIA
X i
teorema central del límite, la media muestral X i 1
tiene aproximadamente
n
distribución normal con media μ y varianza σ2/n. X N (, 2 / n) . Y la variable
( X )
aleatoria Z tiene aproximadamente distribución N(0, 1).
/ n
Este teorema es válido para cualquier población finita o infinita, discreta o continua,
cuando el tamaño de la muestra n ≥ 30. Si la población es normal, se cumple
cualquiera sea el tamaño n de la muestra.
Cuando la población es finita de N elementos y el muestreo es sin reemplazo, la
variables aleatorias Xi no son independientes, entonces la distribución de X es
hipergeométrica, con:
2 N n
E (X ) y X2 Var( X ) . Luego:
n N 1
37
Teorema 4.- Si X1 , X2 , .... , Xn es una muestra aleatoria de tamaño n extraida sin
reemplazo de una población X finita de tamaño N, con media E(X) = μ y varianza
n
X i
Var (X) = σ . Entonces, la media muestral X
2 i 1
tiene aproximadamente
n
2 N n
distribución normal con media μ y varianza Var( X )
2
. Y la
n N 1
X
( X )
variable aleatoria Z tiene aproximadamente distribución N(0, 1).
N n
n N 1
Ejemplo 3.-
Como datos del problema se tiene que: μ = S/. 5.00 , σ = S/. 0.40 y n = 50.
2
X2 Var( X ) = (0.40)2 / 50 = 0.0032 X 0.057. S/.
n
( X 5.00)
Luego: X N (5.00;0.0032) y Z N (0,1) . Nos piden:
0.057
4.85 5.00 X 5.00 5.10 5.00
a) P(4.85 X 5.10) = P =
.057 0.057 0.057
= P(-2.63 Z 1.75) = (1.75) - (-2.63) =
= 0.95994 – 0.00427 = 0.95567 Rpta.
Interpretación.- el 95.567% de los precios promedios muestrales de las botellas de
aceite “primor” de un litro, se encuentran entre S/. 4.85 y 5.10, para muestras de
50 precios.
X 5.00 4.80 5.00
b) P( X < 4.80) = P( ) P( Z 3.51) 0.00022
0.057 0.057
38
Interpretación.- el 0.022% de los precios promedios muestrales de las botellas de
aceite “primor” de un litro, será inferior a S/. 4.80, para muestras de 50 precios.
c) Sean 5.00 – E y 5.00 + E los límites simétricos alrededor de la media μ = S/.
5.00, dentro de los cuales estará el 95 % de las X . Entonces:
E E
0.95 = P(5.00 – E X 5.00 + E) = P( Z )
0.057 0.057
E E E E
= 2 1 0.975
0.057 0.057 0.057 0.057
E
Z 0.975 1.96 E 1.96(0.057 ) 0.11 . Luego los límites serán:
0.057
5.00 – E= 5.00 – 0.11 = S/. 4.89 y 5.00 + 0.11 = S/. 5.11. Es decir:
0.95 = P(4.89 X 5.11)
Interpretación.- el 95 % de los precios promedios muestrales de las botellas de
aceite “primor” de un litro, se encuentran entre S/. 4.89 y 5.11 alrededor de μ =
S/. 5.00, para muestras de 50 precios.
2.2 DISTRIBUCIÓN MUESTRAL DEL TOTAL (conocida la media)
X i
Sí el promedio poblacional es: i 1
N
n
El total de la población se define como: X X i N
i 1
X i
media muestral X i 1
tiene aproximadamente distribución normal:
n
X2 X2 N n
X N ( X , X2 ) . Donde: X2 o X2 Var( X ) ..... (1)
n n N 1
Sea Y1 , Y2 , .... , Ym una muestra aleatoria de tamaño m, de una población Y de
tamaño M, con media E(Y) = μY y varianza Var (Y) = Y2 . Sabemos que la
m
Y i
media muestral Y i 1
tiene aproximadamente distribución normal:
m
40
Y2 Y2 M m
Y2 Var(Y )
Y N (Y , Y2 ) . Donde: m o
2
Y
m M 1 ..... (2)
X2 Y2 X2 N n
M m 2
X2 Y = + o + Y .............. (3)
n m n N 1 m M 1
Además, por la propiedad reproductiva de la distribución normal, de (1) y (2) se tiene
que:
X Y ( X Y ) )
X - Y ~ N( X Y , X2 Y ) y Z ~ N(0 , 1)
X Y
donde X Y se obtiene a partir de (3).
X Y ( X Y ) ) X Y ( X Y ) )
Z o Z tiene
X2 Y2 X2 N n Y2 M m
n m n N 1 m M 1
aproximadamente distribución normal estándar N(0 , 1).
Si n y m son mayores o iguales que 30, la aproximación a la normal para la
diferencia de medias muestrales es óptima.
Si las poblaciones X e Y son normales, el teorema se cumple para cualesquier
tamaño de muestra.
Ejemplo 4.-
Ciertas bolsas de café tienen un peso medio de 500 gr. y una desviación estándar de
20 gr. Cierto día de producción se toman independientemente dos muestras al azar
sin reposición, con n = 500 y m = 800. ¿Cuál es la probabilidad que los pesos medios
41
de las dos muestras difieran a) en más de 2 gr.? y b) en menos de 1gr.? Interpretar
los resultados.
Solución.-
Sea X la muestra de tamaño n = 500 bolsas de café, con μX = 500 gr. y X = 20 gr.
Sea Y la muestra de tamaño m = 800 bolsas de café, con μY = 500 gr. y Y = 20 gr.
X2 Y2 202 202
Luego: X Y = X Y = 500 – 500 = 0, X2 Y = + = =
n m 500 800
1.3 y X Y = 1.14 gr.
X Y 0
Además, X - Y ~ N(0, 1.3) y Z ~ N(0 , 1). Nos piden:
1.14
a) P ( X - Y > 2 ) = 1 - P ( X - Y 2 ) = 1 - P(-2 X - Y 2) =
2 0 X Y 0 2 0
= 1 - P = 1 - P(-1.75 Z
1.14 1.14 1.14
1.75) =
1 0 X Y 0 1 0
= P = P(-0.88 Z 0.88) =
1.14 1.14 1.14
42
2.4 DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN
Entonces:
N X i
A Xi y P i 1
representan el número total de unidades (A) y la
i 1 N
proporción (P) de unidades en la población que poseen una cierta característica.
X i
X
p i 1
, estima a P.
n n
43
n
X = X
i 1
i = número de éxitos en la muestra es una v.a. Binomial (n, P). La
n
Xi 1 n 1 n 1
E ( p) E i 1 E ( X i ) P (nP) P
n n i 1 n i 1 n
n n
i X Var( Xi )
Var( p) Var i 1
i 1
(propiedad de la varianza)
n n2
n n
Var( X ) PQ i
nPQ PQ
i 1
2
i 1
2
2
p2
n n n n
X i
X PQ
Luego: p i 1
N P,
n n n
pP
y Z ~ N(0, 1)
PQ
n
X i
X PQ N n
p i 1
N P,
n n n N 1
44
pP
y Z ~ N(0, 1)
PQ N n
n N 1
Ejemplo 5.-
Solución.-
N = 2 059 426 niños y niñas censados como casos válidos = tamaño de la población.
N
X= X
i 1
i = 574 314 niños y niñas desnutridos crónicos.
X i
X 574,314
P i 1
= 0.279 = proporción censal de niños y niñas con
N N 2'059,426
desnutrición crónica.
1
Ministerio de Educación. Nutrición y Retardo en el Crecimiento. Resultados del II Censo Nacional de Talla en Escolares 1999.
Lima, Perú, Noviembre de 2000.
45
n
X i
PQ
N 0.279; 0.0001341
X
p i 1
N P,
n n n
Se pide calcular:
E E
0.95 = P(0.279 – E p 0.279 + E) = P( Z )
0.0116 0.0116
E E E E
= 2 1 0.975
0.0116 0.0116 0.0116 0.0116
E
Z 0.975 1.96 E 1.96(0.0116 ) 0.023 . Luego los límites serán:
0.0116
46
2.5 DISTRIBUCIÓN MUESTRAL DEL TOTAL (conocida la proporción)
X i
Sí P i 1
representa la proporción (P) de unidades en la población que
N
N
poseen una cierta característica y A X i el número total (A) de unidades que
i 1
N
El total de la población se define como: A X i NP
i 1
Np NP
Aˆ NPˆ Np N NP, N 2 p2 y Z
N p
~ N(0, 1)
PQ
Var( Aˆ ) Var( NPˆ ) Var( Np) N 2Var( p) N 2 p2 N 2 , si la
n
fracción de muestreo f = n / N 0.05 , o
PQ N n
Var( Aˆ ) Var( NPˆ ) Var( Np) N 2Var( p) N 2 p2 N 2 , si
n N 1
la fracción de muestreo f = n / N > 0.05.
47
2.6 DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE
PROPORCIONES
P1Q1 P1Q1 N1 n1
p1 N ( P1, p21 ) . Donde: p21 o p21 ..... (1)
n1 n1 N1 1
48
P2Q2 P2Q2 N2 n2
p2 N ( P2 , p22 ) . Donde: p22 o p2 .....
n2 2
n2 N2 1
(2)
p p E p1 p2 E p1 E p2 p p P1 P2
1 2 1 2
y varianza:
P1Q1 P2Q2 PQ N n P Q N n2
p2 p = + o 1 1 1 1 + 2 2 2 ............. (3)
1 2
n1 n2 n1 N1 1 n2 N 2 1
p1 p2 ( P1 P2 )
p1 – p2 ~ N(P1 – P2 , p21 p2 ) y Z ~ N(0 , 1)
p p
1 2
Teorema 6.- Si p1 y p2 son las proporciones de dos muestras aleatorias (de tamaños
n1 y n2 ) de las poblaciones binomiales 1 y 2, respectivamente, entonces la
distribución muestral de la diferencia de proporciones p1 - p2 ~ N(P1 – P2 , p21 p2 )
p1 p2 ( P1 P2 )
y la variable aleatoria Z o
P1Q1 P2Q2
n1 n2
p1 p2 ( P1 P2 )
Z tiene aproximadamente distribución
P1Q1 N1 n1 P2Q2 N 2 n2
n1 N1 1 n2 N 2 1
49
Si n1 y n2 son mayores o iguales que 30, la aproximación a la normal para la
diferencia de proporciones muestrales es óptima.
Ejemplo 6.-
Una empresa que trabaja en ciudades grandes, considera que el nivel de aceptación
de su producto en los hogares de la ciudad 1 es de un 35% y en la ciudad 2 de un
30%. Si se toma una muestra aleatoria de 400 hogares de cada ciudad. ¿Cuál es la
probabilidad que la diferencia de proporciones muestrales de hogares que prefieren el
producto en ambas ciudades sea menor al 8%? Interpretar el resultado.
Solución.-
Considerando que ambas ciudades son grandes y que las correspondientes fracciones
de muestreo son menores al 5% (f = n / N < 0.05) se tiene que:
p1 – p2 ~ N(P1 – P2 , p21 p2 )
p1 p2 ( P1 P2 ) p1 p2 0.05
p1 – p2 ~ N(0.05 ; 0.0011) y Z ~ N(0 , 1)
p p
1 2
0.0331
50
Se pide calcular:
51
2.7 EJERCICIOS RESUELTOS
Solución
n n
xi n xi
= p i1 q i 1
, xi = 0 y 1; i = 1, 2, .... , n . Rpta.
Solución
m
xi m xi
= n Cxi p i1 q i1 , xi = 0, 1, 2,....,n; i = 1, 2, ..., m .
i 1
Rpta.
Solución
1, 2, ...., n.
=
2 2 2
e (ln x2 ) / 2 ....
1 1 1
e (ln x1 ) / 2 e (ln xn ) / 2 =
2 2 2
x1 2 x2 2 xn 2
2 2 2
n n
1 1 2 (ln xi ) / 2 2
2
= n 2 2 e i 1
; xi 0, i = 1, 2, 3, .... , n. Rpta.
x
i
i 1
53
5. Las botellas de aceite para motor de carros tienen un contenido medio de 2.0 litros
y una desviación estándar de 0.12 litros. Si se toma una muestra aleatoria de 36
botellas, Calcule e interprete la probabilidad que:
a) Las botellas tengan una media de llenado entre 1.96 y 2.03 litros.
b) ¿Dentro de qué límites simétricos caerá el 95 % de las medias muestrales
alrededor de la media poblacional?
Solución
Los datos del problema son: μ = 2.0 lts., σ = 0.12 lts. y n = 36 botellas.
2
X2 Var( X ) = (0.12)2 / 36 = 0.0004 X 0.02 lts.
n
( X 2.00)
Luego: X N ( , X2 ) = N(2.00, 0.0004) y Z N (0,1) . Nos piden:
0.02
1.96 2.00 X 2.00 2.03 2.00
a) P(1.96 X 2.03) = P = P(-2.0 Z
0.02 0.02 0.02
1.5)
= (1.5) - (-2.0) =
= 0.93319 – 0.02275 = 0.91044 Rpta.
20
15 0.9104
Densidad
10
0
1.96 2.00 2.03
X = media muestral
54
Interpretación.- en el 91.04% de las (ó en 9104 de cada 10000) muestras de 36
botellas de aceite para motor de carro de dos litros, el contenido medio está entre
1.96 y 2.03 litros.
b) Sean 2.00 – E y 2.00 + E los límites simétricos alrededor de la media μ = 2.0 lts.,
dentro de los cuales estará el 95 % de las X . Entonces:
E E
0.95 = P(2.00 – E X 2.00 + E) = P( Z )
0.02 0.02
E E E E
= 2 1 0.975
0.02 0.02 0.02 0.02
E
Z 0.975 = 1.96 → E = 1.96 x 0.02 = 0.039 lts. Luego los límites serán:
0.02
2.00 – E = 2.00 – 0.039 = 1.961 lts. y 2.00 + 0.039 = 2.039 lts. Es decir:
6. Una estación de servicio de una ciudad grande ha encontrado que sus ventas
semanales de petróleo tienen un promedio de 15 galones por cliente con una
desviación estándar de 2.8. Para una muestra aleatoria de 49 clientes, calcule e
interprete:
a) La probabilidad de que la compra promedio semanal de petróleo sea menor de
14 galones;
b) ¿Dentro de qué límites simétricos caerá el 99% de las medias muestrales
alrededor de la media poblacional?
Solución
2
X2 Var( X ) = (2.8)2 / 49 = 0.16 X 0.4 glns.
n
55
( X 15)
Entonces: X N ( , X2 ) = N(15, 0.16) y Z N(0, 1). Nos piden:
0.4
X 15 14 15
a) P( X < 14) = P = P(Z < -2.5) = (-2.5) = 0.00621 Rpta.
0.4 0.4
E E
0.99 = P(15 – E X 15 + E) = P( Z )
0.4 0.4
E E E E
= 2 1 0.995
0.4 0.4 0.4 0.4
E
Z 0.995 = 2.575 → E = 2.575 x 0.4 = 1.03 glns. Luego los límites serán:
0.4
0.8
Densidad
0.6
0.4
0.2
0.0
13.97 15 16.03
X = media muestral
56
Interpretación.- en el 99% de las (ó en 9900 de cada 10000) muestras de 49
clientes de petróleo, la venta media se encuentra entre 13.97 y 16.03 glns.
alrededor de μ = 15 glns.
7. La compañía “Yapatera” vende bolsas de azúcar con un contenido medio de 5
kilos y una desviación estándar de 0.2 kilos. Si se toma muestras al azar de 36
bolsas. Calcule e interprete:
2
X2 Var( X ) = (0.2)2 / 36 = 0.0011 X 0.033 Kg.
n
( X 5)
Entonces: X N ( , X2 ) = N(5, 0.0011) y Z N(0, 1). Se pide:
0.033
X 5 5.1 5
a) P( X > 5.1) = P = P(Z > 3.03) = 1 - (3.03) =
0.033 0.033
= 1 - 0.99878 = 0.00122 Rpta.
E E
0.90 = P(5 – E X 5 + E) = P( Z )
0.033 0.033
E E E E
= 2 1 0.95
0.033 0.033 0.033 0.033
E
Z0.95 = 1.645 → E = 1.645 x 0.033 = 0.054 Kg. Luego los límites serán:
0.033
57
5 – E = 5 – 0.054 = 4.946 Kg. y 5 + 0.054 = 5.054 Kg. Es decir:
8. En Lima el precio promedio al consumidor del kilo de arroz es μ = S/. 3.20 con
una desviación estándar σ = S/. 0.25. Si se selecciona una muestra aleatoria de 100
consumidores de arroz, calcule e interprete:
a) La probabilidad que el precio medio muestral del arroz sea mayor a S/. 3.25 el
kilo.
b) ¿Dentro de que límites simétricos caerá el 95% de los precios medios
muestrales alrededor de la media poblacional?
Solución
Los datos del problema son: μ = S/. 3.20, σ = S/. 0.25. y n = 100 consumidores.
2
X2 Var( X ) = (0.25)2 / 100 = 0.000625 X S/. 0.025
n
( X 3.20)
Entonces: X N ( , X2 ) = N(3.20, 0.000625) y Z N(0, 1). Se
0.025
pide:
X 3.20 3.25 3.20
a) P( X > 3.25) = P = P(Z > 2.0) = 1 - (2.00) =
0.025 0.025
= 1 - 0.97725 = 0.02275 Rpta.
E E
0.95 = P(3.20 – E X 3.20 + E) = P( Z )
0.025 0.025
58
E E E E
= 2 1 0.975
0.025 0.025 0.025 0.025
E
Z 0.975 = 1.96 → E = 1.96 x 0.025 = S/. 0.05. Luego los límites serán:
0.025
3.20 – E = 3.20 – 0.05 = S/. 3.15 y 3.20 + 0.05 = S/. 3.25. Es decir:
9. La compañía “La negrita” vende latas de café con un contenido medio de 195
gramos y una desviación estándar de 6 gramos. Si se toman muestras al azar de 25
latas. Calcule e interprete:
2
Var( X )
2
X = (6)2 / 25 = 1.44 X 1.2 gr.
n
( X 195)
Entonces: X N ( , X2 ) = N(195, 1.44) y Z N(0, 1). Se pide:
1.2
X 195 192 195
a) P( X < 192) = P = P(Z < -2.5) = (-2.50) = 0.00621
1.2 1.2
Interpretación.- en el 0.62% de las (ó en 62 de cada 10000) muestras de 25
latas de café, el peso medio es menor 192 gr.
b) Sean 195 – E y 195 + E los límites simétricos alrededor de la media μ = 195
gr, dentro de los cuales caerá el 99.73 % de las X . Entonces:
59
E E
0.9973 = P(195 – E X 195 + E) = P( Z )
1.2 1.2
E E E E
= 2 1 0.99865
1.2 1.2 1.2 1.2
E
Z 0.99865 = 3.0 → E = 3 x 1.2 = 3.6 gr. Luego los límites serán:
1.2
195 – E = 3.6 – 0.05 = 191.4 gr. y 195 + 3.6 = 198.6 gr. Es decir:
10. Se sabe que en la ciudad A el gasto medio mensual en arbitrios es de S/. 250, con
una desviación típica de S/. 60; mientras que en la ciudad B dicho gasto medio
mensual es de S/. 235, con una desviación típica de S/. 50. En una auditoría para
determinar el gasto medio mensual en arbitrios en las ciudades A y B, se toma una
muestra al azar de 300 hogares de cada ciudad. Calcule e interprete la
probabilidad de que:
a) El gasto medio mensual en arbitrios en la ciudad B sea mayor que en la ciudad
A.
b) El gasto medio mensual en arbitrios en la ciudad A sea al menos S/. 25 más
que el gasto medio mensual en arbitrios en la ciudad B.
Solución
Los datos del problema son: μA = S/. 250, σA = S/. 35 y nA = 300 hogares.
60
X A XB
A B = 250 - 235 = 15, X2 A X B x2A x2B = 12 + 8.33 = 20.33 y
X AXB
= 4.51. Luego:
( X A X B 15)
X A X B N ( A B , X2 A X B ) = N(15, 20.33) y Z N(0, 1).
4.51
Se pide:
( X X B 15) 0 15
P A =
4.51 4.51
X X B 15 25 15
b) P X A X B 25 = 1 - P X A X B 25 = 1 - P A
4.51 4.51
=
Los datos del problema son: μA = 1980 horas, σA = 90 horas y nA = 100 bombillas.
μB = 1950 horas, σB = 100 horas y nB = 100 bombillas. Luego:
A2 B2
X2 Var ( X A ) = (90)2 / 100 = 81 y X2 B Var ( X B ) = (100)2 / 100 =
A
nA nB
100
( X B 1950)
a) X B N ( B , X2 B ) = N(1950, 81) y Z N(0, 1). Se pide:
9
X 1950 1930 1950
P( X B < 1930) = P B = P(Z < -2.22) =
9 9
= (-2.22) = 0.01321 Rpta.
Interpretación.- en el 1.32% de las (ó en 132 de cada 10000) muestras de 100
bombillas B, la duración media menor de 1930 horas.
b) X A X B A B = 1980 - 1950 = 30, X2 A X B x2A x2B = 81 + 100 = 181 y
X AXB
= 13.45. Luego:
( X A X B 30)
X A X B N ( A B , X2 A X B ) = N(30, 181) y Z N(0,
13.45
1). Se pide:
( X X B 30) 0 30
P( X B > X A ) = P( X A < X B ) = P( X A - X B < 0) = P A
13.45 13.45
=
= P(Z < -2.23) = (-2.23) = 0.01287 Rpta.
Interpretación.- en el 1.29% de las (ó en 129 de cada 10000) muestras de 100
bombillas A y 100 bombillas B, la duración media de las bombillas B es mayor
que la duración media de las bombillas A.
62
b) Las medias muestrales difieran en menos de 2 gramos.
Solución
Los datos del problema son: μ1 = 500 gr., σ1 = 15 gr. y n1 = 100 bolsas.
μ2 = 500 gr., σ2 = 20 gr. y n2 = 100 bolsas. Luego:
12 22
2
X1
Var ( X 1 ) = (15) / 100 = 2.25 y
2 2
X2
Var ( X 2 ) = (20)2 / 100 = 4.
n1 n2
X X 1 2 = 500 - 500 = 0,
1 2
X2 X x2 x2 = 2.25 + 4 = 6.25
1 2 1 2
y
X AXB
= 2.5. Luego:
( X1 X 2 0)
X1 X 2 N ( 1 2 , X2 1 X 2 ) = N(0, 6.25) y Z N(0, 1). Se pide:
2.5
( X X 2 0) 0 0
a) P( X 1 < X 2 ) = P( X 1 - X 2 < 0) = P 1 =
2.5 2.5
= P(Z < 0) = (0) = 0.5000 Rpta.
Interpretación.- en el 50% de las (ó en 5000 de cada 10000) muestras de 100
bolsas de la máquina 1 y 100 bolsas de la máquina 2, el llenado medio de la
máquina 1 es menor que el llenado medio de la máquina 2.
2 0 X 1 X 2 0 2 0
b) P X1 X 2 2 = P 2 X1 X 2 2 = P
2.5
2.5
2.5
=
13. Según un estudio del Ministerio de Salud,2 en el Perú los varones de 9 años de
edad tienen un peso promedio de 26.8 Kg. y una desviación estándar de 2.5 Kg.,
mientras que las mujeres tienen un peso promedio de 26.7 Kg. y una desviación
estándar de 3.8 Kg. Si se toman independientemente dos muestras al azar sin
reposición, de n = 300 niños y m = 300 niñas. Calcule e interprete la probabilidad
de que:
2
Ministerio de Salud. Informe del estado nutricional en el Perú. Componente nutricional ENAHO-CENAN Julio 2009 – Junio 2010,
CENAN – INEI,.. Lima, Perú, 2011.
63
a) El peso promedio de los niños sea menor que el peso promedio de las niñas.
b) El peso promedio de los niños sea al menos 0.6 kg. más que el peso promedio
de las niñas.
Solución
Los datos del problema son: μv = 26.8 Kg., σv = 2.5 Kg. y nv = 300 niños.
μm = 26.7 Kg., σm = 3.8 Kg. y nm = 300 niñas. Luego:
v2
X2 Var ( X v ) = (2.5)2 / 300 = 0.02083 y
v
nv
m2
2
Xm
Var ( X m ) = (3.8)2 / 300 = 0.04813.
nm
X v Xm
= 0.2626. Luego:
( X v X m 0.1)
X v X m N ( v m , X2 v X m ) = N(0.1, 0.2626) y Z N(0,
0.2626
1). Se pide:
( X X m 0.1) 0 0.1
a) P( X v < X m ) = P( X v - X m < 0) = P v =
0.2626 0.2626
14. Una empresa azucarera embolsa azúcar con un contenido medio de 50 kg. y
desviación estándar de 0.5 kg. Para el control de calidad se toman muestras
64
aleatorias de 25 bolsas de la producción diurna y 50 de la producción nocturna.
Calcule e interprete la probabilidad de que la producción media de las bolsas de
ambos turnos difieran en menos de 0.2 kg.
Solución
Los datos del problema son: μ1 = 50 Kg., σ1 = 0.5 Kg. y n1 = 25 bolsas.
μ2 = 50 Kg., σ2 = 0.5 Kg. y n2 = 50 bolsas. Luego:
12 22
X2 Var ( X 1 ) = (0.5) / 25 = 0.01 y X2 Var ( X 2 )
2
= (0.5)2 / 50 =
1
n1 2
n2
0.005
X AXB
= 0.1225. Luego:
( X1 X 2 0)
X1 X 2 N ( 1 2 , X2 1 X 2 ) = N(0, 0.015) y Z N(0, 1). Se
0.1225
pide:
P X1 X 2 0.2 = P 0.2 X1 X 2 0.2 =
0.2 0 X1 X 2 0 0.2 0
= P =
0.1225 0.1225 0.1225
= P(-1.63 < Z < 1.63) = 2 (1.63) - 1 =
= 2 (0.94845) – 1 = 0.8969 Rpta.
Interpretación.- en el 89.69% de las (ó en 8969 de cada 10000) muestras de 25
bolsas de la producción diurna y 50 de la producción nocturna, la producción
media de las bolsas de ambos turnos difieren en menos de 0.2 kg.
Los datos del problema son: P = 0.70 = proporción de las compras en alimentos y
bebidas en las tiendas Metro, Q = 0.30, n = 200 compras = tamaño de la muestra.
65
Asumiendo un número muy grande de compradores, entonces, la proporción muestral:
n
X i
X PQ
p i 1
N P, = N(0.70; 0.00105) y
n n n
pP p 0.70 p 0.70
Z ~ N(0, 1). Se pide calcular:
PQ 0.00105 0.0324
n
p 0.70 0.80 0.70
a) P (p > 0.80 ) = 1 - P (p ≤ 0.80 ) = 1 - P
0.0324 0.0324
= 1 - P(Z 3.09) = 1 - (3.09) = 1- 0.9990 = 0.0010 Rpta.
16. El 40% de los clientes de las tiendas Saga son varones. Si se toma una muestra
aleatoria de 200 clientes. Calcule e interprete:
a) La probabilidad que el porcentaje de clientes varones esté entre 36% y 45%.
66
b) ¿dentro de que límites simétricos del porcentaje de mujeres en la población
caerá el 95% de los porcentajes de la muestra?
Solución
Los datos del problema son: P = 0.40 = proporción de clientes varones en las tiendas
Saga, Q = 0.60 y n = 500 clientes.
Asumiendo un número muy grande de clientes en las tiendas Saga, la distribución
de la proporción muestral de hombres p es:
n
X i
X PQ
p i 1
N P, = N(0.40; 0.0012) y
n n n
p P p 0.40 p 0.40
Z ~ N(0, 1). Se pide calcular:
PQ 0.0012 0.0346
n
X i
X PQ
q i 1
N Q, = N(0.60; 0.0012) y
n n n
q 0.60
Z ~ N(0, 1). Se pide calcular límites simétricos.
0.0346
Sean 0.60 – E y 0.60 + E los límites simétricos alrededor de la proporción
verdadera Q = 0.60, dentro de los cuales estará el 95 % de las proporciones
muestrales de mujeres q. Entonces:
E E
0.95 = P(0.60 – E q 0.60 + E) = P( Z )=
0.0346 0.0346
E E E E
= 2 1 0.975
0.0346 0.0346 0.0346 0.0346
67
E
Z0.975 1.96 E 1.96(0.0346) 0.068 . Luego los límites serán:
0.0346
0.60 – E = 0.60 – 0.068 = 0.532 y 0.60 + 0.068 = 0.668. Es decir:
0.95 = P(0.532 q 0.668) Rpta.
Interpretación.- en el 95% de las (ó en 9500 de cada 10000) muestras de 200
clientes de las tiendas Saga, el porcentaje de clientes mujeres está entre 53.2% y
66.8% alrededor de la proporción verdadera Q = 0.60.
17. En Lima el 60% de los hogares consume mantequilla. Si se toma una muestra
aleatoria de 1000 hogares. Calcule e interprete:
a) La probabilidad que menos del 57% de los hogares consuma mantequilla.
b) Dentro de que límites simétricos, alrededor de la verdadera proporción de
hogares que consume mantequilla, estará el 99% de las proporciones
muestrales.
Solución
Los datos del problema son: P = 0.60 = proporción de hogares que consume
mantequilla, Q = 0.40 y n = 1000 hogares.
Asumiendo un número muy grande de hogares en Lima, la distribución de la
proporción muestral de hogares que consume mantequilla p es:
n
X i
X PQ
p i 1
N P, = N(0.60; 0.00024) y
n n n
p P p 0.60 p 0.60
Z ~ N(0, 1). Se pide calcular:
PQ 0.0155 0.0155
n
p 0.60 0.57 0.60
a) P (p < 0.57 ) = P =
0.0155 0.0155
= P(Z < - 1.94) = (-1.94) = 0.02619 Rpta.
Interpretación.- en el 2.62 % de las (ó en 262 de cada 10000) muestras de 1000
hogares, menos del 57% de los hogares consume mantequilla.
b) Sean 0.60 – E y 0.60 + E los límites simétricos alrededor de la proporción
verdadera P = 0.60, dentro de los cuales cae el 99 % de las proporciones
muestrales de hogares que consume mantequilla p. Entonces:
68
E E
0.99 = P(0.60 – E p 0.60 + E) = P( Z )=
0.0155 0.0155
E E E E
= 2 1 0.995
0.0155 0.0155 0.0155 0.0155
E
Z 0.995 2.575 E 2.575(0.0155) 0.04 . Luego los límites serán:
0.0155
0.60 – E = 0.60 – 0.04 = 0.56 y 0.60 + 0.04 = 0.64. Es decir:
0.99 = P(0.56 p 0.64) Rpta.
Interpretación.- en el 99% de las (ó en 9900 de cada 10000) muestras de 1000
hogares de Lima, el porcentaje de hogares que consume mantequilla está entre
56% y 4% alrededor de la proporción verdadera P = 0.60.
18. Dos empresas producen cierto artículo, la empresa A produce por término medio
20% de defectuosos, mientras que la empresa B produce un 30% de defectuosos.
Si se extrae una muestra aleatoria de 300 y 150 artículos respectivamente, calcule
e interprete la probabilidad de que el porcentaje de artículos defectuosos
producidos por la empresa B difiere de los defectuosos producidos por la empresa
A en 2% o menos.
Solución
69
pB pA ( PB PA ) pB pA 0.10
pB – pA ~ N(0.10 ; 0.0019) y Z ~ N(0 ,
p B pA
0.044
1)
Se pide calcular:
p pA 0.10 0.02 0.10
P (pB – pA 0.02) = P B
0.044
=
0.044
19. En una ciudad se sabe que la preferencia de las mujeres por un diario es del 20% y
para los hombres de un 25%. Si se toma una muestra aleatoria de 200 mujeres y
100 hombres, calcule e interprete la probabilidad de que el porcentaje de mujeres
que prefiere el diario difiera del porcentaje de hombres que lo prefiere en 8% o
más.
Solución
PM QM PH QH (0.2)(0.8) (0.25)(0.75)
Y varianza: p2M pH = + = = 0.0027. Luego:
nM nH 200 100
70
pM pH ( PM PH ) pM pH 0.05
pM – pH ~ N(-0.05 ; 0.0027) y Z ~ N(0 ,
p M pH 0.052
1)
Se pide calcular:
p pH 0.05 0.08 0.05
P (pM – pH ≥ 0.08) = P M = P(Z ≥ 2.50) =
0.052 0.052
71
pA pB ( PA PB ) p A pB 0.05
pA – pB ~ N(-0.05 ; 0.0024) y Z ~ N(0 ,
p A pB
0.049
1)
Se pide calcular:
p pB 0.05 0.07 0.05
P (pA – pB ≥ 0.07) = P A = P(Z ≥ 2.45) =
0.049 0.049
72
2.8 EJERCICIOS PRPUESTOS
4. Las botellas de la bebida “Rica Kola” familiar tienen un contenido medio de 2.5
litros y una desviación estándar de 0.1 litros. Si se toma una muestra aleatoria de
36 botellas, Calcule e interprete la probabilidad que:
a) Las botellas tengan una media de llenado entre 2.46 y 2.53 litros.
b) ¿dentro de qué límites simétricos caerá el 99 % de las medias muestrales
alrededor de la media poblacional?
5. En Lima el precio promedio al consumidor del kilo de mango es μ = S/. 2.20 con
una desviación estándar σ = S/. 0.20. Si se selecciona una muestra aleatoria de 100
consumidores de mango, calcule e interprete la probabilidad:
a) que el precio medio muestral sea mayor a S/. 2.25 el kilo.
b) ¿Dentro de que límites simétricos caerá el 95% de las medias muestrales
alrededor de la media poblacional?
6. Las cajas con mango tienen un peso medio de 20 Kg. y una desviación estándar de
0.75 Kg. Si se cargan 400 cajas al azar en un camión, calcule e interprete la
probabilidad de que:
a) El peso total de las cajas supere la capacidad máxima del camión que es de
8,040 Kg.
b) El peso medio de las cajas sea menor a 19.92 Kg.
c) ¿Dentro de que límites simétricos alrededor de la media poblacional caerá el
95% de las medias muestrales?
73
7. En una gran ciudad el promedio de empleados para establecimientos pequeños es
de 10 y la desviación estándar de 5 empleados. Para una muestra aleatoria de 36
establecimientos pequeños extraídos sin reemplazo, calcule e interprete:
a) La probabilidad que el promedio muestral de empleados sea menor que 8.
b) ¿Dentro de que límites simétricos del promedio poblacional caerá el 95% de
las medias muestrales de empleados por establecimientos pequeños?
8. Una empresa eléctrica fabrica focos cuya duración tiene distribución normal con
media de 1500 horas y desviación estándar de 50 horas. En una muestra aleatoria
de 16 focos, calcule e interprete la probabilidad que:
a) La duración promedio de los focos menor de 1475 horas.
b) ¿Dentro de que límites simétricos de la duración media poblacional caerá el
95% de las duraciones medias muestrales?
9. Dos fábricas A y B que embolsan café, afirman que el promedio en las bolsas es
de 495 y 490 gramos, respectivamente, con desviaciones típicas de 5 y 6 gramos.
Si se seleccionan 36 bolsas al azar de cada fábrica, calcule e interprete la
probabilidad de que:
a) El contenido medio de las bolsas A sea mayor de 497 gramos.
b) El contenido medio de las bolsas A sea menor que el contenido medio de las
bolsas B.
10. Uno de los principales fabricantes de tv compra cables a dos compañías. Los
cables de la compañía A tienen una vida media de 7.2 años con una desviación
estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años
con una desviación estándar de 0.7 años. Si se toman m.a. de 34 cabless de A y 40
de B, calcule e interprete la probabilidad de que la vida media de los cables A sea
de al menos un año más que la vida media de los B.
11. En una empresa de gaseosas la producción media de los varones es de 52 lts. Con
una desviación estándar de 7 lts. y la producción media de las mujeres es de 48 lts.
con una desviación estándar de 5 lts. Si se toma una muestra aleatoria de 40
trabajadores hombres y 40 mujeres. Calcule e interprete la probabilidad que la
producción media de los varones resulte menor que la producción media de las
mujeres.
74
12. En una universidad la edad promedio de los alumnos del turno de la mañana es de
22 años con una desviación estándar de 3 años, mientras que los del turno de la
noche tienen una edad media de 28 años con una desviación estándar de 5 años. Si
se toma una muestra aleatoria de 50 alumnos de cada turno, calcule e interprete la
probabilidad de que la edad promedio de los alumnos de la mañana es superior a
la edad media de los de la noche.
13. El 60% de los ciudadanos esta de acuerdo con la gestión presidencial. Si se toma
una muestra aleatoria de 500 ciudadanos, calcule e interprete:
a) La probabilidad de que más del 65% esté de acuerdo con la gestión
presidencial.
b) Dentro de que límites simétricos, alrededor de la verdadera proporción de
ciudadanos esta de acuerdo con la gestión presidencial, esta el 95% de las
proporciones muestrales.
14. En Lima el 60% de los hogares usa gas como combustible para cocinar. Si se
toma una muestra aleatoria de 1000 hogares. Calcule e interprete:
a) La probabilidad que más del 65% de los hogares use gas.
b) Dentro de que límites simétricos, alrededor de la verdadera proporción de
hogares que usa gas, estará el 99% de las proporciones muestrales.
15. En Lima el 30% de los hogares compra periódicos y/o revistas. Si se toma una
muestra aleatoria de 1000 hogares. Calcule e interprete:
a) La probabilidad de que más del 34% de hogares compre periódicos y/o
revistas.
b) ¿Dentro de que límites simétricos alrededor de la proporción verdadera caerá
el 99.73% de las proporciones muestrales de hogares que compra periódicos
y/o revistas?
75
17. El 70 % de las compras con tarjeta de crédito en tiendas Ripley son superiores a
$200. Si se seleccionan muestras aleatorias de 100 compras; Calcule e interprete:
18. Dos empresas producen equipos de sonido, la empresa A produce por término
medio 10% de defectuosos, mientras que la empresa B produce un 20%. Si se
extrae una muestra aleatoria de 400 y 200 unidades respectivamente, calcule e
interprete la probabilidad de que el porcentaje de equipos defectuosos producidos
por la empresa A difiere de los defectuosos producidos por la empresa B en 7% o
menos.
20. En cierta ciudad se sabe que el 25% de los hombres y el 30% de las mujeres están
familiarizados con un producto. Si se toma una muestra aleatoria de 200 hombres
y 200 mujeres, calcule e interprete la probabilidad de que el porcentaje de
hombres familiarizados con el producto sea mayor que el de mujeres.
76
Capítulo 3. DISTRIBUCIONES ESPECIALES
CONTENIDO
Esta distribución fue descubierta por Helmert el año 1875 y redescubierta por Karl
Pearson el año 1900.
Definición.- Sean Z1, Z2, ..., Zr, variables aleatorias independientes, cada una
con distribución normal estándar, Zi ~ N(0 , 1) . Entonces, la variable aleatoria
77
tiene una distribución chi-cuadrado (o Ji-cuadrado) con r grados de libertad, si
su función de densidad de probabilidades está dada por:
r
1 1
f X 2 ( x) = x 2 e x / 2 , 0<x<
r
r
2
2
2
= 0 , en otros casos
Donde:
Γ representa el gamma de un número, (n) X n 1e x dx , n > 0. Si n
0
1
es entero positivo (n) = (n – 1)! . Además, .
2
r = grados de libertad (g.l.) representa el número de v.a. independientes
que se suman o el número de variables que pueden variar libremente. En
regresión y econometría es el rango de una matriz (máximo número de
columnas linealmente independientes) asociado a formas cuadráticas delas
sumas de cuadrados.
Observación: la distribución chi – cuadrado es un caso particular de la
distribución de probabilidades Gamma con n = r / 2 y λ = 1 / 2.
n
f ( x) x n 1e x ,x>0
( n)
= 0 , en otros casos.
Media y Varianza:
78
= E(x²) = r y ² = Var(x²) = 2r
P X X 2 , 0 < < 1, está dada por:
r x
1
f X 2 x dx
x2 x2 1
P X x2 x 2 e 2 dx
r
0 0 r
2
2
2
y representada en la figura 2.
79
Note que P x x2 1
Puesto que existe una distribución chi-cuadrado diferente para cada valor de r,
resulta impráctico proporcionar tablas de áreas completas. En lugar de esto, la
tabla 2 de la distribución acumulativa chi-cuadrado, presenta un resumen de la
información más esencial acerca de la distribución. En el encabezado de la
columna de la izquierda, dice grados de libertad (G.L.) y cada fila de esta tabla
corresponde a una distribución chi-cuadrado particular, con sus probabilidades
(p) en la parte superior de esta tabla.
En la hoja de cálculo Excel se determina las probabilidades y los valores de
chi-cuadrado así:
a) DISTR.CHI: devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribución chi cuadrado de una sola cola. La distribución
chi cuadrado está asociada con la prueba chi cuadrado.
Sintaxis: DISTR.CHI(x;grados_de_libertad)
Observaciones :
Ejemplo:
Sintaxis: PRUEBA.CHI.INV(probabilidad;grados_de_libertad)
Observaciones
81
a) P(X < x2 ) = 0.05, si r = 15 g.l.
Se busca en la tabla 2, 15 g.l. en el margen izquierdo y se intercepta con la
probabilidad 0.05 de las columnas y se obtiene x2 = x02.05, 15 = 7.26 Rpta.
Ejemplo 2.-
2
Si X es una variable aleatoria x20 . Calcular:
a) P[X < 10.9]; b) P[ X > 31.4 ]; c) P[ 10.9 < X 31.4 ]
Solución
b) P[ X > 31.4 ] = 1 PX 31.4 1 P X x02.95 = 1 – 0.95 = 0. 05
Rpta.
c) P[ 10.9 < X 31.4 ] = P[X 31.4 ] - P[X 10.9 ] =
= P X x02.95 P X x02.01
= 0.95 – 0.01 = 0.94 Rpta.
Ejemplo 3.-
Si X es X 132 . Hallar P(X 20).
Solución
82
x2 P
19.8 0.90
22.4 19.8 20 19.8
20 p
0.95 0.90 p 0.90
22.4 0.95
0.2
52 52 p 46.8 0.2 p 0.9038
p 0.90
Ejemplo 4.-
2
Si X es una variable aleatoria con distribución x25 . Hallar a y b tal que:
P[a ≤ X ≤ b] = 0.95 y P[ X ≤ a ] = 0.025
Solución
X I
² X n es
Sabemos que X i 1
~ N ( , ) y por lo tanto Z
n n
N(0,1) entonces, Z 2
X ²n ~ x12 .
²
Ejemplo 5.-
83
Solución
p
Sigue una distribución chi-cuadrado con grado de libertad igual a r ri
i 1
Teorema 3.- Sea X1, X2, ..., Xn, una muestra aleatoria de una variable
aleatoria X ~ N (, ²). Entonces, la variable aleatoria:
n
Y xi / ² ~ x n2
2
i 1
x
i 1
i ²
Sabemos que la variable aleatoria tiene una distribución xn2 ,
²
puesto que cada término (xi - )/ son variables aleatorias normales estándar
e independientes (teorema 3).
Consideremos:
n n
X i ² X i X X ²
i 1 i 1
n n n
X i X ² X ² 2 X X i X
i 1 i 1 i 1
n
= X
i 1
i X ² n X ²
X i ² X i X ²
i 1
i 1
X ² =
n 1S ² X ²
² ² ²/n ² ²/n
Dado que ( X - )²/(²/n) tiene una distribución X 12 . Además, como X y S²
n
son independientes, y X
i 1
i ² / ² tiene una distribución x n2 , por la
X i 1
i
2
~ X 102
85
10
P 2.56 X i2 18.3 = P 2.56 X 102 18.3 =
110
= P( X 102 18.3) – P( X 102 2.56) =
9S 2 9 x1.88
b) P(S2 < 1.88) = P( ) = P( X 92 16.92) = 0.95 Rpta.
2
1
Interpretación: En el 95% de las muestras de 10 observaciones de la
distribución normal estándar, la varianza muestral es menor que 1.88.
3.2 DISTRIBUCIÓN T DE STUDENT
Esta distribución fue descrita en 1908 por el estadístico inglés William S. Gosset,
quien, al estar prohibido de publicar artículos científicos por la empresa cervecera
Guinness donde laboraba en Dublin, tuvo que presentarla con el pseudónimo de
“Student” y es comúnmente conocida como la “distribución t”.
“Es Ronald A. Fisher quien aprecia la importancia de los trabajos de Gosset sobre
muestras pequeñas, tras recibir correspondencia de Gosset en la que le decía le
envío una copia de las Tablas de Student, ¡ya que es la única persona que
probablemente las use jamás.” 3
Definición.- Sea Z una variable aleatoria normal estándar N(0, 1). Sea X2 ~ X r2
una variable aleatoria que tiene una distribución chi-cuadrado con r grados de
libertad, y si Z y X2 son independientes, entonces la variable aleatoria
Z Z r
T ~ tr
X2 Y
r
tiene una distribución t, con r grados de libertad, y su función de densidad de
probabilidades está dada por:
3
http://es.wikipedia.org/wiki/William_Sealy_Gosset; revisado en agosto de 2012.
86
r 1
r 1
2 t ² 2
f t 1 , - < t <
r r
r
2
Media y Varianza:
E(T) = T = 0 , r>1
r
Var(T) = T2 , r>2
r2
PT t , 0<<1
PT t f t dt 2 1 2 dt
t ²
t
r r
r
2
cuya representación gráfica la podemos ver en la fig. 4.
88
a) DISTR.T: devuelve la probabilidad (los puntos porcentuales) de la
distribución t de Student, donde un valor numérico (x) es un valor calculado
de t para el que deben calcularse los puntos porcentuales. La distribución t
de Student se utiliza para la comprobación de pruebas de hipótesis cuando el
tamaño de la muestra es pequeño (n < 30). Se puede utilizar esta función en
lugar de una tabla de valores críticos para la distribución t.
Sintaxis: DISTR.T.INV(probabilidad;grados_de_libertad)
Probabilidad: es la probabilidad asociada con la distribución t de
Student dos colas.
89
Grados_de_libertad: es el número de grados de libertad para diferenciar
la distribución.
Observaciones:
Ejemplo7.-
90
P[T 1.725 ] = P[T t 0.95 ] = 0.95 Rpta.
Para < 0.5, los valores t son: t = - t1- , . (ver fig. 5).
α α
0
Tα = - T(1 - α) 0 T(1 - α)
P[ T -a ] = 1 - P[ T a ]
Ejemplo 8.-
5
Sea T una variable aleatoria que tiene una distribución t con varianza ² = .
3
Calcular: P[-2.015 T 2.571]
Solución
r 5
Como T2 , entonces r = 5 y T ~ t5 . Luego:
r 2 3
P [- 2.015 T 2.571] = P[T 2. 571] – P[T - 2. 015 ] =
= P[T 2. 571] – [1 – P[T 2. 015 ] =
Buscando las probabilidades en la tabla 3 y reemplazando se tiene:
= P [T t0.975 ] – {1 - P[T t0.95 ]} =
= 0.975 – [ 1 - 0.95 ] =
= 0.975 - 0.05 = 0.925 Rpta.
Ejemplo 9.-
Sea T una variable aleatoria que tiene una distribución t con 23 grados de
libertad. Hallar el valor de a tal que: P[T a ] = 0.95
91
Solución
0.95 = P [T a ] = P[-a T a ] =
= P[T a] – P[T - a]
= P[ T a ] – [ 1 – P[T a ]
= 2P[Ta]–1
P[ T a ] = 0.975 En la tabla 3, a = t0.975 , 23 = 2.069 Rpta.
Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n, de una variable aleatoria
X con distribución N(, ²), en acápites anteriores hemos visto que:
X
1. La variable aleatoria Z ~ N(0,1).
/ n
(n 1)S 2
2. La variable aleatoria x 2 ~ x 2n 1 (teorema 4).
2
X n
T
Z
X n
~ tn-1
x2 n 1S ² / n 1 S
g.l. ²
Ejemplo 9.-
Si X y S 2 son la media y la varianza de una muestra aleatoria de tamaño 17 de
una distribución N(, o2). Hallar la constante C tal que:
92
4X
P C C 0.95
S
Solución
( X ) n ( X ) 17
En el problema propuesto, T ~ t 16. Entonces:
S S
4X C 17 X 17 C 17
0.95 = P C C = P =
S 4 S 4
C 17 C 17 C 17 C 17
= P t16 = P t16 - P t16 =
4 4 4 4
C 17 C 17
= P t16 - 1 P t16
4 4
C 17 C 17
0.95 = 2 P t16 - 1 P t16 = 0.975
4 4
C 17
t16 , 0.975 2.12 C = 2. 0567 Rpta.
4
Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n, de una variable aleatoria
X con distribución N(X, ²). Sea también Y1, Y2, ..., Ym una muestra aleatoria
de tamaño m de una variable aleatoria Y, con distribución N(Y, ²). De
acuerdo a lo estudiado en acápites anteriores se tiene que:
Z
X Y X Y X Y X Y ~ N (0 , 1 )
² ² 1 1
n m n m
2. La variable aleatoria:
n
n 1S 2 X i X ²
U X
i 1
~ x 2n 1
² ²
93
U es independiente de X e Y .
3. La variable aleatoria:
n
m 1SY2 Y Y ² i
V i 1
~ x2m 1
² ²
V es independiente de X , Y y S X2 .
U+V=
n 1S X2 +
m 1SY2 ~ x2n m 2
² ²
Con los resultados encontrados en (1) y (4); siendo las variables Z normal
estándar y U + V chi-cuadrado e independientes; usando la definición de la
variable aleatoria T se obtiene la distribución de la diferencia de medias
muestrales X - Y siguiente:
X Y X Y
1 1
Z n m
T
U V
(n 1) S X2 (m 1) SY2 / 2
nm2 nm2
Simplificando:
T
X Y X Y ~ t n+m-2
n 1S X2 m 1SY2 1 1
nm2 n m
94
Definición.- Sea U y V dos variables aleatorias independientes que tienen
distribuciones chi-cuadrado, con r1 y r2 grados de libertad, respectivamente.
U / r1
Entonces, la variable aleatoria: F
V / r2
r r 1 2
r r
1 2 r1 2 r2 2 r1
1
fF (x) = 2 .
x2
, 0<x<
r1 r2 x r r r1 2 r2
1 2
2 2
= 0 , en otros casos
Fig. 6
95
Notación: decir que la variable aleatoria F tiene distribución F con r1 y r2
grados de libertad, se denota como F ~ Fr1 , r 2 .
Media y Varianza.-
La media y la varianza de la v. a. F con r1 y r2 grados de libertad son:
F E F
r2
, r2 > 2
r2 2
2r22 r1 r2 2
F2 VarF , r2 > 4
r1 r2 2²r2 4
La probabilidad que la variable aleatoria F ~ Fr1 , r 2 sea menor o igual que una
PF f f F x dx
f
constante f está dada por:
0
r r 1 2
r r
f 1 2 r1 2 r2 2 r1
1
PF f 2 .
x 2
dx
r1 r2 x r r r1 2 r2
0 1 2
2 2
96
Estas probabilidades se presentan en tablas de F. Como la distribución depende
de los dos parámetros r1, y r2, se necesita una tabla con tres entradas para
tabular el valor de F que corresponde a diferentes probabilidades y valores de
r1 y r2.
U / r V / r 1
P 1
F ,r ,r P 2
V / r U / r f ,r ,r
1 2
2 1 1 2
V / r2 1
= 1 P
U / r1 f ,r1 ,r2
V / r2 1
P 1 ................ (1)
U / r1 f ,r1 ,r2
1 V / r2
Pero, ~ Fr2 , r1 tiene distribución F con r2 y r1 g.l.
F U / r1
V / r2
P f1 ,r2 ,r1 1 ............... (2)
U / r1
1 1
f1 , r2 , r1 f , r1 , r2 , para < 0.50
f , r1 , r2 f1 , r2 , r1
Ejemplo 10.-
Sea F una variable aleatoria que tiene una distribución F con r1 y r2 grados de
libertad. Hallar :
97
P[ F b ] = 0.975 y P[a F b] = 0.95 . Con r1 = 7, r2 = 5
Solución
Usando la tabla F:
1 1 1
c) P[F 0.0358] = P 1 P 27.9
F 0.0358 F
1
= 1 P f 0.99, 6, 3 = 1 – 0.99 = 0.01 Rpta.
F
P[F a] = 0.025
1 1 1 1
P[F a] = P 1 P 0.025
F a F a
1 1
P 0.975 , 1/F ~ F 5, 7
F a
1
Luego: f.0975, 5, 7 5.29 , de donde a = 0.189 Rpta.
a
Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una variable aleatoria
X ~ N(X, X2 ). Sea Y1, Y2, ..., Ym una muestra aleatoria de tamaño m de una
variable aleatoria Y con distribución N Y , Y2 . Entonces, la variable
aleatoria,
98
n
n 1S X2 X i X ²
U i 1
~ x 2n 1
2
X 2
X
m 1SY2 Y Y ²i
V i 1
~ x2m 1
Y2 Y2
n 1S X2 / n 1
U / (n 1) X2 S X2 / X2 S X2 Y2
F ~ Fn–1,m-1
V / (m 1) m 1SY2 SY2 / Y2 SY2 X2
/ m 1
Y2
99
3.7 EJERCICIOS RESUELTOS
= P X x0.95
2
P X x0.05
2
=
0.900
0
0 7.26 25.0
X
c) P(X ≤ 23.5) = p
Como en la tabla 2, de chi cuadrado, para 15 grados de libertad, no se
encuentra el valor 23.5, pero éste se encuentra entre los valores 22.3 (con
probabilidad 0.90) y 25.0 (con probabilidad 0.95) para hallar p interpolamos
de la siguiente manera:
100
x2 P
22.3 0.90
25.0 22.3 23.5 22.3
23.5 p
0.95 0.90 p 0.90
1.2
25.0 0.95 54 54 p 48.6 1.2 p = 0.9222
p 0.90
Luego: P(X ≤ 23.5) = 0.9222 Rpta.
d) P(X ≤ a) = 0.025
2
Para r = 15 g.l., a = x0.025 , 15 = 6.26 Rpta.
0.95 = P[a ≤ X ≤ b] = P[X b] – P[X a] = P[X b] - 0.025
0.95
0
0 a = 6.26 b = 27.5
X
Solución
101
n
X I
² X n es
a) Se sabe que X i 1
~ N ( , ) y por lo tanto Z
n n
N(0,1) entonces, Z 2
X ²n X ² x21 ~
2
.
²
1
18
Para obtener la probabilidad solicitada se multiplica dentro de la desigualdad
por 21/18 y se construye una 12 así:
= P [3.84 < 12 < 6.63] = P[ 12 6.63] - P[ 12 3.84] = 0.99 – 0.95 = 0.04.
3. De una población X: N(u, 18), se extrae una muestra aleatoria de tamaño n = 21.
Calcule e interprete:
21
a) P [208.7 <
i 1
(X i - µ)2 < 638.7]
102
b) P (9.77 < S2 < 30.78)
Solución
(X i )
2
(X i )2
i 1
n2 i 1
212 .
2
18
Para obtener la probabilidad solicitada se divide dentro de la desigualdad por
18 y se construye una 212 así:
21
208.7 ( X i )
2
21
638.17
P [208.7 <
i 1
(X i - µ)2 < 638.7] = P
18
i 1
18
18
=
= P [11.6 < 212 < 35.5] = P[ 212 35.5] - P[ 212 11.6] = 0.975 – 0.05 =
0.925.
20 x9.77 20 S 2 20 x30.78
P (9.77 < S2 < 30.78) = P =
18 18 18
= P[10.9 < 212 < 34.2] = P[ 202 34.2] - P[ 202 10.9] = 0.975 – 0.05 =
0.925.
Interpretación.- en el 92.5% de las muestras de tamaño 21, de una población
X N(u, 18 ), las varianzas muestrales (S2) se encuentra entre 9.77 y 30.78.
4. Suponga que el número de horas semanales que las amas de casa ven TV tiene
distribución normal con una varianza de 3. Al escoger una muestra de 17 amas
de casa y registrar el número de horas a la semana que ven TV, calcule e
103
interprete la probabilidad de que la varianza muestral de los tiempos obtenidos
sea mayor que 5.4 (horas)2.
Solución
Sean X = número de horas semanales que las amas de casa ven TV, n = 17 y σ2
= 3.
(n 1)S 2 (17 1)S 2 16S 2
Se sabe que: n21 entonces, 162
2 3 3
Multiplicando en la probabilidad solicitada por 16/3 se tiene una 162 así:
16S 2 16 x5.4
2 2
P (S > 5.4) = 1 - P (S ≤ 5.4) = 1 - P =
3 3
5. La duración de los transistores fabricados por una compañía tienen una media de
2000 horas y una desviación típica de 60 horas. Se selecciona 10 transistores al
azar, calcule e interprete la probabilidad que la desviación típica muestral se
encuentre entre 50 y 70 horas.
Solución
2500 S 2 4900
P(50 ≤ S ≤ 70) = P (2500 ≤ S2 ≤ 4900) = P =
400 400 3600
= P[6.25 ≤ 92 ≤ 12.25] = P[ 92 ≤ 12.25] – P[ 92 ≤ 6.25] = 0.80 - p
104
x2 P
5.38 0.20
6.39 5.38 6.25 5.38
6.25 p
0.30 0.20 p 0.20
0.87
6.39 0.30 10.1 10.1 p 2.02 0.87 p = 0.2861
p 0.20
Reemplazando p = 0.2861 en la última expresión se tiene que:
P(50 ≤ S ≤ 70) = 0.80 - 0.0.2861 = 0.5139 Rpta.
i 1
= P[ 152 ≤ 27.5] – P[ 152 ≤ 7.26] = 0.975 – 0.05 = 0.925 Rpta.
Interpretación.- en el 92.5% de las muestras de 15 observaciones de la
distribución normal estándar, la suma de los valores observados al cuadrado
se encuentra entre 7.26 y 27.5.
(n 1)S 2 (15 1)S 2
b) Dado que: n21 entonces, 14 S 2 142
2 1
Para obtener la probabilidad solicitada se multiplica dentro de la desigualdad
por 14 y se construye una 142 así:
105
P(0.4693 < S² < 1.864) = P 14 x 0.4693 14 S 2 14 x1.864 =
= P[6.57 ≤ 142 ≤ 26.1] = P[ 142 ≤ 26.1] – P[ 142 ≤ 6.57] = 0.975 – 0.05 =
0.925.
9
4
a) P 21.8 ( X i X )2 175 y b) P 5.81 (Yi ) 2 133.2
i 1 i 1
Solución
x X ² x X ²
n 9
a) Si 2
n 1 S ² i 1
i
n21 entonces i 1
i
82 .
² ² 10
9
9
21.8 i 1
( X i X )2
175
P 21.8 ( X i X )2 175 = P =
i 1 10 10 10
106
m
Y ²
i
b) Para una muestra de una población normal, se sabe que: i 1
m2
²
4
Y ²
i
entonces i 1
42 . Para obtener la probabilidad solicitada se divide
12
dentro de la desigualdad por 12 y se construye una 42 así:
4
4
5.81 (Yi )2
133.2
P 5.81 (Yi ) 2 133.2 = P i 1 =
i 1 12 12 12
= P[0.484 ≤ 42 ≤ 11.1] = P[ 42 ≤ 11.1] – P[ 42 ≤ 0.484] =
= 0.975 – 0.025 = 0.95. Rpta.
Interpretación.- en el 92.5% de las muestras de 4 observaciones de la
distribución normal Y: N(μ, 12), la suma de de las desviaciones al cuadrado
de los valores observados respecto a la media poblacional μ, se encuentra
entre 5.81 y 133.2.
8. Si T ~ t con 18 grados de libertad (T18), hallar:
a) P(T > 2.101)
b) P(-1.734 ≤ T ≤ 2.552)
c) P(T ≤ 1.53)
d) Hallar t0 tal que P(-t0 ≤ T ≤ t0) = 0.95.
Solución
107
Gráfica de distribución T con 18 G.L.
0.940
0
-1.734 0 2.552
T
Solución
Tα P
1.33 0.90
0.2
1.734 0.95 8.08 8.08 p 7.272 0.2 p = 0.9248
p 0.90
108
Gráfica de distribución T con 18 G.L.
0.95
0.025 0.025
0
-2.101 0 2.101
T
Datos: n = 25, S = 0.18 lts. Se pide hallar P X 0.085
X X X
Se sabe que: T tn1 , entonces: T t24
S/ n 0.18 / 25 0.036
Para obtener la probabilidad solicitada se divide dentro de la desigualdad por
0.036 y se construye una T24 así:
X 0.085
P X 0.085 = P P( T24 2.361) =
0.036 0.036
109
Tα P
2.064 0.975
2.492 2.064 2.131 2.064 0.067
2.131 p 28.53 =
0.990 0.975 p 0.975 p 0.975
2.492 0.990 28.53p - 27.817 = 0.067 p = 0.9774
P X 0.085 = 2 (0.9774) – 1 = 0.9548 Rpta.
10. De una población X ~ N(10, 100) se extrae una muestra aleatoria de tamaño 10 y
de una población Y ~ N(20, 40) se extrae una m.a. de tamaño 10. Determine el
Z
T se distribuye como una T con los grados de libertad de la chi-
2
G.L
cuadrado. Reemplazando Z y la 92 en la expresión anterior se obtiene:
X 10
10 2( X 10)
T t9
9SY2 / 40 SY
9
110
Para hallar el valor de la constante a solicitada, la probabilidad dada se adecúa a
la distribución t de student antes construida, así:
2( X 10)
0.05 = P ( X - 10 ≤ a SY) = P 2a = P(T9 ≤ 2a)
SY
11. Para analizar el tiempo de atención por clienta en las tiendas de pantalones
“Ricas y apretaditas”, se tomó una muestra aleatoria sin reemplazo de 25
atenciones con lo cual se obtiene S2 = 2.25 minutos2. Calcule e interprete la
probabilidad de que el tiempo promedio muestral de atención a las clientas
difiera de su media poblacional µ en menos de 0.57 minutos.
Solución
Datos: n = 25, S2 = 2.25 minutos2. Se pide hallar P X 0.57
X X X
Se sabe que: T tn1 , entonces: T t24
S/ n 1.5 / 25 0.3
Para obtener la probabilidad solicitada se divide dentro de la desigualdad por 0.3
y se construye una T24 así:
X 0.57
P X 0.57 = P P( T24 1.9) =
0.3 0.3
= P(-1.9 ≤ T24 ≤ 1.9) = P(T24 ≤ 1.9) – P(T24 ≤ -1.9) =
= P(T24 ≤ 1.9) – [1 - P(T24 ≤ 1.9)] = 2 P(T24 ≤ 1.9) – 1 = 2p – 1 …. (2)
Como en la tabla 3, T de student, para 24 grados de libertad, no tiene el valor
1.9, pero éste se encuentra entre los valores 1.711 (con probabilidad 0.95) y
2.064 (con probabilidad 0.975) para hallar p interpolamos así:
Tα P
1.711 0.95
2.064 1.711 1.9 1.711 0.189
1.9 p 14.12 =
0.975 0.95 p 0.95 p 0.95
2.064 0.975 14.12p - 13.414 = 0.189 p = 0.9634
111
Reemplazando p = 0.9634 en (2) se tiene que:
P X 0.57 = 2 (0.9634) – 1 = 0.9268 Rpta.
12. De una población X: N(0, ¼) se extrae una m.a. de tamaño 7 y de una población
Y: N(0, 1/3) se extrae una m.a. de tamaño 9. Determine el valor de la constante a
Z
T se distribuye como una T con los grados de libertad de la chi-
2
G.L
cuadrado. Reemplazando Z y la 82 en la expresión anterior se obtiene:
2 7X 3.055 X
T t8
24SY2 SY
8
Para hallar el valor de la constante a solicitada, la probabilidad dada se adecúa a
la reciente distribución t de student construida, así:
Datos: n = 25 días, S = 8 libros. Se pide hallar P X 4
X X X
Se sabe que: T tn1 , entonces: T t24
S/ n 8 / 25 1.6
Para obtener la probabilidad solicitada se divide dentro de la desigualdad entre
1.6 y se construye una T24 así:
X 4
P X 4 = P P( T24 2.5) =
1.6 1.6
= P(-2.5 ≤ T24 ≤ 2.5) = P(T24 ≤ 2.5) – P(T24 ≤ -2.5) =
= P(T24 ≤ 2.5) – [1 - P(T24 ≤ 2.5)] = 2 P(T24 ≤ 2.5) – 1 = 2(0.99) – 1 = 0.98
Rpta.
Interpretación.- en el 98% de las muestras de 25 días de encuadernación cada
una, el número medio muestral de libros encuadernados difiere de su media
poblacional µ en a lo más 4 libros.
14. De una población X: N(μ, σ²), se extrae una m.a. de n+1 observaciones.
Encontrar c tal que el estadístico c( X – Xn+1)/S tenga distribución t. Donde X y
S es la media y la desviación estándar muestral obtenidas con las n + 1
observaciones.
Solución
Para hallar la constante c es necesario construir una distribución T de student.
2
Con la muestra dada se tiene que: X → N(μ, ) y Xn+1 → N(μ, σ²).
n 1
Por la propiedad reproductiva de la distribución normal, se tiene que:
X - Xn+1 → N[0, σ²(n +2)/(n + 1)]. Puesto que las correspondientes medias se
restan y las varianzas se suman.
113
X X n1 0 n 1 X X n1
Entonces: Z N (0, 1) .
(n 2) /(n 1)
2 n2
Como S la desviación estándar muestral obtenidas con las n + 1 observaciones,
nS 2
entonces la chi-cuadrado es: 2 n21
2
n 1 X X n1
n 2
n 1 X X n1
T tn1
nS 2 n(n 2) S
2
Comparando el resultado anterior con la expresión dada, se tiene que:
n 1
c= Rpta.
n(n 2)
15. Si F ~ f con 7 y 8 grados de libertad, hallar:
a) P(F7,8 > 3.50)
b) P(F7,8 ≤ 0.268)
c) P(0.1462 ≤ F7,8 ≤ 4.53)
d) Hallar c y d tal que P(F7,8 ≤ c) = 0.025 y P(c ≤ F7,8 ≤ d) = 0.95
Solución
Dado que las varianzas son iguales, para obtener la probabilidad solicitada se
S12 22 S12
emplea la distribución siguiente: F 2 2 2 f n1 1,n2 1 = F7,7
S2 1 S2
S12
P S 5S
1
2 2
2 P 2 5 = P(F7,7 > 5) = 1 - P(F7,7 ≤ 5) =
S2
= 1 – 0.975 = 0.025 Rpta.
115
Interpretación.- en el 2.5% de las (ó en 25 de cada 1000) muestras de tamaño 8
de cada población, la varianza de la primera muestra es al menos 4 veces más
grande que la segunda.
17. Si muestras aleatorias independientes de tamaño n1 = 6 y n2 = 8 provienen de
poblaciones normales con la misma varianza. Calcule e interprete la
probabilidad que la varianza de la primera muestra sea menor que seis veces la
segunda.
Solución
S2
P S12 6S 22 P 12 6 = P(F5,7 < 6) = p = 0.984 Rpta.
S2
Fα P
5.29 0.975
116
Xi 0
Si X: N(0, ¼) entonces cada Xi: N(0, ¼) → Z i 2 X i N (0,1) .
1/ 2
7 7
Luego: Z i2 4 X i2 12 y Z i2 4 X i2 72 .
i 1 i 1
Yj 0
Si Y: N(0, 1/3) entonces cada Yj: N(0, 1/3) → Z j 3Y j N (0,1) .
1/ 3
9 9
Luego: Z 2j 3Y j2 12 y Z
j 1
2
j 3Y j2 92 .
j 1
j 1 j 1
19. Dos compañías A y B fabrican transistores. La duración para los fabricados por
A tienen una desviación estándar de 40 horas, en tanto que los B tienen una
desviación estándar de 50 horas. Se toma una muestra de 8 transistores de A y
117
16 de B. Calcule e interprete la probabilidad que la varianza de la primera
muestra sea mayor 4.23 veces que la segunda.
Solución
118
3.7 EJERCICIOS PROPUESTOS
b) P ( 11.04 ≤ S2 ≤ 31.52 )
4. Se sabe que los pesos de ciertas latas de atún se distribuyen normalmente con una
desviación estándar de 2 gramos. Si se toma una muestra de 12 latas, calcule e
interprete la probabilidad de que la varianza de la muestra sea menor que 8.5
(gr.)2.
5. La duración de los focos producidos por una compañía tienen una media de 1500
horas y una desviación típica de 80 horas. Se seleccionan 23 focos al azar, calcule
e interprete la probabilidad de que la desviación estándar muestral se encuentre
entre 60 y 100 horas.
7. De una población X: N(u, 18), se extrae una muestra aleatoria de tamaño n = 25.
Calcule e interprete:
25
a) P [327.5 <
i 1
(X i - µ)2 < 978.8 ]
119
b) P (8.18 < S2 < 32.25).
8. De una población X → N(μ, 10) se extrae una m.a. de tamaño n = 10 y de una
población Y → N(μ, 15) se extrae una m.a. de tamaño m = 8. Calcule e interprete:
10
a) P 30.1 ( X i X )2 190.0
i 1
8
b) P 32.7 (Yi ) 2 201.0
i 1
9. Si T ~ t con 23 grados de libertad, hallar:
a) P(T ≤ -1.714)
b) P(-1.319 ≤ T ≤ 2.5)
c) P(T > 1.319)
d) Hallar a y b tal que P(T ≤ -t0) = 0.05 y P(-t0 ≤ T ≤ t0) = 0.90.
10. Un inspector investiga las acusaciones contra una fábrica de gaseosas porque no
llena bien sus envases. Una muestra de 16 botellas de gaseosa indica una
desviación típica S = 0.18 litros. Calcule e interprete la probabilidad de que el
promedio muestral difiera de su media poblacional µ en menos de 0.096 litros.
11. De una población X: N(0, ¼) se extrae una muestra aleatoria de tamaño 10.
Determine el valor de la constante k tal que: P (k x > SX) = 0.05. Donde x es la
media muestral de las X y SX es la desviación estándar muestral de las X.
12. Para analizar el tiempo de atención por cliente en un establecimiento grande, se
tomó una muestra aleatoria sin reemplazo de 25 atenciones con lo cual se obtiene
un tiempo promedio de 7.5 minutos y una varianza S2 = 2.25 minutos2. Calcule e
interprete la probabilidad de que el promedio muestral difiera de su media
poblacional en menos de 0.513 minutos.
13. De una población X: N(μ, σ²), se extrae una muestra aleatoria de n+1
121
Capítulo 4. ESTIMACIÓN PUNTUAL
“Lo que escucho lo olvido, lo que veo lo recuerdo, pero lo que hago lo
entiendo” Confucio
CONTENIDO
122
4.1 ESTIMADORES. PROPIEDADES
Estimador y estimación
p = 21 / 100 = 0.21.
X i
media poblacional μ es la media muestral, es decir que ̂ X i 1
, y
n
hemos probado que:
n
Xi 1 n 1 n 1
E ( X ) E i 1 E ( X i ) (n )
n n i 1 n i 1 n
( X i X )2
varianza poblacional σ2 es ̂ 2 i 1
, cuya esperanza está dada por:
n
n
( X I X )2
1 E X 2 nX 2 1 E X 2 E X 2
n n
E (ˆ 2 ) E I 1
n n i 1
i i
n i 1
=
n
n
2
E X i2 E X 2 V ( X i ) E ( X i ) V ( X ) E ( X )
2
2 n 1 2
=
2 2
2
n n
n 1 2
Es decir que: E (ˆ 2 )
n
n
( X i X )2
Luego ̂ 2 i 1
no es estimador insesgado de la varianza poblacional
n
σ2.
b) Insesgamiento asintótico.- Un estimador puntual ˆ del parámetro θ, basado en
una muestra aleatoria X1 , X2 , .... , Xn , es insesgado asintóticamente si:
124
lím
E(ˆ)
n
( X i X )2
En el ejemplo 3, si bien ̂ 2 i 1
no es un estimador insesgado,
n
pero es asintóticamente insesgado ya que su esperanza tiende a σ2 cuando el
tamaño de la muestra tiende a infinito.
n
( X i X )2
Ejercicio.- verificar que la varianza muestral s 2 i 1
es un
n 1
estimador insesgado de la varianza poblacional σ2 cualquiera sea la
distribución.
c) Consistencia.- Sea X1, X2, .... , Xn una m.a. de una distribución que
depende de un parámetro θ, y sea ˆn un estimador puntual de θ basado en
0 ,
lím
n
P ˆn 1
n
X i
Ejemplo 4.- Demuestre que la media muestral ̂ X i 1
es un estimador
n
consistente de la media poblacional μ.
Solución.-
Como la media muestral X N (, 2 / n) . Y la variable aleatoria
( X )
Z tiene aproximadamente distribución N(0, 1) ; tenemos que:
/ n
n n n
P X P X P Z 2 1
n
P X =
lím lím
Luego: 2 1 = 2 (1) – 1 = 1
n n
125
n
X i
Por lo tanto, la media muestral X i 1
es un estimador consistente de la
n
media poblacional μ, cualquiera que sea el tipo de distribución de la población,
siempre que tenga media y varianza.
d) Error Cuadrático Medio (ECM) de un Estimador .- Sea ˆ un estimador
puntual del parámetro θ, su error cuadrático medio es:
Demostración.-
=
E[ˆ E(ˆ ] E[E(ˆ) ] 2Eˆ E(ˆE(ˆ)
2 2
ECM (ˆ) E[ˆ E (ˆ ] [E (ˆ) ] 2Eˆ E (ˆ E (ˆ)
2 2
V (ˆ) [b(ˆ)]2 0
126
estimador sesgado tiene una varianza mucho menor que el insesgado, podría ser
preferible su uso.
Ejemplo 5.-
Suponga que ˆ1 y ˆ2 son dos estimadores de con E ( ˆ1 ) = , E( ˆ2 )
El estimador ˆ1 es insesgado, por lo tanto: ECM ( ˆ1 ) = Var ( ˆ1 ) = 6 ........
(1)
El estimador ˆ2 es sesgado, por lo tanto:
Es decir que ˆ1 será mejor estimador que ˆ2 si > 3, porque tiene menor
ECM; en caso contrario, si < 3, ˆ2 será mejor estimador que ˆ1 .
Rpta.
Ejemplo 6.-
X1 X 2
̂1 X , ˆ 2 y ˆ 3 X 1
2
127
2 2
V (ˆ1 ) , V ( ˆ 2 ) y V ( ˆ 3 ) 2
n 2
Por lo tanto, el mejor estimador de μ será ̂1 X por tener menor varianza.
X i
p i 1
, estima a P.
n
n n
X i Var( X i )
Var( p) Var i 1 i 1
(propiedad de la varianza)
n n2
n n
Var( X i ) PQ nPQ PQ
i 1
2
i 1
2
n n n2 n
i) f(x; P) = P x (1 – P) 1 - x , x = 0 , 1
ii) ln f(x; P) = x ln P + (1 – x) ln (1 – P)
d x 1 x xP
iii) ln f ( x; P)
dP P 1 P P(1 P)
( x P)2 Var( X )
2
d PQ 1
iv) E ln f ( x; P) E 2 2
2 2 2 2
dP P (1 P) PQ PQ PQ
1 1 PQ
v) B( P) = Var (p)
d
2
1 n
nE ln f ( x; P) n
dP PQ
129
4.2 MÉTODOS DE ESTIMACIÓN PUNTUAL
Procedimiento.-
Sea X1, X2, .... , Xn una m. a. de X, una variable aleatoria con función de
probabilidad f(x; θ) que depende del parámetro θ, y sean x1 , x2 , .... , xn , los
valores observados. Para hallar el EMV del parámetro desconocido θ se
procede de la siguiente manera:
4
http://buscon.rae.es/drae/ Real Academia Española © Todos los derechos reservados. Vigésima segunda edición (2001).
Verosímil: 1. Adj. Que tiene apariencia de verdadero. 2. Adj. Creíble por no ofrecer carácter alguno de falsedad.
130
ˆ hace máxima a V(θ), también hace máxima a su logaritmo ln V(θ). Para
convertir el producto en suma, se toma la función:
n
L = ln V(θ) = ln f ( x ; )
i 1
i
Ejemplo 8.-
Solución.-
f ( xi ; P) P xi (1 P)1 xi , xi = 0 , 1 ; i = 1, 2, …. , n
(1 P)1 xi = P i (1 P) i
n n
f ( x ; P) = P xi X n X
= i
i 1 i 1
n
n
iv) L = ln V(P) =
i 1
xi ln P xi ln(1 P)
n
i 1
131
n n n
L i 1 xi n xi
1 P
n xi
v) i 1
0 i 1
P 1 P n
x
P P
i
i 1
x i
Luego: Pˆ p i 1
X Rpta.
n
Estimador muestral que sabemos es un estimador eficiente de la proporción
poblacional P.
La idea básica de este método consiste en igualar los momentos muestrales con
los correspondientes momentos poblacionales. Recordemos la siguiente
definición.
Definición.-
Sea X una v.a. con función de probabilidad puntual p(x) en el caso discreto o
función de densidad f(x) en el caso continuo. Se denomina momento de orden
k (k N) o momento poblacional de orden k a E(Xk ), es decir:
E ( X k ) x k p( x) en el caso discreto, y
x
E( X k ) x
k
f ( x)dx en el caso continuo.
X i
k
132
n
X i
k
E ( X k ) M 'k i 1
, k = 1, 2, .... , m
n
Ejemplo 9.-
Sea X1, X2, .... , Xn, una m.a. de una distribución exponencial de parámetro λ.
Como hay un solo parámetro a estimar, basta plantear una ecuación basada en
el primer momento.
1
Sabemos que para la distribución exponencial E ( X ) Entonces:
X i
1 n 1
M ' i 1
E( X ) ˆ
1
n
X
n X
i
i 1
n n
ei2 (Yi a bX i ) 2
i 1 i 1
d n 2 n
da i 1
ei 2 (Yi a bX i )(1) 0
i 1
133
d n 2 n
i
db i 1
e 2
i 1
(Yi a bX i )( X i ) 0
n n
na b X i Yi ….. (1)
i 1 i 1
n n n
a X i b X i2 X i Yi ….. (2)
i 1 i 1 i 1
X Y nX Yi i
bˆ i 1
n
y aˆ Y bˆ X
X
i 1
i
2
nX 2
134
4.6 PROBLEMAS RESUELTOS
n
(X i X )2
1. Demostrar que la varianza muestral ˆ 2 s 2 i 1
es un estimador
n 1
insesgado de la varianza poblacional σ2.
Solución
n n
Sabemos que: ( X i X ) 2 X i2 nX 2
i 1 i 1
=
nE X i2 nE X 2
2
n V ( X i ) E ( X i ) V ( X ) E ( X )
2
n 1 n 1
2
n 2 2 2
n n 2 2
=
n 1 n 1
(n 1) 2
Es decir que: E(ˆ ) E(s )
2 2
2
n
n
(X i X )2
Luego ˆ 2 s 2 i 1
es estimador insesgado de la varianza poblacional
n 1
σ2.
Por definición de muestra aleatoria se sabe que: X1, X2 , …., Xn son n variables
aleatorias independientes con: E(Xi) = µ, V(Xi) = σ2.
Si ˆ X1 , entonces:
135
b) Como X1 es un estimador insesgado, entonces ECM (X1) = V(X1) = σ2.
n
X i
X i 1
Pero, n también es un estimador insesgado de µ, con
2
ECM ( X ) V ( X )
n .
Comparando los errores cuadráticos medios de ambos estimadores, se tiene
que:
ECM (X1) > ECM ( X ) luego X1 no es un estimador eficiente de µ, ya que
3. Las cajas de un cereal producido por una fábrica deben tener un contenido de 16
onzas (una libra). Un inspector toma una muestra aleatoria simple que arroja los
siguientes pesos en onzas: 15.7, 15.7, 16.3, 15.8, 16.1, 15.9, 16.2, 15.9, 15.8,
15.6.
a) ¿Cuál es la estimación puntual del peso medio poblacional de las cajas de
cereal?
b) ¿Cuál es la estimación puntual de la varianza poblacional del peso de las
cajas?
Solución
Xi X i
15.7 15.7 .... 15.6 159
X i 1
i 1
= 15.9 onzas.
n 10 10 10
b) El estimador puntual de la varianza poblacional es la varianza muestral y su
estimación es:
n n 10
( X i X )2 X i2 nX 2 X i
2
10 X 2
ˆ 2 S 2 i 1
i 1
i 1
n 1 n 1 10 1
n 10
136
10
X i
2
10 X 2
2528 .58 10 x (15.9) 2
ˆ 2 S 2 i 1
= 0.0533 (onzas)2.
10 1 9
X i
X N de éxitos
p p i 1
n n n
a) La estimación de la proporción de adultos que opinan que la economía se está
contrayendo es:
X adultos que opinan que la economía se está contrayendo 300
p =
n 1000 1000
0.30.
b) La estimación de la proporción de adultos que opinan que la economía
permanece igual es:
X adultos que opinan que la economía sige igual 400
p = 0.40
n 1000 1000
c) La estimación de la proporción de adultos que opinan que la economía está
creciendo es:
137
X adultos que opinan que la economía está creciendo 200
p = 0.20.
n 1000 1000
d) La estimación de la proporción de adultos que No sabe/No opina es:
X adultos que No sabe/No opina 100
p = 0.10.
n 1000 1000
Estimaciones que casi siempre son presentadas como porcentajes de la siguiente
manera:
NÚMERO Y PORCENTAJE DE ADULTOS, SEGÚN SU OPINIÓN SOBRE LA
SITUACIÓN DE LA ECONOMÍA
OPINIÓN: ADULTOS %
La economía se está contrayendo 300 30
La economía permanece igual 400 40
La economía está creciendo 200 20
No sabe/No opina 100 10
Total 1000 100
Solución
Para determinar cuál de los estimadores es más eficiente hay que hallar sus errores
cuadráticos medios y compararlos.
2
ECM (ˆi ) V (ˆi ) E(ˆi )
138
2
ECM (ˆ2 ) V (ˆ2 ) E (ˆ2 ) =
Si ϴ > 11, el estimador ˆ2 es un estimador más eficiente para ϴ que ˆ1 Rpta.
6. Suponga que tiene una muestra de tamaño 2n de una población X con E(X) = µ
2n n
Xi X i
y Var(X) = σ . Sean X 1
2 i 1
y X2 i 1
dos estimadores de µ, ¿cuál
2n n
es el mejor estimador de µ?
Solución
2n n
Xi X i
Ambos estimadores de µ propuestos, X 1 i 1
y X2 i 1
, son
2n n
estimadores insesgados, ya que son medias muestrales con 2n y n observaciones
muestrales respectivamente. Luego, será mejor estimador el que tenga menor
varianza.
Teniendo en cuenta que E(Xi) = µ y Var(Xi) = σ2, por definición de muestra
aleatoria, hay que hallar sus varianzas y compararlas.
2n 2n 2n
Xi V ( X i ) 2
2n 2 2
V ( X 1 ) V i 1 i 1
i 1
2n ( 2 n) 2 ( 2 n) 2 ( 2n ) 2 2n
n n n
Xi V ( X ) 2
i
n 2 2
V ( X 2 ) V i 1 i 1
i 1
n n2 n2 n2 n
139
7. Sea X1, X2,…..,Xn, una muestra aleatoria de una variable aleatoria X con
distribución uniforme en el intervalo [α, α + 1].
a) Demuestre que la media muestral x = ̂ es un estimador sesgado de α.
b) Calcule el error cuadrático medio del estimador ̂ x .
Solución
n n n
2 1
Xi E( X i ) 2 1
E (ˆ ) E ( x ) E i 1 2 1
i 1
i 1
n n n 2 2
Luego: ̂ = x es un estimador sesgado de α. Rpta.
b) El error cuadrático medio del estimador ̂ x esta dado por:
n n n
1
Xi V ( X ) 12 i
V (ˆ ) V ( X ) V i 1 n 1
i 1
i 1
n n 2
n 2
12n 2
12n
Reemplazando la varianza de ̂ y la esperanza de ̂ en (b) se tiene:
2
1 1 1 1 1 3n
ECM (ˆ ) Rpta.
12n 2 12n 4 12n
V ( X 1 ) V ( X 2 ) .... V ( X 7 ) 2 2 .... 2 7 2
V ˆ1 2
= 0.14 σ2.
7 49 49
2 2 V ( X 1 ) V ( X 6 ) .V ( X 4 ) 4 2 2 2 6 2
V 2
ˆ 2
= 1.5 σ2.
2 4 4
9. Suponga que ˆ 1 y ˆ 2 son estimadores de con E(ˆ 1) = , E( ˆ 2) = , Var ( ˆ 1
2
) = 6 , Var ( ˆ 2 ) = 2. ¿Cuál es mejor estimador de ? ¿por qué?
Solución
De los dos estimadores, es mejor el que tiene menor error cuadrático medio.
2
ˆ ˆ ˆ
Sabemos que: ECM (i ) V (i ) E (i ) .
8
2 2
2
ECM (ˆ2 ) V (ˆ2 ) E (ˆ2 ) 2
2 4
8 2
ECM (ˆ1 ) ECM (ˆ2 ) → 6 4 → 24 < 8 + 2 → 2 > 16 → 4 .
28
2
2 2
ECM (ˆ1 ) V (ˆ1 ) E (ˆ1 ) 7
2 4
54 4
2
2 2
ECM (ˆ2 ) V ( ˆ2 ) E (ˆ2 ) 6
3 9
28 2 54 4 2
ECM (ˆ1 ) ECM (ˆ2 ) → → 252 + 9 β2 < 216 + 16 β2
4 9
→
6 7
36 < 7 β2 → 7 β2 > 36 →
7 .
6 7
Si
el estimador ̂2 es mejor estimador de β que ̂1 .
7 , Rpta.
22
Por lo tanto el valor a = minimiza la varianza de ˆ . Rpta.
12 22
12. Sea X una variable aleatoria con media y varianza σ2. Dadas dos muestras
aleatorias de tamaños n1 y n2 con medias muestrales X 1 y X 2 respectivamente.
.
b) Asumiendo que X 1 y X 2 son independientes, hallar el valor de a que
minimiza la varianza de X .
Solución
a) E( X ) = E[ aX 1 (1 a) X 2 ] = a E( X 1 ) + (1 – a) E( X 2 ) =
= a + (1 – a) = .
Entonces, X es un estimador insesgado de . L.Q.Q.D.
143
b) V( X ) = V[ aX 1 (1 a) X 2 ] = a2 V( X 1 ) + (1 – a) 2 V( X 2 ) =
Reemplazando la varianza de las medias muestrales se obtiene:
2 2
V( X ) = a2 + (1 – a)2 = f(a)
n1 n2
Para hallar el valor de a que minimiza la varianza del estimador X , se toma
la derivada parcial de V( X ) con respecto a a y se iguala a cero. Así:
dV ( X ) 2 2
f’(a) = = 2a + 2(1 – a) (-1) = 0
da n1 n2
Para resolver la ecuación anterior se divide entre 2σ2 en ambos miembros y se
tiene:
a 1 a n1
- = 0 → an2 + an1 = n1 → a = , punto crítico.
n1 n2 n1 n 2
d 2V ( X ) 2 2
f’’(a) = = 2 + 2 .
da 2 n1 n2
Reemplazando el punto crítico encontrado en f’’(a) se tiene que:
2 2
f’’(a) = 2 +2 > 0 → a es un mínimo para la V( X ).
n1 n2
n1
Por lo tanto el valor a = minimiza la varianza de X . Rpta.
n1 n 2
13. En base a una muestra aleatoria de tamaño n de una distribución Poisson con
parámetro , se pide:
a) Determinar el estimador máximo verosímil del parámetro .
b) Es eficiente el estimador obtenido para el parámetro ?
Solución
Sea X1, X2, .... , Xn, una m.a. de una distribución X ~ Poisson( ). Entonces:
X e
i
144
n
Xi
i 1
e n
L = Ln V() = Ln n
Xi !
i 1
n n n n
L= X i Ln n Ln e ln X i ! =
i 1
i 1
X i Ln n ln X i !
i 1 i 1
L Xi X i
i 1
n0 → i 1
= x Rpta.
n
b) ¿Es eficiente el estimador de ?
Será eficiente si es insesgado y de varianza mínima.
1 n 1 n n
E ( )
n i 1
E ( X i )
n i 1
n
Por lo tanto = x es un estimador insesgado para .
Es de varianza mínima si: V( ) = B()
λ 1
V ( λ) , B( ) 2
n
nE ln f ( x, )
X e
f(X, ) =
X!
ln f(X, ) = X ln - ln e – ln X ! = X ln - - ln X !
X ( X )
ln f ( X , ) 1
2
( X )²
ln f ( X , )
²
2
1 1 1
E ln f ( X , ) E ( X )² V ( X ) 2
² ²
Luego:
1
B( ) V ( ) .
1 n n
n .
Por lo tanto = x es un estimador de varianza mínima.
145
Como = x es un estimador insesgado y de varianza mínima, es un
estimador eficiente para .
Sea X1, X2, .... , Xn, una m.a. de una variable X ~ Geométrica (p). Entonces:
f X ( X i ) p(1 p) X 1 ; X i 1, 2,3,.... i 1, 2,3,...., n
Luego la función de verosimilitud será:
n
n Xi n
V ( p) f ( X1 , X 2 ,...., X n ) p(1 p) X i 1
p (1 p) i1
n
i 1
Xi n
n
= n Ln p X i n Ln (1 p)
n
L = Ln V(p) = Ln p (1 p)
n i 1
i 1
n
L n X i n
n 1
i 1
0 → pˆ Rpta.
p p 1 p n
X
X
i
i 1
15. En base a una muestra aleatoria de tamaño n de una distribución normal N(µ, σ2
) se pide:
a) Determinar el estimador máximo verosímil de µ y σ2.
b) Es eficiente el estimador del parámetro µ?
Solución
Sea X1, X2, .... , Xn, una m.a. de una distribución X ~ N(μ , σ2 ) . Entonces:
1
1 ( X i )2
f (Xi ) e 2 2
; X i ; i 1,2,....,n
2 2
La función de verosimilitud es:
n 1 n
1 2 2 2
1 ( X i ) 2
n
1 ( X i )2
2 2
i 1
V(,²) = f(X1, X2, X3 ,…, Xn) = e = e
2 2 2
2
i 1
n 1 n
1 2 2 2
i 1
( X i )2
L = Ln V(,²) = Ln e
2
2
146
=
n
Ln1 Ln ( ²2 ) 1 ( X i )² Ln e
2 2 ²
n n 1 n
L=
2
Ln ² Ln 2
2 2 ²
(X
i 1
i )²
n n
Luego: (X
i 1
i ) 0 ó X
i 1
i n 0
X i
Por lo tanto: μ= i 1
X Rpta.
n
Determinación del estimador de σ2
L n 1 n
2
2 ² 2( ²)²
(X
i 1
i )² = 0 →
n
1 n
2( ²)²
( Xi )² 2 ²
i 1
n n
( X i )² 2( ²)² ( Xi ) 2
→ i 1
→ ² i 1
Rpta.
n 2 ² n
b) ¿Es eficiente el estimador de μ?
Será eficiente si es insesgado y de varianza mínima.
n
X i
1 n 1 n n
E( X ) i 1
E X i E( X i )
n n i 1 n i 1 n
Por lo tanto μ = X es un estimador insesgado para μ.
1 2
Es de varianza mínima si: B( ) 2
V ( X )
n
nE ln f ( x, )
1 X
2
1
2
f(X, ) = e
2 2
1 X
2
Ln f(X,) = Ln1-Ln 2 Ln e
2
2
147
1 X
2
= - Ln 2 2
2
1 ( X )
ln f ( X , ) (2) ( X )(1) =
2 ² ²
1 1 1 ²
B ( ) = =
( X )
2
( X )² n
( ²)
n
n E n E
² ( ²)² ( ²)²
V (X )
Por lo tanto μ = X es un estimador de varianza mínima.
Como μ = X es un estimador insesgado y de varianza mínima, es un
estimador eficiente para μ. Rpta.
16. En base a una muestra aleatoria de tamaño n de la distribución de Pareto
determine el estimador máximo verosímil del parámetro B.
Solución
Sea X1, X2, .... , Xn, una m.a. de una variable X ~ Pareto (B) . Entonces:
BX 0B
fX (Xi ) , X i X 0 , i 1, 2,...., n . Donde: B = Coeficiente de Pareto > 0 y
X iB 1
Xo = Ingreso mínimo.
La función de verosimilitud es:
n
BX 0B B n X 0nB
V(B) = f(X1 , X2 , ....,Xn ) =
X iB 1 n
i 1
X iB1
i 1
B n X 0nB n
L = Ln V(B) = Ln n
n LnB nB LnX 0 ( B 1) Ln X i
X
i 1
i
B 1 i 1
L n n
n n
n Ln X 0 Ln X i 0 Ln X i n Ln X 0
B B i 1 B i 1
n n n
n
Ln X i Ln X 0 Ln ( X i / X 0 )
B i 1 i 1 i 1
148
n
Bˆ n
Rpta.
Ln ( X
i 1
i / X0)
17. En base a una muestra aleatoria de tamaño n de una distribución Lognormal con
parámetros (µ, σ2). Se pide:
a) Determinar el estimador máximo verosímil de los parámetros µ y σ2.
b) Se sabe que el ingreso familiar anual (en miles de soles) tiene
aproximadamente distribución Lognormal. Determine una estimación de µ
con los ingresos de 20 familias escogidas al azar siguientes:
10 50 40 8 12 15 10 25 14 32
18 61 16 9 11 19 21 27 25 30
Solución
Sea X1, X2, .... , Xn, una m.a. de una variable X ~ Lognormal (µ, σ2). Entonces:
1
fX (Xi ) e ( L n X i ) / 2 2
; X i 0, i = 1, 2, ...., n.
2
X i 2 2
Luego la función de verosimilitud será:
n
1
V(µ, σ2) = f ( X1, X 2 ,...., X n ) X e ( L n X i ) / 2 2
2
=
i 1 i 2 2
n n
1
1 2 ( L n X i )2 / 2 2
= n 2 2 e
i 1
; X i 0, i = 1, 2, 3, .... , n.
Xi
i 1
n n
1
1 2 ( L n X i )2 / 2 2
i 1
L = Ln V(,²) = Ln n 2 2 e
Xi
i 1
n
= Ln1 Ln X i
n
Ln1 Ln ( ²2 ) 1 ( Ln X i )² Ln e
i 1 2 2 ²
n n
n n 1
L = Ln X i Ln ² Ln 2 ( Ln X )²
2 ²
i
i 1 2 2 i 1
L 1 n
2 ²
(2) (1) (Ln X
i 1
i ) 0
149
n n
Luego: ( Ln X i ) 0
i 1
ó Ln X
i 1
i n 0
Ln X
i 1
i
Por lo tanto: μ= Rpta.
n
Determinación del estimador de σ2
L n 1 n
2
2 ² 2( ²)²
( Ln X
i 1
i )² = 0 →
1 n
n
( Ln X i )²
2( ²)²
→
2( ²)² i 1
( Ln Xi )²
2 ²
→ i 1
n
2 ²
n
( Ln Xi ) 2
Por lo tanto: ² i 1
Rpta.
n
b) Estimación de µ con los ingresos de las 20 familias:
n
Ln XLn10 Ln 50 Ln 40 .... Ln 25 Ln 30
i
μ= i 1
= 2.9538 Rpta.
n 20
18. Basados en una muestra aleatoria de tamaño n, hallar el estimador de momentos
para el parámetro , de la distribución de Poisson.
Solución
Sea X1, X2, .... , Xn, una muestra aleatoria de una variable X ~ Poissón ()
Como hay un solo parámetro a estimar, basta plantear una ecuación basada en el
primer momento.
Es decir, M1’ = E (X).
Sabemos que para la distribución Poisson E(X) = . Entonces:
n n
Xi X i
M
'
1
i 1
E ( X ) ˆ i 1
X Rpta.
n n
19. Sea X una variable aleatoria con distribución uniforme en el intervalo [-a , 3a].
Hallar el estimador de a por el método de los momentos, basado en una muestra
aleatoria de tamaño n de X.
Solución
150
Sea X1, X2, .... , Xn, una muestra aleatoria de una variable X ~ uniforme en el
intervalo [ -a , 3a ]. Como el único parámetro es a, basta plantear una ecuación
basada en el primer momento.
Es decir, M1’ = E (X).
Sabemos que para la distribución uniforme en el intervalo [a, b], E(X) = (a +
b)/2. Luego: en el intervalo [ -a , 3a ], E(X) = a. Por lo tanto:
n n
Xi X i
M
'
1
i 1
E ( X ) a aˆ i 1
X Rpta.
n n
Sea X1, X2, .... , Xn, una muestra aleatoria de una variable X ~ N(, σ2). Como
la distribución tiene dos parámetros, es necesario igualar los dos momentos
muestrales y poblacionales correspondientes. Es decir:
M1’ = E (X) ….. (1)
M2’ = E (X2) …. (2)
En la distribución normal E (X) = y E (X2) = σ2 + 2. Reemplazando en las
ecuaciones anteriores se tiene:
n n
X i X i
En (1): M '
1
i 1
E ( X ) ˆ i 1
X Rpta.
n n
n
X i
2
En (2): M 2' i 1
E( X 2 ) 2 2
n
Como la media muestral es un estimador de la media poblacional , la
reemplazamos en la expresión anterior para hallar el estimador de σ2.
n
X i
2
2 2 2 X 2 i 1
n
n n n
X i2 X i2 nX 2 (X i X )2
̂ 2 i 1
X2 i 1
i 1
Rpta.
n n n
151
4.7 PROBLEMAS PROPUESTOS
2. Suponga que tiene una muestra de tamaño n de una población X con E(X) = µ y
n2 n
X i X i
2
Var(X) = σ . Sean X 1 i 1 y X2 i 1
dos estimadores de µ, ¿cuál es
n2 n
el mejor estimador de µ?
3. Los pesos netos (grs.) en una muestra aleatoria simple de diez latas de conserva
fueron los siguientes: 159, 162, 159, 158, 156,157, 157, 163, 158, 161
a) ¿Cuál es la estimación puntual del peso neto medio poblacional de las latas de
conserva?
b) ¿Cuál es la estimación puntual de la desviación estándar poblacional del peso
neto de las latas de conserva?
4. Realizada una encuesta de opinión, a una muestra aleatoria simple de 800
ciudadanos, en la pregunta, ¿Está usted de acuerdo con la gestión del Alcalde de
la ciudad? 260 responden que Sí, 440 que No y el resto No sabe/No opina.
a) ¿Cuál es la estimación puntual de la proporción de la población que Si está de
acuerdo con la gestión del Alcalde de la ciudad?
b) ¿Cuál es la estimación puntual de la proporción de la población que No está de
acuerdo con la gestión del Alcalde de la ciudad?
5. Sea X1, X2, …. , X10 una muestra aleatoria de una población con media µ y
varianza 2. Considere los siguientes estimadores de µ:
ˆ1 = (X1 + X2 + …. + X10 ) / 10 ; ˆ2 = ( X1 + 3 X5 - X10 ) / 3
a) ¿Son estimadores insesgados? y b) ¿Cuál es mejor estimador de µ?
152
7. Suponga que ̂1 y ̂ 2 son 2 estimadores de β con: E ( ̂1 ) = β /2, E ( ̂ 2 ) = β
9. Sea Y una variable aleatoria con media y varianza σ2. Dadas dos muestras
aleatorias de tamaños n1 y n2 con medias muestrales y1 y y2 respectivamente.
minimiza la varianza de Y .
10. En base a una muestra aleatoria de tamaño m de la distribución binomial con
parámetros n y p, determine el estimador máximo verosímil de dichos
parámetros.
11. En base a una muestra aleatoria de tamaño n de la distribución de Pascal o
binomial negativa, determine el estimador máximo verosímil del parámetro p.
12. En base a una muestra aleatoria de tamaño n de la distribución gamma con
parámetros α = 2 y β, determine el estimador máximo verosímil del parámetro β.
13. En base a una muestra aleatoria de tamaño n de la distribución exponencial con
parámetro λ, se pide:
a) Determinar el estimador máximo verosímil del parámetro λ.
b) Es eficiente el estimador obtenido para el parámetro ?
14. Basados en una muestra aleatoria de tamaño n, hallar el estimador de momentos
para el parámetro p, de la distribución Bernoulli.
15. Basados en una muestra aleatoria de tamaño n, hallar el estimador de momentos
para el parámetro p, de la distribución Geométrica.
16. Basados en una muestra aleaatoria de tamaño m, hallar el estimador de
momentos para el parámetro p, de la distribución binomial.
153
17. Basados en una muestra aleatoria de tamaño n, hallar el estimador de momentos
para el parámetro p, de la distribución Pascal o binomial negativa.
18. Sea X una variable aleatoria con distribución uniforme en el intervalo [-2, 2a].
Basado en una muestra aleatoria de tamaño n, halle el estimador de a por el
método de los momentos.
19. En base a una muestra aleatoria de tamaño n de la distribución gamma con
parámetros α = 2 y β, determine el estimador de momentos del parámetro β.
20. En base a una muestra aleatoria de tamaño n de la distribución de Pareto
determine el estimador de momentos del parámetro B.
154
Capítulo 5. ESTIMACIÓN POR INTERVALOS DE
CONFIANZA
155
Definición.- El procedimiento de determinar un intervalo [a, b] que comprenda un
parámetro poblacional θ con cierta probabilidad 1 - α, se llama estimación por
intervalos. En general, para cualquier parámetro θ y su estimador ˆ , el intervalo de
confianza será:
ˆ ˆ
1 P(a b) P(ˆ kˆ ˆ kˆ ) P
k1 k2
Donde:
a = Límite inferior del intervalo de confianza.
b = Límite superior del intervalo de confianza.
k = una constante positiva que corresponde al valor de la distribución del estimador
para una probabilidad 1 – α.
1 - α = Nivel de confianza (probabilidad de que el parámetro poblacional este
comprendido en el intervalo) cuyo valor se toma de 0.90, 0.95 o 0.99.
Ejemplo 1.-
156
Resumiendo, los extremos del intervalo son variables aleatorias, mientras que el
parámetro a determinar es constante.
Los pasos a seguir para construir intervalos de confianza para un parámetro, son:
Se verán los casos paramétricos, es decir aquellos en los que se tiene conocimiento
del tipo de distribución de la población o del estimador (Bernoulli, Binomial,
Poisson, Normal, t, chi-cuadrado, F, etc.) los mismos que estudiamos en los capítulos
2 y 3.
Trabajaremos primero un Caso General con muestras grandes (n ≥ 30) los intervalos
de confianza para la media , la proporción P, la diferencia de medias X - Y, la
diferencia de proporciones P1 – P2, los totales conocida la media y la proporción, ya
que sus estimadores tienen distribución normal y la determinación de los intervalos
de confianza para cada uno de ellos es similar.
ˆ
Es decir, que sí ˆ ~ N[θ, 2ˆ ] entonces: Z ~ N ( 0, 1 ). Así tenemos:
ˆ
( X )
Media: X N (, 2 / n) y Z ~ N(0,
/ n
1).
NX N
Total: Xˆ Nˆ NX N N , N 2 X2 y Z
N X
~ N(0, 1)
157
X Y ( X Y ) )
Dif. Medias: X - Y ~ N( X Y , X2 Y ) y Z ~ N(0 , 1)
X Y
X i
X PQ pP
Proporción: p i 1
N P, y Z ~ N(0, 1)
n n n PQ
n
Np NP
Total: Aˆ NPˆ Np N NP, N 2 p2 y Z
N p
~ N(0, 1)
p1 p2 ( P1 P2 )
Dif. Proporc.: p1 – p2 ~ N(P1 – P2 , p21 p2 ) y Z ~ N(0 ,
p p
1 2
1)
1 – α = P [ - Z0 Z Z0 ] ..................... (1)
Donde los valores Z0 son simétricos, de modo tal que centralizan la probabilidad 1 -
α y se determinan como Z0 = Z , cuyos valores son ubicados en la tabla de la
1
2
1-α 1 – α/2 Z0 = Z
1
2
ˆ
Reemplazando la v.a. Z en (1) y trabajando con la desigualdad buscando
ˆ
dejar al centro el parámetro θ, la probabilidad queda como:
ˆ
1 – α = P [ - Z0 Z Z0 ] = P [ - Z Z ]
1
2
ˆ 1
2
158
1–α =P[- Z ˆ ˆ - θ Z ˆ ]
1 1
2 2
Resumimos el Caso General, señalando que para obtener intervalos del 100 (1 - α)%
de confianza para parámetros θ, cuyo estimador sigue distribución normal ˆ ~ N[θ,
2ˆ ], al valor del estimador ˆ se le debe restar o sumar el error de estimación E = ±
Z0 ˆ .
Media : X Z X , X Z X
1 1
2 2
Total : N N X N Z X , N X N Z X
1 1
2 2
Proporción : P p Z p , p Z p
1 1
2 2
Total : N P N p N Z p , N p N Z p
1 1
2 2
159
Dif. Medias : X Y ( X Y ) Z X Y , ( X Y ) Z X Y
1 1
2 2
Dif. Proporc. : P1 P2 ( p1 p2 ) Z p1 p2 , ( p1 p2 ) Z p1 p2
1 1
2 2
Sea X1, X2, .............., Xn una muestra aleatoria de tamaño n de una población X
distribuida con media desconocida y varianza 2 conocida.
N n N n
X Z , X Z al 100(1 – α ) % de
1
2
n N 1 1
2
n N 1
confianza.
160
Donde el error de estimación E para la media es:
N n
E Z ó E Z
1
2 n 1
2 n N 1
La longitud del intervalo de confianza para la media es 2E.
Ejemplo 2
Se hace un estudio de mercado, para determinar la venta promedio de una
nueva marca de gaseosas, durante un mes en una cadena de tiendas. Los
resultados para una muestra de 36 tiendas indicaron ventas promedio de S/1000
con una desviación estándar de S/120. Calcule e interprete un intervalo de
confianza del 95% para la verdadera venta promedio en la cadena de tiendas.
Solución
Entonces:
n0
n
n
1 0
N
Ejemplo 3
En el estudio de mercado del ejemplo 2, para estimar la venta promedio
mensual de una nueva marca de gaseosas, ¿Qué tamaño de muestra debe
tomarse, si se desea que difiera de µ en menos de S/. 30, con el 95 % de
confianza?
Solución
Entonces:
Z 2 2 1.96 2 x120 2
n0 61 tiendas. Rpta.
E2 30 2
Sea X1, X2, .............., Xn una muestra aleatoria de tamañazo n de una población X
de tamaño N, distribuida con media desconocida y varianza 2 conocida.
NX N
Xˆ Nˆ NX N N , N 2 X2 y Z ~ N(0, 1)
N X
162
NX N
1 – α = P [ - z0 Z z0 ] = P Z Z
1 N / n 1
2 2
1 – α = P NX NZ N NX NZ
1 1
n
2
n 2
N NX NZ , NX NZ con el 100 (1 – α ) % de
1 1
2
n 2
n
confianza.
N n N n
N NX NZ , NX NZ
1
2
n N 1 1
2
n N 1
al 100(1 – α ) % de confianza.
Ejemplo 4
163
En el ejemplo 2, se ha determinado que la verdadera venta media mensual de
gaseosas en la cadena de tiendas es: Є [960.80, 1039.20] S/. con el 95% de
confianza.
Entonces, para hallar los límites de confianza para la real venta total mensual
de gaseosas, se multiplica a los límites anteriores por 1000. Es decir,
Sea X1, X2, ..............,Xn una muestra aleatoria de tamañazo n de una población
binomial X con parámetro P.
Sabemos que el estimador de la proporción poblacional P , es la proporción
muestral p, y que para n suficientemente grande (n ≥ 30) por el teorema central del
límite:
n
X i
X PQ pP
p i 1
N P, y Z ~ N(0, 1)
n n n PQ
n
Entonces, para un nivel de confianza 1 – α, se tiene que:
pP
1 – α = P [ - Z0 Z Z0 ] = P Z Z
1 PQ 1
2 2
n
Trabajando como en el caso general y dejando al centro de la desigualdad la
proporción poblacional P, se obtiene:
PQ PQ
1 – α = P p Z P p Z
1
2
n 1
2
n
164
PQ PQ
Pp Z , pZ con el 100 (1 – α ) % de confianza.
1 n 1 n
2 2
X i
X PQ pP E
Se sabe que: p i 1
N P, → Z
n n n PQ PQ
n n
Elevando al cuadrado y despejando n se obtiene el tamaño inicial de muestra
siguiente:
Z 2 PQ
n0
E2
Donde:
Z = valor de la abscisa de la distribución normal estándar para un nivel de
confianza (1 – α) dado.
P = proporción de éxitos para la variable en estudio. Si se desconoce se estima
con una muestra pasada o reciente (p). Q = 1 – P.
E = |p - P| = error máximo permisible.
Si la fracción inicial de muestreo f = n0 / N ≤ 0.05 ó n0 ≤ 0.05N → n = n0.
Si f = n0 / N > 0.05 es necesario el factor de corrección para poblaciones
finitas y se ajusta el tamaño de muestra así:
n0
n
n
1 0
N
165
Ejemplo 5
El auditor de una dependencia gubernamental de protección del consumidor,
quiere determinar la proporción de reclamos sobre pólizas de enfermedades
que paga el seguro, en un plazo de dos meses de haber recibido el reclamo. Se
selecciona una muestra aleatoria de 200 reclamos y se determina que 80 fueron
pagados en un plazo de 2 meses después de recibidos. a) Calcule e interprete
un intervalo del 99 % de confianza para la proporción real de reclamos pagados
dentro de ese plazo de dos meses; y b) Con un 95% de confianza, ¿qué tamaño
de muestra (reclamos) será necesario si desea cometer un error máximo del
5%?
Solución
a) n = 200, X = 80, 1 – α = 0.99, Z0 = Z 0.995 = 2.575
p = proporción muestral de reclamos pagados en el plazo de dos meses.
X 80
p 0.4 , q = 1 – p = 0.6
n 200
El intervalo de confianza para la verdadera proporción poblacional P de
reclamos pagados en plazo de dos meses, es:
pq pq
P p Z , pZ
1 n 1 n
2 2
Sea X1, X2, ..............,Xn una muestra aleatoria de tamañazo n de una población
binomial X con parámetro P.
Sabemos que el estimador del total poblacional A = NP, es Np, y que para n
suficientemente grande (n ≥ 30) por el teorema central del límite:
Np NP
Aˆ NPˆ Np N NP, N 2 p2 y Z
N p
~ N(0, 1)
confianza.
Si las muestras se toman sin reposición de una población finita de tamaño N,
debe emplearse el factor de corrección por finitud y el intervalo será:
pq N n pq N n
NP Np NZ , Np NZ al 100 (1 – α ) % de
1
2
n N 1 1
2
n N 1
confianza.
167
Observe que si se quiere construir intervalos de confianza para el total poblacional,
basta con multiplicar por N los límites encontrados para la proporción poblacional; y
viceversa, si se conoce el intervalo de confianza para el total poblacional, entonces
dividirlo entre N para determinar los intervalos para la proporción poblacional.
Ejemplo 6
En el problema 6, si en la dependencia gubernamental de protección del
consumidor hay 5 000 reclamos sobre pólizas de enfermedades que paga el
seguro, en un plazo de dos meses de haber recibido el reclamo. Calcule e
interprete un intervalo del 99% de confianza para el total verdadero de
reclamos pagados dentro de ese plazo de dos meses.
Solución
Interpretación: el verdadero total de reclamos, sobre pólizas pagadas dentro del plazo
de dos meses de haber recibido el reclamo, se encuentra entre 1 555 y 2 445 reclamos
con el 99% de confianza.
Sea X1, X2, ..............,Xn una muestra aleatoria de tamañazo n de una población X de
tamaño N, distribuida con media X desconocida y varianza X2 conocida.
Sea también Y1, Y2, ..............,Ym una muestra aleatoria de tamañazo m de una
población X de tamaño M, distribuida con media Y desconocida y varianza
Y2 conocida.
Sabemos que el estimador de la diferencia de medias poblacionales X - Y es la
diferencia de medias muestrales X - Y , y que para n y m suficientemente grandes
(n y m ≥ 30) por el teorema central del límite:
168
X Y ( X Y ) )
X - Y ~ N( X Y , X2 Y ) y Z ~ N(0 , 1)
X Y
Entonces, para un nivel de confianza 1 – α, se tiene que:
X Y ( X Y )
1 – α = P [- Z0 Z Z0] = P Z Z
1 X Y 1
2 2
1 – α = P ( X Y ) Z X Y X Y ( X Y ) Z X Y
1 1
2 2
A partir del cual se deduce el intervalo de confianza para la diferencia de medias
poblacionales X - Y siguiente:
µX - µY ( X Y ) Z X Y , ( X Y ) Z X Y al 100 (1- α)% de conf.
1 1
2 2
Donde, el error estándar de la diferencia de medias muestrales X Y = Y X es:
X2 Y2 X2 N n Y2 M m
X Y o X Y
n m n N 1 m M 1
Si se desconoce las varianzas poblacionales, se estiman con las varianzas
muestrales y el error estándar de la diferencia de medias muestrales X Y es:
S X2 SY2 S X2 N n SY M m
2
X Y o X Y
n m n N 1 m M 1
Ejemplo 7
Muestras del pago por hora a los choferes de camiones, en las ciudades X e Y,
proporcionan los siguientes datos:
X = $ 5.40, n = 30, SX = $ 0.16 y Y = $ 5.30, m = 30, SY = $
0.15.
a) Calcule e interprete un intervalo del 95 % de confianza para la diferencia
entre los pagos medios por hora a los choferes de camiones de las dos
ciudades.
b) ¿Son iguales los pagos medios por hora en ambas ciudades?
Solución
169
a) Un intervalo de confianza para la diferencia de pagos medios por hora a los
choferes de ambas ciudades viene dado por:
X Y ( X Y ) Z X Y , ( X Y ) Z X Y ................ (1)
1 1
2 2
Si 1 – α = 0.95, entonces: Z0 = Z 0.975 = 1.96
170
Para n1 y n2 suficientemente grande (n1 y n2 ≥ 30) por el teorema central del
límite:
p1 p2 ( P1 P2 )
p1 – p2 ~ N(P1 – P2 , p21 p2 ) y Z ~ N(0 , 1)
p p
1 2
P1 – P2 ( p1 p2 ) Z p p , ( p1 p2 ) Z p p al 100 (1 – α ) % de
1 1
1 2 1 2
2 2
conf.
p1q1 N1 n1 p2 q2 N 2 n2
p p =
1 2
n1 N1 1 n2 N 2 1
171
Ejemplo 8
Una empresa de estudios de mercado quiere estimar las proporciones de
hombres y mujeres que conocen un producto promocionado a escala nacional.
en una muestra aleatoria de 100 hombres y 200 mujeres se determina que 20
hombres y 60 mujeres están familiarizados con el artículo indicado. a)
Calcular el intervalo de confianza de 95 % para la diferencia de proporciones
de hombres y mujeres que conocen el producto. b) ¿Son iguales las
proporciones de hombres y mujeres que conocen el producto?
Solución
X 1 20 X2 60
Entonces: p1 = 0.20 y p2 = 0.30
n1 100 n2 200
172
La diferencia P1 - P2 = 0 está incluida en el intervalo de confianza construido
en a), puede ser cero, es decir P1 - P2 = 0 o P1 = P2.
Por lo tanto, las proporciones de hombres y mujeres que conocen el producto
son iguales. Rpta.
Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n, de una variable aleatoria
X con distribución N(, ²), con varianza desconocida, al estudiar la
distribución t de student vimos que para muestras pequeñas, n < 30, la variable
aleatoria:
X
T ~ tn-1
S/ n
Esta variable aleatoria depende de valores conocidos con la información
muestral, entonces, dado un nivel de confianza 1 – α es posible hallar:
1 – α = P [ - t0 T t0 ] ..................... (1)
Donde los valores t0 son simétricos, de modo que centralizan la probabilidad 1
- α y se determinan como t0 = t , cuyos valores son ubicados en la tabla
1 , n 1
2
de la distribución t de student.
X
Reemplazando la variable aleatoria T en (1) y trabajando con la
S/ n
desigualdad buscando dejar al centro el parámetro , la probabilidad queda
como:
X
1 – α = P [- t0 T t0 ] = P [ - t0 t0]
S/ n
173
1 – α = P [- t0 S / n X t0 S / n ]
Restando el estimador X en la desigualdad
1 – α = P [- X - t0 S / n - - X + t0 S / n ]
Multiplicando por (-1) y manteniendo el sentido de la desigualdad, se tiene:
1 – α = P [ X - t0 S / n X + t0 S / n ]
A partir del cual se obtiene el intervalo de confianza para el parámetro ,
[ X - t0 S / n , X + t0 S / n ]
Reemplazando valores tenemos:
3.1 3.1
[5.2 – 2.064 x , 5.2 + 2.064 x ] = [5.2 ± 1.28]
25 25
Por lo tanto: [3.92 ; 6.48] días con el 95% de confianza.
Rpta.
174
Interpretación: en la Universidad el verdadero número medio de días de
enfermedad de los estudiantes en el año, se encuentra entre 3.92 y 6.48 días
con el 95% de confianza.
b) Para hallar el intervalo de confianza para el total se multiplica por N = 12 000
el intervalo de confianza para la media encontrado en a) y se obtiene:
Total = N [12 000 (3.92) , 12 000 (6.48) ]
Por lo tanto:
Total = N [47,040 ; 77,760 ] días con el 95% de confianza.
Rpta.
Interpretación: el verdadero número total de días que los estudiantes se
enferman en un año, se encuentra entre 47,040 y 77,760 días con el 95% de
confianza.
a = x2 y b = x2 ,
n 1 , n 1 , 1
2 2
Reemplazando la v.a. x 2
n 1S ² en (2) y trabajando con la desigualdad
²
buscando dejar al centro el parámetro ², la probabilidad queda como:
1 – α = P [ a x2 b ] = P [ a
n 1S ² b]
²
175
Dividiendo entre (n – 1) S2 tenemos:
a 1 b
1 – α = P 2 2
(n 1)S
2
(n 1)S
Tomando el inverso dentro de la probabilidad y buscando mantener el sentido
de la desigualdad, se tiene que:
(n 1) S 2 (n 1) S 2
1 – α = P 2
b a
Luego se tiene que el intervalo de confianza para la varianza ², está dado por:
(n 1) S 2 (n 1) S 2 (n 1)S 2 (n 1)S 2
² , = 2 , 2 al 100 (1 – α)% de
b a xn 1 , 1 / 2 xn 1 , / 2
confianza.
Un intervalo de confianza para la desviación estándar se obtiene sacando raíz
cuadrada a cada uno de los límites del intervalo anterior, entonces:
confianza
Ejemplo 10
Para el ejemplo 9, en la Universidad grande se estudia el número de días que
los estudiantes se enferman durante el año académico, una muestra de 25
estudiantes indica que x = 5.2 días y S = 3.1 días.
Calcule e interprete intervalos de confianza del 95% para la varianza y la
desviación estándar del número de días que los estudiantes se enferman.
Solución
(n 1) S 2 (n 1) S 2
² ,
b a
Como n = 25 y 1 – α = 0.95, entonces:
2 2
a = x24 , 0.025 = 12.4 y b = x24 , 0.975 = 39.4
S X2 Y2
1–α =P[c F d]=P[c d]
SY2 X2
177
SY2
Multiplicando en la desigualdad por se tiene que:
S X2
SY2 Y2 SY2
1–α =P[c d ]
S X2 X2 S X2
Tomando el inverso dentro de la probabilidad y buscando mantener el sentido de la
desigualdad, obtenemos:
1 S X2 X2 1 S X2
1–α =P[ ]
d SY2 Y2 c SY2
1 S X2 X2 1 S X2
1–α =P[ ]
F SY 2
Y 2
F SY2
n 1, m 1,1 n 1, m 1,
2 2
2
X2 S X2 / S Y2 S X2 / S Y2 S X / SY
2
S X2 / SY2
; = F ; al 100 (1 – α)% de
Y2 d c F
n 1,m1,1 n 1, m 1,
2 2
conf.
Ejemplo 11
Se hacen 16 ensayos para cada uno de los tratamientos X e Y, con las siguientes
varianzas maestrales S X2 = 35 y SY2 = 10. a) Calcule e interprete un intervalo del
X2 S X2 / S Y2 S X2 / S Y2
a) El intervalo de confianza solicitado es: ;
Y2 d c
178
X2
35 / 10 35 / 10
; = [1.22; 10.03] con el 95% de confianza. Rpta.
Y 2
2.86 0.349
Interpretación: la razón de varianzas de las poblaciones X e Y se encuentra entre
1.22 y 10.03 con el 95% de confianza.
X2
Si en el intervalo de confianza para la razón de varianzas = 1, las varianzas
Y2
son iguales (homogéneas) caso contrario, son diferentes (heterogéneas)
Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n, de una variable
aleatoria X con distribución N(X, ²). Sea también Y1, Y2, ..., Ym una
muestra aleatoria de tamaño m de una variable aleatoria Y, con distribución
N(Y, ²). De acuerdo a lo estudiado en la distribución t de student vimos que
para muestras pequeñas, n < 30 y m < 30, la variable aleatoria:
179
T
X Y X Y ~ t n+m-2
n 1S X2 m 1SY2 1 1
nm2 n m
(n1 1) S X2 (n2 1) SY2
El estimador de la varianza común ² es: S c2 S p2
n1 n2 2
representa la varianza combinada (o ponderada) de las varianzas muestrales.
Esta variable aleatoria depende de valores conocidos con la información
muestral, entonces, dado un nivel de confianza 1 – α es posible hallar:
1 – α = P [ - t0 T t0 ] ..................... (4)
Los valores t0 son simétricos, de modo tal que centralizan la probabilidad 1 -
α y se determinan como t0 = t , cuyos valores son ubicados en la
1 , nm 2
2
1 – α = P [- t0 T t0] = P [- t0
X Y X Y
t0]
1 1
Sc
n m
Trabajando con la desigualdad buscando dejar al centro el parámetro X - Y,
de manera similar a los intervalos anteriores, la probabilidad queda como:
1 1 1 1
1 – α = P [ ( X - Y ) - t0 S c X - Y ( X - Y ) + t0 S c ]
n m n m
A partir del cual se tiene que el intervalo de confianza para la diferencia de
medias poblacionales X - Y está dado por:
1 1
X - Y [( X - Y ) t0 S c ] al 100(1- α )% de confianza.
n m
Ejemplo 12
Se compararon dos marcas de cigarrillos, X e Y, respecto a su contenido
medio de nicotina en miligramos; dos muestras aleatorias de 21 cigarrillos de
cada marca, dieron estos resultados:
X = 14.3, n = 21, SX = 2.9 y Y = 15.7, m = 21, SY = 3.8.
180
a) Calcule e interprete un intervalo del 95 % de confianza para la diferencia
entre los contenidos medios de nicotina para las dos marcas de cigarrillos. b)
¿Son iguales los contenidos medios de nicotina?
Solución
a) Primero determinamos si las varianzas son iguales con el intervalo de confianza
X2 S X2 / S Y2 S X2 / S Y2
para la razón de varianzas: 2 ;
Y d c
X2
Dado que el intervalo toma el valor 1, es decir = 1, entonces X2 = Y2 .
Y2
Considerando que las muestras son pequeñas y que las varianzas del contenido de
nicotina son iguales, el intervalo de confianza para la diferencia entre los
contenidos medios de nicotina para las dos marcas de cigarrillos está dado por:
(n 1) S X2 (m 1) SY2 1 1
X - Y [ ( X - Y ) t0 ]
nm2 n m
Datos del problema:
X = 14.3, n = 21, SX = 2.9 y Y = 15.7, m = 21, SY = 3.8.
Como n = m = 21, los grados de libertad de la t son n + m – 2 = 21 + 21 – 2 =
40
Si 1 – α = 0.95, t0 = t40 , 0.975 = 2.021.
Reemplazando valores en la fórmula para el intervalo de confianza, tenemos que:
Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n, de una variable
aleatoria X con distribución N(X, X2 ). Sea también Y1, Y2, ..., Ym una
muestra aleatoria de tamaño m de una variable aleatoria Y, con distribución
N(Y, Y2 ). Si las varianzas son diferentes, se cumple que:
T
X Y X Y
~ tH
2 2
S S
X
Y
n m
2
S12 S22
Donde: H 12
n n2
2
(valor entero) representa los grados de libertad.
S12 S22
n1 n2
n1 1 n2 1
Esta variable aleatoria depende de valores conocidos con la información
muestral, entonces, dado un nivel de confianza 1 – α es posible hallar:
1 – α = P [ - t0 T t0 ] ..................... (5)
Los valores t0 son simétricos, de modo tal que centralizan la probabilidad 1 -
α y se determinan como t0 = t , cuyos valores son ubicados en la tabla 3
1 , H
2
de la distribución t de student.
S X2 S Y2 S X2 S Y2
1 – α = P [ ( X - Y ) - t0 X - Y ( X - Y ) + t0 ]
n m n m
A partir del cual se tiene que el intervalo de confianza para la diferencia de
medias poblacionales X - Y está dado por:
S X2 S Y2
X - Y [( X - Y ) t0 ] al 100(1- α )% de confianza.
n m
Ejemplo 12
En un estudio para determinar si hay diferencia en el salario semanal de los
hombres y las mujeres de una gran empresa, se toma una muestra de 18
hombres encontrándose un promedio de S/. 420 y una desviación estándar de
S/. 50, mientras que en una muestra de 15 mujeres se encontró un promedio
de S/. 360 y una desviación estándar de S/. 90. Se pide:
a) Calcule e interprete un intervalo del 95 % de confianza para la diferencia
entre los salarios medios semanales de hombres y mujeres.
b) ¿Son iguales los salarios medios semanales de hombres y mujeres?
Solución
183
H2
2500 / 8100 2500 / 8100
; = [0.11; 0.85] con el 95% de
M2
2.90 0.364
confianza.
H2
Dado que el intervalo no toma el valor 1, es decir ≠ 1, entonces H2 ≠
M2
M2 .
Considerando que las muestras son pequeñas y que las varianzas de los
salarios semanales de hombres y mujeres son diferentes, el intervalo de
confianza del 95% para la diferencia de los salarios medios de hombres y
mujeres está dado por:
S H2 S M2
H - M [( X H - X M ) t0 ]
n H nM
Donde t0 = tH, 0.975 = t20, 0.975 = 2.086.
2
S H2 S M2 2500 8100
2
Donde: H =
n H nM
=
18 15
= 20.98 ≡ 20
2 2 2 2
S H2 S M2 2500 8100
n H nM 18 15
n H 1 nM 1 18 1 15 1
Reemplazando valores en el intervalo de confianza propuesto, se tiene:
2500 8100
H - M [(420 - 360) 2.086 x ] = [60 54.35]
18 15
Por lo tanto: H - M [5.65 ; 114.35] S/. con el 95 % de confianza.
Rpta.
184
INTERVALOS DE CONFIANZA PARA UN SOLO PARÁMETRO
2 (n 1) S 2 (n 1) S 2
La muestra es aleatoria de una población σ ϵ 2 , 2
normal. (1 , n 1) ( , n 1)
2 2
pˆ qˆ
La muestra es aleatoria y su tamaño es pˆ Z
1 n
grande (n ≥ 30) 2
185
INTERVALOS DE CONFIANZA PARA DOS PARÁMETROS
186
5.11 PROBLEMAS RESUELTOS
1. Demostrar que:
a) Las desigualdades µ - E ≤ x ≤ µ + E, son equivalentes a | x - µ | ≤ E
X
b) Si 1 P(Z1 / 2 Z Z1 / 2 ) y Z entonces:
/ n
1 P X Z X Z
1
2 n 1
2 n
Solución
a) En la desigualdad: µ - E ≤ x ≤ µ + E se resta µ en cada miembro y se
obtiene:
X
Z y se obtiene:
/ n
X
1 – α = P(Z1 / 2 Z1 / 2 )
/ n
1 – α = P Z X Z
1 2 n 1
2 n
Restando X en la desigualdad:
1 – α = P X Z X Z
1
2 n 1
2 n
1 – α = P X Z X Z
1
2
n 1
2
n
2. Se desea estimar el peso total de una partida de 10,000 naranjas. Para ello se
selecciona una muestra aleatoria de 41 naranjas, la cual da una media de 200
gramos y una desviación estándar de 25 gramos. Calcule e interprete intervalos
de confianza del 95 % para:
187
a) El verdadero peso promedio (μ), el peso total (Nμ) y la varianza verdadera
(σ2) de los pesos de las naranjas.
b) ¿Qué tamaño de muestra debe tomarse, si se desea que x difiera de µ en
menos de 13 gr. con el 99 % de confianza?
Solución
188
Reemplazando valores en el intervalo de confianza para la varianza, se tiene
que:
(41 1)(25) 2 (41 1)(25) 2
² ,
59.3 24.4
Por lo tanto:
² [421.59 ; 1024.59 ] (gr.)² con el 95% de confianza. Rpta.
Interpretación: la varianza del peso de las naranjas se encuentra entre 421.59 y
1024.59 (gr.)² con el 95% de confianza.
Z 2 2
b) El tamaño de muestra está dado por: n0
E2
Donde: | x - µ | = E = 13, 1 – α = 0.99 → en la Tabla 1, Z = Z0.995 = 2.575
y S = 25. Reemplazando en la fórmula para n se tiene:
2.575 2 25 2
n0 = 24.5 ≡ 25 naranjas. Rpta.
132
Interpretación.- para estimar el peso medio de las naranjas con el 99% de
confianza y un error máximo de 13 gramos se requiere de 25 naranjas.
189
12
E= Z 2.575 = 4.83 ml.
1 n 41
2
190
Datos: n = 75 clientes, X = 14.3 galones, S = 2.7 galones, 1 – α = 0.95 → En
la Tabla 1, Zo = Z0.975 = 1.96.
a) El error de estimación para la media E es:
2.7
E= Z 1.96 = 0.61 galones.
1 n 75
2
191
1.96 2 2.7 2
n0 = 112 clientes. Rpta.
0.52
Interpretación.- para estimar el consumo medio de gasolina con el 95% de
confianza y un error máximo de 0.5 galones se requiere una muestra de 112
clientes.
192
c) El intervalo de confianza para la varianza está dado por:
(n 1) S 2 (n 1) S 2
² ,
b a
Como n = 36 y 1 – α = 0.95, entonces en la Tabla 2:
2 2
a = x35 , 0.025 = 20.6 y b = x35 , 0.975 = 53.2
193
X Z , X Z …………. (1)
1 1
2 n 2 n
Donde el error de estimación para la media es:
1000
E= Z 1.96 = $ 326.67. Reemplazando en (1) se tiene:
1 n 36
2
(n 1) S 2 (n 1) S 2
² ,
b a
Como n = 36 y 1 – α = 0.95, entonces en la Tabla 2:
2 2
a = x35 , 0.025 = 20.6 y b = x35 , 0.975 = 53.2
194
Interpretación: con el 95% de confianza, la desviación estándar de los
depósitos a la vista en las cuentas se encuentra entre 811.11 y 1,303.47
dólares.
Z 2 2
d) El tamaño de muestra está dado por: n0
E2
Donde: | x - µ | = E = $ 150, 1 – α = 0.95 → en la Tabla 1, Z = Z0.975 =
1.96 y S = 1,000. Reemplazando en la fórmula para n se tiene:
(1.96) 2 (1,000) 2
n0 = 171 cuentas. Rpta.
(150) 2
Interpretación.- para estimar el depósito medio a la vista, con el 95% de
confianza y un error máximo de $ 150 se requiere una muestra de 171
cuentas.
Familias (ni) 20 10 7 6 4 3
Solución
X n i i
0 x20 1x10 2 x7 3x6 4 x4 5 x3 73
X i 1
= 1.46 hijos.
n 50 50
195
6 6
( X i X ) 2 ni X n nX 2
2
i i
231 50 (1.46) 2
S2 i 1
i 1
= 2.54 hijos2 y S =
n 1 n 1 50 1
1.594.
6
X
i 1
2
n 0 2 x20 12 x10 2 2 x7 32 x6 4 2 x4 5 2 x3 = 231
i i
196
X 30
p = 0.6, q = 1 – p = 0.4. El intervalo de confianza para la
n 50
verdadera proporción poblacional P de familias con menos de 2 hijos, es:
pq N n pq N n
Pp Z , pZ
1
2
n N 1 1
2
n N 1
8. En una muestra aleatoria de 1000 hogares de Lima Metropolitana (con 800 mil
consumidores de gas doméstico) se encontró que 650 están a favor de la reducción
del precio del gas doméstico.
a) Calcule e interprete un intervalo del 90% de confianza para la proporción y
otro para el total verdadero de hogares que están a favor de la reducción del
precio del gas doméstico.
b) Con un 95% de confianza, ¿qué tamaño de muestra será necesario si desea
cometer un error máximo del 5%?
Solución
197
Datos: N = 800,000 consumidores de gas, n = 1,000, X = 650 a favor de la
reducción del precio del gas, 1 – α = 0.90.
a) Para determinar el intervalo de confianza para la proporción de hogares que
están a favor de la reducción del precio del gas doméstico, si 1 – α = 0.90 →
En la Tabla 1, Zo = Z0.95 = 1.645.
Si p = proporción muestral de hogares que están a favor de la reducción del
X 650
precio del gas doméstico, entonces: p = 0.65, q = 1 – p = 0.35.
n 1000
El intervalo de confianza para la verdadera proporción poblacional P de
hogares que están a favor de la reducción del precio del gas doméstico, es:
pq pq
Pp Z , pZ
1 1
2
n 2
n
198
Reemplazando en la fórmula para el tamaño de muestra se tiene:
Z 2 pq 1.96 2 x0.65 x0.35
n0 350 hogares. Rpta.
E2 (0.05) 2
Interpretación.- para estimar la proporción de hogares que están a favor de la
reducción del precio del gas doméstico, con el 95% de confianza y un error
máximo del 5% se requiere una muestra de 350 hogares consumidores de gas.
10. Una muestra aleatoria de 500 compradores de un centro comercial se encontró que
300 compran alimentos y bebidas.
a) Calcule e interprete un intervalo del 99% de confianza para la proporción
verdadera de compradores que adquieren alimentos y bebidas.
b) Con un 99% de confianza, ¿qué tamaño de muestra será necesario si desea
cometer un error máximo del 4%?
Solución
200
a) Para hallar los límites de confianza para la proporción de compradores que
adquieren alimentos y bebidas, si 1 – α = 0.99 → En la Tabla 1, Zo = Z0.995 =
2.575.
Si p = proporción muestral de compradores que adquieren alimentos y bebidas,
X 300
entonces: p = 0.60, q = 1 – p = 0.40.
n 500
El intervalo de confianza para la verdadera proporción poblacional P de
compradores que adquieren alimentos y bebidas, es:
pq pq
Pp Z , pZ
1 1
2
n 2
n
11. Se tomó una muestra aleatoria de 800 mujeres casadas en Lima y se encontró que
560 están a favor del uso de la píldora del día siguiente.
201
a) Calcule e interprete un intervalo del 95% de confianza para la verdadera
proporción de mujeres casadas que están a favor del uso de la píldora del día
siguiente.
b) Con el 95 % de confianza, ¿Qué tamaño de muestra debe tomarse, si se desea
un error máximo del 3%?
Solución
Datos: n = 800 mujeres casadas, X = 560 a favor del uso de la píldora del día
siguiente.
a) Para hallar los límites de confianza para la proporción de mujeres casadas que
están a favor del uso de la píldora del día siguiente, si 1 – α = 0.95 → En la
Tabla 1, Zo = Z0.975 = 1.96.
Si p = proporción muestral de mujeres casadas que están a favor del uso de la
X 560
píldora del día siguiente, entonces: p = 0.70, q = 1 – p = 0.30.
n 800
El intervalo de confianza para la verdadera proporción poblacional P de
mujeres casadas que están a favor del uso de la píldora del día siguiente, es:
pq pq
Pp Z , pZ
1 1
2
n 2
n
204
Si p = proporción muestral de compradores que están a favor de un horario más
X 360
amplio para las compras, entonces: p = 0.60, q = 1 – p = 0.40.
n 600
El intervalo de confianza para la verdadera proporción poblacional P de
compradores que están a favor de un horario más amplio para las compras, es:
pq pq
Pp Z , pZ
1 1
2
n 2
n
205
14. En un estudio para determinar el gasto medio mensual en arbitrios en las
ciudades A y B, se toma una muestra al azar de 200 hogares de A arrojando un
gasto medio de S/. 250 y una desviación estándar de 15. Una muestra al azar de
180 hogares de la ciudad B da una gasto medio de 235 y una desviación estándar
de 10.
a) Determine un intervalo de confianza del 99 % para la diferencia del gasto
medio en las ciudades A y B.
b) ¿Es diferente el gasto medio mensual en arbitrios en las ciudades A y B?
Solución
S A2 S B2 (15) 2 (10) 2
X AXB
XB X A = S/. 1.30
n A nB 200 180
S A2 S B2 (14) 2 (17) 2
X AXB
= 2.7 partes por hora.
n A nB 80 60
16. El departamento de marketing desea determinar si hay diferencia entre las ventas
mensuales realizadas por hombres y mujeres. Una muestra aleatoria de 60
hombres alcanza un promedio de 78 artefactos mensuales, con una desviación
207
estándar de 15; mientras que otra muestra de 50 mujeres arroja una venta media
de 85 artefactos mensuales, con una desviación estándar de 10 artefactos. Se
pide:
a) Construya un intervalo del 95% de confianza para la verdadera diferencia de
las ventas medias realizadas por hombres y mujeres.
b) ¿Son diferentes las ventas medias realizadas por hombres y mujeres? ¿µh ≠
µm?
Solución
S h2 S m2 (15) 2 (10) 2
X h Xm
= 2.4 partes por hora.
nh nm 60 50
Reemplazando valores en (1):
h - m ϵ [(78 – 85) – 1.96 (2.4) ; (78 – 85) + 1.96 (2.4)] = [-7 ± 4.7]
Luego: h - m ϵ [-11.7; -2.3] artefactos con el 95% de confianza. Rpta.
Interpretación: con el 95% de confianza, la diferencia de las ventas medias
mensuales de hombres y mujeres se encuentra entre -11.7 y -2.3 artefactos.
b) Responder a la pregunta ¿Son diferentes las ventas medias realizadas por hombres
y mujeres? implica responder si ¿h ≠ m? o también ¿h - m ≠ 0?
Si apreciamos el intervalo de confianza construido en a) h - m no puede ser
cero, es decir h - m ≠ 0 o h ≠ m. Por lo tanto, si es diferente la venta medias
mensual de artefactos entre hombres y mujeres. Rpta.
17. Para determinar el precio medio del kilo de pollo en las ciudades A y B, se toma
una muestra al azar de 120 hogares de A arrojando un precio medio de S/. 6.50 y
una desviación estándar de S/ 0.70. Una muestra al azar de 100 hogares de la
ciudad B da una precio medio de S/. 6.75 y una desviación estándar de S/. 0.90.
208
a) Calcule e interprete un intervalo de confianza del 95 % para la diferencia del
precio medio del pollo en las ciudades A y B.
b) ¿Es diferente el precio medio del pollo en las ciudades A y B?
Solución
S A2 S B2 (0.7) 2 (0.9) 2
X AXB
= S/. 0.11
n A nB 120 100
Reemplazando valores en (1):
A - B ϵ [(6.50 – 6.75) – 1.96 (0.11) ; (6.50 – 6.75) – 1.96 (0.11)] = [-0.25 ±
0.22]
Luego: A - B ϵ [-0.47; -0.03] S/. con el 95% de confianza. Rpta.
Interpretación: con el 95% de confianza, la diferencia del precio medio del pollo
en las ciudades A y B se encuentra entre S/. -0.47 y -0.03.
b) Responder a la pregunta ¿Es diferente el precio medio del pollo en las ciudades A
y B? es responder si ¿ A ≠ B? o también ¿A - B ≠ 0?
Si apreciamos el intervalo de confianza construido en a) A - B no toma el valor
cero, es decir A - B ≠ 0 o A ≠ B. Por lo tanto, el precio medio del pollo en
ambas ciudades es diferente. Rpta.
18. Muestras del pago mensual a los obreros en las ciudades 1 y 2 proporcionan los
siguientes datos:
209
b) ¿Difieren los pagos medios a los obreros en las dos ciudades? Explique.
Solución
b) Responder a la pregunta ¿Difieren los pagos medios a los obreros en las dos
ciudades? implica responder si ¿1 ≠ 2? o también ¿1 - 2 ≠ 0?
Si apreciamos el intervalo de confianza construido en a) 1 - 2 toma el valor
cero, es decir 1 - 2 = 0 o 1 = 2. Por lo tanto, los pagos medios a los obreros
en las dos ciudades no difieren. Rpta.
210
a) Un intervalo de confianza para la diferencia de contenido medio viene dado por:
1 2 ( X 1 X 2 ) Z X X , ( X1 X 2 ) Z X X ........... (1)
1 1
1 2 1 2
2 2
212
a) Calcule e interprete un intervalo del 95 % de confianza para la diferencia
entre las verdaderas proporciones de “limeños” y “no limeños” que están de
acuerdo con la gestión presidencial.
b) ¿Son diferentes las verdaderas proporciones de “limeños” y “no limeños” que
están de acuerdo con la gestión presidencial?
Solución
Datos: Lima M. (1): n1 = 800, X1 = 280; Resto del País (2): n2 = 1200, X2 =
300.
a) El intervalo de confianza para la diferencia de proporciones de “limeños” (P1)
y “no limeños” (P2) que están de acuerdo con la gestión presidencial es:
P1 P2 ( p1 p2 ) Z p1 p2 , ( p1 p2 ) Z p1 p2 ............... (1)
1 1
2 2
Si 1 – α = 0.95, entonces Z0 = Z 0.975 = 1.96. Además:
X 1 280 X 2 300
p1 = 0.35 → q1 = 0.65 y p2 = 0.25 → q2 =
n1 800 n2 1200
0.75
23. De los alumn@s de la UNAC se toma una muestra aleatoria de 600 mujeres,
300 de las cuales están a favor de la titulación con tesis. En una muestra de 400
hombres, 240 indican que están a favor de lo mismo.
a) Halle un intervalo de confianza del 95% para la verdadera diferencia de
proporciones de alumnos y alumnas que están a favor de la titulación con
tesis.
b) ¿Se puede afirmar que son diferentes las verdaderas proporciones de alumnos
y alumnas que están a favor de la titulación con tesis?
Solución
215
b) La pregunta ¿Se puede afirmar que son diferentes las verdaderas proporciones
de alumnos y alumnas que están a favor de la titulación con tesis? implica
preguntar si ¿P1 ≠ P2? o también ¿P1 - P2 ≠ 0?
La diferencia P1 - P2 = 0 no está incluida en el intervalo de confianza
construido en a), no puede ser cero, es decir P1 - P2 ≠ 0 o P1 ≠ P2. Por lo
tanto, son diferentes las proporciones de alumnos y alumnas de la UNAC que
están a favor de la titulación con tesis. Rpta.
24. Se entrevistaron a hombres y mujeres respecto a su interés por una nueva marca
de perfume. En una muestra aleatoria de 500 hombres y 500 mujeres, 200
hombres y 160 mujeres dijeron que les gustaba el nuevo perfume.
a) Calcule e interprete un intervalo del 95 % de confianza para la diferencia
entre las proporciones de hombres y mujeres que les gusta el nuevo perfume.
b) ¿Son diferentes las verdaderas proporciones de hombres y mujeres que
dijeron que les gustaba el nuevo perfume? Explique.
Solución
216
Interpretación: la diferencia de proporciones de hombres (P1) y de mujeres
(P2) que les gusta el nuevo perfume, está entre 0.021 y 0.139 con el 95% de
confianza.
b) La pregunta ¿Son diferentes las verdaderas proporciones de hombres y
mujeres que dijeron que les gustaba el nuevo perfume? implica preguntar si
¿P1 ≠ P2? o también ¿P1 - P2 ≠ 0?
La diferencia P1 - P2 = 0 no está incluida en el intervalo de confianza
construido en a), no puede ser cero, es decir P1 - P2 ≠ 0 o P1 ≠ P2. Por lo
tanto, si son diferentes las proporciones de hombres y mujeres que les gusta el
nuevo perfume. Rpta.
217
p1q1 p2 q2 (0.48)(0.52) (0.60)(0.40)
p p = p p = = 0.049
2 1 1 2
n1 n2 175 250
26. Se entrevistaron dos grupos de mujeres respecto a su interés por los polos de
verano “Burberry”. De una muestra de 250 mujeres menores de 40 años, 150
estuvieron interesados, mientras que de 250 mujeres de 40 años a más, sólo 120
mostraron interés.
a) Calcule e interprete un intervalo del 95 % de confianza para la diferencia
entre las verdaderas proporciones de mujeres menores de 40 años y las de 40
años a más que mostraron interés por los polos de verano “Burberry”.
b) ¿Existe diferencia entre la proporción de mujeres menores de 40 años y las de
40 años a más que mostraron interés por los polos de verano “Burberry”?
Explique.
Solución
Sean: grupo 1 = mujeres menores de 40 años y grupo 2 = mujeres de 40 años a
más.
Datos: n1 = 250, X1 = 150, n2 = 250 y X2 = 120
a) El intervalo de confianza para la diferencia de proporciones de mujeres
menores de 40 años (P1) y las de 40 años a más (P2) que mostraron interés por
los polos de verano “Burberry”, P1 - P2 está dado por:
218
P1 P2 ( p1 p2 ) Z p1 p2 , ( p1 p2 ) Z p1 p2 ............... (1)
1 1
2 2
Si 1 – α = 0.95, entonces Z0 = Z 0.975 = 1.96. Además:
X 1 150 X 2 120
p1 = 0.60 → q1 = 0.40 y p2 = 0.48 → q2 =
n1 250 n2 250
0.52
27. De los 2000 establecimientos pequeños de una ciudad se extrae una muestra
aleatoria de 25 establecimientos y se recolecta información sobre el número de
personas empleadas (X) por establecimiento, obteniéndose la siguiente
25 25
información: X i 138 y
i 1
X
i 1
i
2
1145 .76 .
219
c) Para estimar en el futuro el número medio de empleados por establecimiento,
con un margen de error máximo de 0.9 empleados y una confianza del 95 %
¿qué tamaño mínimo de muestra será necesario?
Solución
X i
138
X i 1
= 5.52 empleados por establecimiento.
n 25
25 25
( X i X )2 X i
2
nX 2
1145 .76 25 (5.52) 2
S2 i 1
i 1
= 16 (empleados)2
n 1 n 1 25 1
S = 4 empleados. Otros datos: N = 2000 establecimientos, n = 25, 1 – α = 0.95.
a) Para hallar el intervalo de confianza para la media se usa la distribución Tn-1
de student (n < 30), si 1 – α = 0.95 → en la Tabla 3, t0 = t24 , 0.975 = 2.064.
El intervalo de confianza para la media se obtiene con la expresión:
[ X - t0 S / n , X + t0 S / n ]
Reemplazando valores tenemos:
4 4
[5.52 – 2.064 x , 5.52 + 2.064 x ] = [5.52 ± 1.65]
25 25
Por lo tanto: [3.87 ; 7.17] empleados con el 95% de confianza.
Rpta.
Interpretación: en la ciudad el verdadero número medio de empleados por
establecimiento pequeño, se encuentra entre 3.87 y 7.17 con el 95% de confianza.
b) El intervalo de confianza para la varianza está dado por:
(n 1) S 2 (n 1) S 2
² ,
b a
Como n = 25, S = 4 y 1 – α = 0.95, entonces en la Tabla 2:
2 2
a = x24 , 0.025 = 12.4 y b = x24 , 0.975 = 39.4
220
(25 1)(4) 2 (25 1)(4) 2
² ,
39.4 12.4
Por lo tanto: ² [9.75 ; 30.97 ] (emp.)² con el 95% de confianza.
Rpta.
Interpretación: la varianza del número de empleados por establecimiento
pequeño 9.75 y 30.97 (empleados)² con el 95% de confianza.
Z 2 2
c) El tamaño de muestra está dado por: n0
E2
Donde: | x - µ | = E = 0.9, 1 – α = 0.95 → en la Tabla 1, Z = Z0.975 = 1.96
y S = 4. Reemplazando en la fórmula para n se tiene:
1.96 2 4 2
n0 = 76 establecimientos. Rpta.
0.9 2
Interpretación.- para estimar el número medio de empleados por
establecimiento, con el 95% de confianza y un error máximo de 0.9
empleados, se requiere de 76 establecimientos.
28. Las cajas de un cereal producido por una fábrica deben tener un contenido de 16
onzas. Un inspector tomó una muestra que arrojó los siguientes pesos en onzas:
15.7, 15.7, 16.3, 15.8, 16.1, 15.9, 16.2, 15.9, 15.8, 15.6
Calcule e interprete intervalos de confianza del 90 % para la media poblacional y
la varianza poblacional de los pesos de las cajas de cereal.
Solución
X i
159
X i 1
= 15.9 onzas por caja.
n 10
10 10
(X i X )2 X i
2
nX 2
2528 .58 10 (15.9) 2
S2 i 1
i 1
= 0.0533 (onzas)2
n 1 n 1 10 1
S = 0.231 onzas. Otros datos: n = 10 cajas, 1 – α = 0.90.
a) Para hallar el intervalo de confianza para la media se usa la distribución Tn-1
de student (n < 30), si 1 – α = 0.90 → en la Tabla 3, t0 = t9, 0.95 = 1.833.
221
El intervalo de confianza para la media se obtiene con la expresión:
[ X - t0 S / n , X + t0 S / n ]
Reemplazando valores tenemos:
0.231 0.231
[15.9 – 1.833 x , 15.9 + 1.833 x ] = [15.9 ± 0.134]
10 10
Por lo tanto: [15.766 ; 16.034] onzas con el 90% de confianza.
Rpta.
Interpretación: el verdadero peso medio de las cajas de cereal, se encuentra entre
15.766 y 16.034 onzas, con el 95% de confianza.
b) El intervalo de confianza para la varianza está dado por:
(n 1) S 2 (n 1) S 2
² ,
b a
Como n = 10, S = 0.231 y 1 – α = 0.90, entonces en la Tabla 2:
a = x92, 0.05 = 3.33 y b = x92, 0.95 = 16.9
29. Los pesos netos (grs.) de una muestra aleatoria de 10 latas de leche fueron los
siguientes:
259, 262, 259, 258, 256, 257, 257, 263, 258, 261
Calcule e interprete intervalos de confianza del 95 % para la media poblacional y
la varianza poblacional de los pesos netos.
Solución
222
10
X i
2590
X i 1
= 259 gr. por lata.
n 10
10 10
( X i X )2 X i
2
nX 2
670858 10 (259) 2
S2 i 1
i 1
= 5.3333 (gr.)2
n 1 n 1 10 1
S = 2.31 gr. Otros datos: n = 10 cajas, 1 – α = 0.95.
a) Para hallar el intervalo de confianza para la media se usa la distribución Tn-1
de student (n < 30), si 1 – α = 0.95 → en la Tabla 3, t0 = t9, 0.975 = 2.262.
El intervalo de confianza para la media se obtiene con la expresión:
[ X - t0 S / n , X + t0 S / n ]
Reemplazando valores tenemos:
2.31 2.31
[259 – 2.262 x , 259 + 2.262 x ] = [259 ± 1.65]
10 10
Por lo tanto: [257.35; 260.65] gr. con el 95% de confianza.
Rpta.
Interpretación: el verdadero peso medio de las de leche, se encuentra entre 257.35
y 260.65 gramos, con el 95% de confianza.
b) El intervalo de confianza para la varianza está dado por:
(n 1) S 2 (n 1) S 2
² ,
b a
Como n = 10, S = 2.31 y 1 – α = 0.95, entonces en la Tabla 2:
a = x92, 0.025 = 2.70 y b = x92, 0.975 = 19.0
223
30. De un área de la ciudad en la que habitan 1000 familias se extrae una muestra
aleatoria de 20 familias y se recolecta información sobre el número de personas
(X) por familia, obteniéndose la siguiente información:
20 20
X
i 1
i 105 X
i 1
i
2
763
X i
105
X i 1
= 5.25 persona por familia.
n 20
20 20
(X i X) 2
X i
2
nX 2
763 20 (5.25) 2
S
2 i 1
i 1
= 11.145 (personas)2
n 1 n 1 20 1
S = 3.34 personas. Otros datos: N = 1000 familias, n = 20, 1 – α = 0.99.
a) Para hallar el intervalo de confianza para la media se usa la distribución Tn-1
de student (n < 30), si 1 – α = 0.95 → en la Tabla 3, t0 = t19, 0.995 = 2.861.
El intervalo de confianza para la media se obtiene con la expresión:
[ X - t0 S / n , X + t0 S / n ]
Reemplazando valores tenemos:
3.34 3.34
[5.25 – 2.861 x , 5.25 + 2.861 x ] = [5.25 ± 2.14]
20 20
Por lo tanto: [3.11 ; 7.39] personas con el 99% de confianza.
Rpta.
224
Interpretación: en el área de la ciudad el verdadero número medio de personas por
familia, se encuentra entre 3.11 y 7.39 con el 99% de confianza.
225
n0 205
n = 170 familias Rpta.
n0 205
1 1
N 1000
Interpretación.- para estimar el número medio de personas por familia, con
el 99% de confianza y un error máximo de 0.6 personas, se requiere de 170
familias.
31. Muestras del pago semanal a los obreros (1) y obreras (2) proporcionan los
siguientes datos: n1 = 15, x1 = $ 135, S1 = $ 25 y n2 = 15, x 2 = $ 125,
S2 = $ 15. Calcule e interprete intervalos de confianza del 95% para:
a) La razón de varianzas de los pagos semanales a obreros y obreras. ¿Son
iguales las varianzas de los pagos semanales a obreros y obreras?
b) La diferencia entre los pagos medios semanales a obreros y obreras. ¿Son
diferentes los pagos medios semanales a obreros y obreras? Explique.
Solución
12 S12 / S 22 S12 / S 22
a) Intervalo de confianza para la razón de varianzas: 2 ϵ ;
2 d c
Preguntar sí: ¿Son iguales las varianzas de los pagos semanales a obreros y
12
obreras? Es similar a preguntar sí: ¿ 12 = 22 o = 1? La respuesta es sí, ya
22
12
que el intervalo para la razón de varianzas toma el valor 1, es decir = 1,
22
entonces 12 = 22 (las varianzas de los pagos semanales a obreros y obreras son
iguales)
226
b) Considerando que las muestras son pequeñas y que las varianzas de los pagos
semanales a obreros y obreras son iguales, el intervalo de confianza para la
diferencia entre los de los pagos semanales a obreros y obreras está dado por:
12 S12 / S 22 S12 / S 22
a) Intervalo de confianza para la razón de varianzas: ϵ ;
22 d c
Si: n1 = n2 = 16, S12 = 152 = 225, S 22 = 102 = 100. Como 1 – α = 0.99, entonces
en la tabla 4: d = F15, 15, 0.995 = 4.07 y c = F15, 15, 0.005 = 1/ F15, 15, 0.995 = 1/ 4.07 =
0.246.
Reemplazando valores en el intervalo se tiene que:
12 225 / 100 225 / 100
ϵ ; = [0.55; 9.15] con el 99% de confianza.
2 4.07
2
0.246
Interpretación.- con el 99% de confianza, la razón de varianzas de las palabras por
minuto de ambos grupos, se encuentra entre 0.55 y 9.15.
b) Considerando que las muestras son pequeñas y que las varianzas de las palabras
por minuto de ambos grupos son iguales, el intervalo de confianza para la
diferencia de medias de palabras por minuto de los dos métodos está dado por:
Preguntar sí, ¿Es diferente el promedio de palabras por minuto para los 2
métodos? Es similar a preguntar sí: ¿1 ≠ 2 o 1 - 2 ≠ 0? La respuesta es
sí, ya que el intervalo para su diferencia de medias no toma el valor cero, es
decir, 1 - 2 ≠ 0 o 1 ≠ 2. Entonces, el promedio de palabras por minuto
para ambos métodos sí es diferente.
12 S12 / S 22 S12 / S 22
a) Intervalo de confianza para la razón de varianzas: 2 ϵ ;
2 d c
229
Interpretación.- con el 95% de confianza, la razón de varianzas de los costos de
enseñanza en las universidades 1 y 2, se encuentra entre 1.32 y 7.96.
Preguntar sí: ¿Son diferentes las varianzas de los costos de enseñanza en las 2
12
universidades? Es similar a preguntar sí: ¿ 12 ≠ 22 o ≠ 1?
22
La respuesta es sí, ya que el intervalo para la razón de varianzas no toma el valor
12
1, es decir ≠ 1, entonces 12 ≠ 22 (las varianzas de los costos de enseñanza
2 2
S12 S 22
1 - 2 ϵ [( x1 - x 2 ) t0 ]
n1 n2
Preguntar sí: ¿Son diferentes las varianzas de los pesos de las bolsas con
12
detergente de ambas máquinas? Es similar a preguntar sí: ¿ 2
≠ 2
o ≠
1 2
22
1?
231
La respuesta es sí, ya que el intervalo para la razón de varianzas no toma el valor
12
1, es decir 2 ≠ 1, entonces 12 ≠ 22 (las varianzas de los pesos de las bolsas
2
con detergente de ambas máquinas son diferentes o heterogéneas)
b) Considerando que las muestras son pequeñas y que las varianzas de los pesos de
las bolsas con detergente de ambas máquinas son diferentes, el intervalo de
confianza para la diferencia de medias de los pesos de las bolsas con detergente
de ambas máquinas está dado por:
S12 S 22
1 - 2 ϵ [( x1 - x 2 ) t0 ]
n1 n2
Preguntar sí: ¿Son diferentes los pesos medios de las bolsas con detergente de
ambas máquinas? Es similar a preguntar sí: ¿1 ≠ 2 o 1 - 2 ≠ 0? La
respuesta es sí, ya que el intervalo para su diferencia de medias no toma el
valor cero, es decir, 1 - 2 ≠ 0 o 1 ≠ 2. Entonces, los pesos medios de las
bolsas con detergente de ambas máquinas sí son diferentes.
232
35. Se compararon dos marcas de llantas de automóvil, 1 y 2, respecto a su duración
en Km; dos muestras aleatorias de 16 llantas de cada marca, dieron estos
resultados:
n1 = 16, x1 = 49,658, S1 = 2,150 y n2 = 16, x 2 = 48,125, S2 =
1,875.
Calcule e interprete intervalos de confianza del 99% para:
a) La razón de varianzas de la duración de las llantas de ambas marcas. ¿Son
diferentes las varianzas de la duración de las llantas de ambas marcas?
b) La diferencia de las duraciones medias de las llantas de ambas marcas. ¿Son
diferentes las duraciones medias de las llantas de ambas marcas?
Solución
Preguntar sí: ¿Son diferentes las varianzas de la duración de las llantas de ambas
12
marcas? Es similar a preguntar sí: ¿ ≠ 2 2
o ≠ 1?
1 2
22
La respuesta es no, ya que el intervalo para la razón de varianzas toma el valor 1,
12
es decir 2 = 1, entonces 12 = 22 (las varianzas de la duración de las llantas
2
de ambas marcas son homogéneas o iguales).
233
b) Considerando que las muestras son pequeñas y que las varianzas de la duración de
las llantas de ambas marcas son iguales, el intervalo de confianza para la
diferencia de medias de la duración de las llantas de ambas marcas está dado por:
Preguntar sí, ¿Son diferentes las duraciones medias de las llantas de ambas
marcas? Es similar a preguntar sí: ¿1 ≠ 2 o 1 - 2 ≠ 0?
La respuesta es no, ya que el intervalo para su diferencia de medias toma el
valor cero, es decir, 1 - 2 = 0 o 1 = 2. Entonces, las duraciones medias de
las llantas de ambas marcas no son diferentes, son iguales.
234
5.12 PROBLEMAS PROPUESTOS
1. Demuestre que:
a) Las desigualdades µ - E < x < µ + E, son equivalentes a | x - µ | < E
b) Si 1 P(t1 / 2 T t1 / 2 ) y T ( x ) n / s entonces:
s s
1 P( x t1 / 2 x t1 / 2 )
n n
2. Se desea estimar el peso total de una partida de 10,000 manzanas. Para ello se
selecciona una muestra aleatoria de 50 manzanas, la cual da una media de 300
gramos y una desviación estándar de 25 gramos. Calcule e interprete intervalos
de confianza del 95 % para:
a) El verdadero peso medio de las manzanas y el peso total (Nμ).
b) La verdadera varianza (σ2) de los pesos de las manzanas.
c) ¿Qué tamaño de muestra debe tomarse, si se desea que x difiera de µ en
menos de 8 gramos con el 95 %
235
x = 3.2 días y S = 5.2 días. Calcule e interprete intervalos de confianza del 95%
para:
a) La media μ y la varianza σ2.
b) ¿Qué tamaño de muestra debe tomarse, si se desea que x difiera de µ en
menos de 10 gr. con el 95 % de confianza?
Establecimientos (ni) 10 15 12 6 4 3
236
9. Una “Encuesta de Opinión” realizada en 1000 hogares de Lima Metropolitana
(con 1.4 millones de hogares) indica que el 35 % de los hogares tiene acceso a
internet. Calcule e interprete un intervalo de confianza del 95 % para:
10. En una muestra aleatoria de 400 hinchas del fútbol peruano (de un total de 15
millones) se encontró que 140 opinan que Perú clasifica al mundial de fútbol.
a) Calcule e interprete un intervalo del 99% de confianza para la proporción
verdadera y el total de hinchas que opinan que Perú clasifica al mundial de
fútbol.
b) Con un 99% de confianza y un error máximo del 3%, ¿qué tamaño de muestra
será necesario para estimar la proporción de hinchas que opinan que Perú
clasifica al mundial de fútbol?
237
c) Con el 95 % de confianza, ¿Qué tamaño de muestra debe tomarse, si se desea
un error máximo del 5%?
15. En un estudio para determinar el gasto medio mensual en luz en las ciudades A y
B, se toma una muestra al azar de 250 hogares de A arrojando un gasto medio de
S/. 120 y una desviación estándar de 15. Una muestra al azar de 200 hogares de
la ciudad B da una gasto medio de 105 y una desviación estándar de 10.
a) Determine un intervalo de confianza del 99 % para la diferencia del gasto
medio mensual en luz en las ciudades A y B.
b) ¿Será diferente el gasto medio mensual en luz en las ciudades A y B?
18. Dos grupos escogidos al azar, cada uno de 40 alumnas, de una escuela para
secretarias, aprenden taquigrafía por dos sistemas diferentes y luego se les
somete a pruebas de dictado. Se encuentra que el primer grupo obtiene en
promedio 120 palabras por minuto con una desviación estándar de 11 palabras,
mientras que el segundo grupo promedia 115 palabras por minuto con una
desviación estándar de 10 palabras.
a) Determine un intervalo de confianza del 95 % para la diferencia de medias de
palabras por minuto con los dos métodos.
b) ¿Serán diferentes las medias de palabras por minuto con los 2 métodos?
Explique.
239
a) Calcule e interprete un intervalo del 95 % de confianza para la verdadera
diferencia entre los gastos medios mensuales en educación de las familias de
las dos ciudades;
b) ¿Difieren los gastos medios en educación de ambas ciudades? Explique
21. En una muestra aleatoria de 400 adultos, 220 están de acuerdo con la gestión
presidencial. Mientras que en una muestra de 600 jóvenes, 300 están de acuerdo
con la gestión presidencial.
23. De los alumn@s de la UNAC se toma una muestra aleatoria de 600 hombres,
300 de las cuales están a favor del cambio curricular. En una muestra de 400
mujeres, 240 indican que están a favor de lo mismo.
a) Determine un intervalo de confianza del 99 % para la proporción de alumnas
que están a favor del cambio curricular.
b) ¿Se puede afirmar que hay diferencia entre las verdaderas proporciones de
alumnos y alumnas que están a favor del cambio curricular?
241
a) Calcule e interprete un intervalo del 99 % de confianza para la diferencia
entre las verdaderas proporciones de cusqueños y puneños que mostraron
interés por la compra de abrigos de lana.
b) ¿Existe diferencia entre la proporción de cusqueños y puneños que mostraron
interés por la compra de abrigos de lana? Explique.
28. Las cajas de un cereal producido por una fábrica deben tener un contenido de
160 gramos. Un inspector tomó una muestra que arrojó los siguientes pesos en
gramos:
157, 157, 163, 158, 161, 159, 162, 159, 158, 156
Calcule e interprete intervalos de confianza del 90 % para la media poblacional y
la varianza poblacional de los pesos.
29. Los pesos netos (grs.) de diez latas de conserva fueron los siguientes:
159, 162, 159, 158, 156,157, 157, 163, 158, 161
Calcule e interprete intervalos de confianza del 90 % para la media poblacional y
la varianza poblacional de los pesos netos.
30. De las 1500 micro empresas de una ciudad se extrae una muestra aleatoria de 20
y se recolecta información sobre el número de personas empleadas (X) por
empresa, obteniéndose la siguiente información:
20 20
X i 210
i 1
X
i 1
2
i 1526
31. Los contenidos netos (ml.) de una muestra aleatoria de 10 frascos de yogurt
fueron los siguientes: 248, 254, 249, 252, 250, 253, 250, 249, 247, 248
Calcule e interprete intervalos de confianza del 99 %
242
a) Para la media poblacional de los contenidos netos en los frascos.
b) La varianza poblacional de los contenidos netos en los frascos.
c) ¿Qué tamaño de muestra debe tomarse, si se desea que x difiera de µ en
menos de 1.5 ml. con el 99 % de confianza?
243
b) La diferencia de los pesos medios de las latas de conservas de ambas
máquinas. ¿Son diferentes los pesos medios de las latas de conservas de
ambas máquinas?
35. Se ha llevado a cabo un estudio para analizar los gastos mensuales en seguridad
particular realizada por las empresas de dos ciudades. Mediante muestras
aleatorias de 20 empresas tomadas en cada ciudad se han obtenido los siguientes
resultados:
n1 = 20, x1 = 458, S1 = 25 y n2 = 20, x 2 = 385, S2 = 15.
Calcule e interprete intervalos de confianza del 95% para:
a) La razón de varianzas de los gastos mensuales en seguridad particular
realizada por las empresas de ambas ciudades. ¿Son diferentes las varianzas
de los gastos mensuales en seguridad particular realizada por las empresas de
ambas ciudades?
b) La diferencia de los gastos medios mensuales en seguridad particular
realizada por las empresas de ambas ciudades. ¿Son diferentes los gastos
medios mensuales en seguridad particular realizada por las empresas de
ambas ciudades?
244
Capítulo 6. CONTRASTE DE HIPÓTESIS ESTADÍSTICAS
PARAMÉTRICAS
CONTENIDO
245
Planteamiento del Problema
Contrastar una hipótesis estadística es juzgar si cierta propiedad supuesta para una
población es compatible con lo observado en una muestra de ella. Es decir que:
La prueba estadística de una hipótesis es una regla que cuando los valores muestrales
son observados nos conducen a aceptar o rechazar la hipótesis bajo consideración.
Ejemplo 2.-
La “Compañía Agrícola Yapatera S.A.” embolsa arroz con un contenido medio de 1 000
gr. El proceso de llenado tiene distribución N ( = 1 000 gr. , = 3 gr.). Por razones
imprevisibles el proceso de llenado se desajusta a veces produciendo un aumento o
disminución del llenado medio sin variar la desviación estándar. Para contrastar si en
cierto momento el proceso se ha desajustado, se toma una muestra al azar de n = 5 bolsas
con arroz. Se pesan las bolsas obteniendo los siguientes datos:
1 005, 1 006, 1 004, 1 005 y 1 006 gr.
¿Podemos decir que el proceso de llenado se ha desajustado?
Si el proceso no se ha desajustado al ser X ~ N (1 000 , 9)
X ~ N (1 000, 9 / 5) = N (1 000 , 1.8 ).
Calculando X = (1 005 + 1 006 + 1 004 + 1 005 + 1 006) / 5 = 1 005.2 gr.
El valor X = 1 005.2 gr. está muy alejado del valor central = 1 000 gr. Para verlo
formalmente, estandaricemos la variable.
X 1005 .2 1000
Z = 3.87. Es decir, se aleja más de 3.8 veces la desviación
X 1.342
estándar de la media. Por todo ello debemos pensar que el proceso se ha desajustado ya
que de ser correcto, la probabilidad de que una muestra de tamaño 5 tome como media 1
005.2 gr. es muy pequeña. Esta probabilidad es:
P( X ≥ 1 005.2) = P(Z ≥ 3.87) = 1 – P(Z 3.87) = 1 – 0.99995 = 0.00005 . Sumamente
menor al 0.005%.
Estos son los elementos fundamentales a tener en cuenta para el contraste de hipótesis, así
como su relación con los intervalos de confianza.
Para el ejemplo anterior [1 001.5 , 1 008.9] gr. con el 95% de confianza.
246
Como = 1 000 no pertenece al intervalo de confianza, entonces nos lleva a confirmar la
hipótesis de que es diferente de 1 000 gr. y que se ha producido un desajuste en el
proceso de llenado de las bolsas con arroz.
Tipos de Hipótesis
Para efectuar el contraste de hipótesis se formula dos tipos de hipótesis: la nula y la
alternativa.
Hipótesis Nula .- se denota por H0 y es la hipótesis que se contrasta. Generalmente se
establece en forma exacta. Es la hipótesis que mantendremos hasta que los datos
demuestren su falsedad. Ejemplo: H0 : θ = θ0 .
La hipótesis nula refleja el valor que ha tenido el parámetro en un momento determinado,
pero pueda que haya cambiado dando lugar a la hipótesis alternativa.
Hipótesis Alternativa .- se denota por H1 o Ha y generalmente es especificada con menos
precisión. Es la suposición contraria a la que se quiere contrastar, que se acepta en caso la
hipótesis nula se rechace. Ejemplo: H1 : θ < θ0 , θ > θ0 o θ ≠ θ0 .
Al efectuar el contraste, hablamos de probar la hipótesis nula contra la hipótesis
alternativa, bajo el supuesto tentativo que la hipótesis nula es cierta. Ello porque la
hipótesis nula refleja el comportamiento que ha tenido (tiene o seguirá teniendo) el
parámetro, hasta que los datos demuestren su falsedad.
Tipos de Pruebas
Hay dos tipos principales de pruebas: las pruebas unilaterales y la prueba bilateral.
Cada una se identifica por la forma en que se formula H1.
1. Pruebas Unilaterales o de una Cola
Prueba de la cola inferior o prueba del lado izquierdo (cola izquierda)
Ho : θ = θ0 H1 : θ < θ0
Se emplea cuando se tiene alguna evidencia de que el valor del parámetro ha
disminuido.
247
Prueba de la cola superior o prueba del lado derecho (cola derecha)
Ho : θ = θ0 H1 : θ > θ0
Se emplea cuando se tiene alguna evidencia de que el valor del parámetro ha
aumentado.
Tipo de Errores
β = P [Aceptar Ho / Ho es falsa ]
248
Decisión
Ho es verdadera Ho es falsa
(muestral)
249
Región de Aceptación
Es la región que contiene lo valores para los cuales se acepta la hipótesis H0 bajo
consideración.
250
6.1 PRUEBA DE HIPÓTESIS PARA LA MEDIA (con varianza conocida)
Sea X la media de una muestra aleatoria de tamaño n seleccionada de una
población con media y con varianza 2 supuestamente conocida.
Si la población es normal N(, 2), entonces, la distribución de la estadística
X es exactamente normal N(, 2/n). Si la población no es normal, para
cualquier valor de n 30, la distribución de X es aproximadamente normal
N(, 2/n). Si se necesita el factor de corrección para poblaciones finitas se usa
(N –n) / (n-1)
Entonces, la estadística para la prueba acerca de con varianza 2 conocida es:
X
Z , cuya distribución es exacta o aproximadamente normal estándar
/ n
N(0,1), según sea la población normal o no.
Si se supone verdadera la hipótesis nula: Ho: = o, la estadística especificada
X 0
por esta hipótesis es entonces: Z
/ n
A. Prueba bilateral o de dos colas
1. Hipótesis: Ho: = o , H1: 0
2. Escoger el nivel de significación:
X
3. Estadística de prueba: Z , cuya distribución es normal N(0,1).
/ n
4. Región crítica: determinar el valor Z1-/2 tal que la probabilidad de rechazar H0
cuando se supone verdadera sea:
PZ Z1 / 2 / 2 o PZ Z1 / 2 / 2
En consecuencia, la región crítica en el rango de variación de Z es:
R.C. Z Z1 / 2 o Z Z1 / 2
Por otro lado, la probabilidad de aceptar H0 cuando se supone verdadera es:
P Z1 / 2 Z Z1 / 2 1
Resultando la región de aceptación: R.A. Z1 / 2 Z Z1 / 2
251
x 0
5. Hallar Z calc con la información muestral y suponiendo que Ho es
/ n
cierta.
6. Decisión: se rechaza H0 con riesgo igual a , si Z calc R.C. (o si Z calc R.A. ).
252
La región de aceptación es: R.A. {Z Z1 } .
x 0
5. Hallar Z calc con la información muestral y suponiendo que Ho es
/ n
cierta.
6. Decisión: se rechaza H0 con riesgo igual a , si Z calc R.C. (o si Z calc R.A. ).
) % para : 0 I .C. x Z1 / 2 , x Z1 / 2
n n
Por tanto, se rechaza H0 con riesgo , si x R. A. o si 0 I .C.
a) Sea X la variable aleatoria definida como el peso de los paquetes del producto.
Se supone que la distribución de X es N(, (20)2).
1. Hipótesis: H0: = 400 (proceso controlado) H1: 400 (proceso fuera de
control).
2. Nivel de significación: = 0.05.
3. Estadística de prueba: Población normal con varianza conocida, la estadística es
X
Z cuya distribución es normal N(0,1).
/ n
4. Región crítica: Si la hipótesis nula H0 es cierta, para = 0.05 y la alternativa
bilateral, en la distribución de Z ( X 400) /(20 / 100 ) , se encuentra el valor
crítico: Z1-/2 = Z0.975 = 1.96
Luego, la región crítica en la variable Z está dada por:
RC Z calc 1.96 o Z calc 1.96
5. Cálculos, de los datos se tiene: n = 100, x 395, 20
Entonces:
255
x 0 395 400
Z calc 2.5
/ n 2
6. Decisión: Puesto que Zcalc = -2.5 R.C. , debemos rechazar H0 y concluir con
un 5% de significación que el proceso de empaquetado no está controlado.
P-valor = P[|Z| > |-2.5|] = P[|Z| > 2.5] = 2 P[Z < -2.5] = 2(0.00621) = 0.01242.
Como el valor-P = 0.01242 < = 0.05 se rechaza Ho y se acepta H1: 400 y se
concluye también con un 5% de significación que el proceso de empaquetado no
está controlado.
Nota: En el rango de variación de X , la región crítica es:
R.C. { X 400 1.96 x2 o X 400 1.96 x2} { X 396.08 o X 403.92}
Por el hecho que x 395 R.C. , se debe rechazar H0 y concluir con un riesgo de 5
% que el proceso de empaquetado no está controlado.
256
Habilitar la opción Datos resumidos y escribir el Tamaño de muestra: 100 y en
Media: 395 (la media muestral). Escribir la Desviación estándar: 20.
Nota: Si los datos muestrales aparecen en una columna, se escoge Muestras en
columnas: y se ingresa dicha columna. Lo que sigue es igual para ambos casos.
Seleccionar Realizar prueba de hipótesis y escribir en Media hipotética: 400.
Escoger Opciones… → Nivel de confianza: 95.0. Escoger en Hipótesis alterna:
no es igual a. Luego escoger Aceptar y Aceptar
En la hoja de Sesión aparecen los resultados siguientes:
Z de una muestra
Media del
Error
N Media estándar IC de 95% Z P
100 395.00 2.00 (391.08, 398.92) -2.50 0.012
257
6.2 PRUEBA DE HIPÓTESIS PARA LA MEDIA (con varianza
desconocida)
Población no normal
Si la población no tiene distribución normal y si la varianza es desconocida, para
probar hipótesis acerca de la media , sólo si, el tamaño de la muestra es grande
X 0
(n 30), se suele utilizar la estadística: Z N(0,1)
/ n
Luego, las regiones críticas de las pruebas de Ho: = 0 contra cualquiera de las
tres alternativas H1: > 0 o H1: < 0 o H1: 0 son las mismas
(aproximadamente) de la sección anterior.
Población normal
258
P(T t1 / 2,n1 ) / 2 o P(T t1 / 2, n 1 ) / 2
.
En consecuencia, la región crítica en el rango de variación de T es:
R.C. {T t1 / 2,n1 o T t1 / 2,n1}
x 0
5. Hallar Tcalc con la información muestral y suponiendo que Ho es
S/ n
cierta.
6. Decisión: se rechaza H0 con riesgo igual a , si Tcalc R.C. (o si Tcalc R.A. ).
260
Ejemplo 4.-
Un fabricante produce un cable de alambre de cierto tipo, que tiene una resistencia a la
ruptura no mayor de 300 kg. Se descubre un proceso nuevo y más barato que desea
emplearse, siempre que el cable así producido tenga una resistencia media a la ruptura
mayor de 300 kg. Si una muestra aleatoria de 25 cables producidos con el nuevo proceso
ha dado una media 304.5 kg. y una desviación estándar S = 10 kg. ¿Debería el fabricante
adoptar el nuevo proceso, si está dispuesto a asumir un error tipo I del 5%? Hallar el P-
valor.
Solución
1. Hipótesis: H0: ≤ 300 (proceso antiguo) H1: > 300 (proceso nuevo).
2. Nivel de significación: = 0.05.
3. Estadística de prueba:
x
T t 24
S/ n
4. Región crítica: para = 0.05 y la alternativa unilateral derecha, se encuentra el
valor crítico en la Tabla 3: t1-, n-1 = t0.95, 24 = 1.711
Luego, la región crítica en la variable T está dada por: R.C = {T > 1.711}
5. Cálculos, de los datos se tiene: n = 25, x = 304.5 Kg. S = 10 y = 300
x 304.5 300
Entonces: Tcalc = 2.25
S/ n 10 / 25
6. Decisión: puesto que Tcalc = 2.25 ϵ R.C., debemos rechazar H0 y concluir con un
5% de significación que conviene adoptar el nuevo proceso.
262
T de una muestra
Media del
Error 95% Límite
N Media Desv.Est. estándar inferior T P
25 304.50 10.00 2.00 301.08 2.25 0.017
Aparecen los resultados antes obtenidos: Tcalc = 2.25, el valor-P = 0.017 (ligeramente
diferente al 0.018 encontrado con aproximación usando la Tabla 3) y el intervalo de
confianza del 95% para la media µ obtenido a continuación.
Nota.-
Si se construye el intervalo de confianza del 95% para la media , con 1 – α = 0.95
→ en la Tabla 3, t0 = t24 , 0.975 = 2.064. Además: n = 25, X = 304.5 Kg. y S = 10.
Sea Xk, X2, ...., Xn una muestra aleatoria de tamaño n, seleccionada de una
población normal con media y varianza 2, parámetros desconocidos, y sea la
n
( X i X )2
varianza muestral, S 2 i 1
n 1
(n 1)S 2
Entonces, la variable aleatoria, 2 n21
2
263
Esta estadística se utiliza para probar hipótesis acerca de una varianza. Si se supone
verdadera la hipótesis nula Ho: σ2 = 02 , la estadística es:
(n 1) S 2
2 n21
02
(n 1) S 2
El valor calc
2
que resulta de la muestra aleatoria, se usa para la prueba
02
de H0, contra una alternativa unilateral o bilateral.
A. Prueba bilateral o de dos colas
(n 1)S 2
3. Estadística de prueba: 2 n21
2
La Región crítica de la prueba es: R.C. = {X2 < 2 / 2,n1 o X2 > 12 / 2,n1 }
(n 1) S 2
5. Hallar calc
2
con la información muestral y suponiendo que Ho es
02
cierta.
6. Decisión: se rechaza H0 con riesgo igual a , si calc
2
R.C. (o si calc
2
R. A. ).
12 , n1
(n 1) S 2
5. Hallar 2
con la muestra y suponiendo que Ho es cierta.
02
calc
265
P[ 2 2, n1 ]
La Región crítica de la prueba es: R.C. = {X2 < 2, n1 }
(n 1) S 2
5. Hallar 2
con la muestra y suponiendo que Ho es cierta.
02
calc
Si calc
2
> n – 1 → P = 2 P[ n21 > calc
2
] = 2 {1 - P[ n21 < calc
2
]}
266
Ejemplo 5.-
Con estos datos, ¿se justifica la suposición que la desviación estándar verdadera es
2.00 mm? Use el nivel de significación = 0.05, y suponga que la distribución de las
longitudes es normal. Halle el valor-P.
Solución:
1. Hipótesis : H 0 : 2 4, H1 : 2 4
(n 1)S 2 9S 2 9 (6.77)
2
calc 15.23
4 4 4
268
Nota: si ya se tienen los cálculos muestrales, habilitar la opción Datos resumidos y
escribir el Tamaño de muestra: y la Varianza de la muestra: correspondientes.
Lo que sigue es igual para ambos casos.
Seleccionar Realizar prueba de hipótesis y escribir en Varianza hipotética: 4.
Escoger Opciones… → Nivel de confianza: 95.0. Escoger en Hipótesis alterna: no
es igual a. Luego escoger Aceptar y Aceptar
En la hoja de Sesión aparecen los resultados siguientes:
Prueba e IC para una varianza: Longitud
Método
Hipótesis nula Sigma-cuadrado = 4
Hipótesis alterna Sigma cuadrado no = 4
Estadísticas
Pruebas
Nota.-
Si se construye el intervalo de confianza del 95% para la varianza σ2, éste resultará
ser: σ2 ϵ [3.20; 22.55] mm2 con el 95% de confianza.
En consecuencia, se acepta H 0 : 2 4 porque pertenece al intervalo de confianza.
Por lo tanto, se concluye también que la desviación estándar es de 2 mm. con un 95%
de confianza.
269
6.4 PRUEBA DE HIPÓTESIS PARA LA RAZÓN DE VARIANZAS
S12 / 12
F f n1 1, n2 1
S 22 / 22
tiene distribución de probabilidad F con grados de libertad n1 – 1 y n2 – 1. Esta
estadística se utiliza para probar igualdad de varianzas.
Si se supone verdadera la hipótesis nula Ho: 12 22 o 12 / 22 = 1, la
S12
estadística de la prueba es: F f n1 1, n2 1
S 22
S12
Su valor Fcalc que resulta de dos muestras aleatorias, se utiliza para
S 22
probar la hipótesis nula Ho contra cualquiera alternativa unilateral o bilateral.
A. Prueba bilateral o de dos colas
1. Hipótesis: Ho : 12 22 , H1 : 12 22
2. Escoger el nivel de significación:
S12 / 12
3. Estadística de prueba: F f n 11, n2 1
S 22 / 22
4. Región crítica: determinar los valores f / 2 , n 11, n 21 y X 12 / 2 , n 11, n 21 , tales que la
La Región crítica es: R.C. = {F < f / 2, n 11, n 21 o F > f1 / 2, n 11, n 21 }
S12
5. Hallar Fcalc 2 con la información muestral y suponiendo que Ho es cierta.
S2
4. Región crítica: determinar el valor f1 , n 11, n 21 tal que la probabilidad de
S12
5. Hallar Fcalc con la muestra y suponiendo que Ho es cierta.
S 22
1. Hipótesis: Ho : 12 22 , H1 : 12 22
2. Escoger el nivel de significación:
S12 / 12
3. Estadística de prueba: F f n 11, n2 1
S 22 / 22
271
4. Región crítica: determinar el valor f , n 11, n 21 tal que la probabilidad de
P [ F f , n 11, n 21 ]
La Región crítica de la prueba es: R.C. = {F < f , n 11, n 21 }
S12
5. Hallar Fcalc 2 con la muestra y suponiendo que Ho es cierta.
S2
6. Decisión: se rechaza H0 con riesgo igual a , Fcalc R.C. (o si Fcalc R.A. ).
Si Fcalc > 1 → P = 2 P[ f n 11, n 21 > Fcalc ] = 2 {1 - P[ f n 11, n 21 < Fcalc ]}
Ejemplo 6.-
Una compañía diseña un nuevo proceso de moldeo para reducir la variabilidad en el
diámetro de las piezas producidas. Se cree que la varianza del nuevo proceso es
menor que la varianza del proceso antiguo. Para una muestra de 8 piezas del proceso
272
antiguo y una muestra de 6 piezas del proceso nuevo se obtienen los siguientes
diámetros en milímetros:
Antiguo (1): 17, 23, 21, 18, 22, 20, 21, 19
Nuevo (2): 13, 16, 14, 12, 15, 14
¿Confirman estos datos que la varianza de los diámetros con el nuevo proceso es
menor que con el proceso antiguo? Suponga poblaciones normales y use = 0.05
Solución
Sean X1 y X2 las variables que representan los diámetros de las piezas con el proceso
antiguo y nuevo respectivamente. Las dos poblaciones se distribuyen normalmente
con varianzas desconocidas.
1. Hipótesis: H0: 12 = 22 H1: 12 > 22
2. Nivel de significación: = 0.05
3. Estadística de prueba: siendo las poblaciones normales y suponiendo verdadera
la hipótesis nula Ho, para n1 = 8 y n2 = 6, la estadística de prueba es:
S12
F 2 f 7 ,5
S2
4. Región crítica: para = 0.05 y la prueba unilateral derecha, f7,5, 0.95 = 4.88 es:
R.C. = {F > 4.88}
5. Cálculos: con los datos de la muestra se obtiene:
S12 4.125
S12 = 4.125, S 22 = 2 y Fcalc = 2.0625
S 22 2
273
P = 2 P[f7,5 > 2.0625] = 2{1 - P[f7,5 ≤ 2.0625]} > 0.10 (en Excel = 0.4428).
Rpta.
Como los datos muestrales aparecen en las columnas C1 y C2, se escoge Muestras
en diferentes columnas y se selecciona en el recuadro de Primera: la columna C1
Antiguo-1 y en el recuadro de Segunda: la columna C2 Nuevo-2.
Nota: si ya se tienen los cálculos muestrales, habilitar la opción Datos resumidos y
escribir el Tamaño de muestra: y la Varianza: (de la muestra) correspondiente a la
Primera: y Segunda: muestra. Lo que sigue es igual para ambos casos.
274
Escoger Opciones… → Nivel de confianza: 95.0. Colocar un Título: (del gráfico)
Varianza antigua vs Varianza nueva. Luego escoger Aceptar y Aceptar
En la hoja de Sesión aparecen los resultados siguientes:
Prueba de varianzas iguales: Antiguo-1, Nuevo-2
1 2 3 4 5
Intervalos de confianza de Bonferroni de 95% para Desv.Est.
Antiguo-1
Nuevo-2
12 14 16 18 20 22 24
Datos
275
6.5 PRUEBA DE HIPÓTESIS ACERCA DE DOS MEDIAS (con varianzas
conocidas)
X1 X 2
Su valor Zcalc = que resulta de dos muestras independientes, se
12 22
n1 n2
Nota 2.-
277
Ejemplo 7.-
Un fabricante quiere comparar los tiempos de proceso de dos marcas de máquinas A
y B, para fabricar un tipo de artículo. Al observar dos muestras aleatorias de 60
artículos procesados por A y B respectivamente, encuentra que las medias
respectivas son 1,230 y 1,190 segundos. Suponga A = 120 y B = 90 segundos.
a) Al nivel de significación del 5%, ¿se puede inferir que la máquina B es más
rápida que la máquina A? Hallar el valor P.
b) Al nivel de significación del 5%, ¿se puede inferir que la media de B es menor
que la media de A en menos de 7 segundos? Hallar el valor P.
Solución
A2 B2 120 2 90 2
E.S. = Error estándar = = 19.365
nA nB 60 60
x A x B 1,230 1,190
Z calc 2.07
ES 19.365
278
6. Decisión: ya que Zcalc = 2.07 R.C., debemos rechazar Ho y concluir con el 5%
de significación que el equipo B utiliza menos tiempo en el proceso de
fabricación.
Recordar que cuando las muestras son grandes t se aproxima a la normal estándar.
Habilitar la opción Datos resumidos y escribir el Tamaño de muestra:, la
Media: y la Desviación estándar: correspondiente a la Primera: y Segunda:
muestra respectivamente.
279
Nota: Si los datos muestrales aparecen en columnas, se escoge Muestras en
diferentes columnas: y se ingresa la Primera: y Segunda: columna en el
recuadro correspondiente. Lo que sigue es igual para ambos casos.
Escoger Opciones… → Nivel de confianza: 95.0. En Diferencia de la prueba:
dejar el 0. Escoger en Hipótesis alterna: mayor que. Luego escoger Aceptar y
Aceptar.
En la hoja de Sesión aparecen los resultados siguientes:
Media del
Error
Muestra N Media Desv.Est. estándar
1 60 1230 120 15
2 60 1190.0 90.0 12
280
El valor P para la cola derecha es:
P = P[Z > Zcalc] = P[Z > 1.7] = 1 – Ф(1.7) = 1 – 0.95543 = 0.04457 Rpta.
Como P = 0.04457 < = 0.05, entonces se rechaza la Ho y se acepta H1: A - B >
7. Se concluye también, con el 5% de significación, que el tiempo promedio que
utiliza la máquina B en el proceso es menor que el tiempo promedio de A en
menos de 7’’.
Cálculos utilizando Minitab
Los pasos son idénticos hasta antes de escoger Opciones… → Nivel de
confianza: 95.0. En Diferencia de la prueba: escribir 7. Escoger en Hipótesis
alterna: mayor que. Luego escoger Aceptar y Aceptar.
En la hoja de Sesión aparecen los resultados siguientes:
Prueba T de dos muestras e IC
Media del
Error
Muestra N Media Desv.Est. estándar
1 60 1230 120 15
2 60 1190.0 90.0 12
desconocidas)
281
Para probar la hipótesis nula H0 : 1 2 0 contra una alternativa bilateral o
Sean X 1 y X 2 las medias y S12 y S22 las varianzas de dos muestras aleatorias
independientes pequeñas (n1 < 30 y n2 < 30 respectivamente) seleccionadas de dos
poblaciones normales con medias 1 y 2 y varianzas 12 y 22 desconocidas.
Estas varianzas desconocidas presentan dos casos, ya que pueden ser iguales
(homogéneas) o diferentes (heterogéneas) cuya prueba se realiza mediante el test
de hipótesis para la razón de varianzas del acápite 6.4. Veamos ambos casos.
T
X 1
X 2 ( 1 2 )
tn1 n2 2
Sc2 Sc2
n1 n2
X1 X 2
T t n1 n2 2
S c2 S c2
n1 n2
Su valor: t x1 x 2
n1 1 S12 (n2 1)S22 1
calc
1
n1 n2 2 n1 n2
que resulta de dos muestras aleatorias, se usa para probar H0 con una alternativa
unilateral o bilateral.
282
La estructura de la prueba es similar a la usada con la distribución de t.
1. Prueba bilateral o de dos colas
Si se prueba H0 : 1 2 contra H1 : 1 2 la región crítica es el intervalo;
R.C. = T t1 / 2, n1 n2 2 o T t1 / 2, n1 n2 2
2. Prueba unilateral de cola a la derecha
Si se prueba H0 : 1 2 contra H1 : 1 2 la región crítica es el intervalo
Ejemplo 8
Se compararon dos marcas de llantas de automóvil, 1 y 2, respecto a su duración
en Km; dos muestras aleatorias de 16 llantas de cada marca, dieron estos
resultados:
n1 = 16, x1 = 49,658, S1 = 2,150 y n2 = 16, x 2 = 48,125, S2 =
1,875.
Con el 1% de significación, probar si son diferentes las duraciones medias de las
llantas de ambas marcas. Hallar el valor-P.
Solución
283
Región crítica, para = 0.01 y la prueba bilateral, en la Tabla 4 de la
distribución F, se obtiene los valores críticos: f15, 15, 0.995 = 4.07; f15, 15, 0.005 = 1 /
4.07 = 0.246.
Entonces: R.C. = {F < 0.246 o F > 4.07}
S12 2150 2
Cálculos: con los datos de la muestra se obtiene: Fcalc = 1.31
S 22 1875 2
Decisión: como Fcalc = 1.31 R.A. se acepta Ho y concluimos que las
varianzas de las duraciones de las llantas de ambas marcas son iguales, con el
1% de significación.
Cálculos utilizando Minitab
concluye también que las varianzas de las duraciones de las llantas de ambas
marcas son iguales, con el 1% de significación.
A continuación se prueba si son diferentes las duraciones medias de las llantas
de ambas marcas.
Hipótesis: H0 : 1 2 contra H1 : 1 2 = 0.01
284
X1 X 2
La estadística de prueba es: T t16162 t 30
S c2 S c2
n1 n2
Región crítica, para = 0.01 y la prueba bilateral, en la Tabla 3: t30, 0.995 = 2.75.
R.C. = {T < -2.75 o T > 2.75}
Con la información muestral: n1 = 16, x1 = 49,658, S1 = 2,150 y n2 =
16, x 2 = 48,125, S2 = 1875; y bajo el supuesto que Ho es cierta se
determina:
Sc2
n1 1 S12 (n2 1)S22 15x21502 15x18752 = 4’069062.5
n1 n2 2 16 16 2
x1 x 2 49658 48125
tcalc 2.15
Sc2 Sc2 4069062.5 4069062.5
n1 n2 16 16
286
B. Varianzas desconocidas supuestas distintas 12 22
Si las varianzas de las dos poblaciones normales independientes son desconocidas
supuestas diferentes, entonces, la estadística de prueba usada es:
T
X 1
X 2 (1 2 )
tH
S12 S22
n1 n2
2
S12 S22
Donde: H 12
n n2
2
representa los grados de libertad.
S12 S22
n1 n2
n1 1 n2 1
Dado que H rara vez es un entero, se toma la parte entera (entero mayor de H).
La prueba de hipótesis es similar a las trabajadas anteriormente con la
distribución t.
Ejemplo 9
Dos máquinas embolsan diariamente detergente de manera independiente.
Mediante muestras aleatorias sin reemplazo de 12 bolsas de cada máquina se han
obtenido los siguientes resultados sobre el peso de las bolsas (en gramos):
n1 = 12, x1 = 505, S1 = 10 y n2 = 12, x 2 = 495, S2 = 4.
Asumiendo distribución normal para el peso de las bolsas, con el 1% de
significación ¿son diferentes los pesos medios de las bolsas con detergente de
ambas máquinas? Hallar el valor-P.
Solución
Datos: n1 = 12, x1 = 505, S1 = 10 y n2 = 12, x 2 = 495, S2 = 4.
Primero se debe probar si las varianzas de los pesos de las bolsas con detergente
de ambas máquinas son iguales o no.
Hipótesis: H 0 : 12 22 , H 1 : 12 22 , = 0.01
287
Región crítica, para = 0.01 y la prueba bilateral, en la Tabla 4 de la
distribución F se obtiene los valores críticos: f11, 11, 0.995 = 5.32; f11, 11, 0.005 = 1 /
5.32 = 0.188.
R.C. = {F < 0.188 o F > 5.32}
S12 100
Cálculos: con los datos de la muestra se obtiene: Fcalc = 6.25
S 22 16
Decisión: Como Fcalc = 6.25 R.C. se rechaza Ho y concluimos que las
varianzas de los pesos de las bolsas con detergente de ambas máquinas son
diferentes ( 12 22 ), con el 1% de significación.
Cálculos utilizando Minitab
concluye también que las varianzas de los pesos de las bolsas con detergente de
ambas máquinas son diferentes ( 12 22 ), con el 1% de significación.
A continuación se prueba si son diferentes los pesos medios de las bolsas con
detergente de ambas máquinas.
Hipótesis: H0 : 1 2 contra H1 : 1 2 = 0.01
288
X1 X 2
La estadística de prueba es: T t H t14
S12 S 22
n1 n2
2
S12 S 22 100 16
2
Donde: H =
n1 n2 =
12 12 = 14.43 ≡ 14
2 2 2 2 2 2
S1 S2 100
16
1 2
n n 12
12
n1 1 n2 1 12 1 12 1
Región crítica, para = 0.01 y la prueba bilateral, en la Tabla 3: t14, 0.995 = 2.977
R.C. = {T < -2.977 o T > 2.977}
Datos del problema:
n1 = 12, x1 = 505, S12 = 100 y n2 = 12, x 2 = 495, S 22 = 16.
X1 X 2 505 495
Tcalc = 3.22
2 2
S S 100 16
1
2
n1 n2 12 12
289
Prueba T de dos muestras e IC
Media del
Error
Muestra N Media Desv.Est. estándar
1 12 505.0 10.0 2.9
2 12 495.00 4.00 1.2
290
X # de éxitos en la muestra
Donde pˆ = proporción de elementos que
n n
poseen un atributo particular en la muestra.
6. Decisión: se rechaza H0 con riesgo igual a , Z calc R.C. (o si Z calc R.A. ). No
pˆ p0 0.4725 0.50
Z calc = -1.56
p0 q0 0.5 x0.5
n 800
291
Decisión: como Zcalc = –1.64 ϵ R.C. se rechaza la hipótesis nula con el 10% de
significación. Se concluye que menos de la mitad de los compradores son capaces de
decir el precio correcto.
Límite
Muestra X N Muestra p superior 90% Valor Z Valor P
1 378 800 0.472500 0.495121 -1.56 0.060
Aparecen los resultados antes obtenidos Zcalc = -1.56 y el valor-P = 0.06 < = 0.10 entonces se
rechaza la hipótesis nula y se concluye también que menos de la mitad de los compradores son
capaces de decir el precio correcto, con el 10% de significación.
292
6.8 PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE DOS
PROPORCIONES
X1 X2
muestra: pˆ 1 y pˆ 2 . Donde:
n1 n2
X1: Es el número de éxitos en la muestra de tamaño n1
X2: Es el número de éxitos en la muestra de tamaño n2
El valor de la normal estándar Z, cuando Ho es verdadera y n1, n2 son grandes
es:
pˆ 1 pˆ 2 pˆ 1 pˆ 2
Z
p1q1 p2 q2
1 1
pq
n1 n2 n1 n2
Para calcular Z, se estima el valor de p que aparece dentro del radical así:
X1 X 2
pˆ → q̂ = 1- p̂
n1 n2
pˆ 1 pˆ 2
Entonces el valor de la estadística Z, es: Z calc
1 1
pˆ qˆ
n1 n2
Luego usando los puntos críticos de la curva normal estándar se puede hallar
la región crítica para cada hipótesis alternativa.
293
PASOS PARA PROBAR LA HIPOTESIS DE DOS PROPORCIONES,
CUANDO LAS MUESTRAS SON GRANDES:
1. Ho: p1 = p2 o p1 - p2 = 0
H1: puede ser una de las alternativas.
H1: p1 < p2 o H1: p1 > p2 o H1: p1 ≠ p2
H1: p1 - p2 < 0 o H1: p1 - p2 > 0 o H1: p1 - p2 ≠ 0
2. Escoger un nivel de significación .
3. La estadística de prueba es la variable aleatoria Pˆ1 Pˆ2 , que tiene una
distribución aproximadamente normal cuando n1 y n2 son grandes. Es decir:
pˆ 1 pˆ 2
Z → N(0, 1)
p1q1 p2 q2
n1 n2
Suponiendo que Ho es verdadera.
4. Región Critica:
R.C. = {Z < Zα/2 = - Z1- α/2 o Z > Z1- α/2 } para H1: p1 ≠ p2
R.C. = {Z > Z1-α} para H1: p1 > p2
R.C. = {Z < Zα = -Z1-α} para H1: p1 < p2
5. Para los cálculos se halla:
X1 X2 X1 X 2
pˆ 1 , pˆ 2 y pˆ
n1 n2 n1 n2
pˆ 1 pˆ 2
Luego: Z calc
1 1
pˆ qˆ
n1 n2
6. Decisión: Rechazar: Ho; si Z pertenece a la región crítica; en caso contrario
aceptar Ho.
Método del valor P (o P-valor o sig o Probab, etc.)
295
Cálculos utilizando Minitab
Muestra X N Muestra p
1 52 203 0.256158
2 56 270 0.207407
Aparecen los resultados antes obtenidos Zcalc = 1.25 y el valor-P = 0.211 > = 0.05 entonces no se
rechaza la hipótesis nula y se concluye también que las proporciones de anuncios cómicos de las
revistas británicas y americanas son iguales, con el 5% de significación.
296
PRUEBAS DE HIPÓTESIS PARA UN SOLO PARÁMETRO
Fc <f α/2 o
12 ≠ 22 Fc > f1 – α/2
μ1 - μ2 ≠ μ0 normales, con 1 2
y 2 2
Sp |Tc| > t1 – α/2
desconocidas pero iguales 1
n n2
(varianzas homogéneas).
297
μ1 - μ2 > μ0 3. Dos muestras aleatorias X 1 X 2 0 Tc > t1 – α
μ1 - μ2 < μ0 independientes de poblaciones Tc S 2
S 2
tH Tc < tα
μ1 - μ2 ≠ μ0 normales con 12 y 22
1
2 |Tc| > t1 – α/2
n1 n2
desconocidas pero diferentes 2
(varianzas heterogéneas). S12 S22
Con: H 12
n n2
2
S12 S22
n1 n2
n1 1 n2 1
298
6.9 PROBLEMAS RESUELTOS
299
Como el valor-P = 0.0801 > = 0.05 no se rechaza Ho y se concluye también
con un 5% de significación que se está cumpliendo con el contenido medio en
las bolsas de gelatina.
b) Para verificar la hipótesis acerca de la varianza, se siguen los siguientes
pasos:
1. Hipótesis : H0: σ2 = 250 H1: σ2 250
2. Nivel de significación: = 0.05
3. Estadística de prueba: población normal, con n = 36, y suponiendo
verdadera la hipótesis H0, la estadística de prueba es:
(n 1)S 2 (n 1)S 2
2 35
2
2 250
4. Región crítica: Para = 0.05 y para un contraste bilateral, en la tabla 2 de
chi-cuadrado se encuentran los siguientes valores críticos:
2 / 2,n1 02.025, 35 20.6 y 12 / 2,n1 02.975.35 53.2
Luego, la región crítica es: R.C. {X2 < 20.6 o X2 > 53.2}
5. Cálculos: De los datos de la muestra resulta S2 = 122 = 144, entonces,
(n 1)S 2 35S 2 35 (144)
calc
2
20.2
250 250 250
301
Como P = 0.0113 > = 0.01 se acepta Ho y se concluye también con =
0.01 que el tiempo medio de vida de los artículos de la empresa es de 45 090
horas.
b) Para verificar la hipótesis acerca de la varianza, se siguen los siguientes
pasos:
1. Hipótesis: H0: σ = 200 → σ2 = 40000 H1: σ 200 → H1: σ2
40000
2. Nivel de significación: = 0.05
3. Estadística de prueba: población normal, con n = 31, y suponiendo
verdadera H0, la estadística de prueba es:
(n 1)S 2 (31 1)S 2
2 30
2
2 40000
4. Región crítica: Para = 0.05 y para un contraste bilateral, en la tabla 2 de
chi-cuadrado se encuentran los siguientes valores críticos:
2 / 2,n1 02.025, 30 16.8 y 12 / 2,n1 02.975.30 47.0
Luego, la región crítica es: R.C. {X2 < 16.8 o X2 > 47.0}
5. Cálculos: De los datos de la muestra resulta S2 = 1712 = 29 241, entonces,
(n 1)S 2 30S 2 30 (29241)
calc
2
21.9
40000 40000 40000
302
23.4 0.20 28 x – 2.8 = 1.3 x = 0.1464
Reemplazando x = 0.1464 en (1) se obtiene:
P = P-valor = 2{0.1464} = 0.2928 Rpta.
Como el valor-P = 0.2928 > = 0.05 se acepta H0: σ = 200. Por lo tanto, se
concluye también con un 5% de significación que la desviación estándar del
tiempo de vida de los artículos de la empresa es igual a 200 horas.
2 200
4. Región crítica: Para = 0.01 y para un contraste unilateral izquierdo, en la
tabla 2 de chi-cuadrado se encuentran el valor crítico siguiente:
2, n1 02.01, 40 22.2
Luego, la región crítica es: R.C. {X2 < 22.2}
5. Cálculos: De los datos de la muestra resulta S2 = 122 = 144, entonces,
(n 1)S 2 40S 2 40 (144)
2
calc 28.8
200 200 200
304
Como el valor-P = 0.0942 > = 0.05 se acepta H0: σ2 = 200. Por lo tanto, se
concluye también con el 1% de significación, que la varianza del contenido
en las bolsas de sal es igual a 200 gr2.
4. Una muestra de 50 animales experimentales reciben una cierta clase de ración
por un período de 2 semanas. Sus aumentos de pesos arrojan los valores x =
420 gr. y S = 60 gr.
a) ¿Hay razón para creer que el aumento de peso neto medio poblacional es
mayor a 410 gr? Use α = 0.01. Halle p-valor.
b) Con α = 0.01 ¿Será rechazada la hipótesis σ2 = 2500 gr2 a favor de σ2 >
2500? Halle p-valor.
Solución
a) Sea X la variable aleatoria definida como el aumento de peso en los animales.
1. Hipótesis: H0: = 410 gr. H1: > 410
2. Nivel de significación: = 0.01
3. Estadística de prueba: para muestras grandes (n ≥ 30) es:
X
Z cuya distribución es N(0,1).
/ n
4. Región crítica: para = 0.01 y la alternativa unilateral derecha, en la Tabla
1 de la normal estándar, se encuentra el valor crítico: Z1- = Z0.99 = 2.33
Luego, la región crítica en la variable Z está dada por:
RC Z calc 2.33
5. De los datos se tiene: n = 50, x 420, ˆ S 60 , = 410.
x 420 410
Entonces: Z calc 1.18 ϵ R.A.
/ n 60 / 50
6. Decisión: no se rechaza H0: = 410 y se concluye al 1% de significación,
que el aumento de peso neto medio de los animales es igual a 410 gr.
P = P[Z > 1.18] = 1 - P[Z ≤ 1.18] = 1 – 0.881 = 0.119 Rpta.
Como valor-P = 0.119 > = 0.01 no se rechaza Ho y se concluye también
con = 0.01, que el aumento de peso neto medio de los animales es igual a
430 gr.
305
b) Para verificar la hipótesis acerca de la varianza, se siguen los siguientes
pasos:
1. Hipótesis: H0: σ2 = 2500 gr2 H1: σ2 > 2500 gr2
2. Nivel de significación: = 0.01
3. Estadística de prueba: población normal, con n = 50, y suponiendo
verdadera H0, la estadística de prueba es:
(n 1)S 2 (50 1)S 2
2 49
2
2 2500
4. Región crítica: Para = 0.01 y para el contraste unilateral derecho, en la
tabla 2 de chi-cuadrado se encuentran el valor crítico siguiente:
12 , n1 02.99, 49 74.9
Luego, la región crítica es: R.C. {X2 > 74.9}
5. Cálculos: De los datos de la muestra resulta S2 = 602 = 3600, entonces,
(n 1)S 2 49S 2 49 (3600)
calc
2
70.6
2500 2500 2500
306
Como el valor-P = 0.0237 > = 0.01 se acepta H0: σ2 = 2500. Por lo tanto, se
concluye también con el 1% de significación, que la varianza del aumento del
peso neto de los animales es igual a 2500 gr2.
307
P = P[|Z| > |-3.81|] = P[|Z| > 3.81] = 2 P[Z < -3.81] = 2(0.000) = 0.000.
Rpta.
Como P = 0.000 < = 0.05 se rechaza Ho y se concluye también con =
0.05, que el número medio de días de enfermedad de los estudiantes es
diferente a 6.
2 50
4. Región crítica: para = 0.01 y el contraste unilateral izquierdo, en la tabla
2 de chi-cuadrado se encuentran el valor crítico siguiente:
2, n1 02.01, 49 28.9
Luego, la región crítica es: R.C. {X2 < 28.9}
5. Cálculos: De los datos de la muestra resulta S2 = 5.22 = 27.04, entonces,
(n 1)S 2 49S 2 49 (27.04)
calc
2
26.5
50 50 50
Como el valor-P = 0.0041 < = 0.01 se rechaza H0: σ2 = 50. Por lo tanto, se
concluye también con el 1% de significación, que la varianza del número de
días de enfermedad de los estudiantes es diferente a 50 días2.
308
6. Las calificaciones de diez estudiantes en un examen de estadística fueron: 43,
61, 67, 70, 74, 76, 79, 85, 94 y 81. Suponga que estas calificaciones proceden de
una población normal.
a) Ponga a prueba H0: μ = 70 contra H1: μ ≠ 70, con un nivel de significación del
5%. Halle p-valor.
b) Ponga a prueba H0: σ2 = 500 contra H1: σ2 ≠ 500, con un nivel de
significación de 0.05. Halle p-valor.
Solución
a) Sea X la variable aleatoria definida como las calificaciones de los alumnos.
1. Hipótesis: H0: μ = 70 H1: μ ≠ 70
2. Nivel de significación: = 0.05.
x
3. Estadística de prueba: T t9
S/ n
4. Región crítica: para = 0.05 y la alternativa bilateral, se encuentra el valor
crítico en la Tabla 3: t1-/2, n-1 = t0.975, 9 = 2.262
Luego, la región crítica en la variable T es: R.C = {T < -2.262 o T >
2.262}
5. Cálculos, con los datos se obtiene: n = 10, x = 73, S = 14.08 y μ=
70
x 73 70
Entonces: Tcalc = 0.67
S / n 14.08 / 10
6. Decisión: puesto que Tcalc = 0.67 ϵ R.A., se acepta H0 y se concluye con un
5% de significación que la nota promedio de los alumnos es de 70 puntos.
Siendo la prueba bilateral, entonces p-valor = P es:
P = P[|T9| > |0.67|] = 2 P[T9 > 0.67] = 2{1 - P[T9 ≤ 0.67]} = 2 (1 – 0.75) = 0.50
Rpta.
Ya que en la tabla 3, T de student, para 9 grados de libertad, al valor 0.67 =
0.70, le corresponde una probabilidad acumulada de 0.75.
Como el valor-P = 0.50 > = 0.05, se acepta Ho: μ = 70 y se concluye
también, con un 5% de significación, que la nota promedio de los alumnos es
de 70 puntos.
309
b) Para verificar la hipótesis acerca de la varianza, se siguen los siguientes
pasos:
1. Hipótesis: H0: σ2 = 500 H1: σ2 ≠ 500
2. Nivel de significación: = 0.05
3. Estadística de prueba: población normal, con n = 10, y suponiendo
verdadera H0, la estadística de prueba es:
(n 1)S 2 (10 1)S 2
2 92
2 500
4. Región crítica: Para = 0.05 y para un contraste bilateral, en la tabla 2 de
chi-cuadrado se encuentran los siguientes valores críticos:
2 / 2,n1 02.025, 9 2.70 y 12 / 2,n1 02.975.9 19.0
Luego, la región crítica es: R.C. {X2 < 2.70 o X2 > 19.0}
5. Cálculos: De los datos de la muestra resulta S2 = 14.082 = 198.25,
entonces,
(n 1)S 2 9S 2 9 (198.25)
calc
2
3.57
500 500 500
310
Como el valor-P = 0.128 > = 0.05 se acepta H0: σ2 = 500. Por lo tanto, se
concluye también con un 5% de significación, que la varianza de las notas de
los alumnos es igual a 500 puntos2.
7. Los pesos de los paquetes de arroz embolsado es de 15 Kg. Una muestra
aleatoria de 8 paquetes da una media de 15.3 Kg. y una desviación típica de
1.211 Kg. Suponga que los pesos se distribuyen normalmente.
a) Con una significación del 5 % pruebe si el verdadero peso medio de los
paquetes de arroz es distinto de 15 Kg. Halle p-value.
b) Ponga a prueba H0: σ2 = 5 contra H1: σ2 ≠ 5, con un α = 0.05. Halle p-valor.
Solución
a) Sea X la variable aleatoria definida como el peso de los paquetes de arroz.
1. Hipótesis: H0: μ = 15 H1: μ ≠ 15
2. Nivel de significación: = 0.05.
x
3. Estadística de prueba: T t7
S/ n
4. Región crítica: para = 0.05 y la alternativa bilateral, se encuentra el valor
crítico en la Tabla 3: t1-/2, n-1 = t0.975, 7 = 2.365
Luego, la región crítica en la variable T es: R.C = {T < -2.365 o T >
2.365}
5. Cálculos, con los datos se obtiene: n = 8, x = 15.3, S = 1.211 y μ=
15
x 15.3 15
Entonces: Tcalc = 0.70
S / n 1.211 / 8
6. Decisión: puesto que Tcalc = 0.70 ϵ R.A., se acepta H0 y se concluye con un
5% de significación que el peso medio de los paquetes de arroz es igual a
15 Kg.
Siendo la prueba bilateral, entonces p-valor = P es:
P = P[|T7| > |0.70|] = 2 P[T7 > 0.70] = 2{1 - P[T7 ≤ 0.70]} = 2 (1 – 0.75) = 0.50
Rpta.
Ya que en la tabla 3, T de student, para 7 grados de libertad, al valor 0.70, le
corresponde una probabilidad acumulada cercana a 0.75.
311
Como el valor-P = 0.50 > = 0.05, se acepta Ho: μ = 15 y se concluye
también, con un 5% de significación, que el peso medio de los paquetes de
arroz es igual a 15 Kg.
b) Para verificar la hipótesis acerca de la varianza, se siguen los siguientes
pasos:
1. Hipótesis: H0: σ2 = 5 H1: σ2 ≠ 5
2. Nivel de significación: = 0.05
3. Estadística de prueba: población normal, con n = 8, y suponiendo
verdadera H0, la estadística de prueba es:
(n 1)S 2 (8 1)S 2
2
72
2 5
4. Región crítica: Para = 0.05 y para un contraste bilateral, en la tabla 2 de
chi-cuadrado se encuentran los siguientes valores críticos:
2 / 2,n1 02.025, 7 1.69 y 12 / 2,n1 02.975.7 16.0
Luego, la región crítica es: R.C. {X2 < 1.69 o X2 > 16.0}
5. Cálculos: De los datos de la muestra resulta S2 = 1.2112 = 1.467, entonces,
(n 1)S 2 7S 2 7 (1.467)
2
calc 2.05
5 5 5
313
Ya que en la tabla 3, T de student, para 4 grados de libertad, no está el valor
4.0, se interpola y obtiene una probabilidad acumulada de 0.9915.
Como el valor-P = 0.0085 < = 0.01, se rechaza Ho: μ = 22 y se concluye
también, con el 1% de significación, que el punto medio de ruptura de los
fusibles es mayor de 22 amperes.
b) Para verificar la hipótesis acerca de la varianza, se siguen los siguientes
pasos:
1. Hipótesis: H0: σ2 = 30 amp2 H1: σ2 < 30
2. Nivel de significación: = 0.01
3. Estadística de prueba: población normal, con n = 5, y suponiendo
verdadera H0, la estadística de prueba es:
(n 1)S 2 (5 1)S 2
2 42
2 30
4. Región crítica: Para = 0.01 y para un contraste de la cola izquierda, en la
tabla 2 de chi-cuadrado se encuentra el siguiente valor crítico:
2, n1 02.01. 4 0.297
Luego, la región crítica es: R.C. {X2 < 0.297}
5. Cálculos: De los datos de la muestra resulta S2 = 20, entonces,
(n 1)S 2 4S 2 4 (20)
calc
2
2.67
30 30 30
314
9. Un fabricante sostiene que sus autos consumen en promedio 2.50 galones de
gasolina cada 100 Km. Un vendedor de la compañía comprueba el consumo de
gasolina de 25 autos y encuentra que el consumo medio es de 2.61 galones cada
100 Km. con una desviación estándar de 0.25 galones.
a) ¿puede dudarse de lo sustentado por el fabricante? Use α = 0.01. Halle p-
valor.
b) ¿Será rechazada la hipótesis σ2 ≠ 0.38? Use α = 0.01. Halle p-valor.
Solución
a) Sea X la variable definida como el número galones consumidos cada 100 Km.
1. Hipótesis: H0: μ = 2.5 galones H1: μ ≠ 2.5
2. Nivel de significación: = 0.01.
x
3. Estadística de prueba: T t 24
S/ n
4. Región crítica: para = 0.01 y la prueba es bilateral, se encuentra el valor
crítico en la Tabla 3: t1-/2, n-1 = t0.995, 24 = 2.797
Luego, la región crítica en la variable T es: R.C = {T < -2.797 o T >
2.797 }
5. Cálculos, con los datos se obtiene: n = 25, x = 2.61, S = 0.25 y μ=
2.5
x 2.61 2.50
Entonces: Tcalc = 2.2
S / n 0.25 / 25
6. Decisión: puesto que Tcalc = 2.2 ϵ R.A., no se rechaza H0 y se concluye con
el 1% de significación que el consumo medio de gasolina en los autos es
de 2.5 galones cada 100 Km. y no puede dudarse de lo sustentado por el
fabricante.
Siendo la prueba bilateral, entonces p-valor = P es:
P = P[|T24| > |2.2|] = 2 P[T24 > 2.2] = 2{1 - P[T24 ≤ 2.2]} = 2 (1 – 0.98) = 0.04
Rpta.
Ya que en la tabla 3, T de student, para 24 grados de libertad, no está el valor
2.2, se interpola y obtiene una probabilidad acumulada de 0.98.
315
Como el valor-P = 0.04 > = 0.01, no se rechaza Ho: μ = 2.5 y se concluye
también, con el 1% de significación, que el consumo medio de gasolina en los
autos es de 2.5 galones cada 100 Km.
2 0.38
4. Región crítica: Para = 0.01 y para un contraste bilateral, en la tabla 2 de
chi-cuadrado se encuentran los siguientes valores críticos:
2 / 2,n1 02.005, 24 9.89 y 12 / 2,n1 02.995. 24 45.6
Luego, la región crítica es: R.C. {X2 < 9.89 o X2 > 45.6}
5. Cálculos: De los datos de la muestra resulta S2 = 0.252 = 0.0625, entonces,
(n 1)S 2 24S 2 24 (0.0625)
calc
2
3.95
0.38 0.38 0.38
316
10. Una muestra de 25 clientes de cierta gasolinera indica que el número medio de
galones comprados a la semana es de x = 14.3 y la desviación estándar de S =
2.7 galones.
a) Con el 5 % de significación. ¿Hay razón para creer que el verdadero número
medio de galones comprados a la semana por cliente es menor de 15.6?
Determine el p-valor.
b) Con α = 0.05 ¿Aceptaría usted que σ2 > 4.1? Determine el p-valor.
Solución
a) Sea X la variable definida como el número de galones de gasolina comprados
a la semana por un cliente.
1. Hipótesis: H0: μ = 15.6 galones H1: μ < 15.6
2. Nivel de significación: = 0.05.
x
3. Estadística de prueba: T t 24
S/ n
4. Región crítica: para = 0.05 y la prueba de la cola izquierda, se encuentra
el valor crítico en la Tabla 3: t, n-1 = -t1-, n-1 → t0.05, 24 = -t0.95, 24 = -1.711.
Luego, la región crítica en la variable T es: R.C = {T < -1.711}
5. Cálculos, con los datos se obtiene: n = 25, x = 14.3, S = 2.7 y μ=
15.6
x 14.3 15.6
Entonces: Tcalc = -2.41
S/ n 2.7 / 25
6. Decisión: puesto que Tcalc = -2.41 ϵ R.C., se rechaza H0 y se concluye con
el 5% de significación, que el consumo medio semanal de gasolina por
cliente es menor a 15.6 galones.
Siendo la prueba unilateral izquierda, entonces p-valor = P es:
P = P[T24 < -2.41] = 1 - P[T24 ≤ 2.41] = 1 – 0.987 = 0.013 Rpta.
Ya que en la tabla 3, T de student, para 24 grados de libertad, no está el valor
2.41, se interpola y obtiene una probabilidad acumulada de 0.987.
Como el valor-P = 0.013 < = 0.05, rechaza Ho: μ = 15.6 y se concluye
también, con el 5% de significación, que el consumo medio semanal de
gasolina por cliente es menor a 15.6 galones.
317
b) Para verificar la hipótesis acerca de la varianza, se siguen los siguientes
pasos:
1. Hipótesis: H0: σ2 = 4.1 galones2 H1: σ2 > 4.1
2. Nivel de significación: = 0.05
3. Estadística de prueba: población normal, con n = 25, y suponiendo
verdadera H0, la estadística de prueba es:
(n 1)S 2 (25 1)S 2
2 24
2
2 4.1
4. Región crítica: Para = 0.05 y para un contraste unilateral derecho, en la
tabla 2 de chi-cuadrado se encuentran el siguiente valor crítico:
12 ,n1 02.95, 24 36.4
Luego, la región crítica es: R.C. {X2 > 36.4}
5. Cálculos: De los datos de la muestra resulta S2 = 2.72 = 7.29, entonces,
(n 1)S 2 24S 2 24 (7.29)
calc
2
42.7
4.1 4.1 4.1
x1 x 2 46300 48100
Z calc 1.27
ES 1416.61
6. Decisión: ya que Zcalc = -1.27 R.A., no se rechaza Ho y se concluye con el
1% de significación, que la duración media de las llantas marca 1 y 2 es la
misma.
319
Como P = 2041 > = 0.01 no se rechaza Ho y se concluye también que la
duración media de las llantas de marcas es la misma, con el 1% de
significación.
12. Muestras del pago por hora para los choferes de camiones en las ciudades 1 y 2
proporcionan los siguientes datos:
320
S12 S 22 0.16 2 0.15 2
E.S. = Error estándar = = 0.036
n1 n2 35 40
x1 x 2 5.30 5.40
Z calc 2.78
ES 0.036
6. Decisión: ya que Zcalc = -2.78 R.C., se rechaza Ho y se concluye con el 1%
de significación, que el pago medio por hora a los choferes de camión de la
ciudad 1 es menor que el pago medio por hora a los choferes de la ciudad 2.
321
4. Región Crítica. Para = 0.05 y la alternativa bilateral, en la Tabla 1 de la
normal estándar, se encuentra el valor crítico: Z1-/2 = Z0.975 = 1.96
Luego, la región crítica en la variable Z está dada por:
RC = {Zcalc < -1.96 o Zcalc > 1.96}
5. Cálculos, de los datos se tiene:
n1 = 200, x1 = 150, S1 = 35 y n2 = 180, x 2 = 140, S2 = 30.
S12 S 22 35 2 30 2
E.S. = Error estándar = = 3.34
n1 n2 200 180
x1 x 2 150 140
Z calc = 2.99
ES 3.34
6. Decisión: ya que Zcalc = 2.99 R.C., se rechaza Ho y se concluye con el 5%
de significación, que el gasto medio semanal en alimentos en las ciudades 1 y
2 es diferente.
322
1 es mayor que el gasto medio mensual en educación de la ciudad 2, se
comparan sus gastos medios: 1 > 2.
1. Hipótesis: H0: 1 = 2 contra H1: 1 > 2
2. Nivel de significación: = 0.05.
3. Estadística de prueba: si se supone verdadera la hipótesis Ho y para muestras
grandes, la estadística apropiada es:
X1 X 2
Z N (0, 1)
12 22
n1 n2
4. Región Crítica. Para = 0.05 y la alternativa unilateral derecha, en la Tabla 1
de la normal estándar, se encuentra el valor crítico: Z1- = Z0.95 = 1.645.
Luego, la región crítica en la variable Z está dada por: RC = { Zcalc > 1.645}
5. Cálculos, de los datos se tiene:
n1 = 200, X 1 = 160, S1 = 60 y n2 = 150, X 2 = 150, S2 = 50.
S12 S 22 60 2 50 2
E.S. = Error estándar = = 5.89
n1 n2 200 150
x1 x 2 200 150
Z calc = 1.70
ES 5.89
6. Decisión: ya que Zcalc = 1.70 R.C., se rechaza Ho y se concluye con el 5%
de significación, que el gasto medio mensual en educación de la ciudad 1 es
mayor que el gasto medio mensual en educación de la ciudad 2.
S A2 S B2 70 2 90 2
E.S. = Error estándar = = 10.37
n A nB 121 121
x A x B 650 675
Z calc = -2.41
ES 10.37
6. Decisión: ya que Zcalc = -2.41 R.A., no se rechaza Ho y se concluye con el
1% de significación, que es igual el costo medio mensual de la enseñanza en
las universidades A y B.
324
Como P = 0.01596 > = 0.01 se acepta Ho y se concluye también que el
costo medio mensual de la enseñanza en ambas universidades es igual, con el
1% de significación.
S12
F f12,10
S 22
4. Región crítica. Para = 0.05 y la prueba bilateral en la Tabla 4, los valores
críticos F son: f12, 10, 0.025 = 1/ f10, 12, 0.975 = 1/ 3.37 = 0.297 y f12, 10, 0.975 =
3.62.
S12 100
S12 = 100, S 22 = 49 y Fcalc = 2.04
S 22 49
325
6. Decisión. Como Fcalc = 2.04 R.A. se acepta Ho y concluimos que las
varianzas del número de piezas producidas en los turnos diurno y nocturno
son iguales (homogéneas), con el 5% de significación.
El valor P para la prueba bilateral y como Fcalc = 2.04 > 1 se obtiene así:
P = 2 P[f12,10 > 2.04] = 2 {1 - P[f12,10 ≤ 2.04]} > 0.10 (en Excel 0.2674).
Rpta.
Ya que en la Tabla 4 de la F, para 12 y 10 grados de libertad, la probabilidad
acumulada hasta 2.04 es menor a 0.95 (en Excel es 0.8663).
Como P > 0.10 > = 0.05, se acepta la hipótesis nula y se concluye también
que las varianzas del número de piezas producidas en los turnos diurno y
nocturno son homogéneas, con el 5% de significación.
b) A continuación se prueba si es diferente la producción media de los dos
turnos.
1. Hipótesis: H0: 1 = 2 y H1: 1 ≠ 2
2. Nivel de significación: = 0.05
3. La estadística de prueba cuando las varianzas son homogéneas es:
X1 X 2
T t13112 t 22
S c2 S c2
n1 n2
4. Región crítica, para = 0.05 y la prueba bilateral, en la Tabla 3: t22, 0.975 =
2.074. Entonces:
R.C. = {T < -2.0745 o T > 2.074}
5. Con la información muestral: n1 = 13, X 1 = 82, S1 = 10 y n2 = 11, X 2 =
74, S2 = 7; y bajo el supuesto que Ho es cierta se determina:
S 2
n1 1 S12 (n2 1)S22 13x102 11x72
= 83.59
n1 n2 2 13 11 2
c
x1 x 2 82 74
tcalc 2.14
Sc2 Sc2 83.59 83.59
13 11
n1 n2
328
b) A continuación se prueba si el peso medio de las latas con café de la máquina
2, es mayor que el peso medio de las latas con café de la máquina 1.
1. Hipótesis: H0: 1 = 2 y H1: 2 > 1
2. Nivel de significación: = 0.01
3. La estadística de prueba cuando las varianzas son heterogéneas es:
X 2 X1
T t H t 23
S12 S 22
n1 n2
2
S12 S 22 81 25
2
Donde: H =
n1 n2
=
16 16 = 23.45 ≡ 23
2 2 2 2
S12 S 22 81 25
n1 n2 16 16
n1 1 n2 1 16 1 16 1
329
18. En un colegio de secundaria, el cociente de inteligencia de 15 alumnos del turno
diurno, dio un promedio de 112 con una desviación estándar de 6; mientras que
para 15 estudiantes del turno nocturno, dio un promedio de 105 con una
desviación estándar de 15. Con el 1% de significación pruebe sí:
a) ¿Son heterogéneas las varianzas de ambos grupos? Halle p-valor.
b) ¿Son diferentes los cocientes medios de inteligencia de los 2 turnos? Halle p-
valor.
Solución
330
El valor P para la prueba bilateral y como Fcalc = 0.16 < 1 se obtiene así:
P = 2 P[f14,14 < 0.16] = 2 P[1/ f14,14 ≥ 1/ 0.16] = 2 P[f14,14 ≥ 6.25] =
= 2 {1 - P[f14,14 ≤ 6.25]} < 0.01 (en Excel 0.0016). Rpta.
Ya que en la Tabla 4 de la F, para 14 y 14 grados de libertad, la probabilidad
acumulada hasta 6.25 es mayor a 0.995 (en Excel es 0.9992).
Como P < 0.01 < = 0.01, se rechaza la hipótesis nula y se concluye también
que las varianzas de los cocientes de inteligencia de ambos turnos son
diferentes (heterogéneas), con el 1% de significación.
331
Para dos colas: P = 2P[T18 > 1.68] = 2[1 – P(T18 ≤ 1.68)] = 2[1 – x] …….. (1)
En la Tabla 3, T de student, con 18 grados de libertad, no está el valor 1.68,
se determina x interpolando así:
Tα P
1.330 0.90
Sean X1 y X2 las variables que representan el sueldo de los hombres (1) y de las
mujeres (2) respectivamente. Asumiendo que las dos poblaciones se distribuyen
normalmente con varianzas desconocidas y las muestras son pequeñas (n1 y n2 <
30) primero se prueba si las varianzas son heterogéneas, para según ello probar
si el sueldo medio de las mujeres es menor que el de los hombres.
Datos: n1 = 20, X 1 = $ 540, S1 = $ 16 y n2 = 20, X 2 = $ 530, S2 = $
15.
a) 1. Hipótesis: H0: 12 = 22 H1: 12 ≠ 22
2. Nivel de significación: = 0.01
332
3. Estadística de prueba: suponiendo las poblaciones normales y la hipótesis
nula cierta, para n1 = n2 = 20, la estadística de prueba es:
S12
F 2 f19,19
S2
4. Región crítica. Para = 0.01 y la prueba bilateral en la Tabla 4, los valores
críticos F son: f19, 19, 0.005 = 1/ f19, 19, 0.995 = 1/ 3.43 = 0.292 y f19, 19, 0.995 =
3.43.
R.C. = {F < 0.292 o F > 3.43}
5. Cálculos: con los datos de la muestra se obtiene:
S12 256
2 2
S = 256, S = 225 y Fcalc
1 2 2 = 1.14
S 2 225
Sc2
n1 1 S12 (n2 1)S22 19 x162 19 x152 = 240.5
n1 n2 2 20 20 2
X 2 X1 530 540
tcalc 2.04
Sc2 Sc2 240.5 240.5
20 20
n1 n2
335
3.03 0.99 33.33 x – 32.5 = 0.25 x = 0.983
Reemplazando x = 0.983 en (1) se tiene:
P = 2 {1 – 0.983} = 0.034 Rpta.
Como P = 0.034 < = 0.05, se rechaza la hipótesis nula y se concluye
también que las varianzas de los gastos mensuales en seguridad particular
realizada por las empresas comerciales de ambas ciudades son diferentes
(heterogéneas), con el 5% de significación.
Para dos colas: P = 2P[T31 > 2.61] = 2[1 – P(T31 ≤ 2.61)] = 2[1 – x] …….. (1)
336
En la Tabla 3, T de student, con 31 grados de libertad, no está el valor 2.61,
pero éste se encuentra entre los valores 2.453 (con probabilidad 0.99) y 2.744
(con probabilidad 0.995) para hallar x se interpola así:
Tα P
2.453 0.990
pˆ p0
3. Estadística de prueba: Z N (0,1)
p0 q0
n
4. Región crítica, para = 0.05 y la prueba unilateral izquierda, en la Tabla 1 el
valor crítico es: Zα = -Z1-α = -Z0.95 = -1.645. Entonces: R.C. = {Z < -1.645}
5. Con la información muestral: n = 1000, pˆ 0.305 y bajo el supuesto que
Ho: p = p0 = 0.34 es cierta, se determina:
337
pˆ p0 0.305 0.34
Z calc = -2.33
p0 q0 0.34 x0.66
n 1000
6. Decisión: como Zcalc = –2.33 ϵ R.C. se rechaza la hipótesis nula y se concluye
con el 5% de significación, que menos del 34 % (p < 0.34) de hogares
limeños compra periódicos y revistas (la estimación muestral indica que es el
30.5%).
P = P[Z < Zcalc] = P[Z < -2.33] = Ф(-2.33) = 0.0099 Rpta.
pˆ p0
3. Estadística de prueba: Z N (0,1)
p0 q0
n
4. Región crítica, para = 0.01 y la prueba bilateral, en la Tabla 1 el valor
crítico es: Z1-α/2 = Z0.995 = 2.575. Entonces: R.C. = {Z < -2.575 o Z >
2.575}
X 644
5. Con la información muestral: n = 800, X = 644, pˆ = 0.805 y
n 800
bajo el supuesto que Ho: p = p0 = 0.75 es cierta, se determina:
338
pˆ p0 0.805 0.75
Z calc = 3.59
p0 q0 0.75 x0.25
n 800
pˆ p0
3. Estadística de prueba: Z N (0,1)
p0 q0
n
4. Región crítica, para = 0.05 y la prueba unilateral derecha, en la Tabla 1 el
valor crítico es: Z1-α = Z0.95 = 1.645. Entonces: R.C. = {Z > 1.645}
339
X 400
5. Con la información muestral: n = 500, X = 400, pˆ = 0.80 y bajo
n 800
el supuesto que Ho: p = p0 = 0.75 es cierta, se determina:
pˆ p0 0.80 0.75
Z calc = 2.58
p0 q0 0.75 x0.25
n 500
6. Decisión: como Zcalc = 2.58 ϵ R.C. se rechaza la hipótesis nula y se concluye
con el 5% de significación, que más del 75 % (p > 0.75) de los ciudadanos
limeños perciben que hay problemas de seguridad (la estimación muestral
señala que es 0.80 o el 80%).
Como la prueba es unilateral derecha, el valor-P se determina así:
P = P[Z > Zcalc] = P[Z > 2.58] = 1 – Ф(2.58) = 1 – 0.99506 = 0.00494
Rpta.
Como el valor-P = 0.00494 < = 0.05 se rechaza la hipótesis nula y se
concluye también que más del 75 % (p > 0.75) de los ciudadanos limeños
perciben que hay problemas de seguridad, con el 1% de significación.
Error tipo II.- consiste en aceptar Ho (que el 75% de los ciudadanos limeños
percibe que hay problemas de seguridad) cuando es falsa (este porcentaje
realmente es de más del 75%).
24. Se tomó una muestra aleatoria de 300 compradores en un centro comercial y se
encontró que 182 están a favor de un horario más amplio para las compras.
¿Esta evidencia es suficiente para concluir que menos del 65 % de los
compradores están a favor de un horario más extenso? Use un nivel de
significación de 0.05. Halle p-valor.
Solución
340
pˆ p0
3. Estadística de prueba: Z N (0,1)
p0 q0
n
4. Región crítica, para = 0.05 y la prueba unilateral izquierda, en la Tabla 1 el
valor crítico es: Zα = -Z1-α = -Z0.95 = -1.645. Entonces: R.C. = {Z < -1.645}
X 182
5. Con la información muestral: n = 300, X = 182, pˆ = 0.607 y
n 300
bajo el supuesto que Ho: p = p0 = 0.65 es cierta, se determina:
pˆ p0 0.607 0.65
Z calc = -1.56
p0 q0 0.65 x0.35
n 300
6. Decisión: como Zcalc = -1.56 ϵ R.A. no se rechaza la hipótesis nula y se
concluye con el 5% de significación, que el 65 % (p = 0.65) de los
compradores están a favor de un horario más extenso en el centro comercial.
Como la prueba es unilateral izquierda, el valor-P se determina así:
P = P[Z < Zcalc] = P[Z < -1.56] = Ф(-1.56) = 0.05938 Rpta.
Como el valor-P = 0.05938 > = 0.05 no se rechaza la hipótesis nula y se
concluye también que el 65 % (p = 0.65) de los compradores están a favor de
un horario más extenso en el centro comercial, con el 5% de significación.
341
pˆ p0
3. Estadística de prueba: Z N (0,1)
p0 q0
n
4. Región crítica, para = 0.01 y la prueba unilateral izquierda, en la Tabla 1 el
valor crítico es: Zα = -Z1-α = -Z0.99 = -2.33. Entonces: R.C. = {Z < -2.33}
X 375
5. Con la información muestral: n = 500, X = 375, pˆ = 0.75 y bajo
n 500
el supuesto que Ho: p = p0 = 0.80 es cierta, se determina:
pˆ p0 0.75 0.80
Z calc = -2.80
p0 q0 0.80 x0.20
n 500
6. Decisión: como Zcalc = -2.80 ϵ R.C. se rechaza la hipótesis nula y se concluye
con el 1% de significación, que menos del 80% (p < 0.80) de los ciudadanos
no están de acuerdo con el servicio militar obligatorio.
Como la prueba es unilateral izquierda, el valor-P se determina así:
P = P[Z < Zcalc] = P[Z < -2.80] = Ф(-2.80 ) = 0.00256 Rpta.
Como el valor-P = 0.00256 < = 0.01 se rechaza la hipótesis nula y se
concluye también que menos del 80% (p < 0.80) de los ciudadanos no están de
acuerdo con el servicio militar obligatorio, con el 1% de significación.
342
1. Hipótesis: Ho: p1 = p2 y H1: p1 ≠ p2
2. Nivel de significación: = 0.05
pˆ 1 pˆ 2 ( p1 p2 )
3. Estadística de prueba: Z → N(0, 1)
p1q1 p 2 q2
n1 n2
27. En una muestra aleatoria de 400 adultos, 220 están de acuerdo con la gestión
presidencial. Mientras que en una muestra de 600 jóvenes, 300 están de acuerdo
con la gestión presidencial. ¿Se puede afirmar que la verdadera proporción de
adultos que está de acuerdo con la gestión presidencial, es mayor que la
proporción de jóvenes que está de acuerdo con dicha gestión? Use α = 0.05.
Halle p-valor.
Solución
343
Sean p1 y p2, las proporciones poblacionales de adultos (1) y de jóvenes (2) que
están de acuerdo con la gestión presidencial. Entonces, se desea probar si la
verdadera proporción de adultos que está de acuerdo con la gestión presidencial,
es mayor que la proporción de jóvenes que está de acuerdo con dicha gestión.
1. Hipótesis: Ho: p1 = p2 y H1: p1 > p2
2. Nivel de significación: = 0.05
pˆ 1 pˆ 2 ( p1 p2 )
3. Estadística de prueba: Z → N(0, 1)
p1q1 p 2 q2
n1 n2
28. De los alumnos de la UNAC se toma una muestra aleatoria de 300 mujeres, 150
de las cuales están a favor de la titulación con tesis. En una muestra de 200
hombres, 120 indican que están a favor de lo mismo. ¿Se puede afirmar que hay
una diferencia significativa entre las verdaderas proporciones de alumnos y
alumnas que están a favor de la titulación con tesis? Use α = 0.01. Halle p-valor
344
Solución
pˆ 1 pˆ 2 ( p1 p2 )
3. Estadística de prueba: Z → N(0, 1)
p1q1 p 2 q2
n1 n2
pˆ 2 pˆ 1 ( p2 p1 )
3. Estadística de prueba: Z → N(0, 1)
p1q1 p 2 q2
n1 n2
346
30. Se entrevistaron dos grupos de mujeres respecto a su interés por los polos de
verano “Sol y mar”. De una muestra de 250 mujeres menores de 40 años, 150
estuvieron interesados, mientras que de 250 mujeres de 40 años a más, sólo 120
mostraron interés. Con el 5% de significación, ¿existe diferencia entre la
proporción de mujeres menores de 40 años y las de 40 años a más que mostraron
interés por los polos de verano “Sol y mar”? Halle p-valor.
Solución
pˆ 1 pˆ 2 ( p1 p2 )
3. Estadística de prueba: Z → N(0, 1)
p1q1 p 2 q2
n1 n2
347
6.10 PROBLEMAS PROPUESTOS
a) ¿Se puede afirmar que el contenido medio en las bolsas de café es mayor de
250 gramos? Use α = 0.05. Halle p-valor.
b) ¿Aceptaría usted que σ2 ≠ 250 gr2 por bolsa? Use α = 0.05. Halle p-valor.
348
6. Los pesos de diez estudiantes (en Kg.) fueron: 60, 44, 66, 71, 75, 75, 80, 84, 93
y 82. Suponga que estos pesos proceden de una población normal.
a) Ponga a prueba H0: μ = 70 Kg. contra H1: μ ≠ 70, con un α = 0.05. Halle p-
valor.
b) Ponga a prueba H0: σ2 = 80 Kg2 contra H1: σ2 > 80, use α = 0.05. Halle p-
valor.
7. Los pesos netos (grs.) de las bolsas de detergente es de 250. Una muestra
aleatoria de 10 bolsas dio estos pesos: 248, 251, 248, 247, 245, 246, 246, 252,
247, 250.
a) Será la media poblacional de los pesos netos menor a 250gr. Use α = 0.01.
Halle p-valor.
b) Ponga a prueba H0: σ2 = 15 contra H1: σ2 ≠ 15, con un α = 0.05. Halle p-valor.
8. Las latas de duraznos de la Compañía “La dulzura” deben contener un peso neto
de 16 onzas, pero hay una gran variabilidad. Una muestra aleatoria de seis latas
revela los pesos netos siguientes en onzas: 15.1, 16.1, 15.8, 15.4, 16.1 y 15.1.
a) Use α = 0.01 para determinar si el verdadero peso neto de las latas de
duraznos es menor de 16 onzas. Determine p-valor.
b) ¿Aceptaría usted que σ2 < 1.25 gr2 por bolsa? Use α = 0.05. Halle p-valor.
10. Los pesos en kilos de una muestra aleatoria de 8 cajas de galleta son: 14.6, 12.5,
15.3, 16.1, 14.4, 12.9, 13.7 y 14.9. Suponiendo que los pesos se distribuyen
normalmente.
a) Con una significación del 5 % pruebe si el peso medio de las cajas de galleta
es distinto de 14 Kg. Halle p-valor.
b) Ponga a prueba H0: σ2 = 5 contra H1: σ2 ≠ 5, con un nivel de significación de
0.05. Halle p-valor.
349
11. Un departamento de producción desea determinar si hay diferencia en el
rendimiento entre el turno diurno y el nocturno. Una muestra aleatoria de 80
obreros del turno diurno alcanza una producción media de 94.3 partes por hora,
con una desviación estándar de 14 partes por hora, mientras que otra muestra de
60 obreros de la noche alcanza un promedio de 89.7 partes por hora, con una
desviación estándar de 17. Se pide probar si es diferente el rendimiento medio de
ambos turnos. Use α = 0.05. Hallar p-valor.
12. En un estudio para determinar el costo medio de los televisores en las ciudades
A y B, se toma una muestra al azar de 200 hogares de A arrojando un costo
medio de $ 250 y una desviación estándar de 15. Una muestra al azar de 180
hogares de la ciudad B da una costo medio de $ 235 y una desviación estándar
de 10.
Con α = 0.01, probar si el costo medio de los televisores en las ciudades A es
mayor que el costo medio de los televisores en la ciudad B. Hallar p-valor.
13. El departamento de marketing desea determinar si hay diferencia entre las ventas
mensuales promedio realizadas por hombres y mujeres. Una muestra aleatoria de
80 mujeres arroja una venta media de 95 artefactos mensuales, con una
desviación estándar de 14 artefactos, mientras que otra muestra de 60 hombres
alcanza un promedio de 89 artefactos mensuales, con una desviación estándar de
17.
Con α = 0.05, ¿son diferentes las ventas medias realizadas por hombres y
mujeres (µm ≠ µh)? Determine el p-valor.
14. En un estudio para determinar el gasto medio mensual de los hogares en frutas
para las ciudades A y B, se toma una muestra al azar de 100 hogares de A
arrojando un gasto medio de S/. 82 y una desviación estándar de 15. Una
muestra al azar de 100 hogares de la ciudad B da una gasto medio de 75 y una
desviación estándar de 10.
Use α = 0.01, para probar si el gasto medio mensual en frutas en la ciudad B es
menor que el gasto medio en A. Halle p-valor.
17. Se ha llevado a cabo un estudio para analizar los gastos mensuales en publicidad
(en dólares) realizado por las empresas comerciales de dos ciudades. Mediante
muestras aleatorias sin reemplazo tomadas independientemente en cada ciudad
se han obtenido los siguientes resultados:
n1 = 20, X 1 = $ 950, S1 = 95 y n2 = 18, X 2 = $ 850, S2 = 60.
a) ¿Son heterogéneas las varianzas de los gastos mensuales en publicidad de
ambas ciudades? Use = 0.01. Halle p-valor.
b) Con un nivel de significación del 5 %, probar si los gastos mensuales en
publicidad de las empresas de la ciudad 1 es mayor que el de las empresas de
la ciudad 2. Hallar p-valor.
18. Dos grupos (de 16 alumnas cada uno) escogidos al azar de una escuela para
secretarias, aprenden taquigrafía por dos métodos diferentes y luego se les
somete a pruebas de dictado. Se encuentra que el grupo 1 obtiene en promedio
123 palabras por minuto con una desviación estándar de 15 palabras, mientras
que el grupo 2 promedia 110 palabras por minuto con una desviación estándar de
10 palabras. Con el 1% de significación probar si:
a) ¿Son heterogéneas las varianzas de ambos grupos? Halle p-valor.
b) ¿Es diferente el promedio de palabras por minuto para los dos métodos? Halle
p-valor.
351
19. Se ha llevado a cabo un estudio para analizar los gastos mensuales (S/.) en
alquiler de local realizado por las empresas comerciales de dos ciudades
grandes. Mediante muestras aleatorias sin reemplazo tomadas
independientemente en cada ciudad se han obtenido los siguientes resultados:
n1 = 20, x1 = 938, S1 = 96 y n2 = 20, x 2 = 856, S2 = 62.
a) ¿Son diferentes las varianzas de los gastos mensuales en alquiler de ambas
ciudades? Use = 0.05. Halle p-valor.
b) Con un nivel de significación del 5 %, probar si los gastos mensuales en
alquiler de las empresas de la ciudad 1 es menor que el de las empresas de la
ciudad 2. Hallar p-valor.
20. Dos máquinas embolsan diariamente detergente de manera independiente.
Mediante muestras aleatorias sin reemplazo de 12 bolsas de cada máquina se han
obtenido los siguientes resultados sobre el peso de las bolsas (en gramos):
n1 = 12, x1 = 505, S1 = 10 y n2 = 12, x 2 = 495, S2 = 4.
Con el 1% de significación probar si:
a) ¿Son diferentes las varianzas de los pesos de las bolsas con detergente de
ambas máquinas? Halle p-valor.
b) ¿Son diferentes los pesos medios de las bolsas con detergente de ambas
máquinas? Halle p-valor.
21. De una población de 100,000 fumadores de cigarro, se selecciona una muestra
aleatoria de 800 fumadores y se encuentra que 240 tienen preferencia por la
marca A. ¿Esta evidencia es suficiente para concluir que más del 25 % de los
fumadores de cigarro prefieren la marca A? Use un nivel de significación del
1%. Halle p-valor.
22. En una muestra aleatoria de 500 de los 100 000 ciudadanos de un distrito se
encontró que 200 están de acuerdo con la gestión del alcalde. Indica esta
evidencia que menos del 45% de los ciudadanos están de acuerdo con la gestión
del alcalde. Use un nivel de significación del 5%. Halle p-valor.
23. De una muestra aleatoria de 500 hombres entrevistados, 125 indicaron que ven
fútbol los lunes en la noche por televisión. ¿Indica esta evidencia que más del 20
% de los televidentes hombres ven el fútbol los lunes por la noche? Use el nivel
de significación de 0.01. Halle p-valor.
352
24. En una muestra aleatoria de 600 de los 20000 hogares de un distrito se encontró
que 240 consumen leche. Indica esta evidencia que menos del 45% de los
hogares consumen leche. Use un nivel de significación del 5%. Halle p-valor.
Explique el error tipo I.
25. De una muestra aleatoria de 800 ciudadanos entrevistados en Lima
Metropolitana, 200 indicaron que no están de acuerdo con el voto electrónico.
¿Indica esta evidencia que más del 20 % de los ciudadanos no están de acuerdo
con el voto electrónico? Use el nivel de significación de 0.01. Halle p-valor.
26. Se entrevistaron a hombres y mujeres respecto a su interés por una nueva marca
de perfume. En una muestra aleatoria de 400 hombres y 600 mujeres, 220
hombres y 300 mujeres dijeron que les gustaba el nuevo perfume. Con el 1% de
significación, ¿existe diferencia entre las verdaderas proporciones de hombres y
mujeres que dijeron que les gustaba el nuevo perfume? Halle p-valor.
27. De los alumnos de la UNAC se toma una muestra aleatoria de 600 hombres, 300
de las cuales están a favor del cambio curricular. En una muestra de 400
mujeres, 240 indican que están a favor de lo mismo. ¿Se puede afirmar que es
menor la proporción de hombres que están a favor del cambio curricular, que la
proporción de mujeres a favor del cambio curricular? Use α = 0.01. Halle p-
valor.
353
mujeres menores de 40 años interesadas en la compra de casacas de cuero, que la
proporción de las de 40 años a más interesadas en dicha compra. Halle p-valor.
30. En una muestra aleatoria de 400 jóvenes, 220 están de acuerdo con la
suscripción de los Tratados de Libre Comercio (TLC’s). Mientras que en una
muestra de 600 adultos, 300 están de acuerdo con la suscripción de TLC’s.
a) ¿Está Ud. de acuerdo que más del 50% de jóvenes está de acuerdo con la
suscripción de TLC’s? Use α = 0.01. Halle p-valor.
b) ¿Se puede afirmar que hay una diferencia significativa entre las verdaderas
proporciones de jóvenes y adultos que están de acuerdo con la suscripción de
TLC’s? Use α = 0.05. Halle p-valor.
354
Capítulo 7. PRUEBAS DE HIPÓTESIS NO
PARAMÉTRICAS
CONTENIDO
355
7.1 USO DE LA DISTRIBUCIÓN CHI-CUADRADO. TEST DE
INDEPENDENCIA
Obs. B1 …. Bj …. Bc ∑
A1 O11 …. O1j …. O1c O1.
. . . . . . .
. . . . . . .
. . . . . . .
Ai Oi1 …. Oij …. Oic Oi.
. . . . . . .
. . . . . . .
. . . . . . .
Af Of1 …. Ofj …. Ofc Of.
∑ O.1 …. O.j …. O.c n
c f
total de observaciones para el estudio n O j Oi .
j 1 i 1
356
2. Escoger el nivel de significación:
f c (Oij eij ) 2
3. Estadística de prueba: 2 (2f 1)(c 1)
i 1 j 1 eij
Oi x O j
Donde eij son las frecuencias esperadas obtenidas con las
n
frecuencias observadas, suponiendo que Ho es cierta, es decir que A y B son
independientes. Las frecuencias esperadas se muestran en la tabla de
contingencia pxq siguiente:
Esp. B1 …. Bj …. Bc ∑
A1 e11 …. e1j …. e1c O1.
. . . . . . .
. . . . . . .
. . . . . . .
Ai ei1 …. eij …. eic Oi.
. . . . . . .
. . . . . . .
. . . . . . .
Af ef1 …. efj …. efc Of.
∑ O.1 …. O.j …. O.c n
4. Región crítica: hallar el valor crítico 12 , ( f 1) (c 1) tal que la probabilidad de
357
La región de aceptación es: R.A. = {X2 < 12 , ( f 1) (c 1) }
f c (Oij eij ) 2
5. Hallar 2
calc con las tablas anteriores.
i 1 j 1 eij
calc
2
R. A. ). No se rechaza H0 en caso contrario. Si se rechaza Ho se dice
Ejemplo 1
Valores Observados
SEXO Total
CONDICIÓN DEL
PESO Hombre Mujer
Delgado 0 7 7
Normal 33 66 99
Sobrepeso 5 9 14
Total 38 82 120
358
2. Nivel de significación: = 0.05
3 2 (Oij eij ) 2
3. Estadística de prueba: 2
22
i 1 j 1 eij
4. Región crítica: en la Tabla 2 de Chi-cuadrado, hallar el valor crítico
X 12 , ( f 1) (c 1) = X 02.95 , 2 = 5.99. Entonces, R.C. = {X2 > 5.99}
Distribution Plot
Chi-Square, df=2
0.5
0.4
0.3
Density
0.2
0.1
0.05
0.0
0 5.99
X
Valores Esperados
SEXO Total
CONDICIÓN DEL
PESO Hombre Mujer
Delgado 2.2 4.8 7
Normal 31.4 67.6 99
Sobrepeso 4.4 9.6 14
Total 38 82 120
359
3 2 (Oij eij ) 2 (0 2.2) 2 (7 4.8) 2 (33 31.4) 2
2
calc
i 1 j 1 eij 2.2 4.8 31.4
Estando definidas las variables sexo y condición del peso, los resultados en el
programa SPSS se obtienen así:
Analizar → Estadísticos descriptivos → Tablas de contingencia. En la
ventana de Tablas de contingencia, ingresar en Filas: la variable condición del
peso y en Columnas: la variable sexo.
En Estadísticos, escoger Chi-cuadrado. Luego Continuar y Aceptar, los
resultados son la Tabla de contingencia de valores observados y las Pruebas de
chi-cuadrado siguientes:
Pruebas de chi-cuadrado
Valor gl Sig. asintótica
(bilateral)
a
Chi-cuadrado de Pearson 3,477 2 ,176
Razón de verosimilitudes 5,561 2 ,062
Asociación lineal por 1,724 1 ,189
lineal
N de casos válidos 120
a. 3 casillas (50,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 2,22.
360
De manera similar en el programa Minitab, definir las columnas para la
variables sexo y condición (del peso). Escoger del menú Estadísticas →
Tablas → Tabulación cruzada y chi-cuadrada. En Para filas: seleccionar
condición y en Para columnas: sexo, tal como se aprecia a continuación:
Delgado 0 7 7
Normal 33 66 99
Sobrepeso 5 9 14
Todo 38 82 120
Esta prueba es utilizada cuando se desea verficar si es razonable que los datos
observados de una variable, siguen una distribución de probabilidades
determinada con p parámetros.
Los pasos a seguir para la prueba de hipótesis son:
1. Hipótesis: Ho: Los datos se ajustan a un modelo de probabilidades
H1: Los datos no se ajustan al modelo de probabilidades
2. Escoger el nivel de significación:
(Oi ei ) 2
k
3. Estadística de prueba: 2
(2k p 1)
i 1 ei
Los datos se presentan en una tabla de frecuencias, con k categorías o
intervalos Ai, con sus correspondientes frecuencias observadas Oi y
frecuencias esperadas ei = npi. Las probabilidades pi = P(Ai) se obtienen con
el modelo de probabilidades al que se ajustan los datos. La tabla es:
12 , k p 1
362
4. Región crítica: hallar el valor crítico 12 , k p 1 tal que la probabilidad de
Ejemplo 2
Con el fin de estudiar si un dado está o no equilibrado, se arroja el dado 300 veces
en forma independiente, obteniéndose los siguientes resultados:
Resultado 1 2 3 4 5 6
Oi 55 42 53 46 47 57
(Oi ei ) 2
6
3. Estadística de prueba: 2
621
i 1 ei
4. Región crítica: en la Tabla 2 de Chi-cuadrado, hallar el valor crítico
12 , k p 1 = X 02.95 , 5 = 11.1. Entonces, R.C. = {X2 > 11.1}
5. Hallar calc
2
con la información muestral n = 300 y bajo el supuesto que Ho
es cierta, es decir, pi = 1/6, por lo tanto las frecuencias esperadas son ei =
npi = 300x1/6 = 50. La Tabla de frecuencias observadas y esperadas es:
Resultado 1 2 3 4 5 6
Oi 55 42 53 46 47 57
ei 50 50 50 50 50 50
363
6
(Oi ei ) 2 (55 50) 2 (42 50) 2 (53 50) 2 (46 50) 2
2
calc = +
i 1 ei 50 50 50 50
Una muestra de los salarios semanales (S/.) de 15 obreros arroja los siguientes
resultados: 303, 297, 375, 273, 321, 413, 233, 285, 276, 329, 306, 290, 380, 305 y
250. Probar si la mediana de los salarios es diferente de S/. 300. Use α = 0.05.
Solución
365
Salarios Diferencias Rango de Rangos con signo
Obreros
(Xi) di = Xi – 300 |di| (+) (-)
1 303 3 1.5 1.5
2 297 -3 1.5 1.5
3 375 75 13 13
4 273 -27 9 9
5 321 21 7 7
6 413 113 15 15
7 233 -67 12 12
8 285 -15 6 6
9 276 -24 8 8
10 329 29 10 10
11 306 6 4 4
12 290 -10 5 5
13 380 80 14 14
14 305 5 3 3
15 250 -50 11 11
Total 67.5 52.5
366
En la ventana de Sesión aprece el resultado siguiente:
Prueba de clasificación con signos de Wilcoxon: Salarios (Xi)
Número
de Estadística Mediana
N prueba de Wilcoxon P estimada
Salarios (Xi) 15 15 67.5 0.691 304.0
Resultados y conclusiones similares a los antes obtenidos: W = 67.5 y P = 0.691.
El Minitab proporciona el intervalo de confianza del 95% para la mediana:
IC de clasificación con signos de Wilcoxon: Salarios (Xi)
Intervalo de
Mediana Confianza confianza
N estimada lograda Inferior Superior
Salarios (Xi) 15 304.0 95.0 281.0 339.0
Es una prueba basada en los signos que surgen de la diferencia de comparar los
datos de una población con respecto a su mediana o entre sí (en investigación
de mercados para identificar la preferencia hacia una de dos marcas de un
producto).
367
PRUEBA PARA COMPARAR LOS VALORES CON LA MEDIANA
368
Para dos colas: P = P[|Z| > |Zcalc|] = 2 P[Z < -|Zcalc|]
Para cola a la derecha: P = P[Z > Zcalc]
Para cola a la izquierda: P = P[Z < Zcalc]
Si el valor de P < , se rechaza H0. En caso contrario, se acepta H0.
Ejemplo 4
Para la muestra de los salarios semanales (S/.) de 15 obreros del ejemplo 3,
siguientes: 303, 297, 375, 273, 321, 413, 233, 285, 276, 329, 306, 290, 380, 305 y
250. Probar si la mediana de los salarios es diferente de S/. 300. Use α = 0.05.
Solución
H1: Me ≠ 300
2. Nivel de significación: = 0.05
3. Estadística de prueba: S = número de veces que se repite el signo menos
frecuente.
4. Región crítica: para n = 15 y = 0.05, en la tabla 6 de valores críticos para
la prueba del signo, la región crítica es: R.C. = {S ≤ 3} → R.A. = {S > 3}
5. Determinar Scalc con la información muestral y bajo el supuesto que Ho es
cierta, mediante el siguiente procedimiento:
Salarios Signo Diferencia
Obreros
(Xi) Xi – 300
1 303 +
2 297 -
3 375 +
4 273 -
5 321 +
6 413 +
7 233 -
8 285 -
9 276 -
10 329 +
11 306 +
12 290 -
13 380 +
14 305 +
15 250 -
369
Scalc = número de veces que se repite el signo menos frecuente = 7.
6. Decisión: como Scalc = 7 ϵ R.A., con el 5% de significación no se rechaza H0 y
por lo tanto la mediana de los salarios es de S/. 300.
En el programa Minitab, definir la variable salarios con sus datos. Escoger del
menú Estadísticas → No paramétricos → 1± Señal de 1 muestra.
370
Prueba de signos para mediana: Salarios (Xi)
IC de signos: Salarios
Intervalo de
Confianza confianza
N Mediana lograda Inferior Superior Posición
Salarios 15 303.0 0.8815 285.0 321.0 5
0.9500 279.4 326.0 NLI
0.9648 276.0 329.0 4
371
3. La estadística de prueba S = número de veces que se repite el signo menos
frecuente. S se basa en la distribución Binomial con probabilidad de éxito ½ ya
que la probabilidad que se prefiera una u otra marca (o que un valor sea mayor
o menor que otro) es ½.
4. Región crítica: buscar el valor crítico en la Tabla 6 para la prueba del signo S. La
hipótesis nula se rechaza si S es menor o igual al valor de la tabla.
5. Determinar S = número de veces que se repite el signo menos frecuente, con
la información muestral y bajo el supuesto que Ho es cierta, mediante el
siguiente procedimiento:
a) Si se comparan dos marcas de un bien o servicio: aplicar signo positivo
(+) cuando la preferencia es por la marca de interés y signo negativo (-)
en caso contrario.
Si se hace comparaciones entre los valores de los grupos A y B asignar
signo positivo (+) cuando el valor de A es superior al valor de B y signo
negativo (-) en caso contrario.
Si son iguales los valores no se aplica signo alguno, se descarta las
observaciones y el tamaño efectivo de la muestra disminuye.
b) Hallar Scalc = número de veces que se repite el signo menos frecuente, es
el valor calculado del estadístico de prueba y sirve para hallar el valor-P
y compararlo con el nivel de significación .
c) Si el tamaño efectivo de muestra es n > 20 el valor-P se obtiene mediante
la aproximación Normal de la Binomial S = X = número de veces que se
repite el signo menos frecuente con p = q = 0.5.
( X 0.5) 0.5n
Si S = X → N(0.5n, 0.25n) entonces Z calc N (0, 1)
0.5 n
6. Decisión: se rechaza H0 con el 100 % de significación, si S calc R.C. por lo
tanto no son iguales las preferencias por ambos productos o los valores
comparados de los grupos A y B no son iguales.
Otra forma de establecer la regla de decisión, es calculando el valor P, a
partir del valor Zcalc, de manera que:
Para dos colas: P = P[|Z| > |Zcalc|] = 2 P[Z < -|Zcalc|]
Para cola a la derecha: P = P[Z > Zcalc]
Para cola a la izquierda: P = P[Z < Zcalc]
372
Si el valor de P < , se rechaza H0. En caso contrario, se acepta H0.
Ejemplo 5
En un estudio para determinar si la marca de frugo B es más preferida por las amas
de casa que la marca A, se hizo degustar aleatoriamente las marcas A y B a 16 amas
de casa siendo sus preferencias las siguientes: B, B, B, B, A, B, B, B, B, B, B, A, B,
B, A y B. Con el 5% de significación pruebe si la preferencia de las amas de casa
por la marca de frugo A es inferior a la marca B.
Solución
Donde Oij son las frecuencias observadas y eij son las frecuencias esperadas
obtenidas con las frecuencias observadas, suponiendo que Ho es cierta.
4. Región crítica: hallar el valor crítico [21, 1 ] tal que la probabilidad de
5. Determinar calc
2
, con la información muestral y bajo el supuesto que Ho es
374
Muestra ≤ Me > Me Total
1 O11 O12 O1.
2 O21 O22 O2.
Total O.1 O..2 n
Oi x O j
c) Hallar las frecuencias esperadas eij y colocarlas en la tabla:
n
Muestra ≤ Me > Me Total
1 e11 e12 O1.
2 e21 e22 O2.
Total O.1 O..2 n
2 2 (Oij eij ) 2
d) Determinar calc
2
i 1 j 1 eij
Ejemplo 6
Con la información del número de unidades vendidas por hombres y mujeres en
la tabla, determinar si la mediana del número de unidades vendidas por las
mujeres es mayor que la mediana de las unidades vendidas por los hombres. Usar
el 5% de significación.
Hombres (1) Mujeres (2)
39 30
43 28
25 32
31 48
45 42
44 35
26 48
25 21
23 40
24 30
38 40
25 45
20 28
Solución
4. Región crítica: el valor crítico es [21, 0.95] = 3.84 y R.C. = {X2 > 3.84}.
5. Determinar calc
2
, con la información muestral y bajo el supuesto que Ho es
i 1 j 1 eij
377
En el programa Minitab, definir las variables Unidades vendidas y Sexo con
sus datos. Escoger del menú Estadísticas → No paramétricos → Prueba de
la mediana de Mood. Al abrir la ventana de diálogo, en Respuesta:
seleccionar Unid. vendidas, en Factor: seleccionar Sexo. Finalmente escoger
Aceptar, tal como se aprecia en la ventana de diálogo de la página anterior.
378
7.7 PROBLEMAS RESUELTOS
5. Hallar calc
2
con la tabla de valores observados y la de valores esperados.
Tabla de contingencia HOBBY * SEXO
Valores Esperados
SEXO Total
HOBBY Hombre Mujer
Deportes 7.6 16.4 24
Música 14.3 30.8 45
Baile 3.2 6.8 10
TV / Cine 9.2 19.8 29
Otros 3.8 8.2 12
Total 38 82 120
379
Los valores esperados se obtienen con los totales observados así:
Hombre-deportes = 24x38 / 120 = 7.6; Mujer-deportes = 24x82 / 120 = 16.4
Hombre-música = 45x38 / 120 = 14.3; Mujer-música = 45x82 / 120 = 30.8
Hombre-baile = 10x38 / 120 = 3.2; Mujer-baile = 10x82 / 120 = 6.8
Hombre-tv/cine= 29x38 / 120 = 9.2; Mujer-tv/cine = 29x82 / 120 = 19.8
Hombre-otros = 12x38 / 120 = 3.8; Mujer-otros = 12x82 / 120 = 8.2
Luego calc
2
= 32.293
i 1 j 1 eij
380
Pruebas de chi-cuadrado
Valor gl Sig. asintótica
(bilateral)
a
Chi-cuadrado de Pearson 32,293 4 ,000
Razón de verosimilitudes 33,297 4 ,000
Asociación lineal por 12,191 1 ,000
lineal
N de casos válidos 120
a. 2 casillas (20,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 3,17.
Solución
1. H0: No existe relación entre la importancia de los estudios y el género del
estudiante (son independientes).
H1: Existe relación entre la importancia de los estudios y el genero del
estudiante.
2. Nivel de significación: = 0.05
381
4 2 (Oij eij ) 2
3. Estadística de prueba: 2
32
i 1 j 1 eij
4. Región crítica: en la Tabla 2 de Chi-cuadrado, hallar el valor crítico
X 12 , ( f 1) (c 1) = X 02.95 , 3 = 7.81. Entonces, R.C. = {X2 > 7.81}
5. Hallar calc
2
con la tabla de valores observados y la de valores esperados.
Tabla de contingencia IMPORTANCIA DE TUS ESTUDIOS * SEXO
Valores Esperados
SEXO Total
IMPORTANCIA DE TUS Hombre Mujer
ESTUDIOS
Poca 0.3 0.7 1
Media 1.9 4.1 6
Mucha 20.3 43.7 64
Muchísima 15.5 35.5 49
Total 38 82 120
382
6. Decisión: como calc
2
= 0.535 ϵ R.A., con el 5% de significación no se rechaza
H0, por lo tanto la importancia de los estudios es independiente del género del
alumno. (La importancia de los estudios no depende del género del alumno).
383
H1: Existe relación entre el nivel de ingreso de los representantes industriales
y el nivel de su empleo.
2. Nivel de significación: = 0.05
4 3 (Oij eij ) 2
3. Estadística de prueba:
2
62
i 1 j 1 eij
4. Región crítica: en la Tabla 2 de Chi-cuadrado, hallar el valor crítico
X 12 , ( f 1) (c 1) = X 02.95 , 6 = 12.6. Entonces, R.C. = {X2 > 12.6}
5. Hallar calc
2
con la tabla de valores observados y la de valores esperados.
Valores Esperados
TIPO DE INGRESOS
EMPRESA < 20 20 - 40 > 40 Total
Cuenta propia 9.0 10.2 10.8 30
Pequeñas 10.5 11.9 12.6 35
Medianas 40.5 45.9 48.6 135
Grandes 90.0 102.0 108.0 300
Total 150 170 180 500
Los valores esperados se obtienen con los totales observados así:
Cuenta propia: 30x150/500 = 9.0, 30x170/500 = 10.2, 30x180/500 = 10.8
Pequeñas: 35x150/500 = 10.5, 35x170/500 = 11.9, 35x180/500 = 12.6
Medianas: 135x150/500 = 40.5, 135x170/500 = 45.9, 135x180/500 =48.6
Grandes: 300x150/500 = 90, 300x170/500 = 102, 300x180/500 = 108
Para hallar calc
2
ordenamos los valores observados y esperados en la tabla:
384
4 3 (Oij eij ) 2
Luego 2
calc = 0.776
i 1 j 1 eij
5. Hallar calc
2
con la tabla de valores observados y la de valores esperados.
Valores Esperados
CALIDAD DE PROVEEDOR
PARTES A B C Total
Buena 88.8 173.1 133.1 395
Defectos pequeños 6.1 11.8 9.1 27
Defectos graves 5.2 10.1 7.8 23
Total 100 195 150 445
385
Los valores esperados se obtienen con los totales observados así:
Buena: 395x100/445 = 88.8, 395x195/445 = 173.1, 395x150/445 = 133.1
Def. pequeños.: 27x100/445 = 6.1, 27x195/445 = 11.8, 27x150/445 = 9.1
Def. graves.: 23x100/445 = 5.2, 23x195/445 = 10.1, 23x150/445 = 7.8
Para hallar calc
2
ordenamos los valores observados y esperados en la tabla:
386
4. Región crítica: en la Tabla 2 de Chi-cuadrado, hallar el valor crítico
12 , k p 1 = X 02.95 , 4 = 9.49. Entonces, R.C. = {X2 > 9.49}
5. Hallar calc
2
con la información experimental n = 500 y bajo el supuesto que
Ho es cierta, es decir X ~ B(4, 0.5), luego:
P(0) = 4C0 (0.5)4 = 0.0625
P(1) = 4C1 (0.5)4 = 0.2500
P(2) = 4C2 (0.5)4 = 0.3750
P(3) = 4C3 (0.5)4 = 0.2500
P(4) = 4C4 (0.5)4 = 0.0625
Por lo tanto las frecuencias esperadas son ei = npi = 500 pi. La Tabla de
frecuencias observadas y esperadas es:
N° Sellos (Xi) 0 1 2 3 4
Oi 25 129 192 118 36
pi 0.0625 0.2500 0.3750 0.2500 0.0625
ei = npi 31.25 125.00 187.50 125.00 31.25
5
(Oi ei ) 2 (25 31.25) 2 (129 125) 2 (192 187 .5) 2
2
calc =
i 1 ei 31.25 125 187 .5
5. Hallar calc
2
con la información observada de los 120 alumnos y bajo el
supuesto que Ho es cierta (la importancia del físico es la misma para los
alumnos) es decir, con la misma frecuencia esperada igual a 120/5 = 24. La
Tabla de frecuencias observadas y esperadas es:
Imp. del físico Poca Media Mucha Muchísima
Oi 19 48 46 7
ei 24 24 24 24
4
(Oi ei ) 2 (19 24) 2 (48 24) 2 (46 24) 2 (7 24) 2
2
calc = =
i 1 ei 24 24 24 24
calc
2
= 57.25
388
2. Nivel de significación: = 0.05
9
(Oi ei ) 2
3. Estadística de prueba: 2 92 21
i 1 ei
4. Región crítica: en la Tabla 2 de Chi-cuadrado, hallar el valor crítico
12 , k p 1 = X 02.95 , 6 = 12.6. Entonces, R.C. = {X2 > 12.6}
5. Hallar
calc
2
con la información observada de los 120 alumnos.
ˆ 2
X i
2
ni nˆ 2
116950 120(11.77) 2
2.82 → σ = 1.679
n 1 120 1
Bajo el supuesto que Ho es cierta, X = notas ~ N(11.77, 2.82), luego:
X 11.77
Z N (0, 1) permite calcular las probabilidades pi para los 9
1.679
intervalos considerados así:
P(X ≤ 8) = P(Z ≤ -2.25) = Ф(-2.25) = 0.01222
P(8 ≤ X < 9) = P(-2.25 ≤ Z < -1.65) = Ф(-1.65) – Ф(-2.25) =
= 0.04947 - 0.01222 = 0.03725.
P(9 ≤ X < 10) = P(-1.65 ≤ Z < -1.05) = Ф(-1.05) – Ф(-1.65) =
= 0.14686 - 0.04947 = 0.09739.
P(10 ≤ X < 11) = P(-1.05 ≤ Z < -0.46) = Ф(-0.46) – Ф(-1.05) =
= 0.32276 - 0.14686 = 0.17590.
P(11 ≤ X < 12) = P(-0.46 ≤ Z < 0.14) = Ф(0.14) – Ф(-0.46) =
= 0.55567 - 0.32276 = 0.23291.
P(12 ≤ X < 13) = P(0.14 ≤ Z < 0.73) = Ф(0.73) – Ф(0.14) =
= 0.76730 - 0.55567 = 0.21163.
P(13 ≤ X < 14) = P(0.73 ≤ Z < 1.33) = Ф(1.33) – Ф(0.73) =
= 0.90824 - 0.76730 = 0.14094.
P(14 ≤ X < 15) = P(1.33 ≤ Z < 1.92) = Ф(1.92) – Ф(1.33) =
= 0.97257 - 0.90824 = 0.06433.
P(X ≥ 15) = P(Z ≥ 1.92) = 1 – Ф(1.92) = 1 - 0.97257 = 0.02743.
389
Las probabilidades pi y las frecuencias esperadas ei = n pi = 120 pi se
presentan en la siguiente tabla:
NOTAS Xi ni = O i pi ei = npi (Oi - ei)2/ei
7-8 7.5 2 0.01222 1.5 0.1942
8-9 8.5 6 0.03725 4.5 0.5237
9 - 10 9.5 7 0.09739 11.7 1.8796
10 - 11 10.5 21 0.17590 21.1 0.0006
11 - 12 11.5 33 0.23291 27.9 0.9127
12 - 13 12.5 22 0.21163 25.4 0.4540
13 - 14 13.5 19 0.14094 16.9 0.2576
14 - 15 14.5 7 0.06433 7.7 0.0671
15 - 16 15.5 3 0.02743 3.3 0.0258
Total 120 1.00000 120.0 4.3152
En la última columna se tiene:
9
(Oi ei ) 2
calc
2
= 4.32
i 1 ei
8. Una muestra de los gastos de estudio mensual (S/.) de 16 alumnos arroja los
siguientes resultados: 120, 210, 100, 150, 120, 200, 200, 180, 250, 300, 250,
140, 300, 200, 160 y 300. Probar si la mediana de los gastos de estudio es
diferente de S/. 220. Use α = 0.05.
Solución
390
Diferencia Rangos con signo
Gastos Rango de
Alumnos di = Xi -
(Xi) |di|
220 (+) (-)
1 120 -100 14.5 14.5
2 210 -10 1 1
3 100 -120 16 16
4 150 -70 9 9
5 120 -100 14.5 14.5
6 200 -20 3 3
7 200 -20 3 3
8 180 -40 7 7
9 250 30 5.5 5.5
10 300 80 11.5 11.5
11 250 30 5.5 5.5
12 140 -80 11.5 11.5
13 300 80 11.5 11.5
14 200 -20 3 3
15 160 -60 8 8
16 300 80 11.5 11.5
Total 45.5 90.5
Solución
H1: Me ≠ 220
2. Nivel de significación: = 0.05
3. Estadística de prueba: S = número de veces que se repite el signo menos
frecuente.
4. Región crítica: para n = 16 y = 0.05, en la tabla 6 de valores críticos para
la prueba del signo, la región crítica es: R.C. = {S ≤ 3} → R.A. = {S > 3}
5. Determinar Scalc con la información muestral y bajo el supuesto que Ho es
cierta, mediante el siguiente procedimiento:
391
Signo Diferencia
Alumnos Gastos (Xi)
di = Xi - 220
1 120 -
2 210 -
3 100 -
4 150 -
5 120 -
6 200 -
7 200 -
8 180 -
9 250 +
10 300 +
11 250 +
12 140 -
13 300 +
14 200 -
15 160 -
16 300 +
Scalc = número de veces que se repite el signo menos frecuente = 5.
6. Decisión: como Scalc = 5 ϵ R.A., con el 5% de significación no se rechaza H0 y
por lo tanto la mediana de los salarios es de S/. 220.
10. Con la información del peso de los hombres y mujeres en la tabla, determinar si
la mediana del peso de los hombres es mayor que la mediana del peso de las
mujeres. Usar el 5% de significación.
Hombres (1) Mujeres (2)
68 54
55 42
70 54
73 51
58 43
59 64
74 56
65 47
66 52
69 65
Solución
392
2 2 (Oij eij ) 2
3. Estadística de prueba:
2
[21, 1 )
i 1 j 1 eij
4. Región crítica: el valor crítico es [21, 0.95] = 3.84 y R.C. = {X2 > 3.84}.
5. Determinar calc
2
, con la información muestral y bajo el supuesto que Ho es
393
Oi x O j
c) Hallar las frecuencias esperadas eij y colocarlas en la tabla:
n
Muestra ≤ Me (Ord. 1) > Me (Ord. 2) Total
1 = hombres 5 5 O1. = 10
2 = Mujeres 5 5 O2. = 10
Total O.1 = 10 O.2 =10 n = 20
2 2 (O e ) 2
d) Determinar: calc
2 ij ij
i 1 j 1 eij
(2 5) 2 (8 5) 2 (8 5) 2 (2 5) 2
2
calc = 7.20
5 5 5 5
P-valor = P( 12 > 7.20) = 1 - P( 12 ≤ 7.20) = 1 – 0.993 = 0.007.
394
7.8 PROBLEMAS PROPUESTOS
395
4. Probar con el 5% de significación si el resultado de la evaluación semestral
(aprobado o desaprobado) en la asignatura de estadística básica depende del
profesor, con los resultados del semestre 2012-A en la Facultad de Ciencias
Económicas de la UNAC siguientes:
Profesor Aprobados Desaprobados Total
P1 33 17 50
P2 49 11 60
P3 15 37 52
Total 97 65 162
9. Los pesos de 15 personas arroja los siguientes resultados: 59, 50, 44, 42, 54, 71,
73, 58, 51, 75, 59, 74, 90, 65 y 43. Probar si la mediana de los pesos es diferente
de 65 kilos con la prueba de Wilcoxon y de los signos. Use α = 0.05.
10. Los precios (S/.) del kilo de carne pagado por 12 amas de casa arroja los
siguientes resultados: 12.50, 12.00, 11.80, 13.20, 12.80, 11.50, 13.50, 12.40,
11.00, 14.00, 11.30 y 13.30. Probar si la mediana de los precios es diferente de
S/. 12.10 con la prueba de Wilcoxon y de los signos. Use α = 0.05.
397
REFERENCIAS BIBLIOGRÁFICAS
REFERENCIAS WEB
22. Acuña, Edgar (2012). “Pruebas no paramétricas”. Universidad de Puerto Rico.
http://www.google.com.pe/url?sa=t&rct=j&q=&esrc=s&frm=1&source=web&c
d=6&sqi=2&ved=0CEoQFjAF&url=http%3A%2F%2Facademic.uprm.edu%2Fe
acuna%2Fminiman11sl.pdf&ei=e7dpUov5Foj28wTn8oCYAQ&usg=AFQjCNE
-MH9RWOglMaHg479MiFrk0l_FJA
23. Bazán, Juan (2011). “Texto de estadística computacional con R, Excel, Minitab
y SPSS” (PDF). Universidad Nacional del Callao: Trabajo de investigación para
la Facultad de Ciencias Económicas. Callao.
http://www.unac.edu.pe/documentos/organizacion/vri/cdcitra/Informes_Finales_
Investigacion/Enero_2011/BAZAN_BACA_FCE/Estad%EDstica%20computaci
onal.pdf
24. http://es.wikipedia.org/wiki/William_Sealy_Gosset; revisado en agosto de 2012.
25. http://buscon.rae.es/drae/ Real Academia Española © Todos los derechos
reservados. Vigésima segunda edición (2001).
399
APÉNDICE
400
TABLA 1. DISTRIBUCIÓN ACUMULATIVA NORMAL ESTÁNDAR
z
F(z) = Φ (z) = P [Z ? z] = 1 t 2 / 2
2
e dt
401
TABLA 1. DISTRIBUCIÓN ACUMULATIVA NORMAL ESTÁNDAR
z
F(z) = Φ (z) = P [Z ? z] = 1 t 2 / 2
2
e dt
continuación
z F(z) z F(z) z F(z) z F(z) z F(z) z F(z)
0.01 0.50399 0.61 0.72907 1.21 0.88686 1.81 0.96485 2.41 0.99202 3.01 0.99869
0.02 0.50798 0.62 0.73237 1.22 0.88877 1.82 0.96562 2.42 0.99224 3.02 0.99874
0.03 0.51197 0.63 0.73565 1.23 0.89065 1.83 0.96638 2.43 0.99245 3.03 0.99878
0.04 0.51595 0.64 0.73891 1.24 0.89251 1.84 0.96712 2.44 0.99266 3.04 0.99882
0.05 0.51994 0.65 0.74215 1.25 0.89435 1.85 0.96784 2.45 0.99286 3.05 0.99886
0.06 0.52392 0.66 0.74537 1.26 0.89617 1.86 0.96856 2.46 0.99305 3.06 0.99889
0.07 0.52790 0.67 0.74857 1.27 0.89796 1.87 0.96926 2.47 0.99324 3.07 0.99893
0.08 0.53188 0.68 0.75175 1.28 0.89973 1.88 0.96995 2.48 0.99343 3.08 0.99896
0.09 0.53586 0.69 0.75490 1.29 0.90147 1.89 0.97062 2.49 0.99361 3.09 0.99900
0.10 0.53983 0.70 0.75804 1.30 0.90320 1.90 0.97128 2.50 0.99379 3.10 0.99903
0.11 0.54380 0.71 0.76115 1.31 0.90490 1.91 0.97193 2.51 0.99396 3.11 0.99906
0.12 0.54776 0.72 0.76424 1.32 0.90658 1.92 0.97257 2.52 0.99413 3.12 0.99910
0.13 0.55172 0.73 0.76730 1.33 0.90824 1.93 0.97320 2.53 0.99430 3.13 0.99913
0.14 0.55567 0.74 0.77035 1.34 0.90988 1.94 0.97381 2.54 0.99446 3.14 0.99916
0.15 0.55962 0.75 0.77337 1.35 0.91149 1.95 0.97441 2.55 0.99461 3.15 0.99918
0.16 0.56356 0.76 0.77637 1.36 0.91308 1.96 0.97500 2.56 0.99477 3.16 0.99921
0.17 0.56749 0.77 0.77935 1.37 0.91466 1.97 0.97558 2.57 0.99492 3.17 0.99924
0.18 0.57142 0.78 0.78230 1.38 0.91621 1.98 0.97615 2.58 0.99506 3.18 0.99926
0.19 0.57535 0.79 0.78524 1.39 0.91774 1.99 0.97670 2.59 0.99520 3.19 0.99929
0.20 0.57926 0.80 0.78814 1.40 0.91924 2.00 0.97725 2.60 0.99534 3.20 0.99931
0.21 0.58317 0.81 0.79103 1.41 0.92073 2.01 0.97778 2.61 0.99547 3.21 0.99934
0.22 0.58706 0.82 0.79389 1.42 0.92220 2.02 0.97831 2.62 0.99560 3.22 0.99936
0.23 0.59095 0.83 0.79673 1.43 0.92364 2.03 0.97882 2.63 0.99573 3.23 0.99938
0.24 0.59483 0.84 0.79955 1.44 0.92507 2.04 0.97932 2.64 0.99585 3.24 0.99940
0.25 0.59871 0.85 0.80234 1.45 0.92647 2.05 0.97982 2.65 0.99598 3.25 0.99942
0.26 0.60257 0.86 0.80511 1.46 0.92785 2.06 0.98030 2.66 0.99609 3.26 0.99944
0.27 0.60642 0.87 0.80785 1.47 0.92922 2.07 0.98077 2.67 0.99621 3.27 0.99946
0.28 0.61026 0.88 0.81057 1.48 0.93056 2.08 0.98124 2.68 0.99632 3.28 0.99948
0.29 0.61409 0.89 0.81327 1.49 0.93189 2.09 0.98169 2.69 0.99643 3.29 0.99950
0.30 0.61791 0.90 0.81594 1.50 0.93319 2.10 0.98214 2.70 0.99653 3.30 0.99952
0.31 0.62172 0.91 0.81859 1.51 0.93448 2.11 0.98257 2.71 0.99664 3.31 0.99953
0.32 0.62552 0.92 0.82121 1.52 0.93574 2.12 0.98300 2.72 0.99674 3.32 0.99955
0.33 0.62930 0.93 0.82381 1.53 0.93699 2.13 0.98341 2.73 0.99683 3.33 0.99957
0.34 0.63307 0.94 0.82639 1.54 0.93822 2.14 0.98382 2.74 0.99693 3.34 0.99958
0.35 0.63683 0.95 0.82894 1.55 0.93943 2.15 0.98422 2.75 0.99702 3.35 0.99960
0.36 0.64058 0.96 0.83147 1.56 0.94062 2.16 0.98461 2.76 0.99711 3.36 0.99961
0.37 0.64431 0.97 0.83398 1.57 0.94179 2.17 0.98500 2.77 0.99720 3.37 0.99962
0.38 0.64803 0.98 0.83646 1.58 0.94295 2.18 0.98537 2.78 0.99728 3.38 0.99964
0.39 0.65173 0.99 0.83891 1.59 0.94408 2.19 0.98574 2.79 0.99736 3.39 0.99965
0.40 0.65542 1.00 0.84134 1.60 0.94520 2.20 0.98610 2.80 0.99744 3.40 0.99966
0.41 0.65910 1.01 0.84375 1.61 0.94630 2.21 0.98645 2.81 0.99752 3.41 0.99968
0.42 0.66276 1.02 0.84614 1.62 0.94738 2.22 0.98679 2.82 0.99760 3.42 0.99969
0.43 0.66640 1.03 0.84849 1.63 0.94845 2.23 0.98713 2.83 0.99767 3.43 0.99970
0.44 0.67003 1.04 0.85083 1.64 0.94950 2.24 0.98745 2.84 0.99774 3.44 0.99971
0.45 0.67364 1.05 0.85314 1.65 0.95053 2.25 0.98778 2.85 0.99781 3.45 0.99972
0.46 0.67724 1.06 0.85543 1.66 0.95154 2.26 0.98809 2.86 0.99788 3.46 0.99973
0.47 0.68082 1.07 0.85769 1.67 0.95254 2.27 0.98840 2.87 0.99795 3.47 0.99974
0.48 0.68439 1.08 0.85993 1.68 0.95352 2.28 0.98870 2.88 0.99801 3.48 0.99975
0.49 0.68793 1.09 0.86214 1.69 0.95449 2.29 0.98899 2.89 0.99807 3.49 0.99976
0.50 0.69146 1.10 0.86433 1.70 0.95543 2.30 0.98928 2.90 0.99813 3.50 0.99977
0.51 0.69497 1.11 0.86650 1.71 0.95637 2.31 0.98956 2.91 0.99819 3.51 0.99978
0.52 0.69847 1.12 0.86864 1.72 0.95728 2.32 0.98983 2.92 0.99825 3.52 0.99978
0.53 0.70194 1.13 0.87076 1.73 0.95818 2.33 0.99010 2.93 0.99831 3.53 0.99979
0.54 0.70540 1.14 0.87286 1.74 0.95907 2.34 0.99036 2.94 0.99836 3.54 0.99980
0.55 0.70884 1.15 0.87493 1.75 0.95994 2.35 0.99061 2.95 0.99841 3.55 0.99981
0.56 0.71226 1.16 0.87698 1.76 0.96080 2.36 0.99086 2.96 0.99846 3.56 0.99981
0.57 0.71566 1.17 0.87900 1.77 0.96164 2.37 0.99111 2.97 0.99851 3.57 0.99982
0.58 0.71904 1.18 0.88100 1.78 0.96246 2.38 0.99134 2.98 0.99856 3.58 0.99983
0.59 0.72240 1.19 0.88298 1.79 0.96327 2.39 0.99158 2.99 0.99861 3.59 0.99983
0.60 0.72575 1.20 0.88493 1.80 0.96407 2.40 0.99180 3.00 0.99865 3.60 0.99984
402
TABLA 2.
DISTRIBUCIÓN ACUMULATIVA CHI-CUADRADO P
PROBABILIDAD P
G.L.
0.0005 0.001 0.005 0.01 0.025 0.05 0.10 0.20 0.30 0.40
1 3.93E-07 1.57E-06 3.93E-05 1.57E-04 9.82E-04 3.93E-03 0.016 0.064 0.148 0.275
2 0.001 0.002 0.010 0.020 0.051 0.103 0.211 0.446 0.713 1.02
3 0.015 0.024 0.072 0.115 0.216 0.352 0.584 1.01 1.42 1.87
4 0.064 0.091 0.207 0.297 0.484 0.711 1.06 1.65 2.19 2.75
5 0.158 0.210 0.412 0.554 0.831 1.15 1.61 2.34 3.00 3.66
6 0.299 0.381 0.676 0.872 1.24 1.64 2.20 3.07 3.83 4.57
7 0.485 0.598 0.989 1.24 1.69 2.17 2.83 3.82 4.67 5.49
8 0.710 0.857 1.34 1.65 2.18 2.73 3.49 4.59 5.53 6.42
9 0.972 1.15 1.73 2.09 2.70 3.33 4.17 5.38 6.39 7.36
10 1.26 1.48 2.16 2.56 3.25 3.94 4.87 6.18 7.27 8.30
11 1.59 1.83 2.60 3.05 3.82 4.57 5.58 6.99 8.15 9.24
12 1.93 2.21 3.07 3.57 4.40 5.23 6.30 7.81 9.03 10.2
13 2.31 2.62 3.57 4.11 5.01 5.89 7.04 8.63 9.93 11.1
14 2.70 3.04 4.07 4.66 5.63 6.57 7.79 9.47 10.8 12.1
15 3.11 3.48 4.60 5.23 6.26 7.26 8.55 10.3 11.7 13.0
16 3.54 3.94 5.14 5.81 6.91 7.96 9.31 11.2 12.6 14.0
17 3.98 4.42 5.70 6.41 7.56 8.67 10.1 12.0 13.5 14.9
18 4.44 4.90 6.26 7.01 8.23 9.39 10.9 12.9 14.4 15.9
19 4.91 5.41 6.84 7.63 8.91 10.1 11.7 13.7 15.4 16.9
20 5.40 5.92 7.43 8.26 9.59 10.9 12.4 14.6 16.3 17.8
21 5.90 6.45 8.03 8.90 10.3 11.6 13.2 15.4 17.2 18.8
22 6.40 6.98 8.64 9.54 11.0 12.3 14.0 16.3 18.1 19.7
23 6.92 7.53 9.26 10.2 11.7 13.1 14.8 17.2 19.0 20.7
24 7.45 8.08 9.89 10.9 12.4 13.8 15.7 18.1 19.9 21.7
25 7.99 8.65 10.5 11.5 13.1 14.6 16.5 18.9 20.9 22.6
26 8.54 9.22 11.2 12.2 13.8 15.4 17.3 19.8 21.8 23.6
27 9.09 9.80 11.8 12.9 14.6 16.2 18.1 20.7 22.7 24.5
28 9.66 10.4 12.5 13.6 15.3 16.9 18.9 21.6 23.6 25.5
29 10.2 11.0 13.1 14.3 16.0 17.7 19.8 22.5 24.6 26.5
30 10.8 11.6 13.8 15.0 16.8 18.5 20.6 23.4 25.5 27.4
31 11.4 12.2 14.5 15.7 17.5 19.3 21.4 24.3 26.4 28.4
32 12.0 12.8 15.1 16.4 18.3 20.1 22.3 25.1 27.4 29.4
33 12.6 13.4 15.8 17.1 19.0 20.9 23.1 26.0 28.3 30.3
34 13.2 14.1 16.5 17.8 19.8 21.7 24.0 26.9 29.2 31.3
35 13.8 14.7 17.2 18.5 20.6 22.5 24.8 27.8 30.2 32.3
36 14.4 15.3 17.9 19.2 21.3 23.3 25.6 28.7 31.1 33.3
37 15.0 16.0 18.6 20.0 22.1 24.1 26.5 29.6 32.1 34.2
38 15.6 16.6 19.3 20.7 22.9 24.9 27.3 30.5 33.0 35.2
39 16.3 17.3 20.0 21.4 23.7 25.7 28.2 31.4 33.9 36.2
40 16.9 17.9 20.7 22.2 24.4 26.5 29.1 32.3 34.9 37.1
41 17.5 18.6 21.4 22.9 25.2 27.3 29.9 33.3 35.8 38.1
42 18.2 19.2 22.1 23.7 26.0 28.1 30.8 34.2 36.8 39.1
43 18.8 19.9 22.9 24.4 26.8 29.0 31.6 35.1 37.7 40.0
44 19.5 20.6 23.6 25.1 27.6 29.8 32.5 36.0 38.6 41.0
45 20.1 21.3 24.3 25.9 28.4 30.6 33.4 36.9 39.6 42.0
46 20.8 21.9 25.0 26.7 29.2 31.4 34.2 37.8 40.5 43.0
47 21.5 22.6 25.8 27.4 30.0 32.3 35.1 38.7 41.5 43.9
48 22.1 23.3 26.5 28.2 30.8 33.1 35.9 39.6 42.4 44.9
49 22.8 24.0 27.2 28.9 31.6 33.9 36.8 40.5 43.4 45.9
50 23.5 24.7 28.0 29.7 32.4 34.8 37.7 41.4 44.3 46.9
403
TABLA 2.
DISTRIBUCIÓN ACUMULATIVA CHI-CUADRADO P
Probabilidad P
G.L.
0.50 0.60 0.70 0.80 0.90 0.95 0.975 0.99 0.995 0.999 0.9995
1 0.455 0.708 1.07 1.64 2.71 3.84 5.02 6.63 7.88 10.8 12.1
2 1.39 1.83 2.41 3.22 4.61 5.99 7.38 9.21 10.6 13.8 15.2
3 2.37 2.95 3.66 4.64 6.25 7.81 9.35 11.3 12.8 16.3 17.7
4 3.36 4.04 4.88 5.99 7.78 9.49 11.1 13.3 14.9 18.5 20.0
5 4.35 5.13 6.06 7.29 9.24 11.1 12.8 15.1 16.7 20.5 22.1
6 5.35 6.21 7.23 8.56 10.6 12.6 14.4 16.8 18.5 22.5 24.1
7 6.35 7.28 8.38 9.80 12.0 14.1 16.0 18.5 20.3 24.3 26.0
8 7.34 8.35 9.52 11.0 13.4 15.5 17.5 20.1 22.0 26.1 27.9
9 8.34 9.41 10.7 12.2 14.7 16.9 19.0 21.7 23.6 27.9 29.7
10 9.34 10.5 11.8 13.4 16.0 18.3 20.5 23.2 25.2 29.6 31.4
11 10.3 11.5 12.9 14.6 17.3 19.7 21.9 24.7 26.8 31.3 33.1
12 11.3 12.6 14.0 15.8 18.5 21.0 23.3 26.2 28.3 32.9 34.8
13 12.3 13.6 15.1 17.0 19.8 22.4 24.7 27.7 29.8 34.5 36.5
14 13.3 14.7 16.2 18.2 21.1 23.7 26.1 29.1 31.3 36.1 38.1
15 14.3 15.7 17.3 19.3 22.3 25.0 27.5 30.6 32.8 37.7 39.7
16 15.3 16.8 18.4 20.5 23.5 26.3 28.8 32.0 34.3 39.3 41.3
17 16.3 17.8 19.5 21.6 24.8 27.6 30.2 33.4 35.7 40.8 42.9
18 17.3 18.9 20.6 22.8 26.0 28.9 31.5 34.8 37.2 42.3 44.4
19 18.3 19.9 21.7 23.9 27.2 30.1 32.9 36.2 38.6 43.8 46.0
20 19.3 21.0 22.8 25.0 28.4 31.4 34.2 37.6 40.0 45.3 47.5
21 20.3 22.0 23.9 26.2 29.6 32.7 35.5 38.9 41.4 46.8 49.0
22 21.3 23.0 24.9 27.3 30.8 33.9 36.8 40.3 42.8 48.3 50.5
23 22.3 24.1 26.0 28.4 32.0 35.2 38.1 41.6 44.2 49.7 52.0
24 23.3 25.1 27.1 29.6 33.2 36.4 39.4 43.0 45.6 51.2 53.5
25 24.3 26.1 28.2 30.7 34.4 37.7 40.6 44.3 46.9 52.6 54.9
26 25.3 27.2 29.2 31.8 35.6 38.9 41.9 45.6 48.3 54.1 56.4
27 26.3 28.2 30.3 32.9 36.7 40.1 43.2 47.0 49.6 55.5 57.9
28 27.3 29.2 31.4 34.0 37.9 41.3 44.5 48.3 51.0 56.9 59.3
29 28.3 30.3 32.5 35.1 39.1 42.6 45.7 49.6 52.3 58.3 60.7
30 29.3 31.3 33.5 36.3 40.3 43.8 47.0 50.9 53.7 59.7 62.2
31 30.3 32.3 34.6 37.4 41.4 45.0 48.2 52.2 55.0 61.1 63.6
32 31.3 33.4 35.7 38.5 42.6 46.2 49.5 53.5 56.3 62.5 65.0
33 32.3 34.4 36.7 39.6 43.7 47.4 50.7 54.8 57.6 63.9 66.4
34 33.3 35.4 37.8 40.7 44.9 48.6 52.0 56.1 59.0 65.2 67.8
35 34.3 36.5 38.9 41.8 46.1 49.8 53.2 57.3 60.3 66.6 69.2
36 35.3 37.5 39.9 42.9 47.2 51.0 54.4 58.6 61.6 68.0 70.6
37 36.3 38.5 41.0 44.0 48.4 52.2 55.7 59.9 62.9 69.3 72.0
38 37.3 39.6 42.0 45.1 49.5 53.4 56.9 61.2 64.2 70.7 73.4
39 38.3 40.6 43.1 46.2 50.7 54.6 58.1 62.4 65.5 72.1 74.7
40 39.3 41.6 44.2 47.3 51.8 55.8 59.3 63.7 66.8 73.4 76.1
41 40.3 42.7 45.2 48.4 52.9 56.9 60.6 65.0 68.1 74.7 77.5
42 41.3 43.7 46.3 49.5 54.1 58.1 61.8 66.2 69.3 76.1 78.8
43 42.3 44.7 47.3 50.5 55.2 59.3 63.0 67.5 70.6 77.4 80.2
44 43.3 45.7 48.4 51.6 56.4 60.5 64.2 68.7 71.9 78.7 81.5
45 44.3 46.8 49.5 52.7 57.5 61.7 65.4 70.0 73.2 80.1 82.9
46 45.3 47.8 50.5 53.8 58.6 62.8 66.6 71.2 74.4 81.4 84.2
47 46.3 48.8 51.6 54.9 59.8 64.0 67.8 72.4 75.7 82.7 85.6
48 47.3 49.8 52.6 56.0 60.9 65.2 69.0 73.7 77.0 84.0 86.9
49 48.3 50.9 53.7 57.1 62.0 66.3 70.2 74.9 78.2 85.4 88.2
50 49.3 51.9 54.7 58.2 63.2 67.5 71.4 76.2 79.5 86.7 89.6
404
TABLA 2.
DISTRIBUCIÓN ACUMULATIVA CHI-CUADRADO P
PROBABILIDAD P
G.L.
0.0005 0.001 0.005 0.01 0.025 0.05 0.10 0.20 0.30 0.40
51 24.1 25.4 28.7 30.5 33.2 35.6 38.6 42.4 45.3 47.8
52 24.8 26.1 29.5 31.2 34.0 36.4 39.4 43.3 46.2 48.8
53 25.5 26.8 30.2 32.0 34.8 37.3 40.3 44.2 47.2 49.8
54 26.2 27.5 31.0 32.8 35.6 38.1 41.2 45.1 48.1 50.8
55 26.9 28.2 31.7 33.6 36.4 39.0 42.1 46.0 49.1 51.7
56 27.6 28.9 32.5 34.3 37.2 39.8 42.9 47.0 50.0 52.7
57 28.2 29.6 33.2 35.1 38.0 40.6 43.8 47.9 51.0 53.7
58 28.9 30.3 34.0 35.9 38.8 41.5 44.7 48.8 51.9 54.7
59 29.6 31.0 34.8 36.7 39.7 42.3 45.6 49.7 52.9 55.6
60 30.3 31.7 35.5 37.5 40.5 43.2 46.5 50.6 53.8 56.6
61 31.0 32.5 36.3 38.3 41.3 44.0 47.3 51.6 54.8 57.6
62 31.7 33.2 37.1 39.1 42.1 44.9 48.2 52.5 55.7 58.6
63 32.5 33.9 37.8 39.9 43.0 45.7 49.1 53.4 56.7 59.6
64 33.2 34.6 38.6 40.6 43.8 46.6 50.0 54.3 57.6 60.5
65 33.9 35.4 39.4 41.4 44.6 47.4 50.9 55.3 58.6 61.5
66 34.6 36.1 40.2 42.2 45.4 48.3 51.8 56.2 59.5 62.5
67 35.3 36.8 40.9 43.0 46.3 49.2 52.7 57.1 60.5 63.5
68 36.0 37.6 41.7 43.8 47.1 50.0 53.5 58.0 61.4 64.4
69 36.7 38.3 42.5 44.6 47.9 50.9 54.4 59.0 62.4 65.4
70 37.5 39.0 43.3 45.4 48.8 51.7 55.3 59.9 63.3 66.4
71 38.2 39.8 44.1 46.2 49.6 52.6 56.2 60.8 64.3 67.4
72 38.9 40.5 44.8 47.1 50.4 53.5 57.1 61.8 65.3 68.4
73 39.6 41.3 45.6 47.9 51.3 54.3 58.0 62.7 66.2 69.3
74 40.4 42.0 46.4 48.7 52.1 55.2 58.9 63.6 67.2 70.3
75 41.1 42.8 47.2 49.5 52.9 56.1 59.8 64.5 68.1 71.3
76 41.8 43.5 48.0 50.3 53.8 56.9 60.7 65.5 69.1 72.3
77 42.6 44.3 48.8 51.1 54.6 57.8 61.6 66.4 70.0 73.2
78 43.3 45.0 49.6 51.9 55.5 58.7 62.5 67.3 71.0 74.2
79 44.1 45.8 50.4 52.7 56.3 59.5 63.4 68.3 72.0 75.2
80 44.8 46.5 51.2 53.5 57.2 60.4 64.3 69.2 72.9 76.2
81 45.5 47.3 52.0 54.4 58.0 61.3 65.2 70.1 73.9 77.2
82 46.3 48.0 52.8 55.2 58.8 62.1 66.1 71.1 74.8 78.1
83 47.0 48.8 53.6 56.0 59.7 63.0 67.0 72.0 75.8 79.1
84 47.8 49.6 54.4 56.8 60.5 63.9 67.9 72.9 76.8 80.1
85 48.5 50.3 55.2 57.6 61.4 64.7 68.8 73.9 77.7 81.1
86 49.3 51.1 56.0 58.5 62.2 65.6 69.7 74.8 78.7 82.1
87 50.0 51.9 56.8 59.3 63.1 66.5 70.6 75.7 79.6 83.0
88 50.8 52.6 57.6 60.1 63.9 67.4 71.5 76.7 80.6 84.0
89 51.5 53.4 58.4 60.9 64.8 68.2 72.4 77.6 81.6 85.0
90 52.3 54.2 59.2 61.8 65.6 69.1 73.3 78.6 82.5 86.0
91 53.0 54.9 60.0 62.6 66.5 70.0 74.2 79.5 83.5 87.0
92 53.8 55.7 60.8 63.4 67.4 70.9 75.1 80.4 84.4 88.0
93 54.5 56.5 61.6 64.2 68.2 71.8 76.0 81.4 85.4 88.9
94 55.3 57.2 62.4 65.1 69.1 72.6 76.9 82.3 86.4 89.9
95 56.1 58.0 63.2 65.9 69.9 73.5 77.8 83.2 87.3 90.9
96 56.8 58.8 64.1 66.7 70.8 74.4 78.7 84.2 88.3 91.9
97 57.6 59.6 64.9 67.6 71.6 75.3 79.6 85.1 89.2 92.9
98 58.4 60.4 65.7 68.4 72.5 76.2 80.5 86.1 90.2 93.8
99 59.1 61.1 66.5 69.2 73.4 77.0 81.4 87.0 91.2 94.8
100 59.9 61.9 67.3 70.1 74.2 77.9 82.4 87.9 92.1 95.8
405
TABLA 2.
DISTRIBUCIÓN ACUMULATIVA CHI-CUADRADO P
Probabilidad P
G.L.
0.50 0.60 0.70 0.80 0.90 0.95 0.975 0.99 0.995 0.999 0.9995
51 50.3 52.9 55.8 59.2 64.3 68.7 72.6 77.4 80.7 88.0 90.9
52 51.3 53.9 56.8 60.3 65.4 69.8 73.8 78.6 82.0 89.3 92.2
53 52.3 55.0 57.9 61.4 66.5 71.0 75.0 79.8 83.3 90.6 93.5
54 53.3 56.0 58.9 62.5 67.7 72.2 76.2 81.1 84.5 91.9 94.8
55 54.3 57.0 60.0 63.6 68.8 73.3 77.4 82.3 85.7 93.2 96.2
56 55.3 58.0 61.0 64.7 69.9 74.5 78.6 83.5 87.0 94.5 97.5
57 56.3 59.1 62.1 65.7 71.0 75.6 79.8 84.7 88.2 95.8 98.8
58 57.3 60.1 63.1 66.8 72.2 76.8 80.9 86.0 89.5 97.0 100.1
59 58.3 61.1 64.2 67.9 73.3 77.9 82.1 87.2 90.7 98.3 101.4
60 59.3 62.1 65.2 69.0 74.4 79.1 83.3 88.4 92.0 99.6 102.7
61 60.3 63.2 66.3 70.0 75.5 80.2 84.5 89.6 93.2 100.9 104.0
62 61.3 64.2 67.3 71.1 76.6 81.4 85.7 90.8 94.4 102.2 105.3
63 62.3 65.2 68.4 72.2 77.7 82.5 86.8 92.0 95.6 103.4 106.6
64 63.3 66.2 69.4 73.3 78.9 83.7 88.0 93.2 96.9 104.7 107.9
65 64.3 67.2 70.5 74.4 80.0 84.8 89.2 94.4 98.1 106.0 109.2
66 65.3 68.3 71.5 75.4 81.1 86.0 90.3 95.6 99.3 107.3 110.5
67 66.3 69.3 72.6 76.5 82.2 87.1 91.5 96.8 100.6 108.5 111.7
68 67.3 70.3 73.6 77.6 83.3 88.3 92.7 98.0 101.8 109.8 113.0
69 68.3 71.3 74.6 78.6 84.4 89.4 93.9 99.2 103.0 111.1 114.3
70 69.3 72.4 75.7 79.7 85.5 90.5 95.0 100.4 104.2 112.3 115.6
71 70.3 73.4 76.7 80.8 86.6 91.7 96.2 101.6 105.4 113.6 116.9
72 71.3 74.4 77.8 81.9 87.7 92.8 97.4 102.8 106.6 114.8 118.1
73 72.3 75.4 78.8 82.9 88.8 93.9 98.5 104.0 107.9 116.1 119.4
74 73.3 76.4 79.9 84.0 90.0 95.1 99.7 105.2 109.1 117.3 120.7
75 74.3 77.5 80.9 85.1 91.1 96.2 100.8 106.4 110.3 118.6 121.9
76 75.3 78.5 82.0 86.1 92.2 97.4 102.0 107.6 111.5 119.9 123.2
77 76.3 79.5 83.0 87.2 93.3 98.5 103.2 108.8 112.7 121.1 124.5
78 77.3 80.5 84.0 88.3 94.4 99.6 104.3 110.0 113.9 122.3 125.7
79 78.3 81.5 85.1 89.3 95.5 100.7 105.5 111.1 115.1 123.6 127.0
80 79.3 82.6 86.1 90.4 96.6 101.9 106.6 112.3 116.3 124.8 128.3
81 80.3 83.6 87.2 91.5 97.7 103.0 107.8 113.5 117.5 126.1 129.5
82 81.3 84.6 88.2 92.5 98.8 104.1 108.9 114.7 118.7 127.3 130.8
83 82.3 85.6 89.2 93.6 99.9 105.3 110.1 115.9 119.9 128.6 132.0
84 83.3 86.6 90.3 94.7 101.0 106.4 111.2 117.1 121.1 129.8 133.3
85 84.3 87.7 91.3 95.7 102.1 107.5 112.4 118.2 122.3 131.0 134.5
86 85.3 88.7 92.4 96.8 103.2 108.6 113.5 119.4 123.5 132.3 135.8
87 86.3 89.7 93.4 97.9 104.3 109.8 114.7 120.6 124.7 133.5 137.0
88 87.3 90.7 94.4 98.9 105.4 110.9 115.8 121.8 125.9 134.7 138.3
89 88.3 91.7 95.5 100.0 106.5 112.0 117.0 122.9 127.1 136.0 139.5
90 89.3 92.8 96.5 101.1 107.6 113.1 118.1 124.1 128.3 137.2 140.8
91 90.3 93.8 97.6 102.1 108.7 114.3 119.3 125.3 129.5 138.4 142.0
92 91.3 94.8 98.6 103.2 109.8 115.4 120.4 126.5 130.7 139.7 143.3
93 92.3 95.8 99.6 104.2 110.9 116.5 121.6 127.6 131.9 140.9 144.5
94 93.3 96.8 100.7 105.3 111.9 117.6 122.7 128.8 133.1 142.1 145.8
95 94.3 97.9 101.7 106.4 113.0 118.8 123.9 130.0 134.2 143.3 147.0
96 95.3 98.9 102.8 107.4 114.1 119.9 125.0 131.1 135.4 144.6 148.2
97 96.3 99.9 103.8 108.5 115.2 121.0 126.1 132.3 136.6 145.8 149.5
98 97.3 100.9 104.8 109.5 116.3 122.1 127.3 133.5 137.8 147.0 150.7
99 98.3 101.9 105.9 110.6 117.4 123.2 128.4 134.6 139.0 148.2 151.9
100 99.3 102.9 106.9 111.7 118.5 124.3 129.6 135.8 140.2 149.4 153.2
406
TABLA 3.
DISTRIBUCIÓN ACUMULATIVA T DE STUDENT
p
Los valores en la tabla son valores t, siendo la proba-
bilidad p el área acumulada en el extremos inferior.
0
0 t
PROBABILIDAD P
G.L.
0.75 0.80 0.85 0.90 0.95 0.975 0.990 0.995 0.9995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657 636.619
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 31.599
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 12.924
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 8.610
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 6.869
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.959
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 5.408
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 5.041
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.781
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.587
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.437
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 4.318
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 4.221
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 4.140
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 4.073
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 4.015
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.965
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.922
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.883
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.850
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.819
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.792
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.768
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.745
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.725
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.707
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.690
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.674
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.659
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.646
31 0.682 0.853 1.054 1.309 1.696 2.040 2.453 2.744 3.633
32 0.682 0.853 1.054 1.309 1.694 2.037 2.449 2.738 3.622
33 0.682 0.853 1.053 1.308 1.692 2.035 2.445 2.733 3.611
34 0.682 0.852 1.052 1.307 1.691 2.032 2.441 2.728 3.601
35 0.682 0.852 1.052 1.306 1.690 2.030 2.438 2.724 3.591
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.551
45 0.680 0.850 1.049 1.301 1.679 2.014 2.412 2.690 3.520
50 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678 3.496
55 0.679 0.848 1.046 1.297 1.673 2.004 2.396 2.668 3.476
60 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 3.460
70 0.678 0.847 1.044 1.294 1.667 1.994 2.381 2.648 3.435
80 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 3.416
90 0.677 0.846 1.042 1.291 1.662 1.987 2.368 2.632 3.402
100 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626 3.390
200 0.676 0.843 1.039 1.286 1.653 1.972 2.345 2.601 3.340
300 0.675 0.843 1.038 1.284 1.650 1.968 2.339 2.592 3.323
400 0.675 0.843 1.038 1.284 1.649 1.966 2.336 2.588 3.315
500 0.675 0.842 1.038 1.283 1.648 1.965 2.334 2.586 3.310
1000 0.675 0.842 1.037 1.282 1.646 1.962 2.330 2.581 3.300
5000 0.675 0.842 1.037 1.282 407
1.645 1.960 2.327 2.577 3.292
TABLA 4. DISTRIBUCIÓN ACUMULATIVA F: P [F ≤ f]
Los valores en la tabla son valores F, siendo la probabilidad p el área acumulada en el extremos inferior.
408
Tabla 5. De Wilcoxon para n ≤ 40 y = 0.05 o 0.01.
n 0.05 0.01 n 0.05 0.01 n 0.05 0.01
6 0 - 21 18 40 - 131 27 - 144 30 137 - 328 109 - 356
7 2 - 26 19 46 - 144 32 - 158 31 147 - 349 118 - 378
8 3 - 33 0 - 36 20 52 - 158 37 - 173 32 159 - 369 128 - 400
9 5 - 40 1 - 44 21 58 - 173 42 - 189 33 170 - 391 138 - 423
10 8 - 47 3 - 52 22 65 - 188 48 - 205 34 182 - 413 148 - 447
11 10 -56 5 - 61 23 73 - 203 54 - 222 35 195 - 435 159 - 471
12 13 - 65 7 - 71 24 81 - 219 61 - 239 36 208 - 458 171 - 495
13 17 - 74 9 - 82 25 89 - 236 68 - 257 37 221 - 482 182 - 521
14 21 - 84 12 - 93 26 98 - 253 75 - 276 38 235 - 506 194 - 547
15 25 - 95 15 - 105 27 107 - 271 83 - 295 39 249 - 531 207 - 573
16 29 - 107 19 - 117 28 116 - 290 91 - 315 40 264 - 556 220 - 600
17 34 - 119 23 - 130 29 126 - 309 100 - 335
409