Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistifa Inferencial Unidad
Estadistifa Inferencial Unidad
4.1 INTRODUCCIÓN......................................................................................................................1
4.3 PRUEBAS DE SIGNIFICANCIA.........................................................................................4
4.4 COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA
LAS DIFERENCIAS ENTRE DOS MEDIAS...........................................................................7
4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD PARA VARIANZAS
DE DOS POBLACIONES NORMALES.................................................................................17
4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS.............................................25
4.7 MODELO TOTALMENTE ALEATORIO: ANÁLISIS DE VARIANZA DE UN
FACTOR.....................................................................................................................................37
4.8 SELECCIÓN DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR LA
DIFERENCIA ENTRE DOS MUESTRAS..............................................................................51
4.9 APLICACIONES.................................................................................................................58
BIOGRAFÍAS............................................................................................................................67
4.1 INTRODUCCIÓN.
Prueba de hipótesis con dos muestras datos categóricos.
En todos los análisis hechos hasta ahora, hemos utilizado el símbolo n en lugar de un
número específico. Ahora necesitamos saber cómo determinar el número que se debe usar.
¿Qué tan grande deberá ser la muestra? Si ésta es muy pequeña, podemos fallar en el logro
de los objetivos de nuestro análisis; si es demasiado grande, desperdiciamos recursos al
tomar la muestra.
Si queremos tener un alto nivel de precisión (esto es, si deseamos estar bastante seguros de
nuestra estimación), debemos muestrear la población lo suficiente para asegurarnos que
obtuvimos la información requerida. El error de muestreo se puede controlar si
seleccionamos una muestra con el tamaño adecuado.
En general, cuanta más precisión se quiera, más grande será el tamaño necesario de la
muestra. Examinemos algunos métodos útiles en la determinación del tamaño necesario de
muestra para cualquier nivel específico de precisión.
Exactamente 95% de una distribución chi cuadrada cae entre χ 2 0.975 y χ 2 0.025. Un valor
χ 2 que cae a la derecha de χ 2 0.025 no tiene probabilidades de ocurrir, a menos que el
valor de σ 2que supusimos sea demasiado pequeño. Lo mismo sucede con un valor χ 2 que
cae a la izquierda de χ 2 0.975, el cual tampoco es probable que ocurra, a menos que el
valor de σ 2 que supusimos sea demasiado grande.
Estudio de anorexia
¥ =11.4 , 11.0 , 5.5 , 9.4 ,13.6 ,−2.9 ,−0.1, 7.4 , 21.5 ,−5.3 ,−3.8 ,13.4 ,13.1 , 9.0 , 3.9 ,5.7 , 10.7
Ejercicio2.
Para escribir que la media de la población origen de la muestra es una media H pre-
especificada, escribimos: H :μ=μʜ
y−μʜ
t= ~t−1
Sῆ
p=P t n−1>t
Ejercicio 3.
En el ejemplo de la moneda, con: n=100 ,
π 1−π
(
Si H es cierta: P N π ,
n )
=N ( 0.05,0.05⁴)
Límite de p=0.05
Caso a)
63
La proporción observada es: P= =0.63=63 %
100
Ejercicio 4.
En una muestra aleatoria de 100 servicios, con S=10 ccse debe tomar una decisión sobre
si, μ=100 habiendo observado una media y=997 cc.
y−μʜ
t=
sῆ
Que bajo H tiene una distribución t-Student: t t n−1=100−1=99 si la variable es
normal (premisa).
y−μʜ 997−1000
t= = =−¿
sῆ 10100
Ejercicio 5.
Solución:
Límite de p=0.05
d−μʜ
Estadístico referencia: t=
sῆ
d−μʜ 6.71−0
Cálculo de p: t= = =3.355 =
sῆ 69
Ejercicio 1
X́ −Ý
t:
( n−1 ) S^21+ ( m−1 ) S22 1 1
√ n+m−2 √ +
n m
n=40 y m=35
n
1
X́ = ∑ X =90.69
n 2−1 1
m
1
Ý = ∑ Y =89.47
m 2−1 1
n
1
Ś21= ∑ ( X ¿¿ 1−x )=32.14 ¿
n−1 2−1
n
2 1
Ś =
2 ∑ ( X ¿¿ 1−Y )=54.43 ¿
m−1 2−1
90.69−89.47
t:
Entonces: 39 x 32.14 +34 x 54.43 1 1
√ 40+35−2 √ +
40 35
GL=40+35−2=73
Entonces: valor obtenido debería estar dentro del rango de mayor probabilidad (95%).
Ejercicio 2.
La estimación puntual del valor esperado del coste es 5236,40 Pta. Esta estimación tiene un
error típico de 365,97. Los límites inferior y superior del intervalo de confianza del
95 % son 4511,34 y 5951,46 , respectivamente. Este resultado se interpreta como que de los
intervalos obtenidos con este método el 95 % contendrán el verdadero valor esperado del
coste. Una medida del grado de precisión con el que se está estimando el valor esperado es
la amplitud del intervalo, que en este caso es igual a 1450,12 y la mitad de la amplitud, que
es 725,06, es el error máximo de estimación que puede garantizarse con una probabilidad
S
de 0,95.Este error máximo es igual a t ∝/2 donde t ∝/2, es el valor crítico para ∝=0.05
√n
s
de la distribución t de Student, en este caso con 113 grados de libertad, y es el error
√n
típico de la estimación. Para obtener el intervalo del 99% de confianza modificamos el
valor del grado de confianza en el cuadro Explorar: Estadísticos
fijándolo en el 99%.
Los límites del intervalo de confianza del 99% son 4277,54 y 6195,27 ;la confianza de que
este intervalo contenga el verdadero valor esperado del costees 0,99. La amplitud de este
intervalo es 2217,73que es mayor que la amplitud del intervalo del 95 % ,por lo tanto,
1108,865es el error máximo de estimación que puede garantizarse con una probabilidad de
0,99.Como puede verse, a medida que aumenta el grado de confianza del intervalo
disminuye la precisión de la estimación.
Ejercicio 3.
Para la misma variable Coste verificar si se puede aceptar el supuesto de que el valor
esperado del Coste es superiora 6000.
Con la secuencia Analizar > Comparar medias > Prueba T para una media se abre el cuadro
de diálogo Prueba T para una muestra en el cual se selecciona la variable Coste y se indica
como Valor de prueba 6000. Esto quiere decir que las hipótesis que se están contrastando
son H o ; μ=6000 frentea H 1 : μ >6000 Se trata por tanto de un contraste a una sola cola.
x −6
El estadístico de prueba t= toma el valor t=−2,086 ,que en las tablas de la
S /√n
distribución tde Student con 113 grados de libertad deja por debajo un área de 0,0195. Esto
quiere decir que se rechaza la hipótesis nula en favor de la alternativa para niveles de
significación superiores a0,0195. Obsérvese que 0,0195es la mitad del nivel de
significación para la prueba de dos colas que aparece en el cuadro de resultados.
Por otra parte si las hipótesis hubieran sido H o ; μ=6000 frentea H 1 : μ ≠ 6000 se rechazaría la
hipótesis nula en favor de la alternativa para niveles de significación superioresa 0,039. El
intervalo del 95 % de confianza para la media calculada en el apartado anterior no contenía
el valor6000; lo que equivale a decir que para un nivel de significación del 5 % se rechaza
la hipótesis nula. Por el contrario, el intervalo del 99 % contenía el valor 95 % y, por lo
tanto, para un nivel de significación del 1 % no se rechazaría la hipótesis nula.
Ejercicio 4.
Prueba de
levente para
la igualdad Prueba T para la igualdad medias,
de varianza
F Sig t gl Sig
(bilateral)
COSTE Se han 37.671 .000 -4.459 112 .000
asumido varianza
iguales
No se han asumido
varianzas iguales. -3750 50.997 .000
Las hipótesis que se están contrastando son frente H o ; μ=μ2 frente a H 1 : μ ≠ μ2 Para realizar
este contraste previamente se debe comprobar si es aceptable la hipótesis de varianzas
poblacionales iguales para los dos grupos H 0 :σ 21=σ 22 . El estadísticoF de la prueba de
Levene* no permite aceptar la igualdad de varianzas poblacionales, por lo cual el valor del
estadístico de prueba es t=−3,750que para cualquier nivel de significación lleva a rechazar
la hipótesis de igualdad de medias. El signo negativo del estadístico tindica que el coste del
transporte es significativamente superior para los que viven fuera de Barcelona.
Ejercicio 5.
Las puntuaciones que se quiere comparar han sido generadas dos a dos por los mismos
individuos; se trata por tanto del caso de muestras relacionadas. Las hipótesis que se
contrastan son H o ; μ=μ2 frente a H 1 : μ ≠ μ2
Diferencias Relacionadas.
El análisis sólo ha considerado los casos que no presentan ningún valor missing en el par de
puntuaciones, quedando únicamente 106 casos válidos de los 114.
Ejercicio 6.
El señor Juan Pérez se dedica a hacer tarjetas postales y los vende en 50 papelerías; como el
negocio no marcha como él espera, desea saber cómo está el ausentismo entre sus
trabajadores, y ver si esa es la causa de la baja en las ventas. A continuación se da el
número de días de ausencia durante una quincena en una muestra de 10 trabajadores
4 , 1,2, 2 ,1 , 2 ,2 , 1 ,0 , 3.
¿Es razonable concluir que el trabajador promedio no faltó ningún día durante una
quincena?
.05
α =1−.95= =0.025 gl =n−1=9
2
x́=1.8
s= √ s2 s=1.13
n=10
Ic=x́ ∓ t S X́
Ejercicio 7.
Una cámara de comercio quiere determinar cuánto tiempo necesitan los empleados para
llegar a su trabajo. Los siguientes datos en minutos corresponden a una muestra de
15 empleados :29 , 39 , 38 ,33 , 38 , 21, 45 , 34 , 40 ,37 , 37 , 42 , 30 ,29 , 35.Determine un
intervalo de confianza de 98 % para la media poblacional, interprete el resultado.
α =1−.98=.02/2=0.01con 14 grados libertad =En tablat=2.262
S=6.06
x́=35. 13
n=15
6.06
Sx ̅ = =1.56
√ 15
Ejercicio 8.
Las estaturas de 1000 estudiantes están distribuidas aproximadamente de forma normal con
una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen
200 muestras aleatorias de tamaño 25 de esta población, determine: a. la media y la t studet.
N=1000 estudiantes
muestra : n=25
6.8
Li=Ic= −1.38 cms
√ 25
Ejercico 9.
Los vuelos de una empresa de aviacion tiene una duracion bimestral aproximadamente
distribuida de forma normal con una desviacion estandar de 40 horas. Si una muestra de 30
vuelos tiene una duracion promedio de780 horas, Proporcione un intervalo de confianza de
96 % para la media de la poblacion de todos los vuelos de esta empresa.
σ σ ( 2.054 )( 40 ) ( 2.054 )( 40 )
x́− < μ< x́+ =780− < μ< 780+ =765< μ<795
√n √n √30 √30
Se sabe que la duración media de los vuelos esta entre 795 y 795 horas .
Ejercicio 10.
Una empresa comercial que procesa muchos de sus pedidos por teléfono tiene 2 tipos de
clientes: generales y comerciales. Se recogen los pedidos de tiempo telefónico por artículo
requerido, por una muestra aleatoria de 12 llamadas de clientes generales y 10 llamadas de
clientes comerciales. Se supone que las cantidades de tiempos para cada tipo de llamadas
tiene una distribución aproximadamente normal. Obtenga el Intervalo de Confianza de 95%
para la diferencia de la cantidad media de tiempo por artículo requerida para cada llamada.
Clientes generales Clientes Comerciales
X́ 1 =122.42
S21=1560.44
S1=39.50 n1 =12
x́ 2=107.7
s2=2021.78
s2=44.96
n2 =10
.05
∝= 2=.025=t=2.086
2
1767.76 √ 1767.76
S x́ 1− x́ 2= √ + S x́ 1− x́ 2= √147.31+176.77
20 10
P ( F <a )=0,01
Solución:
F 0,05=2,70
2) Para m=10 y n=30leemos F 0,05=2.16 . Para m=10 y n=40 leemos F 0,05=2.08 . Sea x el
valor correspondiente a 10 y 35 g. lib. Interpolando respecto a los reciprocos de los grados
de libertad 10, 35 y 40.
x −2,08 2,16−2,08
=
1 1 1 1
− −
35 30 40 30
Se obtiene x=2.13 .
1
(
P ( F7,20 < a )=P F 20,7 >
a)=0,01
1
Consultando la tabla F para 20 y 7 g. lib. Obtenemos =6.1 Luego a=0.162
a
Ejercicio 2.
Solución:
s1 2 15
F= ( )( )
s2 1
=( 1.26 ) ( )
10
=1.89
Ejercicio 3.
Las tablas nos dan, para m=10 y n=6 , el percentil 90=2,94 ; el percentil 95=4,06.
Calcular los valores de la distribución F de 6 y 10 grados de libertad que dejan a su
izquierda una masa de probabilidad de 0.1 y 0.05 respectivamente.
Solución:
1 1
=0,34 =0,25
2,94 4,06
Ejercicio 4.
Tras analizar los datos, ¿puede afirmar el ingeniero que la variabilidad del primer equipo es
mayor que la del segundo?
s 21
f = 2 ( 5.37 )
s2
Utilizaremos como criterio para aceptar esta hipótesis que el valor de f que obtenemos sea
razonablemente probable, es decir que este comprendida en el intervalo que comprende al
95% de las medidas si la hipótesis nula es cierta,
f ≤ F 0,95 ( 11,9 )
Calculamos f
13,5
f= =1,3
10,53
Encontramos F 0,95 ( 11,9 )=3,10 de modo que f < F0,95 ( 11,9 ) . Aceptamos H 0, las varianzas
son iguales, esto quiere decir que la variabilidad de los dos métodos es la misma.
Ejercicio 5.
Las varianzas muéstrales obtenidas al aplicar dos métodos A y B para determinar el valor
de una magnitud son
s2 ( A )=45,34 10−4
s2 ( B )=11,1110−4
s2 ( A )
f=
s2 ( B )
Utilizaremos como criterio para aceptar esta hipótesis que el valor de f que obtenemos sea
razonablemente probable, es decir que este comprendida en el intervalo que comprende al
95% de las medidas si la hipótesis nula es cierta
f ≤ F 0,95 ( 8,8 )
Calculamos f
45,34 10−4
f= =4,0
11,1110−4
Encontramos F 0,95 ( 8,8 )=3,44 de modo que f exp > F0,95 ( 8,8 ) , rechazamos H 0, las varianzas
son iguales, y aceptamos la hipótesis alternativa: la varianza del método A es mayor que la
del método B.
Ejercicio 6.
Solución:
σ 21
H 0 : 2 ≤1
σ2
Las varianzas muéstrales son: S21=2.3 y S 22=0.6 .
2.3
F= =3.83
0.6
Ejercicio 7.
Método 1 Método 2
n1 =31 n2 =25
2
s1=50 s22=24
Construya un intervalo de confianza del 90% para σ 12 /σ 22 .
Solución:
S 21 S21
Al despejar: =
S 22 Fs22
F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. En este
caso los grados de libertad uno valen 30 y los grados de libertad dos 24.
S 21 S21 50 S 21 S21 50
2
= 2= =3.93 Y 2
= 2= =1.07
S 2 Fs2 (0.530)(24) S 2 Fs2 (1.94)(24 )
Con un nivel de confianza del 90% se sabe que la relación de varianzas σ 12 /σ 22 esta entre
1.07 y 3.93. Esto supondría que la varianza de la población 1 es mayor a la varianza de la
población 2 entre 1.07 y 3.93.
Ejercicio 8.
Solución:
S 21 Fs21
Al despejar: 2
= 2
S 2 S2
En este caso los grados de libertad uno valen 11 y los grados de libertad dos 15.
S 21 Fs21 S 21 Fs21
= =(0.368)¿ ¿ Y = =(2.51)¿ ¿
S 22 S22 S 22 S22
Puesto que este intervalo de confianza incluye a la unidad, no es posible afirmar que las
desviaciones estándar de la rugosidad de la superficie de los dos procesos sean diferentes
con un nivel de confianza del 90%.
Ejercicio 9.
¿Presentan los datos evidencia suficiente para indicar que las variaciones del proceso son
menores para el 2? Realice una prueba con un α =0.05.
Solución:
Datos.
Población 1
x 1=3.2
S21=1.04
n1 =25
α =0.05
Población 2
x 2=3.0
S22=0.51
n2 =20
Ensayo de hipótesis:
S21
H0 ; =1
S22
S21
H1; 2 ≻ 1
S2
Estadístico de prueba:
S 21
F= 2
S2
α =0.05
F (0.95 ;24,19)=2.11
Regla de decisión:
Si F c ≤ 2.11 No rechaza H o ,
Si la F c >2.11 Se rechaza H o ,
Calculo:
S 21 1.04
F= = =2.04
S 22 0.51
Decisión y Justificación:
Como 2.04 es menor que 2.11 no se rechaza H o , y se concluye con un α =0.05 que no
existe suficiente evidencia para decir que la varianza del proceso 2 es menor que la del
proceso 1.
Ejercicio 10.
Sea 6.23 , S 21=2.3 con tamaño de muestra de 6, y S22=0.6 con tamaño de muestra de 10.
H o :σ 21=σ 22
Solución:
Puesto que S21 > S22 se utiliza el estadístico de prueba S21 /S 22.
Entonces:
14
12
10
8
Serie 3
Serie 2
6 Serie 1
0
Categoría 1 Categoría 2 Categoría 3 Categoría 4
P 1−P 2
Z 0=
1+1
√ pxqx
n 1+n 1
1−0
=1,99
1,59
√10
100%
90%
80%
70%
60%
Serie 3
50%
Serie 2
40% Serie 1
30%
20%
10%
0%
Categoría 1 Categoría 2 Categoría 3 Categoría 4
Ejercicio 2.
28,2−31
Z 0= =−0,31
1+ 1
√ 29,8 X 70,2 X
47+63
Ejercicio 3.
x
zPrueba= −Po √1 Po(1− po)
n
N
.100 %>5 %
n
Ejercicio 4.
x 11 x 11−x 21 x 21
Medicion y escalonamiento .
Ejercicio 6.
Una compañía de taxis trata de decidir si el uso de llantas radiales en lugar de llantas
regulares con cinturón mejora la economía de combustible. Se equipan 16 automóviles con
llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de
conductores, se equipan los mismos autos con llantas regulares con cinturón y se manejan
una vez más por el recorrido de prueba. Se registra el consumo de gasolina, en kilómetros
por litro, de la siguiente manera:
¿Se puede concluir en el nivel de significancia de 0.05 que los autos equipados con llantas
radiales obtienen mejores economías de combustible que los equipados con llantas
regulares con cinturón?
Solución:
H 0 ;~
μ R −~
μC =0
H1; ~
μ R −~
μ C >0
Regla de decisión:
Si Z R ≤1.645 no se rechaza H 0.
Si Z >1.645 se rechaza H
R 0
Automóvi Llantas radiales Llantas con cinturón d
. l
1 4.2 4.1 +
Se procede a 2 4.7 4.9 - realizar las
diferencias 3 6.6 6.2 + entre de los
kilómetros 4 7.0 6.9 + por litro entre
llantas 5 6.7 6.8 - radiales y con
cinturón: 6 4.5 4.4 +
7 5.7 5.7 0
8 6.0 5.8 +
9 7.4 6.9 +
10 4.9 4.9 0
11 6.1 6.0 +
12 5.2 4.9 +
13 5.7 5.3 +
14 6.9 6.5 +
15 6.8 7.1 -
16 4.9 4.8 +
Al observar las diferencias se ve que sólo existe una n=14, ya que se descartan los valores
de cero. Se tiene r +¿=11¿.
r +¿−0.5 n 11−(0.5)(14)
Z= = =2.14 ¿
0.5 √ n 0.5 √ 14
Decisión y conclusión:
Como 2.14 es mayor a 1.645 se rechaza H 0 y se concluye con un α =0.05 que las llantas
radiales mejoran la economía de combustible.
Ejercicio 7.
Los siguientes datos representan el número de horas que un compensador opera antes de
requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba de
rango con signo para probar la hipótesis en el nivel de significancia de 0.05 que este
compensador particular opera con una media de 1.8 horas antes de requerir una recarga.
Solución:
H 0 ; μ=1.8
H 1 ; μ ≠ 1.8
Se procederá a efectuar las diferencias y a poner rango con signo a los datos.
Dato d i=dato−1.8 Rangos
1.5 -0.3 5.5
2.2 0.4 7
0.9 -0.9 10
1.3 -0.5 8
2.0 0.2 3
1.6 -0.2 3
1.8 0 Se anula
1.5 -0.3 5.5
2.0 0.2 3
1.2 -0.6 9
1.7 -0.1 1
Regla de decisión:
Para una n=10, después de descartar la medición que es igual a 1.8, la tabla muestra que la
región crítica es W ≤ 8.
Cálculos:
W +¿=7+3 +3=13¿
W −¿=5.5 +10+8+3 +5.5+9 +1=42¿
Por lo que W =13 ¿.
Decisión y Conclusión:
Como 13 no es menor que 8, no se rechaza H 0 y se concluye con un α =0.05que el tiempo
promedio de operación no es significativamente diferente de 1.8 horas.
Ejercicio 8.
Pruebe la hipótesis nula en el nivel de significancia de 0.05 de que los problemas aumentan
las calificaciones en 50 puntos contra la hipótesis alternativa de que el aumento es menor a
50 puntos.
Solución:
La prueba de rango con signo también se puede utilizar para probar la hipótesis nula
μ1−μ 2=d 0. En este caso las poblaciones no necesitan ser simétricas. Como con la prueba
de signo, se resta d 0 de cada diferencia, se clasifican las diferencias ajustadas sin importar
el signo y se aplica el mismo procedimiento.
En este caso d 0=50, por lo que se procede a calcular las diferencias entre las muestras y
luego restarles el valor de 50. Se representara con μ1 y μ2 la calificación media de todos los
estudiantes que resuelven el examen en cuestión con y sin problemas de muestra,
respectivamente.
H 0 ; μ 1−μ2=50
H 0 ; μ 1−μ2 <50
Regla de decisión:
Para n=10 la tabla muestra que la región crítica es W +¿ ≤11¿.
Cálculos:
W +¿=6+3.5+1=10.5¿
Decisión y Conclusión:
Como 10.5 es menor que 11 se rechaza H 0 y se concluye con un α =0.05 que los
problemas de muestra, en promedio, no aumentan las calificaciones de registro de
graduados en 50 puntos.
Ejercicio 9.
y ij =μi + β j + ε ij
Para i=1 , 2 y j=1,2, . , . ,. , .,10 . Donde
y ij ≡ Resultado de la punta i sobre la probeta j
μi ≡ Durezamedia ( poblacional ) de la puntai.
β j ≡ Efecto sobre la dureza medida de la probeta j .
2
ε ij ≡ Error experimental(con media 0 y varianza σ ).
i
d́=−0,10
sd =1,20
d́
t0 =−0,26
s d / √n
t α , ( n−1 )=t 0,025,9=2,262
2
Ejercicio 10.
El contenido del níquel, en partes de miles por peso, se mide para seis soldaduras. Los
resultados son 9.3, 0.9, 9.0, 21.7, 11.5 y 13.9. Sea μ la media del contenido de níquel para
este tipo de soldura. Se desea probar H 0 :μ ≥ 12 contra H 1 : μ< 12. La prueba t de student no
es adecuada porque hay dos datos atípicos, 0.9 y 21.7, que indican que la población no es
normal. La prueba del rango con signo de Wilcoxon se puede utilizar en esta situación. Esta
prueba no exige que la población sea normal. Sin embargo, requiere que sea continua (en
vez de discreta), y que función de densidad de probabilidad sea simétrica. (La normal es un
caso especial de una población simétrica continua).
La muestra dada proviene de una población continua, y la presencia de datos atípicos en
cualquier lado hace razonable suponer que la población es casi simétrica. Por tanto, se
procede como se muestra a continuación.
Bajo H 0, la media poblacional es μ=12. Ya que se supone que la población es simétrica,
también la mediana poblacional es 12. Para calcular el estadístico de la suma del rango se
inicia restando 12 a cada observación de la muestra con el fin de obtener las diferencias. A
la diferencia más cercana a 0, ignorando el signo, se le asigna un rango de 1. A la siguiente
diferencia más cercana a 0, ignorando nuevamente el signo, se le asigna un rango de 2, y así
sucesivamente. Por último, a los rangos que les corresponden diferencias negativas se les
asignan signos negativos. La siguiente tabla muestra los resultados.
La suma de los rangos positivos se denota con S+¿¿ , y la suma de los valores absolutos de
los rangos negativos con S−¿ ¿. Tanto S+¿¿ con S−¿ ¿ se puede utilizar como un estadístico de
prueba; se utilizara S+¿¿ . En esta ejemplo S+¿=2+5=7 , y S ¿. Observe que debido a que el
−¿=1+ 3+ 4+ 6=14¿
tamaño de muestra es 6, necesariamente S+¿+S ¿ . Para cualquier muestra, este es el
−¿=1+ 2+ 3+4+ 5+6 =21 ¿
caso S+¿+S ¿. En algunos casos, donde hay muchos más rangos positivos que
−¿=1+ 2+ …+ n=n(n+1)/2 ¿
rangos negativos, es más fácil calcular primero a S−¿ ¿ al sumar los rangos negativos y
S
después calcular +¿= n( n+1 )− S ¿. −¿¿
2
En esta ejemplo, la hipótesis nula es H 0 :μ ≥ 12, por eso un valor pequeño de S+¿¿
proporcionará evidencia en contra de H 0. Se observa que S+¿=7¿ . El P-valor es la
probabilidad de observar un valor de S+¿¿ que es menor o igual a 7 cuando H 0 es verdadera.
Con el tamaño de la muestra n=6, se encuentra la probabilidad de observar un valor de 4 o
menor de 0.1094. La probabilidad de observar un valor de 7 o menor debe ser más grande
que esto último, por lo que se concluye que P>0.1094; por consiguiente, no se rechaza H 0.
4.7 MODELO TOTALMENTE ALEATORIO: ANÁLISIS DE VARIANZA
DE UN FACTOR.
Ejercicio 1.
Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan con
métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el segundo
grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio con pesas y
se ejercita en el pedaleo de alta frecuencia. Después de un mes de entrenamiento se realiza
un test de rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes:
A un nivel de confianza del 95 % ¿Puede considerarse que los tres métodos producen
resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?
Solución: Comenzamos calculando los totales y los cuadrados de los totales divididos por
el número de observaciones:
CM ( entre)=26,8/2=13,4CM ( intra)=17,2/12=1,43
CM ( entre)=82,2/3=27,4
CM ( intra)=86/22=3,9
F=27,4 /3,9=7,03
Ejercicio 2.
Fabrica 1 2 3 4 5 6 7 8
Antes 55 63 90 47 75 90 73 92
Después 52 60 85 49 65 87 67 85
Fabrica 9 10 11 12 13 14 15 16
Antes 110 33 44 74 60 87 41 15
Después 95 35 47 70 55 75 45 18
Este problema puede resolverse por dos métodos distintos pero equivalentes que llevan a
las mismas conclusiones. En primer lugar y dado que el factor-tratamiento (plan de
seguridad) solo tiene dos niveles (antes y después de implantar el plan) se puede considerar
como un problema de datos apareados. Se calcula la variable diferencia.
Ydif =Yantes−Ydespues
Una vez introducidas las variables Yantes e Ydespues ; el módulo proporciona resultados
analíticos y gráficos acerca de la variable diferencia Ydif . Utilizando el test de la t respecto
a la media de una muestra resuelve el contraste H 0 : E(Ydif )=0
Ejercicio 3.
B1 B2 B3 B4 B5 B6 B7 B8 B9 B10
Níquel 76’0 66’3 68’9 74’7 73’0 72’7 80’0 83’6 61’2 62’6
Cobre 71’6 74’1 70’7 75’4 66’7 65’0 70’8 76’2 66’0 72’0
Hierro 76’4 73’4 69’7 74’7 60’2 61’2 71’7 57’0 58’5 66’3
Se utiliza el siguiente modulo
En este módulo al introducir como variable dependiente resistencia y los dos factores: el
factor-tratamiento tipo de soldadura y el factor-bloque lingote, se obtiene un completo
análisis de la varianza que comprende.
Ejercicio 4.
Se desea analizar el efecto que sobre el tiempo medio de respuesta tienen dos factores: la
distribución de los Chicos de las que se consideran tres variantes codiciadas como F1, F2 y
F3; y el número de bueras del sistema, también se consideran tres niveles: 10, 20 y 30
bueras. Se ha hecho una prueba con cada una de las nueve combinaciones posibles, cada
prueba consistió en observar el sistema un día completo y calcular el tiempo de respuesta
media al compilar un programa en lenguaje C en ese periodo de tiempo. El experimento se
replica tres veces. Los resultados obtenidos se presentan en la tabla adjunta. ¿En base a
estos datos existe influencia de alguno de los dos factores en el tiempo de respuesta del
sistema informático?, ¿existe interacción entre ambos factores?
En un primer estudio conviene introducir el factor réplica que indica el orden en el que se
repite el experimento y se estudia el modelo de tres factores sin replicación. Si el modelo se
ha replicado correctamente la tabla ANOVA indicar· que el factor réplica no incluye.
Se quiere estudiar la caída de cuatro fármacos diferentes (F1, F2, F3 y F4) en el tratamiento
de una enfermedad. Para ello se observa el número de días que tardan en curar enfermos
tratados con estos fármacos. Se considera que el factor edad y el factor peso pueden intuir
en el experimento, por ello se controlan estos factores y se consideran cuatro niveles de
edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4). Los resultados del experimento
deseado según la técnica del cuadrado latino son los de la tabla adjunta. ¿qué conclusiones
se deducen del experimento?
E1 E2 E3 E4
P1 10 F 1 '
9 5F 2 7F4 11 ’ 5 F 3
P2 8 F2 10 F 1 8’5 F3 9F4
P3 7 F3 6’5 F 4 7 F1 8 F2
P4 6F4 5 F3 6 F2 9 F1
Se deben introducir los datos de forma correcta en el Chero, una vez realizado Esto, se
utiliza el análisis anterior, siendo la variable respuesta tiempo y los tres factores peso, edad
y fármaco. Al calcular la tabla ANOVA si alguno de los factores no es significativo se
elimina del modelo y se calcula la nueva tabla ANOVA.
Ejercicio 6.
Pruebe la hipótesis de que µ1=µ 2 …=µ 5 a un nivel de significancia de 0.05 para los datos
de la tabla sobre la absorción de humedad por varios tipos de agregado para cemento
1 2 3 4 5
Solución
H 0 :µ1=µ2=…=µ5
α =0.05
Región critica: f =¿ 2.76 con v1 =4 y v 2=25 grados de libertad, los cálculos de la suma de
cuadrados proporcionan
STC=209,377, STC=85,356
STC=209.37−85,356=124,021
Variable dependiente
Decisión:
Rechazar H 0 y concluir que los agregados no tienen la misma media de absorción. El valor
p para f =4.30 es 0.0088 que es menor que 0.05
1 2 …… I ….. K
y 11 y 21 ……. yi1 …….. yk 1
y 12 y 22 ……… yi 2 ……… yk 2
Después se hace la partición de los grados de libertad como antes n−1 para STC , K −1
k
para stc y n−1−(k −1)=n−k para SCE donde n=∑ ¿ 1 n1
i
Ejercicio 7.
Parte de un estudio realizado en Virginia Tech se diseño para medir los niveles de actividad
de la fosfataza alcalina sérica (en unidades de Bessey-Lowry) en niños con trastornos
convulsivos que recibían terapia de anticonvulsivantes bajo el cuidado de un médico
privado. Se reclutaron 45 sujetos para el estudio y se clasificaron en cuatro grupos de
medicamentos:
G−2 : Fenobarbital
G−3 : Carbamazepina
95.22 77.40
SOLUCION
Región critica
Source Df Ss Ms F P
Total 4 67315
Decisión:
Rechazar H0 y concluir que los niveles de actividad promedio de la fosfatasa alcalina sérica
para los cuatro grupos de medicamentos no son los mismos. El valor calculado de P es
0.022.
Para concluir nuestro estudio del análisis de varianza para la clasificación de un solo factor
mencionaremos las ventajas de elegir muestras del mismo tamaño en vez de otras de
tamaños distintos. La primera ventaja es que la razón f no es sensible a pequeñas
desviaciones de la suposición de varianzas iguales para las k poblaciones cuando las
muestras son del mismo tamaño. La segunda consiste en que muestras del mismo tamaño
minimizan la probabilidad de cometer un error tipo II.
Ejercicio 8.
Utilice la prueba de Bartlett a un nivel de significancia de 0.01 para probar la hipótesis de
que las varianzas de la población de los cuatro grupos de medicamentos del ejemplo 13.2
son iguales.
Región critica:
(20)(0.8586)+(9)( 0.6892)+(9)(0.6892)+(7)(0.6045)
≈ =0.7513
45
Cálculos
El primero se obtiene
Y después
Ahora
b=+[(662.862)(2219.781)(2168.434 )(946.032)]
1301.861
Decisión
No rechazar la hipótesis y concluir que las varianzas de la población de los cuatro grupos
de medicamentos no son significativamente distintas. Aunque la prueba de Bartlett se
utiliza con mayor frecuencia para probar la homogeneidad de varianzas, se dispone de otros
métodos. Un método creado por Cochran proporciona un procedimiento de cálculo
sencillo, aunque está limitado a situaciones en que los tamaños muéstrales son iguales. La
prueba de Cochran es especialmente útil para detectar si alguna de las varianzas es mucho
mayor que las demás. El estadístico que se emplea es:
S2I mas grande
G= k
∑ ¿1
i
Por tanto
12.134
g= =0.4892
24.805
En consecuencia se concluye que es razonable lka suposición de que las varianzas son
iguales
Ejercicio 9.
Los datos adjuntos se obtuvieron con un experimento que compara el grado de mancha do
de telas copolimerizadas con tres mesclas diferentes de acido metracrilico
1
STC r = [( 4.59)+(3.97)+4.69]−11.7042
5
¿ 11.7650−11.7042=0.0608
SCE=0.4309−0.0608=0.3701
Total 14 0.4309
Ejercicio 10.
3: 78 91 85 254
4: 92 100 96 288
5: 49 51 50 150
6: 80 85 83 248
1197
Total 17 9504.5
Cada valor de nanosegundos fue se obtuvo al restar 36.1µ de la observación original junto
con la tabla ANOVA derivada el valor de la proporción f es altamente significativo así que
H 0 :σ 2A =0 es rechazada a favor de que la conclusión de que las diferencias entre rieles
provocan la variabilidad del tiempo de recorrido
4.8 SELECCIÓN DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR LA
DIFERENCIA ENTRE DOS MUESTRAS
Ejercicio 1.
6 7 6 5 6 6 9 5 8 8
6 5 10 8 6 8 7 6 5 7
9 5 5 9 8 6 5 6 10 7
6 9 6 7 8 8 5 8 4 10
4 7 7 5 4 10 4 5 5 4
4 6 9 5 6 9 8 5 6 10
7 5 8 9 8 4 8 5 5 4
8 10 6 10 5 8 9 4 5 7
( X 1−X ₂ ) ± ( Z ) [√ s² s² (
+
n₁ n₂ ]
= 6.9−6.5 ) ± ( 1.96 ) [√ 2.6 4.2
+
40 40 ]
¿ ( 0.4 ) ± ( 1.96 ) ( 0.41 )=0.4 ± 0.81
−0.41 ≤ p ≤ 1.21
Ejercicio 2.
Solución:
x=
∑ Mʰxʰ
n
∑ʰ
h =1
151
M= =15.1
10
731
x= =4.8
151
Ejercicio 3.
s2 s2
( +
n1 n 2 ) =
( 1.516 + 1.315 ) ² =
0.033
=30
2
( n ₁−1 ) + ( n −1 ) ( 1.5 ) ( 13 ) 0.0011
+
( 16 ) ( 15 x 14 )
Equipo deportivo un fabricante de equipo deportivo desarrolla nuevo sedal sintético que
afirma tiene una resistencia media en la tensión de 8 kilogramos con una desviación
estándar de 5 kilogramos pruebe la hipótesis 8 kilogramos contra la alternativa 8
kilogramos y se prueba una muestra aleatoria de 50 canales y se encuentra que tiene una
resistencia media a la tensión de 7.8 kilogramos utilice un nivel de significancia de 0.01 .
Solución:
x−μ
z ←2.575 y z >2.575 donde z=
σ
√n
7.8−8
=2.83
.5/ √50
Ejercicio 5.
El 95% de las muestras se encuentra dentro del intervalo Entonces 5% está fuera de mi vida
el 5% en dos partes iguales de 2.5%el valor Z corresponde a un área de 0.0 250 en la cola
inferior de la curva normal -1.96 y el valor de Z correspondiente una tarea como la edad de
0.975 es más 1.96 el valor menor de x y el valor superior de X se encuentran utilizando la
ecuación
15
(
368+ −1.96
√25
=368−5.88=362.12 )
15
368+ ( 1.96 ) =368−5.88=373.88
√25
Ejercicio 6.
Una vez que sabemos que las muestras se distribuyen normalmente y que las varianzas
poblacionales son estadísticamente iguales, podemos proceder al cálculo del estadístico t.
UNI. A UNI. B
Media 32,76 31,2133333
Varianza de poblac. 85,6713514 73,2781982
n 75 75
^S
( 75−1) ∗85,67 + ( 75−1)∗73,28 1 1
Y^ 1− ^
√
Y 2=
75+75−2 [ + ]
75 75
=1,43748
( 32,76−31,213 ) −0
T= =12,07619
1,43748
Ejercicio 7.
1
X = ∑ X i=90.96
^
n
1
Y^ = ∑ Y i =89.47
m
n
^S21= 1 ∑ ¿ ¿
n−1 i−1
m
^S22= 1 ∑ ¿ ¿
m−1 i−1
90.69−89.47
t= =0.80
39∗32.14+34∗54.43 1 1
√ 40+ 35−2 √
+
40 35
Ejercicio 8.
d́
t= √n
^S d
n−1 Sd
^
[ d ± ´t 0975
√n ]
n
1
d́= ∑ X =3.98
n i−I i
n
^S2d = 1 ∑ ¿ ¿
n−1 n−1
3.98
t= √ 75=18.64
√3.42
Ejercicio 9.
Se elabora una tabla para el cálculo de para distintos tamaños muéstrales y se determina en
las curvas características de operación el valor de , para luego calcular el poder de prueba ,
hasta que el valor llegue o sobrepase0,9 , que es el poder adecuado para la mayoría de los
experimentos.
52
n0 =21,96 =5,33 ≈ 6
6
1,96+ 1,28 2
n0 =1+ =5,06 ≈ 6
¿1+ 4
1,96+ 1,285 2
n0 =1+ =5,25 ≈ 6
10
1,96+1,28
n0 =2 =39,88 ≈ 40
0,3
−1 −1 0,3
2 sin 0,25+ −sin 0,25−
2 2
Ejercicio 10.
Calcular qué tamaño muestral debemos tomar para obtener µcon una precisión de 0.001a
partir de una muestra de una poblaciónN ( µ ,3).
σ σ
( X́−Z
1−
α
2 √n
, X́ +Z α
1−
2 √n
)
3 5.88
1,96 ≤ 0.001↔ ≤ √ n → n=58802=34574400
√n 0.001
4.9 APLICACIONES
Ejercicio 1.
μ=70 kg σ =3 kg x=60 kg
Esto es que el 0,04 % de los 5000 pesan menos que 60 kg. Son 2 estudiantes.
Ejercicio 2.
Una empresa eléctrica fabrica baterías de celular que tienen una duración que se distribuye
de forma aproximadamente normal con una media de 800 horas y una desviación estándar
de 40 horas. Si una muestra aleatoria de 30 baterías tiene una duración promedio de
788 horas, ¿muestran los datos suficiente evidencia para decir que la duración media no es
800? Utilice un nivel de significancia del 0.04 .
s=40 horas
x́=788 horas
n=30
α =0.04
X́ R −μ 788−800
Z R= = =−1.643
σ 40
√n 30
Como −1.643 ≥−1.75por lo tanto no se rechaza H 0 y se concluye con un nivel de
significancia del 0.04 que la duración media de las baterías no ha cambiado.
Ejercicio 3.
De la tabla encontramos que t 0.5 para 24 grados de libertad es de 1.711. Por tanto, el
fabricante queda satisfecho con esta afirmación si una muestra de 25 lotes rinde un valor t
entre – 1.711 y 1.711. Se procede a calcular el valor det :
x́−m 518−500
t= = =2.25
s 40
√n √ 25
Este es un valor muy por arriba de 1.711 . Si se desea obtener la probabilidad de obtener un
valor de tcon 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es
aproximadamente de 0.02 . De aquí que es probable que el fabricante concluya que el
proceso produce un mejor producto del que piensa.
Ejercicio 4.
n=150 personas
p=0.03
x=(0.04)(150)=6 personas
p ( x>6 )=?
Media=n p=( 150 ) ( 0.03 )=4.5
x−n p 6.5−4.5
z= = =0.96
√ n pq √ 150(0.03)(0.97)
p(x >6)=0.1685. Este valor significa que existe una probabilidad del 17 % de que al
extraer una muestra de 150 personas, mas de 6 presentaran una reacción adversa.
Datos
N=150 personas
P=0.03
P=0.04
p ( p> 0.04 ) =?
p−P 0.0433−0.03
z= = =0.96
Pq ( 0.03 ) ( 0.97 )
√ √
n 150
Existe una probabilidad de 17 % de que al tomar una muestra de 150 personas se tenga una
proporción mayor de 0.04 presentando una reacción adversa.
Ejercicio 5.
x́ M =110 X́ B=100
n M =61 n B=61
a 0.01
En este caso tenemos una T de student con 60 grados de libertad con = =2=0.005
2 2
quedara:
35 26
( 110−100 ) ±2.6603
√ +
61 61
10 ±2.66
Como el intervalo no contiene el valor 0, se rechaza que la media de los Pentium y los
AMD sean iguales.
Ejercicio 6.
Una empresa adquiere lotes de partes de tamañon=200 , el lote tiene una tasa de partes con
falla del 10%, la política de la empresa ahora es que:
π (1 π ) 0.1(1−0.1)
σ P=
√ n √=
200
0.021
a). P( p>0.12)
p−π 0.12−0.1
Z= = =0.95
σρ 0.021
b ¿ . P(0.10≤p≤0.12)=0.3289 o el 32.89 %
c ¿ . P( 0.05≤ p≤0.10)
p−π 0.05−0.1
Z 0.05= = =−2.38
σp 0.021
p−π 0.1−0.1
Z 0.1= = =0.0
σp 0.021
d ¿ . P( p≤0.05)=0.0087 o el 0.8 % ¿
Por tanto como la mayor probabilidad es la del inciso c, no se cambia al proveedor actual.
Ejercicio 7.
Solución:
X−μ
Z=
σ
155−150
Z155 = =0.33
15
150−150
Z150 = 0.0
15
Por tanto la probabilidad de que una llamada dure entre 150 y 155 segundos es del 12.93%.
b) ¿Cuál es la probabilidad de que la media de n=50 llamadas esté entre 150 y 155
segundos?
155−150
Z155 = =2.36
15 / √ 50
150−150
Z150 = =0.0
15 / √50
En tablas P (Z≤2.36)=0.9909 ;
P( Z≤0)=0.500
Por tanto P(0≤Z≤2.36)=0.4909 o 49.09 %
c) ¿Cuál es la probabilidad de que la media de n=35 llamadas esté entre 145 y 155
segundos?
Ahora se aplica la distribución muestral de las medias, con:
X−μ
Z=
σ /√n
155−150
Z155 = =1.97
15 √35
145−150
Z150 = =−1.97
15 / √ 35
En tablas P (Z≤−1.97)=0.0244 ;
P( Z≤1.97)=0.9756
Por tanto P(−1.97≤Z≤1.97)=0.9512 o 95.12 %
d) ¿Cuál es la probabilidad de que la media de n=35 llamadas sea mayor a 155 segundos?
Ahora se aplica la distribución muestral de las medias, con:
X−μ
Z=
σ /√n
155−150
Z155 = =1.97
15 / √ 35
Ejercicio 8.
Un grupo de investigadores de Ecología midieron la concentración de células rojas en la
sangre de 29 lagartos (Sceloporis occidentales) capturados en el campo. También
observaron si los lagartos estaban infectados por el parásito de Malaria Plasmodium. Los
recuentos de células rojas proporcionaron los siguientes valores.
Solución:
Se trata de comparar dos poblaciones: P1, lagartos infectados con el parásito, y P2, lagartos
no infectados. Concretamente, nos interesa comparar las medias poblacionales. En
consecuencia, buscamos I μ −μ 1 2
Asumimos que las varianzas poblacionales NO son conocidas. Para verificar si pueden
considerarse iguales o no, como S2 > S1, calculamos
s 22
2
=¿ ¿
s1
X́ 1 − X́ 2=972.1−843.4=128.7
t
Como n1 =13 ,n 2=16 y α =1 % (0,01 en tanto por uno), α
=t
2 n1+ n 0.005 .27
=2.771
2
I =(−12824.38582)
Ejercicio 9.
Un miembro del Congreso desea probarla hipótesis de que al menos 60% de los votantes
está a favor de la legislación laboral que acaba de ser presentada a la Cámara, con un nivel
de significancia de 5%. La discrepancia con esta hipótesis se considerará importante si sólo
50% (o menos) favorece la legislación, mientras que el riesgo de un error tipo II deβ=0.05
es aceptable. El tamaño de muestra que debería recolectarse, como mínimo, para satisfacer
estas especificaciones de toma de decisiones es:
Solución.
n=¿=
2
−1.645 ( 0.49 ) −1.645(0.50) −0.806−0.822 2
[ −0.10 ] ( =
−0.10 ) = (16.28 )2=265.04=266.
Ejercicio 10.
Una muestra de 50 hogares de una comunidad revela que 10 de ellos vieron un programa
especial de televisión sobre la economía nacional. En una segunda comunidad, 15 hogares
de una muestra aleatoria de 50 vieron ese programa especial de televisión. Probamos la
hipótesis de que la proporción global de espectadores de las dos comunidades no difiere,
con un nivel de significancia de 1%, de la siguiente manera:
Solución.
H1: ¿