Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCION
La teoría de la inferencia estadística consiste en aquellos métodos por los cuales
realizan inferencias o generalizaciones a cerca de una población. La tendencia actual
es la distinción entre el método clásico de estimación de un parámetro de la población,
por medio del cual las inferencias se basan de manera estricta en información que se
obtiene de una muestra aleatoria seleccionada de la población y el método bayesiano
que usa el conocimiento subjetivo previo sobre la distribución de probabilidad de los
parámetros desconocidos junto con la información que proporcionan los datos
muestrales.
La inferencia estadística se divide en dos áreas principales: Estimación y Prueba de
Hipótesis.
Para distinguir claramente entre las dos áreas, consideremos los siguientes ejemplos.
Se desea estimar:
1. La edad promedio de los nicaragüenses.
2. La proporción de votantes a favor de un partido X
3. La varianza de los salarios en Nicaragua
Para esto se toma una muestra aleatoria y con el conocimiento de la distribución
muestral de los distintos parámetros nos permite establecer el grado de precisión, este
problema cae en el área de estimación.
Ahora en el área de inferencia estadística nos interesaría contrastar los parámetros que
estimamos con datos que ya se conocen con anticipación, por ejemplo la edad promedio
con la edad de jubilación, la proporción de votantes con los datos de las encuestadoras.
También se puede estar interesado en encontrar si el salario de un profesional en el
sector estatal es mayor o menor que de un profesional en el sector privado.
Lo que tratamos es de llegar a una decisión correcta acerca de una hipótesis
preestablecida.
ESTIMACIÓN DE PARAMETROS
que tener un una confianza de 99% que está entre 10 y 50 metros cúbicos. Idealmente,
preferimos un intervalo corto con un grado de confianza, esto se logra con tamaños
grandes de muestras y algunas veces las restricciones del tamaño de la muestra nos
impiden tener intervalos cortos sin sacrificar algo de nuestro grado de confianza.
1-
/2 /2
-z/2 0 z/2
X
En consecuencia, P(-z/2 < < z/2 ) = 1 -
n
Al multiplicar cada término de la desigualdad por 𝜎/√𝑛 , después restar 𝑋̅ de cada
término y multiplicar por -1(para invertir el sentido de la desigualdad), obtenemos:
P x z x z 1
2 n 2 n
Ejemplos
1. Una muestra aleatoria de 200 hogares ubicados en el Residencial Las Mercedes de
la ciudad de Managua tiene un consumo promedio 31 metros cúbicos de agua con una
desviación estándar de 8.5 metros cúbicos. Encuentre los intervalos de confianza del
95% y 99% para la media de todos los residentes de Las Mercedes.
Solución
Datos
a) 𝑥̅ = 31, n = 200, = 8.5 , (1 - )100% = 95%, despejando = 0.05, /2 = 0.025,
buscando en la tabla normal estándar tenemos que z0.025 = 1.96 la fórmula a usar es:
x z x z
2 n 2 n
Sustituyendo los datos obtenemos:
8.5 8.5
31 1.96 31 1.96
200 200
El intervalo de confianza para la media poblacional es: 29.82 < < 32.17
b) Para (1 - )100% = 99%, despejando = 0.01, /2 = 0.005, buscando en la tabla
normal estándar tenemos que z0.005 = 2.57, entonces:
8.5 8.5
31 2.57 31 2.57
200 200
El intervalo de confianza para la media poblacional es: 29.45 < < 32.54
Se observa que con un nivel de confianza más alto el intervalo de confianza más grande
para estimar .
2 . Según una encuesta realizada en un barrio de Managua el gasto promedio en
energía eléctrica de 35 hogares es de 867 (C$/mes), con una desviación estándar de
155 (C$/mes). Estime un intervalo de confianza de 95% para el gasto promedio de todos
los hogares de este barrio.
Solución
𝑥̅ = 867, n = 35, = 155 , (1 - )100% = 95%, despejando = 0.05, /2 = 0.025,
buscando en la tabla normal estándar tenemos que z0.025 = 1.96 la fórmula a usar es:
x z x z
2 n 2 n
Sustituyendo los datos obtenemos:
155 155
867 1.96 867 1.96
35 35
El intervalo de confianza para la media poblacional es: 816 < < 918
El intervalo de confianza de (1 - )100% proporciona una estimación de la precisión de
nuestra estimación puntual. Si es realmente el valor central del intervalo, entonces 𝑥̅
estima sin error. La mayoría de las veces 𝑥̅ no será exactamente igual a y la estimación
puntual es errónea. La magnitud de este error será el valor absoluto de la diferencia
entre y 𝑥̅ y podemos tener (1 - )100% de confianza de que esta diferencia no
excederá a 𝑧𝛼/2 𝜎/√𝑛 , a como se muestra en la siguiente figura.
Error
Teorema
Si se utiliza x como una estimación de se puede tener entonces una confianza de (1
- )100% de que el error no excederá de z/2/n.
En el problema anterior tenemos el 95% de confianza de que la media muestral 𝑥̅ = 31
difiera de la media real por una cantidad menor a 1.18 y con 99% de confianza la
diferencia es menor que 1.55.
Con frecuencia deseamos saber que tan grande necesita ser una muestra para asegurar
que el error al estimar sea menor que una cantidad específica e. Por el teorema
anterior debemos elegir n de modo de que e = 𝑧𝛼/2 𝜎/√𝑛
Teorema
Si se utiliza x como una estimación de se puede tener entonces una confianza de (1
- )100% de que el error será menor que una cantidad especificada e cuando el tamaño
de la muestra es:
z
2
n 2
e
Ejemplo
¿De qué tamaño debe ser la muestra ejemplo anterior si se desea tener una confianza
de 95%, de que la estimación de es menor que 0.1?
2
(1.96)(8.5)
n = 28324
0.1
Hablando estrictamente esta fórmula se aplica solo si conocemos la varianza de la
población de la cual seleccionamos nuestra muestra.
Con frecuencia intentamos estimar la media de la población cuando se desconoce la
varianza. Debemos de recordar que si tenemos una variable aleatoria a partir de una
𝑥̅ −𝜇
distribución normal, entonces la variable aleatoria 𝑇 = 𝑠/ 𝑛, tiene una distribución t-
√
student con n – 1 grados de libertad. El procedimiento para construir un intervalo de
confianza para cuando se desconoce , lo que hacemos es reemplazar por
s(varianza muestral) y distribución normal estándar se reemplaza por la distribución t-
student.
Podemos plantear que:
x
P(-t/2 < T < t/2 ) = 1 - , donde T
s
n
Gráficamente:
-Z/2 0
1-
/2 /2
-t/2 0 t/2
x
En consecuencia, P(-t/2 < < t/2 ) = 1 -
s
n
Al multiplicar cada término de la desigualdad por 𝑠/√𝑛 , después restar 𝑋̅ de cada
término y multiplicar por -1(para invertir el sentido de la desigualdad), obtenemos:
s s
P x t x t 1
2 n 2 n
s s
x t x t
2 n 2 n
donde t/2 es el valor t-student con v = n – 1 grados de libertad, que delimita un área de
/2 a su derecha.
Ejemplo
1. Los contenidos de ácido sulfúrico en 7 recipientes similares son 9.8, 10.2, 10.4, 9.8,
10, 10.2 y 9.6 litros. Obtenga un intervalo de confianza de 95% para la media de todos
los recipientes, suponiendo una distribución aproximadamente normal.
Calculando la media y la desviación estándar muestral obtenemos: x = 10 y s = 0.283
, (1 - )100% = 95%, = 0.05, /2 = 0.025, entonces t0.025 = 2.447 para v = 6
La fórmula a usar es:
s s
x t x t
2 n 2 n
Sustituyendo los datos obtenemos
0.283 0.283
10 2.447 10 2.447
7 7
Un intervalo de confianza para la media de todos los recipientes es: 9.74 < < 10.26
Problemas propuestos 1
1. Según una encuesta realizada en un barrio de Managua el gasto promedio en
agua potable de 35 hogares es de 234 (C$/mes), con una desviación estándar
de 85.04 (C$/mes). Estime un intervalo de confianza de 95% y 99% para el gasto
promedio de todos los hogares de este barrio.
2. El ingreso promedio de una muestra de 40 familias de un residencial en Managua
es de C$ 15, 413 al mes con una desviación estándar C$5,167 al mes. Estime
un intervalo de confianza del 90% y 98% para el ingreso promedio de todas las
familias del residencial.
3. La estaturas de una muestra aleatoria de 50 estudiantes universitarios tiene una
media de 174.5 centímetros y una desviación estándar de 6.9 centímetros.
Encuentre un intervalo de confianza de 98% para la estatura media de todos los
estudiantes de la universidad.
4. Una muestra aleatoria de 100 propietarios de vehículos muestra que en un
estado de USA, un automóvil recorre en promedio 23,500 kilómetros por año con
una desviación estándar de 3,900 kilómetros. Encuentre un intervalo de
confianza de 99% para el número promedio de kilómetros que se maneja un auto
en ese estado.
5 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
5. ¿De qué tamaño debe ser la muestra 1 si se desea tener una confianza de 95%,
de que la estimación de es menor que 0.1?
6. ¿De qué tamaño debe ser la muestra 2 si se desea tener una confianza de 99%,
de que la estimación de es menor que 0.05?
7. A continuación se presentan las notas obtenidas por 10 alumnos en la asignatura
de Matemática I en la UAM: 60, 61, 65, 83, 35, 40, 64, 81, 74, 60. Estime un
intervalo de confianza del 95% para la calificación promedio de todos los
alumnos, suponiendo una distribución aproximadamente normal.
8. El gasto promedio en colegiatura de 20 hogares de un residencial en Managua
es de C$1682 al mes con una desviación estándar de C$230 al mes. Estime un
intervalo de confianza del 99% para el gasto medio todos los hogares del
residencial suponiendo una distribución aproximadamente normal.
1-
/2 /2
-z/2 0 z/2
Intervalo de Confianza para 1 - 2 con y conocidas 2
1
2
2
12 22 12 22
x x z
1 2 1 2 x1 x2 z
2 n1 n2 2 n1 n2
donde z/2 es el valor de Z que delimita un área de /2 a su derecha.
El grado de confianza es exacto cuando las muestras se seleccionan de poblaciones
normales.
Ejemplo
50 muchachas y 65 muchachos presentaron un examen de química. Las muchachas
obtuvieron una calificación promedio de 76, con una desviación estándar de 6, en tanto
la calificación promedio de los chicos fue de 82 con desviación estándar de 8. Encuentre
el intervalo de confianza de 96% para la diferencia 1 - 2 donde 1 es la puntuación
media de las chicas y 2 es la de los chicos.
Solución
Datos
𝑥1 = 76, 1 = 6, n1 = 50
Muchachas: ̅̅̅
𝑥2 = 82 , 2 = 8, n2 = 65
Muchachos: ̅̅̅
(1 - )100% = 96%, = 0.04, /2 = 0.02, z0.02 = 2.04
La formula a usar es:
12 22 12 22
x x z
1 2 1 2 x1 x2 z
2 n1 n2 2 n1 n2
Sustituyendo los datos tenemos
6 2 82 6 2 82
76 82 2.04
1 2 76 82 2.04
50 65 50 65
Obteniendo el intervalo de confianza: -8.66 < 1 - 2 < -3.33
x 1
x 2 t s p
2
1
1
n1 n2
1 2 x1 x 2 t s p
2
1
1
n1 n2
donde: sp es la estimación de la desviación estándar poblacional y se calcula de la
siguiente con la siguiente fórmula:
(𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22
𝑠𝑝2 = , 𝑠12 𝑦 𝑠22 son las varianzas muestrales
𝑛1 +𝑛2 −2
t/2 es el valor t-student que con n1 + n2 – 2 grados de liberta y delimita un área de /2 a
su derecha.
Intervalo de Confianza para 1 - 2 con 12 22 pero desconocidas
Si x 1 y 𝑠12 , y x 2 y 𝑠22 son las medias y varianzas de muestras pequeñas independientes
de tamaño n1 y n2, respectivamente, de poblaciones aproximadamente normales con
varianzas diferentes pero desconocidas, un intervalo de confianza de (1 - )100% para
1 - 2 esta dado por:
x 1
x 2 t
2
s12 s 22
n1 n2
1 2 x1 x 2 t
2
s12 s 22
n1 n2
Ejemplos
1. Los siguientes datos, representan las notas de Matemática I y Matemática II de
alumnos de primer año de una universidad de Nicaragua.
Matemática I Matemática II
n1 = 15 n2 = 17
𝑥1 = 69
̅̅̅ 𝑥2 = 63
̅̅̅
𝑠12 = 288 𝑠22 = 152
Encuentre un intervalo de confianza de 99% para la diferencia 1 - 2 en las
calificaciones para las dos asignaturas, suponga poblaciones normales con
varianzas iguales.
Solución
Datos
Matemática I Matemática II
n1 = 15 n2 = 17
𝑥1 = 69
̅̅̅ 𝑥2 = 63
̅̅̅
𝑠12 = 288 𝑠22 = 152
(1 - )100% = 99%, = 0.001 , /2 = 0.005, como las varianzas son iguales los
grados de libertad son v = n1 + n2 – 2 = 15 + 17 – 2 = 30, entonces t0.005 = 2.750
La fórmula a utilizar es:
x
1
x 2 t s p
2
1
1
n1 n2
1 2 x1 x 2 t s p
2
1
1
n1 n2
Primero tenemos que calcular
(𝑛1 − 1)𝑠12 − (𝑛2 − 1)𝑠22 (15 − 1)288 − (17 − 1)152
𝑠𝑝2 = = = 53.33
𝑛1 + 𝑛2 − 2 15 + 17 − 2
sp = 7.3
Sustituyendo los datos obtenemos
2. A continuación se dan los miles kilómetros recorridos anuales por las llantas de
traseras de 8 taxis:
Taxi Marca A Marca B
1 34.4 36.7
2 45.5 46.8
3 36.7 37.7
4 32.0 31.1
5 48.4 47.8
6 32.8 36.4
7 38.1 38.9
8 30.1 31.5
Solución
Datos
Marca A Marca B
n1 = 8 n2 = 8
𝑥1 = 37.25
̅̅̅ 𝑥2 = 38.36
̅̅̅
𝑠12 = 42.86 𝑠22 = 38.2
Como las varianzas son iguales pero de conocidas, encontramos los v grados
de libertad
2 2
(𝑠𝐵 /𝑛𝐵 + 𝑠𝐴 /𝑛𝐴 )2 (38.2/8+ 42.86/8)2
𝑣 = [(𝑠2 /𝑛 2 2 2 = [(38.2/8)2 /(8−1)]+[( 42.86/8)2 /(8−1)] ≈ 14
𝐵 𝐵 ) /(𝑛𝐵 −1)]+[( 𝑠𝐴 /𝑛𝐴 ) /(𝑛𝐴 −1)]
Buscando en la tabla t-student con /2 = 0.005 y 12 grados de libertad tenemos que
t/2 = 3.055
La fórmula que usaremos es:
x B
x A t
2
s B2 s A2
nB n A
B A x B x A t
2
s B2 s A2
nB n A
Sustituyendo los datos tenemos:
Problemas propuestos 2
1. Se lleva a cabo un experimento en el que se comparar dos tipos de motores A y
B. Se mide el rendimiento en millas por galón de gasolina. Se realizaron 50
experimentos con el motor A y 75 con el motor B. La gasolina que se usa y las
demás condiciones se mantienen constantes. El rendimiento promedio de
gasolina para el motor A es de 36 millas por galón con una desviación estándar
de 6 y el promedio para el motor B es de 42 millas por galón con una desviación
estándar de 8. Encuentre un intervalo de confianza de 96% para B - A, donde
B y A son el rendimiento de gasolina medio poblacional para los motores B y A
respectivamente.
2. Los siguientes datos, registrados en días, representan el tiempo de
recuperación para pacientes que se tratan al azar con uno de dos medicamentos
para curar infecciones graves de la vejiga:
Medicamento 1 Medicamento 2
n1 = 14 n2 = 16
𝑥1 = 17
̅̅̅ 𝑥2 = 19
̅̅̅
𝑠12 = 1.5 𝑠22 = 1.8
Encuentre un intervalo de confianza de 99% para la diferencia 2 - 1 en el tiempo
promedio de recuperación para los dos medicamentos, suponga poblaciones
con varianzas iguales.
Ejemplo
En una muestra aleatoria de 500 familias propietarias de aparatos de televisión en
Nicaragua se halló que 340 se suscribieron a televisión por cable . Obtenga un intervalo
de confianza de 95% para estimar la proporción real de familias que se suscribieron a
televisión por cable.
340
p 0.68 , por lo tanto q 0.32 , (1 - )100%=95%, /2 = 0.025, entonces el
500
intervalo de confianza es:
(0.68)(0.32) (0.68)(0.32)
0.68 1.96 p 0.68 1.96 ;
500 500
0.64 p 0.72
Teorema
Si se p utiliza como una estimación de p se puede tener entonces una confianza de(1
pq
- )100% de que el error no excederá de z/2
n
pq pq
p - z/2 p p p + z/2
n n
10 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
Teorema
Si se utiliza p como una estimación de p se puede tener entonces una confianza de(1
- )100% de que el error será menor que una cantidad especificada e cuando el tamaño
de la muestra es:
2
z pq
n /2
2
e
Ejemplo
De que tamaño debe ser la muestra requerida en el ejemplo anterior si se desea tener
una confianza de 95% de que la estimación de p está dentro de 0.02?
(1.96)2 (0.68)(0.32)
n 2090
(0.02)2
o sea: -0.0017 < p1 – p2 < 0.0217Como el intervalo de confianza contiene el cero, no hay
razón para creer que el nuevo procedimiento producirá una disminución significativa en
la proporción de artículos defectuosos comparado con el método existente.
Problemas propuestos 3
1. Se selecciona una muestra aleatoria de 2000 votantes en la ciudad de Managua
y se encuentra que 680 votaran por el partido X. Encuentre un intervalo de
confianza de 96% para la proporción de votantes en Managua que favorecen al
partido X.
2. En una muestra aleatoria de 1000 casas en cierta ciudad, se encuentra que 228
tienen alcantarillado sanitario. Encuentre un intervalo de confianza del 99% para
la proporción real de casas de esta ciudad que poseen alcantarillado sanitario.
3. Un científico se interesa en la proporción de hombres que padecen de cierto
trastorno sanguíneo. En una muestra aleatoria de 100 hombres se encuentra
que 24 lo padecen. Calcule un intervalo de confianza de 99% para la proporción
de hombres que tienen este problema en la sangre.
4. ¿Qué tan grande se requiere que sea la muestra en el ejercicio 2 si deseamos
tener una confianza del 96% de que nuestra proporción de la muestra estará
dentro del 0.02 de las casas que poseen alcantarillado sanitario?
5. ¿Qué tan grande se requiere que sea la muestra en el ejercicio 3 si deseamos
tener una confianza del 95% de que nuestra proporción de la muestra estará
dentro del 0.04 de los hombres que tienen el problema sanguíneo?
6. Se realiza una encuesta en una universidad y se encuentra que 250 ingenieros
civiles 80 son mujeres; 175 ingenieros químicos 40 son mujeres. Calcule un
intervalo de confianza del 90% para la diferencia entre la proporción de mujeres
en estos dos campos de la ingeniería.
7. En 1995 se hizo una encuesta a 1000 jóvenes en la capital se encontró que 274
prefieren el equipo de beisbol A. En el 2000 se hace una encuesta a 760 jóvenes,
también en la capital y se encontró que 240 preferían el equipo de beisbol A.
Calcule un intervalo de confianza del 95% para la diferencia entre la proporción
de jóvenes que prefieren el equipo A en las distintas encuestas.
P( 12 / 2 X 2 2 / 2 ) 1
Gráficamente:
(n 1) s 2
P 12 / 2 2 / 2 1 , despejando 2, obtenemos
2
Al dividir cada término de la desigualdad entre (n – 1)s2 y después invertir cada término
(lo que cambia el sentido de la desigualdad), obtenemos
(n 1) s 2 (n 1) s 2
P
2
1
/ 2 12 / 2
2
(n 1) s 2 (n 1) s 2
2
2 / 2 12 / 2
donde 2 / 2 y 12 / 2 son los valores de la variable aleatoria con distribución 2 con v =
n – 1 grados de libertad, delimitan áreas de /2 y 1 - /2, respectivamente, a su derecha.
Ejemplo
(9)(0.286) (9)(0.286)
2 o sea 0.135 < 2 < 0.953
19.023 2.70
Gráficamente:
donde f1-/2(v1, v2) y f/2(v1, v2) son los valores de la distribución F con v1 y v2 grados de
libertad que dejan áreas de 1 - /2 y /2, respectivamente, a la derecha. Al sustituir F,
tenemos
13 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
𝜎22 𝑠12
𝑃 [f1−α/2 ( v1 , v2 ) < < fα/2 ( v1 , v2 )] = 1 − 𝛼
𝜎12 𝑠22
Al multiplicar cada término de la desigualdad por 𝑠12 /𝑠22y después invertir cada término
(para cambiar el sentido de la desigualdad), obtenemos
𝑠12 1 𝜎12 𝑠12 1
𝑃[ 2 < 2 < 2 ]=1− 𝛼
𝑠2 fα/2 ( v1 , v2 ) 𝜎2 𝑠2 f1−α/2 ( v1 , v2 )
Sustituyendo f1−α ( v1 , v2 )por fα/2 ( v2 , v1 ), tenemos
2
𝑠12 1 𝜎12 𝑠12
𝑃[ 2 < 2 < 2 fα/2 ( v2 , v1 )] = 1 − 𝛼
𝑠2 fα/2 ( v1 , v2 ) 𝜎2 𝑠2
12
Intervalo de Confianza para
22
Medicamento 1 Medicamento 2
n1 = 13 n2 = 16
𝑠12 = 1.5 𝑠22 = 1.8
Construya un intervalo de confianza de 99% para 12
Solución 22
Datos
n1 = 13 n2 = 16
𝑠12 = 1.5 𝑠22 = 1.8
(1 - )100% = 99%, = 0.01, /2 = 0.005, buscamos en la tabla F de Fisher los valores:
f0.005(12, 15) = 4.25 y f0.005(15, 12) = 4.74
La fórmula que usaremos es:
s12 1 12 s12
f / 2 (v2 , v1 )
s 22 f / 2 (v1 , v2 ) 22 s 22
Sustituyendo los datos
1.5 1 12 1.5
4.74
1.8 4.25 22 1.8
Obteniendo el intervalo de confianza
12
0.196 3.95
22
Como el intervalo de confianza contiene al 1 podemos suponer las varianzas son
iguales.
Problemas propuestos 4
1. Estime un intervalo de confianza del 99% para la razón de varianzas del ejercicio
3 problemas propuestos 2.
2. Para encontrar si un nuevo suero detiene la leucemia, se seleccionan 9 ratones,
todos con una etapa avanzada de la enfermedad. Cinco ratones reciben
tratamiento y cuatro no. Los tiempos de sobrevivencia, en años, a partir del
momento en que se comienza el experimento son los siguientes:
Con tratamiento 2.1 5.3 1.4 4.6 0.9
Sin tratamiento 1.9 0.5 2.8 3.1
PRUEBA DE HIPÓTESIS
A menudo, el problema con que se enfrenta un profesional no es tanto la estimación de
un parámetro poblacional, sino más bien la formulación de un procedimiento de decisión
que se base en los datos, que pueda producir una conclusión acerca del parámetro
estimado. Por ejemplo nos puede interesar si:
La vida promedio en Nicaragua es menor que 60 años.
El consumo promedio domiciliar de agua potable en Managua es mayor que 25
metros cúbicos mensuales.
En cada uno de estos casos se plantea postula o conjetura algo acerca de un sistema.
Además, cada uno debe incluir datos experimentales y la toma de decisión basada en
estos. De manera formal, en cada caso, la conjetura se puede poner en forma de
hipótesis estadística. Los procedimientos que conducen a la aceptación o rechazo de
hipótesis estadísticas como éstas comprenden un área principal de la inferencia
estadística.
En la unidad anterior estimamos algún parámetro de la población, ahora formularemos
un conjunto de reglas que conduzcan a una culminación de aceptación o rechazo de
alguna hipótesis acerca de este parámetro que hemos estimado.
Definición
Una hipótesis estadística es una aseveración o conjetura relacionada con una o más
poblaciones.
La veracidad o falsedad de una hipótesis estadística nunca se conoce con certeza, a
menos de que se analice la población completa. Esto, por supuesto, sería poco práctico
en la mayoría de las situaciones. En su lugar, tomamos una muestra aleatoria de la
población de interés y utilizamos los datos contenidos en esta muestra para
proporcionar evidencia que apoye o no la hipótesis. La evidencia de la muestra que es
inconsistente con la hipótesis que se establece conduce al rechazo de ésta, mientras
que la evidencia que la apoya conduce a su aceptación.
A menudo utilizaremos las palabras aceptar o rechazar una hipótesis por lo que es
importante comprender que rechazar una hipótesis significa concluir que es falsa,
mientras que aceptar una hipótesis solamente implica que no se tiene suficiente
información como para creer otra cosa.
Utilizaremos dos tipos de hipótesis:
- H0: Hipótesis nula
- H1: Hipótesis Alternativa.
La estructura de la hipótesis se formulará con el uso de la hipótesis nula. Se refiere a
cualquier hipótesis que deseamos probar. El rechazo H0 conduce a la aceptación de una
hipótesis alternativa H1. Una hipótesis nula con respecto a un parámetro poblacional
siempre se establecerá de modo que se especifique un valor exacto del parámetro,
mientras que la alternativa permite la posibilidad de varios valores.
Prueba de una hipótesis estadística.
Para ilustrar los conceptos que se utilizan al probar una hipótesis estadística acerca de
una población, considere el siguiente ejemplo.
Se sabe que cierto tipo de vacuna contra el catarro es sólo efectiva 25% después de un
periodo de 2 años. Para determinar si una nueva vacuna más cara es superior al
proporcionar protección contra el mismo virus durante un periodo más largo, suponga
que se eligen a 20 personas al azar y se les aplica la vacuna, si más 8 de estas personas
a las que se les aplicaron la nueva vacuna pasan un periodo de más de dos años sin
contraer el virus entonces se considerara superior la nueva vacuna. El número de 20
personas a las que se les aplica es solo para demostrar los pasos, pero en la realidad
debería de ser de miles. El requisito de que el número exceda a 8 es algo arbitrario pero
parece razonable, pues representa una ganancia modesta sobre los las 5 personas que
se esperaría que reciben protección de las 20 personas que se vacunaron con la
existente.
Las hipótesis que queremos probar son:
16 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
H0: p = 0.25
H1: P > 0.25
Aceptar H0 Rechazar H0
(p = 0.25) (p > 0.25)
Región de Aceptación Región Crítica
0 1..... 8 ..... 20
Los posibles valores de X se dividen en dos grupos: los números menores o iguales a 8
y los mayores que 8. Todos los posibles valores mayores que 8 constituyen la región
crítica o de rechazo y todos los posibles valores menores o iguales que 8 determinan
la región de aceptación. El último número que observamos al pasar de la región de
aceptación a la región crítica se llama valor crítico, en nuestro caso es 8. Por lo tanto,
si x > 8 rechazamos H0 a favor de H1. Si x 8 aceptamos H0.
Esto nos puede conducir a dos decisiones erróneas. Por ejemplo, la nueva vacuna
puede ser no mejor que la que se usa actualmente y, para este grupo particular de
individuos seleccionados de forma aleatoria, más de 8 pasan el periodo de dos años sin
contraer el catarro. Cometeríamos el error de rechazar H0 a favor de H1, cuando de
hecho, H0 es verdadera. Tal error se llama Error de Tipo I
Error de Tipo I
Al rechazo de la hipótesis nula cuando esta es verdadera se le denomina error de tipo I
().
Una segunda clase de error se comete si 8 o menos del grupo pasan el periodo de dos
años de forma exitosa y concluimos que la nueva vacuna no es mejor cuando realmente
lo es. En este caso aceptaríamos H0 cuando es falsa. Este se llama Error Tipo II
Error de Tipo II
A la aceptación de la hipótesis nula cuando esta es falsa se le denomina error de tipo II
().
Al probar cualquier hipótesis estadística, hay cuatro situaciones posibles que
determinan si nuestra decisión es correcta o errónea.
H0 es verdadera H0 es falsa
Aceptar H0 Decisión correcta Error tipo II
Rechazar H0 Error tipo I Decisión correcta
Se le denomina prueba de dos colas ya que la región crítica está dividida en dos partes
igualmente probables ubicadas en cada cola de la distribución del estadístico de prueba.
1-
/2 /2
-z/2 0 z/2
Las pruebas unilaterales sobre la media involucran la misma estadística que se describe
en el caso bilateral. La diferencia es que la región crítica está a un solo lado de la cola
de la distribución normal. Si queremos probar:
H0: = 0
H1: > 0
La región crítica es z > z, gráficamente:
18 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
1-
0 z
Ahora si queremos probar
H0: = 0
H1: < 0
La región crítica es z < -z, gráficamente
1-
-z
1. Una muestra aleatoria de 100 muertes registradas en los Estados Unidos el año
pasado mostró un promedio de vida de 71.8 años, con una desviación estándar
de 8.9 años. ¿Podría esto indicar que el promedio de vida actual es mayor que
70 años? Use un nivel de significancia de 0.05.
Solución
Planteando los pasos para realizar una prueba de hipótesis tenemos:
a. H0 = 70 años
b. H1 > 70 años
c. = 0.05, z = 1.645
x 0 71.8 70
z 2.02
8.9
n 100
Solución
a. H0 = 8 kg
b. H1 8 kg
c. = 0.01, /2 = 0.005, z/2 = 2.575
e. Cálculos con datos de la muestra: x = 7.8 kg; = 8.9 kg y n = 50
x 0 7.8 8
z 2.83
0.5
n 50
e. Cálculos con datos de la muestra: x = 5.23 onzas, = 0.24 onzas y n = 64
x 0 5.23 5.5
z 9
0.24
n 64
Una sola muestra: pruebas con respecto a una sola media (varianza
desconocida)
Para pruebas sobre una media poblacional con 2 desconocida debemos usar la
distribución t-student. La estructura de la prueba es idéntica a la del caso con conocida
con la excepción de que el valor de en la estadística de prueba se reemplaza con la
varianza muestra s y la distribución normal estándar se reemplaza con una distribución
t-student. Como resultado para, para la hipótesis
H0: = 0
H1: 0
El rechazo de H0 en un nivel de significancia de resulta cuando la estadística de prueba
x 0
t
s
n
excede t/2,n-1 o es menor que -t/2,n-1, debemos recodar que la distribución de t es similar
a la normal estándar entonces gráficamente tenemos
1-
/2 /2
-t/2 0 t/2
Las pruebas unilaterales sobre la media involucran la misma estadística que se describe
en el caso bilateral. La diferencia es que la región crítica está a un solo lado de la cola
de la distribución t. Si queremos probar:
H0: = 0
H1: > 0
La región crítica es t > t, gráficamente:
1-
0 t
Ahora si queremos probar
H0: = 0
H1: < 0
La región crítica es t < -t, gráficamente
1-
-t
Ejemplos:
21 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
x 0 42 46
t 1.16
s 11.9
n 12
f.
Decisión. Aceptar H0 y concluir que el número promedio de kwh consumidos
anualmente por una aspiradora casera no es significativamente menor que
46.
2. Pruebe la hipótesis de que el contenido promedio de los envases de un
lubricante en particular es de 10 litros si los contenidos de una muestra aleatoria
de 10 envases son: 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3 y 9.8 litros.
Use un nivel de significancia de 0.01 y suponga que la distribución del contenido
es aproximadamente normal.
Solución
a. H0 = 10 litros
b. H1 10 litros
c. = 0.05, /2 = 0.025
x 0 10.06 10
t 0.79
s 0.24
n 10
-z/2 0 z/2
Para las pruebas unilaterales la región crítica está a un solo lado de la cola de la
distribución normal. Si queremos probar:
H0: 1 - 2 = d0
H1: 1 - 2 > d0
La región crítica es z > z, gráficamente:
1-
0 z
Ahora si queremos probar
H0: 1 - 2 = d0
H1: 1 - 2 < d0
1-
-z
Para varianzas desconocidas, pero iguales o sea 𝜎12 = 𝜎22 se usa la estadística de
prueba t combinada de dos muestras:
(𝑥
̅̅̅1 − ̅̅̅)
𝑥2 − 𝑑0
𝑡=
𝑠𝑝 √1⁄𝑛1 + 1⁄𝑛2
donde
23 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
-t/2 0 t/2
Para las pruebas unilaterales la región crítica está a un solo lado de la cola de la
distribución t-student. Si queremos probar:
H0: 1 - 2 = d0
H1: 1 - 2 > d0
La región crítica es t > t, gráficamente:
1-
0 z
Ahora si queremos probar
H0: 1 - 2 = d0
H1: 1 - 2 < d0
La región crítica es t < -t, gráficamente
1-
-z
En todos los casos los grados de libertad son v = n1 + n2 - 2
Para varianzas desconocidas, pero diferentes o sea 𝜎12 ≠ 𝜎22 se usa la estadística de
prueba t’:
(𝑥
̅̅̅1 − ̅̅̅)
𝑥2 − 𝑑0
𝑡′ =
2 2
√𝑠1 ⁄𝑛 + 𝑠2⁄𝑛
1 2
(𝑠12 /𝑛1 + 𝑠22 /𝑛2 )2
que tiene una distribución t-student con 𝑣 = [(𝑠2 /𝑛 2 2 2 grados de
1 1 ) /(𝑛1 −1)]+[( 𝑠2 /𝑛2 ) /(𝑛2 −1)]
libertad. Las regiones de rechazo son iguales a las del caso anterior.
Ejemplos
1. Una muestra aleatoria de tamaño n1 = 25, que se toma de una población normal
con una desviación estándar 1 = 5.2 tiene una media ̅̅̅ 𝑥1 = 81. Una segunda
muestra aleatoria de tamaño n2 = 36, que se toma de una población normal
diferente con una desviación estándar 2 = 3.4 tiene una media ̅̅̅
𝑥2 = 76. Pruebe
la hipótesis de que 1 = 2 contra la alternativa 1 2. Use un nivel de
significancia de 0.01.
Solución
a. H0: 1 = 2 ó 1 - 2 = 0
b. H1: 1 2 ó 1 - 2 0
c. = 0.01, /2 = 0.005, z/2 = 2.57
0 1.725
e. Cálculos con datos de las muestras: n1 = 12, s1 = 4 ̅̅̅
𝑥1 = 85
n2 = 10, s2 = 5 ̅̅̅
𝑥2 = 81
25 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
(𝑥
̅̅̅1 − ̅̅̅)
𝑥2 − 𝑑0 (85 − 81) − 2
𝑡= = = 1.04
𝑠𝑝 √1⁄𝑛1 + 1⁄𝑛2 4.478√1⁄12 + 1⁄10
f. Decisión: Aceptar H0 y no se puede concluir que las notas del colegio 1 excedan
a las del colegio 2 en más de 2.
3. A continuación se dan los miles kilómetros recorridos anuales por las llantas de
traseras de 8 taxis:
Taxi Marca A Marca B
1 34.4 36.7
2 45.5 46.8
3 36.7 37.7
4 32.0 31.1
5 48.4 47.8
6 32.8 36.4
7 38.1 38.9
8 30.1 31.5
¿Se puede afirmar que los recorridos promedios de la marca de llantas B es igual
al recorrido promedio de la marca A? Use un nivel de significancia del 0.01,
suponiendo una distribución aproximadamente normal y las varianzas
desconocidas pero diferentes.
Solución
1. H0: B = A
2. H1: B A
3. = 0.01. /2 = 0.005
4. Para establecer la región crítica, primero encontramos los grados de libertad.
Como las varianzas son iguales pero de conocidas, encontramos los v grados
de libertad
2 2
(𝑠𝐵 /𝑛𝐵 + 𝑠𝐴 /𝑛𝐴 )2 (38.2/8+ 42.86/8)2
𝑣 = [(𝑠2 /𝑛 2 2 2 = [(38.2/8)2 /(8−1)]+[( 42.86/8)2 /(8−1)] ≈ 12
𝐵 𝐵 ) /(𝑛𝐵 −1)]+[( 𝑠𝐴 /𝑛𝐴 ) /(𝑛𝐴 −1)]
Grados de libertad
Problemas propuestos 6
1. Según una encuesta realizada en un barrio de Managua el gasto promedio en
agua potable de 35 hogares es de 234 (C$/mes), con una desviación estándar
de 85.04 (C$/mes). ¿Existe alguna razón para creer que el gasto promedio
mensual en agua potable es menor que C$250 al mes? Use un nivel de
significancia de 0.05.
2. El ingreso promedio de una muestra de 40 familias de un residencial en Managua
es de C$ 15, 413 al mes con una desviación estándar C$5,167 al mes. Pruebe
la hipótesis de que el ingreso promedio mensual es mayor que C$15,000, use
= 0.01.
3. La estaturas de una muestra aleatoria de 50 estudiantes universitarios tiene una
media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. ¿Esto
sugiere con un nivel de significancia de 0.05 que las estaturas promedios de los
estudiantes universitarios es mayor que 170 centímetros?
4. Se afirma que un automóvil se maneja en promedio 20,000 kilómetros al año.
Para probar esta afirmación se pide a una muestra aleatoria de 100 propietarios
27 Elaborado por: Ing. Erick Murillo Vélez`
Universidad Nacional de Ingeniería
Unidad IV
Medicamento 1 Medicamento 2
n1 = 14 n2 = 16
𝑥1 = 17
̅̅̅ 𝑥2 = 19
̅̅̅
𝑠12 = 1.5 𝑠22 = 1.8
¿Es esta evidencia suficiente para creer que 2 = 1 en el tiempo promedio de
recuperación para los dos medicamentos? Use = 0.01, suponga poblaciones
con varianzas iguales.
9. Una compañía de taxis trata de decidir si compra llantas de la marca A o de la B
para su flota de taxis. Para estimar la diferencia de las dos marcas, se lleva a
cabo un experimento utilizando 12 llantas de cada marca. La llantas se usan
hasta que se gastan y los resultados son:
Marca A Marca B
𝑥1 = 36,300 kilómetros
̅̅̅ 𝑥2 = 38,100 kilómetros
̅̅̅
𝑠1 = 5,000 kilómetros 𝑠2 = 6, 100 kilómetros
Pruebe la hipótesis de que 1 = 2, use = 0.05 y suponga que las poblaciones
se distribuyen de forma aproximadamente normal, suponiendo que las varianzas
no son iguales.
1-
/2 /2
-z/2 0 z/2
1-
0 z
Ahora si queremos probar
H0: p = p0
H1: p < p0
La región crítica es z < -z, gráficamente
1-
-z
Ejemplo
Se piensa que una droga comúnmente prescrita en el mercado para aliviar la tensión
nerviosa es solamente efectiva en un 60%. Los resultados experimentales de una nueva
droga administrada a una muestra aleatoria de 100 adultos que sufrían tensión nerviosa
mostraron que 70 de ellos se aliviaron. Es esta evidencia para concluir que la nueva
droga es superior a aquella comúnmente prescrita? Use = 0.05.
Solución
1. H0: p = 0.6
2. H1: p > 0.6
3. = 0.05
1-
/2 /2
-z/2 0 z/2
1-
0 z
Ahora si queremos probar
H0: p1 = p2
H1: p1 < p2
La región crítica es z < -z, gráficamente
1-
-z
Ejemplo
Se tomará el voto entre residentes de una ciudad y las comunidades rurales, para
determinar quién favorece a cierto candidato a la alcaldía de dicha ciudad. Para
determinar si hay una diferencia significativa en la proporción de votantes de la ciudad
y de las comunidades rurales, se realiza una encuesta. Si 120 de 200 de la ciudad
favorecen al alcalde, mientas que 240 de 500 favorecen el vota al alcalde en las
comunidades rurales. ¿Estaría de acuerdo que la proporción de votantes de que
favorecen al alcalde es más alta que la proporción de votantes de las comunidades
rurales? Use un nivel de significancia de 0.025
Solución
Sean 𝑝̂1 𝑦 𝑝
̂2 las proporciones de éxito en la ciudad y en las comunidades reales
que favorecen al alcalde.
a. H0: p1 = p2
b. H1: p1 > p2
c. = 0.025
Problemas propuestos 7
1. Una compañía de petróleo afirma que un quinto de las casas de cierta ciudad
tiene calefacción con petróleo. ¿Tenemos razón en dudar de esta afirmación si,
una muestra aleatoria de 1000 casas en esta ciudad se encuentra que 136 tiene
calefacción con petróleo? Use un nivel de significancia de 0.01.
2. En cierta universidad se estima que a lo más 25% de los estudiantes usan la
biblioteca. ¿Esta parece ser una estimación valida si, en una muestra aleatoria
de 90 estudiantes, se encuentra que 28 usan la biblioteca en esta universidad?.
Use un nivel de significancia de 0.05.
3. En un estudio para estimar la proporción de residentes de dos ciudades que
están a favor de la construcción de una planta de energía nuclear que estará
situada entre las dos ciudades, se encuentra que en la ciudad 1 63 de 100
residentes están a favor, mientras que en la ciudad 2 59 de 125 están a favor de
la construcción de la planta. ¿Hay una diferencia significativa entre la proporción
de residentes de las dos ciudades que están a favor de la construcción de la
planta de energía nuclear? Use un nivel de significancia de 0.05.
4. Una comunidad urbana quiere demostrar que la incidencia de cáncer de seno es
más alta que en una área rural vecina. Se encuentra que 20 de 200 mujeres
adultas en la comunidad urbana tienen cáncer de seno y 10 de 50 mujeres
adultas de la comunidad rural tiene cáncer de seno. ¿Podemos concluir con un
nivel de significancia de 0.06 que este tipo de cáncer prevalece más en la
comunidad urbana?
1-
/2
/2
21-/2 2/2
Para la prueba
H0: 2 = 𝜎02
H1: 2 > 𝜎02
La región crítica es 2 > 2, gráficamente tenemos
1-
2
Para la prueba
H0: 2 = 𝜎02
H1: 2 < 𝜎02
La región crítica es 2 < 2 gráficamente tenemos
21-
Ejemplos
1. Un fabricante de baterías para autos afirma que la duración de sus baterías se
distribuye aproximadamente normal con una desviación estándar de 0.9 años.
Una muestra aleatoria de 10 de tales baterías tienen una desviación estándar de
1.2 años. ¿Hay razón para creer que la desviación estándar es mayor que 0.9?
Use un nivel de significancia de 0.05.
Solución
a. H0: 2 = 0.81
b. H1: 2 > 0.81
c. = 0.05
d. Región crítica: 2 2
0.05 = 16.92 con v = 9 grados de libertad
16.92
2
e. Cálculos: s = 1.44 , n = 10 y 𝜎02 = 0.81
(n 1) s 2
(10 1)1.44
2 16
2
0 0.81
f. Decisión: Se rechaza H0 y hay evidencia para que la desviación estándar sea
mayor que 0.9
2. Los siguientes son los pesos, en kilogramos, de 10 paquetes de semillas de
pasto distribuidas por cierta compañía, 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8,
46.9, 45.2 y 46.0. Prueba la hipótesis de que la varianza de los pesos de los
paquetes de semilla de pasto distribuidos por esta compañía es de 0.25. Use un
nivel de significancia de 0.05, suponiendo una población normal.
Solución
a. H0: 2 = 0.25
b. H1: 2 0.25
c. = 0.05, /2 = 0.025
d. Región crítica: 2 2
0.975 = 2.70 y
2 2
0.025 = 19.02 con v = 9 grados de
libertad
2.70 19.02
e. Cálculos: s2 = 0.286 , n = 10 y 𝜎02 = 0.25
(n 1)s 2 (10 1)0.286
2
10.29
2
0 0.25
Consideremos ahora el problema de probar la igualdad de las varianzas 𝜎12 𝑦 𝜎22 de dos
poblaciones. Es decir probaremos las hipótesis:
H0: 𝜎12 = 𝜎22 H0: 𝜎12 = 𝜎22 H0: 𝜎12 = 𝜎22
2 2 2 2
H1: 𝜎1 ≠ 𝜎2 H1: 𝜎1 > 𝜎2 H1: 𝜎12 < 𝜎22
Para muestras aleatorias independientes de tamaño n1 y n2, respectivamente, de las
poblaciones, la estadística de prueba es:
𝑠12
𝑓= 2
𝑠2
donde 𝑠12 𝑦 𝑠22 son las varianzas calculadas de las dos muestras. Si las dos poblaciones
se distribuyen de forma aproximadamente normal y la hipótesis nula es verdadera, la
estadística f es un valor de la distribución F de Fisher con v1 = n1 – 1 y v2 = n2 – 1 grados
de libertad. Por lo tanto las regiones crítica son las que se muestran a continuación.
Para la prueba
H0: 𝜎12 = 𝜎22
H1: 𝜎12 ≠ 𝜎22
La región crítica es f < f1-/2(v1, v2) y f < f/2(v1, v2)
Gráficamente
1-
/2
/2
1-
f1-
Ejemplo
Los siguientes datos, registrados en días, representan el tiempo de recuperación para
pacientes que se tratan al azar con uno de dos medicamentos para curar infecciones
graves de la vejiga:
Medicamento 1 Medicamento 2
n1 = 13 n2 = 16
𝑠12 = 1.5 𝑠22 = 1.8
Probar la hipótesis de que las varianzas son iguales con un nivel de significancia de
0.01. Suponga poblaciones normales
Solución
a. H0: 𝜎12 = 𝜎22
b. H1: 𝜎12 ≠ 𝜎22
c. = 0.01, /2 = 0.005
d. Región crítica: f0.005(12, 15) = 4.72 , f0.995(12, 15) = 1/f0.005(15,12) = 1/4.25 = 0.23
0.23 4.72
e. Cálculos:
Problemas propuestos 8
1. Pruebe la hipótesis de que la varianza del contenido los envases de un
lubricante en particular es 0.03, si los contenidos de una muestra aleatoria de
10 envases son: 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3 y 9.8 litros. Use
un nivel de significancia de 0.01 y suponga que la distribución del contenido es
aproximadamente normal
2. Experiencia anterior indica que el tiempo que se requiere para que los
estudiantes de último año de preparatoria completen una prueba es una variable
aleatoria normal con una desviación estándar de 6 minutos. Pruebe la hipótesis
de que la desviación estándar es menor que 6 minutos, si una muestra aleatoria
de 20 estudiantes del último año de preparatoria tiene una desviación estándar
de 4.51 minutos. Use un nivel de significancia de 0.05.
3. A continuación se dan los miles kilómetros recorridos anuales por las llantas de
traseras de taxis:
Taxi Marca A Marca B
1 34.4 36.7
2 45.5 46.8
3 36.7 37.7
4 32.0 31.1
5 48.4 47.8
6 32.8 36.4
7 38.1 38.9
8 31.5
¿Se puede afirmar las varianzas de los recorridos de las dos marcas de llantas
son iguales? Use un nivel de significancia del 0.05, suponiendo una distribución
aproximadamente normal.
4. Se lleva a cabo un estudio para comparar el tiempo que tardan hombres y
mujeres para ensamblar cierto componente. Los datos son los siguientes:
Hombres Mujeres
n1 = 11 n2 = 10
s1 = 6.1 s2 = 5.3
¿Podemos suponer que las varianzas son iguales? Use un nivel de significancia
de 0.01.