Está en la página 1de 39

Unidad III (Parte 2)

Inferencia Estadística: Dócima de Hipótesis Estadísticas

Coordinación Análisis Estadístico para Ingeniería 10115

Módulo Básico de Ingeniería

Departamento de Matemática y Ciencia de la Computación

Facultad de Ciencia

Primer semestre 2022

1
ÍNDICE
Página

INTRODUCIÓN. CONCEPTOS GENERALES 3

DÓCIMAS DE HIPÓTESIS RESPECTO A UN SOLO PARÁMETRO 10

DÓCIMAS DE HIPÓTESIS RESPECTO A DOS PARÁMETROS 20

DÓCIMA DE BONDAD DE AJUSTE 28

DÓCIMA DE INDEPENDENCIA 33

DÓCIMA DE HOMOGENEIDAD 37

2
INTRODUCIÓN. CONCEPTOS GENERALES

Un objetivo del análisis de datos, basados en muestras de poblaciones en estudio, es extraer conclusiones de la o
las poblaciones, respecto de: parámetros, distribuciones de probabilidad o de relaciones entre las poblaciones, etc.

Dócimas de Hipótesis (Prueba de Hipótesis)


Es una metodología estadística, mediante la cual se trata de comprobar si una afirmación sobre una característica
poblacional puede ser sostenida con la información que proporciona la o las muestras aleatorias de dicha población.

La prueba de hipótesis nos permite tomar decisión, respecto a que si una proposición acerca de la población puede
ser mantenida o debe ser rechazada, con cierta posibilidad de error, medida en términos de probabilidad.

Hipótesis de investigación o hipótesis estadísticas son afirmaciones referidas a una o más poblaciones, por ejemplo:

∙ La media (µ) de la población es a lo más 10 (μ < 10).


∙ El valor del parámetro θ es 2 (θ = 2).
∙ La distribución, de probabilidad de la población, es Normal.
∙ Las varianzas de las poblaciones son iguales.
∙ La variable X es independiente de la variable Y
∙ ………

3
EJEMPLOS El enunciado dice Algo en común
1 En un proceso de fabricación de tubos Se formula la
de aluminio, la longitud de éstos se Variable de interés hipótesis (que
distribuye en forma Normal con media X = longitud en cm es indica el
100 cm y varianza 16 cm2. Se realiza de un tubo de conocida
enunciado del
una reparación y ahora ¿cómo discernir aluminio
si ha habido un cambio en la longitud ejemplo) sobre
media de los tubos? X~ Normal(μ, σ2 ) parámetros de la
población.
Hipótesis: Las conclusiones
Si μ =100 ≡ no hubo cambio en la sobre la validez de
longitud media la hipótesis se
2 Una industria recibe un gran cargamento Variable de interés basarán en la
de piezas. Sólo rechaza el envío si hay


información de
más de un 5% de piezas defectuosas. 1 ;la pieza i es es defectuosa
Xi = una muestra.
¿Cómo tomar una decisión sin verificar 0 ;la pieza i es no defectuosa
todas las piezas?
Es necesario
X ~ Bernoulli(p) plantear dos
Hipótesis:
hipótesis
Si p > 0,05 ≡ debe rechazar el envío
La que se prueba
(hip. nula) debe
contener =
(=, >, <)

La hipótesis
alternativa, es la
negación de la hip.
nula

4
Hipótesis nula y alternativa

Hipótesis nula (H0 ): Es la hipótesis que se somete a prueba. El nombre de nula proviene de H0 representa la
hipótesis que se mantiene a no ser que los datos de la muestra indiquen su falsedad, y debe entenderse, por tanto,
en el sentido de neutra. Esta debe contener una proposición de tipo = ; > ; < , si la hipótesis es acerca a uno o
más parámetros.

Hipótesis alternativa (H1): es la aseveración contraria a la hipótesis nula, también se denomina hipótesis del
investigador (casi siempre es la hipótesis que el investigador desea verificar)

Una dócima de hipótesis es una regla que determina, con cierta probabilidad llamada nivel de significación, para
que valores se rechaza o no se rechaza la hipótesis nula H0, en base a los datos de la o las muestras aleatorias
obtenidas de la o las poblaciones de estudio.

En una dócima de hipótesis o test de hipótesis, se particiona el espacio muestral en dos regiones, una región crítica
o de rechazo de H0 (RC) y una región de aceptación (RA). El tamaño de la RC es α (nivel de significación).

En inferencia estadística, un contraste de hipótesis (también denominado test de hipótesis o prueba de


significación) es un procedimiento para juzgar si una propiedad que se supone en una población
estadística es compatible con lo observado en una muestra de dicha población

5
Tipos de errores en una prueba de hipótesis
Deseamos que nuestra decisión con respecto a la hipótesis nula sea correcta, pero a veces no lo será. Hay dos tipos
de decisiones incorrectas:

Decisión respecto a Estado real: Hipótesis Nula H0 es


H0 Verdadera (V) Falsa (F)
Decisión incorrecta Decisión correcta
Error tipo I
Rechazar H0
P(rech H0/ H0 es V) = α P(rech H0/ H0 es F) = 1 – β
Nivel de significación Potencia
Decisión correcta Decisión incorrecta
No Rechaza H0
Error tipo II
(“aceptar”)
P(No rech H0/ H0 es V) = 1 - α P(No rech H0/ H0 es F) = β

 Podemos hacer la probabilidad del Error de Tipo I tan pequeña como queramos, PERO esto hace que
aumente la probabilidad del Error de Tipo II.

 Una prueba de hipótesis puede rechazar la hipótesis nula pero NO puede probar la hipótesis nula.

 Si no rechazamos la hipótesis nula, es porque las observaciones no han aportado evidencia para descartarla,
no porque sea necesariamente cierta.

 Por el contrario, si rechazamos la hipótesis nula es porque las observaciones han aportado evidencia para
descartarla (lo observado en la muestra está a una distancia significativa del valor que indica H 0), lo que
implica que la evidencia apoya la hipótesis del investigador H1.

6
Procedimiento general para probar hipótesis
Es conveniente seguir las siguientes etapas al enfrentar un problema de prueba o dócima de hipótesis:

1º.- Definición de la o las variables de interés y enunciado explícito de los supuestos necesarios para decidir
correctamente el método que se piensa usar.

2º.- Definir la hipótesis nula (la que se prueba) y la hipótesis alternativa (contraria a la nula), simbólicamente y en el
contexto del problema.
Planteamiento de las hipótesis (en forma estadística)

Caso 1 Caso 2 Caso 3


H0: Parámetro = a0 H0: Parámetro < a0 H0: Parámetro > a0
H1: Parámetro ≠ a0 H1: Parámetro > a0 H1: Parámetro < a0
a0 es una constante

3º.- Especificar el tamaño de la RC o nivel de significación α: 0,1; 0,05 o 0,01 los más usuales.

4º.- Especificar la estadística de la prueba a utilizar. La estadística de prueba es una medida de discrepancia entre la
muestra y H0. Esta medida debe tener una distribución muestral conocida.

5º.- Determinar la región crítica o área de rechazo de H0. (Regla de decisión) ← encontrar el o los puntos críticos

Existen teoremas que justifican las áreas o regiones críticas:

7
Caso 1 H0: Parámetro = a0 versus H1: Parámetro ≠ a0
la RC está dividida en ambas colas (test bilateral)

Caso 2 H0: Parámetro < a0 versus H1: Parámetro > a0

la RC es la cola superior (test unilateral)

Caso 3 H0: Parámetro > a0 versus H1: Parámetro < a0


la RC es la cola inferior (test unilateral)

8
6º.- Evaluar la estadística de prueba (bajo la hipótesis nula) con los datos de la muestra.

7º.- Decisión respecto de H0 (rechazo o no rechazo), (si la estadística calculada pertenece o no RC)

8º.- Conclusión: Interpretación de la decisión en el contexto del problema.


Los datos de la muestra dan evidencia suficiente para rechazar lo planteado en H0.

Nota: En la práctica se ha adoptado, de manera amplia, el enfoque del p-valor.

El p-valor es la probabilidad de que el estadístico de prueba tome un valor que sea al menos tan extremo
como el valor observado del estadístico de prueba cuando la hipótesis nula es verdadera.

Definición: El p-valor es el nivel de significación más pequeño que conduce al rechazo de la


hipótesis nula.
Cuanto más pequeño sea el p-valor mayor es la evidencia para rechazar la hipótesis nula H0

9
DÓCIMAS DE HIPÓTESIS RESPECTO A UN SOLO PARÁMETRO
I. DÓCIMA PARA LA MEDIA (σ2 conocido)
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa RC
1) Z 0  -z1-α/2  Z0  z1-α/2 

1) H0:  = 0 1) H1:   0

X v.a.  N( , 2); 2) Z0  z1-α 


2 conocido
x - μ0
(X1, X2 , …, Xn) m.a.(n) de 2) H0:  < 0 2) H1:  > 0 Z0   N(0 , 1)
σ/ n
X

3) Z0  -z1-α 

3) H0:  > 0
3) H1:  < 0

10
Ejemplo: Se quiere analizar que la tensión de ruptura de un hilo utilizado en la fabricación de material de tapicería
no cumple con el requerimiento de que sea al menos de 100 psi (en promedio). La experiencia ha indicado que
la tensión a la ruptura es una v.a. Normal con varianza de 16 (psi)2. Se prueba una muestra aleatoria de 9
especímenes con el siguiente resultado:

95 98 99 97 96 94 96 101 97

a) ¿Qué se concluye con un nivel de significación α = 0,05?

b) Determine el menor nivel de significación para rechazar la hipótesis nula (p-valor)

Desarrollo:
Variable de interés: X = Tensión a la ruptura (psi) ~ Normal con σ2 = 42 (conocida)

Planteamiento de
las hipótesis Estadístico de prueba RC Evaluación del Estadístico
n = 9 x = 97 µ0 = 100 σ = 4
H0: µ = 100 (>)
x - μ0 97 - 100
H1: µ < 100 Z0   N(0 , 1) z obs  = -2,25 RC
σ/ n 4/ 9

RC = { Z0 < z0,05 = -1,645}


Decisión: Se rechaza H0.

Conclusión: Existe suficiente evidencia estadística, que indica que la tensión de ruptura de un hilo utilizado en la
fabricación de material de tapicería no cumple con el requerimiento, con α= 0,05.

b) Cálculo del p-valor:


P(Z < -2,25) = 0,0122 → 0,0122 es el menor nivel de significación α para rechazar H0

11
DÓCIMA PARA LA VARIANZA
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa
X v.a.  N( , 2); 1) H0:  = σ 0 1) H1:   σ 0
2 2 2 2 2 2 2 2
1) { 1 α/2 }
(n 1)S2 0 α/2 0
(X1, X2 , ..., Xn) m.a.(n) de X
H0: 2 < σ 02 H1: 2 > σ 02
2
0  χ2(n-1) 2 2
2) 2) σ0
2 2) { 0 1 α}

3) H0: 2 > σ 02 3) H1: 2 < σ 02 3) {


2
0
2
α}

Ejemplo: En una embotelladora de refresco el proceso de llenado realizado por una máquina está fuera de control cuando la
desviación estándar de la cantidad de refresco vertida supera 0,02. Para controlar la variabilidad se tomó una muestra
aleatoria de 28 botellas llenadas por la máquina y se obtuvo una desviación estándar 0,027. Asumiendo que se cumplen los
supuestos necesarios, ¿Qué se puede concluir con  = 0,10? Determine el p-valor.

12
II. DÓCIMA PARA LA MEDIA (σ2 desconocido)
Hipótesis Hipótesis Estadístico de prueba
Situación Nula Alternativa Región de Rechazo
1) H0:  = 0 1) H1:   0 1) T0  -t1-α/2  T0  t1-α/2 
X v.a.  N( , 2); x - μ0
T0   t(n - 1) T0  t1-α 
2 desconocido 2) H0:  < 0 2) H1:  > 0 S/ n 2)
(X1, X2 , ..., Xn) m.a.(n) de X
3) H0:  > 0 3) H1:  < 0 3) T0  -t1-α 

Ejemplo: Una empresa dedicada a la fabricación de vidrio quiere incluir lunas entre los productos que fabrican, piensan
comercializarlas en la industria de automóvil. Las especificaciones de estos productos exigen una resistencia media al impacto de
8 kg/cm2. Para ello ha realizado pruebas de fabricación obteniendo los siguientes resultados de resistencia al impacto
n x s
7,0 5,1 7,8 9,7 9,6 10,6 6,4 7,0 9,4 5,4 6,1 4,3 12 7,3667 2,0544

Asumiendo que la resistencia (X) es una variable aleatoria Normal,


¿Cumplen las lunas fabricadas con la especificación requerida? α = 0,01.
¿El p-valor es mayor o menor que 0,01? Justifique su respuesta.

13
IV. DÓCIMA PARA UNA PROPORCIÓN
Hipótesis Hipótesis Estadístico de prueba
Situación Nula Alternativa Región de Rechazo
X v.a.  B(1, p); 1) H0: p = p0 1) H1: p  p0 1) Z0  -z1-α/2  Z0  z1-α/2 
(X1, X2 , ..., Xn) m.a.(n) de X p̂ - p 0
Z0   N(0 , 1)
2) H0: p < p0 2) H1: p > p0
p0q 0 2) Z0  z1-α 
 1 ; Éxito
xi =  n
0 ;Fracaso 3) H0: p > p0 3) H1: p < p0 3) Z0  -z1-α 
i = 1,2, .. ,n n grande

Ejemplo: Una empresa se plantea la posibilidad de establecer un servicio complementario de información a sus clientes. Éste será
rentable únicamente si más del 40% de los clientes están interesados. Para poder tomar una decisión se realizó un sondeo con una
muestra aleatoria de 100 clientes, de los cuales 45 están de acuerdo.
¿Existe evidencia suficiente al nivel de significación del 5% para apoyar la hipótesis de rentabilidad? Determine el p-valor

14
Ejercicios
1.- El fabricante de cierto catalizador para vehículos afirma en su propaganda que menos del 10% de sus catalizadores se averían
antes de los 200000 km de uso. El Gerente de una industria de vehículos quiere asegurarse lo afirmado en la propaganda, antes
de optar por dicho catalizador. Para ello, ensamblan 36 vehículos con catalizadores del fabricante en cuestión, luego, los somete
a cada uno de ellos a un uso de 200000 km. Al final, se observa que falló solamente un catalizador.
a. La información obtenida por la industria de vehículos, ¿apoya la afirmación del fabricante de catalizadores? Realice la dócima
adecuada con un 10% de nivel de significación.
b. Determine el menor nivel de significación para rechazar la hipótesis nula planteada en (a)
2.- Una empresa de automóviles ha diseñado un nuevo motor de gasolina con el que espera reducir el consumo de combustible. Para
verificar si lo ha conseguido, realiza unas pruebas de consumo de 15 motores, con los que consigue un consumo medio de 4,8
litros y una desviación típica de 0,7 litros. Sabiendo que la variable consumo sigue una distribución Normal:
Si los anteriores motores gastaban una media de 5,3 litros, ¿se puede concluir que el consumo medio se ha reducido con el nuevo
motor a un nivel de significación del 0,05?

3.- Un fabricante de un dispositivo para cierto artículo electrónico informa en su propaganda que la vida útil media de su producto es
superior a 5 años.
Una muestra aleatoria de 90 unidades vendidas hace 10 años, reveló la siguiente distribución de las duraciones:

Duración (X) 0–2 2–4 4–6 6–8 8 – 10 Total


frecuencia 10 20 25 22 13 90

Suponiendo válidos los supuestos necesarios:

a. Analice la aseveración del fabricante con un nivel de significación de 0,05.

b. ¿Se puede concluir con un nivel de significación del 5%, de que la mayoría (más del 50%) de los dispositivos tienen duración de 4
años o más? Determine p-valor.

 1 ; Éxito = el dispositivo dura  4 años


yi =  ; i=1,2, …,n
0 ; Fracaso = el dispositivo dura  4 años

15
4.- En una empresa computacional dedicada a la fabricación de memorias para P.C. el protocolo de calidad establece los dos
siguientes criterios:
A. Al menos el 95% de los circuitos fabricados, en la memoria no deben tener defecto .
B. El tiempo medio de acceso a una celda no debe superar los 100 ns.

El último mes se ha realizado un muestreo de 400 circuitos, de los cuales 30 han presentado defectos. En la muestra, los tiempos de
acceso a una celda tienen una media de 105 ns. y una desviación estándar de 20 ns.
Suponiendo válidos los supuestos necesarios
a. ¿Los datos muéstrales dan evidencias de que no se cumple el criterio A, con α = 0,01, en el último mes?
b. ¿Puede Ud. Concluir que no se cumple el criterio B, con α = 0,01, en el último mes?
c. Para estimar el porcentaje de clientes que estarían dispuesto a adquirir un nuevo tipo de memoria, la empresa realizará una
encuesta. ¿A cuántos clientes se debería encuestar, si no existen antecedentes de estos clientes, si se desea una confianza del
98% y un error de estimación no superior a 0,01?

5.- En una aerolínea se afirma que a lo más un 4% del equipaje que no llega a su destino con su dueño nunca regresa con su dueño
original. Si en una muestra aleatoria de 200 piezas de equipaje perdido, sólo 12 no se recuperaron.
a) Con un nivel de significación de 0,05, existe evidencia estadística para rechazar lo afirmado en la aerolínea?
b) Si utiliza un nivel de significancia de 0,10, ¿cambia la conclusión obtenida en 6a? Justifique su respuesta.

6.- Un distribuidor de neumáticos para camiones, en su propaganda indica que la duración promedio de su producto es 55 mil
kilómetros. Para comprobar la afirmación, una empresa de trasporte adquiere una muestra para someterlos a prueba en sus
camiones, de 40 de esos neumáticos, obteniendo la siguiente información:

X= duración de un neumático
40 40
x i =2147,9 x i2 =115945,17
i=1 i=1
Asumiendo que se cumplen los supuestos necesarios,

a) Pruebe con un nivel de significación del 10%, la hipótesis del distribuido de neumáticos
b) Cual es el mínimo valor del Error Tipo I, para cambiar la conclusión planteada en a?. Se pide p-valor.

16
7.- Se quiere saber si disminuyó el pH (X) de un lago, hasta la década anterior poseía un pH promedio de 7,3. Se tomó una muestra
aleatoria de 27 alícuotas de agua, con los siguientes resultados:

pH
Promedio Varianza
7,25 0,02
Asumiendo los supuestos necesarios, analice la hipótesis del enunciado con un nivel de significación α = 0,05

8.- Los amperímetros producidos por una compañía se venden en el mercado con la especificación de que la desviación estándar de
las lecturas no es mayor que 0,2 amperios. Se utilizó uno de estos amperímetros para efectuar 10 lecturas independientes en un
circuito de prueba con corriente constante. Si la desviación estándar de las 10 mediciones es de 0,255 amperios, y es razonable
suponer que las lecturas tienen distribución normal, ¿indican los resultados de la muestra, que el amperímetro que se utilizó no
satisface las especificaciones indicadas por la compañía? α = 0.05.

9.- Para calibrar una balanza se eligen al azar 30 productos, que tienen el mismo peso de 20 gramos, obteniendo los siguientes pesos
en gramos:
19,5 20,3 19,3 20,1 19,4 20,1 20,2 19,5 19,8 19,6
18,9 20,6 20,0 20,4 19,3 19,8 20,0 19,3 19,7 19,6
20,3 19,7 19,4 19,9 20,3 19,5 19,7 19,6 19,5 19,7

Asumiendo que se cumplen los supuestos necesarios:


Pruebe, con un nivel de significación de 0,01, la hipótesis de que la balanza está bien calibrada.

17
10.- (Evaluación 2- 2021-1) Un fabricante de motores para limpiaparabrisas tiene muchas devoluciones por el excesivo ruido de los
motores. Según el fabricante el valor promedio del nivel de ruido es de 40 dB y su desviación estándar es inferior a 4,2 dB.
El ingeniero a cargo del control de calidad de los productos elaborados en la fábrica, determina el nivel de ruido en
una muestra aleatoria de 12 motores, resultado:

x i = 509,58 (dB) x i2 = 22021, 85 (dB)2


i i

Asumiendo que el Nivel de ruido es una variable aleatoria distribuida Normal:

a) Analice con α = 0,01 si el nivel de ruido promedio de los motores de limpiaparabrisas es superior al indicado por el
fabricante.

b) Pruebe con un nivel de significación 0,01, la hipótesis “la varianza del nivel de ruido no difiere de (4,2 dB) 2 ” . En la
distribución de probabilidad de la estadística correspondiente, muestre gráficamente la Región Crítica.

c) Si el nivel de significación es 0,10 en la dócima (b), ¿Cambia la decisión? Justifique su respuesta con p-valor.

18
11.- (Evaluación 2- 2021-2) Con el objeto de estudiar la temperatura del termostato de refrigeración de cierto modelo auto
norteamericano a la velocidad de 100 km/h, se eligió una muestra de 50 autos de dicho modelo y se midió la
temperatura a la velocidad 100 km/h. Los resultados obtenidos son los siguientes (medidos en grados Fahrenheit).

X= temperatura del termostato de refrigeración


Temperatura (°F) 145 - 160 160- 175 175 - 190 190 - 205 205 - 220
Total
Frecuencia 6 9 23 7 5 50

Asumiendo que se cumplen los supuestos necesarios y en base a la información:

a) Estime con 90% de confianza la proporción de automóviles con temperaturas del termostato de refrigeración sobre el
promedio más 1,5 desviación estándar.

b) ¿Se puede concluir con α=0,10 que la varianza de la temperatura del termostato de refrigeración no es 200 (°F) 2 a la
velocidad de 100 km/h.

19
DÓCIMAS DE HIPÓTESIS RESPECTO A DOS PARÁMETROS

V. DÓCIMA PARA RAZÓN DE VARIANZAS


Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0

m.a.(n1) de  N(μ1 , σ1 )
2 1
2 2 { F0 Fα/2 F0 F1-α/2 }
H 0: σ
2
σ =1
2
H1: σ
2
σ 2
1 S σ
1 2 1 2
F0 = 1
2
 F(n1-1, n2-1)
2
2
m.a.(n2) de  N(μ 2 , σ 2 )
2
S σ
2 1

m. a. independientes
(m.a.i.)

Ejemplo: Se revisó la dureza del agua de dos muestras obtenidas a partir de bocas de salida separadas de una planta de energía.
Los resultados codificados (partes por millón) se presentan a continuación:

Y = Dureza del agua Suponiendo válidos los supuestos necesarios:


2
UBICACIÓN n s s Pruebe la hipótesis “la varianza de la dureza del agua proveniente del
1 9 109,625 10,470 lugar 1 es igual que la del lugar 2 ( σ12 = σ 22 ≡ σ12 σ 22 = 1 )”.  = 0,05
2 14 29,615 5,442

20
VI. DÓCIMA PARA DIFERENCIA DE MEDIAS (Varianzas poblacionales conocidas)
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
m.a.(n1) de  N(μ1 , σ1 )
2 1) H0: 1 -2 = d0 1) H1: 1 -2  d0 d0 1) Z0  -z1-α/2  Z0  z1-α/2 
(Y1 -Y2 ) - (μ1  μ 2 )
m.a.(n2) de  N(μ 2 , σ 2 ) 2) H0: 1 -2 < d0 2) H1: 1 -2 > d0 Z0   N(0 , 1) 2) Z0  z1-α 
2

σ12 σ 22
σ12 , σ 22 conocidas 3) H0: 1 -2 > d0 3) H1: 1 -2 < d0  3) Z0  -z1-α 
n1 n 2
(m.a.i)

VII. DÓCIMA PARA DIFERENCIA DE MEDIAS (Varianzas poblacionales desconocidas pero iguales)
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
m.a.(n1) de  N(μ1 , σ1 )
2 1) H0: 1 -2 = d0 1) H1: 1 -2  d0 d0 1) T0 -t1-α/2 T0 t1-α/2
(Y1 -Y2 ) - (μ1  μ 2 )
m.a.(n2) de  N(μ 2 , σ 2 )
2
2) H0: 1 -2 < d0 2) H1: 1 -2 > d0 T0   t(n1 + n2 – 2) 2) T0  t1-α 
1 1
σ12 = σ 22 desconocida 3) H0: 1 -2 > d0 3) H1: 1 -2 < d0 S   
2
p
3) T0  -t1-α 
(m.a.i)  n1 n 2 
(n 1  1)s12  (n 2  1)s 22
s 2p 
n1  n 2  2
Ejemplo:
En la fabricación de semiconductores, a menudo se utiliza una sustancia química para quitar el silicio de la parte trasera de las
obleas antes de la metalización. En este proceso es importante la rapidez con la que actúa la sustancia. Se han comparado dos
soluciones químicas, utilizando para ello dos muestras aleatorias de 10 obleas para cada solución. La rapidez (seg) de acción
observada es la siguiente
Promedios s
Solución 1 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3 10,40 0,2309
Solución 2 9,9 9,4 9,5 9,6 10,2 10,6 10,3 10,0 10,3 10,1 9,99 0,3900

Suponiendo normalidad en la distribución de los datos:


La evidencia estadística, ¿indica que la solución 2, actúa con mayor rapidez (en promedio) en eliminar el silicio
de la parte trasera de las obleas antes de la metalización? α = 0,05 (primero debe realizar el test previo de homogeneidad
de varianzas)

21
DÓCIMA PARA DIFERENCIA DE MEDIAS (Varianzas poblacionales desconocidas pero distintas)
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
m.a.(n1) de  N(μ1 , σ1 )
2 1) H0: 1 -2 = d0 1) H1: 1 -2  d0 d0 1) T0 -t1-α/2 T0 t1-α/2
(Y1 -Y2 ) - (μ1  μ 2 )
m.a.(n2) de  N(μ 2 , σ 2 )
2
2) H0: 1 -2 < d0 2) H1: 1 -2 > d0 T0   t(g.l.) 2) T0  t1-α 
S12 S22
σ12  σ 22 desconocidas 3) H0: 1 -2 > d0 3) H1: 1 -2 < d0  3) T0  -t1-α 
n1 n 2
m.a independientes

Ejemplo: Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones
de magnesio:
Y = grado de dureza Brinell (gdB)
n y s
Aleación 1 64,8 63,7 63,6 64,8 65,8 63,7 65,1 64,9 63,7 65,5 10 64,56 0,8222
Aleación 2 69,4 61,9 69,9 70,1 71,1 73,5 63,3 68,2 69,7 66,8 10 68,39 3,5275

Los datos muestrales, ¿apoyan la hipótesis μ1 < μ 2 ? α = 0,05 (asuma Normalidad)


Desarrollo
PREVIO: Prueba F para la igualdad de varianzas Prueba T para la igualdad de
medias
H0: σ 2
σ =12
1 2
H0: 1 -2 = 0 (>)
H1: σ 2
1
σ22 1 H1: : 1 -2 < 0

F0 Sig. t0 gl Sig. (unilateral)


(p-valor) (p valor)
-3,344 10
0,054 0,0002 0,0035

Decisión: Decisión:

Conclusión: Conclusión:

22
Dócimas para comparar medias de dos poblaciones normales
Hipótesis nula: μ1 - μ 2 = d0
(m. a. independientes)

¿Se conocen las varianzas poblacionales σ12 y σ 22 ?

Si No

Para probar “ σ12 y σ 22 ” Previo


utilice el estadístico Realice el test F de Razón de varianzas
H0: σ2
1
σ =1
2
2
σ12 = σ 22 versus H1: σ12 σ 22 1 σ12 σ 22

¿Es significativo el test F? ≡


¿se rechaza la hip. nula del test previo?

Si No

Para probar “ σ12 y σ 22 ” Para probar “ σ12 y σ 22 ”


utilice el estadístico utilice el estadístico

23
VIII. DÓCIMA PARA DIFERENCIA DE MEDIAS (muestra pareada)
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
m.a. pareada (n) 1) H1: μD  d0
1) H : μ = d d0 1) T0 -t1-α/2 T0 t1-α/2
de  Normal 0 D 0

2) H1: μD > d0 D - μD
Di = Y1i – Y2i
2) H0: μD < d0 T0  t(n - 1) 2) T0  t1-α 
SD / n
3) H0: μD > d0 3) H1: μD < d0 3) T0  -t1-α 

Ejemplo: En cierta publicación que se encuentra en internet, se afirma que al añadir cierto aditivo a la gasolina, aumentara el
rendimiento medio en el consumo de este combustible en más de un kilómetro por litro. Para analizar dicha afirmación se
seleccionó una muestra aleatoria de 12 automóviles, que en primer lugar utilizaron gasolina sin el aditivo, y posteriormente, sin
cambiar de conductor ni de ruta, usaron gasolina con aditivo. Se observó el rendimiento por consumo de gasolina en cada
caso, obteniéndose los siguientes resultados en kilómetros por litro:

Auto 1 2 3 4 5 6 7 8 9 10
Sin aditivo 4,7 5,5 6,8 7,6 7,8 5,3 6,3 6,4 7,7 5,5
Con aditivo 6,1 6,8 8,1 8,3 8,6 6,4 7,6 7,7 8,5 7,2

Los datos obtenidos, ¿apoyan la afirmación de la publicación?. Justifique su repuesta con un nivel de significancia 0,05.

24
Ejercicios
1. Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura. Se prueban dos fórmulas de
pintura; la fórmula 1 (E) tiene un contenido químico estándar y la fórmula 2 (N) tiene un nuevo ingrediente secante que
tiende a reducir el tiempo de secado. Se pintan 12 placas con la fórmula 1 y otras 12 placas con la fórmula 2. Lo tiempos
de secado en minutos se muestran a continuación:
Y = Tiempo de secado n prom s
E (1) 114,0 123,7 118,5 124,4 98,2 116,9 121,6 115,7 117,5 120,7 124,9 126,3
N (2) 113,6 105,8 108,0 126,2 125,6 122,9 98,5 114,1 127,8 107,3 101,5 102,5
Suponiendo Normalidad en la distribución de los datos:
¿A qué conclusión puede llegar el diseñador del producto sobre la eficacia del nuevo ingrediente, al nivel de
significación de 0,10?

2. En motocicletas, de cierto modelo, se realizó un estudio a los neumáticos. Se midió el desgaste (Y) de neumáticos de
ruedas delanteras y traseras, en milímetros después de 20.000 km de uso. En una muestra aleatoria de diez
motocicletas se obtuvo la siguiente información:
Motocicleta 1 2 3 4 5 6 7 8 9 10
Rueda delantera (1) 3,6 2,4 1,9 3,2 2,5 2,4 2,7 2,5 2,7 2,9
Rueda trasera (2) 3,7 2,2 2,3 3,3 2,8 2,5 3,4 2,3 3,0 3,1
Analice con un nivel de significación de 0,05, que el desgate promedio es mayor en los neumáticos de ruedas traseras
que en los neumáticos de la ruedas delanteras.

3. La utilización de materiales sintéticos tales como nylon, poliéster y látex en la producción de telas, ha provocado
debates acerca de la calidad y resistencia de estas fibras comparadas con las fibras naturales. Un fabricante de una
nueva fibra sintética asegura que en promedio su producto supera en más de 30 kg la resistencia a la tracción a las
fibras naturales. Para tal efecto se seleccionan al azar 12 unidades de telas elaboradas con la nueva fibra sintética y 10
elaboradas con fibra natural, a cada una de las cuales se les midió la resistencia a la tracción. Los resultados
muestrales obtenidos se dan a continuación:
Tela n Promedio Desviación estándar
Fibra natural (N) 10 273,90 52,193
Fibra sintética (S) 12 345,67 42,991
Suponiendo Normalidad en la distribución de los datos, analice la aseveración del fabricante con un nivel de significación de
0,05.
25
4. Para controlar las mediciones del ángulo de ruptura de la torsión de alambres de acero en dos máquinas similares (I y
II) se tomó una muestra de 10 pares de alambre, cada par del mismo tipo, obteniéndose los siguientes resultados:

Tipo de alambre 1 2 3 4 5 6 7 8 9 10
Máquina I (1) 32 35 38 28 40 42 36 29 33 37
Máquina II (2) 30 33 39 26 37 31 37 30 30 32
Suponiendo Normalidad en la distribución de los datos:
¿Existe evidencia estadística, con un nivel de significación del 5% que permita concluir que en las máquinas I y II las
mediciones (Y) del ángulo de ruptura promedio difieren?

5. En el desarrollo de un nuevo producto alimenticio se desea comparar el efecto del tipo de envase sobre la vida de anaquel1 del
producto. Para ello existen dos tipos de envases: envase D, fabricado por la industria DIKA y el envase L fabricado por la industria
LOGE. Para decidir cuál utilizar, envasaron el producto alimenticio en una muestra de 10 envases de la industria DIKA y en otros
10 envases de la Industria LOGE.
Y = duración del producto (días)
Envase D 31 36 34 24 30 28 34 29 31 24
Envase L 38 43 40 46 38 39 43 41 37 45

Se elegiría el envase de la industria LOGE que tiene un mayor costo, siempre y cuando la duración media del alimento en envase LOGE
supere en más de siete días a la duración media del alimento en envases de la industria DIKA. Asumiendo normalidad en la distribución
de los datos, analice con un nivel de significación 0,05, si es conveniente elegir el envase L.

1
Vida de anaquel de un alimento: tiempo en el cual éste conservará sus propiedades fisicoquímicas, organolépticas y nutricionales.

26
6. (Evaluación 2020-2) En un estudio sobre contaminación de la aguas fluviales, se pretende comparar la cantidad media de
fosfatos en dos lugares diferentes en el curso de un río.
Para ello, se toma una muestra de 10 observaciones de una determinada cantidad de agua en un lugar (L1) cerca de una
ciudad, con mucha afluencia de personas. Se toma otra muestra en el curso del río, de 10 observaciones en lugar (L2),
lejos de la ciudad, con muy poca afluencia de personas. Los datos obtenidos son los siguientes:

Y= cantidad de fosfatos en mg/l en el rio.


L1 103,6 158,1 130,9 93,3 120,9 134,8 127,2 100,3 115,1 160,6
L2 99,7 103,5 95,4 90,9 92,3 93,1 101,4 90,7 84 78,8

Asuminedo que la cantidad de fosfatos en mg/l se distribuye Normal en el curso del río, y en base a la información obtenida:

a) Analice con α = 0,03 si la cantidad media de fosfatos en el lugar 1 supera en más 15 mg/l a la cantidad media de
fosfato del lugar 2.

b) Determine el nivel de confianza (1 – α) que se utilizó en el siguiente intervalo, para estimar la varianza de la cantidad
fosfatos en mg/l , en el lugar 1:
2
IC( σ L1 ) = [265,995136 ; 1508,603216 ]

c) Se va a realizar otro estudio para estimar la cantidad promedio de fosfatos en el lugar 1, ¿cuál debe ser el
mínimo tamaño de muestra para tener una precisión de 8 mg/l en la estimación de la cantidad media de fosfatos, con
un nivel confianza de 95%? Utilice el valor 22 mg/l como desviación estándar poblacional.

27
2
DÓCIMA DE BONDAD DE AJUSTE

Es una metodología estadística que se aplica cuando se quiere determinar si un conjunto de datos se puede
considerar como una muestra aleatoria de una población que tiene una distribución f(x) especificada, es decir, si la
variable de aleatoria observada X ~ f(x).

La metodología de prueba es la siguiente:

 Se toma una muestra aleatoria de tamaño n de la población en estudio, con la distribución f(x) especificada.
 Con los datos de la muestra, se construye una tabla de frecuencias

Frecuencias observadas
Variable: X (Oi = ni)
x1 O1 = n1
x2 O2 = n2
.
. ..
. .
xk Ok = nk
Total n

Si la variable X es continua, los datos se agrupan en intervalos.

 Planteamiento de las hipótesis:


H0: X ~ f(x) H1: X no ~ f(x)
 Se determinan, bajo H0, los valores esperados o frecuencias esperadas Ei =n∙pi , i = 1,2, …, k
k 1
En que: pi= es la probabilidad bajo H0 asociada con el intervalo de clase i, donde pk = 1- pi
i 1

28
Variable: X Oi pi Ei = n∙pi
x1 O1 p1 E1 = n∙p1
x2 O2 p2 E2 = n∙p2
.
. .
. .
xk Ok pk Ek = n∙pk
Total n 1 n
Observación: Si no se conoce el o los parámetros asociados a f(x), deben estimarse por el método de máxima verosilitud

 Estadístico de prueba

 (Oi - Ei )2 
02 =     2 (k  r  1) ; r = cantidad de parámetros de f(x) estimados
i  Ei 
 Región Crítica
Si las frecuencias observadas están cerca de las frecuencias esperadas correspondientes, el valor  02 será pequeño, lo
cual indica un buen ajuste. Si las frecuencias observadas difieren de manera considerable de las frecuencias esperadas,
el valor  02 será grande, y el ajuste, deficiente. Un buen ajuste conduce a no rechazo de H0; mientras que un ajuste
deficiente conduce a su rechazo. La región crítica es, por lo tanto, la cola derecha de la distribución  02 .

RC = {  02 > 12 (k  r  1) }

Como regla empírica, la experiencia ha demostrado que los Ei deben ser por lo menos 5 (Ei > 5), si la frecuencia esperada es menor que 5,
se combina con la frecuencia esperada de la clase o categoría adyacente, también se combinan las frecuencias observadas correspondientes,
esto fijará el número de grados de libertad a utilizar dado que en el cálculo del mismo intervendrá la cantidad de clases (k) luego del
reagrupamiento.

29
Ejemplo 1
Se quiere analizar si el número (X) de defectos en las tarjetas de circuito impreso sigue una distribución de Poisson. Para ello
se toma una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el número de defectos. Los resultados obtenidos
son los siguientes:
Número de defectos (X) 0 1 2 3 Total
Frecuencia Observada (Oi) 32 15 9 4 60

Pruebe con 5% de significación si realmente X ~ Poisson()


Solución:
Como  es desconocido, se debe utilizar su estimador (EMV() = X )

(0,75) x  e0,75
H0: X  P(= 0,75) estimación : ˆMV  x  0,75 f ( x)  P( X  x)  si x  0,1, 2,3, 4,... 
x!
H1: X no  P( =0,75 )

N° de Frecuencia Probabilidad Frecuencia Esperada


(Oi - Ei )2
defectos observada (bajo H0) Ei = npi
X Oi pi Ei
0 32 0,4724 28,3420 0,4721
1 15 0,3543 21,2565 1,8415
2 9 0,1329 7,9712 10,3952 gl= 3 – 1- 1 = 1
13 0,6527
>3 4 0,0404 2,4240
 60 1 60 2,9663
RC = { 02 > 0,95;
2
1  3,841}
k= 3

02  2,9663  RC, no existe evidencia para rechazar H0 , por lo tanto, el número de defectos en las tarjetas de circuito
impreso sigue una distribución de Poisson, con α=0,05.

30
Ejemplo 2
(PEP) A continuación se presenta una muestra de 100 conductores electrónicos, a los cuales se les midió su resistencia (X), en
.
Resistencia (X) N° de
conductores
Menos de 10 11
10 - 12 18
12 - 14 24
14 - 16 21
16 - 18 16
18 y más 10
Total 100
Pruebe si la resistencia de los conductores eléctricos tiene un comportamiento Normal con media  y varianza 7,84 ( 2 ) , con
un nivel de significación igual a 0,05.

H0: X ~ Normal (µ=13,86 ; σ2 = 7,84) Como no se conoce µ, se utiliza su estimación MV μ̂ = x =13,86


H1: X ~ no Normal (µ=13,86 ; σ2 = 7,84)
P(X < 10) = 0,0840
(Oi - Ei )2
P(10 < X < 12) = 0,1692
X Oi Pi Ei Ei .
< 10 11 0,0840 8,4013 0,8038 .
10 – 12 18 0,1692 16,9240 0,0684 .
P(X > 18) = 1 – P(X < 18) = 0,0696
12 – 14 24 0,2667 26,6685 0,2670
14 – 16 21 0,2577 25,7713 0,8833
16 – 18 16 0,1527 15,2721 0,0347 g.l. = 6 -1 -1 = 4
>18 10 0,0696 6,9627 1,3249 RC = { 02 > 0,95;
2
4  9,4877}

TOTAL 100 1 100 3,3822

p-valor = P( 2 (4) > 3,3822) = 0,4960 > α = 0,05 →  02  3,3822 ∉ RC , no se rechaza H0, con α=0,05.
Por lo tanto, existe evidencia para asumir que la resistencia de los conductores eléctricos se distribuye Normal.

31
Ejercicios

1. La vida útil de 75 motores de cierto tipo seleccionados aleatoriamente, ha tenido la siguiente distribución:

Años de funcionamiento (X) 0-1 1-2 2-3 3-4 4-5


Frecuencia (Oi) 32 24 8 6 5

¿Puede suponerse que la vida útil de estos motores sigue la distribución exponencial? Con un nivel de significación de
0,01.

2. La tabla siguiente muestra los registros de 300 días del control de calidad de los extintores de cierta fábrica. Se tomaron al azar
diariamente cuatro extintores de la producción diaria y se sometieron a prueba, registrando lo siguiente:

N° de extintores N° de
defectuosos (X) días
0 233
1 57
2 7
3 2
4 1
Total 300

Con un nivel de significación del 10%. ¿Se puede afirmar que el número de extintores defectuosos, se distribuye según el
modelo binomial?

32
PRUEBA DE INDEPENDENCIA (  2 )
Muchas veces, las poblaciones y también las muestras, se clasifican de acuerdo a dos criterios diferentes. Entonces,
resulta de interés saber si los criterios (variables) de clasificación son estadísticamente independientes.
Consideremos:
Primer método de clasificación con f niveles : variable F
Segundo método de clasificación con c niveles: Variable C
Oij es la frecuencia observada (absoluta) para el nivel i del criterio F de clasificación y el nivel j del criterio C de
clasificación.
Tabla de contingencia f x c
Variable VARIABLE C
F C1 C2 C3 ... Cc Total Oij son las frecuencias conjuntas observadas
F1 O11 O12 O13 ... O1c O1. de la fila i y de columna j
F2 O21 O22 O23 ... O2c O2.
. .
. . . . . .
. . . . . .
Ff . Of.
Of1 Of2 Of3 ... Ofc Una muestra aleatoria
Total O.1 O.2 O.3 ... O.c O.. = n de tamaño n

Para probar la hipótesis (H0) de que la “variable F” y la “variable C” son independientes hay que determinar la
probabilidad de que un elemento seleccionado aleatoriamente se encuentre en la casilla ij es decir:
el valor esperado o frecuencia esperada de cada casilla Eij es:
Oi. O.j
Eij
n
En que: Oi. = frecuencia de la fila i
O.j = frecuencia de la columna

33
Tenemos:
H0: La variable F es independiente de la variable C (los 2 criterios de
clasificación son independientes)
H1: La variables F y C no son independientes, están correlacionadas.
El estadístico para probar la hipótesis de independencia es:

Se rechaza la hipótesis nula de independencia si  0  1


Ejemplo: En una empresa de ventas de autos se desea determinar si existe relación entre el ingreso de los
clientes y la importancia que le dan al precio de los automóviles de alta gama. Para ello seleccionó una
muestra aleatoria de 538 clientes que se clasificaron en tres niveles de ingreso y se les pide asignar un
nivel de importancia al precio del auto para la decisión de compra.
Nivel de Nivel de ingreso (Mill $)
importancia <5 5 - 10 > 10 Total
Grande 83 62 37 182
Moderado 52 71 49 172
Poco 63 58 63 184
Total 198 191 149 538
¿Qué se concluye con un nivel de significación α = 0,05?

34
2
0

Gráfico de barras agrupadas (%)

% según nivel de Ingreso

Planteamiento de las hipótesis


H0: El ingreso del cliente es independiente a la importancia que le da al precio de los automóviles de alta gama
H1: El ingreso del cliente no es independiente a la importancia que le da al precio de los automóviles de alta gama

35
Evaluación de estadístico de prueba:

p-valor = P ( 𝝌𝟐(𝟒) > 15,170) = 0,004 < α = 0,05

Decisión: Como 𝜒02 ∊ RC, se rechaza la hipótesis nula.

Conclusión: Existe relación significativa, con α = 0,05, entre el ingreso de los clientes y la importancia que le dan al
precio de los automóviles de alta gama.

0,95

χ 2 (4 )

36
TEST DE HOMOGENEIDAD (  2 )
Se utiliza para probar la hipótesis nula de que las proporciones de elementos con cierta característica en dos o más
poblaciones son las mismas para la variable en estudio (las poblaciones son homogéneas) contra la hipótesis
alternativa “por lo menos una proporción no es la misma”.
Diseño de la tabla:
(se extrae una muestra aleatoria de cada población y se mide la variable C)
Grupo Variable de interés : C
(nombre) C1 C2 C3 ... Cc Total
1 O11 O12 O13 ... O1c n1
2 O21 O22 O23 ... O2c n2 f muestras aleatorias
. . . . .
. independientes
. . . .
. . . . . n = n1 + n2 + … nf
f Of1 Of2 Of3 ... Ofc nf

Total O.1 O.2 O.3 ... O.c n

El procedimiento de prueba es el mismo del test de independencia, por lo tanto la misma estadística, pero las hipótesis y
conclusión son diferentes.

Ejemplo: Un estudio sobre tabaquismo, en tres tipos de colegios de E.M. mediante muestras aleatorias de tamaño 100
alumnos, proporcionan los siguientes resultados:
Colegio Fumadores No fumadores Total ¿Pueden considerarse homogéneas las tres
A (1) 28 72 100 poblaciones en cuanto a sus hábitos de
B (2) 37 63 100 tabaquismo, al nivel de significación 0,05?
C (3) 38 62 100
Total 103 197 300
Gráficos que permite comparar el tabaquismo en los tres colegios: barras divididas en %

37
EJERCICIOS
1. Se realiza un estudio en una empresa, para investigar la relación entre salud mental (mala/buena) con actitud
hacia la empresa (negativa/positiva). Los datos obtenidos se encuentran en la siguiente tabla:

Actitud hacia la Salud Mental


empresa Mala Buena Total
Negativa 250 100 350
Positiva 110 540 650
Total 360 640 1000

Analice con un nivel de significación del 5%, si las variables están relacionadas.

38
2. En una industria, existen tres turnos en la producción de cierto artículo. Para determinar si la proporción de
artículos defectuosos producida por los trabajadores, es la misma para los tres turnos, se tomaron muestras
aleatorias independientes de artículos producidos en los turnos.

Turno Defectuosos No defectuosos Total


T1 45 905 n1= 950
T2 55 890 n2 =945
T3 70 870 n3 = 940

Realice el test adecuado con α = 0,05.

39

También podría gustarte