Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Independencia y Homogeneidad
Claudio Álvaro Cerrón Landeo
Propósito de la Clase
Al finalizar la unidad, el estudiante será capaz de plantear, aplicar e
interpretar pruebas de hipótesis para la bondad de ajuste y de tablas
de contingencia a partir de una muestra aleatoria.
Reconocer las características de una
prueba no paramétrica Multinomial.
Desgaste N° de
Nivel mgr/Kg Neumáticos
Ejemplo
Se tienen una muestra de un 1 50 a 100 23
neumáticos para realizar un 2 100 a 150 15
experimento y probar su
resistencia al desgaste. 3 150 a 200 36
4 200 a 250 24
2. Pruebas de bondad de ajuste
2 100 a 150 15
3 150 a 200 36
4 200 a 250 24
=
98
Solución 2. Prueba de Bondad de Ajuste
H0: O = E: p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2
Regla de decisión:
H1: O ≠ E: El patrón expresado por el fabricante no se
cumple
= 0.05
Estadístico de la prueba: La estadística de la prueba es: gl = 4 – 1= 3
2
Desgaste (𝑂 − 𝐸 )
Cat. O n*p E 9.488
mgr/Kg 𝐸
1 50 a 100 23 0.3(98) = 29.4
Conclusión: No existe evidencia para probar que las resistencias se ajustan al patrón propuesto por el fabricante.
2. Prueba de Bondad de Ajuste
Solución
Parámetro de interés: Los parámetros de interés son p1, p2, p3, p4, las frecuencias de
cada uno de los k =4 niveles respectivamente, y queremos saber si p1 = 0.3, p2 = 0.3,
p3 = 0.2, p4 = 0.2
H0: O = E: p1 = 0.3; p2 = 0.3; p3 = 0.2; p4 = 0.2
H1: O ≠ E: Por lo menos una de las proporciones es diferente.
Usando R: chisq.test(x,p)
Color de
Rojo Amarillo Blanco
semilla
Frecuencia
195 73 100
observada
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
Amarillo 73
Blanco 100
=
368
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
H0: O = E: p1 = p2 = p3 La cruza produce plantas con semillas rojas, amarillas o blancas en igual proporción.
H1: O ≠ E: Las semillas se dan en proporciones diferentes. Regla de decisión:
Estadístico de la prueba:
= 0.05
gl = 3 – 1= 2
Color de (𝑶 − 𝑬 )𝟐
O n*p E
semilla 𝑬
Color de (𝑶 − 𝑬 ) 𝟐
O n*p E = 0.05
semilla 𝑬
gl = 3 – 1= 2
Rojo 195 368(0.333)= 122,544 42,841
Color de (𝑶 − 𝑬 ) 𝟐
O n*p E = 0.05
semilla 𝑬
gl = 3 – 1= 2
Rojo 195 368(0.333)= 122,544 42,841
Color de (𝑶 − 𝑬 ) 𝟐
O n*p E = 0.05
semilla 𝑬
gl = 3 – 1= 2
Rojo 195 368(0.333)= 122,544 42,841
Conclusión: No existe evidencia para probar que los datos confirman la teoría genética.
Solución
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, las frecuencias de cada uno
de los k =3 niveles respectivamente, y queremos saber si p1 = p2 = p3
2. Hipótesis:
H0: O = E: p1 = p2 = p3 Las semillas se dan por igual en cualquier color. (distribución uniforme)
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Usando R: chisq.test(x,p)
Como el p valor es 0,000 menor que
el nivel de significancia de 0,05, hay
evidencia estadística para rechazar
a hipótesis nula. Se concluye que
los datos contradicen a teoría
genétca.
Ejemplo 3
Cierto tipo de linterna eléctrica se vende con las cuatro baterías incluidas. Se obtiene una muestra
aleatoria de 150 linternas y se determina el número de baterías defectuosas; con los resultados
siguientes:
Se debe probar si la distribución de las baterías sigue una distribución binomial con p=0,36
Solución
Distribución binomial:
H0: O = E: La distribución tiene comportamiento binomial
dbinom(x,n =.. ,prob =.. )
H1: O ≠ E: La distribución no tiene comportamiento binomial
257 327 317 300 340 340 343 374 377 386
383 393 407 407 434 427 440 407 450 440
456 460 456 476 480 490 497 526 546 700
• Pruebe al nivel 0.10 para determinar si la resistencia flexional es una variable distribuida
normalmente con media de 420 psi y desviación estándar de 86,3.
4. Bondad de ajuste a distribuciones
Discretas y Continuas
Ejemplo
•La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que es la siguiente:
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las frecuencias de
cada uno de los k = n niveles respectivamente, y queremos saber si p1 , p2, p3, . . . pn tiene
una distribución normal.
2. Hipótesis:
• H0: O = E: La población tiene una distribución normal de u=420psi y desviación estándar
de σ=86,3.
H1: O ≠ E: La población no tiene una distribución normal.
4. Bondad de ajuste a distribuciones
Discretas y Continuas
Ejemplo
•La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que es la siguiente:
•Calculamos intervalos con los siguientes datos: n=30, Max=700, Min=257
•R = max – min = 700-257 = 443.
•K = 1 + 3.32Log(30) = 5,904 = 6
•A = 443/6 = 88.6 ≈ 100
Resistencia xi fi
250 350 300 7
350 450 400 13
450 550 500 9
550 650 600 0
650 750 700 1
30
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo
• •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos
La distribución es que es la siguiente:
normal con media
de u=420 psi 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
y desviación frecuencias de cada uno de los k = n niveles respectivamente, y queremos
estándar de saber si p1 , p2, p3, . . . pn tiene una distribución normal.
σ=86,3.
•Para calcular las pi, usamos la distribución normal z= :
Resistencia 350
250 350
350 450
450 550
550 650
650 750
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo • •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que
es la siguiente:
La distribución
es normal con 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
media de frecuencias de cada uno de los k = n niveles respectivamente, y queremos saber
u=420psi
si p1 , p2, p3, . . . pn tiene una distribución normal.
y desviación
estándar de •Para calcular las pi, usamos la distribución normal z= :
σ=86,3.
Resistencia 350
250 350 Z =
350 450
Z = -0.81
450 550 En la tabla III:
550 650
p1 = 0,209
650 750
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo
• •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que
La distribución es la siguiente:
es normal con
media de 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
u=420psi frecuencias de cada uno de los k = n niveles respectivamente, y queremos saber
y desviación si p1 , p2, p3, . . . pn tiene una distribución normal.
estándar de
σ=86,3. •Para calcular las pi, usamos la distribución normal z= :
Resistencia pi
250 350 0,2086 = p1
350 450 0,4273 = P2
450 550 0,2981 = p3
550 650 0,0621 = p4
650 750 0,0038 = p5
4. Bondad de ajuste: distribuciones Discretas
y Continuas
Ejemplo
pi H0: O = E: La población tiene una distribución normal de µ=420psi y desviación
0,2086 estándar de σ=86,3.
0,4273 H1: O ≠ E: La población no tiene una distribución normal.
0,2981
3. Estadístico de la prueba: 𝟐
0,0621 Resistencia O Ei (𝑶 − 𝑬 )
𝑬
0,0038
250 350 7 30*0.2090
6,259
n*p1
350 450 13 30*0.4278
n*p2
12,819 La prueba no es significativa por que
30*0.2977
n*p3 existen 02 casillas con Ei < 5
450 550 9 8,942
0 30*0.6017
n*p4
1,864
550 650
n=30 30*0.0037
n*p5
650 750 1 0,115
30 30 =
4. Bondad de ajuste: distribuciones Discretas
y Continuas
Ejemplo
pi H0: O = E: La población tiene una distribución normal de u=420psi y desviación estándar de
0,2086 σ=86,3.
0,4273 H1: O ≠ E: La población no tiene una distribución normal.
0,2981 Estadístico de la prueba:
(𝑶 − 𝑬 )𝟐
0,0621 Resistencia O Eii 𝑬
0,0038 250 350 7 30*0.2090
6,259
n*p1 0,088
350 450 13 30*0.4278
n*p2
12,819 0,003
450 550 10 30*0.2977
n*p3
10,922 0,338
30*0.6017
n*p4
550 650
30*0.0037
n*p5
650 750
30 30 0,428 =
4. Bondad de ajuste: distribuciones Discretas y
Continuas
Ejemplo
pi H0: O = E: La población tiene una distribución normal de u=420psi y desviación estándar de
0,2086 σ=86,3.
0,4273 H1: O ≠ E: La población no tiene una distribución normal.
Regla de decisión:
0,2981 Estadístico de la prueba:
(𝑶 − 𝑬 )𝟐
0,0621 Resistencia O Eii 𝑬
= 0.10
0,0038 250 350 7 30*0.2090
6.270
n*p1 0,088 gl = 3 – 1= 2
350 450 13 30*0.4278
n*p2
12.834 0,003
450 550 10 30*0.2977
n*p3
10.881 0,338
7.779
30*0.6017
n*p4
550 650
30*0.0037
n*p5
650 750
30 30 0,428 =
Conclusión: Existe evidencia muestral para probar que la población tiene una distribución normal de u=420psi y
desviación estándar de σ=86,3.
Solución con R
H0: O = E: La población tiene una distribución normal de u=420psi y desviación estándar de σ=86,3.
H1: O ≠ E: La población no tiene una distribución normal.
Copiamos los datos al Excel poniendo de encabezado “X”, luego seleccionamos todo, copiamos con
Ctrl+C.
Luego abrimos el R y cargamos los datos con el comando read.delim, luego seguimos la secuencia.
Como el p valor es 0.1435 mayor que el nivel de significancia de 0.05, existe evidencia estadística para
no rechazar la hipótesis nula y se concluye que hay NORMALIDAD.
• También se puede utilizar el gráfico Q-Q plot que compara los cuantiles de la
muestra con los de la distribución normal.
> qqPlot(data$X,distribution = "norm")
3. Pruebas de Independencia
y de homogeneidad
Tablas de contingencia.
Prueba de independencia
En un estudio de una vacuna de hepatitis participan 1083 voluntarios. De éstos, se eligen aleatoriamente 549 y son
vacunados. Los otros, 534, no son vacunados. Después de un cierto tiempo, se observa que 70 de los 534 no
vacunados han contraído la hepatitis, mientras que sólo 11 de los 549 vacunados la han contraído.
Esquematicemos los resultados en lo que se llama una tabla de contingencia:
¿Enfermo?/¿Vacunado? Sí No Total
SÍ 11 70 81
NO 538 464 1002
Total 549 534 1083
¿Es el hecho de contraer hepatitis independiente de haber sido vacunado contra la dolencia?
En este ejemplo, contrastar si la manera de clasificar a los voluntarios entre vacunados y no vacunados y la manera
de clasificarlos entre enfermos por hepatitis y no enfermos es equivalente a contrastar si la vacuna es efectiva contra
la hepatitis. Y decir que la vacuna no es efectiva sería equivalente a decir que vacunar a un individuo es
independiente de que contraiga la hepatitis.
Prueba de independencia
Variable B
Poco Medio Mucho
0 a 100 fo11 fo12 fo13 Total F1
100 a 200 fo21 fo22 fo23 Total F2
Variable A
200 a 300 fo31 fo32 fo33 Total F3
400 a 500 fo41 fo42 fo43 Total F4
Total C1 Total C2 Total C3 Total
Variable B
Poco Medio Mucho
0 a 100 Total F1
100 a 200 Total F2
Variable A
200 a 300 Total F3
400 a 500 Total F4
Total C1 Total C2 Total C3 Total
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.
Variable B
Poco Medio Mucho
0 a 100 fe11 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C1 Total
=
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.
Variable B
Poco Medio Mucho
0 a 100 fe12 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C2 Total
= =
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.
Variable B
Poco Medio Mucho
0 a 100 fe13 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C3 Total
= = =
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.
Variable B
Poco Medio Mucho
0 a 100 fe11 fe12 fe13 Total F1
100 a 200 fe21 fe22 fe23 Total F2
Variable A
200 a 300 fe31 fe32 fe33 Total F3
400 a 500 fe41 fe42 fe43 Total F4
Total C1 Total C2 Total C3 Total
Ejemplo
Se toma una muestra aleatoria de 3800 familias y se les clasifica según su nivel de
ingresos (alto, medio o bajo) y el tipo de colegio a la que envían sus hijos. La
siguiente tabla muestra los resultados obtenidos:
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
354.6343 9.488
Contraste de independencia con R
Para realizar el contraste de independencia en R hacemos lo siguiente:
chisq.test(tabla.contingencia,correct=FALSE)