Está en la página 1de 64

Pruebas de Bondad de Ajuste,

Independencia y Homogeneidad
Claudio Álvaro Cerrón Landeo
Propósito de la Clase
Al finalizar la unidad, el estudiante será capaz de plantear, aplicar e
interpretar pruebas de hipótesis para la bondad de ajuste y de tablas
de contingencia a partir de una muestra aleatoria.
Reconocer las características de una
prueba no paramétrica Multinomial.

Realizar pruebas No paramétricas de


Bondad de Ajuste.

Realizar pruebas de Independencia y


Homogeneidad.
1. Generalidades
Bondad de ajuste
Por “bondad de ajuste” queremos decir que los datos muestrales, que consisten en conteos de
frecuencia observados y se disponen en una sola fila o columna (llamada tabla de frecuencias
unidireccional) concuerdan con alguna distribución particular (por ejemplo normal o uniforme) en
consideración. (Mario Triola)
Analicemos los datos que corresponden al
ancho de los sépalos de la data IRIS:
Experimento multinomial
• Generaliza un experimento binomial al permitir que
cada intento resulte en uno de k posibles resultados,
donde k>2.

Desgaste N° de
Nivel mgr/Kg Neumáticos
Ejemplo
Se tienen una muestra de un 1 50 a 100 23
neumáticos para realizar un 2 100 a 150 15
experimento y probar su
resistencia al desgaste. 3 150 a 200 36
4 200 a 250 24
2. Pruebas de bondad de ajuste

Pruebas con experimentos multinomiales


Condiciones de una Prueba de Bondad de ajuste:

• La muestra es aleatoria simple.


• Se tiene k categorías en las que se puede clasificar cada uno de
los elementos de una población.
• Se tiene una frecuencia esperada en cada categoría E ≥ 5.
• Las frecuencias esperadas se obtienen de E=npi
• El estadístico de prueba se calcula de:
2. Prueba de Bondad de Ajuste
Ejemplo
• Resistencia de neumáticos: Se
Desgaste N° de
tienen una muestra de un neumáticos Niv. mgr/Kg Neumáticos
para realizar un experimento y probar
su resistencia al desgaste. Los
niveles (k) de desgaste y las 1 50 a 100 23
frecuencias en cada nivel se
muestran a continuación. Según el 2 100 a 150 15
fabricante la distribución de las
resistencias sigue un patrón como:
3 150 a 200 36
p1 = 0.3 p2 = 0.3 p3 = 0.2 p4 = 0.2
• Al nivel de 5% pruebe que las 4 200 a 250 24
resistencias se ajustan al patrón
propuesto por el fabricante.
2. Prueba de Bondad de Ajuste

Nivel Desgaste fi=Oi


mgr/Kg
La frecuencias “ni” obtenidas
con la muestra se denominan 1 50 a 100 23
frecuencias observadas, se
2 100 a 150 15
simbolizan como fo, también
como Oi. 3 150 a 200 36
4 200 a 250 24
98
2. Prueba de Bondad de Ajuste

• Las frecuencias hipotéticas en la Desgaste Proporción


población se denominan Nivel mgr/kg Oi de Ei
frecuencias esperadas, se Neumáticos
simbolizan como fe o Ei.
1 50 a 100 23 p1=0.3 E1=
• Las frecuencias hipotéticas para 2 100 a 150 15 p2=0.2 E2=
la población se pueden obtener
utilizando los pi . 3 150 a 200 36 p3=0.2 E3=
Ei=pi*n 4 200 a 250 24 p4=0.3 E4=
n 98
2. Prueba de Bondad de Ajuste

• Las frecuencias hipotéticas en la Desgaste Proporción de


población se denominan Nivel mgr/kg Oi Neumáticos Ei
frecuencias esperadas, se
simbolizan como fe o Ei.
1 50 a 100 23 p1=0.3 E1=0.3*98=29.4
• Las frecuencias hipotéticas para 2 100 a 150 15 p2=0.2 E2=0.3*98=29.4
la población se pueden obtener
utilizando los pi . 3 150 a 200 36 p3=0.2 E3=0.2*98=19.6
Ei=pi*n 4 200 a 250 24 p4=0.3 E4=0.2*98=19.6
n 98
2. Prueba de Bondad de Ajuste
Planteamiento de las hipótesis
• La hipótesis nula de interés especificará el valor de cada pi. Por ejemplo, en el caso de k = 4,
se podría tener:
• p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2.
• La hipótesis alternativa indicará que al menos una de la pi tiene un valor diferente de lo
expresado por H0

Las hipótesis se pueden plantear de la siguiente manera:


H0: O = E: p1 = 0.3; p2 = 0.3; p3 = 0.2; p4 = 0.2
H1: O ≠ E: Por lo menos una de las proporciones es diferente.

H0: O = E: Los datos se ajustan a la distribución esperada.


H1: O ≠ E: Los datos no se ajustan a la distribución esperada.
2. Prueba de Bondad de Ajuste
Solución
H0: O = E: p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2
H1: O ≠ E: El patrón expresado por el fabricante no se
cumple
Estadístico de la prueba: La estadística de la prueba es:
Desgaste
Cat. O n*p E
mgr/Kg
1 50 a 100 23

2 100 a 150 15

3 150 a 200 36

4 200 a 250 24
 =
98
Solución 2. Prueba de Bondad de Ajuste
H0: O = E: p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2
Regla de decisión:
H1: O ≠ E: El patrón expresado por el fabricante no se
cumple
 = 0.05
Estadístico de la prueba: La estadística de la prueba es: gl = 4 – 1= 3

2
Desgaste  (𝑂 − 𝐸 )
Cat. O n*p E 9.488
mgr/Kg 𝐸
1 50 a 100 23 0.3(98) = 29.4

2 100 a 150 15 0.3(98) = 29.4

3 150 a 200 36 0.2(98) = 19.6

4 200 a 250 24 0.2(98) = 19.6


 =
98 98
Solución 2. Prueba de Bondad de Ajuste
H0: O = E: p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2
Regla de decisión:
H1: O ≠ E: El patrón expresado por el fabricante no se
cumple
 = 0.05
Estadístico de la prueba: La estadística de la prueba es: gl = 4 – 1= 3

Cat. Desgaste O n*p E (  𝑂 − 𝐸 )2


mgr/Kg 𝐸 7.815
1 50 a 100 23 0.3(98) = 29.4 1.393
2 100 a 150 15 0.3(98) = 29.4 7.053
3 150 a 200 36 0.2(98) = 19.6 13.722
4 200 a 250 24 0.2(98) = 19.6 0.988
 =
98 98 23.156
2. Prueba de Bondad de Ajuste
Solución
Regla de decisión:
H0: O = E: p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2
H1: O ≠ E: El patrón expresado por el fabricante no se
 = 0.05
cumple gl = 4 – 1= 3
Estadístico de la prueba: La estadística de la prueba es:
Cat. Desgaste O n*p E (  𝑂 − 𝐸 )2
mgr/Kg 𝐸 7.815
1 50 a 100 23 0.3(98) = 29.4 1.393
2 100 a 150 15 0.3(98) = 29.4 7.053
3 150 a 200 36 0.2(98) = 19.6 13.722
4 200 a 250 24 0.2(98) = 19.6 0.988
 =
98 98 23.156

Conclusión: No existe evidencia para probar que las resistencias se ajustan al patrón propuesto por el fabricante.
2. Prueba de Bondad de Ajuste
Solución
Parámetro de interés: Los parámetros de interés son p1, p2, p3, p4, las frecuencias de
cada uno de los k =4 niveles respectivamente, y queremos saber si p1 = 0.3, p2 = 0.3,
p3 = 0.2, p4 = 0.2
H0: O = E: p1 = 0.3; p2 = 0.3; p3 = 0.2; p4 = 0.2
H1: O ≠ E: Por lo menos una de las proporciones es diferente.
Usando R: chisq.test(x,p)

Como el p valor es 0,000 menor que


el nivel de significancia de 0,05, hay
evidencia estadística para rechazar
a hipótesis nula. Se concluye que
los datos no tienen la distribución
esperada
Ejemplo 2
El sorgo es una importante cosecha de cereales cuya calidad y aspecto podrían ser afectadas por la
presencia de pigmentos en el pericarpio (las paredes del ovario de la planta). El artículo “A Genetic and
Biochemical Study on Pericarp Pigments” informa de un experimento que comprendía una cruza inicial,
entre sorgo CK60 (una variedad norteamericana con semillas blancas), y Abu Taima (una variedad etiope
con semillas amarillas). Según la teoría genética, esta cruza debería producir plantas con semillas rojas,
amarillas o blancas en igual proporción. A continuación aparece la información del experimento. ¿Los
datos confirman o contradicen la teoría genética? Utilice un nivel de significancia de 0.05

Color de
Rojo Amarillo Blanco
semilla
Frecuencia
195 73 100
observada
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo

•La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos


que es la siguiente:
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, las
frecuencias de cada uno de los k =3 niveles respectivamente, y queremos
saber si p1 = p2 = p3
2. Hipótesis:
H0: O = E: p1 = p2 = p3 Las semillas se dan por igual
en cualquier color. (distribución uniforme)
H1: O ≠ E: Las semillas se dan en proporciones
diferentes.
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
H0: O = E: p1 = p2 = p3 La cruza produce plantas con semillas rojas, amarillas o blancas en igual proporción.
H1: O ≠ E: Las semillas se dan en proporciones diferentes. Regla de decisión:
Estadístico de la prueba:
 = 0.05
gl = 3 – 1= 2
Color de (𝑶 − 𝑬 )𝟐
O n*p E  
semilla 𝑬

Rojo 195 5.991

Amarillo 73

Blanco 100
 =
368
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
H0: O = E: p1 = p2 = p3 La cruza produce plantas con semillas rojas, amarillas o blancas en igual proporción.
H1: O ≠ E: Las semillas se dan en proporciones diferentes. Regla de decisión:
Estadístico de la prueba:
 = 0.05
gl = 3 – 1= 2
Color de (𝑶 − 𝑬 )𝟐
O n*p E  
semilla 𝑬

Rojo 195 368(0.333)= 122,544 5.991

Amarillo 73 368(0.333)= 122,544

Blanco 100 368(0.333)= 122,544


 =
368 368
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
H0: O = E: p1 = p2 = p3 La cruza produce plantas con semillas rojas, amarillas o blancas en igual proporción.
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Estadístico de la prueba: Regla de decisión:

Color de (𝑶 − 𝑬 ) 𝟐
O n*p E    = 0.05
semilla 𝑬
gl = 3 – 1= 2
Rojo 195 368(0.333)= 122,544 42,841

Amarillo 73 368(0.333)= 122,544 20,030 5.991

Blanco 100 368(0.333)= 122,544 4,147

368 368 67,018  =


3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
H0: O = E: p1 = p2 = p3 La cruza produce plantas con semillas rojas, amarillas o blancas en igual proporción.
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Estadístico de la prueba: Regla de decisión:

Color de (𝑶 − 𝑬 ) 𝟐
O n*p E    = 0.05
semilla 𝑬
gl = 3 – 1= 2
Rojo 195 368(0.333)= 122,544 42,841

Amarillo 73 368(0.333)= 122,544 20,030 5.991


Rechazar H0 como
Blanco 100 368(0.333)= 122,544 4,147 verdadera
368 368 67,018  =
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
H0: O = E: p1 = p2 = p3 La cruza produce plantas con semillas rojas, amarillas o blancas en igual proporción.
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Estadístico de la prueba: Regla de decisión:

Color de (𝑶 − 𝑬 ) 𝟐
O n*p E    = 0.05
semilla 𝑬
gl = 3 – 1= 2
Rojo 195 368(0.333)= 122,544 42,841

Amarillo 73 368(0.333)= 122,544 20,030 5.991


Rechazar H0 como
Blanco 100 368(0.333)= 122,544 4,147 verdadera
368 368 67,018  =

Conclusión: No existe evidencia para probar que los datos confirman la teoría genética.
Solución
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, las frecuencias de cada uno
de los k =3 niveles respectivamente, y queremos saber si p1 = p2 = p3
2. Hipótesis:
H0: O = E: p1 = p2 = p3 Las semillas se dan por igual en cualquier color. (distribución uniforme)
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Usando R: chisq.test(x,p)
Como el p valor es 0,000 menor que
el nivel de significancia de 0,05, hay
evidencia estadística para rechazar
a hipótesis nula. Se concluye que
los datos contradicen a teoría
genétca.
Ejemplo 3
Cierto tipo de linterna eléctrica se vende con las cuatro baterías incluidas. Se obtiene una muestra
aleatoria de 150 linternas y se determina el número de baterías defectuosas; con los resultados
siguientes:

Se debe probar si la distribución de las baterías sigue una distribución binomial con p=0,36
Solución
Distribución binomial:
H0: O = E: La distribución tiene comportamiento binomial
dbinom(x,n =.. ,prob =.. )
H1: O ≠ E: La distribución no tiene comportamiento binomial

Respuesta: Como el p valor es 0.000 menor que


0.05, se rechaza Ho.
Conclusión: Los datos no tienen
comportamiento binomial.
3. Bondad de ajuste a una
distribuciones Discretas y
Continuas
Pruebas con experimentos multinomiales.
4. Bondad de ajuste: Distribuciones Discretas
y Continuas
• La prueba ji cuadrada también se puede usar para probar si la muestra
proviene de una familia especificada de distribuciones continuas, como es el
caso de la familia binomial, de Poisson, exponencial, o la familia normal.

• H0: O=E: La distribución de la población es . . . .


• H1: O≠E: La distribución de la población no es . . . .

• Los valores pi se deben hallar usando las distribuciones correspondientes.


4. Bondad de ajuste:
Distribuciones Discretas y Continuas
• El artículo “Nonbloated Burned Clay Aggregate Concrete” (J. Materials, 1972: 555-563)
publica los siguientes datos sobre resistencia flexional de 7 días, de muestras de concreto
con agregado de arcilla quemada sin curar (en libras por pulgada cuadrada psi):

257 327 317 300 340 340 343 374 377 386

383 393 407 407 434 427 440 407 450 440

456 460 456 476 480 490 497 526 546 700

• Pruebe al nivel 0.10 para determinar si la resistencia flexional es una variable distribuida
normalmente con media de 420 psi y desviación estándar de 86,3.
4. Bondad de ajuste a distribuciones
Discretas y Continuas
Ejemplo

•La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que es la siguiente:
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las frecuencias de
cada uno de los k = n niveles respectivamente, y queremos saber si p1 , p2, p3, . . . pn tiene
una distribución normal.
2. Hipótesis:
• H0: O = E: La población tiene una distribución normal de u=420psi y desviación estándar
de σ=86,3.
H1: O ≠ E: La población no tiene una distribución normal.
4. Bondad de ajuste a distribuciones
Discretas y Continuas
Ejemplo

•La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que es la siguiente:
•Calculamos intervalos con los siguientes datos: n=30, Max=700, Min=257
•R = max – min = 700-257 = 443.
•K = 1 + 3.32Log(30) = 5,904 = 6
•A = 443/6 = 88.6 ≈ 100
Resistencia xi fi
250 350 300 7
350 450 400 13
450 550 500 9
550 650 600 0
650 750 700 1
30
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo
•  •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos
La distribución es que es la siguiente:
normal con media
de u=420 psi 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
y desviación frecuencias de cada uno de los k = n niveles respectivamente, y queremos
estándar de saber si p1 , p2, p3, . . . pn tiene una distribución normal.
σ=86,3.
•Para calcular las pi, usamos la distribución normal z= :

Resistencia 350

250 350
350 450
450 550
550 650
650 750
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo •  •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que
es la siguiente:
La distribución
es normal con 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
media de frecuencias de cada uno de los k = n niveles respectivamente, y queremos saber
u=420psi
si p1 , p2, p3, . . . pn tiene una distribución normal.
y desviación
estándar de •Para calcular las pi, usamos la distribución normal z= :
σ=86,3.

Resistencia 350

250 350  Z =
350 450
Z = -0.81
450 550 En la tabla III:
550 650
p1 = 0,209
650 750
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo
•  •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que
La distribución es la siguiente:
es normal con
media de 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
u=420psi frecuencias de cada uno de los k = n niveles respectivamente, y queremos saber
y desviación si p1 , p2, p3, . . . pn tiene una distribución normal.
estándar de
σ=86,3. •Para calcular las pi, usamos la distribución normal z= :

Resistencia 350 350 450


250 350  Z =
350 450
Z = -0.81
450 550 En la tabla III:
550 650
p1 = 0,209
650 750
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo
•  •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que
La distribución es la siguiente:
es normal con
media de 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
u=420psi frecuencias de cada uno de los k = n niveles respectivamente, y queremos saber
y desviación si p1 , p2, p3, . . . pn tiene una distribución normal.
estándar de
σ=86,3. •Para calcular las pi, usamos la distribución normal z= :

Resistencia 350 350 450


250 350  Z = Z  =
350 450
Z = -0.81 Z = 0.35
450 550 En la tabla III: En la tabla III:
550 650 p2 = 0.6368 – 0,209
p1 = 0,209
650 750 p2 = 0.4278
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo
•  •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos
La distribución que es la siguiente:
es normal con
media de 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
u=420psi frecuencias de cada uno de los k = n niveles respectivamente, y queremos
y desviación saber si p1 , p2, p3, . . . pn tiene una distribución normal.
estándar de
σ=86,3. •Para calcular las pi, usamos la distribución normal z= :

Resistencia 350 450 550


350 450
250 350  Z =  Z =
350 450 Z = 0.35
Z = -0.81
450 550 En la tabla III: En la tabla III:
550 650 p2 = 0.6368 – 0,209
p1 = 0,209
650 750 p2 = 0.4278
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo
•  •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que
La distribución es la siguiente:
es normal con
media de 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
u=420psi frecuencias de cada uno de los k = n niveles respectivamente, y queremos saber
y desviación si p1 , p2, p3, . . . pn tiene una distribución normal.
estándar de
σ=86,3. •Para calcular las pi, usamos la distribución normal z= :

Resistencia 350 450 550


350 450
250 350  Z =  Z =  Z =
350 450 Z = 0.35 Z = 1.51
Z = -0.81
450 550 En la tabla III: En la tabla III: En la tabla III:
550 650 p2 = 0.6368 – 0,209 p3 = 0.9345 – 0.6368
p1 = 0,209
650 750 p2 = 0.4278 p3 = 0.2977
4. Bondad de ajuste: Distribuciones
Discretas y Continuas
Ejemplo
•  •La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que
La distribución es la siguiente:
es normal con
media de 1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
u=420psi frecuencias de cada uno de los k = n niveles respectivamente, y queremos
y desviación saber si p1 , p2, p3, . . . pn tiene una distribución normal.
estándar de
σ=86,3. •Para calcular las pi, usamos la distribución normal z= :

Resistencia 350 450 550


350 450
250 350  Z = Z  =  Z =
350 450 Z = 0.35 Z = 1.51
Z = -0.81
450 550 En la tabla III: En la tabla III: En la tabla III:
550 650 p2 = 0.6368 – 0,209 p3 = 0.9345 – 0.6368
p1 = 0,209
650 750 p2 = 0.4278 p3 = 0.2977
4. Bondad de ajuste: distribuciones Discretas
y Continuas
Ejemplo
•La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que es la siguiente:
1. Parámetro de interés: Los parámetros de interés son p 1, p2, p3, . . . . pn las frecuencias de cada uno de los k = n
niveles respectivamente, y queremos saber si p 1 , p2, p3, . . . pn tiene una distribución normal.
•Cuantos niveles se necesitan?
•Calculamos intervalos con los siguientes datos: =420, =86,3

Resistencia pi
250 350 0,2086 = p1
350 450 0,4273 = P2
450 550 0,2981 = p3
550 650 0,0621 = p4
650 750 0,0038 = p5
4. Bondad de ajuste: distribuciones Discretas
y Continuas
Ejemplo
pi H0: O = E: La población tiene una distribución normal de µ=420psi y desviación
0,2086 estándar de σ=86,3.
0,4273 H1: O ≠ E: La población no tiene una distribución normal.
0,2981
3. Estadístico de la prueba: 𝟐
0,0621 Resistencia O Ei  (𝑶 − 𝑬 )
𝑬
0,0038
250 350 7 30*0.2090
6,259
n*p1
350 450 13 30*0.4278
n*p2
12,819 La prueba no es significativa por que
30*0.2977
n*p3 existen 02 casillas con Ei < 5
450 550 9 8,942
0 30*0.6017
n*p4
1,864
550 650
n=30 30*0.0037
n*p5
650 750 1 0,115
30 30  =
4. Bondad de ajuste: distribuciones Discretas
y Continuas
Ejemplo
pi H0: O = E: La población tiene una distribución normal de u=420psi y desviación estándar de
0,2086 σ=86,3.
0,4273 H1: O ≠ E: La población no tiene una distribución normal.
0,2981 Estadístico de la prueba:
  (𝑶 − 𝑬 )𝟐
0,0621 Resistencia O Eii 𝑬
0,0038 250 350 7 30*0.2090
6,259
n*p1 0,088
350 450 13 30*0.4278
n*p2
12,819 0,003
450 550 10 30*0.2977
n*p3
10,922 0,338
30*0.6017
n*p4
550 650
30*0.0037
n*p5
650 750
30 30 0,428  =
4. Bondad de ajuste: distribuciones Discretas y
Continuas
Ejemplo
pi H0: O = E: La población tiene una distribución normal de u=420psi y desviación estándar de
0,2086 σ=86,3.
0,4273 H1: O ≠ E: La población no tiene una distribución normal.
Regla de decisión:
0,2981 Estadístico de la prueba:
  (𝑶 − 𝑬 )𝟐
0,0621 Resistencia O Eii 𝑬
 = 0.10
0,0038 250 350 7 30*0.2090
6.270
n*p1 0,088 gl = 3 – 1= 2
350 450 13 30*0.4278
n*p2
12.834 0,003
450 550 10 30*0.2977
n*p3
10.881 0,338
7.779
30*0.6017
n*p4
550 650
30*0.0037
n*p5
650 750
30 30 0,428  =

Conclusión: Existe evidencia muestral para probar que la población tiene una distribución normal de u=420psi y
desviación estándar de σ=86,3.
Solución con R
H0: O = E: La población tiene una distribución normal de u=420psi y desviación estándar de σ=86,3.
H1: O ≠ E: La población no tiene una distribución normal.
Copiamos los datos al Excel poniendo de encabezado “X”, luego seleccionamos todo, copiamos con
Ctrl+C.
Luego abrimos el R y cargamos los datos con el comando read.delim, luego seguimos la secuencia.

Como el p valor es 0.1435 mayor que el nivel de significancia de 0.05, existe evidencia estadística para
no rechazar la hipótesis nula y se concluye que hay NORMALIDAD.
• También se puede utilizar el gráfico Q-Q plot que compara los cuantiles de la
muestra con los de la distribución normal.
> qqPlot(data$X,distribution = "norm")
3. Pruebas de Independencia
y de homogeneidad
Tablas de contingencia.
Prueba de independencia
En un estudio de una vacuna de hepatitis participan 1083 voluntarios. De éstos, se eligen aleatoriamente 549 y son
vacunados. Los otros, 534, no son vacunados. Después de un cierto tiempo, se observa que 70 de los 534 no
vacunados han contraído la hepatitis, mientras que sólo 11 de los 549 vacunados la han contraído.
Esquematicemos los resultados en lo que se llama una tabla de contingencia:

¿Enfermo?/¿Vacunado? Sí No Total
SÍ 11 70 81
NO 538 464 1002
Total 549 534 1083

¿Es el hecho de contraer hepatitis independiente de haber sido vacunado contra la dolencia?
En este ejemplo, contrastar si la manera de clasificar a los voluntarios entre vacunados y no vacunados y la manera
de clasificarlos entre enfermos por hepatitis y no enfermos es equivalente a contrastar si la vacuna es efectiva contra
la hepatitis. Y decir que la vacuna no es efectiva sería equivalente a decir que vacunar a un individuo es
independiente de que contraiga la hepatitis.
Prueba de independencia

El contraste que nos planteamos es el siguiente:

H0: Los criterios de clasificación ”X” y ”Y” son independientes,


H1: Los criterios de clasificación ”X” y ”Y” no son independientes.

Para poder realizar el contraste anterior, lo plantearemos como un


contraste de bondad de ajuste.
Tablas de Contingencia

Variable B
Poco Medio Mucho
0 a 100 fo11 fo12 fo13 Total F1
100 a 200 fo21 fo22 fo23 Total F2
Variable A
200 a 300 fo31 fo32 fo33 Total F3
400 a 500 fo41 fo42 fo43 Total F4
Total C1 Total C2 Total C3 Total

• Las frecuencias esperadas tienen que calcularse de manera


tal que hipotéticamente las frecuencias se distribuyen de
manera homogénea
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 Total F1
100 a 200 Total F2
Variable A
200 a 300 Total F3
400 a 500 Total F4
Total C1 Total C2 Total C3 Total
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe11 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C1 Total


Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe12 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C2 Total

=  = 
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe13 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C3 Total

=  =  = 
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe11 fe12 fe13 Total F1
100 a 200 fe21 fe22 fe23 Total F2
Variable A
200 a 300 fe31 fe32 fe33 Total F3
400 a 500 fe41 fe42 fe43 Total F4
Total C1 Total C2 Total C3 Total
Ejemplo
Se toma una muestra aleatoria de 3800 familias y se les clasifica según su nivel de
ingresos (alto, medio o bajo) y el tipo de colegio a la que envían sus hijos. La
siguiente tabla muestra los resultados obtenidos:

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto

Alto 506 394 210


Medio 438 462 512
Bajo 215 385 678

¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos Privado Público Mixto

Alto 506 394 210 1110


Medio 438 462 512
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
1159 ∗1110
 
3800
Alto
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos Privado Público Mixto

Alto 506 394 210 1110


Medio 438 462 512
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55
Alto
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos Privado Público Mixto

Alto 506 394 210


Medio 438 462 512 1412
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55
Alto 1159 ∗ 1412
 
3800
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos Privado Público Mixto

Alto 506 394 210 1110


Medio 438 462 512 1412
Bajo 215 385 678 1278
1159 1241 1400 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55 362.5026 408.9474
Alto
430.66 461.1295 520.2105
Medio
389.79 417.3679 470.8421
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos Privado Público Mixto
O E
Alto 506 394 210
Medio 438 462 512 506 338.55
Bajo 215 385 678 438 430.66
215 389.79
Categoría de Tipo de Colegio
Ingresos Privado Público Mixto

Alto 338.55 362.5026 408.9474


Medio 430.66 461.1295 520.2105
Bajo 389.79 417.3679 470.8421
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos Privado Público Mixto O E

Alto 506 394 210 506 338.55


Medio 438 462 512 438 430.66
Bajo 215 385 678 215 389.79
394 362.5026
Categoría de Tipo de Colegio 462 461.1295
Ingresos Privado Público Mixto
385 417.3679
Alto 338.55 362.5026 408.9474 210 408.9474
Medio 430.66 461.1295 520.2105 512 520.2105
Bajo 389.79 417.3679 470.8421 678 470.8421
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
H0: O=E Ingreso y tipo de colegio son
O E independientes
H1: O≠E Ingreso y tipo de colegio no son
506 338.55 82.8223
independientes (están relacionados)
438 430.66 0.1251
• Rechazamos H0 como verdadera:
215 389.79 78.3795
394 362.5026 • Tipo de colegio y nivel de ingresos no
2.7368
son independientes, están relacionados
462 461.1295 0.0016
385 417.3679 2.5102
gl =(3-1)(3-1)
210 408.9474 96.7852 gl = 4

512 520.2105 0.1296  = 0.05

678 470.8421 91.1439

354.6343 9.488
Contraste de independencia con R
Para realizar el contraste de independencia en R hacemos lo siguiente:

chisq.test(tabla.contingencia,correct=FALSE)

tabla.contingencia: es la tabla de las frecuencias empíricas.


correct: es un parámetro lógico. Si su valor es FALSE, hará los cálculos como hemos explicado.
Si su valor es TRUE, aplica la corrección a la continuidad sólo para tablas de contingencia 2 × 2.
En el ejemplo:
chisq.test(matrix(c(506,438,215,394,462,385,210,512,678),
3,3),correct=FALSE)
Rpta.: Como el p valor es 0.000
## menor que 0.05, existe evidencia
## Pearson's Chi-squared test estadística para rechazar Ho.
## Conclusión: El nivel de ingresos
## data: matrix(c(506, 438, 215, 394, 462, 385, 210, 512, está relacionado con el tipo de
678), 3, 3) colegio al que asisten sus hijos.
X-squared = 354.63, df = 4, p-value <2.2e-16
Ejemplo 2
Una gran firma de electrónica que contrata a muchos trabajadores con discapacidades quiere
determinar si las discapacidades influyen en el desempeño de dichos trabajadores. Utilice el nivel
de significancia α = 0.05 para decidir, sobre la base de los datos muestrales que se presentan en la
siguiente tabla, si es razonable sostener que las discapacidades no tienen efecto sobre el
desempeño de los trabajadores:
>chisq.test(matrix(c(21,16,29,64,49,93,17,14
Arriba del Desempeño Abajo del
,28),3,3),correct=FALSE)
promedio promedio promedio
Pearson's Chi-squared test
Ceguera 21 64 17
data: matrix(c(21, 16, 29, 64, 49, 93, 17, 14,
Sordera 16 49 14 28), 3, 3)
Sin discapacidad 29 93 28 X-squared = 0.19609, df = 4, p-value= 0.9955

Hipótesis: Rpta.: Como el p valor es 0.9955 mayor


H0: O = E Discapacidad y Desempeño son que 0.05, existe evidencia estadística para
independientes. no rechazar la hipótesis nula.
H1: O ≠ E Discapacidad y Desempeño están
relacionados. Conclusión: La discapacidad de los
trabajadores y su respectivo desempeño
son independientes.

También podría gustarte