Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Aplicada
ANOVA y ji cuadrada
1
Sesión 5
Contenido
Objetivo general................................................................................................................. 3
Subtema 1. La distribución ji cuadrada, X2 ........................................................................ 2
Subtema 2. Pruebas de hipótesis para la varianza de una población ................................ 6
Subtema 3. Prueba para la diferencia entre n proporciones............................................. 18
Subtema 4. Pruebas de bondad de ajuste a distribuciones teóricas ................................ 21
Subtema 5. Pruebas sobre la independencia entre dos variables .................................... 19
Subtema 6. Pruebas de homogeneidad ........................................................................... 31
Conclusiones ................................................................................................................... 34
Bibliografía ....................................................................................................................... 35
2
Objetivo general: explicar la distribución Ji cuadrada analizando sus
1. La distribución ji cuadrada, X2
6. Pruebas de homogeneidad
dos medias los métodos anteriores no son adecuados, se necesita usar la prueba
ji-cuadrada.
3
Las pruebas ji-cuadrada nos permiten probar si más de dos proporciones
ji-cuadrada.
4
A diferencia de las distribuciones normal y t de Student, la distribución chi
cuadrada no es simétrica.
negativos.
libertad (gl1).
5
grados de libertad, la distribución ji-cuadrada está muy sesgada a la derecha.
Conforme aumenta el número de grados de libertad, la curva hace cada vez más
cuyo caso la distribución puede aproximarse con la normal (Levin, 2004, p.452).
6
Medir el nivel de nicotina en tres grupos, fumadores, no fumadores expuestos
diferentes.
Un factor es una característica que se utiliza para agrupar los datos en categorías,
sola característica.
7
Por lo tanto, se agrupan en categorías según un sólo factor, la calificación
con estrellas.
métodos de capacitación.
8
Se calcula la gran media:
5 + 18 + 19 + 22 + 11 + 22 + 27 + 18 + 21 + 17 + 18 + 24 + 19 + 16 + 22 + 15
𝑋̿ =
16
304
= = 19
16
capacitación, se debe determinar si las tres muestras, representadas por las medias
muestrales, 𝑋̅1 =17, 𝑋̅2 =21 y 𝑋̅3=19, pudieron haberse tomado de poblaciones con la
𝐻𝑜 = µ1 = µ2 = µ3 → Hipótesis nula
9
Si se puede concluir, a partir de esta prueba, que las medias de las muestras
encuentra entre las medias muestrales diferencias muy grandes para atribuirlas al
error aleatorio de muestreo, se puede inferir que el método usado para capacitar a
Con el fin de utilizar el análisis de varianza se supone que cada una de las
muestras se toma de una población normal y que cada una de estas poblaciones
10
tiene la misma varianza σ2 . Sin embargo, si los tamaños de muestra son lo
que las tres poblaciones tienen la misma media. Si esta hipótesis es verdadera, no
una de esas estimaciones examinando la varianza entre las tres medias muestrales,
determinada por la variación dentro de las tres muestras mismas, esto es (15, 18,
19, 22, 1l), (22, 27, 18, 21, 17) y (18, 24, 19, 16, 22, 15). Entonces comparamos
estimaciones diferirán de manera considerable. Entonces, los tres pasos del análisis
de varianza son:
11
1. Determinar una estimación de la varianza de la población a partir de la varianza
entre columnas, por lo que se utilizará la siguiente ecuación para calcular la varianza
⅀(𝑋−𝑋̅)2
Varianza de la muestra → s2 =
𝑛−1
12
Como se está trabajando con tres medias muestrales y una gran media, se
sustituye 𝑋, 𝑋̅, por 𝑋̅, y k (el número de muestras) por n, para obtener una fórmula
⅀(𝑋̅ − 𝑋̅)2
𝑠𝑥2 =
𝑘−1
estándar de todas las muestras posibles de un tamaño dado. La fórmula para derivar
13
Para el problema de los métodos de capacitación, no tenemos toda la
2
2 ⅀ 𝑛 (𝑥̅ − 𝑥̿ )2
σ = s𝑥 𝑥𝑛=
𝑘−1
Existe una pequeña dificultad al utilizar esta ecuación tal como está. Debido
Resolvemos este problema con el siguiente ejemplo en la que cada (𝑋̅𝑗 −𝑋̅̿ )2 se
14
Estimación de la varianza entre columnas
⅀ 𝑛𝑗 (𝑥̅ 𝑗 − 𝑥̿ )2
Primera estimación de la varianza de la población σ2𝑏 =
→̂
𝑘−1
Donde:
varianza entre las medias de las muestras (la varianza entre columnas).
• 𝑥̿ = gran media
• k = número de muestras.
estos cálculos:
15
(Levin, 2004, p.471).
cada una. Se puede calcular la varianza dentro de estas tres muestras usando la
ecuación:
⅀ 𝑛(𝑋−𝑋̅)2
Varianza de la muestra → s2 =
𝑛−1
16
Al suponer que la varianza de las tres poblaciones es la misma, se puede
2 es:
(𝑛𝑗 − 1
Segunda estimación de la varianza de la población → 𝜎̂𝑤2 =∑ ( ) 𝑠2𝑗
(𝑛𝑇 − 𝑘
Donde:
k = número de muestras
17
Esta fórmula utiliza toda la información que tenemos a nuestra disposición, no
nada más una parte de ella. De haber tenido seis muestras en lugar de tres,
Prueba de hipótesis F
18
Sustituyendo con la terminología estadística, en el numerador y el
Estadístico F
capacitación:
19
ya sea que la hipótesis nula sea verdadera o no. ¿Qué sucede con el numerador?
de las muestras de los tres métodos, es también una buena estimación de σ2 (la
a aceptar la alternativa (de que existe una diferencia en los efectos sobre la
las mismas, la varianza entre columnas (derivada a partir de la varianza entre las
20
Subtema 3. Prueba para la diferencia entre n proporciones
apropiada.
21
teórica (es decir, qué tan bien se ajusta a la distribución de los datos que
observamos). Así podemos determinar si debemos creer que los datos observados
(𝑓𝑜 − 𝑓𝑒 )2
𝑥2 = ⅀
𝑓𝑒
por k) para las que se compararon las frecuencias observadas y esperadas. Si por
libertad. Sin embargo, si por ejemplo las cuatro frecuencias observadas deben
22
sumar 100, el número total de frecuencias observadas que podemos especificar
libremente es sólo k–1 = 3. La cuarta queda determinada por la suma total de 100
Suponga que estamos utilizando la prueba ji cuadrada como una prueba de bondad
nos deja con sólo 4. Después, si tenemos que utilizar la desviación estándar de la
un grado de libertad más, lo que deja 3. La regla general en estos casos es: primero
aplique la regla (k-1) y luego reste un grado de libertad adicional por cada parámetro
23
Probar la aseveración de que los números de la lotería de Nueva York (1,2,
Probar la aseveración de que los dulces M&M en una bolsa: 30% son cafés,
tabla en donde las frecuencias corresponden a dos variables. (Una variable se utiliza
24
Ejemplo: Hacer una encuesta con una pregunta en la que la gente identifique
independencia que se usa para determinar si una variable de renglón de una tabla
25
presidencia estudia tres regiones geográficas y encuentra que el 35, 42 y 51%,
concluye que la diferencia solamente se debe al azar), entonces puede decidir que
Tablas de contingencia
respuesta a esta pregunta que dio la muestra encuestada. Una tabla como ésta está
formada por renglones y columnas: los renglones corren de manera horizontal y las
26
columnas verticalmente. Observe que las cuatro columnas de la tabla proporcionan
población total de empleados que prefieren el plan actual como (Levin, 2004, p.450):
27
• PN ← Proporción de empleados en el noreste que prefieren el plan actual
plan actual
de la siguiente forma:
𝐻0 : PN = PS = PC = PW ← Hipótesis nula
28
68+75+57+79
=
100+120+90+110
279
=
420
= 0.6643
prefieran cada uno de los métodos de evaluación. La siguiente tabla presenta estos
cálculos:
29
(Levin, 2004, p.451)
de evaluación:
30
Para probar la hipótesis nula, PN, PS, PC, PW, debemos comparar las
razonar de manera intuitiva que la hipótesis nula se acepta. Si existe una diferencia
haciendo una prueba para determinar si las proporciones son las mismas.
31
Prueba de homogeneidad: prueba la aseveración de que poblaciones
p.589).
experimentador decide buscar en registros clínicos los 300 pacientes de cada una
de las tres categorías de tratamiento: sin vacuna, una vacuna y dos vacunas. Los n
32
Supongamos que se utilizó la prueba ji cuadrada para la independencia de
q2 = q3.
más de dos categorías de renglón con totales fijos de columna, entonces la prueba
proporciones multinomiales.
cuadrada para estos dos diseños experimentales. Si las columnas (o renglones) son
(𝑂𝑖𝑗 − 𝐸̂𝑖𝑗 )2 𝑟 𝑖 𝑐𝑗
𝑥2 = ⅀ donde 𝐸̂𝑖𝑗 =
𝐸̂𝑖𝑗 𝑛
33
Que tiene una distribución ji cuadrada aproximada en muestreo repetido con
df = (r-1)(c-1).
Conclusiones
La prueba ji cuadrada puede usarse para la bondad del ajuste y para dos pruebas
homogeneidad.
34
Bibliografía
35