S5 LAEs

Licenciatura en Administración de Empresas
Estadística Aplicada
ANOVA y ji cuadrada
1
Sesión 5
Contenido
Objetivo general................................................................................................................. 3
Subtema 1. La distribución ji cuadrada, X2 ........................................................................ 2
Subtema 2. Pruebas de hipótesis para la varianza de una población ................................ 6
Subtema 3. Prueba para la diferencia entre n proporciones............................................. 18
Subtema 4. Pruebas de bondad de ajuste a distribuciones teóricas ................................ 21
Subtema 5. Pruebas sobre la independencia entre dos variables .................................... 19
Subtema 6. Pruebas de homogeneidad ........................................................................... 31
Conclusiones ................................................................................................................... 34
Bibliografía ....................................................................................................................... 35
2
Objetivo general: explicar la distribución Ji cuadrada analizando sus
fundamentos para utilizarla en una prueba de hipótesis.
Los subtemas que se abordan en la presente sesión son los siguientes:
1. La distribución ji cuadrada, X2
2. Pruebas de hipótesis para la varianza de una población
3. Prueba para la diferencia entre n proporciones
4. Pruebas de bondad de ajuste a distribuciones teóricas
5. Pruebas sobre la independencia entre dos variables
6. Pruebas de homogeneidad
Subtema 1. La distribución ji cuadrada, X2
En la sesión anterior se analizó la prueba de hipótesis utilizando datos de una
o dos muestras, pero si se necesita comparar más de dos proporciones o más de
dos medias los métodos anteriores no son adecuados, se necesita usar la prueba
ji-cuadrada.
3
Las pruebas ji-cuadrada nos permiten probar si más de dos proporciones
de población pueden ser consideradas iguales (Levin, 2004, p.448):
El estadístico ji-cuadrada se calcula de la siguiente forma:
(Levin, 2004, p.451)
El valor de ji-cuadrada no puede ser negativo, porque la diferencia entre las
frecuencias observadas y esperadas siempre están al cuadrado.
Si la hipótesis nula es verdadera la distribución de muestreo del estadístico
ji-cuadrada, 𝑥 2 , puede aproximarse mediante una curva conocida como distribución
ji-cuadrada.
Propiedades importantes de la distribución ji o chi cuadrada:
4
 A diferencia de las distribuciones normal y t de Student, la distribución chi
cuadrada no es simétrica.
 Los valores de la distribución chi cuadrada pueden ser 0 o positivos, pero no
negativos.
 La distribución chi cuadrada es diferente para cada número de grados de
libertad (gl1).
(Triola, 2004, p. 566)
Figura 1 Distribución chi cuadrada para 1, 10 y 20 gl
Fuente: Triola (2004, p.567).
En la figura 1 se muestran las tres diferentes distribuciones ji-cuadrada
correspondientes a 1, 10 y 20 grados de libertad. Para un número muy pequeño de
5
grados de libertad, la distribución ji-cuadrada está muy sesgada a la derecha.
Conforme aumenta el número de grados de libertad, la curva hace cada vez más
simétrica hasta que el número de grados de libertad alcanza valores grandes, en
cuyo caso la distribución puede aproximarse con la normal (Levin, 2004, p.452).
Subtema 2. Pruebas de hipótesis para la varianza de una

población (ANOVA)
Una técnica conocida como análisis de varianza (a menudo abreviada ANOVA:
analysis of variance), permite probar la significancia de las diferencias entre más de
dos medias muestrales. Usando el análisis de varianza, podremos hacer inferencias
acerca de si nuestras muestras se tomaron de poblaciones que tienen la misma
media (Levin, 2004, p.468).
Ejemplos en los que puede ser útil:
 ¿Cuál de cuatro métodos de estudio es mejor para el aprendizaje?
 Comparación de los ingresos de graduados de cinco universidades
6
 Medir el nivel de nicotina en tres grupos, fumadores, no fumadores expuestos
al humo de tabaco y no fumadores no expuestos al humo, se pueden realizar
pruebas para analizar si tiene el mismo nivel de nicotina.
 Si a tres grupos de estudiantes se les da un curso impartido por diferentes
instructores y se les aplica un examen, determinar si tienen puntajes medios
diferentes.
En cada caso, se pueden comparar las medias de más de dos muestras.
Un factor es una característica que se utiliza para agrupar los datos en categorías,
debido a este factor ANOVA puede ser unidireccional o bidireccional.
ANOVA Unidireccional: involucra diferentes muestras clasificadas según una
sola característica.
Ejemplo.: Se agrupan 50 películas en tres categorías según la calificación
con estrellas en regular (2 estrellas), buena (3 estrellas) y excelente (4 estrellas).
7
Por lo tanto, se agrupan en categorías según un sólo factor, la calificación
con estrellas.
ANOVA Bidireccional: Se consideran dos factores o características que
sirven para diferenciar poblaciones.
Ejemplo: Si se agregara al ejemplo anterior de las películas el género de la
película o el director para agruparlas se tendrían dos factores.
Se agrupan en categorías según un sólo factor, la calificación con estrellas.
Ejemplo (Levin, 2004): se desean analizar la efectividad de tres diferentes
métodos de capacitación de empleados en una empresa.
Al terminar el periodo de capacitación, los especialistas en estadística de la
compañía tomaron 16 nuevos empleados asignados aleatoriamente a los tres
métodos de capacitación.
8
Se calcula la gran media:
5 + 18 + 19 + 22 + 11 + 22 + 27 + 18 + 21 + 17 + 18 + 24 + 19 + 16 + 22 + 15
𝑋̿ =
16
304
= = 19
16
En este caso, la razón para utilizar análisis de varianza es decidir si estas
tres muestras (una muestra es el pequeño grupo de empleados capacitados por
cualquier método) se tomaron de poblaciones que tienen las mismas medias.
Debido a que se está probando la efectividad de los tres métodos de
capacitación, se debe determinar si las tres muestras, representadas por las medias
muestrales, 𝑋̅1 =17, 𝑋̅2 =21 y 𝑋̅3=19, pudieron haberse tomado de poblaciones con la
misma media µ. Un planteamiento formal de las hipótesis nula y alternativa que
deseamos probar sería:
𝐻𝑜 = µ1 = µ2 = µ3 → Hipótesis nula
𝐻1 = µ1 , µ2 y µ3 no son todas iguales → Hipótesis alternativa
9
Si se puede concluir, a partir de esta prueba, que las medias de las muestras
no difieren significativamente, se puede inferir que la selección del método de
capacitación no influye en la productividad del empleado. Por otra parte si se
encuentra entre las medias muestrales diferencias muy grandes para atribuirlas al
error aleatorio de muestreo, se puede inferir que el método usado para capacitar a
los trabajadores sí influye en su productividad. En ese caso se ajustaría el programa
de capacitación de acuerdo con los resultados.
(Levin, 2004, p.469)
Con el fin de utilizar el análisis de varianza se supone que cada una de las
muestras se toma de una población normal y que cada una de estas poblaciones
10
tiene la misma varianza σ2 . Sin embargo, si los tamaños de muestra son lo
suficientemente grandes, no necesitamos la suposición de normalidad.
En el problema de los métodos de capacitación, la hipótesis nula establece
que las tres poblaciones tienen la misma media. Si esta hipótesis es verdadera, no
es necesario clasificar los datos en tres columnas y el conjunto entero de 16
mediciones de productividad puede considerarse como una muestra de una sola
población. Esta población total tiene también una varianza σ2 .
El análisis de varianza está basado en una comparación de dos estimaciones
diferentes de la varianza, σ2 , de la población total. En este caso, se puede calcular
una de esas estimaciones examinando la varianza entre las tres medias muestrales,
que son 17, 21 y 19. La otra estimación de la varianza de la población está
determinada por la variación dentro de las tres muestras mismas, esto es (15, 18,
19, 22, 1l), (22, 27, 18, 21, 17) y (18, 24, 19, 16, 22, 15). Entonces comparamos
estas dos estimaciones de la varianza de la población. Como ambas son
estimaciones de σ2 , deben tener un valor aproximadamente igual cuando la
hipótesis nula sea verdadera. Si la hipótesis nula no es verdadera, estas dos
estimaciones diferirán de manera considerable. Entonces, los tres pasos del análisis
de varianza son:
11
1. Determinar una estimación de la varianza de la población a partir de la varianza
entre las medias de las muestras.
2. Determinar una segunda estimación de la varianza de la población a partir de la
varianza dentro de las muestras.
3. Comparar estas dos estimaciones. Si su valor es aproximadamente igual, se
acepta la hipótesis nula.
Cálculo de la varianza entre las medias muestrales
El paso 1 en el análisis de varianza indica que debemos obtener una
estimación de la varianza de la población a partir de la varianza entre las tres medias
de las muestras. En lenguaje estadístico, esta estimación se conoce como varianza
entre columnas, por lo que se utilizará la siguiente ecuación para calcular la varianza
de la muestra: (Levin, 2004, p.470):
⅀(𝑋−𝑋̅)2
Varianza de la muestra → s2 =
𝑛−1
12
Como se está trabajando con tres medias muestrales y una gran media, se
sustituye 𝑋, 𝑋̅, por 𝑋̅, y k (el número de muestras) por n, para obtener una fórmula
para la varianza entre las medias de las muestras:
Varianza entre medias muestrales
⅀(𝑋̅ − 𝑋̅)2
𝑠𝑥2 =
𝑘−1
Ahora se puede definir el error estándar de la media como la desviación
estándar de todas las muestras posibles de un tamaño dado. La fórmula para derivar
el error estándar de la media es:
Podemos simplificar esta ecuación con la multiplicación cruzada y luego
elevando ambos lados al cuadrado para convertir la desviación estándar de la
población σ, en la varianza de la población σ2 (Levin, 2004, p.471):
13
Para el problema de los métodos de capacitación, no tenemos toda la
información necesaria para utilizar esta ecuación y encontrar σ2 . Específicamente,

2
no conocemos σ𝑥 . Sin embargo, podríamos calcular la varianza entre las medias de
2
las muestras s 𝑥 , con la ecuación de la varianza entre medias muestrales. Así, ¿por
2 2
qué no sustituir s 𝑥 en lugar de σ𝑥 en la ecuación y calculamos una estimación de la
varianza de la población?, esto nos da (Levin, 2004, p.471):
2
2 ⅀ 𝑛 (𝑥̅ − 𝑥̿ )2
σ = s𝑥 𝑥𝑛=
𝑘−1
Existe una pequeña dificultad al utilizar esta ecuación tal como está. Debido
a que n representa el tamaño de la muestra, pero ¿qué tamaño de muestra
debemos usar cuando las diferentes muestras tienen diferentes tamaños?
Resolvemos este problema con el siguiente ejemplo en la que cada (𝑋̅𝑗 −𝑋̅̿ )2 se
multiplica por su propia 𝑛𝑗 :
14
Estimación de la varianza entre columnas
⅀ 𝑛𝑗 (𝑥̅ 𝑗 − 𝑥̿ )2
Primera estimación de la varianza de la población σ2𝑏 =
→̂
𝑘−1
Donde:
σ2𝑏 = nuestra primera estimación de la varianza de la población basada en la

• ̂
varianza entre las medias de las muestras (la varianza entre columnas).
• 𝑛𝑗 = tamaño de la j-ésima muestra.
• 𝑋̅𝑗 = media muestral de la j-ésima muestra
• 𝑥̿ = gran media
• k = número de muestras.
Ahora podemos utilizar la ecuación y los datos de la tabla anteriores para
calcular la varianza entre columnas. En la tabla siguiente se muestra cómo hacer
estos cálculos:
15
(Levin, 2004, p.471).
El paso 2 en ANOVA requiere una segunda estimación de la varianza de la
población, basada en la varianza dentro de las muestras. En estadística se le puede
llamar varianza dentro de columnas.
El problema de capacitación tiene tres muestras de cinco o seis elementos
cada una. Se puede calcular la varianza dentro de estas tres muestras usando la
ecuación:
⅀ 𝑛(𝑋−𝑋̅)2
Varianza de la muestra → s2 =
𝑛−1
16
Al suponer que la varianza de las tres poblaciones es la misma, se puede
utilizar cualquiera de las tres varianzas muestrales como la segunda estimación de
la varianza de la población. En términos estadísticos, podemos obtener una mejor
estimación de la varianza de la población mediante un promedio ponderado de las
tres varianzas de muestra. La fórmula general para esta segunda estimación de
2 es:
(𝑛𝑗 − 1
Segunda estimación de la varianza de la población → 𝜎̂𝑤2 =∑ ( ) 𝑠2𝑗
(𝑛𝑇 − 𝑘
Donde:
 σ2𝑤 = nuestra segunda estimación de la varianza de la población, basada en

̂
las varianzas dentro de las muestras (la varianza dentro de columnas)
 𝑛𝑗 = tamaño de la j-ésima muestra.
 𝑠𝑗2 = varianza muestral de la j-ésima muestra
 k = número de muestras
 𝑛 𝑇 =∑ 𝑛𝑗 =tamaño de la muestra total
17
Esta fórmula utiliza toda la información que tenemos a nuestra disposición, no
nada más una parte de ella. De haber tenido seis muestras en lugar de tres,
habríamos tomado un promedio ponderado de las seis. En la tabla siguiente se
ilustra cómo calcular esta segunda estimación de la varianza de la población,
utilizando las varianzas dentro de las tres muestras.
(Levin, 2004, p.473)
Prueba de hipótesis F
En el paso 3 de ANOVA se comparan estas dos estimaciones de la varianza
de la población mediante el cálculo de su cociente como sigue:
18
Sustituyendo con la terminología estadística, en el numerador y el
denominador de este cociente, la ecuación se convierte en:
Estadístico F
varianza entre columnas σ2𝑤𝑏

̂
𝐹= = 2
varianza dentro de columnas ̂𝑤
σ
Ahora podemos encontrar el cociente F para el problema del método de
capacitación:
varianza entre columnas 20

𝐹= = = 1.354 ← 𝐶𝑜𝑐𝑖𝑒𝑛𝑡𝑒 𝐹
varianza dentro de columnas 14.769
Una vez encontrado el cociente F, 1.354, ¿cuál es su interpretación? Primero
examinamos el denominador, que está basado en la varianza dentro de las
muestras. El denominador es un buen estimador de σ2 (la varianza de la población)
19
ya sea que la hipótesis nula sea verdadera o no. ¿Qué sucede con el numerador?
Si la hipótesis nula de que los métodos de capacitación tienen el mismo efecto en
la producción es verdadera, entonces el numerador, o la variación entre las medias
de las muestras de los tres métodos, es también una buena estimación de σ2 (la
varianza de la población). Como resultado, el denominador y el numerador deben
ser aproximadamente iguales si la hipótesis nula es verdadera. Cuanto más cercano
a 1 esté el cociente F, más nos inclinamos a aceptar la hipótesis nula. En contraste
conforme el cociente F crece, nos inclinaremos más a rechazar la hipótesis nula y
a aceptar la alternativa (de que existe una diferencia en los efectos sobre la
producción de los tres métodos de capacitación).
La lógica básica que apoya el estadístico F: Cuando las poblaciones no son
las mismas, la varianza entre columnas (derivada a partir de la varianza entre las
medias muestrales) tenderá a ser mayor que la varianza dentro de columnas
(derivada a partir de la varianza dentro de las muestras), y el valor de F tenderá a
ser grande. Esto nos conducirá a rechazar la hipótesis nula.
20
Subtema 3. Prueba para la diferencia entre n proporciones
Ahora dejamos la prueba ANOVA y pasamos a la prueba de ji-cuadrada.
Suponga que tenemos proporciones de seis poblaciones en lugar de solamente dos.
Como habíamos mencionado antes, cuando se necesitan analizar más de dos
proporciones. Las pruebas ji-cuadrada nos permiten probar si más de dos
proporciones de población pueden ser consideradas iguales (Levin, 2004, p.448).
Subtema 4. Pruebas de bondad de ajuste a distribuciones

teóricas
La prueba ji-cuadrada puede utilizarse también para decidir si una distribución de
probabilidad en particular, como la binomial, la de Poisson o la normal, es la
apropiada.
La prueba ji-cuadrada es útil para probar si existe una diferencia significativa
entre una distribución de frecuencias observada y una distribución de frecuencias
teórica. De esta forma, podemos determinar la bondad de ajuste de una distribución
21
teórica (es decir, qué tan bien se ajusta a la distribución de los datos que
observamos). Así podemos determinar si debemos creer que los datos observados
constituyen una muestra obtenida de la distribución teórica hipotética.
Cálculo del estadístico ji-cuadrada
Para calcular el estadístico ji-cuadrada podemos utilizar la siguiente ecuación
(Levin, 2004, p.464):
(𝑓𝑜 − 𝑓𝑒 )2
𝑥2 = ⅀
𝑓𝑒
Determinación de los grados de libertad de una prueba de bondad de ajuste
Antes de calcular el número adecuado de grados de libertad para una prueba
ji-cuadrada de bondad de ajuste, es necesario contar el número de clases (denotado
por k) para las que se compararon las frecuencias observadas y esperadas. Si por
ejemplo el problema contiene cuatro clases, empezamos con cuatro grados de
libertad. Sin embargo, si por ejemplo las cuatro frecuencias observadas deben
22
sumar 100, el número total de frecuencias observadas que podemos especificar
libremente es sólo k–1 = 3. La cuarta queda determinada por la suma total de 100
(Levin, 2004, p.464).
Se deben imponer otras restricciones en el cálculo de los grados de libertad.
Suponga que estamos utilizando la prueba ji cuadrada como una prueba de bondad
de ajuste para determinar si una distribución normal se ajusta a un conjunto de
frecuencias observadas. Si tenemos seis clases de frecuencias observadas (k=6),
concluimos que solamente tenemos k-1 =5 grados de libertad. Sin embargo, si
también tenemos que utilizar la media de la muestra como una estimación de la
media de la población, tendremos que restar un grado de libertad adicional, lo cual
nos deja con sólo 4. Después, si tenemos que utilizar la desviación estándar de la
muestra para estimar la desviación estándar de la población, tendremos que restar
un grado de libertad más, lo que deja 3. La regla general en estos casos es: primero
aplique la regla (k-1) y luego reste un grado de libertad adicional por cada parámetro
de población que debe estimar a partir de los datos de la muestra.
Ejemplos en los que se podría utilizar la prueba de bondad de ajuste:
23
 Probar la aseveración de que los números de la lotería de Nueva York (1,2,
…, 54) ocurren con la misma frecuencia.
 Probar la aseveración de que los dulces M&M en una bolsa: 30% son cafés,
20% amarillos, 20% rojos, 10% anaranjados y 10% azules.
Subtema 5. Pruebas sobre la independencia entre dos

variables
En algunos casos estadísticos los datos a analizar son cualitativos o
categóricos, que se resumen con conteos de frecuencias, pero las celdas
corresponden a dos variables diferentes. Las tablas que consideramos se llaman
tablas de contingencia o tablas de frecuencias de dos factores.
Una tabla de contingencia (o tabla de frecuencias de dos factores) es una
tabla en donde las frecuencias corresponden a dos variables. (Una variable se utiliza
para categorizar renglones y una segunda variable para categorizar columnas)
(Triola, 2004, p.582).
24
Ejemplo: Hacer una encuesta con una pregunta en la que la gente identifique
su género (masculino/femenino) y otra en la que describan la frecuencia de su uso
de Netflix (frecuentemente/ algunas veces/nunca).
Estas tablas son útiles al analizar resultados de encuestas.
Una prueba de hipótesis basada en tablas de contingencia es la prueba de
independencia que se usa para determinar si una variable de renglón de una tabla
de contingencia es independiente de su variable de columna.
Prueba de independencia: prueba la hipótesis nula de que no hay
asociación entre la variable de renglón y la variable de columna en una tabla de
contingencia. (Para la hipótesis nula, utilizaremos la afirmación de que “las variables
de renglón y de columna son independientes”) (Triola, 2004, p. 583).
En muchas ocasiones, los administradores necesitan saber si las diferencias
que observan entre varias proporciones de la muestra son significativas o sólo se
deben al azar. Suponga que el administrador de campaña de un candidato a la
25
presidencia estudia tres regiones geográficas y encuentra que el 35, 42 y 51%,
respectivamente, de los votantes investigados de las tres regiones reconocen el
nombre del candidato. Si esta diferencia es significativa, el administrador puede
llegar a la conclusión de que el lugar afectará la forma en que debe actuar el
candidato. Pero si la diferencia no es significativa (es decir, si el administrador
concluye que la diferencia solamente se debe al azar), entonces puede decidir que
el lugar elegido para pronunciar un discurso proselitista no tendrá efecto sobre su
recepción. Para conducir la campaña con éxito, entonces, el administrador necesita
determinar si el lugar y el reconocimiento del nombre del candidato son
dependientes o independientes (Levin, 2004, p.449).
Tablas de contingencia
Levin (2004, p.450) propone el siguiente ejemplo: en cuatro regiones, la
Compañía Nacional de Cuidado de la Salud, de Estados Unidos, muestrea las
actitudes de los empleados de sus hospitales respecto a la evaluación del
desempeño en el trabajo. Los trabajadores eligen entre el método actual (dos
evaluaciones al año) y un nuevo método propuesto (evaluaciones trimestrales). La
tabla que se muestra abajo se conoce como tabla de contingencia e ilustra la
respuesta a esta pregunta que dio la muestra encuestada. Una tabla como ésta está
formada por renglones y columnas: los renglones corren de manera horizontal y las
26
columnas verticalmente. Observe que las cuatro columnas de la tabla proporcionan
una base de clasificación —regiones geográficas— y los dos renglones clasifican la
información de otra manera: preferencia por los métodos de evaluación. La tabla se
conoce como tabla de contingencia 2 X 4, ya que consta de dos renglones y cuatro
columnas. Describimos las dimensiones de una tabla de contingencia estableciendo
primero el número de renglones y luego el número de columnas. La columna y el
renglón con el “total” no cuentan como parte de las dimensiones.
Frecuencias observadas y esperadas
Suponga que ahora simbolizamos las proporciones verdaderas de la
población total de empleados que prefieren el plan actual como (Levin, 2004, p.450):
27
• PN ← Proporción de empleados en el noreste que prefieren el plan actual
• PS ← Proporción de empleados en el sureste que prefieren el plan actual
• PC ← Proporción de empleados de la región central que prefieren el plan actual
• PW ← Proporción de empleados de la región de la costa oeste que prefieren el
plan actual
Utilizando estos símbolos, podemos establecer la hipótesis nula y alternativa
de la siguiente forma:
𝐻0 : PN = PS = PC = PW ← Hipótesis nula
𝐻1 : PN, PS, PC, PW no son iguales ← Hipótesis alternativa
Si la hipótesis nula es verdadera, podemos combinar los datos de las cuatro
muestras y luego estimar la proporción de la fuerza de trabajo total (la población
total) que prefiere el método de evaluación actual (Levin, 2004, p.450):
Proporción combinada que prefiere el método actual, suponiendo que
la hipótesis nula de que no hay diferencia es verdadera
28
68+75+57+79
=
100+120+90+110
279
=
420
= 0.6643
Obviamente, si el valor 0.6643 estima la proporción de población esperada
que prefiere el método presente de evaluación, entonces 0.3357 (= 1 - 0.6643) es
la estimación de la proporción esperada de la población que prefiere el método
propuesto. Utilizando 0.6643 como estimación de la proporción de la población que
prefiere el método de evaluación actual y 0.3357 como la estimación de la
proporción de la población que prefiere el nuevo método, podemos estimar el
número de empleados de la muestra de cada región que podríamos esperar que
prefieran cada uno de los métodos de evaluación. La siguiente tabla presenta estos
cálculos:
29
(Levin, 2004, p.451)
La siguiente tabla combina toda la información contenida en las tablas
anteriores. En ella se ilustran tanto la frecuencia real u observada, como la teórica
o esperada, de trabajadores de la muestra que prefieren cada uno de los métodos
de evaluación:
(Levin, 2004, p.451)
30
Para probar la hipótesis nula, PN, PS, PC, PW, debemos comparar las
frecuencias que se observaron (números en cursivas) con las frecuencias que
esperaríamos si la hipótesis nula fuera verdadera (números en negritas). Si los
conjuntos de frecuencias observadas y esperadas son casi iguales, podemos
razonar de manera intuitiva que la hipótesis nula se acepta. Si existe una diferencia
grande entre estas frecuencias, podemos rechazar la hipótesis nula intuitivamente
y concluir que existen diferencias significativas en las proporciones de empleados
de las cuatro regiones que prefieren el nuevo método.
Subtema 6. Pruebas de homogeneidad
Otras pruebas de hipótesis basadas en tablas de contingencia son las
pruebas de homogeneidad, en casos en los que se extraen muestras de diferentes
poblaciones son utilizadas para determinar si diferentes poblaciones poseen las
mismas proporciones de alguna característica.
Homogéneo significa “que tiene la misma calidad”; en este contexto, estamos
haciendo una prueba para determinar si las proporciones son las mismas.
31
Prueba de homogeneidad: prueba la aseveración de que poblaciones
diferentes tienen las mismas proporciones de algunas características (Triola, 2004,
p.589).
Mendenhall (2010, p.610), en un experimento de prevención de gripe el
experimentador decide buscar en registros clínicos los 300 pacientes de cada una
de las tres categorías de tratamiento: sin vacuna, una vacuna y dos vacunas. Los n
= 900 pacientes se encuestarán entonces respecto a su historial de gripe en
invierno. El experimento resulta en una tabla de 2 X 3 con los totales de columna
fijos en 300, como se ve en la tabla de abajo. Al fijar los totales de columna, el
experimentador ya no tiene un experimento multinomial con 2 X 3 celdas. En
cambio, hay tres experimentos binomiales separados, llamémoslos 1, 2 y 3, cada
uno con una probabilidad 𝑝𝑗 determinada de contraer la gripe y 𝑞𝑗 de no contraer la
gripe. (Recuerde que para una población binomial, 𝑝𝑗 + 𝑞𝑗 = 1).
32
Supongamos que se utilizó la prueba ji cuadrada para la independencia de
clasificaciones de renglón y columna. Si un tratamiento particular (nivel de columna)
no afecta la incidencia de gripe, entonces cada una de las tres poblaciones
binomiales debería tener la misma incidencia de gripe para que p1 = p2 = p3 y q1 =
q2 = q3.
La clasificación de 2 X 3 del ejemplo describe una situación en la que la
prueba de ji cuadrada de independencia es equivalente a una prueba de la igualdad
de c=3 proporciones binomiales. Pruebas de este tipo se llaman pruebas de
homogeneidad y se usan para comparar diversas poblaciones binomiales. Si hay
más de dos categorías de renglón con totales fijos de columna, entonces la prueba
de independencia es equivalente a una prueba de la igualdad de c conjuntos de
proporciones multinomiales.
No es necesario preocuparse de la equivalencia teórica de las pruebas ji
cuadrada para estos dos diseños experimentales. Si las columnas (o renglones) son
fijos o no, la estadística de prueba se calcula como (Mendenhall, 2010, p.610):
(𝑂𝑖𝑗 − 𝐸̂𝑖𝑗 )2 𝑟 𝑖 𝑐𝑗
𝑥2 = ⅀ donde 𝐸̂𝑖𝑗 =
𝐸̂𝑖𝑗 𝑛
33
Que tiene una distribución ji cuadrada aproximada en muestreo repetido con
df = (r-1)(c-1).
Conclusiones
Para analizar casos estadísticos con más de dos muestras o proporciones se
utiliza la prueba de hipótesis ANOVA con la distribución F y la prueba ji cuadrada
que utiliza la distribución ji-cuadrada.
En muchos casos los datos estadísticos a analizar son datos categóricos o
cualitativos que pueden ser representados mediante variables en tablas de
contingencia y utilizando la prueba ji-cuadrada.
La prueba ji cuadrada puede usarse para la bondad del ajuste y para dos pruebas
que se basan en tablas de contingencia la prueba de independencia y la prueba de
homogeneidad.
34
Bibliografía
 Levin, R. & Rubin, D. (2004). Estadística Para Administración y Economía,

séptima edición. México: Pearson Educación.
 Mendenhall, W., & Beaver, R. J. (2010). Introducción a la probabilidad.
México, D.F.: Cengage Learning.
 Triola, M. (2004). Estadística Novena Edición. México: Pearson Educación.
35

S5 LAEs

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

S5 LAEs

Cargado por

Copyright:

Formatos disponibles

Licenciatura en Administración de Empresas

fundamentos para utilizarla en una prueba de hipótesis.

Los subtemas que se abordan en la presente sesión son los siguientes:

2. Pruebas de hipótesis para la varianza de una población

3. Prueba para la diferencia entre n proporciones

4. Pruebas de bondad de ajuste a distribuciones teóricas

5. Pruebas sobre la independencia entre dos variables

Subtema 1. La distribución ji cuadrada, X2

En la sesión anterior se analizó la prueba de hipótesis utilizando datos de una

o dos muestras, pero si se necesita comparar más de dos proporciones o más de

de población pueden ser consideradas iguales (Levin, 2004, p.448):

El estadístico ji-cuadrada se calcula de la siguiente forma:

(Levin, 2004, p.451)

El valor de ji-cuadrada no puede ser negativo, porque la diferencia entre las

frecuencias observadas y esperadas siempre están al cuadrado.

Si la hipótesis nula es verdadera la distribución de muestreo del estadístico

ji-cuadrada, 𝑥 2 , puede aproximarse mediante una curva conocida como distribución

Propiedades importantes de la distribución ji o chi cuadrada:

 Los valores de la distribución chi cuadrada pueden ser 0 o positivos, pero no

 La distribución chi cuadrada es diferente para cada número de grados de

(Triola, 2004, p. 566)

Figura 1 Distribución chi cuadrada para 1, 10 y 20 gl

Fuente: Triola (2004, p.567).

En la figura 1 se muestran las tres diferentes distribuciones ji-cuadrada

correspondientes a 1, 10 y 20 grados de libertad. Para un número muy pequeño de

simétrica hasta que el número de grados de libertad alcanza valores grandes, en

Subtema 2. Pruebas de hipótesis para la varianza de una

Una técnica conocida como análisis de varianza (a menudo abreviada ANOVA:

analysis of variance), permite probar la significancia de las diferencias entre más de

dos medias muestrales. Usando el análisis de varianza, podremos hacer inferencias

acerca de si nuestras muestras se tomaron de poblaciones que tienen la misma

media (Levin, 2004, p.468).

Ejemplos en los que puede ser útil:

 ¿Cuál de cuatro métodos de estudio es mejor para el aprendizaje?

 Comparación de los ingresos de graduados de cinco universidades

al humo de tabaco y no fumadores no expuestos al humo, se pueden realizar

pruebas para analizar si tiene el mismo nivel de nicotina.

 Si a tres grupos de estudiantes se les da un curso impartido por diferentes

instructores y se les aplica un examen, determinar si tienen puntajes medios

En cada caso, se pueden comparar las medias de más de dos muestras.

debido a este factor ANOVA puede ser unidireccional o bidireccional.

ANOVA Unidireccional: involucra diferentes muestras clasificadas según una

Ejemplo.: Se agrupan 50 películas en tres categorías según la calificación

con estrellas en regular (2 estrellas), buena (3 estrellas) y excelente (4 estrellas).

ANOVA Bidireccional: Se consideran dos factores o características que

sirven para diferenciar poblaciones.

Ejemplo: Si se agregara al ejemplo anterior de las películas el género de la

película o el director para agruparlas se tendrían dos factores.

Se agrupan en categorías según un sólo factor, la calificación con estrellas.

Ejemplo (Levin, 2004): se desean analizar la efectividad de tres diferentes

métodos de capacitación de empleados en una empresa.

Al terminar el periodo de capacitación, los especialistas en estadística de la

compañía tomaron 16 nuevos empleados asignados aleatoriamente a los tres

En este caso, la razón para utilizar análisis de varianza es decidir si estas

tres muestras (una muestra es el pequeño grupo de empleados capacitados por

cualquier método) se tomaron de poblaciones que tienen las mismas medias.

Debido a que se está probando la efectividad de los tres métodos de

misma media µ. Un planteamiento formal de las hipótesis nula y alternativa que

deseamos probar sería:

𝐻1 = µ1 , µ2 y µ3 no son todas iguales → Hipótesis alternativa

no difieren significativamente, se puede inferir que la selección del método de

capacitación no influye en la productividad del empleado. Por otra parte si se

los trabajadores sí influye en su productividad. En ese caso se ajustaría el programa