Está en la página 1de 25

APLICACIONES DE LA DISTRIBUCION CHI-CUADRADO

El presente capítulo tiene como objetivo presentar el desarrollo de las Aplicaciones


cuyo estadístico de prueba se ajusta a una distribución Chi Cuadrado, así como
indicar la utilidad de cada una de ellas.
Para el análisis de datos mediante estadística inferencial existen dos tipos de
pruebas estadísticas: las paramétricas y las no paramétricas.
Las pruebas paramétricas son aquellas que requieren el cumplimiento de ciertos
supuestos con respecto a las observaciones que se utilizan en el análisis como: la
aleatoriedad en su elección, el ajuste a una distribución teórica conocida (por
ejemplo, a la distribución normal). El supuesto de normalidad, es quizás el requisito
más importante que debe ser verificado antes de proceder a desarrollar algunas
pruebas paramétricas correspondientes a la estadística clásica, pues su no
cumplimento implicaría la invalidez de los resultados.
Las pruebas no paramétricas o de libre distribución, no exigen que el conjunto de
datos provenga de una distribución teórica conocida. Es decir, pueden ser usadas,
en muchos casos, como métodos alternativos a las pruebas paramétricas.
A pesar de esto, las pruebas paramétricas son las que mayormente son utilizadas
por los investigadores, debido a su mayor difusión.
En resumen, la distribución Chi Cuadrado puede ser utilizada para diferentes
propósitos. Entre las principales pruebas y su respectivo uso tenemos:
1. Prueba de Bondad de ajuste, para verificar si un conjunto de datos se ajusta o
no a una distribución teórica establecida.
2. Pruebas con Tablas de Contingencia, para analizar la independencia de dos
variables cualitativas u homogeneidad de subpoblaciones.
3. Prueba de Homogeneidad de Varianzas (Prueba de Bartlett), para verificar la
homogeneidad de varianzas de dos o más conjuntos de datos.

1) Pruebas de Bondad de Ajuste


Luego de recolectar una muestra (a la cual se le observó o midió ciertas
características o variables) podría tener interés en saber a qué distribución teórica
se puede ajustar cada una de las variables que analizó, con el fin, en muchos casos,
de aplicar posteriormente otros procedimientos estadísticos más sofisticados.
Por ejemplo:
• Cuando se analiza la variable número de insectos muertos por m2 luego de
aplicar un insecticida en un campo experimental, se quiere saber si esta
variable se ajusta a una distribución de Poisson.
• Cuando se quiere determinar si la gestión de un personaje político está
distribuida de la siguiente manera: muy buena en un 10%, regular en un 20%, y
pésima en un 70%.
para poder aplicar adecuadamente esta prueba se debe contar con una tabla de
frecuencias de una variable cualitativa o cuantitativa, de la siguiente manera:
N° Valor de la variable o Frecuencia observada 𝑂𝑖

1
nombre de la categoría
1 A1 O1
2 A2 O2
. .
. .
. .
k 𝐴𝑘 ok
Total n
La i-ésima frecuencia observada 𝑜𝑖 indica el número de veces que se repite la
categoría (o el valor de la variable) en la muestra de tamaño n. En otras palabras, o i
representa la frecuencia absoluta fi de tal manera que se debe cumplir que:
∑𝑜𝑖 = n
Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias
observadas 𝑜𝑖 perteneciente a la i-ésima categoría o valor de la variable
(mutuamente excluyente) difiera
significativamente de su respectiva frecuencia teórica o frecuencia esperada 𝑒𝑖
Cada frecuencia esperada 𝑒𝑖 se obtiene multiplicando el tamaño de la muestra n
por la probabilidad teórica correspondiente 𝑝𝑖
𝑒𝑖= n 𝑝𝑖
En algunas pruebas de bondad de ajuste, las probabilidades teóricas o hipotéticas
𝑝𝑖 son establecidas por el investigador, mientras que en otras pruebas deben ser
estimadas a partir de la distribución teórica formulada en la hipótesis nula. De tal
manera que se debe cumplir que: ∑𝑝𝑖 = 1
Prueba Estadística
Debido a las fluctuaciones aleatorias en el proceso de muestreo es razonable que
las frecuencias observadas 𝑜𝑖 y las frecuencias esperadas 𝑒𝑖 no coincidan. La
hipótesis nula afirma que la discrepancia entre dichas frecuencias no es muy
grande.
Como medida de discrepancia, entre las frecuencias esperadas y observadas,
Pearson propuso el siguiente estadístico:

𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1)
Región Critica. Valores elevados del estadístico 𝑥2 evidencian discrepancias
relevantes entre las frecuencias observadas 𝑜𝑖 y las frecuencias 𝑒𝑖 por lo que
deberá rechazarse la hipótesis nula de que dicha muestra procede de una
población con probabilidades teóricas 𝑝𝑖 . por lo tanto, si
𝑥𝑐2 > 𝑥(21−𝛼 ;𝑘−𝑚−1) se rechaza 𝐻0 .

El percentil 𝑥(21−𝛼 ;𝑘−𝑚−1) o valor critico 𝑥𝑐𝑟𝑖𝑡2 (también conocido como valor
tabular, 𝑥𝑡𝑎𝑏2 ) es determinado por el complemento del nivel de significación
asignado (es decir, 1- α) y el número de grados de libertad. Donde: K = número de

2
categorías o valores de la variable en que se dividen los datos en la tabla de
frecuencias; m= número de parámetros estimados a partir de la muestra. Los
parámetros estimados a partir de la muestra son utilizados para calcular los 𝑝𝑖 y
dependen de la distribución teórica propuesta en la hipótesis y si estos son
conocidos o desconocidos.
En resumen, las pruebas de bondad de ajuste tienen como objetivo verificar si unos
conjuntos de datos se ajustan a una distribución teórica preestablecida por el
investigador. Si bien es cierto que mediante este tipo de prueba se puede verificar
si un conjunto de datos presenta cualquier distribución teórica, en el presente
curso solo se realizarán los siguientes ajustes:
• Ajuste a la Distribución Multinomial. Conocida
también como prueba de frecuencia o de
proporciones.
• Ajuste de la Distribución Binomial • Ajuste a la
Distribución de Poisson Observaciones:
a. Dado que la distribución del estadístico 𝑥2 es asintótica se utiliza, comúnmente,
como regla de aproximación aceptable que los valores esperados deben ser
superiores a 5. Si esto no sucede se deben agrupar las clases que tienen valores
esperados menores a 5 con aquella clase más cercana y más pequeña hasta
lograr el cumplimiento de esta regla. Este reagrupamiento produce a su vez una
reducción de los grados de libertad de la distribución del estadístico 𝑥2, al unirse
algunas categorías o valores de la variable X.
b. Si se tiene un solo grado de libertad para el valor crítico o el tamaño de muestra
es pequeña (n<50), se puede hacer uso de la corrección de Yates, el cual hace un
ajuste al estadístico 𝑥2
⌊𝑜𝑖−𝑒𝑖
𝑥
⌋ −0.52 (2𝑘−𝑚−1)

𝑥𝑐2 = 𝑒𝑖 ~

1.1 Ajuste a la Distribución Multinomial o Prueba de Frecuencia


En esta prueba las probabilidades teóricas o hipotéticas 𝑝𝑖 son establecidas por el
investigador. Por ejemplo, en una investigación la hipótesis nula podría ser que en una
ciudad el 60% de personas prefieren la marca Toyota, el 30 % la marca Nissan y el 10%
la marca Volkswagen, mientras que la hipótesis alterna seria al menos una de las
proporciones es diferente a las especificadas.

Como los valores 𝑝𝑖 son conocidos, el número de parámetros a estimar a partir de la


muestra, m es igual a cero, con el cual los grados de libertad en el valor critico es igual a
k-1.

Procedimiento:

3
El “p-valor” llamado el nivel de significación observado, es el mínimo valor de α al cual
se rechazaría la hipótesis nula. “p-valor” cercano a cero indica que es muy poco posible
que 𝐻0 ocurra por lo que estaremos inclinados a rechazarla.

El procedimiento de la prueba de hipótesis usando el p-valor es:

1. Planteamiento de la hipótesis

𝐻0 : Las categorías están distribuidas según las proporciones especificadas

𝐻1: Al menos una de las proporciones es diferente a las


especificadas 2. Nivel de significación (α)
3. Decisión.

El p-valor, se extrae del reporte estadístico

Si valor p ≤ α, entonces, se rechaza la hipótesis nula (R𝐻0)


y se acepta 𝐻1 Si valor p > α, entonces, no se rechaza la
hipótesis nula (NR𝐻0)
4. Conclusión.

Usando la prueba estadística


El procedimiento de la prueba de hipótesis usando el estadístico de prueba es:

1. Planteamiento de la hipótesis

𝐻0 : Las categorías están distribuidas según las proporciones especificadas

𝐻1: Al menos una de las proporciones es diferente a las especificadas


2. Nivel de significación (α)
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑘−1)

4. Desarrollo de la prueba
5. Criterio de decisión

No se rechaza 𝐻0 Si: 𝑥𝑐2 ≤ 𝑥𝑐𝑟𝑖𝑡2


Se rechaza 𝐻0 Si: 𝑥𝑐2 > 𝑥𝑐𝑟𝑖𝑡2
6. Conclusión Ejemplos 1.

Una fábrica cuenta con tres máquinas para la producción de un mismo producto.
Durante la última semana de producción se han producido 135 artículos. El jefe de
producción cree que las máquinas no producen en cantidades similares. Por lo que ha
solicitado clasifiquen cada producto según la máquina que la ha producido. A
continuación, se presenta la tabla de frecuencias de las cantidades producidas por cada
máquina:

Máquina A Máquina B Máquina C


43 53 39

4
Use nivel de significación 5% para probar si la cantidad producida es la misma en las 3
máquinas. use el valor-p y la prueba estadística respectiva. Usando la prueba estadística 1.
Planteamiento de la hipótesis.

𝐻0 : Las cantidades producidas por las tres máquinas son iguales

𝐻1: Las cantidades producidas por las tres máquinas no son iguales
2. α = 0.05
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(23−1)

4. Desarrollo de la prueba

A continuación, se muestra la tabla que contiene las frecuencias observadas, las


frecuencias esperadas entre otros valores que se requieren para esta prueba.

Máquina 0𝑖 𝑝𝑖 𝑒𝑖 = n𝑝𝑖 (𝑜𝑖 − 𝑒𝑖)2



𝑒𝑖
A 43 1/3 45 0.08888889
B 53 1/3 45 1.42222222
C 39 1/3 45 0.80000000
Total 135 1.00 135 2.31111111

Observe que las probabilidades para cada máquina deben ser las mismas, pues debe
tenerse igual frecuencia teórica en el supuesto de que la producción es la misma para
cada máquina

𝑥
𝑒𝑖

5. Decisión
𝑥02.95(2) = 5.9915 se lee en tabla de la distribución Chi-
Cuadrado Como 𝑥𝑐2 = 2.3111 ≤ 5.9915 aceptamos la
hipótesis nula 𝐻0

6. Conclusión.

A un nivel de significación de 5% no se puede rechazar la hipótesis nula 𝐻0

En conclusión, las cantidades producidas por las tres máquinas son iguales o las
mismas.

Ejemplo 2.
La compañía “FINANCE S. A.” es una institución crediticia con mayor número de
agencias en los distritos de San Isidro, San Borja, y Surco. La gerencia realizó un estudio
para poder tener un adecuado control sobre el número y monto de las cuentas
atrasadas en los pagos de los clientes, debidos a que un número excesivo de estas
cuentas podrían ocasionar problemas de liquidez financiera y un incremento de gastos
adicionales de operación.

5
Se proporciona a continuación la información recolectada:

Número de clientes por distrito y monto de cuentas atrasadas

Monto de Cuentas atrasadas (dólares) San Isidro San Borja Surco


Menos de 140 23 27 29
De 140 a menos de 240 19 20 19
Más de 240 9 19 18

¿Se puede afirmar que el número de clientes del distrito de Surco que han solicitado
regularizar sus montos de cuentas atrasadas, no siguen la proporción 3:4:3? Use el p-
valor y la prueba estadística. Utilizando la prueba estadística
1. Planteamiento de la hipótesis.

𝐻0 : El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, sigue la proporción 3:4:3

𝐻1: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, No sigue la proporción 3:4:3

2. α = 0.05
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(23−1)

4. Desarrollo de la prueba

A continuación, se muestra la tabla que contiene las frecuencias observadas, las


frecuencias esperadas entre otros valores que se requieren para esta prueba. X: Monto
de cuentas atrasadas

X 0𝑖 𝑝𝑖 𝑒𝑖 = n𝑝𝑖 (𝑜𝑖 − 𝑒𝑖)2



𝑒𝑖
Menos de 140 29 0.3 19.8 4.2748
140 a 240 19 0.4 26.4 2.0742
Más de 240 18 0.3 19.8 0.1636
Total 66 1.0 66.0 6.5126

𝑥
𝑒𝑖
5. Decisión
𝑥02.95(2) = 5.9915 se lee en tabla de la distribución Chi-Cuadrado
Como 𝑥𝑐2 = 6.5126 > 5.9915 Se Rechaza hipótesis nula 𝐻0 y se acepta 𝐻1
6. Conclusión. A un nivel de significación del 5%, se puede afirmar que el número de
clientes del distrito de Surco que han solicitado regularizar sus montos de cuentas
atrasadas, No sigue la proporción 3:4:3

6
1.2 Ajuste a la Distribución Binomial
En esta prueba, las probabilidades teóricas 𝑝𝑖 que serán utilizadas para calcular las
frecuencias esperadas deben ser estimadas a partir de la distribución Binomial
𝑥
𝑛 (1 − 𝑝)𝑛−𝑥 x = 0, 1, 2, …, n
P (X = x) = (𝑥) 𝑝
La distribución Binomial tiene dos parámetros n y p y denotamos X ~ B (n, p)

La probabilidad P (X = x) sirva para calcular los valores de 𝑝𝑖

El valor de n siempre es conocido debido a que es el número de veces que se realiza el


experimento o ensayo de Bernoulli, mientras que el valor p (probabilidad de éxito)
puede ser conocido o desconocido.

Si es desconocido debe ser estimado la muestra a partir del valor esperado de la


distribución Binomial
𝐸(𝑋)
E(X) = np de tal manera que P =
𝑛
El valor esperado en una tabla de frecuencias para una variable discreta puede ser
estimado mediante:
𝑖𝑜𝑖
∑𝑥
E(X) =
𝑛
Procedimiento
1. Planteamiento de la hipótesis.

𝐻0 : Los datos provenientes de la variable en estudio “X” se ajustan a una distribución teórica
Binomial
𝐻1: Los datos provenientes de la variable en estudio “X” no se ajustan a una distribución
teórica Binomial
2. Nivel de significación (α)
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1) p = ¿…?
m=1

4. Desarrollo de la prueba P = conocida m=0


5. Criterio de decisión
No se rechaza 𝐻0 Si: 𝑥𝑐2 ≤ 𝑥𝑐𝑟𝑖𝑡2
Se rechaza 𝐻0 Si: 𝑥𝑐2 > 𝑥𝑐𝑟𝑖𝑡2
Nota. Cuando no se conoce el parámetro p se tiene que estimar a partir de la muestra m=1
g l = k-2 Cuando se conoce el parámetro p
m = 0 g l = k-1
Ejemplo 3.
Con el fin de realizar afiliaciones a un seguro médico, un vendedor de pólizas de
seguros hace cuatro llamadas diarias. Una muestra de 210 días da como resultado las
frecuencias del número de ventas realizadas, que son resumidas en la siguiente tabla de
frecuencias:
7
Número de ventas realizadas Número de
días
0 50
1 75
2 65
3 15
4 5
Se desea verificar si el número de ventas realizadas diariamente sigue una distribución
Binomial a un nivel de significación del 5% Solución
1. Planteamiento de la hipótesis.

𝐻0 : Los datos provenientes del número de ventas realizadas por el vendedor de


seguros se ajustan a una distribución teórica Binomial

𝐻1: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros NO se ajustan a una distribución teórica Binomial

2. Nivel de significación (α =0.05)


3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1)

4. Desarrollo de la prueba

Estimamos la media de la población suponiendo que la hipótesis nula es verdadera.

Número de ventas Número de días 𝑥𝑖𝑜𝑖


(X) (𝑜𝑖)
0 50 0
1 75 75
2 65 130
3 15 45
4 5 20
Total 210 270

∑𝑥𝑜
E(X) = = 1.2857143

𝑛 𝐸(𝑋) 1.2857143
Valor esperado de la distribución Binomial E(X) = np ~ p=
0.3214286
𝑛 4
Esta probabilidad de éxito utilizada para calcular las probabilidades teóricas que a la vez
servirán para calcular las frecuencias esperadas:

𝑥
𝑛 (1 − 𝑝)𝑛−𝑥 x = 0, 1, 2, 3, 4

P (X = x) = (𝑥) 𝑝

8
0
4 (0.6785714)4 = 0.67857144 = 0.212023
P(X=0) = ( ) 0.3214286
0
Se puede facilitar los calculos en Excel.

=DISTR.BINOM. N (

Así sucesivamente

Número de ventas (X) Número de días (𝑜𝑖) 𝑝𝑖 𝑒𝑖= n𝑝𝑖


0 50 0.212023 44.5247586
1 75 0.401727 84.3627004
2 65 0.285438 59.9419187
3 15 0.090138 18.9290270
4 5 0.010674 2.2415953
Total 210 = n 1.000000 210
La frecuencia de la última clase es menor que cinco

N° ventas Número de días 𝑝𝑖 𝑒𝑖= n𝑝𝑖 (𝑜𝑖 − 𝑒𝑖)2


(X) (𝑜𝑖) ∑
𝑒𝑖

0 50 0.212023 44.5247586 0.673294359


1 75 0.401727 84.3627004 1.039086694
2 65 0.285438 59.9419187 0.428116269
3y4 20 0.1008125 21.1706223 0.064729155
Total 210 = n 1.000000 210 2.203926477

2. Nivel de significación (α)


3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1) p = ¿…?
m=1

4. Desarrollo de la prueba P = conocida m=0


5. Criterio de decisión

9
No se rechaza 𝐻0 Si: 𝑥𝑐2 ≤ 𝑥𝑐𝑟𝑖𝑡2
Se rechaza 𝐻0 Si: 𝑥𝑐2 > 𝑥𝑐𝑟𝑖𝑡2

Ejemplo 4.
Se cree que el número de accidentes automovilísticos diarios en un cruce de dos
avenidas de determinada ciudad tiene una distribución de Poisson. En una muestra de
80 días del año pasado se obtuvieron los datos de la tabla adjunta ¿Apoyan estos datos
la hipótesis de que el número diario de accidentes tienen una distribución de Poisson?
Use nivel de significación 0.05 y concluya usando p-valor y la prueba estadística

N° accidentes 𝑜𝑖
0 34
1 25
2 11
3 7
4 3
Usando
Prueba
estadística 1.
Planteamiento de
la hipótesis.

𝐻0 : Los datos provenientes del número de accidentes automovilísticos en el cruce de


las avenidas de interés siguen una distribución teórica Poisson

𝐻1: Los datos provenientes del número de accidentes automovilísticos en el cruce de


las avenidas de interés NO siguen una distribución teórica Poisson

2. α = 0.05
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1) p = ¿…?
m=1

4. Desarrollo de la prueba P = conocida m=0

Calculando la media (un parámetro a estimar)

Nª accidentes 𝑜𝑖 𝑋𝑖𝑜𝑖
(𝑋𝑖)
0 34 0
1 25 25
2 11 22
3 7 21
4 3 12

10
80=n 80

λ=
A continuación, tenemos otros cálculos que nos permiten realizar la prueba y obtener
los grados de libertad de la estadística de prueba.

𝜀−𝜆𝜆𝑥
P (X =x) = X= 0, 1, 2, …
𝑥!

Se puede facilitar los calculos de las probabilidades en Excel =POISSON.DIST(

Accidentes (𝑋𝑖) 𝑝𝑖 𝑒𝑖=n𝑝𝑖


0 0.3679 29.43
1 0.3679 29.43
2 0.1839 14.72
3 0.0613 4.91
4 0.0190 1.52
1.0000 80.00
Observe que las dos últimas clases tienen frecuencias menores a cinco por lo tanto se
deben juntar las dos últimas clases.

La tabla final quedaría con los siguientes resultados

N° accidentes (𝑋𝑖) 𝑝𝑖 𝑜𝑖 𝑒𝑖=n𝑝𝑖

𝑖
0 0.3679 34 29.43 0.7096
1 0.3679 25 29.43 0.6668
2 0.1839 11 14.72 0.9401
3 o más 0.0613 10 6.42 1.9963
1.0000 80=n 80.00 4.3129

𝑥
𝑒𝑖

5. Criterio de decisión

Los grados de libertad para la distribución Chi –Cuadrado de la prueba son: k-m-1 = 4-1-
1 = 2 grados de libertad
𝑥𝛼2(𝑘−𝑚−1) = 𝑥02.95(2) = 5.9915
Como 𝑥𝑐2 = 4.3129 ≤ 5.9915 Aceptamos la hipótesis nula 𝐻0
6. Conclusión

11
A un nivel de significación del 5 % no se rechaza la hipótesis nula 𝐻0 por lo tanto no
podemos afirmar que la variable número de accidentes automovilísticos en el cruce de
las avenidas de interés siguen una distribución teórica distinta a la distribución de
Poisson.

Ejemplo 5.
Un zootecnista ha registrado el número de crías vivas que 86 hebras de cierta especie
de mamífero asentado en cierta área geográfica tuvieron durante su vida productiva:

Crías Hembras

0 8
1 35
2 25
3 10
4 8
¿A qué distribución cree usted se ajustaría mejor la variable en estudio? Use α
= 0.05 Solución

Procedimiento
1. Planteamiento de la hipótesis.

𝐻0 : El número de crías vivas se ajusta a una distribución de Poisson

𝐻1: El número de crías vivas NO se ajusta a una distribución de Poisson


2. α = 0.05
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1) p = ¿…?
m=1

4. Desarrollo de la prueba P = conocida m=0

5. Criterio de decisión p- valor = 0.065 > 0.05 Se acepta la hipótesis nula 𝐻0


6. Conclusión
7. A un nivel de significación del 5 % No se puede rechazar 𝐻0 Por lo tanto No se puede
afirmar que el número de crías vivas No se ajuste a una distribución teórica de Poisson

2) Pruebas con Tablas de Contingencia


Tablas de contingencia f x c

Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los datos de


una o varias muestras aleatorias. Estas frecuencias son clasificadas de acuerdo a las clases
o categorías de una variable A y a las clases o categorías de una variable B.

Ejemplo 1
El jefe de una planta industrial desea determinar si existe relación entre el rendimiento en
el trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400 empleados
y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia.

Rendimiento en el trabajo Turno Laboral

12
Mañana Tarde Noche Total
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
Con el nivel de significación 0.01. ¿La calificación del rendimiento del trabajador está
asociada con el turno en el que labora el empleado? Use el p-valor y la prueba estadística.

Solución Usando prueba estadística


1. Planteamiento de la hipótesis.

𝐻0 : El rendimiento de un empleado en el trabajo es independiente del turno en el que


labora.

𝐻1: El rendimiento de un empleado en el trabajo No es independiente del turno en el que


labora.
2. α = 0.01
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑖−1)(𝑗−1) donde: i = filas; j = columnas

4. Desarrollo de la prueba

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre
paréntesis)

Rendimiento Turno Laboral


Trabajo
Mañana Tarde Noche Total
Deficiente 23 (16.80) 60 (52.64) 29 (42.56) 112
Promedio 28 (25.05) 79 (78.49) 60 (63.46) 167
Muy bueno 9 (18.15) 49 (56.87) 63 (45.98) 121
Total 60 188 152 400

𝑥𝑐2 = (23−1616.80.80)2 + …+ ( 63−4545.98.98)


2
= 20.18

5. Criterio de decisión.
Si 𝑥𝑐2 > 𝑥𝑐𝑟𝑖𝑡2 Se rechaza 𝐻0
Si 𝑥𝑐2 ≤ 𝑥𝑐𝑟𝑖𝑡2 NO Se rechaza 𝐻0

𝑥(2𝑖−1)(𝑗−1) = 𝑥(23−1)(3−1) = 𝑥12−𝛼(4) = 𝑥02.99(4) = 13.28


Como 𝑥𝑐2 = 20.18 > 13.28 se rechaza la hipótesis nula 𝐻0
6. Conclusión

Con nivel de significación α = 0.01 se rechaza 𝐻0. Por lo tanto, se puede afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionada con el
turno en el que labora.

13
Use el p-valor
Turno Laboral % (filas)
R. en el trabajo
Mañana Tarde Noche Total
Deficiente 23 60 29 112 28.0
0
Promedio 28 79 60 167 41.7
5
Muy bueno 9 49 63 121 30.2
5
Total 6 18 15 400 100.00
0 8 2

Valores esperados

Turno Laboral

Rendimiento en el trabajo Mañana Tarde Noche


Deficiente 16.8 52.64 42.56
Promedio 25.05 78.49 63.46
Muy bueno 18.15 56.87 45.98

P Chi-Cuadrado 0.00046038
Como P = 0.00046038< α = 0.01
Se rechaza la hipótesis nula 𝐻0

Conclusión

Con nivel de significación α = 0.01 se rechaza 𝐻0. Por lo tanto, se puede afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionada con el
turno en el que labora.

=PRUEBA.CHICAD(

Ejemplo 2.
De acuerdo a un reciente estudio realizado por los estudiantes de ingeniería en gestión
Empresarial de cierta Universidad, para establecer un restaurante de comida rápida
pero saludable y cuyos potenciales clientes serían los mismos estudiantes de la
universidad, se encuestó un grupo de estudiantes seleccionados al azar y se registró el
sexo de los estudiantes y se preguntó entre otras cosas lo siguiente:

X: Comidas que consumen frecuentemente fuera de casa

X Hombres Mujeres
Desayuno 154 85

14
Almuerzo Cena 80 101
46 18
¿Es posible relacionar la comida que consumen con más frecuencia fuera de casa con el
sexo de los estudiantes? Use α = 0.01. Solución
1. Formulación de hipótesis.

𝐻0 : La comida que consumen con más frecuencia fuera de casa es independiente del
sexo.

𝐻1: La comida que consumen con más frecuencia fuera de casa NO es independiente
del sexo.
2. α = 0.01
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑖−1)(𝑗−1) donde: i = filas; j =
columnas

4. Desarrollo de la prueba

X: Comidas que consumen frecuentemente fuera de


casa Frecuencias Observadas

X Hombres Mujeres Total


Desayuno 154 85 239
Almuerzo 80 101 181
Cena 46 18 64
Total 208 204 484

Frecuencias Esperadas
X Hombres Mujeres Total
Desayuno 183.26 100.74 284
Almuerzo 104.71 76.29 181
Cena 37.02 26.98 64
Total 324.99 204.01 529

2 = (154−138.26)2 + …+ (18−26.98)2 = 23.25


𝑥𝑐 138.26 26.98
5. Decisión
𝑥(23−1)(2−1) = 𝑥02.99(2) = 9.21
Como 𝑥𝑐2 = 23.25 > 9.21 Rechazamos la hipótesis nula 𝐻0
p-valor = 0.000 Rechazamos la hipótesis nula 𝐻0
6. Conclusión

Con un nivel de significación de 0.01 se puede afirmar que la comida que consumen
fuera de casa no es independiente del sexo.

15
2.2 Prueba de Homogeneidad de Subpoblaciones
Estas pruebas se aplican cuando se desea verificar si una característica tiene un componente
semejante u homogéneo en dos o más poblaciones. Es decir, las muestras correspondientes a
“C” poblaciones son clasificadas de acuerdo a las clases o categorías de una categoría “A”.
En una prueba de homogeneidad de subpoblaciones uno de los totales marginales de
filas y columnas es aleatorio y el otro es fijo.

Procedimiento
1. Planteamiento de la hipótesis.

𝐻0 : Las muestras son extraídas de la misma población

𝐻1: Las muestras son extraídas de poblaciones diferentes


2. Nivel de significación (α)

3. Prueba Estadística 𝑥 𝑒𝑖𝑗 ~ 𝑥(2𝑖−1)(𝑗−1) i= fila


j = columna

4. Desarrollo de la prueba

5. Criterio de decisión
No se rechaza 𝐻0 Si: 𝑥𝑐2 ≤ 𝑥𝑐𝑟𝑖𝑡2
Se rechaza 𝐻0 Si: 𝑥𝑐2 > 𝑥𝑐𝑟𝑖𝑡2
6. Conclusión Ejemplo 1

Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura,


produjeron los resultados que se muestran en la siguiente tabla:

Condición Material A Material B Material C Total


Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300
Use un nivel de significación de 0.05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es diferente en al menos uno de los tres tipos de
materiales.
1. Formulación de la hipótesis.

𝐻0 : La probabilidad de desintegración no difiere en los tres tipos de materiales

𝐻1: La probabilidad de desintegración es diferente en al menos uno de los tres tipos de


materiales.
2. Nivel de significación α = 0.0s

3. Prueba Estadística 𝑥 𝑒𝑖𝑗 ~ 𝑥(2𝑖−1)(𝑗−1) i= fila


j = columna

4. Desarrollo de la prueba. Cálculos previos:

Tipos de Material
Condición
Material A Material B Material C Total

16
Desintegrados 41(36) 27(24) 22(30) 90
Permanecieron Intactos 79(84) 53(56) 78(70) 210
Total 120 80 100 300

𝑥
5. Criterio de decisión p-valor = 0.101
2
No se rechaza 𝐻0 Si: 𝑥𝑐 ≤ 5.9915
Se rechaza 𝐻0 Si: 𝑥𝑐2 > 5.9915
6. Conclusión

Con nivel de significación 0.05 no se rechaza la hipótesis nula 𝐻0

Por lo tanto, no se puede afirmar que la probabilidad de desintegración es diferente en


al menos uno de los tres tipos de materiales.

Condición Material Material Material Total %(filas)


A B C
Desintegrados 41 27 22 90 30
Permanecieron 79 53 78 210 70
intactos
Total 120 80 100 300 100

Condición Material Material Material Total


A B C
Desintegrados 36 24 30
Permanecieron 84 56 70
intactos

P Chi-Cuadrado 0.1014998

Como P = 0.1014998 > α = 0.05, Se acepta la


hipótesis nula 𝐻0 =PRUEBA.CHICAD( Ejemplo
2.

Para probar la protección de dos vacunas contra los abortos producidos por cierta
enfermedad, se han seleccionado tres grupos de vacas (Grupo 1, grupo 2, y grupo 3),
cada uno de los cuales tienen un total de 150 vacas sometidas al estudio. Estos grupos
de vacas fueron vacunados de la forma siguiente: Grupo 1: placebo (vacuna inocua)

Grupo 2: vacuna X

Grupo 3: vacuna Y

En el primer grupo hubo 20 vacas que abortaron, en el segundo grupo 10 y en el


tercero 5.

¿La proporción de abortos es la misma en los tres grupos? Use α = 0.05


17
1. Formulación de la hipótesis.

𝐻0 : La proporción de abortos es la misma en los tres grupos

𝐻1: La proporción de abortos No es la misma en los tres grupos

2. Nivel de significación α = 0.0s

3. Prueba Estadística 𝑥 𝑒𝑖𝑗 ~ 𝑥(2𝑖−1)(𝑗−1) i= fila


j = columna

4. Desarrollo de la prueba.

Resultado Grupo1 Grupo 2 Grupo 3 Total


Abortaron 20 (11.67) 10 (11.67) 5 (11.67) 35
No abortaron 130 (138.33) 140 (138.33) 145 (138.33) 415
Total 150 150 150 450

5. Criterio de decisión
𝑥𝑐2 = 10.843 𝑥02.95(2) = 5.99 p-valor = 0.004
6. Conclusión

A un nivel de significación de 5% se rechaza la hipótesis nula 𝐻0

Por lo tanto, se puede afirmar que la probabilidad de abortos No es la misma en los tres
grupos de vacas.

Diferencia entre la prueba de independencia y de homogeneidad


1. La prueba de independencia se usa para probar si una característica es independiente
de otra, mientras que la prueba de Homogeneidad de subpoblaciones se usa para
probar si una característica se distribuye homogéneamente en dos o más
subpoblaciones, o también si diferentes muestras proceden de la misma población.
2. La prueba de independencia supone una muestra tomada de una sola población,
mientras que la prueba de homogeneidad de subpoblaciones supone 2 o más muestras
independientes.
3. En la prueba de independencia las frecuencias marginales de filas y columnas son
valores aleatorios, en la prueba de homogeneidad de subpoblaciones una de las
frecuencias marginales (filas o columnas) son valores fijados, porque son los tamaños
de muestra.

3) Prueba de Homogeneidad de Varianzas


Prueba de Bartlett de Homogeneidad de varianzas (Snedecor y Cochran, 1983)

Esta prueba es utilizada para evaluar si existe homogeneidad de varianzas entre t


poblaciones t≥ 2. Los supuestos para la aplicación de esta prueba son:
• Las muestras provienen de distribuciones normales

• Las muestras son independientes

• Las muestras son tomadas al azar Nota.

18
✓ Esta prueba estadística no pertenece al grupo de pruebas no paramétricas.
✓ Es presentada como parte de la aplicación de la distribución Chi Cuadrado dado que
será utilizada como supuesto en los diseños experimentales.

Procedimiento
a) Formulación de la Hipótesis
𝐻0 : 𝜎12 = 𝜎22 = ⋯ = 𝜎𝑖2 = 𝜎2
𝐻1 : Al menos un 𝜎𝑖2 es diferente i = 1, 2, …, t
b) Nivel de significación α
c) Estadística de prueba

El estadístico de prueba tiene una distribución Chi Cuadrado con t - 1


2
grados de libertad (∑ 𝑛𝑖−1)𝐿𝑛𝑆𝑝 −
2
∑ 𝑛𝑖−1 𝐿𝑛 𝑆𝑖 2

B= ~
𝑥𝑡−1
𝑖 𝑖

Donde 𝑛𝑖 es el tamaño de la i-ésima muestral.


2 2
− 𝑛 𝑖 𝑌𝑖 . ∑ 𝑌𝑖𝑗2 − 𝑛 2
𝑖𝑗 (∑ 𝑌𝑖.)

𝑆𝑖2 es la varianza muestral de cada muestra = ∑ 𝑌𝑛𝑖−1 = 𝑛𝑖−1 𝑖

𝑆𝑝2 es la varianza ponderada de la muestra = ∑∑𝑛 𝑛−𝑖−1 1𝑆


𝑖 𝑖2

d) Desarrollo de la prueba

e) Criterio de Decisión

Se rechaza la hipótesis nula con un nivel de significación α si:

B > 𝑥12−𝛼,𝑡−1
f) Conclusiones

Ejemplo 1
Una empresa usa cuatro máquinas para el llenado de bolsas de detergente. Todas las
máquinas son de la misma marca y modelo. Dichas máquinas están programadas para
llenar 250 gr. En cada bolsa de detergente. El jefe de producción se ha quejado de que
las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de
cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de
c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se
muestran a continuación.

19
Repetición
A B C D
1 250.3 249.3 250.0 251.1
2 250.2 246.8 251.1 250.1
3 249.9 248.3 250.9 248.9
4 249.3 247.9 248.3 249.3
5 250.6 249.7 248.9 251.0
6 250.3 249.9 249.9 249.9
Total 1500.6 1491.9 1499.1 1500.3
Promedio 250.10 248.65 249.85 250.05
𝑆𝑖2 0.20 1.44 1.20 0.78

a. Pruebe el supuesto de homogeneidad de varianzas. Use α = 0.05

b. Pruebe el supuesto de normalidad utilizando los reportes α = 0.05

Solución
a) Usando
prueba
estadística 1.
Formulación de
la Hipótesis
𝐻0 : 𝜎12 = 𝜎22 = ⋯ = 𝜎42 = 𝜎2
𝐻1 : Al menos un 𝜎𝑖2 es diferente i = 1, 2, …, 4
2. Nivel de significación α = 0.05
3. Estadística de prueba

El estadístico de prueba tiene una distribución Chi Cuadrado con t - 1


2
grados de libertad (∑ 𝑛𝑖−1)𝐿𝑛𝑆𝑝 −
2
∑ 𝑛𝑖−1 𝐿𝑛 𝑆𝑖 2

B=
~ 𝑥𝑡−1
𝑖 𝑖
4. Desarrollo de la Prueba

𝑆𝑖2 0.20 1.44 1.20 0.78


Ln𝑆𝑖2 -1.6094 0.3646 1.1823 -0.2485
𝑛𝑖 − 1 5 5 5 5 ∑ 𝑛𝑖 − 1 = 20

20
20xLn (0.905) = - 1.99640671

B= =
B
B = 4.208

5. Criterio de decisión
𝑥02.95(3)= 7.8147
Como B = 4,208 < 7.8147 se acepta la hipótesis nula 𝐻0
6. Conclusión

Con un nivel de significación del 5 % no se rechaza la hipótesis nula 𝐻0

Por lo tanto, no se puede afirmar que las varianzas sean heterogéneas. Se cumple el
supuesto de homogeneidad de varianzas.

Homogeneidad de varianzas. Prueba de Levene (residuos)

b) Prueba del supuesto de normalidad de las muestras.

Ejemplo 2
Un ingeniero Agrónomo quiere saber si la variabilidad del rendimiento por planta (en
kg.) es diferente en al menos una localidad donde se realizaron las plantaciones y se
aplicó el uso de agroquímicos como practica cultural. Para esto decidió correr sus datos
en un conocido programa estadístico. Obtuvo los siguientes resultados.

Localidad n Desviación estándar


Casma 78 0.0870377
Lurín 133 0.0926798
San Antonio 18 0.0836254

21
Realice la prueba más adecuada

1. Hipótesis
𝐻0 : 𝜎12 = 𝜎22 = ⋯ = 𝜎42 = 𝜎2
𝐻1 : Al menos un 𝜎𝑖2 es diferente i = 1, 2, 3
2. Nivel de significación α = 0.05
3. Estadística de prueba

El estadístico de prueba tiene una distribución Chi Cuadrado con t - 1


2
grados de libertad (∑ 𝑛𝑖−1)𝐿𝑛𝑆𝑝 −
2
∑ 𝑛𝑖−1 𝐿𝑛 𝑆𝑖 2

B= ~
𝑥𝑡−1
𝑖 𝑖

4. Desarrollo de la Prueba

𝑆𝑖 0.0870377 0.0926798 0.0836254


𝑆𝑖2 0.00757556 0.00858955 0.00699321
L -4.88282784 - -4.96281595
n 𝑆𝑖2 4.75720947
𝑛𝑖−1 77 132 17 ∑ 𝑛𝑖 − 1 = 226

(∑𝑛𝑖 −1)𝐿𝑛𝑆𝑝2 = 226 x Ln (0.008123) = -1087.7506


∑ 𝑛𝑖 − 1 𝐿𝑛 𝑆𝑖2 = 77*-4.88282784 + 132*-4.75720947+17*-4.96281595 = -1088.29726
1/226 = 0.07496152
𝑖−1 𝑛𝑖−1

B=

5. Criterio de decision:
Como B = 0.5399 < 𝑥02.95(2)= 5.99 Se acepta la hipótesis nula 𝐻0
6. Conclusión

Con nivel de significación 0.05 no se puede rechazar la hipótesis nula 𝐻0

Por lo tanto, no se puede afirmar que las varianzas del rendimiento (en Kg.) por
localidad donde se aplicaron agroquímicos sean heterogéneas. Se cumple el supuesto
de homogeneidad de varianzas. Ejemplos Propuestos.

1. Un promotor inmobiliario está considerando invertir en un centro comercial a


construirse en el sector medio de una capital del interior del país. Para el promotor,
22
es muy importante el nivel de los ingresos mensuales de las familias. Para el estudio,
se evalúan 4 ciudades: Arequipa, Iquitos, Piura y Trujillo. En cada una de ellas se
seleccionaron muestras aleatorias de ingresos familiares. Los ingresos mensuales
observados expresado en dólares son los siguientes:

Arequipa Iquitos Piura Trujillo


610 710 560 500
560 730 610 400
490 660 470 500
550 610 510 500
460 580 500
620 400
650
Asuma que los ingresos mensuales se distribuyen normalmente. A un nivel de
significación de 0.05 probar el supuesto de homogeneidad de varianzas.

2. Un especialista está interesado en conocer si al inocular la semilla de lino Redwing en


diferentes estados de crecimiento afecta el contenido de aceite de la semilla. Los
datos resumidos se dan a continuación:

Estado N Desviación estándar


1 4 0.98995 2.23308
2 4 0.63770 0.25820
3 4 0.91469
4 4
5 4
El especialista sabe que para lograr sus objetivos el contenido de aceite debería de
cumplir, que tenga la misma variabilidad. Realice la prueba adecuada. Use α = 0.05
Distribución Ji- Cuadrado

https://www.youtube.com/watch?v=mjA0zxKIee8

3. Variables: Sexo, Opinión

Se le pregunto a 25 empleados, que, si estaban de acuerdo con el nuevo plan de salud


que propone la empresa, con los resultados siguiente:

Sexo Opinión
F Si
M No
F Si
F Si
F Si
M Si
M No
M No
M No

23
F Si
F No
F No
F Si
F Si
M Si
F No
M No
F No
M Si
F No
M Si
M Si
M Si
F No
F No

Tabla de Contingencia

Genero
Opinión M F Total
No 7 5 12
Si 7 6 13
Total 14 11 25

4. Novecientos cincuenta escolares se clasificaron de acuerdo a sus hábitos alimenticios


y a su coeficiente intelectual (fuente 2014)

< 80 80-90 90-99 >100


Nutrición buena 245 228 177 219
Nutrición pobre 31 27 13 10
𝐻0: Los valores del coeficiente intelectual son independientes de los
hábitos alimenticios 𝐻1: Los valores del coeficiente intelectual son
dependientes de los hábitos alimenticios 𝛼 = 0.05

< 80 80-90 90-99 >100


Nutrición buena 245 228 177 219 869 91.473684
2
Nutrición pobre 31 27 13 10 81 8.5263157
9
276 255 190 229 950

< 80 80-90 90-99 >100

24
Nutrición buena 252.467368 233.257895 173.8 209.474737 869
Nutrición pobre 23.5326316 21.7421053 16.2 19.5252632 81
276 255 190 229 950
P Chi-cuadrado
0.02080166 Como

p = 020800166 < α = 0.05

Se rechaza la hipótesis nula

Los valores del coeficiente intelectual son dependientes de los hábitos alimenticios

=PRUEBA.CHICUAD(
Resalte lo que se indica en ventana de dialogo de Excel

25

También podría gustarte