Está en la página 1de 9

Aplicaciones de la Distribución Chi Cuadrado:

Una de las herramientas no paramétricas más útiles en la prueba chi


cuadrado, al igual que la distribución t, la distribución chi cuadrado es
toda una familia de distribuciones, existe una distribución chi cuadrado
para cada grado de libertad.
Esta distribución tiene varias aplicaciones, como ya vimos en la prueba
de hipótesis para varianzas, también se puede utilizar para pruebas de
independencia y para determinar si ciertos datos siguen una distribución
normal

Prueba de Normalidad
Suponga que desea determinar si en datos obtenidos en una muestra
prevalece la normalidad, para esto utilizaremos la distribución chi
cuadrado, calculando un valor critico y comparándolo con una
estadístico de prueba.
El valor critico se calcula igual que antes utilizando una determinada
significancia y con cierta cantidad de grados de libertad, para calcular
los grados de libertad usaremos la siguiente formula

Grados de libertad = k-m-1 k es el numero de clases


m es el numero de parámetros a estimar
En el caso del estadístico de prueba, usaremos la siguiente formula:
( fo − fe ) 2
Fo= frecuencia observada (real)
 2* =  Fe= frecuencia esperada
fe
¿Cómo se calcula la frecuencia esperada?
La frecuencia esperada es como esperaríamos que fueran los resultados
si los datos estuviesen distribuidos normalmente, y se calculan usando la
formula:
fe = n * prob intervalo
La probabilidad del intervalo se calcula de la misma forma que como
calculamos probabilidades en la distribución normal.
Por ejemplo consideremos los siguientes datos obtenidos de una muestra
de 1000 elementos en una población con μ=600 y σ=10

X frecuencia (fo) Por ejemplo para calcular la frecuencia esperada


del primer intervalo debemos calcular primero
menos de 580 20
P(x<580), para ello normalizamos
580 - 590 142
Z=(580-600)/10=2 asi
590 - 600 310
600 - 610 370 P(x<580)=P(z<-2)=0.0228
610 - 620 128
mas de 620 30 Asi fe=1000*0.0228=22.8
Por ejemplo para calcular la frecuencia esperada del quinto intervalo debemos calcular
primero P(610<x<620), para ello normalizamos ambos valores
Z=(610-600)/10=1 y Z=(620-600)/10=2 asi
P(610x<620)=P(1<z<2)=P(z<2)-P(z<1)=0.9772-0.8413=0.1359
Asi fe=1000*0.1359=135.9
Al calcular todas las probabilidades y las frecuencias esperadas
tenemos la siguiente tabla
X frecuencia (fo) probabilidad fe=n*probabilidad
menos de 580 20 0.0228 22.8
580 - 590 142 0.1359 135.9
590 - 600 310 0.3413 341.3
600 - 610 370 0.3413 341.3
610 - 620 128 0.1359 135.9
mas de 620 30 0.0228 22.8
n= 1000 1 1000

¿Cuál seria el estadístico de prueba?


X fo fe (fo-fe)^2/fe ( fo − fe) 2
menos de 580 20 22.8 0.3439  =
2*

580 - 590 142 135.9 0.2738 fe


590 - 600 310 341.3 2.8705
Fo= frecuencia
600 - 610 370 341.3 2.4134
observada (real)
610 - 620 128 135.9 0.4592 Fe= frecuencia
mas de 620 30 22.8 2.2737 esperada
8.6344
¿Cuál seria el valor critico?
En este caso, se conoce la media de población y también la desviación
estándar, por lo que no hay parámetros por determinar, asi que m=0, si
no se conocieran estos datos habría que aproximarlos y m seria igual a 2
Grados de libertad = k-m-1 k es el numero de clases
m es el numero de parámetros a estimar
Grados de libertad = 6-0-1=5
Si se deseara realizar la prueba con una significancia de α=5%=0.05,
buscamos en la tabla chi cuadrado 0.05 de significancia con 5 grados
de libertad, obteniendo así
 2 = 11.070
¿Cómo se decide si los datos son Normales?
La prueba es sencilla y las hipótesis nula y alternativa siempre son las
mismas, al igual que la región de prueba
H0: Los datos están distribuidos No Rechazar Ho Rechazar Ho

normalmente
H1: Los datos no están
distribuidos normalmente

Valor critico
En nuestro ejemplo con significancia del 5%

X fo fe (fo-fe)^2/fe
menos de 580 20 22.8 0.3439  2* = 8.6344
580 - 590 142 135.9 0.2738
590 - 600 310 341.3 2.8705
600 - 610 370 341.3 2.4134
610 - 620 128 135.9 0.4592
mas de 620 30 22.8 2.2737
8.6344

H0: Los datos están distribuidos No Rechazar Ho Rechazar Ho


normalmente

H1: Los datos no están distribuidos


normalmente
 2* = 8.6344
 2 = 11.070

Podemos concluir que los datos siguen una distribución normal


Prueba de Independencia: Tablas de Contingencia
La distribución chi cuadrado también permite la comparación de dos
atributos para determinar si existe una relación entre ellos.
Una tabla de contingencia es una tabla de doble entrada donde se
reportan las frecuencias observadas de dos variables, la pregunta de
interés en nuestra prueba será si los datos de la tabla indican que las
variables son dependientes, es decir que hay relación, o qué son
independientes, es decir que no hay relación entre las variables.

En la prueba tanto la hipótesis nula como la alternativa serán fijas:


H0: Las variables son independientes (no hay relación)
H1: Las variables son dependientes (si hay relación
La formula para calcular el estadístico de prueba es la misma:
( fo − fe) 2
 =
2*

fe
Pero cambia la manera de calcular las frecuencias esperadas y en el
caso del valor crítico cambia la forma de escoger los grados de
libertad.

6
¿Cómo se calcula la frecuencia esperada?
Para calcular las frecuencias esperadas, usaremos la siguiente formula
cuyos datos serán obtenidos de la tabla original
TC  TR TC: Total de la Columna
fe = TR: Total del Renglón
n n: Total

Por ejemplo supongamos que queremos verificar si existe relación entre


las variables sexo y área favorita de la siguiente tabla

Área Favorita
Sexo Total Frecuencias
Matemáticas Sociales Humanidades Observadas (reales)
Hombre 37 41 44 122
Mujer 35 72 71 178
Total 72 113 115 300

Debemos calcular las frecuencias esperadas de cada una de las


celdas del cuerpo de la tabla:
Por ejemplo para la celda de Por ejemplo para la celda de
Hombre y Matemáticas: Mujer y Sociales:
72 122 113 178
fe = = 29.28 fe = = 67.05
300 300
Al calcular todas las frecuencias esperadas podemos obtener la tabla
siguiente:

Iguales
Iguales

Iguales Iguales Iguales

Calculo del estadístico de prueba


Colocamos los datos de la siguiente forma para facilitar el calculo:

FO FE (FO-FE)^2/FE
37 29.28 2.0355 ( fo − fe) 2
41 45.95 0.5339  =
2*

fe
44 46.77 0.1637
35 42.72 1.3951
72 67.05 0.3659
71 68.23 0.1122
4.6063
8
Calculo del Valor Critico
En la tabla Chi Cuadrada buscaremos la significancia y los grados de
libertad, como se menciono antes, los grado de libertad se calculan
de forma diferente:
gl =  Reng − 1  Col − 1
Col: Cantidad de Columnas
Reng: Cantidad de Renglones
En nuestro ejemplo para verificar si existe relación entre las variables sexo
y área favorita, vemos que la tabla es de 2 renglones y 3 columnas (No
se cuentan los totales)
Área Favorita
Sexo Total
Matemáticas Sociales Humanidades
Hombre 37 41 44 122 gl =  2 − 1  3 − 1
Mujer 35 72 71 178
gl = 1 2 = 2
Total 72 113 115 300
Si deseamos verificar con una No Rechazar Ho Rechazar Ho
significancia del 5%, buscaríamos en la
tabla chi cuadrada 2 grados de
libertad y un α=0.05, de aquí
obtenemos x2 =5.991  2* = 4.6063
 2 = 5.991
Dado que nuestro estadístico de prueba es menor que el
valor critico concluimos que No hay relación entre las
variables

También podría gustarte