Está en la página 1de 2

EL TEST CHI-CUADRADO

El test Chi-cuadrado es un ejemplo de los denominados test de ajuste estadstico,


cuyo objetivo es evaluar la bondad del ajuste de un conjunto de datos a una determinada
distribucin candidata. Su objetivo es aceptar o rechazar la siguiente hiptesis:
Los datos de que se dispone son una muestra aleatoria de una distribucin
FX x .
El procedimiento de realizacin del test Chi-cuadrado es el siguiente:
1)

Se divide el rango de valores que puede tomar la variable aleatoria de la


distribucin en K intervalos adyacentes:

a0 , a1 , a1 , a2 , , aK 1 , aK
2)
3)

Pueden ser a0 y aK .
Sea N j el nmero de valores de los datos que tenemos que pertenecen al
intervalo a j 1 , a j .
Se calcula la probabilidad de que la variable aleatoria de la distribucin
candidata FX x est en el intervalo a j 1 , a j . Por ejemplo, si se trata de una
distribucin continua, esa probabilidad sera:
pj

aj

a j 1

f X x dx

siendo f X x la funcin densidad de probabilidad de la distribucin candidata.


Tambin se puede hacer:
p j FX a j FX a j 1

Ntese que este es un valor terico, que se calcula de acuerdo a la distribucin


candidata y a los intervalos fijados.
4)

Se forma el siguiente estadstico de prueba:


K

j 1

Np j

Np j

Si el ajuste es bueno, tender a tomar valores pequeos (por qu?).


Rechazaremos la hiptesis de la distribucin candidata si toma valores
demasiado grandes.

Ntese que para decidir si los valores son demasiado grandes, necesitamos
fijar un umbral. Para ello se hace uso de la siguiente propiedad, que no demostraremos.
Ntese que es a su vez una variable aleatoria (por qu?).
Si el nmero de muestras es suficientemente grande, y la distribucin candidata
es la adecuada tiende a tener a una distribucin Chi-cuadrado de (K 1) grados de
libertad
En realidad, la afirmacin anterior slo es estrictamente cierta si no hay que
estimar ningn parmetro en la distribucin candidata. Si para definir la distribucin
candidata hay que estimar algn parmetro (su media, su varianza,) el nmero de
grados de libertad de la distribucin Chi-cuadrado es
(K 1 nmero de parmetros que hay que estimar a partir de los datos)
Tenemos por tanto, que si la distribucin candidata es la adecuada, conocemos la
distribucin del parmetro (est tabulada y se proporciona la tabla en el Apndice 1 de
la prctica). Adems, si la distribucin candidata es la adecuada, el valor del parmetro
tender a ser pequeo, y si no es adecuada, tender a ser grande.
Una forma razonable de fijar un umbral de decisin sera:
Rechazar la distribucin candidata si
2
gdl
,

siendo gdl , el valor que en la distribucin Chi-cuadrado de gdl grados de libertad


deja por encima una masa de probabilidad de .
2

Ntese que (que se denomina nivel de significacin) representa la


probabilidad de equivocarse si la distribucin candidata es la adecuada (por qu?), y se
fijar a un valor pequeo (tpicamente, 0.1, 0.05 0.01).
Es muy importante tener en cuenta que el test est sujeto a error. Acabamos de
ver que es posible equivocarse aunque la hiptesis sobre la distribucin candidata sea
cierta, porque podemos tener la mala suerte de que los valores de salgan grandes.
Eso en todo caso suceder con probabilidad baja (0.1, 0.05 0.01, segn acabamos de
ver). Asimismo, podramos equivocarnos tambin decidiendo que la distribucin
candidata es la adecuada aunque no sea cierto, debido a que los valores de podran
salir pequeos. El test se basa en la suposicin razonable de que si la distribucin
candidata no es la adecuada, los valores de tendern a salir por encima del umbral
2
gdl
, .

También podría gustarte