Está en la página 1de 25

Distribucin

Chi (o Ji) cuadrada (2)

PEARSON, KARL. On the Criterion that a Given System of Deviations


from the Probable in the Case of a Correlated System of Variables is such
that it Can Reasonably Be Supposed to have Arisen from Random
Sampling

El famoso artculo de Karl Pearson sobre la distribucin Chi-cuadrada


apareci en la primavera de 1900, lo que se puede considerar un inicio
auspicioso a un magnfico siglo para el campo de la estadstica -B. Efron,
The Statistical Century

La distribucin Chi-Cuadrada (chi squared en ingls, se pronuncia Kay


skuerd) es una de las distribuciones ms empleadas en todos los campos. Su
uso ms comn es cuando se quiere probar si unas mediciones que se hayan
efectuado siguen una distribucin esperada, por ejemplo la normal o cualquier
otra.
Otro de sus usos es en intervalos de confianza y pruebas de hiptesis para las
varianzas o desviaciones estndar.
Empezaremos ilustrando la definicin de la distribucin para proceder a
ejemplos de uso prctico.

Supongamos que se efecta el siguiente experimento estadstico.


Seleccionamos una muestra aleatoria de tamao n de una poblacin con
distribucin normal, con desviacin estandar igual a . De la muestra
encontramos que la desviacin estandar es igual a s. Con estos datos podemos
calcular una estadstica, que llamamos Chi-Cuadrada,
Cuadrada por medio de la
siguiente ecuacin:
2
2
2

( n 1) s

Si repetimos el experimento un nmero infinito de veces, obtendramos una


distribucin muestral para la estadstica chi-cuadrada.
cuadrada Pero la distribucin
final que tendramos se puede definir por la siguiente ecuacin:

Y = Y0 ( 1)e
2
2

2
2

Donde Y0 es una constante que depende del nmero de grados de libertad ( =


n 1, n es el tamao de la muestra), 2 es el valor de chi-cuadrada y e es el
llamado nmero natural (aproximadamente 2.71828). Y0 se define de forma
que el rea bajo la curva sea igual a 1.

Si graficamos curvas para diferentes valores de n, encontramos que


la forma de la distribucin chi cuadrada cambia dependiendo del
nmero de grados de libertad.
Distribution Plot
Chi-Square
df
2
4
6
10
30

0.5

Density

0.4

0.3

0.2

0.1

0.0

10

20

30
X

40

50

60

Tambin vemos que al aumentar el nmero de grados de libertad,


la curva se aproxima a la distribucin normal.

La distribucin chi cuadrada tiene las siguientes propiedades:


propiedades
La media es igual al nmero de grados de libertad (que es igual al tamao
de las muestras menos 1): = = n 1
La varianza es igual a dos veces el nmero de grados de libertad (por lo
tanto la desviacin estndar es la raz cuadrada de 2):
2 = 2 *
Cuando los grados de libertad son mayores o iguales que 2, el mximo
valor de Y ocurre cuando

2=2
Conforme los grados de libertad (tamao de la muestra) aumenta, la
distribucin chi-cuadrada se aproxima a la distribucin normal.
normal

Ejemplo de 2 cuadrada para 5 muestras

La desviacin estndar es

= 2 = 2 = 8

La media = = 4 (es igual a n-1)


El valor mximo ocurre para
2 = 2 = 2

Probabilidad Acumulativa y la Distribucin Chi-cuadrada


La distribucin 2, como otras distribuciones por ejemplo la t de student y
la z-normal estndar,
ndar se construye de forma que el rea total bajo la
curva sea igual a 1. El rea bajo la curva entre 0 y un valor particular de la
estadstica chi-cuadrada es la probabilidad asociada con ese valor. Por
ejemplo, en la figura, el rea sombreada representa la probabilidad
acumulada para una 2 igual a un valor A.

Supngase que en una determinada muestra se observan una serie de


posibles sucesos E1, E2, E3, . . . , EK, que ocurren con frecuencias o1, o2,
o3, . . ., oK, llamadas frecuencias observadas y que, segn las reglas de
probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK
llamadas frecuencias tericas o esperadas.
A menudo se desea saber si las frecuencias observadas difieren
significativamente de las frecuencias esperadas. Para el caso en que
solamente son posibles dos sucesos E1 y E2 como, por ejemplo, caras o
cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente con
los mtodos de las unidades anteriores. Ahora se considera el problema
general.
Definicin de 2 para el caso de pruebas de bondad de ajuste.
Una medida de la discrepancia existente entre las frecuencias observadas y
esperadas est dada por el estadstico que sigue la distribucin 2:

donde el total de frecuencias es N

Si 2 = 0, las frecuencias observadas y esperadas concuerdan exactamente,


mientras que si 2 >0, no coinciden exactamente. A valores mayores de 2,
mayores son las discrepancias entre las frecuencias observadas y esperadas.
El nmero de grados de libertad n est dado por:

n=k1m
en donde:
k = nmero de clasificaciones en el problema.
m = nmero de parmetros estimados a partir de los datos muestrales para
obtener los valores esperados.

En la prctica, las frecuencias esperadas se calculan como la hiptesis Ho. Si


bajo esta hiptesis el valor calculado de 2 dado es mayor que algn valor
crtico, se deduce que las frecuencias observadas difieren significativamente
de las esperadas y se rechaza Ho al nivel de significacin correspondiente. En
caso contrario, no se rechazar Ho. Este procedimiento se llama prueba de
hiptesis chi-cuadrado.
Debe advertirse que aquellas circunstancias en que 2 est muy prxima a
cero deben tomarse con cierto recelo, puesto que es raro que las frecuencias
observadas concuerden demasiado bien con las esperadas. Para examinar
tales situaciones, se puede determinar si el valor calculado de 2 es menor
que las 2 crticas (prueba de cola izquierda), en cuyos casos se decide si la
concordancia es suficientemente buena.

Ejemplos del uso de 2 en pruebas de bondad de ajuste.


1. En los experimentos de Mendel con chcharos, observaron 315 lisos y
amarillos, 108 lisos y verdes, 101 rugosos y amarillos y 32 rugosos y verdes.
De acuerdo con su teora, estos nmeros deberan presentarse en la
proporcin 9:3:3:1. Hay alguna evidencia que permita dudar de su teora al
nivel de significacin del 0.01?
Solucin:
Ho; La teora de Mendel es acertada.
H1; La teora de Mendel no es correcta.
El nmero total de chcharos es 315+108+101+32=556. Puesto que los
nmeros esperados estn el la proporcin 9:3:3:1 (9+3+3+1=16), se
esperara lo siguiente:

9
(556) = 312.75
16

lisos y amarillos

3
(556) = 104.25
16

lisos y verdes

3
(556) = 104.25
16

rugosos y amarillos

1
(556) = 34.75
16

rugosos y verdes

Grados de libertad = k-1-m = 4-1-0 = 3


No se tuvo que calcular ningn parmetro para obtener las frecuencias
esperadas.

Regla de decisin:
Si 2 11.3 no se rechaza Ho.
Si 2 > 11.3 se rechaza Ho.

Justificacin y decisin:
Como 0.470 es menor que 11.3 no se rechaza Ho y se concluye con un nivel
de significancia de 0.01 que la teora de Mendel es correcta.
Pero como el valor de 0.470 est cercano a cero, se procede a hacer una
prueba unilateral izquierda:

Ho; La teora de Mendel es acertada.


H1; La teora de Mendel es muy acertada.

Regla de decisin:
Si 2 0.115 no se rechaza Ho.
Si 2 < 0.115 se rechaza Ho.
Como el valor de 0.470 no es menor a 0.115 se concluye que el experimento
o la teora de Mendel es correcta.

2. Se cree que la duracin del sueo profundo de las personas se puede


aproximar mediante una distribucin normal con media = 3.5 hrs y
desviacin estndar = 0.7 hrs. Probar la veracidad de esta idea con los
siguientes datos tomados de una muestra de pacientes. Utilizar una
significancia de 0.05.

Total de datos 40.


Primero visualizamos los datos en un histograma.

Aparentemente los datos siguen una distribucin normal.


Prueba de hiptesis:
H0; Los datos provienen de una distribucin normal.
H1; Los datos no provienen de una distribucin normal.

En este ejemplo en particular se cuenta con la media y desviacin estndar


de la poblacin, por lo que no se tienen que estimar. En caso de que no se
tuvieran, se estimaran a partir de los datos agrupados, tomando en cuenta
que para los grados de libertad el valor de m sera 2, ya que se estimaran la
media y la desviacin estndar.
Se proceder a calcular los valores de z para encontrar las probabilidades
usando los lmites inferiores de los intervalos de clase:

z=

La razn por la cual se comienza con el lmite de 1.95 y se termina con el


lmite de 4.45, es porque la suma de todas las probabilidades debe ser 1,
bajo la curva normal.
A continuacin se muestra la curva normal con sus respectivas
probabilidades, segn los limites reales.

Con estas probabilidades se calcularn los valores esperados, multiplicando


cada probabilidad por 40 (el total).

Grados de libertad: k-1-m = 4-1-0 = 3

Regla de decisin:
Si 2 7.815 no se rechaza Ho.
Si 2 > 7.815 se rechaza Ho.

Justificacin y decisin:
Como 3.06 no es mayor de 7.815, no se rechaza H0 y se concluye con
= 0.05 que el ajuste de los datos a una distribucin normal es bueno.

Ejemplo del uso de 2 en pruebas de desviacin estndar.


La compaa de bateras Durams ha desarrollado una nueva batera para
celulares. En promedio, la batera dura 60 minutos por carga. La desviacin
estndar es de 4 minutos.
Supongamos que el departamento de manufactura corre una prueba de
control de calidad. Ellos seleccionan 7 bateras al azar. La desviacin
estndar de las bateras seleccionadas es de 6 minutos. Qu valor de la
estadstica chi-cuadrada tenemos para esta prueba?

Solucin
Bueno, empezamos con lo que sabemos:
La desviacin estandar de la poblacin es de 4 minutos.
La desviacin estandar de la muestra es de 6 minutos.
El nmero de observaciones muestreadas es 7.

Para calcular la estadstica chi-cuadrada, usamos los valores en la ecuacin para


2.

2 =

( n 1) s 2

(7 1)62
=
= 13.5
2
4

donde 2 es la estadstica chi-cuadrada, n el tamao de la muestra, s la


desviacin estndar de la muestra, y la desviacin estndar de la poblacin.
Ahora vamos a ver cmo usar este resultado.
Problema 1
Vamos a expresar el mismo ejemplo de otra manera.
El departmento de manufactura corri una prueba de control de calidad usando 7
bateras seleccionadas al azar. En su prueba, la desviacin estndar fue de 6
minutos, lo que equivale a un valor de chi-cuadrada de 13.5.
Supongamos que repiten la prueba con otras 7 bateras.
Cul es la probabilidad de que la desviacin estndar de la nueva prueba sea
mayor a 6 minutos?

Solucin
Sabemos lo siguiente:
Tamao de la muestra es n = 7 .
Los grados de libertad son n - 1 = 7 - 1 = 6.
El valor 2 para la prueba es 13.5 (del Ejemplo 1).
Dados estos valores, podemos determinar la probabilidad acumulada de chicuadrada. Para ello, usamos una tabla de la estadstica 2 con los valores de
grados de libertad (6) y de chi-cuadrada (13.5) o empleamos alguna
herramienta como la calculadora Chi-Square Distribution Calculator. De
cualquiera de los dos obtenemos el valor de: 0.96.
Esto implica que la probabilidad de que la desviacin estndar de la muestra
fuera menor o igual a 6 minutos es 0.96. Lo anterior significa que la
probabilidad de que la desviacin estndar sea mayor a 6 minutos es de
1 - 0.96 o sea .04 (muy pequea).

Area bajo la curva


hasta el valor de
2 =13.5 es 0.96

probabilidad de que
la desviaci
desviacin
est
estndar de la
muestra sea MENOR
O IGUAL a 6 minutos
es 0.96
probabilidad de que
la desviaci
desviacin
est
estndar de la
muestra sea MAYOR
a 6 minutos es 0.04

2 =13.5

También podría gustarte