Está en la página 1de 15

QU ES Y CMO SE CALCULA LA DISTRIBUCIN CHI CUADRADO?

ANTECEDENTES HISTRICOS DE LA DISTRIBUCIN CHI CUADRADO:


El matemtico Karl Pearson (18571936), advirti que cuando un cientfico
realiza un experimento de resultados aleatorios, generalmente tiene en mente
como referente un modelo terico ideal que de antemano establece cmo
debera ser el comportamiento y cules deberan ser los resultados
estadsticos esperados del experimento. Sin embargo, en el mundo real es
muy normal que los resultados empricos obtenidos dentro de Muestras
Estadsticas sobre la realizacin de un experimento aleatorio no coincidan
plenamente con los resultados tericos esperados. En muchos casos es
normal que ocurran grandsimas fluctuaciones en los resultados observados en
el experimento aleatorio, y an as es posible seguir afirmando que esos
resultados fluctuantes todava estn ocurriendo dentro de los lmites
previstos por el modelo terico ideal. Justamente, una gran dificultad a la que
se enfrentaron los primeros cientficos de la Modernidad fue cmo hallar una
frmula matemtica para determinar con exactitud que las fluctuaciones o
variaciones observadas en los resultados de un experimento
eransuficientemente significativas como para permitir concluir que esos
resultados ya no respondan a las expectativas del modelo terico.
Por ese motivo Karl Pearson hacia 1900 propuso uno de los primeros Tests
Estadsticos que desde la ptica de las distribuciones de la probabilidad sirve
para calcular si los resultados estadsticos de un experimento se alejan
significativamente o no de los resultados esperados del modelo terico, test
que actualmente es conocido como el Test Chi Cuadrado. Luego otros
importantes matemticos han propuesto la axiomatizacin de diversas
funciones matemticas o estadsticas que permiten definir y calcular los lmites
ideales a partir de los cuales se puede afirmar con gran certeza que los
resultados observados en un experimento aleatorio definitivamente ya no
responden a las expectativas tericas del modelo ideal, es decir, permiten
concluir que realmente son muy significativas las disparidades existentes entre
los resultados observados y los resultados esperados. Algunas de las ms
importantes funciones estadsticas empleadas para ese propsito son la
prueba Fisher, la prueba T-Student, la prueba Z, el test Wishart, la prueba
McNemar, la prueba Q de Cochran, los tests de Bondad de Ajuste, etc.
A continuacin tratare sobre la Distribucin Chi-Cuadrado de la probabilidad y
su relacin con el Test Chi-Cuadrado, recalcando su aplicacin en los
denominados Contrastes de Significacin que se pueden realizar entre los
resultados tericos esperados y los resultados empricos observados de un
experimento.
COMPRENDIENDO EL MODELO IDEAL DE LA DISTRIBUCIN CHI CUADRADO:
La denominada Distribucin Chi Cuadrado (que usualmente se escribe y se
lee como: Ji Cuadrado), es una distribucin cuadrtica de la probabilidad que
utiliza bsicamente variables aleatorias continuas. La Distribucin Chi
Cuadrado de la probabilidad se denota mediante la letra griega
minscula ji elevada al cuadrado (
2
), y consiste en establecer un espacio
continuo delimitado por la suma de los cuadrados de n variables aleatorias que
son independientes entre s, espacio dentro del cual la variable X puede asumir
cualquiera de los infinitos valores que lo conforman, y por tanto para establecer
el valor aproximado de una variable X dentro de ese espacio se procede a
incluir una estimacin de sus posibles lmites que estn dados por los distintos
Grados de Libertad que pueden existir entre las variables aleatorias
analizadas que dan origen al referido espacio. En otras palabras, la
Distribucin Chi Cuadrado en un delimitado espacio conjuga un determinado
nmero de variables aleatorias independientes entre s, con unos valores de
probabilidad ubicados entre 1 y 0 que son atribuibles a esas variables, y con
unos lmites de la probabilidad para el verdadero valor de X delimitados por los
Grados de Libertad atribuibles a las variables aleatorias analizadas.
La Distribucin Chi Cuadrado permite calcular la probabilidad existente para
que una variable X, que tiene un determinado Grado de Libertad frente a otras
variables del mismo conjunto, permanezca dentro de unos lmites ideales
previstos para X cuando tiene ese especfico Grado de Libertad o
independencia. En otras palabras, la Distribucin Chi Cuadrado suministra un
modelo ideal sobre los lmites probables que deberan regir las fluctuaciones
en la aparicin de un determinado valor aleatorio X dependiendo del Grado de
Libertad que tiene ese valor frente a otras variables similares dentro de un
conjunto de datos analizados. La frmula matemtica para calcular la
probabilidad de que una variable X permanezca dentro del lmite ideal
correspondiente al respectivo Grado de Libertad es la siguiente:

2
k
(X) =
X
k / 2 1
e
X / 2

2
k /2
(k / 2)
En esta ecuacin la letra k que aparece como un subndice de la
expresin
2
indica el Grado de Libertad que se toma como lmite para calcular
la probabilidad de la variable aleatoria X. Esta ecuacin para ser despejada
requiere el uso de la compleja Funcin Gamma (representada por la letra
griega mayscula gamma: ), y por tanto generalmente para solucionar esta
ecuacin se emplean mtodos basados en la consulta de tablas o en el uso de
algoritmos para ordenador que permiten obtener los valores de probabilidad
respectivos.
EXPLICACIN DE LOS GRADOS DE LIBERTAD USADOS EN LA DISTRIBUCIN CHI
CUADRADO:
Dentro de la Distribucin Ji Cuadrado los denominados Grados de Libertad
atribuibles a un conjunto de variables equivalen al nmero de datos
independientes entre s existentes dentro de ese conjunto que es necesario
conocer previamente para poder estimar el valor de cualquier otro dato
independiente del mismo grupo. Por ejemplo, si se afirma que en un cesto hay
un conjunto de 10 manzanas, conformado por 2 clases independientes de
manzanas, pues algunas de esas 10 manzanas son de color rojo y otras son
de color verde, entonces en tal caso basta con saber que en el cesto hay 4
manzanas rojas para poder calcular inmediatamente que las restantes son 6
manzanas de color verde, es decir, en este caso hay 2 clases de datos
independientes entre s (rojas y verdes), pero para poder conocer el valor de
una clase de esos dos datos es siempre necesario conocer previamente el
valor de la otra clase de datos, motivo por el cual se concluye que el Grado de
Libertad o el grado de independencia existente entre las dos clases de datos
tiene un valor de uno (1).
En otro ejemplo, si se afirma que en una sala hay un conjunto de 30 personas,
conformado por 3 clases de razas independientes entre s, pues algunas de
esas personas son caucsicas, otras son negras y otras son asiticas,
entonces basta con saber que en la sala hay 12 personas caucsicas y 9
negras para poder calcular exactamente que las restantes 9 personas son
asiticas, es decir, en este caso hay 3 clases de datos independientes entre s,
pero para poder conocer cul es el valor de una clase particular de esos datos
es siempre necesario conocer previamente el valor de las otras 2 clases de
datos; en otras palabras, si slo se sabe que en la sala hay 12 personas
caucsicas, ese dato resulta insuficiente para poder saber con exactitud
cuntas son negras y cuntas son asiticas dentro de las restantes 18
personas de la sala, y si slo se sabe que en la sala 9 personas son asiticas,
ese dato por s slo tambin resulta insuficiente para poder saber cuntas son
negras y cuntas son caucsicas dentro de las restantes 21 personas de la
sala, motivo por el cual se concluye que el Grado de Libertad o grado de
independencia existente entre las tres clases de datos tiene un valor de 2,
pues nicamente conociendo el valor de 2 clases de datos se puede saber con
exactitud cmo estn distribuidas las tres clases de razas dentro de la
poblacin total del conjunto analizado.
En otro ejemplo, si se afirma que existe un conjunto formado por 5 nmeros
diferentes que al ser sumados dan como resultado 24, en tal caso no es
indispensable conocer previamente todos los cinco nmeros que conforman el
conjunto, pero para poder calcular el valor exacto de cualquiera de los 5
nmeros que conforman ese conjunto s es necesario conocer al menos 4 de
esos 5 nmeros, como podra ocurrir con la combinacin conformada por los
siguientes cinco nmeros: 4+3+10+2+X = 24, combinacin en la cual
necesariamente se requiere conocer al menos 4 nmeros para poder calcular
directamente que el quinto nmero desconocido (representado por la X) es un
5, es decir, el Grado de Libertad existente entre los cinco datos diferentes tiene
un valor de 4.
En sntesis, el Grado de Libertad, que usualmente se representa por las letras
G.L., equivale a restarle 1 a un conjunto conformado por k variables
consideradas independientes entre s, lo cual se resume en la frmula: G.L.
=k 1. As, si el conjunto contiene 5 variables consideradas independientes
entre s, entonces el Grado de Libertad que le corresponde a cualquier variable
de ese conjunto es de: G.L. = 51 = 4, lo que equivale a que en ese conjunto
slo 4 variables una vez conocidas pueden operar de manera independiente
sin necesidad de que deba ser conocido el valor exacto de la quinta variable
del conjunto. Y si el conjunto contiene 2 variables independientes, como en el
ejemplo de las manzanas verdes y las manzanas rojas, entonces el Grado de
Libertad es 1, ya que: G.L. = 21 = 1, lo que equivale a que en ese conjunto
slo una variable ya conocida puede operar de manera independiente sin
necesidad de que deba ser conocido el valor exacto de la otra.
REPRESENTACIN GRFICA DEL MODELO IDEAL DE LA DISTRIBUCIN CHI
CUADRADO:
Un concepto matemtico es mucho ms fcil de comprender si se puede
visualizar la forma que generalmente asume en el abstracto mundo de los
nmeros.

La anterior grfica muestra los valores de la probabilidad de ocurrencia
de X dentro de una Distribucin Chi Cuadrado. En el eje horizontal de las
coordenadas se observa que de derecha a izquierda se incluyen todos los
valores posibles que puede asumir la variable aleatoria X. Estos valores
siempre corresponden a nmeros positivos (no admite nmeros negativos o
menores a cero), y tales valores pueden ir desde cero (0) hasta el infinito (),
aunque en esta grfica para efectos ilustrativos slo se han incluido algunos
valores relevantes ubicados entre 0 y 50. En el eje vertical se han incluido
algunos valores representativos de la probabilidad, y por eso ese eje slo
admite valores ubicados entre cero (que equivale a Muy Improbable) y 1 (que
equivale a Muy Probable). Las lneas curvas numeradas de color verde, que
desde la parte superior derecha hasta la parte inferior izquierda surcan toda la
grfica, representan algunos Grados de Libertad aplicables a todos los valores
que puede asumir X dentro de este espacio perfectamente delimitado.

Para calcular la probabilidad que tiene la variable X de aparecer dentro de un
determinado intervalo delimitado por cierto Grado de Libertad, es necesario
obtener el punto de la respectiva lnea roja (Grado de Libertad) en que se
produce la interseccin con la lnea recta prolongada desde el valor X ubicado
en el eje horizontal, y a continuacin desde ese punto de interseccin es
necesario prolongar una lnea recta hasta el eje vertical que nos da el valor de
la respectiva probabilidad de ocurrencia para la variable X.
Por ejemplo, si sobre el eje horizontal se quiere calcular la probabilidad que le
corresponde a la variable X cuando asume el valor 1 dentro de un Grado de
Libertad, es decir, se quiere calcular
2
1
(1), entonces en el eje horizontal
vemos que sobre el nmero 1 se extiende una lnea recta de color verde que
en determinado punto intercepta con la lnea roja No.1 que representa un solo
Grado de Libertad, y luego a partir de ese punto de interseccin se puede
extender la lnea recta de color verde hasta el eje vertical, donde termina
conectando sobre el valor 0,3173108 de probabilidad, es decir, dentro de una
Distribucin Ji Cuadrado es realmente muy baja la probabilidad de ocurrencia
del valor 1 cuando tiene un solo Grado de Libertad respecto de otra variable. Y
si ahora se calcula la probabilidad de X cuando asume el valor 1 dentro de 2
Grados de Libertad, es decir, cuando se calcula
2
2
(1), entonces vemos que
sobre el nmero 1 la lnea recta de color verde intercepta en un determinado
punto con la lnea roja No. 2 que representa 2 Grados de Libertad, y a partir de
ese punto de interseccin se puede extender una lnea recta hasta el eje
vertical, donde termina conectando sobre el valor 0,6065306 de probabilidad,
es decir, ahora aument la probabilidad de ocurrencia del valor 1 cuando ste
tiene 2 Grados de Libertad respecto de otras variables.
Y si se desea calcular la probabilidad que le corresponde a la
variable X cuando asume el valor 2 dentro de un Grado de Libertad, es decir,
se quiere calcular
2
1
(2), entonces en el eje horizontal vemos que sobre el
nmero 2 se extiende una lnea recta de color lila que en determinado punto
intercepta con la lnea roja No.1 que representa un solo Grado de Libertad, y
luego a partir de ese punto de interseccin se puede extender la lnea recta de
color lila hasta el eje vertical, donde termina conectando sobre el valor
0,1572992 de probabilidad, es decir, dentro de una Distribucin Chi Cuadrado
es muy baja la probabilidad de ocurrencia del valor 2 cuando tiene un solo
Grado de Libertad respecto de otra variable. Pero si ahora se calcula
la probabilidad de X cuando asume el valor 2 dentro de 6 Grados de Libertad,
es decir, se calcula
2
6
(2), entonces vemos que sobre el nmero 2 la lnea
recta de color lila intercepta en un determinado punto con la lnea roja No. 6
que representa 6 Grados de Libertad, y a partir de ese punto de interseccin se
puede extender una lnea recta hasta el eje vertical, donde termina conectando
sobre el valor 0,9196986 de probabilidad, es decir, ahora aument mucho ms
la probabilidad de ocurrencia del valor 2 cuando ste tiene 6 Grados de
Libertad respecto de otras variables de un mismo conjunto.
USO DE EXCEL PARA CALCULAR LA PROBABILIDAD DENTRO DE LA DISTRIBUCIN
CHI CUADRADO:
Actualmente para obtener el valor de la probabilidad que le corresponde a una
variable X dentro de una Distribucin Chi Cuadrado el lector puede utilizar
ciertas tablas que fcilmente se consiguen en la Web y que contienen esos
valores de probabilidad, o puede utilizar la til funcin DISTR.CHI de la hoja
de clculo Excel de Microsoft que facilita enormemente esa labor como se
seala a continuacin:

En primer lugar, como se observa en la anterior imagen, basta abrir un libro en
blanco y situar el curso en cualquier celda vaca. A continuacin se activa la
pestaa Insertar de la barra de herramientas y se selecciona insertar
Funcin. En el cuadro de dilogo que se abre se escoge la categora de las
funciones Estadsticas, y dentro de esta categora luego se selecciona la
funcin DISTR.CHI y se oprime Aceptar.

En el nuevo cuadro de dilogo que automticamente se abre para incluir los
argumentos de la funcin aparecen dos casillas vacas. La primera casilla es
para incluir cualquier posible valor ubicado entre cero y el infinito que pueda
asumir la variable X, y la segunda casilla es para incluir los Grados de Libertad
que le corresponden a ese valor dentro de un conjunto de variables similares.
Por ejemplo, podemos asumir que X tiene un valor de 2 y que tiene un (1) solo
Grado de Libertad frente a otra variable similar, y al introducir estos datos en
las casillas respectivas se observa que la hoja de clculo inmediatamente
arroja el valor de probabilidad equivalente a 0,157299265.
VARIACIN DE LA PROBABILIDAD EN LA DISTRIBUCIN CHI CUADRADO SEGN LOS
GRADOS DE LIBERTAD:
Las siguientes grficas, basadas en el uso de la hoja de clculo Excel,
muestran que cuando X tiene un valor de 2, su probabilidad de ocurrencia
segn una Distribucin ChiCuadrado se incrementa bastante a medida que
aumentan los Grados de Libertad que son atribuibles a ese valor respecto de
otras variables similares de un mismo conjunto:




Estas grficas muestran que con 2 Grados de Libertad la probabilidad de
ocurrencia del valor 2 asignado a X es tan slo de 0,367879. Con 3 Grados de
Libertad la probabilidad de ocurrencia del valor 2 se incrementa hasta
0,572406. Con 20 Grados de Libertad la probabilidad de ocurrencia del valor 2
asignado a X se incrementa enormemente hasta 0,999999, lo que indica que
su ocurrencia se vuelve altamente probablemente. Y finalmente, con 25
Grados de Libertad la probabilidad de ocurrencia del valor 2 es prcticamente
segura, porque adquiere un valor de probabilidad equivalente a 1.
Lo anterior es algo que no slo le ocurre al valor 2 asignado a X, sino que
tambin le ocurre a cualquier otro valor entre 0 y el infinito () ubicado sobre el
eje horizontal que pueda ser asumido por la variable aleatoria X. Es decir, en
una Distribucin Chi Cuadrado todo valor que pueda asumir la variable X con
un solo Grado de Libertad tiene un determinado valor de probabilidad dentro
de la escala que va de 0 (Improbable) hasta 1 (Muy Probable), pero a partir de
ese valor de probabilidad se observa que entre ms se incrementen los
respectivos Grados de Libertad, entonces el valor de la probabilidad tiende a
aumentar paulatinamente hasta llegar a 1 (Muy Probable).
La siguiente tabla, acompaada por el grfico que representa del valor de la
probabilidad, incluye algunos valores del eje horizontal que pueden ser
asumidos por la variable X, y se muestra que dentro de la Distribucin Chi
Cuadrado todos esos valores tienen una probabilidad de ocurrencia muy baja
cuando slo les corresponde un Grado de Libertad, pero entre ms se
incrementan los Grados de Libertad aplicables al valor de X, entonces se
observa que aumenta considerablemente el valor de su probabilidad hasta que
en cierto punto llega hasta 1:
Algunos
valores de X
Probabilidad de ocurrencia de X segn los Grados de Libertad aplicados:
1 1 grado = 0,31731081 2 grados = 0,60653066 3 grados = 0,80125196 20 grados = 1
2 1 grado = 0,15729926 2 grados = 0,36787944 4 grados = 0,73575888 25 grados = 1
5 1 grado = 0,02534732 5 grados = 0,41588023 8 grados = 0,75757614 36 grados = 1
10 1 grado = 0,0015654 10 grados = 0,44049329 13 grados = 0,69393438 49 grados = 1
20 1 grado = 0,0000077442 20 grados = 0,45792971 25 grados = 0,74682532 71 grados = 1
50 1 grado = 0,000000000001 50 grados = 0,47339846 57 grados = 0,73283137 124 grados = 1

Claramente se observa que hay cierto punto en el que los Grados de Libertad
asignados a un valor X permiten que su probabilidad de ocurrencia sea de 1.
Sobre esta dinmica matemtica establecida entre la probabilidad y los Grados
de Libertad se basa el modelo ideal de la Distribucin Chi Cuadrado.
En las siguientes secciones de esta obra se analiza la manera de usar la
Distribucin Chi Cuadrado para realizar contrastes entre los valores del modelo
terico ideal y los valores empricos observados dentro de una Muestra
Estadstica, y la manera de calcular si las desviaciones existentes entre esos
dos valores son o no significativas.