Está en la página 1de 13

DISTRIBUCIN CHI CUADRADA

Construccin del estadstico Chi cuadrada a partir de


frecuencias observadas y esperadas.
Utilizamos pruebas de una muestra para determinar si una media y una proporcion era
significativamente diferente de un valor hipotetizado. En las pruebas de dos muestras
examinamos la diferencia entre dos medias o entre dos proporciones, e intentamos
saber si esta diferencia era significativa.
En estadstica, la distribucin de Pearson, llamada tambin ji cuadrada o chi cuadrado
() es una distribucin de probabilidad continua con un parmetro k que representa
los grados de libertad de la variable aleatoria.
Es un estadistico que nos ayuda a decidir si las frecuencias observadas estan o no en
concordancia con las frecuencias esperadas (es decir, si el numero de resultados
esperados corresponde aproximadamente al numero esperado).

X 2=

(fofe)2
fe

Siendo :
fo: Observado

fe: esperado

Para comprobarlo, haremos un contraste de hipotesis usando dicha distribucion:


EJEMPLO:
En un grupo de enfermos que se quejaban de que no dormian se les dio somniferos y
placebos. Con los siguientes resultados. Nivel de significacion de 0.05
SOMNIFEROS
PLACEBOS

DUERMEN BIEN
44
81

DUERMEN MAL
10
35

Es lo mismo tomar somniferos o placebos para dormir bien o mal en este grupo de
enfermos?
Las hiportesis de este ejemplo, serian las siguientes:
Ho: no es lo mismo tomar somniferos o placebos para dormir bien o mal
H1: es lo mismo tomar somniferos o placebos para dormir bien o mal
Para la realizacion del ejemplo se muestran los pasos a seguir.
PASO 1:
Completar la tabla de frecuencias observadas.
SOMNIFEROS
PLACEBOS
TOTAL

DUERMEN BIEN
44
81
125

DUERMEN MAL
10
35
45

TOTAL
54
116
170

PASO 2:
Calcular las frecuencias teoricas.
Para este calculo, tenemos que basarnos en la formula: (total filas x total de
columnas)/ total

fe 1=

(Duermen bien con sonmiferos)

125 x 54
=39.71
170

fe 2=

(Duermen bien con placebos)

116 x 125
=85.29
170

fe 3=

(Duermen mal con somniferos)

45 x 54
=14.29
170

fe 4=

(Duermen mal con placebos)

45 x 116
=30.71
170

La suma de las frecuencias observables debia ser igual a la suma de las frecuencias
esperdas. En este caso podemos decir, que dicho pronostico se cumple:
Suma de frecuencias observadas = 170
Suma de frecuencias esperadas= 39.71 + 85.29 + 14.29 + 30.71 =170
PASO 3:
Calcular los grados de libertad. En este caso, como son dos los criterios de
clasificacion, el grado de libertad se calcularia asi:
Grados de libertad = (# de filas 1) x (# de columnas-1)
Grados de libertad = (2-1) x (2-1) = 1 x 1 = 1
PASO 4:
Calcular el valor de chi cuadrado.

X 2=

( fofe ) 2 ( 4439.71 ) 2 ( 8185.29 ) 2 (1014.29 ) 2 ( 3530.71 ) 2


=
+
+
+
fe
39.71
85.29
14.29
30.71

X 2= (0.46 )+ ( 0.22 )( 1.29 )0.6=2.57

PASO 5:
Ver la tabla.
Buscamos en la tabla de la distribucion

X2

el valor que se compara con el del

resultado del chi cuadrado. Tenemos que tener en cuenta el nivel de significacion
(0.05) y el grado de libertad (1).

Observando la tabla, obtenemos pues que le valor que buscamos es 3.84

PASO 6:
Comparar los valores.
Valor calculado = 2.57
Valor de la tabla = 3.84

CONCLUSION
2.57 <3.84

Aceptamos Ho y rechazamos H1. Podemos decir que la diferencia no es


estadisticamente significativa. Es decir, no es lo mismo usar somniferos o placebos
para dormir bien o mal en este grupo de enfermos.

Uso de la prueba chi cuadrada


Suponga que tenemos proporciones de cinco poblaciones en lugar de solamente dos.
En este caso, debemos utilizar la prueba chi cuadrada, estas pruebas no permiten
probar si mas de dos proporciones de poblacion pueden ser consideradas iguales.
En realidad, las pruebas de chi cuadrada nos permiten hacer mucho mas que
solamente probar la igualdad de varias proporciones. Si clasificamos una poblacionen
diferentes categorias con respecto a dos atributos (por ejemplo, edad y desempeo
en el trabajo), entonces podemos utilizar una prueba chi cuadrada para determinar si
los dos atributos son independientes entre si.

Descripcion de una distribucion chi cuadrada


Si la hipotesis nula es verdadera, entonces la distribucion de muestreo de la
2
estadistica chi cuadrada, x , puede aproximarse bastante bien mediante una curva
continua conocida como distribucion chi cuadrada. Como en el caso de la distribucion

t , existe una distribucion chi cuadrada para cada numero distinto de grados de
libertad. Para un numero muy pequeo de grados de libertad, la distribucion chi
cuadrada esta seriamente sesgada hacia la derecha. Conforme aumenta el numero de
grados de libertad, rapidamente la curva se va haciendo cada vez mas simetrica hasta
que el numero de grados de libertad se hace bastante grande, en cuyo caso la
distribucion puede aproximarse con la normal.

La distribucion chi cuadrada es uan distribucion de probabilidad. En consecuencia, el


area total bajo la curva de cada distribucion chi cuadrada es 1.0. como en el caso de
la distribucion t es posible tener un numero muy grande de distribucion chi cuadrada,
de modo que no resulta practico construir una tabla que contenga las areas bajo la
curva de todos los valores posibles del area.

Determinacion de los grados de libertad.


Para utilizar la prueba chi cuadrada debemos calcular el nmero de grados de libertad
en la tabla de contingencia mediante la aplicacin de la ecuacin.
numero de grados de libertad=( numero de renglones1)(numero de columnas1)

dice que, de un conjunto de observaciones, los grados de libertad estn dados por el
nmero de valores que pueden ser asignados de forma arbitraria, antes de que el
resto de las variables tomen un valor automticamente, producto de establecerse las
que son libres, esto, con el fin de compensar e igualar un resultado el cual se ha
conocido previamente. Se encuentran mediante la frmula n-r, donde n=nmero de
sujetos en la muestra que puede tomar un valor de forma libre y r es el nmero de
sujetos cuyo valor depender del que tomen los miembros de la muestra que son
libres. Tambin pueden ser representados por k-r, donde k=nmero de grupos, esto,
cuando se realizan operaciones con grupos y no con sujetos individuales.
Cuando se trata de eliminar los estadsticos con un conjunto de datos, los residuos
-expresados en forma de vector- se encuentran habitualmente en un espacio de
menor dimensin que aqul en el que se encontraban los datos originales. Los grados
de libertad del error los determina, precisamente, el valor de esta menor dimensin.

Chi cuadrada como prueba de independencia


En muchas ocasiones, se necesitan saber si las diferencias que se observan entre
varias proporciones de muestra son significativas o solamente son resultado del azar.
Suponga que en una campaa de un candidato a la presidencia del pas estudia tres
regiones geogrficas diferentes y encuentra que 35, 42 y 51%, respectivamente de los
votantes investigados de las tres regiones reconocen el nombre del candidato. Si esta
diferencia es significativa, se puede llegar a la conclusin de que el lugar afectara la
forma en que debe actuar el candidato. Pero si la diferencia no es significativa (es
decir, si el administrador llega a la conclusin de que la diferencia solamente se debe
al azar), entonces puede decidir que el lugar escogido para pronunciar un discurso
proselitista en particular no tendr efecto en su recepcin. Para conducir la campaa
con xito, entonces, el administrador necesita determinar si el lugar y el
reconocimiento del nombre del candidato son dependientes o independientes.

Tablas de contingencia
Suponga que en cuatro regiones, la Compaa Nacional de Cuidado de la Salud
muestrea las actitudes de los empleados de sus hospitales con respecto al examen de
desempeo en el trabajo. A los trabajadores se les da a escoger entre el mtodo
actual (dos exmenes al ao) y un nuevo mtodo propuesto (exmenes cada
trimestre).
NORESTE
Nmero de
empleados
que prefieren
el mtodo
actual
Nmero de
empleados

68

SURESTE

75

CENTRAL

57

COSTA
OCCIDENTAL

79

TOTAL

279

que prefieren
32
45
33
31
141
el nuevo
mtodo.
Total de
100
120
90
110
400
empleados
muestreados
en cada
regin.
Una tabla como esta, est conformada por renglones y columnas: los renglones corren
de manera horizontal y las columnas verticalmente. Note que las cuatro columnas de
la tabla anterior proporcionan una base de clasificacin (regiones geogrficas) y que
los dos renglones clasifican la informacin de otra manera: preferencia por algn
mtodo de revisin. Se le conoce como tabla de contingencia de 2 x 4, ya que
consta de dos renglones y cuatro columnas. Describimos las dimensiones de una tabla
de contingencia estableciendo primero el nmero de renglones y luego el nmero de
columnas. La columna y el rengln con el total no se cuentan como parte de las
dimensiones.

Frecuencias observadas y esperadas.


Suponga que ahora simbolizamos las porciones reales de la poblacin total de
empleados que prefieren el plan actual como:

px proporcin de empleados en el noreste que prefieren el presente plan


ps proporcin de empleados en el sudeste que prefieren el presente plan

pc

plan
pw

proporcin de empleados de la regin central que prefieren el presente


proporcin de empleados de la regin de la costa occidental que

prefieren el presente plan


Utilizando estos smbolos, podemos establecer la hiptesis nula y alternativa de la
siguiente manera:
Ho: p x = ps =p c = pw hipotesis nula

H 1 : p x ps p c y p w no son todosiguales hipotesis alternativa

Si la hiptesis nula es verdadera, podemos combinar los datos de las cuatro muestras
y luego estimar la proporcin de la fuerza de trabajo total (la poblacin total) que
prefiere el mtodo actual de revisin:
Porcin combinada de trabajadores que prefieren el mtodo presente, suponiendo
que la hiptesis nula de ninguna diferencia es verdadera.

68+75+57+ 79
100+120+ 90+110

279
420

0.6643

Obviamente, si el valor 0.6643 estima la proporcin de poblacin esperada que


prefiere el mtodo presente de evolucin, entonces 0.3357 ( = 1 0.6643) es la
estimacin de la proporcin esperada de la poblacin que prefiere el mtodo
propuesto. Utilizando 0.6643 como la estimacin de la proporcin de la poblacin que
prefiere el actual mtodo de evaluacin del trabajo, y 0.3357 como la estimacin de
la proporcin de la poblacin que prefiere l nuevo mtodo, podemos estimar el
nmero de empleados muestreados en cada regin de los cuales podramos esperar
que prefieran cada uno de los mtodos de evaluacin.

NORESTE

SURESTE

CENTRAL

COSTA

Numero total
muestreado
Proporcion
estimada que
prefiere el
mtodo actual
Numero que se
espera que
prefiera el
mtodo actual.
Numero total
muestreado
Proporcion
estimada que
prefiere el
nuevo mtodo.
Numero que se
espera que
prefiera el
nuevo metodo

100

120

0.6643

66.43

100
0.3357

33.57

0.6643

90
0.6643

OCCIDENTAL
110
0.6643

79.72

59.79

73.07

120

90

110

0.3357

0.3357

40.28

30.21

0.3357

36.93

Comparacin de frecuencias esperada y observada.


En la siguiente tabla se combina toda la informacin contenida en las tablas
anteriores. En ella se ilustran tanto la frecuencia real, u observada, como la terica,
o esperada, de trabajadores muestreados que prefieren cada uno de los mtodos de
evaluacin. Recuerde que las frecuencias esperadas, fueron estimadas a partir de
nuestra estimacin combinada de proporcin.
NORESTE

SURESTE

CENTRAL

COSTA
OCCIDENTAL

68

75

57

79

66.43

79.72

59.79

73.07

FRECUENCIA DE
PREFERENCIA
DEL METODO
ACTUAL

Frecuencia
observada
(real)
Frecuencia
esperada
(terica)
FRECUENCIA DE

PREFERENCIA
DEL NUEVO
METODO

Frecuencia
observada
(real)
Frecuencia
esperada
(terica)

32

45

33

31

33.57

40.28

30.21

36.93

Para probar la hiptesis nula,

px = p s= pc = p w , debemos comparar las frecuencias

que fueron observadas con las frecuencias que esperaramos si la hiptesis nula fuera
verdadera. Si los conjuntos de frecuencias observadas y esperadas son casi iguales,
podemos razonar de manera intuitiva que aceptaremos la hiptesis nula. Si existe una
diferencia grande entre estas frecuencias, podemos intuitivamente rechazar la
hiptesis nula y llegar a la conclusin de que existen diferencias significativas en las
proporciones de empleados de las cuatro regiones que prefieren el nuevo mtodo.
La estadstica chi cuadrada
Para ir ms all de nuestros sentimientos intuitivos acerca de las frecuencias
observadas y esperadas, podemos hacer uso de la estadstica de chi cuadrada, la cual
se calcula de la manera siguiente.

Esta frmula estable que chi cuadrada, o

, es la suma que obtendremos si:

1. Restamos

f e de f o

para cada una de las ocho cajas o celdas de la ltima tabla

mostrada
2. Elevamos al cuadrado cada una de las diferencias
3. Dividimos cada diferencia al cuadrado entre f e y
4. Sumamos los ocho resultados
La respuesta obtenida de 2.764 es el valor de chi cuadrada en nuestro problema de
comparacin de preferencias de mtodos de evaluacin. Si este valor fuera muy
grande, digamos 20, indicara una diferencia sustantiva entre nuestros valores
observados y los valores esperados.

Chi cuadrada como prueba de bondad de ajuste.


La prueba chi cuadrada puede utilizarse tambin para decidir si una distribucin de probabilidad en
particular, como la binominal, la de Poisson o la normal, es la distribucin apropiada. Esta es una
habilidad importante, ya que se necesitara recoger una cierta distribucin de probabilidad para
representar la distribucin de los datos que tengamos que trabajar. Necesitaremos la habilidad de
cuestionar que tan lejos podemos avanzar a partir de las suposiciones que subyacen en una distribucin
particular antes de que debamos concluir que tal distribucin ya no se puede aplicar. La prueba chi
cuadrada nos permite hacernos esta pregunta y probar si existe una diferencia significativa entre una
distribucin de frecuencias observada y una distribucin de frecuencias tericas. De esta manera,
podemos determinar la bondad de ajuste de una distribucin terica (es decir, que tan bien se ajusta la
distribucin de datos que observamos en realidad). As pues, podemos determinar si debemos creer que
los datos observados constituyen una muestra obtenida de la distribucin terica hipotetizada.

Suponga que la compaa Gordon requiere que los recin graduados de la universidad
que buscan una colocacin en la empresa sean entrevistados por tres ejecutivos
diferentes. Esto permite a la compaa obtener una evaluacin condensada de los
candidatos. Cada uno de los ejecutivos califica al candidato en forma positiva o
negativa. En la tabla se muestran los resultados de las entrevistas de los ltimos 100
candidatos.

POSIBLES CALIFICACIONE POSITIVAS EN


TRES ENTREVISTAS
0
1
2

NUMERO DE CANDIDATOS QUE


OBTIENEN CADA UNA DE LAS
CALIFICACIONES
18
47
24

11
100

Con el propsito de planificar su fuerza de trabajo, el director de contratacin de


personal de la compaa piensa que el proceso de entrevistas puede ser aproximado
por una distribucin binominal con p=0.40 , es decir, con una posibilidad de 40% de
que cualquier candidato obtenga una calificacin positiva en cualquiera de las
entrevistas. Si el director desea probar esta hiptesis a un nivel de significancia de
0.20, de que manera debe proceder?
H o :Unadistribucion binomial con p=0.40

es una buena descripcin del proceso de

entrevistas.
H 1 :Una distribucion binominal con p=0.40

no es una buena descripcin del proceso de

entrevistas
Para determinar este problema, debemos determinar si las discrepancias entre las
frecuencias observadas y aquellas que esperaramos (si la distribucin binominal fuera
el mtodo apropiado a utilizarse) debern atribuirse al azar. Podemos empezar por
determinar cules seran las probabilidades binominales para esta situacin en
particular. Para las tres entrevistas, encontraramos la probabilidad de xitos en la
tabla de distribucin normal.