Distribucion Ji Cuadrado

1 Universidad Nacional Jorge Basadre Grohmann
Facultad de Ciencias Agrícolas

Escuela de Medicina Veterinaria y Zootecnia
LA DISTRIBUCIÓN DE JI-CUADRADO
FRECUENCIAS OBSERVADAS Y TEÓRICAS
Como ya hemos visto repetidamente, los resultados obtenidos por muestreo no siempre coinciden
exactamente con los esperados teóricamente de acuerdo con las leyes de las probabilidades. Por
ejemplo, aunque consideraciones teóricas conducen a esperar 50 caras y 50 cruces en 100 tiradas
de una moneda (buena), es raro que ocurra eso exactamente.
Supongamos que en una muestra particular un conjunto de sucesos posibles E1 , E2 , E3 , … , Ek ,
(véase tabla 1) se observa que ocurren con frecuencias ο 1 , ο 2 , ο3 , … , ο k , llamadas frecuencias
observadas, y que según las leyes de las probabilidades, se espera que sucedan con frecuencias
e 1 ,e 2 , e3 , … , ek ,llamadas frecuencias esperadas o teóricas.
Tabla 1
Suceso E1 E2 E3 … Ek
Frecuencia observada ο1 ο2 ο3 … οk
Frecuencia esperada e1 e2 e3 … ek
DEFINICIÓN x 2
Una medida de la discrepancia existente entre las frecuencias observadas y esperadas viene
proporcionada por el estadístico x 2 (léase ji-cuadrado) dada por:
2 2 2 k 2
2 ( ο1 +e 1 ) ( ο 2+ e2 ) ( οk + ek ) ( ο j +e j )
x= + +… =∑ (1)
e1 e2 ek j=1 ej
Donde si la frecuencia total es N,
∑ ο j=∑ e j =N (2)
Una expresión equivalente a la formula (1) es:
2 ο2j
x =∑ −N (3)
ej
1
Si x 2=0, las frecuencias observadas y teóricas coinciden completamente; mientras que si x 2> 0 , no
coinciden exactamente. A valores más grandes de x 2, mayor discrepancia entre las frecuencias
observadas y esperadas.
La distribución muestral de x 2se aproxima muy bien por la distribución ji-cuadrado
1
( ν−2 ) −1 x 2 −1 2
x
Y =Y 0 ( x 2 ) 2 e 2
=Y 0 x ν−2 e 2
( 4)
Si las frecuencias esperadas son al menos iguales a 5, y mejora para valores más grandes.
El número de grados de libertad,ν ,viene dado por:
1. ν=k −1 si las frecuencias esperadas se pueden calcular sin tener que estimar los parámetros
de la población a partir de los estadísticos muéstrales. Nótese que hemos restado 1 de k a
causa de la ligadura (2), que establece que si conocemos k −1 de las frecuencias esperadas,
la restante puede determinarse ya.
2. ν=k −1−m ,si las frecuencias esperadas se pueden calcular solo determinando m
parámetros de la población a partir de estadísticos de la muestra.
CONTRASTES DE SIGNIFICACIÓN
En la práctica, las frecuencias esperadas se calculan sobre la base de una hipótesis H 0. Si bajo tal
hipótesis el valor calculado para x 2 dado por (1) o (3) es mayor que algún valor crítico (tal como
x 2.95 o x2.99 , que son los valores críticos de los niveles de significación 0,05 y 0,01 respectivamente),
debemos concluir que las frecuencias observadas difieren significativamente de las frecuencias
esperadas y rechazaremos H 0al correspondiente nivel de significación: en caso contrario, la
aceptaremos (o al menos no la rechazaremos). Este procedimiento se llama el test o contraste ji
cuadrado de hipótesis o significación.
Hay que hacer constar que debe mirarse con suspicacia en circunstancias en las que x 2 sea
demasiado próximo a cero, pues es raro que las frecuencias observadas coincidan demasiado bien
con las frecuencias esperadas. Para examinar tales situaciones, podemos determinar si el valor
calculado de x 2 es menor que x 2.0,5 o x 2.0,1 , en cuyo caso hablaremos de decidir que el acuerdo es
demasiado bueno al nivel de significación 0,05 ó 0,01, respectivamente.
2
EL TEST JI – CUADRADO PARA LA BONDAD DE AJUSTE
El test – cuadrado puede utilizarse para determinar la calidad de ajuste mediante distribuciones
teóricas (como la distribución normal o la distribución binomial) de distribuciones empíricas (o sea,
la obtenidas de los datos de la muestra).
TABLA DE CONTINGENCIA
La tabla 1, en la que las frecuencias observadas ocupan una sola fila, se llama una tabla de
clasificación de entrada única. Como el número de columnas es k, también se llama una tabla 1xk
(leído “1 por k). Extendiendo estas ideas, podemos llegar a tablas de doble entrada o tablas h x k, en
las que las frecuencias observadas ocupan filas h filas y k columnas. Tales tablas se suelen llamar
tablas de contingencia.
Correspondiendo a cada frecuencia observada en una tabla de contingencia h x k, hay una
frecuencia esperada(o teórica) que se calcula sujeta a ciertas hipótesis de acuerdo con las leyes de
las probabilidades. Estas frecuencias, que ocupan las celdas de una tabla de contingencia, se llaman
frecuencias de celda. La frecuencia total en cada fila o en cada columna se llama frecuencia
marginal.
Para investigar el acuerdo entre las frecuencias observadas y las frecuencias esperadas, calculamos
el estadístico
2
2 ( ο j−e j )
x =∑ (6)
j ej
Donde la suma se toma sobre todas las celdas de una celda en una tabla de contingencia y donde
los símbolos ο j y e j representan, respectivamente, las frecuencias observadas y frecuencias
esperadas de la j-enésima celda. Esta suma, análoga a la ecuación (1), contiene h k términos. La
suma de todas las frecuencias observadas se denota por N y es igual a la suma de todas las
frecuencias esperadas.
Como antes, el estadístico (5) tiene una distribución muestral dada muy aproximadamente por (4),
supuso que las frecuencias esperadas nos sean demasiado pequeñas. El numero de grados de
libertad, ν , de esta distribución ji – cuadrado viene dado por h>1 y k> 1 por:
3
1. ν=( h−1 )( k −1 ) si las frecuencias esperadas se pueden calcular sin recurrir a estimaciones
muéstrales de los parámetros de la población. Para una demostración de esto.
2. ν=( h−1 )( k −1 )−m si las frecuencias esperadas solo se pueden calcular mediante estimación
de m parámetros de la población a partir de estadísticos de la muestra.
Los contrastes de significación para las tablas h x k son similares a los de las tablas 1 x k. Las
frecuencias esperadas se hallan sujetas a una hipótesis particular H 0 .Una hipótesis común es
suponer que las dos clasificaciones son mutuamente independientes.
Las tablas de contingencia se pueden generalizar a más dimensiones. Así por ejemplo, podemos
tener h x k x i, donde están presentes tres clasificaciones.
CORRECCIÓN DE YATES A LA CONTINUIDAD
Cuando se aplican resultados de distribuciones continuas a datos discretos, pueden hacerse ciertas
correcciones a la continuidad, como se ha visto en capítulos precedentes. Una corrección similar
existe cuando se usa la distribución ji – cuadrada. La corrección consiste en formular la ecuación (1)
como:
2 2 2
2 (|ο1−e1|−0.5 ) (|ο 2−e 2|−0.5 ) (|ο k −e k|−0.5 )
x ( corregido )= + +…+ ( 6)
e1 e2 ek
Y se llama corrección de Yates. Una modificación análoga existe pata (5).

En general, la corrección se hace solo cuando el número de grados de libertad es ν=1.Para grandes
muestras, esto da prácticamente los mismos resultados que el x 2 sin corregir, pero pueden surgir
dificultades cerca de valores críticos. Para pequeñas muestras donde cada frecuencia esperada está
entre 5 y 10, es quizás mejor comparar ambos valores de x 2 , corregido y sin corregir. Sin ambos
llevan a la misma conclusión acerca de la hipótesis, tal como el rechazo al nivel de significación 0,05
rara vez surgen dificultades. Si conducen a diferente conclusión, uno debe pensar en aumentar el
tamaño de la muestra o, si ello no es factible, en emplear método de probabilidades que involucren
la distribución multinomial.
FORMULAS SIMPLES PARA CALCULAR

Existen formulas sencillas para calcular x 2 que implican tan solo las frecuencias observadas. Los que
sigue da los resultados para tablas contingencia 2 x 2 y 2 x 3.
4
 Tabla 2 x 2
2 N (a1 b2−a2 b1)2 N ∆2

x= = (7)
( a1 +b1 ) ( a2+ b2 ) ( a1 +a 2) ( b1+ b2 ) N 1 N 2 N A N B
I II III Total
A a1 a2 a3 NA
I II Total
a1 a2 NA B b1 b2 b3 NB
A
b1 b2 NB Total N1 N2 N3 N
B
Total N1 N2 N
Donde:
∆=a 1 b 2−a2 b1 , N =a1 +a 2+ b1 +b2 , N 1=a1 +b 1 , N 2=a 2+ b2 , N A =a 1+ a2 , N B=b 1+ b2
Con corrección de Yates, esto se convierte en:
1 2 1 2
2
x ( corregido )=
(
N |a1 b2−a2 b 1|− N
2 ) =
(
N ∆− N
| |
2 ) (8)
( a1+ b1 ) ( a2 +b 2) ( a1+ a2 ) ( b1 +b 2 ) N 1 N 2 N A N B
 Tabla de 2 x 3
2 2 2 2 2 2
N a1 a2 a3 N b1 b2 b3
2
x=
[+ + + + +
N A N1 N2 N3 N B N1 N2 N3 ] [
−N (9)
]
Donde hemos usado el resultado general válido para todas las tablas de contingencia:
2 ο2j
x =∑ −N (10)
ej
El resultado (9) para tablas de contingencia 2 x k, con k > 3, admite generalización.
5
COEFICIENTE DE CONTINGENCIA
Una medida de grado de interrelación, asociación o dependencia de las clasificaciones e una tabla
de contingencia viene dada por
x2
C=
√ x2 + N
(11)
Que se llama el coeficiente de contingencia. Cuando mayor es C, mayor es el grado de asociación. El

número de filas y de columnas en la tabla de contingencia determina el máximo valor de C, que
nunca es mayor que 1. Si el numero de filas y columnas de una tabla de contingencia es igual a k, el
máximo valor de C esta dado por √ ( k −1 ) /k .
CORRELACIÓN DE ATRIBUTOS
Ya que las clasificaciones en una tabla de contingencia describen a menudo características de
individuos u objetos, se conoce como atributos, y el grado de dependencia, asociación o
interrelación se llama la correlación de atributos. Para tablas k x k, definimos:
x2
r=
√ N ( k−1 )
(12)
Como el coeficiente de contingencia entre atributos (o clasificaciones). Este coeficiente está entre 0
y 1. Para tablas 2 x 2 en las que k=2, la correlación se llama tetracórica.
PROPIEDADES ADITIVA DE x 2
Supongamos que los resultados de experimentos repetidos dan valores muéstrales de x 2 dados por
x 21 , x 22 , x 23 ,… con ν1 , ν 2 , ν 3 , … grados de libertad, respectivamente. Entonces el resultados de todos
esos experimentos puede considerarse equivalente a un valor de x 2dado por x 21+ x22 + x 23 +… con
ν1 + ν 2+ ν 3 +…grados de libertad.

Distribucion Ji Cuadrado

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Distribucion Ji Cuadrado

Cargado por

Copyright:

Formatos disponibles

1 Universidad Nacional Jorge Basadre Grohmann

Facultad de Ciencias Agrícolas

FRECUENCIAS OBSERVADAS Y TEÓRICAS

Donde si la frecuencia total es N,

Una expresión equivalente a la formula (1) es:

EL TEST JI – CUADRADO PARA LA BONDAD DE AJUSTE

CORRECCIÓN DE YATES A LA CONTINUIDAD

Y se llama corrección de Yates. Una modificación análoga existe pata (5).

FORMULAS SIMPLES PARA CALCULAR

2 N (a1 b2−a2 b1)2 N ∆2

Con corrección de Yates, esto se convierte en:

El resultado (9) para tablas de contingencia 2 x k, con k > 3, admite generalización.

Que se llama el coeficiente de contingencia. Cuando mayor es C, mayor es el grado de asociación. El

También podría gustarte