Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LA DISTRIBUCIÓN DE JI-CUADRADO
Como ya hemos visto repetidamente, los resultados obtenidos por muestreo no siempre coinciden
exactamente con los esperados teóricamente de acuerdo con las leyes de las probabilidades. Por
ejemplo, aunque consideraciones teóricas conducen a esperar 50 caras y 50 cruces en 100 tiradas
de una moneda (buena), es raro que ocurra eso exactamente.
Supongamos que en una muestra particular un conjunto de sucesos posibles E1 , E2 , E3 , … , Ek ,
(véase tabla 1) se observa que ocurren con frecuencias ο 1 , ο 2 , ο3 , … , ο k , llamadas frecuencias
observadas, y que según las leyes de las probabilidades, se espera que sucedan con frecuencias
e 1 ,e 2 , e3 , … , ek ,llamadas frecuencias esperadas o teóricas.
Tabla 1
Suceso E1 E2 E3 … Ek
Frecuencia observada ο1 ο2 ο3 … οk
Frecuencia esperada e1 e2 e3 … ek
DEFINICIÓN x 2
Una medida de la discrepancia existente entre las frecuencias observadas y esperadas viene
proporcionada por el estadístico x 2 (léase ji-cuadrado) dada por:
2 2 2 k 2
2 ( ο1 +e 1 ) ( ο 2+ e2 ) ( οk + ek ) ( ο j +e j )
x= + +… =∑ (1)
e1 e2 ek j=1 ej
∑ ο j=∑ e j =N (2)
2 ο2j
x =∑ −N (3)
ej
1
2 Universidad Nacional Jorge Basadre Grohmann
Facultad de Ciencias Agrícolas
Escuela de Medicina Veterinaria y Zootecnia
Si x 2=0, las frecuencias observadas y teóricas coinciden completamente; mientras que si x 2> 0 , no
coinciden exactamente. A valores más grandes de x 2, mayor discrepancia entre las frecuencias
observadas y esperadas.
La distribución muestral de x 2se aproxima muy bien por la distribución ji-cuadrado
1
( ν−2 ) −1 x 2 −1 2
x
Y =Y 0 ( x 2 ) 2 e 2
=Y 0 x ν−2 e 2
( 4)
Si las frecuencias esperadas son al menos iguales a 5, y mejora para valores más grandes.
El número de grados de libertad,ν ,viene dado por:
1. ν=k −1 si las frecuencias esperadas se pueden calcular sin tener que estimar los parámetros
de la población a partir de los estadísticos muéstrales. Nótese que hemos restado 1 de k a
causa de la ligadura (2), que establece que si conocemos k −1 de las frecuencias esperadas,
la restante puede determinarse ya.
2. ν=k −1−m ,si las frecuencias esperadas se pueden calcular solo determinando m
parámetros de la población a partir de estadísticos de la muestra.
CONTRASTES DE SIGNIFICACIÓN
En la práctica, las frecuencias esperadas se calculan sobre la base de una hipótesis H 0. Si bajo tal
hipótesis el valor calculado para x 2 dado por (1) o (3) es mayor que algún valor crítico (tal como
x 2.95 o x2.99 , que son los valores críticos de los niveles de significación 0,05 y 0,01 respectivamente),
debemos concluir que las frecuencias observadas difieren significativamente de las frecuencias
esperadas y rechazaremos H 0al correspondiente nivel de significación: en caso contrario, la
aceptaremos (o al menos no la rechazaremos). Este procedimiento se llama el test o contraste ji
cuadrado de hipótesis o significación.
Hay que hacer constar que debe mirarse con suspicacia en circunstancias en las que x 2 sea
demasiado próximo a cero, pues es raro que las frecuencias observadas coincidan demasiado bien
con las frecuencias esperadas. Para examinar tales situaciones, podemos determinar si el valor
calculado de x 2 es menor que x 2.0,5 o x 2.0,1 , en cuyo caso hablaremos de decidir que el acuerdo es
demasiado bueno al nivel de significación 0,05 ó 0,01, respectivamente.
2
3 Universidad Nacional Jorge Basadre Grohmann
Facultad de Ciencias Agrícolas
Escuela de Medicina Veterinaria y Zootecnia
El test – cuadrado puede utilizarse para determinar la calidad de ajuste mediante distribuciones
teóricas (como la distribución normal o la distribución binomial) de distribuciones empíricas (o sea,
la obtenidas de los datos de la muestra).
TABLA DE CONTINGENCIA
La tabla 1, en la que las frecuencias observadas ocupan una sola fila, se llama una tabla de
clasificación de entrada única. Como el número de columnas es k, también se llama una tabla 1xk
(leído “1 por k). Extendiendo estas ideas, podemos llegar a tablas de doble entrada o tablas h x k, en
las que las frecuencias observadas ocupan filas h filas y k columnas. Tales tablas se suelen llamar
tablas de contingencia.
Correspondiendo a cada frecuencia observada en una tabla de contingencia h x k, hay una
frecuencia esperada(o teórica) que se calcula sujeta a ciertas hipótesis de acuerdo con las leyes de
las probabilidades. Estas frecuencias, que ocupan las celdas de una tabla de contingencia, se llaman
frecuencias de celda. La frecuencia total en cada fila o en cada columna se llama frecuencia
marginal.
Para investigar el acuerdo entre las frecuencias observadas y las frecuencias esperadas, calculamos
el estadístico
2
2 ( ο j−e j )
x =∑ (6)
j ej
Donde la suma se toma sobre todas las celdas de una celda en una tabla de contingencia y donde
los símbolos ο j y e j representan, respectivamente, las frecuencias observadas y frecuencias
esperadas de la j-enésima celda. Esta suma, análoga a la ecuación (1), contiene h k términos. La
suma de todas las frecuencias observadas se denota por N y es igual a la suma de todas las
frecuencias esperadas.
Como antes, el estadístico (5) tiene una distribución muestral dada muy aproximadamente por (4),
supuso que las frecuencias esperadas nos sean demasiado pequeñas. El numero de grados de
libertad, ν , de esta distribución ji – cuadrado viene dado por h>1 y k> 1 por:
3
4 Universidad Nacional Jorge Basadre Grohmann
Facultad de Ciencias Agrícolas
Escuela de Medicina Veterinaria y Zootecnia
1. ν=( h−1 )( k −1 ) si las frecuencias esperadas se pueden calcular sin recurrir a estimaciones
muéstrales de los parámetros de la población. Para una demostración de esto.
2. ν=( h−1 )( k −1 )−m si las frecuencias esperadas solo se pueden calcular mediante estimación
de m parámetros de la población a partir de estadísticos de la muestra.
Los contrastes de significación para las tablas h x k son similares a los de las tablas 1 x k. Las
frecuencias esperadas se hallan sujetas a una hipótesis particular H 0 .Una hipótesis común es
suponer que las dos clasificaciones son mutuamente independientes.
Las tablas de contingencia se pueden generalizar a más dimensiones. Así por ejemplo, podemos
tener h x k x i, donde están presentes tres clasificaciones.
Cuando se aplican resultados de distribuciones continuas a datos discretos, pueden hacerse ciertas
correcciones a la continuidad, como se ha visto en capítulos precedentes. Una corrección similar
existe cuando se usa la distribución ji – cuadrada. La corrección consiste en formular la ecuación (1)
como:
2 2 2
2 (|ο1−e1|−0.5 ) (|ο 2−e 2|−0.5 ) (|ο k −e k|−0.5 )
x ( corregido )= + +…+ ( 6)
e1 e2 ek
4
5 Universidad Nacional Jorge Basadre Grohmann
Facultad de Ciencias Agrícolas
Escuela de Medicina Veterinaria y Zootecnia
Tabla 2 x 2
Donde:
∆=a 1 b 2−a2 b1 , N =a1 +a 2+ b1 +b2 , N 1=a1 +b 1 , N 2=a 2+ b2 , N A =a 1+ a2 , N B=b 1+ b2
1 2 1 2
2
x ( corregido )=
(
N |a1 b2−a2 b 1|− N
2 ) =
(
N ∆− N
| |
2 ) (8)
( a1+ b1 ) ( a2 +b 2) ( a1+ a2 ) ( b1 +b 2 ) N 1 N 2 N A N B
Tabla de 2 x 3
2 2 2 2 2 2
N a1 a2 a3 N b1 b2 b3
2
x=
[+ + + + +
N A N1 N2 N3 N B N1 N2 N3 ] [
−N (9)
]
Donde hemos usado el resultado general válido para todas las tablas de contingencia:
2 ο2j
x =∑ −N (10)
ej
5
6 Universidad Nacional Jorge Basadre Grohmann
Facultad de Ciencias Agrícolas
Escuela de Medicina Veterinaria y Zootecnia
COEFICIENTE DE CONTINGENCIA
Una medida de grado de interrelación, asociación o dependencia de las clasificaciones e una tabla
de contingencia viene dada por
x2
C=
√ x2 + N
(11)
CORRELACIÓN DE ATRIBUTOS
Ya que las clasificaciones en una tabla de contingencia describen a menudo características de
individuos u objetos, se conoce como atributos, y el grado de dependencia, asociación o
interrelación se llama la correlación de atributos. Para tablas k x k, definimos:
x2
r=
√ N ( k−1 )
(12)
Como el coeficiente de contingencia entre atributos (o clasificaciones). Este coeficiente está entre 0
y 1. Para tablas 2 x 2 en las que k=2, la correlación se llama tetracórica.
PROPIEDADES ADITIVA DE x 2
Supongamos que los resultados de experimentos repetidos dan valores muéstrales de x 2 dados por
x 21 , x 22 , x 23 ,… con ν1 , ν 2 , ν 3 , … grados de libertad, respectivamente. Entonces el resultados de todos
esos experimentos puede considerarse equivalente a un valor de x 2dado por x 21+ x22 + x 23 +… con
ν1 + ν 2+ ν 3 +…grados de libertad.