Está en la página 1de 10

REPBLICA BOLIVARIANA DE VENEZUELA

UNIVERSIDAD NACIONAL EXPERIMENTAL


POLITCNICA
ANTONIO JOS DE SUCRE
VICE-RECTORADO LUIS CABALLERO MEJAS
NCLEO GUARENAS

CHICU
ADRA
DO Y
TABLA
S DE
CONTI
NGEN
CIA

PROF.:

Angel garcia

AUTOR:
Yoger Mendez exp:2009100220

Guarenas, 17 de julio de 2015

Ajuste de chi-cuadrado
El test de chi-cuadrado es nicamente para las leyes discretas,
pero se puede utilizar tambin para muestras continuas agrupadas en
clases. El caso tpico es, como siempre, el de una muestra
de una ley desconocida. Las clases, denotadas
, son una
particin del conjunto de los valores posibles. La hiptesis a
comprobar tiene que ver con las probabilidades de las clases, para las
cuales se toman valores tericos

Bajo la hiptesis , la distribucin emprica de la muestra sobre


las clases debe estar cerca de la distribucin terica. La distribucin
emprica es la de las frecuencias de la muestra en las clases:

Se mide el ajuste de la distribucin emprica a la distribucin


terica por la distancia de chi-cuadrado.
Definicin 2.3 Se llama distancia de chi-cuadrado de
a , y se denota por

con respecto

, al valor:

La ''distancia'' de chi-cuadrado es por tanto una media


ponderada de las diferencias cuadrticas entre los valores de

No es una distancia en el sentido usual del trmino, pues ni


siquiera es simtrica. La ley de probabilidad de
no tiene una
expresin explcita en general. Se emplea entonces el siguiente
resultado.

Teorema 2.4 Bajo la hiptesis

la ley de la variable

aleatoria
converge, cuando
chi-cuadrado de parmetro .

tiende a infinito, a la ley de

Si la hiptesis
es falsa, entonces la variable
a infinito. Por tanto aplicaremos un test unilateral a la derecha
(rechazo de los valores muy grandes).

tiende

El ejemplo clsico del test es la experiencia de Mendel. En los


guisantes, el carcter del color esta codificado por un gen que toma
dos formas de alelo
y , correspondientes a los colores amarillo y
verde respectivamente. El amarillo es dominante, el verde recesivo. La
forma lisa o arrugada es llevada por otro gen con dos alelos
(dominante) y (recesivo). Si se cruzan dos individuos cuyo genotipo
es
, se pueden obtener
genotipos equiprobables.
Los
descendientes sern amarillos y lisos en casos de los
, amarillos
y arrugados en de los
, verdes y lisos en de los
, verdes y
arrugados en caso de los
. En sus experiencias Mendel obtuvo
los siguientes resultados.

Casos

Amarillo

Amarillo

Verde

Verde

Liso

Arrugado

Liso

Arrugado

315

101

108

32

0.567

0.182

0.194

0.058

9/16

3/16

3/16

1/16

El valor que toma el estadgrafo


es de
. Segn el
teorema 2.4, la regin de rechazo debe ser calculada con respecto a
la ley de chi-cuadrado
. Por ejemplo, para un umbral
deberamos rechazar los valores superiores a
. El p-valor de

es

. El resultado es

por tanto completamente compatible con , de hecho es un poco


``demasiado'' compatible: son muchos los que piensan que Mendel
pudo haber arreglado los resultados de sus experimentos para que

estos coincidieran tan bien con su teora!


El ejemplo que damos a continuacin tiene que ver con
familias de hijos para las cuales se conoce el nmero de varones,
entre 0 y .
El modelo ms simple que podemos proponer es que los
nacimientos son independientes y los dos sexos son equiprobables.
Por tanto la hiptesis nula es que la ley del nmero de varones
para una familia de hijos sigue la ley binomial
. Las
frecuencias, observadas y tericas, son las siguientes.
Varones

0.0572

0.2329

0.3758

0.2632

0.0709

1/16

4/16

6/16

4/16

1/16

El valor que toma el estadgrafo


es de
. Segn el
teorema 2.4, la regin de rechazo debe ser calculada con respecto a la
ley chi-cuadrado de parmetro
. Por ejemplo para un umbral de
, deberamos rechazar los valores superiores a
El p-valor de
rechazar la hiptesis .

es

. Podemos, por tanto,

El teorema 2.4 es un resultado asinttico. Para poder usarlo, el


orden del tamao de las muestras debe ser al menos de las centenas.
Adems la aproximacin que describe es menos buena cuando las
probabilidades de las clases son dbiles. Como regla emprica, se
exige que los efectivos tericos
de cada clase sean al menos
iguales a . Para alcanzar este objetivo a veces hay que recurrir al
reagrupamiento de las clases: se forman nuevas clases uniendo varias
de las iniciales, y se suman las frecuencias empricas y las

probabilidades tericas de las clases agrupadas.


El test de chi-cuadrado se emplea con frecuencia para hacer un
test de la bondad de ajuste a una familia particular de leyes que
dependen de uno o ms parmetros. En este caso, se debe estimar el
parmetro a partir de los datos. El teorema 2.4 no es ya del todo
vlido. Si se han estimado parmetros por el mtodo de mximo de
verosimilitud, a partir de las frecuencias de las diferentes clases, se
debe remplazar la ley
de

por la ley

Retomemos el ejemplo del nmero de varones en una familia


hijos, pero esta vez para probar la hiptesis nula:
el nmero de varones sigue una ley binomial

El parmetro es desconocido y debe ser estimado. El


estimador de mximo de verosimilitud (el cual maximiza la
probabilidad de los datos observados) es en este caso la proporcin
total de varones entre los
nios. Encontramos:

Ahora aplicamos el test, pero con la distribucin terica calculada


teniendo en cuenta el valor estimado del parmetro: la ley

Varones

0.0572

0.2329

0.3758

0.2632

0.0709

0.0556

0.2356

0.3744

0.2644

0.0700

El valor que toma el estadgrafo


es ahora de
. Debe ser comparado con los valores de la ley chi-cuadrado de
parmetro
. El p-valor de
es
, lo
cual muestra que el resultado es perfectamente compatible con la
hiptesis .
Al comparar los resultados de los dos test precedentes, se puede
aceptar la idea que los nacimientos son independientes, pero la
proporcin de los varones es significativamente superior a
.
Con frecuencia hay que estimar parmetros a partir de datos no
agrupados, o por otro mtodo diferente al de mximo de verosimilitud.
En ese caso no se dispone de un resultado terico claro. El valor lmite
a partir del cual se debe rechazar la hiptesis
comprendido entre

al umbral

est

. En la prctica, despus

de haber calculado el valor que toma


teniendo en cuenta
los parmetros estimados, es prudente tomar la siguiente actitud:
rechazar
no rechazar

si

,
si

no llegar a una conclusin s

Chi-cuadrado de contingencia
Un caso particular del test de chi-cuadrado, que permite hacer un
test sobre la independencia de dos caracteres estadsticos, lleva el
nombre de test de chi-cuadrado de contingencia. Los dos caracteres,
observados en una misma poblacin, son
e , el tamao de la

muestra es
las de

. Las modalidades o clases de

por

toma el valor

: es el nmero de individuos
e

el valor

el efectivo marginal de
individuos para los cuales

. Tambin vamos a denotar:

el efectivo conjunto de
para los cuales

se denotan

: es el nmero de

toma el valor

el efectivo marginal de
individuos para los cuales

: es el nmero de

toma el valor

Estos valores se representan en una tabla de doble entrada


conocida como tabla de contingencia.

Cada fila y cada columna corresponden a una submuestra


particular. La fila de ndice

es la distribucin en las clases

de los individuos para los cuales el carcter


columna de ndice

toma el valor

es la distribucin en las clases

. La
de los

individuos para los cuales el carcter


toma el valor . Dividiendo
las filas y las columnas por su suma, se obtienen frecuencias

condicionales para cada una de las distribuciones empricas.


Para

, las denotaremos por:

Y
Estas distribuciones empricas condicionales se llaman
los perfiles fila y los perfiles columna. Para el modelo probabilista, las
observaciones provienen de una muestra
de una ley bidimensional. La hiptesis a
comprobar es que los dos marginales de esta ley son independientes.
Si este es el caso, los perfiles fila diferirn poco de la distribucin
emprica de
y los perfiles columna de la de :

Y
Es equivalente a decir que las frecuencias conjuntas deben estar
cerca de los productos de las frecuencias marginales.

Las frecuencias conjuntas por un lado (distribucin observada), y


los productos de frecuencias marginales por el otro (distribucin
terica), constituyen dos distribuciones de probabilidad sobre el
conjunto producto
. Podemos, por tanto,
calcular la distancia de chi-cuadrado de una con respecto a la otra.

Proposicin 2.5
La distancia de chi-cuadrado de contingencia de la distribucin
emprica

a la distribucin terica estimada

vale:

Demostracin: La primera expresin es la aplicacin directa de la


definicin 2.3. Para obtener la segunda desarrollamos el cuadrado.

Por lo dicho anteriormente, para

suficientemente grande,

podemos aproximar la ley de


por la ley de chi-cuadrado cuyo
parmetro es el nmero de clases menos , restando adems el
nmero de parmetros estimados a partir de los datos agrupados en
clases. Aqu, son las frecuencias marginales las que han sido
estimadas. Hay
para el carcter
y
para el carcter
(la
ltima es el complemento a de la suma de las otras). El parmetro
de la ley chi-cuadrado ser por tanto:

Vamos a presentar un ejemplo de dos caracteres binarios, que


tienen que ver con enfermos, para los cuales se ha observado si
tienen o no una tendencia al suicidio (carcter X ). Las
enfermedades han sido clasificadas como ''psicosis'' y ''neurosis''
(carcter Y ). Se quiere saber si existe una dependencia entre las

tendencias al suicidio y la clasificacin de los enfermos. Supongamos


que la tabla de contingencia observada es:
tendencia

sin tendencia

total

psicosis

20

180

200

neurosis

60

140

200

total

80

320

400

La distancia de chi-cuadrado de contingencia, calculada a partir


de esta tabla es de

. El valor tomado por el estadgrafo

, el cual debemos comparar con la ley

es

. El p-valor es de:

Rechazamos la hiptesis nula y concluimos que hay una


dependencia entre la tendencia al suicidio y la clasificacin de las
enfermedades.
El test no precisa el sentido de esta dependencia. Para
describirla hay que comparar las proporciones de los suicidas entre los
neurticos
(
) y entre los sicticos (
proporciones formaliza esta comparacin.

). El test de

También podría gustarte