Está en la página 1de 29

CHI CUADRADO

2
• OBJETIVOS
– Describir situaciones donde es adecuado la
utilización de la prueba de Chi Cuadrado (2)
– Formular Hipótesis para diferentes situaciones.
– Calcular la Prueba de Chi Cuadrado e
interpretar los resultados.
– Evaluación de muestras Independientes.
CARACTERÍSTICAS
DE LA DISTRIBUCIÓN DE 2
 2 es siempre positivo porque es una suma de
cuadrados.
• Varia desde 0 a  (no tiene valores negativos)
• Familia de distribuciones que dependen de 1
parámetro (gl=grados de libertad)
• Media de la Distribución = gl
• Varianza de la Distribución=2gl
• La distribución tiene sesgo positivo y cuando los gl
aumentan se aproxima a la distribución normal
• Moda = gl-2 para gl2 y 0 para gl=1
gl=2

gl=3
gl=4
gl=5

0 2 Chi2 6 8
PRUEBAS DE 2
• BONDAD DE AJUSTE
– Se utiliza para la comparación de la distribución de una muestra
con alguna distribución teórica que se supone describe a la
población de la cual se extrajo.
• INDEPENDENCIA
– La Ho indica que 2 variables o criterios de clasificación son
independientes cuando se aplican a un conjunto de individuos
(unidades de observación)
– Totales Marginales Aleatorios
• HOMOGENEIDAD
– Se extraen Muestras Independientes de varias poblaciones y se
prueban para ver si son homogéneas con respecto a algún criterio
de clasificación.
– Un conjunto de Totales Marginales Son Fijos mientras que los otros
marginales son Aleatorios.
PRUEBAS DE 2

Bondad de Ajuste

• Uni-Dimesional
– Se basa en la Distribución de Probabilidad
Multinomial.
Propiedades de la Distribución de
Probabilidad Multinomial
• El experimento consiste en n ensayos idénticos.
• Hay k posibles resultados de cada ensayo.
• La probabilidad de k resultados son p1, p2, ...... pk y
se mantienen constantes de ensayo en ensayo
donde p1 + p2 + ...... + pk = 1
• Los ensayos son independientes.
• La variable aleatoria de interés son los conteos n1,
n2, ...... nk en cada una de la k categorías. 
Prueba de Bondad de Ajuste
Se trata de probar si los datos de una muestra tomada difieren de
cierta distribución predeterminada.
Los n datos tomados deben estar divididos en categorías

Categoría 1 2 3 … K  
Frecuencia Obs1 Obs2 Obs3 Obsk n
observada

Las probabilidades pi, de caer en la categoría i están dadas


por la H0 , son constantes entre ensayos y suman 1.
La hipótesis nula es H0: pi = valores dados, es decir los
datos siguen una distribución determinada con la cual se
calcularán las frecuencias esperadas.
La hipótesis alternativa H1: al menos una de las pi es
distinta de la probabilidad dada en la H0.
SUPUESTOS PARA LA PRUEBA DE 2

– Experimento multinomial. Lo que se satisface


tomando una muestra aleatoria de la población
de interés.
– El tamaño de muestra es lo suficientemente
grande para que el número esperado en las
categorías sea  5, para asegurar que 2 se
aproxime a la distribución real (multinomial).
– Se puede recurrir a colapsar categorías
contiguas (celdas) con valores esperados
menores de 5.
k
(Obsi  npio ) 2
La prueba estadística es: 
i 1 npio

Donde pio representa la proporción deseada en la i-ésima categoría, Obsi


la frecuencia observada en la categoría i y n es el tamaño de la
muestra.

La prueba estadística se distribuye como una Ji-Cuadrado con k-1 grados


de libertad donde, k es el número de categorías.
Si el valor de la prueba estadística (2 calculado) es mayor que el valor
crítico (2 de la tabla) se rechaza la hipótesis nula

 Oij2 Ei: frec. Esperada de la i-ésima clase


 c2 
E ij
n Oi: frec. Observada de la i-ésima clase
N: número de clases
gl  N  k  1
k: número de parámetros estimados a partir de la muestra
Tabla 1. Distribución de frecuencias del peso de 35 novillos.
Bondad de Ajuste con la Distribución Normal

Clases fo Xi z Pz P fe
330-344 3 337 -1,61 0,055 0,055 1,9 0,610
345-359 3 352 -0,97 0,166 0,111 3,9 0,204
360-374 4 367 -0,33 0,371 0,205 7,2 1,398
375-389 12 382 0,30 0,618 0,247 8,7 1,296
390-404 7 397 0,94 0,826 0,209 7,3 0,012
405-419 4 412 1,58 0,943 0,117 4,1 0,001
420-434 2 427 2,21 0,986 0,043 1,5 0,158
35  2 3,679

X  382.86; S  23.56 k=2


gl  k  1  N º parametros _ estimados gl=2
Tabla 1. Distribución de frecuencias del peso de 35 novillos.
Bondad de Ajuste con la Distribución Uniforme

Clases fo Xi P fe
330-344 3 337 1/7 5,0 0,800
345-359 3 352 1/7 5,0 0,800
360-374 4 367 1/7 5,0 0,200
375-389 12 382 1/7 5,0 9,800
390-404 7 397 1/7 5,0 0,800
405-419 4 412 1/7 5,0 0,200
420-434 2 427 1/7 5,0 1,800
35  2 14,400

gl  k  1  N º parametros _ estimados
gl=6
Tablas de Contingencia
• INDEPENDENCIA
– Experimento multinomial con clasificación con 2 criterios (2
factores). Los datos se pueden resumir en una tabla de 2 vías
(dimensiones). (Ejemplo número de animales enfermos por
condición corporal).
– La Ho indica que 2 variables o criterios de clasificación son
independientes cuando se aplican a un conjunto de individuos
(unidades de observación)
– Totales Marginales Aleatorios
• HOMOGENEIDAD
– Se extraen Muestras Independientes de varias poblaciones y se
prueban para ver si son homogéneas con respecto a algún criterio
de clasificación. (Ejemplo prevalencia de enfermos por región)
– Un conjunto de Totales Marginales Son Fijos mientras que los
otros marginales son Aleatorios.
La prueba de Independencia se efectúa para
probar si hay asociación entre las variables
categóricas A y B

La prueba de Homogeneidad es una


generalización de la prueba de igualdad de dos
proporciones.
Se trata de probar si para cada nivel de la
variable B, la proporción con respecto a cada
nivel de la variable A es la misma.
Hipótesis

Las hipótesis de Independencia:


Ho: Las variables A y B son independientes
P(AB)=P(A) P(B)

H1: Las variables A y B están asociadas

Las hipótesis de Homogeneidad:


Ho: Las proporciones de cada valor de la variable A son iguales en
cada categoría de la variable B. i Pi=P

Ha: Al menos una de las proporciones es diferente.

Ambas hipótesis se prueban usando una prueba de Chi-Cuadrado


Pruebas de Independencia y
Homogeneidad
Ambas hipótesis se prueban usando una prueba de Ji-Cuadrado:
r c (Oij  Eij ) 2
 2  
i 1 j de
donde Oij es la frecuencia observada
E
1 la celda ijque está en la fila i,

columna j, es la frecuencia esperada de la celda (i, j).


c j  ri
E 
La frecuencia esperada
ij es aquella que sería esperable encontrar si la hipótesis nula es
verdadera. n

El estadístico de la prueba se distribuye como una Ji-Cuadrado con


(r-1)(c-1) grados de libertad.

La hipótesis Nula se rechaza si , donde es el nivel de


gl  (r es1)
significancia o equivalentemente si el “p-value”
 (cque 1)
menor 0.05.

 
2 2

cal 1
Tablas de Contingencia
VARIABLE DE CLASIFICACIÓN COLUMNAS
1 2 3 .......... c Total
C
L
1 O11 O12 O13 .......... O1c r1
V
A
S
2 O21 O22 O23 .......... O2c r2
A
R
I
F
F
I
3 O31 O32 O33 .......... O3c r3
I
A
I
C
L
A
. . . . . . .
B
L
A S . . . . . . .
C
E
I r Or1 Or2 Or3 .......... Orc rr
Ó
N Total c1 c2 c3 .......... cc n
r c (Oij  Eij ) 2 c j  ri
  
2
Eij  gl  (r  1)  (c  1)
i 1 j 1 Eij n
PRUEBA DE INDEPENDENCIA

• Un veterinario sostiene que la castración de las perras es un


factor que está asociado a la incontinencia urinaria (IU) de
las mismas. A los efectos de probar sus dichos realizó un
estudio en un hospital donde a las hembras que ingresaban
las clasificó como castradas (C) y enteras (NC) y con
incontinencia (IU) y sin incontinencias (NIU) urinarias
obteniendo los siguientes resultados.

IU NIU Total
C 34 757 791
NC 7 2427 2434
Total 41 3184 3225
• ¿Pruebe a un nivel de significación de 0.05 si estas variables
están asociadas?
2
 c2   ij
O
n
Eij
gl  ( filas  1)(columnas  1)
Prueba de Homogeneidad
• A los efectos de probar la protección de 2 vacunas
contra los abortos producidos por una enfermedad
X se seleccionaron 3 lotes de 150 vacas cada uno
de un establecimiento con la enfermedad. Esto
lotes fueron vacunados con: Lote 1 = Placebo,
Lote 2 = Vacuna 1 y Lote 3 = Vacuna 2. En el
primer lote hubo 20 abortos en el "lote 2" 10
abortos y en el "lote 3" 5 abortos.

• Pruebe a un nivel de significación de 0,01 si la


respuesta a la vacunación fue homogénea.
nivel de confianza
gl = n-1
Ejemplo: Intervalo de Confianza 90% n=7

También podría gustarte