Está en la página 1de 98

DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

ANÁLISIS DE DATOS CATEGÓRICOS

Graciela Gei
graciela.gei@fce.uncu.edu.ar

Facultad de Ciencias Económicas - UNCuyo

Mayo de 2021

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

CONTENIDOS

1 DESCRIPCIÓN DEL EXPERIMENTO


Variables Ordinales y Nominales
Modelo Multinomial

2 PRUEBAS DE BONDAD DE AJUSTE


Frecuencias esperadas pequeñas

3 TABLAS DE CONTINGENCIA BIDIMENSIONALES


Prueba de Independencia
Corrección de Yates

4 TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

5 PRUEBA EXACTA DE FISHER


La Familia Hipergeométrica
Prueba exacta de Fisher

6 APÉNDICE
Cálculo de valores esperados de una tabla de contingencia

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Introducción
En muchas situaciones los experimentos resultan en mediciones
que son categóricas más que cuantitativas. Una variable categórica
es una variable para la cual la escala de medida consiste en un
conjunto de categorı́as.
En estos casos una cualidad o caracterı́stica es identificada para
cada una de las unidades experimentales u objetos de la población
bajo estudio.
Los datos que surgen de estas mediciones se pueden resumir
evaluando el número de mediciones que se obtienen en cada una
de las categorı́as de la variable bajo estudio.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Variables Ordinales y Nominales


Las variables categóricas son de dos tipos. Cuando tienen un orden
natural en sus categorı́as se denominan variables ordinales. Por
ejemplo:
la evaluación del nivel de inventario de una empresa:
demasiado bajo, bajo, correcto, alto, demasiado alto.
respuesta a un tratamiento médico: excelente, bueno, regular,
malo.
el nivel de ingreso de una familia: por encima de la linea de
pobreza, por debajo de la linea de pobreza.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Datos de respuesta Categóricos


Si las variables no tienen definido un orden natural en sus
categorı́as se denominan variables nominales. Por ejemplo:
la afiliación religiosa: católica, judia, protestante, otra.
la forma de transporte al trabajo: automóvil, bicicleta, bus,
subterraneo, caminando.
la prefencia en el tipo de música: clásica, folclore, jazz, rock,
otra.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Datos de respuesta Categóricos


Los métodos estadı́sticos para variables ordinales utilizan el orden
de las categorı́as y sus resultados pueden variar si se modifica el
orden considerado. Es decir se podrı́an obtener por ejemplo
resultados distintos si las categorı́as se consideran de bajo a alto o
se consideran de alto a bajo.
Los métodos diseñados para variables ordinales no pueden usarse
para variables nominales.
En cambio los métodos diseñados para variables nominales si se
pueden usar para las variables ordinales, puesto que los mismos
solo requieren una escala categórica.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Datos de respuesta Categóricos


Cuando usamos los métodos diseñados para variables nominales
con variables ordinales no se considera la información que
proporciona el orden de las categorı́as, por lo tanto los resultados
que se obtienen pierden potencia.
Si bien es mejor utilizar la metodologı́a especı́fica para cada tipo de
variable, debido a las exigencias de este curso, solo estudiaremos
los métodos que se pueden aplicar a los dos tipos de variables
categóricas.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Datos de respuesta Categóricos


El análisis de datos categóricos en general requiere hacer
suposiciones sobre el modelo que ha generado los datos.

Los modelos más utilizados son el de Poisson, el Binomial y su


generalización en el Modelo Multinomial.
Los modelos de Poisson y Binomial fueron estudiados en
Estadı́stica I, veremos ahora la generalización del modelo Binomial
al Mltinomial.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Caracterı́sticas del Modelo Multinomial


Muchos de los ejemplos de variables categóricas muestran las
siguientes caracterı́sticas:
El experimento consiste en n ensayos idénticos e
independientes entre si.
El resultado de cada ensayo cae en exactamente una de k
categorı́as o celdas diferentes.
La probabilidad de que el resultado de un ensayo caiga en una
celda particular, la celda i, es πi donde i = 1,P
2, . . . , k y
continúa igual de un ensayo a otro. Además ki=1 πi = 1.

Estas caracterı́sticas definen un modelo multinomial. Este modelo


es una generalización del modelo binomial, ya que es este con
k = 2.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Modelo Multinomial
Se dice que las variables aleatorias X1 , · · · , Xk tienen una
distribución multinomial si la función densidad conjunta está dada
por
n!
fX1 ,··· ,Xk (x1 , · · · , xk ) = π x1 . . . πkxk
x1 ! · · · xk ! 1
donde ki=1 πi = 1, para cada i, xi = 0, 1, . . . , n y ki=1 xi = n
P P

X1 , · · · , Xk tienen distribución binomial con parámetros n y


π1 , . . . , πk , entonces
i. E (Xi ) = n · πi
ii. var (Xi ) = n · πi · (1 − πi )
iii. cov (Xi , Xj ) = −n · πi · πj

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Demostración
La distribución marginal de Xi se puede utilizar para determinar la
media y la varianza.
Xi puede interpretarse como el número de intentos que caen en la
celda i. Podemos considerar todas las celdas, excluyendo la i,
combinadas en una celda grande.
Entonces cada intento resultará en la celda i o en la celda que no
es i, con probabilidades πi o 1 − πi , respectivamente.
Entonces Xi tiene distribución marginal binomial y en
consecuencia,

E (Xi ) = n · πi y var (Xi ) = n · πi · (1 − πi )

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Demostración de cov (Xi , Xj )


Consideremos el experimento multinomial como una sucesión de n
intentos independientes y definamos

1 si el intento k resulta en la clase i
Uk =
0 de otro modo


1 si el intento k resulta en la clase j
Vk =
0 de otro modo

Entonces
n
X n
X
Xi = Uk y Xj = Vh
k=1 h=1

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO


Demostración de cov (Xi , Xj )
Xi es el número de veces que se observa la clase i. Del mismo
modo interpretamos Xj .
Observemos que Uk y Vk no pueden ser ambas iguales a 1 (el
k − ésimo artı́culo no puede estar simultáneamente en la celda i y j.
Por lo tanto el producto Uk · Vk es siempre igual a cero y resulta
E (Uk · Vk ) = 0.
Los siguientes resultados nos permitirán calcular cov (Xi , Xj ) :

E (Uk ) = πi
E (Vk ) = πj
cov (Uk , Vh ) = 0 si k 6= h porque los intentos son independientes
cov (Uk , Vk ) = E (Uk · Vk ) − E (Uk ) · E (Vk ) = 0 − πi · πj
= −πi · πj

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO


Demostración de cov (Xi , Xj )

n X
X n
cov (Xi , Xj ) = cov (Uk , Vh )
k=1 h=1
n
X n X
X n
= cov (Uk , Vk ) + cov (Uk , Vh )
k=1 k=1 h=1
k6=h
n
X n
XX n
= (−πi · πj ) + 0
k=1 k=1 h=1
k6=h
= −n πi · πj

La covarianza es negativa, como ya se esperaba, ya que un número


grande de resultados en la celda i origina un número bajo de
resultados en la celda j.
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

DESCRIPCIÓN DEL EXPERIMENTO

Debido a que el cálculo de probabilidades multinomiales es muy


engorroso, serı́a difı́cil calcular en forma exacta las probabilidades
de cometer errores de tipo I para las hipótesis sobre los valores
π1 , . . . , π k .
Karl Pearson propuso un estadı́stico muy útil para probar hipótesis
respecto a los parámetros π1 , . . . , πk y proporcionó la distribución
muestral aproximada de este estadı́stico.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Introducción
La primera aplicación inferencial a datos categóricos se desarrolló a
principios del siglo pasado y trataba de determinar si un conjunto
de datos sigue una cierta distribución de probabilidad.
Esta problemática se denomina prueba de bondad de ajuste.
En el proceso analı́tico se propone evaluar la discrepancia entre las
frecuencias observadas (ni ) y las esperadas bajo la distribución de
probabilidad considerada (mi ) .

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Introducción
Es decir, consideremos que se dispone de una muestra aleatoria de
tamaño n de una variable aleatoria X dividida en k clases
exhaustivas y mutuamente excluyentes.
Sea Ni con i = 1, · · · , k la variable aleatoria que representa el
número de observaciones de la i-ésima clase de la variable aleatoria
X.
Entonces la hipótesis nula es

H0 : F (x) = F0 (x)

donde F0 (x) es el modelo de probabilidad propuesto para la


variable aleatoria X y se encuentra especificado bajo H0 .
H0 es una hipótesis simple. En general la hipótesis alternativa es
compuesta.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Introducción
Dado que F0 (x) está especificada se puede obtener la probabilidad
πi de que, bajo H0 , una observación corresponda a la i-ésima clase.
Además se verifica que
k
X
πi = 1.
i=1

Sea
Pk ni la realización de Ni con i = 1, ..., k de manera que
i=1 ni = n.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Prueba de bondad de ajuste


En 1900 Karl Pearson propuso como estadı́stico de prueba para
analizar la hipótesis planteada a la variable
k
X [Ni − E (Ni )]2
E (Ni )
i=1

donde E (Ni ) es la frecuencia esperada de la i-ésima clase de la


variable aleatoria X bajo H0 .
Pearson probó que si n es suficientemente grande dicho estadı́stico
tiene distribución χ2 con k − 1 grados de libertad.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Prueba de bondad de ajuste


Aunque la prueba matemática está fuera del propósito de este
curso podemos demostrar este resultado en forma sencilla para el
caso de k = 2.
Si k = 2 entonces 2i=1 πi = 1 y N2 = n − N1 .
P

2
X [Ni − E (Ni )]2 [N1 − n · π1 ]2 [N2 − n · π2 ]2
= +
E (Ni ) n · π1 n · π2
i=1
[N1 − n · π1 ]2 [(n − N1 ) − n (1 − π1 )]2
= +
n · π1 n · (1 − π1 )
[N1 − n · π1 ]2
=
n · π1 · (1 − π1 )

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Prueba de bondad de ajuste


Hemos visto que para n grande,
N − n · π1
p 1
n · π1 · (1 − π1 )

tiene aproximadamente una distribución normal estándar.


Además hemos probado que el cuadrado de una variable normal
estándar tiene distribución χ2 con 1 grado de libertad. Luego,

2
X [Ni − E (Ni )]2 [N1 − n · π1 ]2
=
E (Ni ) n · π1 · (1 − π1 )
i=1

tiene distribución χ2 con k − 1 = 1 grado de libertad.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Prueba de bondad de ajuste


Para k > 2 la determinación del número apropiado de grados de
libertad para la distribución del estadı́stico de prueba puede ser un
poco complicada y será especificado para cada aplicación.
En general podemos decir que el número apropiado de grados de
libertad será igual al número de celdas, k, menos 1 grado de
libertad por cada restricción lineal independiente colocada en las
probabilidades por celda.
Una restricción que está siempre presente es
k
X
πi = 1.
i=1

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Prueba de bondad de ajuste


Para bondad de ajuste y para otras aplicaciones que utilizan el
estadı́stico de prueba propuesto por Pearson hay restricciones que
se introducen por la necesidad de estimar parámetros desconocidos
requeridos para el cálculo de las frecuencias esperadas por celda.
Cuando deban estimarse parámetros desconocidos para
calcular el valor observado del estadı́stico de prueba con
distribución χ2 deben emplearse estimadores de máxima
verosimilitud. En este caso los grados de libertad de la distribución
χ2 se reduce en 1 por cada parámetro estimado.

k
X [Ni − E (Ni )]2
∼ χ2 (k − p − 1)
E (Ni )
i=1

donde p es el número de parámetros estimados.


ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Test de la Prueba de Bondad de Ajuste


En una prueba de bondad de ajuste, si existe concordancia entre
las frecuencias observadas y las esperadas el valor del estadı́stico
de Pearson será próximo a cero, luego el test resulta,
k
X [ni − n · πi ]2
τ : Rechazar H0 ⇔ >h
n · πi
i=1

donde h es el cuantil de orden 1 − α de la distribución χ2 con k − 1


grados de libertad.

Como regla práctica, el criterio de decisión que aquı́ se describe no


se deberı́a utilizar a menos que cada una de las frecuencias
esperadas sea por lo menos igual a cinco. Esta restricción podrı́a
requerir la combinación de celdas adyacentes, lo que dará como resultado
una reducción en el número de grados de libertad.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 1
Para ilustrar esta prueba consideremos el lanzamiento de un dado. Se
quiere chequear si es legal con un nivel de significación del 5%. Para esto
se lanza 120 veces el dado y se registra cada resultado. Si el dado es
legal la distribución es uniforme discreta luego bajo H0 resulta
1
fX (x) = I{1,2,3,4,5,6} (x)
6
Los resultados de los 120 lanzamientos se presentan en la tabla siguiente.

cara 1 2 3 4 5 6
observadas 20 22 17 18 19 24
esperadas 20 20 20 20 20 20

Luego,
(20 − 20)2 (22 − 20)2 (17 − 20)2 (18 − 20)2 (19 − 20)2 (24 − 20)2
uo = + + + + + = 1.7
20 20 20 20 20 20

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 1
Al comparar las frecuencias observadas con las esperadas
correspondientes debemos decidir si es posible que tales discrepancias
ocurran como resultado de fluctuaciones en el muestreo o si en realidad
se deben a que el dado no está balanceado.
k 2
X [ni − n · πi ]
τ : Rechazar H0 ⇔ >h
n · πi
i=1

donde h = 11.07 es el cuantil de orden 0.95 de la distribución χ2 con 5


grados de libertad.

Decisión
uo = 1.7 < h = 11.07 =⇒ no se rechaza H0
ó 
p-valor = P χ2 (5) > 1.7 = 0.8889 > α = 0.05 =⇒ no se rechaza H0 .
Concluimos que no hay suficiente evidencia de que el dado está
desbalanceado.
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Con R
> prob=c(1/6,1/6,1/6,1/6,1/6,1/6)
> fo=c(20,22,17,18,19,24)

> chisq.test(fo,p=prob)

Chi-squared test for given probabilities

data: n
X-squared = 1.7, df = 5, p-value = 0.8889

Obtenemos: uo = 1.7 y p-valor = 0.8889

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 2
El número de accidentes X por semana en un crucero se verificó por
n = 60 semanas con los resultados que se muestran en la tabla que se da
continuación.
Se quiere analizar si la variable aleatoria X tiene distribución de Poisson
suponiendo que las observaciones son independientes.

λx exp−λ
fX (x) = I{0,1,2,··· } (x)
x!

x 0 1 2 3 o más
frecuencias 35 15 10 0

Como λ es desconocido debemos hallar su estimación de máxima


verosimilitud.
Sabemos que el estimador máximo verosı́mil para λ es X .
b = 35 = 0.583.
Para los datos, λ
60
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 2
Las probabilidades asociadas a cada celda son,

π1 = P (X = 0) = exp−λ
π2 = P (X = 1) = λ · exp−λ
= P (X ≥ 2) = 1 − exp−λ +λ · exp−λ .
 
π3

Estimamos estas probabilidades reemplazando λ por su valor estimado.


Obtenemos

π
b1 = 0.558 , π
b2 = 0.325 y π
b3 = 0.117

Si las observaciones son independientes las frecuencias por celda N1 , N2


y N3 tienen una distribución multinomial con parámetros π1 , π2 y π3 .
Entonces E (Ni ) = n · πi y Eb (Ni ) = n · π
bi para i = 1, 2, 3

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 2
Obtenemos la siguiente tabla.

x 0 1 2 o más
Frecuencias 35 15 10
observadas
Frecuencias
esperadas y 33.48 19.5 7.02
estimadas

Entonces el estadı́stico de prueba


h i2
3
X Ni − Eb (Ni )

i=1 Eb (Ni )

tiene distribución χ2 con k − 1 − 1 = 1 grado de libertad.


ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 2
Obtenemos la siguiente tabla.

x 0 1 2 o más

Frecuencias 35 15 10
observadas
Frecuencias
esperadas y 33.48 19.5 7.02
estimadas
2 2 2
(35 − 33.48) (15 − 19.5) (10 − 7.02)
uo = + + = 2.37
33.48 19.5 7.02

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 2
Al comparar las frecuencias observadas con las esperadas
correspondientes debemos decidir si es posible que tales discrepancias
ocurran como resultado de fluctuaciones en el muestreo o si en realidad
se deben a que la distribución no es Poisson.
3 2
X [ni − n · π
bi ]
τ : Rechazar H0 ⇔ >h
n·πbi
i=1

donde h = 3.84 es el cuantil de orden 0.95 de la distribución χ2 con 1


grado de libertad.

Decisión
uo = 2.37 < h = 3.84 =⇒ no se rechaza H0
ó 
p-valor = P χ2 (1) > 2.37 = 0.124 > α = 0.05 =⇒ no se rechaza H0 .
Concluimos que no hay suficiente evidencia para rechazar que el número
de accidentes por semana tiene una distribución de Poisson.
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Con R
> x=c(0,1,2)
> fo=c(35,15,10)
> lambda=sum(x*fo)/sum(fo)
> xx=c(0,1)
> prob=c(dpois(xx,lambda),1-sum(dpois(xx,lambda)))
> chisq.test(fo,p=prob)

Chi-squared test for given probabilities


data: fo
X-squared = 2.3725, df = 2, p-value = 0.3054

El p-valor que proporciona R utiliza 2 grados de libertad ya que


considera el valor de λ como dato. Sólo podemos utilizar el valor
observado del estadı́stico de prueba.
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Frecuencias esperadas pequeñas


Cuando se tienen dos categorı́as, es decir k = 2 (en este caso los
grados de libertad son g .l = 1) cada frecuencia esperada debe ser
por lo menos de 5. Cuando g .l. > 1, es decir k > 2, la prueba de la
bondad de ajuste no deberı́a ser usada si más del 20% de las
frecuencias esperadas son menores de 5 o cuando cualquier
frecuencia esperada es menor que 1. Esta regla práctica es
conocida con el nombre de Regla de Cocran.
Esto se debe a que la distribución del estadı́stico de prueba es
asintóticamente χ2 es decir se necesita que las frecuencias
esperadas tiendan a infinito para que esta distribución sea un buen
ajuste a la distribución del estadı́stico. Sin embargo se logra una
buena aproximación si se tiene en cuenta la Regla de Cocran.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Frecuencias esperadas pequeñas


Desde el punto de vista práctico, la aproximación es buena cuando
las frecuencias esperadas son mayores que 5. Las frecuencias
esperadas pueden incrementarse al combinar categorı́as adyacentes,
siempre que naturalmente existan más de dos categorı́as.
Si comenzamos con dos categorı́as y tenemos una frecuencia
esperada menor de 5 o si después de combinar categorı́as
adyacentes finalizamos con dos categorı́as con alguna frecuencia
esperada menor de 5, entonces se puede usar la distribución
binomial para determinar la probabilidad asociada con la
ocurrencia de las frecuencias observadas según H0 . Veremos un
ejemplo de aplicación de la distribución binomial.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 3
En un estudio de los efectos del estrés, un investigador enseñó a 18
estudiantes dos métodos diferentes para hacer el mismo nudo. La
mitad de los sujetos seleccionados aleatoriamente aprendieron
primero el método A y la otra mitad aprendió primero el método B.
Posteriormente se sometió a todos los estudiantes a una situación
de alto estrés,un examen final de cuatro horas de duración.
Después de la situación de estrés se le pidió a cada uno de los
estudiantes que hiciera el nudo. Se supone que después de una
situación de estrés los sujetos utilizarán el primer método
aprendido. Para analizar esto se registró si el estudiante utilizó el
primer método aprendido o el segundo después de la situación de
estrés. Los resultados se muestran en la siguiente tabla.
Método escogido
Aprendido antes Aprendido después Total
Frecuencia 16 2 18

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 3
Consideramos la variable Y número de estudiantes que eligen el
primer método aprendido cuando se someten a estrés.

Y ∼ Binomial (n = 18, π)
En la hipótesis nula consideramos que no hay diferencias bajo
estrés, es decir no existen diferencias entre la probabilidad de usar
el primer método aprendido π y la probabilidad de usar el segundo
método aprendido 1 − π.
Se sospecha que bajo estrés es más probable que se utilice el
primer método que el segundo. Es decir las hipótesis se plantean,
1 1
H0 : π = vs. H1 : π >
2 2

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 3
El test resulta,
τ : Rechazar H0 ⇔ y0 > h
donde y0 es el número de estudiantes que elijen el primer método
aprendido y h es el cuantil de orden 1 − α de la distribución
1
binomial bajo H0 , es decir con π = .
2

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

PRUEBA DE BONDAD DE AJUSTE

Ejemplo 3
Consideremos como nivel de significación α = 0.01

Decisión
h = 14 =⇒ y0 = 16 > h =⇒ se rechaza H0
O también podemos determinar el p-valor.
 
1
p-valor = P Y ≥ 16 | π = = 1 − pbinom(15, 18, 0.5)
2
= 0.0006561279 < α = 0.01

Concluimos que bajo estrés es más probable que los estudiantes


elijan el primer método aprendido.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Con R
> fo=c(16,2)
> prob=c(1/2,1/2)
> chisq.test(fo, p=prob)

Chi-squared test for given probabilities

data: fo
X-squared = 10.889, df = 1, p-value = 0.0009674

El p-valor que proporciona R es para una prueba bilateral, para


nuestro planteo, p = 0.00048. Es una buena aproximación al valor
exacto calculado anteriormente.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA
BIDIMENSIONALES

Introducción
Un problema frecuente en datos categóricos se refiere a la
evaluación de la independencia de dos criterios de clasificación de
las personas u objetos de una población bajo estudio.
Por ejemplo podrı́amos clasificar
una muestra de personas por género y por opinión acerca de
un problema polı́tico para analizar si las opiniones polı́ticas
son independientes del género.
una muestra de balances de una empresa, con sede en
distintas provincias, por el tipo de defecto y la sucursal donde
fue realizado. Se busca probar si el tipo de defecto es
independiente de la sucursal.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA
BIDIMENSIONALES

Una muestra aleatoria de una población se clasifica de acuerdo con


dos caracterı́sticas X e Y , variables categóricas, cada una de las
cuales contiene un número r y c de categorı́as, respectivamente. El
tamaño de la muestra es n.
Tenemos r × c celdas que contienen la frecuencia o conteo del
conjunto de elementos clasificados. La información de la que se
dispone constituye un arreglo matricial r × c que se denomina

tabla de contingencia o tabla de clasificación cruzada

y de acuerdo al número de categorı́as podrá ser cuadrada o


rectangular.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA
BIDIMENSIONALES

Consideraremos la siguiente notación.


nij el número de observaciones en la categorı́a i de la variable
aleatoria X y en la categorı́a j de la variable aleatoria Y , para
i = 1, ..., r y j = 1, ..., c. Podemos considerar que es un valor
observado de la variable aleatoria Nij .
mij = E (Nij ) los valores esperados bajo H0 .
πij las probabilidades teóricas
pij = π
bij las probabilidades empı́ricas
Las tablas siguientes representan los valores observados y los
valores esperados para una tabla de contingencia bidimensional.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

VALORES OBSERVADOS X × Y

Y
categorı́as 1 2 ··· c totales
1 n11 n12 ··· n1c n1·
X 2 n21 n22 ··· n2c n2·
.. .. .. .. .. ..
. . . . . .
r nr 1 nr 2 ··· nrc nr ·
totales n·1 n·2 ··· n·c n··

ni· representan los totales marginales observados por fila y se definen


como la suma de las c categorı́as de la i − ésima fila.
Es decir
X c
ni· = nij = ni1 + ni2 + · · · + nij + · · · + nic
j=1

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

VALORES OBSERVADOS X × Y

Del mismo modo


n·j representan los totales marginales observados por columna y se
definen como la suma de las r categorı́as de la j − ésima columna.
r
X
n·j = nij = n1j + n2j + · · · + nij + · · · + nrj
i=1

La suma de cualquiera de los totales marginales produce el número


total de elementos observados n.
Es decir,
c
X r
X
n = n·· = n·j = ni·
j=1 i=1

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

VALORES ESPERADOS X × Y

Cada sujeto en la muestra seleccionado de forma aleatoria tiene


probabilidad πij de caer en la categorı́a i de X y en la categorı́a j
de Y .
Es decir,
πij = P [X = i ∧ Y = j]
πij i = 1, . . . r j = 1, . . . c representa la distribución conjunta de
(X , Y ) .
Es decir, πij representa la probabilidad que un elemento
seleccionado al azar de la población bajo estudio se encuentre en la
categorı́a (i, j) de la tabla de contingencia.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

VALORES ESPERADOS X × Y

Las distribuciones marginales resultan,


c
X
πi· = πij i = 1, . . . r
j=1

Es decir πi· representa la probabilidad marginal que un individuo se


encuentre en la categorı́a i de la variable X .
r
X
π·j = πij j = 1, . . . c
i=1

Del mismo modo π·j representa la probabilidad marginal que un individuo


se encuentre en la categorı́a j de la variable Y . Se verifica
r
X c
X r X
X c
πi· = π·j = πij = 1
i=1 j=1 i=1 j=1

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

VALORES ESPERADOS X × Y

Y
categorı́as 1 2 ··· c totales
1 m11 m12 ··· m1c m1·
X 2 m21 m22 ··· m2c m2·
.. .. .. .. .. ..
. . . . . .
r mr 1 mr 2 ··· mrc mr ·
totales m·1 m·2 ··· m·c m·· = n

mi· representan los totales marginales esperados por fila y m·j los
totales marginales esperados por columna.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

VALORES ESPERADOS X × Y

Los totales esperados se determinan a partir de las probabilidades


teóricas,
mij = πij · n

mi· = πi· · n y m·j = π·j · n


representan los totales marginales esperados.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

ANÁLISIS DE INDEPENDENCIA

Si las dos variables X e Y son independientes, la probabilidad


conjunta debe ser producto de las marginales. De esta forma la
hipótesis nula es,

H0 : πij = πi· · π·j para i = 1, · · · , r y j = 1, · · · , c


Bajo H0 el estadı́stico
r X
c
X (Nij − n πi· π·j )2
n πi· π·j
i=1 j=1

tiene asintóticamente distribución χ2 con r · c − 1 grados de


libertad.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

ANÁLISIS DE INDEPENDENCIA

En general las probabilidades deben ser estimadas.


Si las observaciones se seleccionan de manera independiente las
frecuencias por celda Nij tienen distribución multinomial y la
estimación de máxima verosimiltud es simplemente la frecuencia
relativa observada por celda. Esto es,
nij
π
bij =i = 1, · · · , r y j = 1, · · · , c
n
Del mismo modo para las probabilidades marginales,
ni· n·j
π
bi· = y π
b·j =
n n

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

ANÁLISIS DE INDEPENDENCIA

Se puede probar que si se reemplazan las probabilidades marginales


por sus estimaciones, el estadı́stico de prueba continuará teniendo
una distribución χ2 y los grados de libertad se obtienen restando
un grado de libertad por cada parámetro que se estima.
Luego el estadı́stico resulta
r X
c
X (Nij − n π
bi· πb·j )2

bi· π
b·j
i=1 j=1

 ni· n·j 2
r X
c Nij −
n
X
ni· n·j
i=1 j=1
n

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

ANÁLISIS DE INDEPENDENCIA

Estadı́stico de prueba
El estadı́stico de prueba es,
 ni· n·j 2
r X c Nij −
n
X
ni· n·j
i=1 j=1
n
que tiene asintóticamente distribución χ2 con (r − 1)(c − 1)
grados de libertad.

Los grados de libertad se obtienen considerando el número de


celdas, r · c, menos 1 grado de libertad por cada restricción lineal
independiente colocada en las probabilidades por celda.
Es decir
gl = r · c − 1 − (r − 1) − (c − 1) = (r − 1)(c − 1)
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

ANÁLISIS DE INDEPENDENCIA

Ejemplo
Se desea determinar si las opiniones de los residentes votantes de
una ciudad respecto de una reforma impositiva son independientes
de sus niveles de ingresos. Se toma una muestra aleatoria de 1000
votantes registrados en esa ciudad clasificando sus ingresos como
bajo, medio y alto y registrando si están a favor o en contra de la
reforma.

Nivel de Ingresos
bajo medio alto totales
a favor 182 213 203 598
en contra 154 138 110 402
totales 336 351 313 1000

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

ANÁLISIS DE INDEPENDENCIA

Ejemplo
Determinaremos si existe dependencia entre el nivel de ingresos y
su opinión sobre la reforma con un nivel de significación del 5%.
Calculamos las frecuencias esperadas bajo el supuesto de
independencia. En la tabla siguiente se muestran entre paréntesis
las frecuencias esperadas.

Nivel de Ingresos
bajo medio alto totales
a favor 182 (200.9) 213 (209.9) 203 (187.2) 598
en contra 154 (135.1) 138 (141.1) 110 (125.8) 402
totales 336 351 313 1000

Luego,
(182 − 200.9)2 (154 − 135.1)2 (213 − 209.9)2 (138 − 141.1)2 (203 − 187.2)2 (110 − 125.8)2
uo = + + + + +
200.9 135.1 209.9 141.1 187.2 125.8

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

Ejemplo
Luego el valor observado es uo = 7.85
A partir de este valor calculamos el p-valor correspondiente

p-valor = P[χ2 (2) > 7.85] = 0.0197

donde el estadı́stico de prueba tiene distribución χ2 con


(2 − 1)(3 − 1) = 2 grados de libertad.
Teniendo en cuenta que

p-valor = 0.0197 < 0.05 = α

podemos concluir, con un nivel de significación del 5%, que existe


dependencia entre entre el nivel de ingresos y la opinión sobre la
reforma impositiva.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Con R
> tabla=matrix(c(182,154,213,138,203,110),2,3)
> chisq.test(tabla)

Pearson’s Chi-squared test

data: tabla
X-squared = 7.8782, df = 2, p-value = 0.01947

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Corrección de Yates. Corrección por continuidad


Es importante destacar que la distribución χ2 es una distribución
continua y aproxima bastante bien a la distribución muestral
discreta en la medida que el número de grados de libertad sea
mayor que 1.
En tablas de contingencia 2 × 2 donde se tiene sólo un grado de
libertad se utiliza la corrección de Yates. En este caso el estadı́stico
de prueba que se utiliza está dado por la siguiente expresión.
 ni· n·j 2
r X c | Nij − | −0.5
n
X
ni· n·j
i=1 j=1
n

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Corrección de Yates. Corrección por continuidad


Si las frecuencias esperadas son grandes, los resultados corregidos
y sin corregir son casi iguales.
Cuando las frecuencias esperadas están entre 5 y 10 se debe aplicar
la corrección de Yates. Algunos autores consideran que hay que
aplicarla siempre que n ≤ 200.
Para frecuencias esperadas menores que 5 se deberı́a utilizar la
prueba exacta de Fisher. Sin embargo esto se puede evitar
aumentando el tamaño de muestra.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

ANÁLISIS DE INDEPENDENCIA

Ejemplo
Determinaremos si existe dependencia entre el cáncer de pulmón y la
condición de ser fumador o no, con un nivel de significación del 5%.
Calculamos las frecuencias esperadas bajo el supuesto de independencia.
En la tabla siguiente se muestran entre paréntesis las frecuencias
esperadas.

Cáncer Totales
SI NO
Fumador 11 (7.7) 44 (47.3) 55
No Fumador 3 (6.3) 42 (38.7) 45
totales 14 86 100

Luego,
(| 11 − 7.7 | −0.5)2 (| 3 − 6.3 | −0.5)2 (| 44 − 47.3 | −0.5)2 (| 42 − 38.7 | −0.5)2
uo = + + + = 2.631
7.7 6.3 47.3 38.7

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Con corrección de Yates


Para el ejemplo analizado comprobamos que tenemos frecuencias
esperadas entre 5 y 10, debemos aplicar la corrección de Yates.
Por default R aplica la corrección de Yates en tablas 2 × 2
>datos=c(11,3,44,42)
>tabla=matrix(datos,2,2)
>chisq.test(tabla)

Pearson’s Chi-squared test with Yates’ continuity correction

data: tabla
X-squared = 2.631, df = 1, p-value = 0.1048

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Con corrección de Yates


Para el ejemplo analizado, si no aplicamos la corrección de Yates
obtenemos resultados diferentes.

>chisq.test(tabla, correct=F)

Pearson’s Chi-squared test

data: tabla
X-squared = 3.6545, df = 1, p-value = 0.05592

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Con corrección de Yates


Para tablas donde n ≤ 200 los resultados corregidos y sin corregir
pueden ser diferentes.
Resulta más seguro aplicar en estos casos la corrección de Yates
aunque las frecuencias esperadas sean superiores a 10.
En la tabla del ejemplo, tenemos 100 observaciones.
Consideraremos la misma tabla pero con 200 observaciones.
Es decir, el vector de datos es: ddatos = 2 ∗ datos
Definiremos la tabla con estos datos y haremos el ajuste con y sin
corrección de Yates.
tabla=matrix(ddatos,2,2)
chisq.test(tabla) y chisq.test(tabla, correct=FALSE)

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Con corrección de Yates


Para tablas donde n ≤ 200 los resultados corregidos y sin corregir
pueden ser diferentes.
Pearson’s Chi-squared test with Yates’ continuity correction
data: tabla
X-squared = 6.2435, df = 1, p-value = 0.01247

Pearson’s Chi-squared test


data: tabla
X-squared = 7.309, df = 1, p-value = 0.006861

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Con corrección de Yates


Para tablas donde las frecuencias esperadas son grandes, los
resultados corregidos y sin corregir son muy similares.
>dddatos=3*datos
>tabla=matrix(dddatos,2,2)
>chisq.test(tabla)

Pearson’s Chi-squared test with Yates’ continuity correction


data: tabla
X-squared = 9.884, df = 1, p-value = 0.001667

>chisq.test(tabla, correct=F)

Pearson’s Chi-squared test


data: tabla
X-squared = 10.963, df = 1, p-value = 0.0009293

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

En la sección anterior, describimos el análisis de una tabla de


contingencia mediante el uso de ejemplos que se ajustaban al
modelo multinomial. Aunque los métodos para recolectar datos en
muchos estudios pueden satisfacer los requisitos de un modelo
multinomial, otros métodos no los satisfacen. Por ejemplo
podrı́amos no querer muestrear en forma aleatoria a una población
y decidir de antemano entrevistar a un número especificado de
personas de las categorı́as por fila o columna. De este modo se
fijan de antemano los totales por fila o columna.
Entonces tendrı́amos experimentos binomiales separados e
independientes. Supongamos que se fijan los totales por columna,
de esta forma la hipótesis nula es,

H0 : π·1 = π·2 = · · · = π·c

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

Bajo H0 el estadı́stico
r X
c
X (Nij − n π
bi· πb·j )2

bi· π
b·j
i=1 j=1

 ni· n·j 2
r X
c Nij −
n
X
ni· n·j
i=1 j=1
n
tiene asintóticamente distribución χ2 .

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

Los grados de libertad se determinan considerando que hay r · c


probabilidades en total.
Como los totales por columna son fijos la suma de probabilidades
en cada columna debe ser igual a 1, es decir

π1j + π2j + · · · + πrj = 1

para j = 1, 2, . . . c. Es decir hay c restricciones lineales en las πij


que resultan en una pérdida de c grados de libertad.
Finalmente es necesario estimar r − 1 probabilidades fila
disminuyendo en r − 1 los grados de libertad. Por lo tanto

g .l. = r · c − c − (r − 1) = (r − 1) (c − 1)

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

Ejemplo
Una encuesta de las opiniones de los votantes se realizó en cuatro
distritos polı́ticos urbanos para comparar la fracción de votantes
que están a favor del candidato A. Muestras aleatorias de 200
votantes fueron entrevistados en cada uno de los cuatro distritos,
con los resultados que se muestran en la siguiente tabla.
Determinaremos si existe suficiente evidencia para indicar que las
fracciones de votantes a favor del candidato A difieren en los
distritos con un nivel de significación del 5%.

Distrito
Opinión 1 2 3 4 totales
a favor de A 76 53 59 48 236
no a favor de A 124 147 141 152 564
totales 200 200 200 200 800

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

Ejemplo
Si indicamos que la proporción de votantes a favor del candidato A
en el distrito i es πi para i = 1, . . . , 4 la hipótesis nula es

H0 : π1 = π2 = . . . = π4 = π

Por lo tanto las probabilidades de que los votantes no estén a favor


de A son 1 − π.
El estimador de máxima verosimilitud (EMV) de π bajo H0 está
dado por
n1· 236
π
b= =
n 800
El número esperado de personas que están a favor de A en cada
distrito bajo H0 está dado por
236
Eb (N11 ) = · · · = Eb (N14 ) = 200 · π
b = 200 · = 59
800
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

Ejemplo
El número esperado de personas que no están a favor de A en cada
distrito bajo H0 está dado por

Eb (N21 ) = · · · = Eb (N24 ) = 200 · (1 − π


b) = 141

Distrito
Opinión 1 2 3 4 totales
a favor de A 76 (59) 53 (59) 59 (59) 48 (59) 236
no a favor de A 124 (141) 147 (141) 141 (141) 152 (141) 564
totales 200 200 200 200 800

Luego,
(76 − 59)2 (124 − 141)2 (152 − 141)2
uo = + + ··· + = 10.722
59 141 141

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

Ejemplo
Luego el valor observado es uo = 10.722
A partir de este valor calculamos el p-valor correspondiente

p-valor = P[χ2 (3) > 10.722] = 0.01328

donde el estadı́stico de prueba tiene distribución χ2 con


(2 − 1)(4 − 1) = 3 grados de libertad.
Teniendo en cuenta que

p-valor = 0.01328 < 0.05 = α

podemos concluir, con un nivel de significación del 5%, que la


fracción de votantes a favor del candidato A no es igual para todos
los distritos.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

TABLAS DE CONTINGENCIA BIDIMENSIONALES

Con R
> tabla=matrix(c(76,124, 53, 147, 59, 141, 48, 152),2,4)
> chisq.test(tabla)

Pearson’s Chi-squared test

data: tabla
X-squared = 10.722, df = 3, p-value = 0.01333

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

Pruebas de Homogeneidad
La prueba realizada en el ejemplo es una prueba de la igualdad de
cuatro proporciones binomiales con base en muestras
independientes a partir de cada una de las poblaciones
correspondientes.
Es frecuente que a esta prueba se la denomine prueba de
homogeneidad.
Si hay más de dos categorı́as en las filas y los totales de columna
son fijos, la prueba χ2 es una prueba de equivalencia de las
proporciones en c poblaciones multinomiales.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

FAMILIA HIPERGEOMÉTRICA

Introducción
Para poder determinar la prueba de Fisher necesitamos conocer
otro modelo discreto. Este modelo está asociado, como en el
modelo binomial, al experimento de observar el número de éxitos
en selecciones de una población donde existen dos grupos distintos.
Sin embargo, en este modelo la selección de los elementos no se
hace con reposición, por lo tanto no tenemos independencia entre
una selección y la siguiente.
Tenemos N elementos de los cuales K son de un tipo N − K del
otro tipo. De este conjunto de elementos sacamos sin reposición n,
entonces
X representa el número de elementos seleccionados del grupo que
tiene K elementos cuando se seleccionan sin reposición n de los N
posibles.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

FAMILIA HIPERGEOMÉTRICA

Definición
Una variable aleatoria X tiene distribución hipergeométrica con
parámetros N, K y n si su función densidad de probabilidad está
dada por:
K
 N−K 
x n−x
fX (x; N, K , n) = N
 I{0,1,...,n} (x)
n
el espacio de parámetros es:

Θ = {(N, K , n) : N, K , n enteros no negativos ∧ n ≤ N ∧ K ≥ n}

X ∼ Hipergeom(N, K , n)

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

PROPIEDADES DE UNA V.A. HIPERGEOMÉTRICA


Si X ∼ Hipergeom(N, K , n) entonces

K
E (X ) = n.
N
 
K K N −n
var (X ) = n. . 1 − .
N M N −1

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

Ejemplo
Considere un fabricante de automóviles que compra los motores a
una compañı́a donde se fabrican bajo estrictas especificaciones. El
fabricante recibe un lote de 40 motores. Su proceso de control de
calidad consiste en seleccionar 8, de manera aleatoria y someterlos
a prueba. Si encuentra que ninguno de los motores presenta falla,
acepta el lote, de otra forma lo rechaza. Si el lote contiene 2
motores con serios defectos ¿cuál es la probabilidad de que sea
aceptado?

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

Ejemplo
Sea X el número de motores defectuosos de n = 8 seleccionados en
un lote de N = 40 que tiene K = 2 defectuosos.
La probabilidad de aceptar el lote es,
2
 38
0
P (X = 0) = 40
8 = 0.6359
8

Con R
El comando con R es ”dhyper(x,K,N-K,8)”.
En el ejemplo, resulta

dhyper(0,2,38,8)= 0.6358974

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

PRUEBA EXACTA DE FISHER

Prueba exacta de Fisher


Como dijimos anteriormente para frecuencias esperadas
menores que 5 se deberı́a utilizar la prueba exacta de Fisher. En
esta prueba se presciende de la aproximación a la distribución χ2 y
se trabaja con la distribución exacta de las frecuencias observadas.
Partiendo de la hipótesis nula de que las dos variables categóricas
son independientes, la probabilidad de obtener una disposición
particular de frecuencias viene dada por la distribución
hipergeométrica.
Esta prueba determina la probabilidad de obtener un resultado
como el observado o más extremo. Analicemos un ejemplo.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

PRUEBA EXACTA DE FISHER

Prueba exacta de Fisher


Un cuestionario de evaluación del profesorado universitario en
sociologı́a fue aplicado a 18 estudiantes, 9 hombres y 9 mujeres
entre los alumnos que habitualmente asisten a las clases de un
profesor. Este profesor afirma que el perfil de respuesta de varones
y mujeres es radicalmente distinto. Para someter esta afirmación a
prueba se le permite después de analizar las respuestas, sin que
conozca el sexo real, clasificar los cuestionarios en dos grupos de 9
alumnos cada uno según correspondan a respuestas de mujeres o
de varones. La tabla que se muestra a continuación expone los
resultados.
Calificación profesor
Varones Mujeres Totales
Varones 3 6 9
Mujeres 6 3 9
Totales 9 9 18
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

PRUEBA EXACTA DE FISHER

Observación
Calificación profesor
Varones Mujeres Totales
Varones 3 (4.5) 6 (4.5) 9
Mujeres 6 (4.5) 3 (4.5) 9
Totales 9 9 18

En el ejemplo que se plantea todas las frecuencias esperadas son


menores a 5.
Aplicaremos la Prueba Exacta de Fisher.

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

TABLAS DE CONTINGENCIA BIDIMENSIONALES: PRUEBA EXACTA


DE FISHER

Prueba exacta de Fisher


La probabilidad de la disposición de la tabla observada es
9
 9
3
P (X = 3) = P3 = 18
6 = 0.1451255
9

Obviamente existen otras disposiciones que representarı́an, si se


hubiesen observado, discrepancias más extremas entre la
distribución de los alumnos y la clasificación propuesta por el
profesor. Son las siguientes,
Tabla P2 Tabla P1 Tabla P0
2 7 9 1 8 9 0 9 9
7 2 9 8 1 9 9 0 9
9 9 18 9 9 18 9 9 18

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

TABLAS DE CONTINGENCIA BIDIMENSIONALES: PRUEBA EXACTA


DE FISHER

Prueba exacta de Fisher


Las probabilidades de observar estas distribuciones (mas extremas que la
observada) son respectivamente,
9
 9
2
P (X = 2) = P2 = 18
7 = 0.0266557
9

9 9
 
1 8
P (X = 1) = P1 = 18
 = 0.00166598
9
9 9
 
0 9
P (X = 0) = P0 = 18
 = 0.00002057
9

dhyper (2, 9, 9, 9) = 0.0266557

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

PRUEBA EXACTA DE FISHER

Prueba exacta de Fisher


La suma total de estas probabilidades representa el p-valor para una
prueba de una sola cola y dado que los tamaños muestrales son
iguales para ambas marginales el p-valor para la prueba de dos colas es
el doble de ese valor.
3
X
p-valor = 2 · Pi = 2 · (0.00002057 + 0.00166598 + 0.0266557 + 0.1451255)
i=0

Por lo tanto, p-valor = 2 ∗ 0.1734677 = 0.3469354 > α conduce a


aceptar la hipótesis nula de no asociación y concluimos que la calificación
del profesor no coincide con el género de los alumnos.

Observación
El cálculo de la prueba exacta de Fisher puede ser notablemente
más complicado con frecuencias altas o con tablas de contingencia
de mayor dimensión.
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

TABLAS DE CONTINGENCIA BIDIMENSIONALES: PRUEBA EXACTA


DE FISHER

Con R
> tabla=matrix(c(3,6,6,3),2,2)
> fisher.test(tabla)

Fisher’s Exact Test for Count Data

data: tabla
p-value = 0.3469
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.02307113 2.46339977
sample estimates:
odds ratio
0.2717713

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

TABLAS DE CONTINGENCIA BIDIMENSIONALES: PRUEBA EXACTA


DE FISHER

Con R
Para determinar el p-valor debemos sumar las probabilidades de las
tablas que tienen una probabilidad asociada menor o igual a la
tabla observada.
>x=c(0,1,2,3,4,5,6,7,8,9)
>dhyper(x,9,9,9)

[1] 2.056767e-05 1.665981e-03 2.665570e-02 1.451255e-01 3.265323e-01


[6] 3.265323e-01 1.451255e-01 2.665570e-02 1.665981e-03 2.056767e-05

p − valor = 2.06 × 10−5 + 1.67 × 10−3 + 2.67 × 10−2 + 1.45 × 10−1 +


1.45 × 10−1 + 2.67 × 10−2 + 1.67 × 10−3 + 2.06 × 10−5
= 0.3469

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

TABLAS DE CONTINGENCIA BIDIMENSIONALES: PRUEBA EXACTA


DE FISHER

En este curso lo único que vamos a utilizar de la prueba exacta de


Fisher es el p-valor asociado a la tabla observada. Podemos pedir
que R proporcione sólo ese valor.

> tabla=matrix(c(3,6,6,3),2,2)
> test=fisher.test(tabla)
> test$p.value
[1] 0.3469

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
TABLAS DE CONTINGENCIA
Prueba exacta de BIDIMENSIONA
Fisher

TABLAS DE CONTINGENCIA BIDIMENSIONALES: PRUEBA EXACTA


DE FISHER

Para el ejemplo analizado la aplicación del Test de Independencia


con el estadı́stico de prueba con distribución χ2 es incorrecta.
R dá mensaje de posible error.

> tabla=matrix(c(3,6,6,3),2,2)
> chisq.test(tabla)

Pearson’s Chi-squared test with Yates’ continuity correction

data: tabla
X-squared = 0.88889, df = 1, p-value = 0.3458

Warning message:
In chisq.test(tabla) : Chi-squared approximation may be incorrect

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE
CALCULO DE VALORES ESPERADOS DE UNA TABLA DE
CONTINGENCIA
Autor: Marcos Ayende
Cargamos los datos de la matriz correspondiente al ejemplo de ”Prueba
de Homogeneidad”.

datos=c(76,124,53,147,59,141,48,152)
tabla=matrix(datos,2,4)

Podemos agregar nombres que identifiquen la fila y columna de la matriz.


En este caso

dimnames(tabla)<-list(c("A","noA"),c("1","2","3","4"))

> tabla
1 2 3 4
A 76 53 59 48
noA 124 147 141 152
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE

CALCULO DE VALORES ESPERADOS DE UNA TABLA DE


CONTINGENCIA
Agregamos los totales marginales a la tabla de frecuencias observadas,
utilizando el comando addmargins.

tablatotal=addmargins(tabla)

> tablatotal
1 2 3 4 Sum
A 76 53 59 48 236
noA 124 147 141 152 564
Sum 200 200 200 200 800

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE

CALCULO DE VALORES ESPERADOS DE UNA TABLA DE


CONTINGENCIA
Para determinar las frecuencias esperadas definimos vectores con
los totales marginales. Llamamos ”tc” al vector de totales columna
y ”tf” al correspondiente a las filas.
Si colocamos ”tf = c(tablatotal[, 5])”, tc es un vector con todas
las filas y los datos correspondientes a la columna 5.
Después a estos vectores les sacamos el último valor que
corresponde a la frecuencia total observada. Los llamamos ”TC” y
”TF” con el comando ”tf [−3]” y ”tc[−5]”.

tf=c(tablatotal[,5])
tc=c(tablatotal[3,])
TF=tf[-3]
TC=tc[-5]
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE

CALCULO DE VALORES ESPERADOS DE UNA TABLA DE


CONTINGENCIA
Obtenemos
> tf
A noA Sum
236 564 800
> TF
A noA
236 564
> tc
1 2 3 4 Sum
200 200 200 200 800
> TC
1 2 3 4
200 200 200 200

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE

CALCULO DE VALORES ESPERADOS DE UNA TABLA DE


CONTINGENCIA
Para determinar las frecuencias esperadas tenemos que obtener
una matriz donde el elemento i, j sea el producto del total de la
fila i por el total de la columna j.
Para lograr esto definimos una matriz cuyas columnas sean los
totales fila y una matriz diagonal con los totales columna. El
producto de estas matrices es la matriz que buscamos. Veamos
esto en nuestro ejemplo. Fácilmente se puede generalizar para una
matriz de r × c
 
    tc1 0 0 0
tf1 .tc1 tf1 .tc2 tf1 .tc3 tf1 .tc4 tf1 tf1 tf1 tf1  0 tc2 0 0 
= ∗ 
tf2 .tc1 tf2 .tc2 tf2 .tc3 tf2 .tc4 tf2 tf2 tf2 tf2  0 0 tc3 0 
0 0 0 tc4

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE

CALCULO DE VALORES ESPERADOS DE UNA TABLA DE


CONTINGENCIA
Para determinarla matriz cuyas columnas sean los totales fila
utilizamos el comando ”matrix(TF,2,4)” y para determinar la
matriz diagonal con los totales columna usamos ”diag(TC,4,4)”.
El producto de estas matrices es la matriz que buscamos. Para
encontrar la matriz de frecuencias esperadas, dividimos por el
total, 800=sum(TC)=sum(TF).

F=matrix(TF,2,4)
C=diag(TC,4,4)
FE=(F%*%C)/sum(TF)

ANÁLISIS DE DATOS CATEGÓRICOS


DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE
CALCULO DE VALORES ESPERADOS DE UNA TABLA DE
CONTINGENCIA
Obtenemos

> F
[,1] [,2] [,3] [,4]
[1,] 236 236 236 236
[2,] 564 564 564 564 > C
[,1] [,2] [,3] [,4]
[1,] 200 0 0 0
[2,] 0 200 0 0
[3,] 0 0 200 0
> FE [4,] 0 0 0 200
[,1] [,2] [,3] [,4]
[1,] 59 59 59 59
[2,] 141 141 141 141
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE
CALCULO DE VALORES ESPERADOS EN EL EJERCICIO 5.12
Aplicaremos los comandos anteriores para el ejercicio 5.12 ejemplo
de ”Análisis de Independencia”

datos=c(12,5,36,16,8,6,5,2)
tabla=matrix(datos,2,4)
dimnames(tabla)<-list(c("1","2"),c("A","B","C","D"))
tablatotal=addmargins(tabla)
tf=c(tablatotal[,5])
tc=c(tablatotal[3,])
TF=tf[-3]
TC=tc[-5]
F=matrix(TF,2,4)
C=diag(TC,4,4)
FE=(F%*%C)*(1/sum(TF))
dimnames(FE)<-list(c("A","noA"),c("1","2","3","4"))
ANÁLISIS DE DATOS CATEGÓRICOS
DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA

APÉNDICE

CALCULO DE VALORES ESPERADOS EN EL EJERCICIO 5.12


Aplicaremos los comandos anteriores para el ejercicio 5.12 ejemplo
de ”Análisis de Independencia”

> FE
1 2 3 4
A 11.522222 35.24444 9.488889 4.744444
noA 5.477778 16.75556 4.511111 2.255556

> round(FE,2)
1 2 3 4
A 11.52 35.24 9.49 4.74
noA 5.48 16.76 4.51 2.26

ANÁLISIS DE DATOS CATEGÓRICOS

También podría gustarte