AnalisisDCategóricos SP

DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA
ANÁLISIS DE DATOS CATEGÓRICOS
Graciela Gei
graciela.gei@fce.uncu.edu.ar
Facultad de Ciencias Económicas - UNCuyo
Mayo de 2021

CONTENIDOS
1 DESCRIPCIÓN DEL EXPERIMENTO

Variables Ordinales y Nominales
Modelo Multinomial
2 PRUEBAS DE BONDAD DE AJUSTE

Frecuencias esperadas pequeñas
3 TABLAS DE CONTINGENCIA BIDIMENSIONALES

Prueba de Independencia
Corrección de Yates
4 TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA
5 PRUEBA EXACTA DE FISHER

La Familia Hipergeométrica
Prueba exacta de Fisher
6 APÉNDICE
Cálculo de valores esperados de una tabla de contingencia

DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Variables
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA
DESCRIPCIÓN DEL EXPERIMENTO
Introducción
En muchas situaciones los experimentos resultan en mediciones
que son categóricas más que cuantitativas. Una variable categórica
es una variable para la cual la escala de medida consiste en un
conjunto de categorı́as.
En estos casos una cualidad o caracterı́stica es identificada para
cada una de las unidades experimentales u objetos de la población
bajo estudio.
Los datos que surgen de estas mediciones se pueden resumir
evaluando el número de mediciones que se obtienen en cada una
de las categorı́as de la variable bajo estudio.

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA
Variables Ordinales y Nominales

Las variables categóricas son de dos tipos. Cuando tienen un orden
natural en sus categorı́as se denominan variables ordinales. Por
ejemplo:
la evaluación del nivel de inventario de una empresa:
demasiado bajo, bajo, correcto, alto, demasiado alto.
respuesta a un tratamiento médico: excelente, bueno, regular,
malo.
el nivel de ingreso de una familia: por encima de la linea de
pobreza, por debajo de la linea de pobreza.

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA
Datos de respuesta Categóricos

Si las variables no tienen definido un orden natural en sus
categorı́as se denominan variables nominales. Por ejemplo:
la afiliación religiosa: católica, judia, protestante, otra.
la forma de transporte al trabajo: automóvil, bicicleta, bus,
subterraneo, caminando.
la prefencia en el tipo de música: clásica, folclore, jazz, rock,
otra.

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

Los métodos estadı́sticos para variables ordinales utilizan el orden
de las categorı́as y sus resultados pueden variar si se modifica el
orden considerado. Es decir se podrı́an obtener por ejemplo
resultados distintos si las categorı́as se consideran de bajo a alto o
se consideran de alto a bajo.
Los métodos diseñados para variables ordinales no pueden usarse
para variables nominales.
En cambio los métodos diseñados para variables nominales si se
pueden usar para las variables ordinales, puesto que los mismos
solo requieren una escala categórica.

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

Cuando usamos los métodos diseñados para variables nominales
con variables ordinales no se considera la información que
proporciona el orden de las categorı́as, por lo tanto los resultados
que se obtienen pierden potencia.
Si bien es mejor utilizar la metodologı́a especı́fica para cada tipo de
variable, debido a las exigencias de este curso, solo estudiaremos
los métodos que se pueden aplicar a los dos tipos de variables
categóricas.

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

El análisis de datos categóricos en general requiere hacer
suposiciones sobre el modelo que ha generado los datos.
Los modelos más utilizados son el de Poisson, el Binomial y su

generalización en el Modelo Multinomial.
Los modelos de Poisson y Binomial fueron estudiados en
Estadı́stica I, veremos ahora la generalización del modelo Binomial
al Mltinomial.

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA
Caracterı́sticas del Modelo Multinomial

Muchos de los ejemplos de variables categóricas muestran las
siguientes caracterı́sticas:
El experimento consiste en n ensayos idénticos e
independientes entre si.
El resultado de cada ensayo cae en exactamente una de k
categorı́as o celdas diferentes.
La probabilidad de que el resultado de un ensayo caiga en una
celda particular, la celda i, es πi donde i = 1,P
2, . . . , k y
continúa igual de un ensayo a otro. Además ki=1 πi = 1.
Estas caracterı́sticas definen un modelo multinomial. Este modelo

es una generalización del modelo binomial, ya que es este con
k = 2.

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA
Modelo Multinomial
Se dice que las variables aleatorias X1 , · · · , Xk tienen una
distribución multinomial si la función densidad conjunta está dada
por
n!
fX1 ,··· ,Xk (x1 , · · · , xk ) = π x1 . . . πkxk
x1 ! · · · xk ! 1
donde ki=1 πi = 1, para cada i, xi = 0, 1, . . . , n y ki=1 xi = n
P P
X1 , · · · , Xk tienen distribución binomial con parámetros n y

π1 , . . . , πk , entonces
i. E (Xi ) = n · πi
ii. var (Xi ) = n · πi · (1 − πi )
iii. cov (Xi , Xj ) = −n · πi · πj

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA
Demostración
La distribución marginal de Xi se puede utilizar para determinar la
media y la varianza.
Xi puede interpretarse como el número de intentos que caen en la
celda i. Podemos considerar todas las celdas, excluyendo la i,
combinadas en una celda grande.
Entonces cada intento resultará en la celda i o en la celda que no
es i, con probabilidades πi o 1 − πi , respectivamente.
Entonces Xi tiene distribución marginal binomial y en
consecuencia,
E (Xi ) = n · πi y var (Xi ) = n · πi · (1 − πi )

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA
Demostración de cov (Xi , Xj )

Consideremos el experimento multinomial como una sucesión de n
intentos independientes y definamos

1 si el intento k resulta en la clase i
Uk =
0 de otro modo

1 si el intento k resulta en la clase j
Vk =
0 de otro modo
Entonces
n
X n
X
Xi = Uk y Xj = Vh
k=1 h=1

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

Xi es el número de veces que se observa la clase i. Del mismo
modo interpretamos Xj .
Observemos que Uk y Vk no pueden ser ambas iguales a 1 (el
k − ésimo artı́culo no puede estar simultáneamente en la celda i y j.
Por lo tanto el producto Uk · Vk es siempre igual a cero y resulta
E (Uk · Vk ) = 0.
Los siguientes resultados nos permitirán calcular cov (Xi , Xj ) :
E (Uk ) = πi
E (Vk ) = πj
cov (Uk , Vh ) = 0 si k 6= h porque los intentos son independientes
cov (Uk , Vk ) = E (Uk · Vk ) − E (Uk ) · E (Vk ) = 0 − πi · πj
= −πi · πj

DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA

n X
X n
cov (Xi , Xj ) = cov (Uk , Vh )
k=1 h=1
n
X n X
X n
= cov (Uk , Vk ) + cov (Uk , Vh )
k=1 k=1 h=1
k6=h
n
X n
XX n
= (−πi · πj ) + 0
k=1 k=1 h=1
k6=h
= −n πi · πj
La covarianza es negativa, como ya se esperaba, ya que un número

grande de resultados en la celda i origina un número bajo de
resultados en la celda j.
DE AJUSTE Ordinales
TABLAS
y Nominales
DE CONTINGENCIA
Modelo Multinomial
BIDIMENSIONA
Debido a que el cálculo de probabilidades multinomiales es muy

engorroso, serı́a difı́cil calcular en forma exacta las probabilidades
de cometer errores de tipo I para las hipótesis sobre los valores
π1 , . . . , π k .
Karl Pearson propuso un estadı́stico muy útil para probar hipótesis
respecto a los parámetros π1 , . . . , πk y proporcionó la distribución
muestral aproximada de este estadı́stico.

DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Frecuencias
DE AJUSTEesperadas
TABLAS pequeñas
DE CONTINGENCIA BIDIMENSIONA
PRUEBA DE BONDAD DE AJUSTE
Introducción
La primera aplicación inferencial a datos categóricos se desarrolló a
principios del siglo pasado y trataba de determinar si un conjunto
de datos sigue una cierta distribución de probabilidad.
Esta problemática se denomina prueba de bondad de ajuste.
En el proceso analı́tico se propone evaluar la discrepancia entre las
frecuencias observadas (ni ) y las esperadas bajo la distribución de
probabilidad considerada (mi ) .

DE AJUSTEesperadas
TABLAS pequeñas
Introducción
Es decir, consideremos que se dispone de una muestra aleatoria de
tamaño n de una variable aleatoria X dividida en k clases
exhaustivas y mutuamente excluyentes.
Sea Ni con i = 1, · · · , k la variable aleatoria que representa el
número de observaciones de la i-ésima clase de la variable aleatoria
X.
Entonces la hipótesis nula es
H0 : F (x) = F0 (x)
donde F0 (x) es el modelo de probabilidad propuesto para la

variable aleatoria X y se encuentra especificado bajo H0 .
H0 es una hipótesis simple. En general la hipótesis alternativa es
compuesta.

DE AJUSTEesperadas
TABLAS pequeñas
Introducción
Dado que F0 (x) está especificada se puede obtener la probabilidad
πi de que, bajo H0 , una observación corresponda a la i-ésima clase.
Además se verifica que
k
X
πi = 1.
i=1
Sea
Pk ni la realización de Ni con i = 1, ..., k de manera que
i=1 ni = n.

DE AJUSTEesperadas
TABLAS pequeñas
Prueba de bondad de ajuste

En 1900 Karl Pearson propuso como estadı́stico de prueba para
analizar la hipótesis planteada a la variable
k
X [Ni − E (Ni )]2
E (Ni )
i=1
donde E (Ni ) es la frecuencia esperada de la i-ésima clase de la

variable aleatoria X bajo H0 .
Pearson probó que si n es suficientemente grande dicho estadı́stico
tiene distribución χ2 con k − 1 grados de libertad.

DE AJUSTEesperadas
TABLAS pequeñas

Aunque la prueba matemática está fuera del propósito de este
curso podemos demostrar este resultado en forma sencilla para el
caso de k = 2.
Si k = 2 entonces 2i=1 πi = 1 y N2 = n − N1 .
P
2
X [Ni − E (Ni )]2 [N1 − n · π1 ]2 [N2 − n · π2 ]2
= +
E (Ni ) n · π1 n · π2
i=1
[N1 − n · π1 ]2 [(n − N1 ) − n (1 − π1 )]2
= +
n · π1 n · (1 − π1 )
[N1 − n · π1 ]2
=
n · π1 · (1 − π1 )

DE AJUSTEesperadas
TABLAS pequeñas

Hemos visto que para n grande,
N − n · π1
p 1
n · π1 · (1 − π1 )
tiene aproximadamente una distribución normal estándar.

Además hemos probado que el cuadrado de una variable normal
estándar tiene distribución χ2 con 1 grado de libertad. Luego,
2
X [Ni − E (Ni )]2 [N1 − n · π1 ]2
=
E (Ni ) n · π1 · (1 − π1 )
i=1
tiene distribución χ2 con k − 1 = 1 grado de libertad.

DE AJUSTEesperadas
TABLAS pequeñas

Para k > 2 la determinación del número apropiado de grados de
libertad para la distribución del estadı́stico de prueba puede ser un
poco complicada y será especificado para cada aplicación.
En general podemos decir que el número apropiado de grados de
libertad será igual al número de celdas, k, menos 1 grado de
libertad por cada restricción lineal independiente colocada en las
probabilidades por celda.
Una restricción que está siempre presente es
k
X
πi = 1.
i=1

DE AJUSTEesperadas
TABLAS pequeñas

Para bondad de ajuste y para otras aplicaciones que utilizan el
estadı́stico de prueba propuesto por Pearson hay restricciones que
se introducen por la necesidad de estimar parámetros desconocidos
requeridos para el cálculo de las frecuencias esperadas por celda.
Cuando deban estimarse parámetros desconocidos para
calcular el valor observado del estadı́stico de prueba con
distribución χ2 deben emplearse estimadores de máxima
verosimilitud. En este caso los grados de libertad de la distribución
χ2 se reduce en 1 por cada parámetro estimado.
k
X [Ni − E (Ni )]2
∼ χ2 (k − p − 1)
E (Ni )
i=1
donde p es el número de parámetros estimados.

DE AJUSTEesperadas
TABLAS pequeñas
Test de la Prueba de Bondad de Ajuste

En una prueba de bondad de ajuste, si existe concordancia entre
las frecuencias observadas y las esperadas el valor del estadı́stico
de Pearson será próximo a cero, luego el test resulta,
k
X [ni − n · πi ]2
τ : Rechazar H0 ⇔ >h
n · πi
i=1
donde h es el cuantil de orden 1 − α de la distribución χ2 con k − 1

grados de libertad.
Como regla práctica, el criterio de decisión que aquı́ se describe no

se deberı́a utilizar a menos que cada una de las frecuencias
esperadas sea por lo menos igual a cinco. Esta restricción podrı́a
requerir la combinación de celdas adyacentes, lo que dará como resultado
una reducción en el número de grados de libertad.

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 1
Para ilustrar esta prueba consideremos el lanzamiento de un dado. Se
quiere chequear si es legal con un nivel de significación del 5%. Para esto
se lanza 120 veces el dado y se registra cada resultado. Si el dado es
legal la distribución es uniforme discreta luego bajo H0 resulta
1
fX (x) = I{1,2,3,4,5,6} (x)
6
Los resultados de los 120 lanzamientos se presentan en la tabla siguiente.
cara 1 2 3 4 5 6
observadas 20 22 17 18 19 24
esperadas 20 20 20 20 20 20
Luego,
(20 − 20)2 (22 − 20)2 (17 − 20)2 (18 − 20)2 (19 − 20)2 (24 − 20)2
uo = + + + + + = 1.7
20 20 20 20 20 20

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 1
Al comparar las frecuencias observadas con las esperadas
correspondientes debemos decidir si es posible que tales discrepancias
ocurran como resultado de fluctuaciones en el muestreo o si en realidad
se deben a que el dado no está balanceado.
k 2
X [ni − n · πi ]
n · πi
i=1
donde h = 11.07 es el cuantil de orden 0.95 de la distribución χ2 con 5

grados de libertad.
Decisión
uo = 1.7 < h = 11.07 =⇒ no se rechaza H0
ó
p-valor = P χ2 (5) > 1.7 = 0.8889 > α = 0.05 =⇒ no se rechaza H0 .
Concluimos que no hay suficiente evidencia de que el dado está
desbalanceado.
DE AJUSTEesperadas
TABLAS pequeñas
Con R
> prob=c(1/6,1/6,1/6,1/6,1/6,1/6)
> fo=c(20,22,17,18,19,24)
> chisq.test(fo,p=prob)
Chi-squared test for given probabilities
data: n
X-squared = 1.7, df = 5, p-value = 0.8889
Obtenemos: uo = 1.7 y p-valor = 0.8889

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 2
El número de accidentes X por semana en un crucero se verificó por
n = 60 semanas con los resultados que se muestran en la tabla que se da
continuación.
Se quiere analizar si la variable aleatoria X tiene distribución de Poisson
suponiendo que las observaciones son independientes.
λx exp−λ
fX (x) = I{0,1,2,··· } (x)
x!
x 0 1 2 3 o más
frecuencias 35 15 10 0
Como λ es desconocido debemos hallar su estimación de máxima

verosimilitud.
Sabemos que el estimador máximo verosı́mil para λ es X .
b = 35 = 0.583.
Para los datos, λ
60
DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 2
Las probabilidades asociadas a cada celda son,
π1 = P (X = 0) = exp−λ
π2 = P (X = 1) = λ · exp−λ
= P (X ≥ 2) = 1 − exp−λ +λ · exp−λ .

π3
Estimamos estas probabilidades reemplazando λ por su valor estimado.

Obtenemos
π
b1 = 0.558 , π
b2 = 0.325 y π
b3 = 0.117
Si las observaciones son independientes las frecuencias por celda N1 , N2

y N3 tienen una distribución multinomial con parámetros π1 , π2 y π3 .
Entonces E (Ni ) = n · πi y Eb (Ni ) = n · π
bi para i = 1, 2, 3

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 2
Obtenemos la siguiente tabla.
x 0 1 2 o más
Frecuencias 35 15 10
observadas
Frecuencias
esperadas y 33.48 19.5 7.02
estimadas
Entonces el estadı́stico de prueba

h i2
3
X Ni − Eb (Ni )
i=1 Eb (Ni )
tiene distribución χ2 con k − 1 − 1 = 1 grado de libertad.

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 2
Obtenemos la siguiente tabla.
x 0 1 2 o más
Frecuencias 35 15 10
observadas
Frecuencias
esperadas y 33.48 19.5 7.02
estimadas
2 2 2
(35 − 33.48) (15 − 19.5) (10 − 7.02)
uo = + + = 2.37
33.48 19.5 7.02

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 2
Al comparar las frecuencias observadas con las esperadas
correspondientes debemos decidir si es posible que tales discrepancias
ocurran como resultado de fluctuaciones en el muestreo o si en realidad
se deben a que la distribución no es Poisson.
3 2
X [ni − n · π
bi ]
n·πbi
i=1
donde h = 3.84 es el cuantil de orden 0.95 de la distribución χ2 con 1

grado de libertad.
Decisión
uo = 2.37 < h = 3.84 =⇒ no se rechaza H0
ó
p-valor = P χ2 (1) > 2.37 = 0.124 > α = 0.05 =⇒ no se rechaza H0 .
Concluimos que no hay suficiente evidencia para rechazar que el número
de accidentes por semana tiene una distribución de Poisson.
DE AJUSTEesperadas
TABLAS pequeñas
Con R
> x=c(0,1,2)
> fo=c(35,15,10)
> lambda=sum(x*fo)/sum(fo)
> xx=c(0,1)
> prob=c(dpois(xx,lambda),1-sum(dpois(xx,lambda)))
> chisq.test(fo,p=prob)

data: fo
El p-valor que proporciona R utiliza 2 grados de libertad ya que

considera el valor de λ como dato. Sólo podemos utilizar el valor
observado del estadı́stico de prueba.
DE AJUSTEesperadas
TABLAS pequeñas

Cuando se tienen dos categorı́as, es decir k = 2 (en este caso los
grados de libertad son g .l = 1) cada frecuencia esperada debe ser
por lo menos de 5. Cuando g .l. > 1, es decir k > 2, la prueba de la
bondad de ajuste no deberı́a ser usada si más del 20% de las
frecuencias esperadas son menores de 5 o cuando cualquier
frecuencia esperada es menor que 1. Esta regla práctica es
conocida con el nombre de Regla de Cocran.
Esto se debe a que la distribución del estadı́stico de prueba es
asintóticamente χ2 es decir se necesita que las frecuencias
esperadas tiendan a infinito para que esta distribución sea un buen
ajuste a la distribución del estadı́stico. Sin embargo se logra una
buena aproximación si se tiene en cuenta la Regla de Cocran.

DE AJUSTEesperadas
TABLAS pequeñas

Desde el punto de vista práctico, la aproximación es buena cuando
las frecuencias esperadas son mayores que 5. Las frecuencias
esperadas pueden incrementarse al combinar categorı́as adyacentes,
siempre que naturalmente existan más de dos categorı́as.
Si comenzamos con dos categorı́as y tenemos una frecuencia
esperada menor de 5 o si después de combinar categorı́as
adyacentes finalizamos con dos categorı́as con alguna frecuencia
esperada menor de 5, entonces se puede usar la distribución
binomial para determinar la probabilidad asociada con la
ocurrencia de las frecuencias observadas según H0 . Veremos un
ejemplo de aplicación de la distribución binomial.

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 3
En un estudio de los efectos del estrés, un investigador enseñó a 18
estudiantes dos métodos diferentes para hacer el mismo nudo. La
mitad de los sujetos seleccionados aleatoriamente aprendieron
primero el método A y la otra mitad aprendió primero el método B.
Posteriormente se sometió a todos los estudiantes a una situación
de alto estrés,un examen final de cuatro horas de duración.
Después de la situación de estrés se le pidió a cada uno de los
estudiantes que hiciera el nudo. Se supone que después de una
situación de estrés los sujetos utilizarán el primer método
aprendido. Para analizar esto se registró si el estudiante utilizó el
primer método aprendido o el segundo después de la situación de
estrés. Los resultados se muestran en la siguiente tabla.
Método escogido
Aprendido antes Aprendido después Total
Frecuencia 16 2 18

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 3
Consideramos la variable Y número de estudiantes que eligen el
primer método aprendido cuando se someten a estrés.
Y ∼ Binomial (n = 18, π)
En la hipótesis nula consideramos que no hay diferencias bajo
estrés, es decir no existen diferencias entre la probabilidad de usar
el primer método aprendido π y la probabilidad de usar el segundo
método aprendido 1 − π.
Se sospecha que bajo estrés es más probable que se utilice el
primer método que el segundo. Es decir las hipótesis se plantean,
1 1
H0 : π = vs. H1 : π >
2 2

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 3
El test resulta,
τ : Rechazar H0 ⇔ y0 > h
donde y0 es el número de estudiantes que elijen el primer método
aprendido y h es el cuantil de orden 1 − α de la distribución
1
binomial bajo H0 , es decir con π = .
2

DE AJUSTEesperadas
TABLAS pequeñas
Ejemplo 3
Consideremos como nivel de significación α = 0.01
Decisión
h = 14 =⇒ y0 = 16 > h =⇒ se rechaza H0
O también podemos determinar el p-valor.

1
p-valor = P Y ≥ 16 | π = = 1 − pbinom(15, 18, 0.5)
2
= 0.0006561279 < α = 0.01
Concluimos que bajo estrés es más probable que los estudiantes

elijan el primer método aprendido.

DE AJUSTEesperadas
TABLAS pequeñas
TABLAS DE CONTINGENCIA BIDIMENSIONALES
Con R
> fo=c(16,2)
> prob=c(1/2,1/2)
> chisq.test(fo, p=prob)
data: fo
El p-valor que proporciona R es para una prueba bilateral, para

nuestro planteo, p = 0.00048. Es una buena aproximación al valor
exacto calculado anteriormente.

DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Prueba
DE AJUSTE
de Independencia
TABLAS DE Corrección
CONTINGENCIA
de Yates BIDIMENSIONA
TABLAS DE CONTINGENCIA
BIDIMENSIONALES
Introducción
Un problema frecuente en datos categóricos se refiere a la
evaluación de la independencia de dos criterios de clasificación de
las personas u objetos de una población bajo estudio.
Por ejemplo podrı́amos clasificar
una muestra de personas por género y por opinión acerca de
un problema polı́tico para analizar si las opiniones polı́ticas
son independientes del género.
una muestra de balances de una empresa, con sede en
distintas provincias, por el tipo de defecto y la sucursal donde
fue realizado. Se busca probar si el tipo de defecto es
independiente de la sucursal.

DE AJUSTE
de Independencia
CONTINGENCIA
BIDIMENSIONALES
Una muestra aleatoria de una población se clasifica de acuerdo con

dos caracterı́sticas X e Y , variables categóricas, cada una de las
cuales contiene un número r y c de categorı́as, respectivamente. El
tamaño de la muestra es n.
Tenemos r × c celdas que contienen la frecuencia o conteo del
conjunto de elementos clasificados. La información de la que se
dispone constituye un arreglo matricial r × c que se denomina
tabla de contingencia o tabla de clasificación cruzada
y de acuerdo al número de categorı́as podrá ser cuadrada o

rectangular.

DE AJUSTE
de Independencia
CONTINGENCIA
BIDIMENSIONALES
Consideraremos la siguiente notación.

nij el número de observaciones en la categorı́a i de la variable
aleatoria X y en la categorı́a j de la variable aleatoria Y , para
i = 1, ..., r y j = 1, ..., c. Podemos considerar que es un valor
observado de la variable aleatoria Nij .
mij = E (Nij ) los valores esperados bajo H0 .
πij las probabilidades teóricas
pij = π
bij las probabilidades empı́ricas
Las tablas siguientes representan los valores observados y los
valores esperados para una tabla de contingencia bidimensional.

DE AJUSTE
de Independencia
CONTINGENCIA
VALORES OBSERVADOS X × Y
Y
categorı́as 1 2 ··· c totales
1 n11 n12 ··· n1c n1·
X 2 n21 n22 ··· n2c n2·
.. .. .. .. .. ..
. . . . . .
r nr 1 nr 2 ··· nrc nr ·
totales n·1 n·2 ··· n·c n··
ni· representan los totales marginales observados por fila y se definen

como la suma de las c categorı́as de la i − ésima fila.
Es decir
X c
ni· = nij = ni1 + ni2 + · · · + nij + · · · + nic
j=1

DE AJUSTE
de Independencia
CONTINGENCIA
VALORES OBSERVADOS X × Y
Del mismo modo

n·j representan los totales marginales observados por columna y se
definen como la suma de las r categorı́as de la j − ésima columna.
r
X
n·j = nij = n1j + n2j + · · · + nij + · · · + nrj
i=1
La suma de cualquiera de los totales marginales produce el número

total de elementos observados n.
Es decir,
c
X r
X
n = n·· = n·j = ni·
j=1 i=1

DE AJUSTE
de Independencia
CONTINGENCIA
VALORES ESPERADOS X × Y
Cada sujeto en la muestra seleccionado de forma aleatoria tiene

probabilidad πij de caer en la categorı́a i de X y en la categorı́a j
de Y .
Es decir,
πij = P [X = i ∧ Y = j]
πij i = 1, . . . r j = 1, . . . c representa la distribución conjunta de
(X , Y ) .
Es decir, πij representa la probabilidad que un elemento
seleccionado al azar de la población bajo estudio se encuentre en la
categorı́a (i, j) de la tabla de contingencia.

DE AJUSTE
de Independencia
CONTINGENCIA
Las distribuciones marginales resultan,

c
X
πi· = πij i = 1, . . . r
j=1
Es decir πi· representa la probabilidad marginal que un individuo se

encuentre en la categorı́a i de la variable X .
r
X
π·j = πij j = 1, . . . c
i=1
Del mismo modo π·j representa la probabilidad marginal que un individuo

se encuentre en la categorı́a j de la variable Y . Se verifica
r
X c
X r X
X c
πi· = π·j = πij = 1
i=1 j=1 i=1 j=1

DE AJUSTE
de Independencia
CONTINGENCIA
Y
categorı́as 1 2 ··· c totales
1 m11 m12 ··· m1c m1·
X 2 m21 m22 ··· m2c m2·
.. .. .. .. .. ..
. . . . . .
r mr 1 mr 2 ··· mrc mr ·
totales m·1 m·2 ··· m·c m·· = n
mi· representan los totales marginales esperados por fila y m·j los
totales marginales esperados por columna.

DE AJUSTE
de Independencia
CONTINGENCIA
Los totales esperados se determinan a partir de las probabilidades

teóricas,
mij = πij · n
mi· = πi· · n y m·j = π·j · n

representan los totales marginales esperados.

DE AJUSTE
de Independencia
CONTINGENCIA
ANÁLISIS DE INDEPENDENCIA
Si las dos variables X e Y son independientes, la probabilidad

conjunta debe ser producto de las marginales. De esta forma la
hipótesis nula es,
H0 : πij = πi· · π·j para i = 1, · · · , r y j = 1, · · · , c

Bajo H0 el estadı́stico
r X
c
X (Nij − n πi· π·j )2
n πi· π·j
i=1 j=1
tiene asintóticamente distribución χ2 con r · c − 1 grados de

libertad.

DE AJUSTE
de Independencia
CONTINGENCIA
En general las probabilidades deben ser estimadas.

Si las observaciones se seleccionan de manera independiente las
frecuencias por celda Nij tienen distribución multinomial y la
estimación de máxima verosimiltud es simplemente la frecuencia
relativa observada por celda. Esto es,
nij
π
bij =i = 1, · · · , r y j = 1, · · · , c
n
Del mismo modo para las probabilidades marginales,
ni· n·j
π
bi· = y π
b·j =
n n

DE AJUSTE
de Independencia
CONTINGENCIA
Se puede probar que si se reemplazan las probabilidades marginales

por sus estimaciones, el estadı́stico de prueba continuará teniendo
una distribución χ2 y los grados de libertad se obtienen restando
un grado de libertad por cada parámetro que se estima.
Luego el estadı́stico resulta
r X
c
X (Nij − n π
bi· πb·j )2
nπ
bi· π
b·j
i=1 j=1
ni· n·j 2
r X
c Nij −
n
X
ni· n·j
i=1 j=1
n

DE AJUSTE
de Independencia
CONTINGENCIA
Estadı́stico de prueba
El estadı́stico de prueba es,
ni· n·j 2
r X c Nij −
n
X
ni· n·j
i=1 j=1
n
que tiene asintóticamente distribución χ2 con (r − 1)(c − 1)
grados de libertad.
Los grados de libertad se obtienen considerando el número de

celdas, r · c, menos 1 grado de libertad por cada restricción lineal
independiente colocada en las probabilidades por celda.
Es decir
gl = r · c − 1 − (r − 1) − (c − 1) = (r − 1)(c − 1)
DE AJUSTE
de Independencia
CONTINGENCIA
Ejemplo
Se desea determinar si las opiniones de los residentes votantes de
una ciudad respecto de una reforma impositiva son independientes
de sus niveles de ingresos. Se toma una muestra aleatoria de 1000
votantes registrados en esa ciudad clasificando sus ingresos como
bajo, medio y alto y registrando si están a favor o en contra de la
reforma.
Nivel de Ingresos
bajo medio alto totales
a favor 182 213 203 598
en contra 154 138 110 402
totales 336 351 313 1000

DE AJUSTE
de Independencia
CONTINGENCIA
Ejemplo
Determinaremos si existe dependencia entre el nivel de ingresos y
su opinión sobre la reforma con un nivel de significación del 5%.
Calculamos las frecuencias esperadas bajo el supuesto de
independencia. En la tabla siguiente se muestran entre paréntesis
las frecuencias esperadas.
Nivel de Ingresos
bajo medio alto totales
a favor 182 (200.9) 213 (209.9) 203 (187.2) 598
en contra 154 (135.1) 138 (141.1) 110 (125.8) 402
totales 336 351 313 1000
Luego,
(182 − 200.9)2 (154 − 135.1)2 (213 − 209.9)2 (138 − 141.1)2 (203 − 187.2)2 (110 − 125.8)2
uo = + + + + +
200.9 135.1 209.9 141.1 187.2 125.8

DE AJUSTE
de Independencia
CONTINGENCIA
Ejemplo
Luego el valor observado es uo = 7.85
A partir de este valor calculamos el p-valor correspondiente
p-valor = P[χ2 (2) > 7.85] = 0.0197
donde el estadı́stico de prueba tiene distribución χ2 con

(2 − 1)(3 − 1) = 2 grados de libertad.
Teniendo en cuenta que
p-valor = 0.0197 < 0.05 = α
podemos concluir, con un nivel de significación del 5%, que existe

dependencia entre entre el nivel de ingresos y la opinión sobre la
reforma impositiva.

DE AJUSTE
de Independencia
CONTINGENCIA
Con R
> tabla=matrix(c(182,154,213,138,203,110),2,3)
> chisq.test(tabla)
Pearson’s Chi-squared test
data: tabla

DE AJUSTE
de Independencia
CONTINGENCIA
Corrección de Yates. Corrección por continuidad

Es importante destacar que la distribución χ2 es una distribución
continua y aproxima bastante bien a la distribución muestral
discreta en la medida que el número de grados de libertad sea
mayor que 1.
En tablas de contingencia 2 × 2 donde se tiene sólo un grado de
libertad se utiliza la corrección de Yates. En este caso el estadı́stico
de prueba que se utiliza está dado por la siguiente expresión.
ni· n·j 2
r X c | Nij − | −0.5
n
X
ni· n·j
i=1 j=1
n

DE AJUSTE
de Independencia
CONTINGENCIA
Corrección de Yates. Corrección por continuidad

Si las frecuencias esperadas son grandes, los resultados corregidos
y sin corregir son casi iguales.
Cuando las frecuencias esperadas están entre 5 y 10 se debe aplicar
la corrección de Yates. Algunos autores consideran que hay que
aplicarla siempre que n ≤ 200.
Para frecuencias esperadas menores que 5 se deberı́a utilizar la
prueba exacta de Fisher. Sin embargo esto se puede evitar
aumentando el tamaño de muestra.

DE AJUSTE
de Independencia
CONTINGENCIA
Ejemplo
Determinaremos si existe dependencia entre el cáncer de pulmón y la
condición de ser fumador o no, con un nivel de significación del 5%.
Calculamos las frecuencias esperadas bajo el supuesto de independencia.
En la tabla siguiente se muestran entre paréntesis las frecuencias
esperadas.
Cáncer Totales
SI NO
Fumador 11 (7.7) 44 (47.3) 55
No Fumador 3 (6.3) 42 (38.7) 45
totales 14 86 100
Luego,
(| 11 − 7.7 | −0.5)2 (| 3 − 6.3 | −0.5)2 (| 44 − 47.3 | −0.5)2 (| 42 − 38.7 | −0.5)2
uo = + + + = 2.631
7.7 6.3 47.3 38.7

DE AJUSTE
de Independencia
CONTINGENCIA
Con corrección de Yates

Para el ejemplo analizado comprobamos que tenemos frecuencias
esperadas entre 5 y 10, debemos aplicar la corrección de Yates.
Por default R aplica la corrección de Yates en tablas 2 × 2
>datos=c(11,3,44,42)
>tabla=matrix(datos,2,2)
>chisq.test(tabla)
Pearson’s Chi-squared test with Yates’ continuity correction
data: tabla

DE AJUSTE
de Independencia
CONTINGENCIA

Para el ejemplo analizado, si no aplicamos la corrección de Yates
obtenemos resultados diferentes.
>chisq.test(tabla, correct=F)
data: tabla

DE AJUSTE
de Independencia
CONTINGENCIA

Para tablas donde n ≤ 200 los resultados corregidos y sin corregir
pueden ser diferentes.
Resulta más seguro aplicar en estos casos la corrección de Yates
aunque las frecuencias esperadas sean superiores a 10.
En la tabla del ejemplo, tenemos 100 observaciones.
Consideraremos la misma tabla pero con 200 observaciones.
Es decir, el vector de datos es: ddatos = 2 ∗ datos
Definiremos la tabla con estos datos y haremos el ajuste con y sin
corrección de Yates.
tabla=matrix(ddatos,2,2)
chisq.test(tabla) y chisq.test(tabla, correct=FALSE)

DE AJUSTE
de Independencia
CONTINGENCIA

Para tablas donde n ≤ 200 los resultados corregidos y sin corregir
pueden ser diferentes.
data: tabla

data: tabla

DE AJUSTE
de Independencia
CONTINGENCIA

Para tablas donde las frecuencias esperadas son grandes, los
resultados corregidos y sin corregir son muy similares.
>dddatos=3*datos
>tabla=matrix(dddatos,2,2)
>chisq.test(tabla)

data: tabla
>chisq.test(tabla, correct=F)

data: tabla

TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA
En la sección anterior, describimos el análisis de una tabla de

contingencia mediante el uso de ejemplos que se ajustaban al
modelo multinomial. Aunque los métodos para recolectar datos en
muchos estudios pueden satisfacer los requisitos de un modelo
multinomial, otros métodos no los satisfacen. Por ejemplo
podrı́amos no querer muestrear en forma aleatoria a una población
y decidir de antemano entrevistar a un número especificado de
personas de las categorı́as por fila o columna. De este modo se
fijan de antemano los totales por fila o columna.
Entonces tendrı́amos experimentos binomiales separados e
independientes. Supongamos que se fijan los totales por columna,
de esta forma la hipótesis nula es,
H0 : π·1 = π·2 = · · · = π·c

Bajo H0 el estadı́stico
r X
c
X (Nij − n π
bi· πb·j )2
nπ
bi· π
b·j
i=1 j=1
ni· n·j 2
r X
c Nij −
n
X
ni· n·j
i=1 j=1
n
tiene asintóticamente distribución χ2 .

Los grados de libertad se determinan considerando que hay r · c

probabilidades en total.
Como los totales por columna son fijos la suma de probabilidades
en cada columna debe ser igual a 1, es decir
π1j + π2j + · · · + πrj = 1
para j = 1, 2, . . . c. Es decir hay c restricciones lineales en las πij

que resultan en una pérdida de c grados de libertad.
Finalmente es necesario estimar r − 1 probabilidades fila
disminuyendo en r − 1 los grados de libertad. Por lo tanto
g .l. = r · c − c − (r − 1) = (r − 1) (c − 1)

Ejemplo
Una encuesta de las opiniones de los votantes se realizó en cuatro
distritos polı́ticos urbanos para comparar la fracción de votantes
que están a favor del candidato A. Muestras aleatorias de 200
votantes fueron entrevistados en cada uno de los cuatro distritos,
con los resultados que se muestran en la siguiente tabla.
Determinaremos si existe suficiente evidencia para indicar que las
fracciones de votantes a favor del candidato A difieren en los
distritos con un nivel de significación del 5%.
Distrito
Opinión 1 2 3 4 totales
a favor de A 76 53 59 48 236
no a favor de A 124 147 141 152 564
totales 200 200 200 200 800

Ejemplo
Si indicamos que la proporción de votantes a favor del candidato A
en el distrito i es πi para i = 1, . . . , 4 la hipótesis nula es
H0 : π1 = π2 = . . . = π4 = π
Por lo tanto las probabilidades de que los votantes no estén a favor

de A son 1 − π.
El estimador de máxima verosimilitud (EMV) de π bajo H0 está
dado por
n1· 236
π
b= =
n 800
El número esperado de personas que están a favor de A en cada
distrito bajo H0 está dado por
236
Eb (N11 ) = · · · = Eb (N14 ) = 200 · π
b = 200 · = 59
800
Ejemplo
El número esperado de personas que no están a favor de A en cada
distrito bajo H0 está dado por
Eb (N21 ) = · · · = Eb (N24 ) = 200 · (1 − π

b) = 141
Distrito
Opinión 1 2 3 4 totales
a favor de A 76 (59) 53 (59) 59 (59) 48 (59) 236
no a favor de A 124 (141) 147 (141) 141 (141) 152 (141) 564
totales 200 200 200 200 800
Luego,
(76 − 59)2 (124 − 141)2 (152 − 141)2
uo = + + ··· + = 10.722
59 141 141

Ejemplo
Luego el valor observado es uo = 10.722
A partir de este valor calculamos el p-valor correspondiente
p-valor = P[χ2 (3) > 10.722] = 0.01328
donde el estadı́stico de prueba tiene distribución χ2 con

(2 − 1)(4 − 1) = 3 grados de libertad.
Teniendo en cuenta que
p-valor = 0.01328 < 0.05 = α
podemos concluir, con un nivel de significación del 5%, que la

fracción de votantes a favor del candidato A no es igual para todos
los distritos.

Con R
> tabla=matrix(c(76,124, 53, 147, 59, 141, 48, 152),2,4)
> chisq.test(tabla)
data: tabla

Pruebas de Homogeneidad
La prueba realizada en el ejemplo es una prueba de la igualdad de
cuatro proporciones binomiales con base en muestras
independientes a partir de cada una de las poblaciones
correspondientes.
Es frecuente que a esta prueba se la denomine prueba de
homogeneidad.
Si hay más de dos categorı́as en las filas y los totales de columna
son fijos, la prueba χ2 es una prueba de equivalencia de las
proporciones en c poblaciones multinomiales.

DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD La
DEFamilia
AJUSTE Hipergeométrica
Prueba exacta de BIDIMENSIONA
Fisher
FAMILIA HIPERGEOMÉTRICA
Introducción
Para poder determinar la prueba de Fisher necesitamos conocer
otro modelo discreto. Este modelo está asociado, como en el
modelo binomial, al experimento de observar el número de éxitos
en selecciones de una población donde existen dos grupos distintos.
Sin embargo, en este modelo la selección de los elementos no se
hace con reposición, por lo tanto no tenemos independencia entre
una selección y la siguiente.
Tenemos N elementos de los cuales K son de un tipo N − K del
otro tipo. De este conjunto de elementos sacamos sin reposición n,
entonces
X representa el número de elementos seleccionados del grupo que
tiene K elementos cuando se seleccionan sin reposición n de los N
posibles.

DEFamilia
Fisher
FAMILIA HIPERGEOMÉTRICA
Definición
Una variable aleatoria X tiene distribución hipergeométrica con
parámetros N, K y n si su función densidad de probabilidad está
dada por:
K
N−K
x n−x
fX (x; N, K , n) = N
I{0,1,...,n} (x)
n
el espacio de parámetros es:
Θ = {(N, K , n) : N, K , n enteros no negativos ∧ n ≤ N ∧ K ≥ n}
X ∼ Hipergeom(N, K , n)

DEFamilia
Fisher
PROPIEDADES DE UNA V.A. HIPERGEOMÉTRICA

Si X ∼ Hipergeom(N, K , n) entonces
K
E (X ) = n.
N

K K N −n
var (X ) = n. . 1 − .
N M N −1

DEFamilia
Fisher
Ejemplo
Considere un fabricante de automóviles que compra los motores a
una compañı́a donde se fabrican bajo estrictas especificaciones. El
fabricante recibe un lote de 40 motores. Su proceso de control de
calidad consiste en seleccionar 8, de manera aleatoria y someterlos
a prueba. Si encuentra que ninguno de los motores presenta falla,
acepta el lote, de otra forma lo rechaza. Si el lote contiene 2
motores con serios defectos ¿cuál es la probabilidad de que sea
aceptado?

DEFamilia
Fisher
Ejemplo
Sea X el número de motores defectuosos de n = 8 seleccionados en
un lote de N = 40 que tiene K = 2 defectuosos.
La probabilidad de aceptar el lote es,
2
38
0
P (X = 0) = 40
8 = 0.6359
8
Con R
El comando con R es ”dhyper(x,K,N-K,8)”.
En el ejemplo, resulta
dhyper(0,2,38,8)= 0.6358974

DEFamilia
Fisher
PRUEBA EXACTA DE FISHER

Como dijimos anteriormente para frecuencias esperadas
menores que 5 se deberı́a utilizar la prueba exacta de Fisher. En
esta prueba se presciende de la aproximación a la distribución χ2 y
se trabaja con la distribución exacta de las frecuencias observadas.
Partiendo de la hipótesis nula de que las dos variables categóricas
son independientes, la probabilidad de obtener una disposición
particular de frecuencias viene dada por la distribución
hipergeométrica.
Esta prueba determina la probabilidad de obtener un resultado
como el observado o más extremo. Analicemos un ejemplo.

DEFamilia
Fisher

Un cuestionario de evaluación del profesorado universitario en
sociologı́a fue aplicado a 18 estudiantes, 9 hombres y 9 mujeres
entre los alumnos que habitualmente asisten a las clases de un
profesor. Este profesor afirma que el perfil de respuesta de varones
y mujeres es radicalmente distinto. Para someter esta afirmación a
prueba se le permite después de analizar las respuestas, sin que
conozca el sexo real, clasificar los cuestionarios en dos grupos de 9
alumnos cada uno según correspondan a respuestas de mujeres o
de varones. La tabla que se muestra a continuación expone los
resultados.
Calificación profesor
Varones Mujeres Totales
Varones 3 6 9
Mujeres 6 3 9
Totales 9 9 18
DEFamilia
Fisher
Observación
Calificación profesor
Varones Mujeres Totales
Varones 3 (4.5) 6 (4.5) 9
Mujeres 6 (4.5) 3 (4.5) 9
Totales 9 9 18
En el ejemplo que se plantea todas las frecuencias esperadas son

menores a 5.
Aplicaremos la Prueba Exacta de Fisher.

DEFamilia
Fisher
TABLAS DE CONTINGENCIA BIDIMENSIONALES: PRUEBA EXACTA

DE FISHER

La probabilidad de la disposición de la tabla observada es
9
9
3
P (X = 3) = P3 = 18
6 = 0.1451255
9
Obviamente existen otras disposiciones que representarı́an, si se

hubiesen observado, discrepancias más extremas entre la
distribución de los alumnos y la clasificación propuesta por el
profesor. Son las siguientes,
Tabla P2 Tabla P1 Tabla P0
2 7 9 1 8 9 0 9 9
7 2 9 8 1 9 9 0 9
9 9 18 9 9 18 9 9 18

DEFamilia
Fisher

DE FISHER

Las probabilidades de observar estas distribuciones (mas extremas que la
observada) son respectivamente,
9
9
2
P (X = 2) = P2 = 18
7 = 0.0266557
9
9 9

1 8
P (X = 1) = P1 = 18
= 0.00166598
9
9 9

0 9
P (X = 0) = P0 = 18
= 0.00002057
9
dhyper (2, 9, 9, 9) = 0.0266557

DEFamilia
Fisher

La suma total de estas probabilidades representa el p-valor para una
prueba de una sola cola y dado que los tamaños muestrales son
iguales para ambas marginales el p-valor para la prueba de dos colas es
el doble de ese valor.
3
X
p-valor = 2 · Pi = 2 · (0.00002057 + 0.00166598 + 0.0266557 + 0.1451255)
i=0
Por lo tanto, p-valor = 2 ∗ 0.1734677 = 0.3469354 > α conduce a

aceptar la hipótesis nula de no asociación y concluimos que la calificación
del profesor no coincide con el género de los alumnos.
Observación
El cálculo de la prueba exacta de Fisher puede ser notablemente
más complicado con frecuencias altas o con tablas de contingencia
de mayor dimensión.
DEFamilia
Fisher

DE FISHER
Con R
> tabla=matrix(c(3,6,6,3),2,2)
> fisher.test(tabla)
Fisher’s Exact Test for Count Data
data: tabla
p-value = 0.3469
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.02307113 2.46339977
sample estimates:
odds ratio
0.2717713

DEFamilia
Fisher

DE FISHER
Con R
Para determinar el p-valor debemos sumar las probabilidades de las
tablas que tienen una probabilidad asociada menor o igual a la
tabla observada.
>x=c(0,1,2,3,4,5,6,7,8,9)
>dhyper(x,9,9,9)
[1] 2.056767e-05 1.665981e-03 2.665570e-02 1.451255e-01 3.265323e-01

[6] 3.265323e-01 1.451255e-01 2.665570e-02 1.665981e-03 2.056767e-05
p − valor = 2.06 × 10−5 + 1.67 × 10−3 + 2.67 × 10−2 + 1.45 × 10−1 +

1.45 × 10−1 + 2.67 × 10−2 + 1.67 × 10−3 + 2.06 × 10−5
= 0.3469

DEFamilia
Fisher

DE FISHER
En este curso lo único que vamos a utilizar de la prueba exacta de

Fisher es el p-valor asociado a la tabla observada. Podemos pedir
que R proporcione sólo ese valor.
> test=fisher.test(tabla)
> test$p.value
[1] 0.3469

DEFamilia
Fisher

DE FISHER
Para el ejemplo analizado la aplicación del Test de Independencia

con el estadı́stico de prueba con distribución χ2 es incorrecta.
R dá mensaje de posible error.
> chisq.test(tabla)
data: tabla
Warning message:
In chisq.test(tabla) : Chi-squared approximation may be incorrect

DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD Cálculo
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
de una tabla de contingencia
BIDIMENSIONA
APÉNDICE
CALCULO DE VALORES ESPERADOS DE UNA TABLA DE
CONTINGENCIA
Autor: Marcos Ayende
Cargamos los datos de la matriz correspondiente al ejemplo de ”Prueba
de Homogeneidad”.
datos=c(76,124,53,147,59,141,48,152)
tabla=matrix(datos,2,4)
Podemos agregar nombres que identifiquen la fila y columna de la matriz.

En este caso
dimnames(tabla)<-list(c("A","noA"),c("1","2","3","4"))
> tabla
1 2 3 4
A 76 53 59 48
noA 124 147 141 152
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
BIDIMENSIONA
APÉNDICE

CONTINGENCIA
Agregamos los totales marginales a la tabla de frecuencias observadas,
utilizando el comando addmargins.
tablatotal=addmargins(tabla)
> tablatotal
1 2 3 4 Sum
A 76 53 59 48 236
noA 124 147 141 152 564
Sum 200 200 200 200 800

DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
BIDIMENSIONA
APÉNDICE

CONTINGENCIA
Para determinar las frecuencias esperadas definimos vectores con
los totales marginales. Llamamos ”tc” al vector de totales columna
y ”tf” al correspondiente a las filas.
Si colocamos ”tf = c(tablatotal[, 5])”, tc es un vector con todas
las filas y los datos correspondientes a la columna 5.
Después a estos vectores les sacamos el último valor que
corresponde a la frecuencia total observada. Los llamamos ”TC” y
”TF” con el comando ”tf [−3]” y ”tc[−5]”.
tf=c(tablatotal[,5])
tc=c(tablatotal[3,])
TF=tf[-3]
TC=tc[-5]
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
BIDIMENSIONA
APÉNDICE

CONTINGENCIA
Obtenemos
> tf
A noA Sum
236 564 800
> TF
A noA
236 564
> tc
1 2 3 4 Sum
200 200 200 200 800
> TC
1 2 3 4
200 200 200 200

DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
BIDIMENSIONA
APÉNDICE

CONTINGENCIA
Para determinar las frecuencias esperadas tenemos que obtener
una matriz donde el elemento i, j sea el producto del total de la
fila i por el total de la columna j.
Para lograr esto definimos una matriz cuyas columnas sean los
totales fila y una matriz diagonal con los totales columna. El
producto de estas matrices es la matriz que buscamos. Veamos
esto en nuestro ejemplo. Fácilmente se puede generalizar para una
matriz de r × c
 
tc1 0 0 0
tf1 .tc1 tf1 .tc2 tf1 .tc3 tf1 .tc4 tf1 tf1 tf1 tf1  0 tc2 0 0 
= ∗ 
tf2 .tc1 tf2 .tc2 tf2 .tc3 tf2 .tc4 tf2 tf2 tf2 tf2  0 0 tc3 0 
0 0 0 tc4

DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
BIDIMENSIONA
APÉNDICE

CONTINGENCIA
Para determinarla matriz cuyas columnas sean los totales fila
utilizamos el comando ”matrix(TF,2,4)” y para determinar la
matriz diagonal con los totales columna usamos ”diag(TC,4,4)”.
El producto de estas matrices es la matriz que buscamos. Para
encontrar la matriz de frecuencias esperadas, dividimos por el
total, 800=sum(TC)=sum(TF).
F=matrix(TF,2,4)
C=diag(TC,4,4)
FE=(F%*%C)/sum(TF)

DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
BIDIMENSIONA
APÉNDICE
CONTINGENCIA
Obtenemos
> F
[,1] [,2] [,3] [,4]
[1,] 236 236 236 236
[2,] 564 564 564 564 > C
[,1] [,2] [,3] [,4]
[1,] 200 0 0 0
[2,] 0 200 0 0
[3,] 0 0 200 0
> FE [4,] 0 0 0 200
[,1] [,2] [,3] [,4]
[1,] 59 59 59 59
[2,] 141 141 141 141
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
BIDIMENSIONA
APÉNDICE
CALCULO DE VALORES ESPERADOS EN EL EJERCICIO 5.12
Aplicaremos los comandos anteriores para el ejercicio 5.12 ejemplo
de ”Análisis de Independencia”
datos=c(12,5,36,16,8,6,5,2)
tabla=matrix(datos,2,4)
dimnames(tabla)<-list(c("1","2"),c("A","B","C","D"))
tablatotal=addmargins(tabla)
tf=c(tablatotal[,5])
tc=c(tablatotal[3,])
TF=tf[-3]
TC=tc[-5]
F=matrix(TF,2,4)
C=diag(TC,4,4)
FE=(F%*%C)*(1/sum(TF))
dimnames(FE)<-list(c("A","noA"),c("1","2","3","4"))
DE AJUSTEde valores
TABLAS
esperados
DE CONTINGENCIA
BIDIMENSIONA
APÉNDICE
CALCULO DE VALORES ESPERADOS EN EL EJERCICIO 5.12

Aplicaremos los comandos anteriores para el ejercicio 5.12 ejemplo
de ”Análisis de Independencia”
> FE
1 2 3 4
A 11.522222 35.24444 9.488889 4.744444
noA 5.477778 16.75556 4.511111 2.255556
> round(FE,2)
1 2 3 4
A 11.52 35.24 9.49 4.74
noA 5.48 16.76 4.51 2.26

AnalisisDCategóricos SP

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

AnalisisDCategóricos SP

Cargado por

Copyright:

Formatos disponibles

DESCRIPCIÓN DEL EXPERIMENTO PRUEBAS DE BONDAD DE AJUSTE TABLAS DE CONTINGENCIA BIDIMENSIONA

ANÁLISIS DE DATOS CATEGÓRICOS

Facultad de Ciencias Económicas - UNCuyo

ANÁLISIS DE DATOS CATEGÓRICOS

1 DESCRIPCIÓN DEL EXPERIMENTO

2 PRUEBAS DE BONDAD DE AJUSTE

3 TABLAS DE CONTINGENCIA BIDIMENSIONALES

4 TABLAS CON r × c TOTALES FIJOS DE FILA O COLUMNA

5 PRUEBA EXACTA DE FISHER

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

Variables Ordinales y Nominales

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

Datos de respuesta Categóricos

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

Datos de respuesta Categóricos

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

Datos de respuesta Categóricos

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

Datos de respuesta Categóricos

Los modelos más utilizados son el de Poisson, el Binomial y su

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

Caracterı́sticas del Modelo Multinomial

Estas caracterı́sticas definen un modelo multinomial. Este modelo

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

X1 , · · · , Xk tienen distribución binomial con parámetros n y

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

E (Xi ) = n · πi y var (Xi ) = n · πi · (1 − πi )

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

Demostración de cov (Xi , Xj )

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

ANÁLISIS DE DATOS CATEGÓRICOS

DESCRIPCIÓN DEL EXPERIMENTO

La covarianza es negativa, como ya se esperaba, ya que un número

DESCRIPCIÓN DEL EXPERIMENTO

Debido a que el cálculo de probabilidades multinomiales es muy

ANÁLISIS DE DATOS CATEGÓRICOS

PRUEBA DE BONDAD DE AJUSTE

ANÁLISIS DE DATOS CATEGÓRICOS

PRUEBA DE BONDAD DE AJUSTE

donde F0 (x) es el modelo de probabilidad propuesto para la

ANÁLISIS DE DATOS CATEGÓRICOS

PRUEBA DE BONDAD DE AJUSTE

ANÁLISIS DE DATOS CATEGÓRICOS

PRUEBA DE BONDAD DE AJUSTE

Prueba de bondad de ajuste

donde E (Ni ) es la frecuencia esperada de la i-ésima clase de la

ANÁLISIS DE DATOS CATEGÓRICOS

PRUEBA DE BONDAD DE AJUSTE

Prueba de bondad de ajuste

ANÁLISIS DE DATOS CATEGÓRICOS

PRUEBA DE BONDAD DE AJUSTE