Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad Ciencias Económicas y Empresariales
Departamento de Economía Aplicada
Profesor: Santiago de la Fuente Fernández
APLICACIONES DE LA CHI-CUADRADO:
TABLAS DE CONTINGENCIA. HOMOGENEIDAD.
DEPENDENCIA E INDEPENDENCIA
Gestión Aeronáutica: Estadística Teórica
Facultad Ciencias Económicas y Empresariales
Departamento de Economía Aplicada
Profesor: Santiago de la Fuente Fernández
PRINCIPALES APLICACIONES DE LA CHI‐CUADRADO
Generalmente, se examina una muestra tomada de la población, lo que lleva a tener una
serie de datos, y ver hasta qué punto la muestra se pude considerar perteneciente a
una distribución teórica conocida.
CONTRASTE DE BONDAD DEL AJUSTE
El objetivo del contraste de bondad del ajuste es saber si una muestra procede de
una población teórica con determinada distribución de probabilidad.
xi (frecuencia observada de xi ), n n
i 1
i
Se origina la TABLA DE CONTINGENCIA:
X x1 x2 xi xk
Frecuencia observada n1 n2 ni nk
Frecuencia esperada (e1 ) (e2 ) (ei ) (ek )
estadístico estadístico
observado observado
estadístico
teórico estadístico
teórico
k
(n i ei )2 k
(n i ei )2
Se acepta H0 :
i1
ei
2 , (k 1) Se rechaza H0 : i1
ei
2 , (k 1)
1
k
(n i e i )2 k
n2i
El estadístico
i 1
ei
e
i 1 i
n (útil en el cálculo)
OBSERVACIONES DE LA APLICACIÓN
TABLAS CONTIGENCIA: CONTRASTE DE DEPENDENCIA O INDEPENDENCIA
Cuando se desea comparar dos caracteres (X, Y) en una misma población que admiten
las modalidades: X (x 1, x 2 , , x i, , x k ) Y (y1 , y2, , yj, , ym ) , se toma una muestra
de tamaño n, representando por n ij el número de elementos de la población que
presentan la modalidad x i de X e yj de Y.
X
Y
y1 y2 yj ym n
j 1
i
x1 n 11 n 12 n 1j n1m n1
x2 n 21 n 22 n 2j n 2m n2
xi n i1 n i2 n ij n im ni
xk n k1 n k2 n kj n km nk
k
n
i 1
j
n 1 n 2 n j n m n
2
Bajo la hipótesis nula, cada frecuencia observada n ij (i 1, , k ; j 1, , m) de la
tabla de contingencia (k x m) hay una frecuencia esperada ( e ij ) que se obtiene
mediante la expresión:
ni x n j n i n j
e ij p ij . n , donde p ij x
n n n
X
Y
y1 y2 yj ym n
j 1
i
n 11 n 12 n 1j n1m
x1 n1
( e11 ) ( e12 ) ( e1j ) ( e1 m )
n 21 n 22 n 2j n 2m
x2 n2
( e21 ) ( e22 ) ( e2j ) ( e2m )
n i1 n i2 n ij n im
xi ni
( ei1 ) ( ei2 ) ( eij ) ( eim )
n k1 n k2 n kj n km
xk nk
( ek1 ) ( ek2 ) ( ekj ) ( ek m )
k
n
i 1
j
n 1 n 2 n j n m n
Las condiciones necesarias para aplicar el test de la Chi-cuadrado exige que al menos
el 80% de los valores esperados de las celdas sean mayores que 5. Cuando esto no
ocurre hay que agrupar modalidades contiguas en una sola hasta lograr que la nueva
frecuencia sea mayor que cinco.
En una tabla de contingencia de 2 x 2 será necesario que todas las celdas verifiquen
esta condición, si bien en la práctica suele permitirse que una de ellas tenga
frecuencias esperadas ligeramente por debajo de 5.
k m
(n ij eij )2
El estadístico de contraste observado:
i 1 j 1
eij
2(k 1) . (m 1) que sigue
3
Para un nivel de significación se puede contrastar la diferencia significativa entre
las dos distribuciones empíricas o la independencia de las distribuciones empíricas.
CONTRASTE DE HOMOGENEIDAD
estadístico observado
estadístico teórico
k m
(n ij e ij )2
Se acepta Ho si :
i 1 j 1
e ij
2
, (k 1) . (m 1)
estadístico observado
estadístico teórico
k m
(n ij e ij )2
Se rechaza Ho si : i 1 j 1
e ij
2
, (k 1) . (m 1)
CONTRASTE DE INDEPENDENCIA
estadístico observado
estadístico teórico
k m
(n ij e ij )2
Se acepta Ho si :
i 1 j 1
e ij
2
, (k 1) . (m 1)
estadístico observado
estadístico teórico
k m
(n ij e ij )2
Se rechaza Ho si : i 1 j 1
e ij
2
, (k 1) . (m 1)
TABLAS CONTIGENCIA 2 x 2 y 2 x 3
Y
y1 y2
X
x1 n 11 n 12 n1 2
n (n 11 . n 22 n 12 . n 21 )2
1
n 1 . n 2 . n 1 . n 2
x2 n 21 n 22 n2
n 1 n 2 n
4
Y
y1 y2 y3
X
x1 n 11 n 12 n 13 n1
x2 n 21 n 22 n 23 n2
n 1 n 2 n 3 n
Coeficiente de CONTINGENCIA
Es una medida del grado de relación o dependencia entre dos caracteres en la tabla de
contingencia, se define:
2
C 0C 1
2 n
FACTOR de corrección de YATES
2
n
n n11 .n22 n12 .n21
2 n
12 la corrección no es válida cuando n11 .n22 n12 .n21
n1 .n2 .n 1 .n 2 2
5
Test G de la razón de verosimilitud
k m nij
Se define el estadístico G 2 nij ln
eij
i1 j1
k m nij
Se acepta la hipótesis nula H0 si G 2 nij ln 2, (k 1) .(m1)
eij
i1 j1
Test de McNemar
La escala de medición para X e Y es nominal con dos categorías, tales como positivo o
negativo, hembra o macho, presencia o ausencia, que se pueden denominar 0 y 1.
Y
X Total
a b ab
c d cd
Total ac bd n
Los casos que muestran cambios entre la primera y segunda respuesta aparecen en las
celdillas b y c .
6
Estadístico de contraste si b + c < 20 :
Estadístico de contraste si b + c 20 :
(b c)2 (b c)2
2
2
se acepta H0 si 2
2
2/2,1
McNemar
bc
1 McNemar 1
bc
b c 1 b c 1
2 2
2
2
se acepta H0 si 2
2
2/2,1
McNemar 1
bc McNemar 1
bc
Coeficientes en distribuciones dicotómicas
Los coeficientes más utilizados en variables dicotómicas son los de correlación phi y
Q de Yule.
a) El coeficiente alcanza su máximo valor sólo cuando una de las dos diagonales se
ha vaciado.
Y
X Total
y1 y2
x1 a b (a + b)
x2 c d (c + d)
Total (a + c) (b + d) (n)
7
a d bc
Coeficiente Phi: 01
(a b)(c d)(a c)(b d)
a d bc
Coeficiente Q de Yule: Q 0Q 1
a d bc
Test exacto de FISHER
Si las dos variables que se están analizando son dicotómicas, y la frecuencia esperada
es menor que 5 en más de una celda, no resulta adecuado aplicar el test de la 2 ,
aunque sí el test exacto de Fisher.
El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas
cuando la muestra a estudiar es demasiado pequeña y no cumple las condiciones
necesarias para que la aplicación del test de la Chi-cuadrado sea idónea.
Y
X Total
y1 y2
x1 a b (a + b)
x2 c d (c + d)
Total (a + c) (b + d) (n)
Las condiciones necesarias para aplicar el test de la Chi-cuadrado exige que al menos
el 80% de los valores esperados de las celdas sean mayores que 5. De este modo, en
una tabla de contingencia de 2 x 2 será necesario que todas las celdas verifiquen esta
condición, si bien en la práctica suele permitirse que una de ellas tenga frecuencias
esperadas ligeramente por debajo de 5.
El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las
tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas
que los de la tabla observada. Cada uno de estas probabilidades se obtiene bajo la
hipótesis de independencia de las dos variables que se están analizando.
La probabilidad asociada a los datos que han sido observados viene dada por:
La fórmula general de la probabilidad descrita deberá calcularse para todas las tablas
de contingencia que puedan formarse con los mismos totales de filas y columnas de la
tabla observada.
8
El valor de la p asociado al test exacto de Fisher puede calcularse sumando las
probabilidades de las tablas que resulten menores o iguales a la probabilidad de la
tabla que ha sido observada.
INTERPRETACIÓN DE DATOS
Solución:
9
H0 : La situación laboral de la mujer es independiente de su estado civil.
H1 : La situación laboral de la mujer depende de su estado civil.
Ambos estadísticos son negativos, con un p-valor < 0, 05 , pudiendo afirmar que la
correlación entre la situación laboral y el estado civil de las mujeres es inversa y
significativa al 5%.
Se puede concluir que la situación laboral de la mujer (sí esta trabajando) esta
asociada a las solteras, con un nivel de significación del 5%.
10
CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE
1.- Para comprobar si los operarios encontraban dificultades con una prensa manual
de imprimir, se hizo una prueba a cuatro operarios anotando el número de atascos
sufridos al introducir el mismo número de hojas, dando lugar a la siguiente tabla:
Operario A B C D Total
Obstrucciones 6 7 9 18 40
Con un nivel de significación del 5%, ¿existe diferencia entre los operarios?
Solución:
La probabilidad de que se atascase una hoja sería 1 / 4 para todos los operarios.
De este modo, el número de atascos esperados para cada uno de ellos sería
( ei 10)i 1, , 4 .
Operario A B C D Total
6 7 9 18 40
Obstrucciones
(10) (10) (10) (10) (40)
k ( ni e i ) 2 k ni2
2k 1 ei
ei
n 2 ; k 1
k número intervalos
i 1 i 1
estadístico teórico
estadístico contraste
k
(ni ei ) 2
o bien, la región de rechazo de la hipótesis nula: R
i 1
ei
2 ; k 1
4
ni2 6 2 7 2 9 2 18 2
con lo cual, 2
3 e
i 1 i
n
10 10 10
10
40 9
11
CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE A UNA POISSON CON
PARÁMETRO DESCONOCIDO.
Número partículas 0 1 2 3 4 5
Número períodos de tiempo 120 200 140 20 10 2
¿Se pueden ajustar los datos obtenidos a una distribución de Poisson, con un nivel de
significación del 5%?
Solución:
k
(ni ei ) 2 k
ni2 k número intervalos
2
k p 1
i 1
ei
e
i 1 i
n 2 ; k p 1
donde
p número parámetros a estimar
estadístico teórico
estadístico contraste
k
(ni e i ) 2
o bien, la región de rechazo de la hipótesis nula: R
i 1
ei
2 ; k p 1
xi ni xi n i P(xi k ) pi
0 120 0 0,3012
x
x n i i
590
1,2
1 200 200 0,3614 n 492
2 140 280 0,2169 1,2
3 20 60 0,0867 en consecuencia,
4 10 40 0,0260 1,2 k 1,2
P(xi k) e k 0, ,5
5 2 10 0,0062 k!
n = 492 590
12
Las probabilidades con que llegan las partículas k 0, 1, , 5 se obtienen
1,2 k 1.2
sustituyendo los valores de k en P(xi k) e , o bien en las tablas con 1, 2
k!
Para verificar si el ajuste de los datos a una distribución de Poisson se acepta o no,
mediante una 2 , hay que calcular las frecuencias esperadas (e i n . pi )
xi 0 1 2 3 4 5
120 200 140 20 10 2
Frecuencias
(e1 = 148,2) (e2 = 177,8) (e3 = 106,7) (e4 = 42,7) (e5 = 12,8) (e6 = 3, 05)
dando lugar a una tabla de contingencia 1 x 6, en donde hay que agrupar las dos
últimas columnas por tener la última columna frecuencias esperadas menores que
cinco.
xi 0 1 2 3 4 y 5
120 200 140 20 12
Frecuencias
( e1 = 148,2) (e2 = 177,8) (e3 = 106,7) (e4 = 42,7) (e5 = 15,8)
El estadístico de contraste:
5
(ni ei ) 2 5
ni2 120 2 200 2 140 2 20 2 12 2
2
3 i 1
ei
i 1
ei
n
148,2 177,8 106,27 42,7 15,8
492 32,31
k
(ni ei ) 2
Se verifica la región de rechazo: R
i 1
ei
2 ; k p 1 32,31 7, 815
13
CONTRASTE NO PARAMÉTRICO DE BONDAD DE AJUSTE A UNA NORMAL CON
PARÁMETROS DESCONOCIDOS.
3.- Para una muestra aleatoria simple de 350 días, el número de urgencias tratadas
diariamente en un hospital A queda reflejado en la siguiente tabla:
Solución:
Para ajustar los datos obtenidos a una distribución normal N( , ) de parámetros
desconocidos, se necesitan estimar los dos parámetros recurriendo a los estimadores
ˆx ,ˆ
máximo-verosímiles: ( 2 2x ) , donde la variable aleatoria X = ' número de
urgencias diarias'.
k
( ni e i ) 2 k
ni2 k número intervalos
2
k p 1
i 1
ei
e i 1 i
n 2 ; k p 1
donde
p número parámetros a estimar
estadístico teórico
estadístico contraste
Intervalos xi ni x i .n i x 2i . n i
0 ‐ 5 2,5 20 50 125
5 ‐ 10 7,5 65 487,5 3656,25
10 ‐ 15 12,5 100 1250 15625
15 ‐ 20 17,5 95 1662,5 29093,75
20 ‐ 25 22,5 60 1350 30375
25 ‐ 30 27,5 10 275 7562,5
6 6 6
n= i=1
n i = 350
i=1
x i n i = 5075 x . n = 86437,5
i=1
2
i i
6 6 6
x n i i
2
(x i
2
‐ x) n i x .n 2
i i
x= i=1
= 14,5 σ = x
i=1
= i=1
‐ ( x ) 2 = 36,71 σ x = 6,06
350 350 350
14
Se procede al ajuste de una distribución normal N(14,5 ; 6,06) , hallando las
probabilidades de cada uno de los intervalos:
Intervalos ni pi ei = pi . n (n i ‐ e i ) 2 (n i ‐ e i ) 2 / ei
0 ‐ 5 20 0,0498 17,43 6,6 0,38
5 ‐ 10 65 0,1714 59,99 25,1 0,42
10 ‐ 15 100 0,3023 105,81 33,76 0,32
15 ‐ 20 95 0,2867 100,35 28,62 0,29
20 ‐ 25 60 0,1396 48,86 124,1 2,54
25 ‐ 30 10 0,0366 12,81 7,9 0,62
6
n = 350 (n ‐ e )
i=1
i i
2
/ ei = 4,57
15
Se calcula el estadístico de contraste 2 , donde el número de grados de libertad
es k p 1 (n º intervalos) (n º parámetros a estimar) 1 6 2 1 3 , con lo
cual,
6
(ni e i ) 2
2
3 i 1
ei
4,57
16
CONTRASTE DE HOMOGENEIDAD.
4.- Para conocer la opinión de los ciudadanos sobre la actuación del alcalde de una
determinada ciudad, se realiza una encuesta a 404 personas, cuyos resultados se
recogen en la siguiente tabla:
Contrastar, con un nivel de significación del 5%, que no existen diferencias de opinión
entre hombres y mujeres ante la actuación del alcalde.
Solución:
Se tienen dos muestras clasificadas en tres niveles, donde se desea conocer si los
hombres y mujeres proceden de la misma población, es decir, si se comportan de
manera semejante respecto a la opinión de la actuación del alcalde.
Región de rechazo de la hipótesis nula: R rechazo 2(k 1) . (m 1) 2 ; (k 1) .(m 1)
Se forma una tabla de contingencia 2 x 3: En cada frecuencia observada
( nij )i 1, ,k ; j1, , m en la tabla de contingencia se tiene una frecuencia teórica o esperada
n i x n j
eij que se calcula mediante la expresión: e ij pij . n , donde pij son las
n
probabilidades de que un elemento tomado de la muestra presente las modalidades xi
de X e y j de Y.
17
205 . 202 205 . 140 205 . 62
e 21 = = 102,5 e 22 = = 71,03 e 23 = = 31, 46
404 404 404
2 3
(nij e ij ) 2
El estadístico de contraste:
i 1 j 1
e ij
2(2 1) . (31) 22 , con lo que,
2 3
(n ij ‐ e ij ) 2
2 (84 ‐ 99,5) 2 (78 ‐ 68,96) 2 (37 ‐ 30,53) 2 (118 ‐ 102,5) 2 (62 ‐ 71,03) 2
χ =
2
= + + + + +
i=1 j=1
e ij 99,5 68,96 30,53 102,5 71,03
(25 ‐ 31, 46) 2
+ = 9, 76
31, 46
sigue una 2 con dos grados de libertad si es cierta la hipótesis nula con eij 5
i, j ; en caso contrario sería necesario agrupar filas o columnas contiguas.
k m
(nij e ij ) 2 k m
nij2
El estadístico de contraste: i 1 j 1
e ij
2
(k 1) . (m 1)
e
i 1 j 1 ij
n
2 3
n 2ij
84 2 78 2 37 2 118 2 62 2 25 2
‐n= + + + + + ‐ 404 = 9, 76
i=1 j=1
e ij 99,5 68,96 30,53 102,5 71,03 31, 46
18
CONTRASTE DE INDEPENDENCIA.
Coeficiente Intelectual
Total
< 80 80 ‐ 90 90 ‐ 99 100
Nutrición buena 245 228 177 219 869
Nutrición pobre 31 27 13 10 81
Total 276 255 190 229 950
A un nivel de significación del 10%, ¿hay relación entre las dos variables tabuladas?
Solución:
k m
(nij e ij ) 2 k m
nij2
El estadístico de contraste:
i 1 j 1
e ij
2
(k 1) .(m 1)
e
i 1 j 1 ij
n
Siendo la región de rechazo de la hipótesis nula: R rechazo 2(k 1) . (m 1) 2 ; (k 1) .(m 1)
En la tabla de contingencia 2 x 4 para cada frecuencia observada (nij )i1, , k ; j1,, m se
tiene una frecuencia teórica o esperada eij que se calcula mediante la expresión:
n i x n j
e ij
n
Coeficiente Intelectual
ni
< 80 80 ‐ 90 90 ‐ 99 100
245 228 177 219
Nutrición buena (e 11 = 252, 46) (e 12 = 233,25) (e 13 = 173,8) (e 14 = 209, 47) 869
31 27 13 10
Nutrición pobre (e 21 = 23, 53) (e 22 = 21, 74) (e 23 = 16, 2) (e 24 = 19, 52) 81
19
81 . 276 81 . 255 81 . 190 81 . 229
e21 = = 23, 53 e22 = = 21, 74 e23 = = 16, 2 e24 = = 19, 52
950 950 950 950
El estadístico de contraste:
2 4
n 2ij
e
2 245 2 228 2 177 2 219 2 31 2 27 2 13 2 10 2
χ =
3
‐n= + + + + + + + ‐ 950 = 9,75
i=1 j=1 ij
252, 46 233,25 173,8 209, 47 23,53 21,74 16,2 19,52
ó bien,
2 4
(n ij ‐ e ij ) 2
2 (245 ‐ 252, 46) 2 (228 ‐ 233,25) 2 (177 ‐ 173,8) 2 (219 ‐ 209, 47) 2
χ =
3
= + + + +
i=1 j=1
e ij 252, 46 233,25 173,8 209, 47
(31 ‐ 23,53) 2 (27 ‐ 21,74) 2 (13 ‐ 16,2) 2 (10 ‐ 19,52) 2
+ + + + = 9,75
23,53 21,74 16,2 19,52
sigue una 2 con tres grados de libertad si es cierta la hipótesis nula con eij 5
i, j ; en caso contrario sería necesario agrupar filas o columnas contiguas.
Meses A B C Total
1 6 10 10 26
2 8 12 12 32
3 8 8 14 30
4 9 14 16 39
Total 31 44 52 127
b) Con un nivel de significación de 0,05, comprobar que los tres métodos tienen la
misma eficacia.
Solución:
20
a) Con la simple observación de los datos, el empaquetado A parece ser el mejor, ya
que es el que menos kilos de tomates estropeados tuvo. Ahora bien, esta situación
puede ser engañosa, ya que hay que tener en cuenta el número de kilos que se
empaquetaron.
Para tomar una decisión sobre si hay diferencia entre los diferentes métodos de
empaquetado, se contrasta la hipótesis nula
k m
nij2
Se acepta H0 si: 2
(k 1) . (m 1)
e
i 1 j 1 ij
n 2 ; (k 1) . (m 1)
n i x n j
Se forma la tabla de contingencia 3 x 4 , donde e ij
n
Empaquetado
A B C Total
Meses
6 10 10 26
1
(e11 6, 35) (e12 9, 01) (e13 10, 62) (26)
8 12 12 32
2
(e21 7, 81) (e22 11, 09) (e23 13, 10) (32)
8 8 14 30
3
(e31 7, 32) (e32 10, 39) (e33 12, 28) (30)
9 14 16 39
4
(e41 9, 52) (e42 13, 51) (e43 15, 97) (39)
Total 31 44 52 127
26 . 31 32 . 31 30 . 31 39 . 31
e11 6, 35 e21 7, 81 e31 7, 32 e41 9, 52
127 127 127 127
26 . 44 32 . 44 30 . 44 39 . 44
e12 9, 01 e22 11, 09 e32 10, 39 e42 13, 51
127 127 127 127
26 . 52 32 . 52 30 . 52 39 . 52
e13 10, 65 e23 13, 10 e33 12, 28 e43 15, 97
127 127 127 127
3 4
nij2
Estadístico de contraste: 2
(3 1) . ( 4 1)
2
6 e
i 1 j 1 ij
n 128,24 127 1,24
2
El estadístico teórico o esperado: 0,05 ; 6
12,592
21
Siendo 26 1, 24 20,05 ; 6 12,592 , el estadístico observado es menor que el
estadístico teórico o esperado, por tanto, no se cumple la región de rechazo,
concluyendo que los tres métodos de empaquetado tienen la misma eficiencia.
Satisfacción en el trabajo
Muy satisfecho Satisfecho Insatisfecho Muy insatisfecho
España 200 300 300 100
Francia 300 400 350 150
Italia 350 300 250 150
Solución:
La hipótesis nula H0: 'Las proporciones de los trabajadores con los distintos grados de
satisfacción son iguales en los tres países'
Se acepta H0:
k m
( nij eij ) 2 k m
nij2
2
(k 1) . (m 1)
i 1 j 1
e ij
e
i 1 j 1 ij
n 2 ; (k 1) . (m 1)
22
Satisfacción en el trabajo
Total
Muy satisfecho Satisfecho Insatisfecho Muy insatisfecho
200 300 300 100 900
España (e 14 114, 29)
(e11 242,86) (e12 285, 71) (e13 257, 14) (900)
300 400 350 150 1200
Francia
(e21 323, 81) (e22 380, 95) (e23 342, 86) (e24 152, 38) (1200)
350 300 250 150 1050
Italia
(e31 283, 33) (e32 333, 33) (e33 300) (e34 133, 33) (1050)
3 4
(nij e ij ) 2 3 4
nij2
Estadístico observado: 2
(3 1) . (4 1)
i 1 j 1
eij
e
i 1 j 1 ij
n
8.- Las compañías de seguros de automóviles suelen penalizar en sus primas a los
conductores más jóvenes, con el criterio que éstos son más propensos a tener un
mayor número de accidentes. En base a la tabla adjunta, con un nivel de significación
del 5%, contrastar si el número de accidentes es independiente de la edad del
conductor.
Número de accidentes al año
Edad del conductor
0 1 2 3 4
25 o menos 10 10 20 40 70
26 ‐ 35 20 10 15 20 30
más de 36 60 50 30 10 5
Solución:
Hipótesis nula H0: 'El número de accidentes sufridos por los conductores no depende
de la edad del conductor'
23
Se acepta H0:
k m
(nij eij ) 2 k m
nij2
2
(k 1) . (m 1)
i 1 j 1
eij
e
i 1 j 1 ij
n 2 ; (k 1) . (m 1)
Número de accidentes por año m
Edad del
0 1 2 3 4 n
j 1
i
conductor
10 10 20 40 70 150
25 o menos e13 24,37 e14 26,25 e15 39,37
e11 33, 75 e12 26,25 (150)
20 10 15 20 30 95
26 ‐ 35 e23 15, 44 e24 16, 62 e25 24, 94
e21 21,37 e22 16, 62 (95)
60 50 30 10 5 155
más de 36 e31 34, 87 e32 27,12 e33 25,19 e34 27,12 e35 40, 69 (155)
k
n
i 1
j 90 70 65 70 105 400
95 . 90 95 . 70 95 . 65 95 . 70 95 . 105
e21 21, 37 e22 16, 62 e23 15, 44 e24 16, 62 e25 24,94
400 400 400 400 400
3 5
( nij eij ) 2 3 5
nij2
Estadístico observado: 2
(3 1) . (5 1)
2
8
i 1 j 1
e ij
e
i 1 j 1 ij
n
10 2 10 2 20 2 40 2 70 2 20 2 10 2 15 2 20 2 30 2
33,75 26,25 24,37 26,25 39,37 21,37 16,62 15, 44 16,62 24,94
60 2 50 2 30 2 10 2 52
400 143,51
34,87 27,12 25,19 27,12 40,69
24
Como 28 143, 51 15, 507 20,05 ; 8 se rechaza la hipótesis nula de independencia
entre la edad del conductor y el número de accidentes.
En consecuencia, la edad influye significativamente en el número de accidentes al año.
9.- En dos ciudades, A y B, se observó el color del pelo y de los ojos de sus
habitantes, encontrándose las siguientes tablas:
Ciudad A Ciudad B
Pelo Pelo
Ojos Rubio No Rubio Ojos Rubio No Rubio
Azul 47 23 Azul 54 30
No azul 31 93 No azul 42 80
b) ¿En cuál de las dos ciudades podemos afirmar que hay mayor dependencia entre el
color del pelo y de los ojos?
Solución:
Ciudad A
Pelo
Ojos Rubio No Rubio Total
70 . 78 70 . 116
e11 28, 14 e12 41, 85
47 23 70 194 194
Azul
(e11 28, 14) (e12 41,85) (70)
31 93 124 124 . 78 124 . 116
No azul e21 49, 85 e22 74,14
(e21 49, 85) (e 22 74, 14) (124) 194 194
Total 78 116 194
Estadístico de contraste:
2 2
nij2 47 2 23 2 31 2 93 2
χ2
(2-1) . (2-1)
=χ =
2
1
i=1 j=1
eij
-n = + + +
28,14 41,85 49,85 74,14
- 194 = 33,07
33, 07
El coeficiente de contingencia: CA = = 0,3816
33, 07 + 194
25
Ciudad B
Pelo
Ojos Rubio No Rubio Total
84 . 96 84 . 110
e11 39,15 e12 44, 85
54 30 84 206 206
Azul (84)
(e11 = 39, 15) (e12 = 44,85)
42 80 122 96 . 122 110 . 122
No azul e21 56, 85 e22 65, 15
(e21 = 56, 85) (e22 = 65, 15) (122) 206 206
Total 96 110 206
Estadístico de contraste:
2 2
nij2 54 2 30 2 42 2 80 2
2
(2 1) . (2 1)
2
1 e
i 1 j 1 ij
n
39,15 44,85 56,85 65,15
206 17,82
17,82
El coeficiente de contingencia: CB 0,282
17,82 206
X1 = Estado general de salud: muy bueno (3), bueno (2), regular (1), malo (0)
X3 = Nivel del ejercicio diario: intenso (2), moderado (1), ninguno (0)
Solución:
a) H0 : X1 e X2 son independientes
26
En 2 (X1 , X2 ) 8 el número de grados de libertad es (4 1) x (2 1) 3
b) H0 : X2 e X3 son independientes
c) H0 : X1 e X3 son independientes
27
11. En el gráfico se presenta la evaluación del estado general de salud de una
muestra de personas adultas mayores, según sea su peso normal o sobrepeso.
Con los datos del gráfico, con un nivel de significación del 5%, analizar la existencia de
una relación significativa entre el peso y el estado general de salud en el adulto mayor.
Solución:
Peso
Estado de Salud Total
Normal Sobrepeso
12 8 20
Bueno
(9, 41) (10, 59) (20)
4 10 14
Malo
(6, 59) (7, 41) (14)
Total 16 18 34
Como la frecuencia esperada e21 6,59 , todas las celdas cumplen con el mínimo
aconsejable de 5 en su valor esperado. En la práctica se acepta hasta un 20% de las
celdas que no cumplen con el requisito de que la frecuencia esperada sea 5
28
20 . 16 20 . 18 14 . 16 14 . 18
e11 9, 41 e12 10, 59 e21 6, 59 e22 7, 41
34 34 34 18
Estadístico de contraste:
2 2
n i2j 12 2 82 42 10 2
χ 2
(2-1) . (2-1)
2
=χ =
1
i=1 j=1
e ij
-n= + + +
9,41 10,59 6,59 7,41
- 34 = 3,27
Como χ 21 = 3,27 3,841 20,05,1 se acepta la hipótesis nula, concluyendo que el estado
general de salud del adulto mayor no está asociado a su peso.
2
n
n n11 .n22 n12 .n21
2 n
12 la corrección no es válida cuando n11 .n22 n12 .n21
n1 .n2 .n 1 .n 2 2
p P 2p,1 2,13 0,271
0,90 p 0,10 0,90 0,10 0, 0158 2,706
0,0158 2,13 2,706 p 0,10 2,13 2,706
29
(p 0,10) x (0, 0158 2,706) (0,90 0,10) x (2,13 2,706) p 0,271
Animal laboratorio
Vacuna
Enfermo No Enfermo
Vacunado 9 42
No Vacunado 18 28
Solución:
Animal laboratorio
Vacuna Total
Enfermo No Enfermo
Vacunado 9 42 51
No Vacunado 18 28 46
Total 27 70 97
Estadístico observado: 2
5,5570
1
n1 .n2 .n 1 .n 2 51. 46.27 .70
Siendo 12 5,5570 3,841 20,05,1 se rechaza la hipótesis nula, es decir, la vacuna
afecta a la enfermedad, con un nivel de significación 0, 05
30
13. Para analizar la repercusión que tienen los debates televisivos en la intención de
voto, un equipo de investigación recogió datos entre 240 individuos antes y después
del debate, resultando la siguiente tabla:
Solución:
Se trata de una muestra pareada en una situación antes-después, con lo que es idóneo
un contraste estadístico Chi-cuadrado de McNemar.
Sea la hipótesis nula H0 : La intención de voto es la misma antes y después del debate
(85 50)2
Estadístico muestral: 2McNemar 9, 074
85 50
Como 2McNemar 9, 074 5, 024 20,025,1 se rechaza la hipótesis nula, concluyendo que la
intención de voto cambió significativamente después del debate, con un nivel de
significación del 5%.
31
14. Se desea analizar si los estudiantes de universidades privadas preferentemente
son de los estratos económicos altos del país. Para ello, se ha tomado la siguiente
muestra:
Grupos socioeconómicos
Universidades
Alto Medio alto Medio bajo Bajo
Estado 13 17 4 3
Privadas 38 19 2 2
a) Para validar el análisis con un nivel de confianza del 95%, realizar un contraste por
la razón de verosimilitud (test G).
Solución:
k m nij
Se define el estadístico G 2 nij ln
eij
i1 j1
k m nij
Se acepta la hipótesis nula H0 si G 2 nij ln 2, (k 1) .(m1)
eij
i1 j1
Grupos socioeconómicos
Universidades
Alto Medio alto Medio bajo - Bajo
Estado 13 17 7
Privadas 38 19 4
n i x n j
Se calculan los valores esperados de cada celda, donde e ij
n
32
Grupos socioeconómicos
Universidades Total
Alto Medio alto Medio bajo - Bajo
13 17 7 37
Estado
(19,26) (13,59) (4,15) (37)
38 19 4 61
Privadas
(31,74) (22, 41) (6,85) (61)
Total 51 36 11 98
37 . 51 37 . 36 37 . 11
e11 19, 26 e12 13, 59 e13 4,15
98 98 98
61 . 51 61 . 36 61 . 11
e21 31, 74 e22 22, 41 e23 6, 85
98 98 98
La frecuencia esperada e13 = 4,15 < 5 , valor mínimo recomendado para la prueba. En
un caso práctico se admite hasta un 20% de las celdas que no verifican este requisito,
como ocurre en este caso.
nij
En cada celda se calcula el valor de nij x ln
eij
Grupos socioeconómicos
Universidades Total
Alto Medio alto Medio bajo - Bajo
Estado 5,11 3,80 3,66 2,35
Privadas 6,84 3,14 2,15 1,55
Total 1,73 0,66 1,51 3,9
13 17 7
13 x ln 5,11 17 x ln 3,80 7 x ln 3,66
19,26 13,59 4,15
38 19 4
38 x ln 6,84 19 x ln 3,14 4 x ln 2,15
31,74 22, 41 6,85
2 3 nij
El estadístico observado G 2 nij ln 2 x 3,9 7,8
eij
i1 j1
33
p P 2p,1 7,8 0,271
(p 0, 02) x (7,378 7,824) (0, 025 0, 02) x (7,8 7,824) p 0, 02026
2
b) El grado de contingencia mide el grado de relación o dependencia: C
2 n
G 7,8
C 0,2715 , hay una dependencia del 27,15%.
G n 7,8 98
Obesidad
Sexo Total
Sí No
Mujeres 1 (a) 4 (b) 5 (a + b)
Hombres 7 (c) 2 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Solución:
El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas
cuando la muestra a estudiar es demasiado pequeña y no cumple las condiciones
necesarias para que la aplicación del test de la Chi-cuadrado sea idónea.
Las condiciones necesarias para aplicar el test de la Chi-cuadrado exige que al menos
el 80% de los valores esperados de las celdas sean mayores que 5. De este modo, en
una tabla de contingencia de 2 x 2 será necesario que todas las celdas verifiquen esta
condición, si bien en la práctica suele permitirse que una de ellas tenga frecuencias
esperadas ligeramente por debajo de 5.
Si las dos variables que se están analizando son dicotómicas, y la frecuencia esperada
es menor que 5 en más de una celda, no resulta adecuado aplicar el test de la 2 ,
aunque sí el test exacto de Fisher.
34
El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las
tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas
que los de la tabla observada. Cada uno de estas probabilidades se obtiene bajo la
hipótesis de independencia de las dos variables que se están analizando.
La probabilidad asociada a los datos que han sido observados viene dada por:
La fórmula general de la probabilidad descrita deberá calcularse para todas las tablas
de contingencia que puedan formarse con los mismos totales de filas y columnas de la
tabla observada.
En este caso, planteando la hipótesis nula H0 : El sexo y ser obeso son independientes
Obesidad
Sexo Total
Sí No
Mujeres 1 (a) 4 (b) 5 (a + b)
Hombres 7 (c) 2 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Las siguientes tablas muestran todas las posibles combinaciones de frecuencias que se
pueden obtener con los mismos totales de filas y columnas:
Obesidad
Sexo Total
Sí No
Mujeres 4 (a) 1 (b) 5 (a + b) p 0,2098
Hombres 4 (c) 5 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
35
Obesidad
Sexo Total
Sí No
Mujeres 2 (a) 3 (b) 5 (a + b) p 0,2797
Hombres 6 (c) 3 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Obesidad
Sexo Total
Sí No
Mujeres 3 (a) 2 (b) 5 (a + b) p 0, 4196
Hombres 5 (c) 4 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Obesidad
Sexo Total
Sí No
Mujeres 5 (a) 0 (b) 5 (a + b) p 0, 0280
Hombres 3 (c) 6 (d) 9 (c + d)
Total 8 (a + c) 6 (b + d) 14 (n)
Sumando las probabilidades de las tablas que son menores o iguales a la probabilidad
de la tabla observada ( p 0, 0599 ) se tiene:
36
El SPSS para el cómputo del test de Fisher, calcula el p-valor correspondiente a la
alternativa bilateral (2p 2 x 0, 0909 0,1818) y el p-valor asociado a un
planteamiento unilateral (p 0, 0909).
37