Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Greenacre Cap17
Greenacre Cap17
de correspondencias
MICHAEL GREENACRE
Catedrtico de Estadstica en la Universidad Pompeu Fabra
_______________________________________________
Tablas concatenadas
www.fbbva.es
CAPTULO
17
Tablas concatenadas
Habitualmente, la investigacin en ciencias sociales, exige trabajar con multitud de
variables. Es frecuente que en los cuestionarios de las encuestas encontremos respuestas a muchas preguntas, as como muchas caractersticas demogrficas que, a menudo queremos relacionar con las opiniones de la gente. El AC tiene como ventaja
su capacidad para visualizar simultneamente muchas variables. Sin embargo, como
mostramos en el captulo anterior, debido al gran nmero de combinaciones de las
categoras, existe un lmite en el nmero de variables que podemos codificar interactivamente. Cuando nos encontramos en esta situacin, un procedimiento alternativo
consiste en codificar los datos en forma de tablas concatenadas o compuestas. Ello nos
permite interpretar en un mapa conjunto las relaciones entre variables demogrficas
y variables de opinin. En este captulo veremos ejemplos sobre esta aproximacin,
tanto para diversas caractersticas demogrficas como para varias preguntas.
Contenido
Diversas variables demogrficas, una pregunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Concatenacin como alternativa al codificado interactivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
AC de tablas concatenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Limitaciones de la interpretacin del anlisis de tablas concatenadas . . . . . . . . . . . . . . . . . . . . . .
Descomposicin de la inercia en tablas concatenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Concatenacin de tablas por filas y por columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
AC de tablas concatenadas por filas y por columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Descomposicin de la inercia de la tabla concatenada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Los mapas slo muestran las asociaciones entre las respuestas y los grupos demogrficos,
no entre las respuestas entre s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
RESUMEN: Tablas concatenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
175
176
177
178
178
179
179
181
182
183
Vamos a ampliar el conjunto de datos del captulo 16 relacionado con la opinin de la gente sobre el trabajo de las mujeres. Aparte de pas (24 categoras,
vanse las abreviaciones en la imagen 16.4), gnero (2 categoras, h y m) y grupo de edad (6 categoras, de A1 a A6), vamos a incluir el estado civil (5 catego175
Diversas variables
demogrficas, una
pregunta
Imagen 17.1:
Tablas concatenadas de
contingencia que hemos
obtenido cruzando cinco
variables demogrficas por
la respuesta a la pregunta
sobre el trabajo de las
mujeres ( T = tiempo
completo, t = tiempo
parcial, C = permanecer
en casa, ? = no sabe/no
contesta)
Pregunta Respuesta
T t C ?
Pas (24)
Genero (2)
Edad (6)
Educacin (7)
ras) y educacin (7 categoras), tendremos en total cinco variables demogrficas. Las definiciones y las abreviaciones de las dos variables adicionales son las
siguientes:
Estado civil: ca (casado), vi (viudo), di (divorciado), se (separado), so (soltero)
Educacin: E1 (sin educacin formal), E2 (educacin primaria incompleta),
E3 (educacin primaria), E4 (educacin secundaria incompleta), E5 (educacin secundaria), E6 (educacin universitaria incompleta), E7 (educacin
universitaria)
Concatenacin como
alternativa al codificado
interactivo
Codificar interactivamente las cinco variables es completamente imposible. El nmero de combinaciones sera: 24 2 6 5 7 = 10080! Como alternativa, podemos cruzar cada variable demogrfica con las respuestas a las preguntas y luego
concatenar las tablas de contingencia resultantes, una encima de la otra, como
mostramos en la imagen 17.1. La tabla de arriba es la correspondiente a la tabla
de la imagen 16.4, con los pases como filas. A continuacin la tabla con los dos
gneros como filas, luego las seis filas de los grupos de edad, y as sucesivamente.
Este tipo de codificacin no nos permitir analizar interacciones, la podemos contemplar como una especie de AC medio de las cinco tablas individuales.
176
TABLAS CONCATENADAS
0,6
0,0147 (27,8%)
Imagen 17.2:
Mapa simtrico del AC
correspondiente a la
agrupacin de las cinco
tablas de contingencia que
se muestran de forma
esquemtica en la imagen
17.1; inercia total =
0,05271, porcentaje de
inercia del mapa: 91,2%
0,4
CAN
ES
E
0,2
T
EU
IS
A1 so
E7
0,2
IR
h E1
se
S*
ca CH
E6 E5
A3m
di
A4
t
HO N
E4
IN
AE
I
S
AUS
A2
GB
A6
J
0,0334 (63,4%)
A5
E3
RUS
AO
A
vi
0,4
0,6
0,6
E2
NZ
0,4
0,2
0,2
0,4
0,6
AC de tablas
concatenadas
Es importante que nos demos cuenta de que el mapa de la imagen 17.2 nicamente muestra asociaciones entre variables demogrficas y respuestas a las preguntas.
No muestra relaciones entre las variables demogrficas entre s. Con las tablas concatenadas, no obtenemos informacin sobre la relacin entre edad, educacin y
pas. El hecho de que el grupo de edad ms joven A1, el nivel de educacin ms
alto E7, y pases como Canad, Estados Unidos e Israel se hallen todos en el lado
izquierdo no significa que en estos pases predominen jvenes de nivel de educacin ms alto. Dado que las variables se relacionan de forma separada con las respuestas, la interpretacin correcta es que los porcentajes de respuesta con relacin
a T (trabajo a tiempo completo) del grupo de edad ms joven, el nivel de educacin ms elevado y los mencionados pases se hallan por encima de la media. Para
confirmar cualquier relacin entre las variables demogrficas entre s, tendramos
que cruzarlas y luego analizar la tabla de contingencia resultante.
Descomposicin de la
inercia en tablas
concatenadas
Un resultado muy til para este captulo y captulos siguientes es que cuando cruzamos y agrupamos los mismos individuos, como podemos ver en la imagen 17.1,
la inercia total del AC de la tabla concatenada es la media de las inercias de los
AC de cada tabla. Lo podemos comprobar calculando las inercias de cada una de
las cinco tablas de la imagen 17.1:
Tabla
178
Inercia
Pas
Gnero
Edad
Estado civil
Educacin
0,14558
0,00452
0,04216
0,02675
0,04221
Media
0,05224
TABLAS CONCATENADAS
Concatenacin de tablas
por filas y por columnas
Aplicando el AC a las 20 tablas agrupadas en cinco filas y cuatro columnas obtenemos el mapa de la imagen 17.4. Hemos representado las categoras por puntos.
Son de especial inters las siguientes caractersticas del mapa:
AC de tablas
concatenadas por filas
y por columnas
Las 16 columnas forman una estructura en arco incluso ms clara que la que
vimos anteriormente, que se extiende desde 2T y 3T, arriba a la izquierda, hacia 3t, 4t y 2C, en la parte baja, y luego sube hacia 4C y 1C, arriba a la derecha.
Este es el resultado tpico del AC cuando existe lo que los eclogos llaman un
gradiente en los datos. Aqu el gradiente se produce en la dispersin de opiniones, de liberales a tradicionales. A lo largo de este gradiente, podemos ordenar, de forma aproximada, las respuestas categricas, de la siguiente manera
(por el momento omitimos las no respuestas de la discusin ( ?)):
179
Imagen 17.3:
Tablas concatenadas de
contingencia que se han
obtenido cruzando cinco
variables demogrficas con
las respuestas a las
preguntas sobre el trabajo
de las mujeres
( T = tiempo completo,
t = tiempo parcial,
C = permanecer en casa,
? = no sabe/no contesta)
2
T t C ?
3
T t C ?
4
T t C ?
Pas (24)
Genero (2)
Edad (6)
Estado civil (5)
Educacin (7)
2T
3T
2t y 4T
1T
3t
4t
2C
1t
3C
4C
1C
TABLAS CONCATENADAS
0,0092 (21,5%)
0,4
2T
IS
0,2
CAN
AE
0,2
0,4
0,4
3T
1C
4C
A1
E2
ES
so
B
A2
E1
se
2?3?2t4T IR
h
1t
1?
E6A3E5
m
3C
I
S
di * ca
A5 vi
4?
1T
CH
A6
E3H
N
J
3tE4 A4 2C
4t
RUS
IN
GB
AUS
A
NZ
AO
E7
EU
HO
0,2
0,2
0,0212 (49,6%)
0,4
0,6
Aqu tambin podemos aplicar los resultados que vimos anteriormente sobre la
descomposicin de la inercia. En primer lugar, si todas las tablas de la tabla concatenada tuvieran exactamente el mismo nmero de individuos, la inercia de la
tabla concatenada sera, exactamente, la media de las inercias de las distintas tablas de contingencia que la forman. Vemoslo de manera ms formal. Supongamos que Nqs , q = 1,...,Q, s = 1,...,S son tablas de contingencia que cruzan, dos a dos,
Q variables categricas, con S variables categricas, todas ellas con el mismo nmero n de individuos (en nuestro ejemplo, Q = 5 y S = 4). Sea N la tabla concatenada formada uniendo vertical y horizontalmente las Q S tablas. Entonces:
Q
inercia (N) =
S
1
inercia (Nqs )
QS q=1 s=1
Imagen 17.4:
Mapa simtrico del AC
correspondiente a la
concatenacin de las 20
tablas de contingencia que
mostramos de forma
esquemtica en la imagen
17.3; inercia total =
0,0427; porcentaje de
inercia del mapa = 71,1%
(17.1)
Descomposicin de la
inercia de la tabla
concatenada
inercia (N
N) =
S
1
inercia (Nqs ) +
QS q=1 s=1
(17.2)
En la tabla de la imagen 17.5 tenemos los valores de las inercias de todas las
tablas de contingencia, as como las medias de las filas, las columnas y la media
total. Como era de esperar, la inercia total de la tabla concatenada es ligeramente superior (0,04273) a la media de las inercias de las tablas que la componen
(0,04239), la diferencia es del 0,8%. En la tabla de la imagen 17.6 mostramos
las inercias de la tabla de la imagen 17.5 expresadas en tantos por mil con relacin al valor de 0,04273 20 (el valor a la izquierda de (17.2), multiplicado por
QS = 20) para hacer ms cmodo el anlisis, igual que hicimos cuando interpretamos las contribuciones a la inercia en el captulo 11. Estos resultados muestran que en promedio los pases explican el 65,6% de la inercia del anlisis de
la tabla concatenada, seguida por educacin (13,3%) y edad (11,6%). La pregunta 3 es la que, en general, presenta mayores inercias (30,6% de la inercia total) es decir, para esta pregunta existen ms diferencias entre los grupos demogrficos, mientras que, para la pregunta 4, las inercias son generalmente
menores (21,6% de la inercia total). El total de esta tabla, 992, indica, que la
contribucin de a la inercia es del 0,8% [ecuacin (17.2)]. Podemos explicar
este valor por las pequeas diferencias existentes entre las sumas marginales de
las 20 tablas de contingencia, diferencias ocasionadas por la prdida de datos.
Los mapas slo
muestran las
asociaciones entre las
respuestas y los grupos
demogrficos, no entre
las respuestas entre s
Imagen 17.5:
Inercias de las 20 tablas de
contingencia que integran la
tabla concatenada de la
imagen 17.4; se dan los
valores de las medias de las
filas y de las columnas, as
como el de la media global
VARIABLE
Pregunta 1
Pregunta 2
Pregunta 3
Pregunta 4
Media
Pas
Gnero
Edad
Estado civil
Educacin
0,15268
0,00821
0,01033
0,00529
0,02306
0,12834
0,00336
0,03359
0,01341
0,02380
0,14558
0,00452
0,04216
0,02675
0,04221
0,13410
0,00484
0,01266
0,00869
0,02430
0,14018
0,00523
0,02469
0,01354
0,02834
Media
0,03991
0,04050
0,05224
0,03692
0,04239
182
TABLAS CONCATENADAS
VARIABLE
Pregunta 1
Pregunta 2
Pregunta 3
Pregunta 4
Total
Pas
Gnero
Edad
Estado civil
Educacin
179
10
12
6
27
150
4
39
16
28
170
5
49
31
49
157
6
15
10
28
656
24
116
63
133
Total
234
237
306
216
992
183
Imagen 17.6:
Contribuciones a la inercia,
expresadas en tantos por
mil, de las 20 tablas de
contingencia que integran la
tabla concatenada; el 0,8%
restante es la inercia
adicional debido a la
diferencia en los valores
marginales de las columnas
ocasionadas por los valores
perdidos
RESUMEN:
Tablas concatenadas