Está en la página 1de 8

Licenciatura en derecho y ADE.

Universidad Autnoma de Madrid


NOTAS DE CLASE Introduccin a la Econometra (Prof. Rafael de Arce)

TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE


DEPENDENCIA ENTRE VARIABLES CATEGRICAS1
rafael.dearce@uam.es

El objeto de las tablas de contingencia es extraer informacin de cruce entre dos o ms


variables de tipo categrico o cualitativo, ya sean stas de tipos nominal u ordinal. La idea
bsica es que se pretende juzgar si existe o no algn tipo de relacin de dependencia entre dos
variables no mtricas.
Con este tipo de anlisis se podran contestar a preguntas tales como:
-

Hay alguna relacin entre el rea geogrfica en la que se inscribe un pas, o su


confesin religiosa mayoritaria, y el sistema poltico con el que se rige? (se ponen en
relacin dos variables nominales).
Depende el nivel de desarrollo (alto, medio, bajo) del sistema poltico (democracia,
dictadura, oligarqua, etc.)? (se ponen en relacin una variable ordinal con otra
nominal).
Est relacionado el ndice de democracia (clasificado en bajo, medio, alto y muy alto)
con el nivel de corrupcin (con igual clasificacin)? (se ponen en relacin dos variables
ordinales).

En el anlisis de tablas de contingencia tendr sentido interrogarse sobre:


1. La existencia de relacin o no (dependencia o independencia) entre un par de
variables.
2. Si existe dependencia, en qu grado o con qu fuerza se produce la misma.
3. Caso de haber relacin, entre que cruces, de entre todos los posibles, existe dicha
relacin.

EXISTE RELACIN ENTRE LAS VARIABLES?


Evidentemente, uno puede recurrir a la observacin directa de los datos y realizar algunas
conclusiones intuitivas sobre la existencia o no de relaciones de de dependencia entre ellos. Si
la muestra no es muy elevada, a partir de un anlisis sensato de una tabla cruzada entre las
variables que se desea comparar ser una aproximacin bastante adecuada.
Qu incorpora entonces el anlisis estadstico de tablas de contingencia a un anlisis
directo y simple de los datos? Por un lado, la dimensin de anlisis en trminos de
probabilidad (las variables que estamos midiendo son aleatorias, luego exigen tener en cuenta
sus intervalos de confianza) y, por otro, el descuento de las coincidencias casuales en la
observacin de la realidad.
1

Para el seguimiento de los clculos realizados en este documento es conveniente abrir al tiempo la
hoja de excel http://www.uam.es/personal_pdi/economicas/rarce//pdf/demo_corrup_cross_tab.xls

Licenciatura en derecho y ADE. Universidad Autnoma de Madrid


NOTAS DE CLASE Introduccin a la Econometra (Prof. Rafael de Arce)

Respecto al primer punto, no hace falta entrar en ms detalle sobre la precisin de medida de
cualquier variable (ms an cuando es de tipo cualitativo). Al no existir una precisin perfecta,
o al poder haberse incluido errores de otro tipo al contabilizar un fenmeno, siempre es
necesario recurrir a los instrumentos de la estadstica de probabilidad para poder realizar
anlisis con cierta garanta.
Respecto al segundo punto, quiz el ms interesante por especfico en esta tcnica, el anlisis
de tablas de contingencia observar cuando efectivamente se dan coincidencias asociativas
entre los pares de combinaciones posibles en una tabla ms all de aquellos que podran
haberse dado por mera casualidad o, dicho de otro modo, en condiciones de independencia
estadstica entre ambas variables.
A modo de ejemplo, escribimos los datos de una tabla de contingencia (bivariada o cross-tab)
que cruza los datos para 164 pases de dos variables: el ndice de democracia y el control de
corrupcin. Ambas variables han sido categorizadas desde sus unidades iniciales, de modo
que ahora se presentan tres/cuatro niveles de las mismas: bajo, medio, alto y muy alto.
Tabla 1: Tabla de contingencia

Democracia
Bajo
Medio
Alto
Total Col.

Bajo
18
20
6
44

Control de la corrupcin
Medio
Alto
Muy alto
14
4
5
13
8
1
17
23
35
44
35
41

Total Filas
41
42
81
164

Fuente: base de datos de la Universidad de Gottenburg (QOG Institute, Quality of Goverment dataset)

Inicialmente, podra observarse a partir de esta tabla si existe o no relacin entre ambas
variables. De una forma muy intuitiva, el hecho de que los extremos de la tabla (por
simplificar) presenten gran cantidad de datos podra ser significativo de una relacin entre
ambas variables (ntese que un bajo ndice de democracia est asociado a un bajo nivel de
democracia se dan 18 pases en esta circunstancia, el 21% de los pases y, de una forma
mucho ms clara, un alto nivel democrtico est asociado a un mayor control de corrupcin
se dan 35 pases en este cruce ). Podra seguir argumentndose este hecho comprobando,
por ejemplo, que pocos valores de bajo nivel de democracia estn asociados con un alto
control de la corrupcin (apenas cinco pases de un total de 164), etc.
Este primer anlisis puede ser claramente mejorado si se incluye en l una dimensin
estadstica bsica: incluso en el caso en el que no hubiera relacin entre ambas variables,
casualmente podran encontrarse datos de coincidencias bajo-bajo, alto-muy alto, etc. Habra
pases en los que se produciran estos cruces que, sin embargo, no representaran una mayora
ms all de la de la ancdota.
Dicho esto, cabe plantearse cules seran aquellos cruces posibles entre cada par de
situaciones (en cada una de las variables) que podran no ser significativos.

Licenciatura en derecho y ADE. Universidad Autnoma de Madrid


NOTAS DE CLASE Introduccin a la Econometra (Prof. Rafael de Arce)

Recurriendo a la teora estadstica bsica, la probabilidad conjunta de dos sucesos


independientes viene marcada por el producto de sus probabilidades individuales.
(recurdese, por ejemplo, cul es la probabilidad de obtener dos caras seguidas en dos
lanzamientos consecutivos de una moneda: al ser sucesos totalmente independientes, ser el
producto de la probabilidad de cada suceso 0.5*0.5=0.25).
En nuestro caso, la seleccin concreta de esos 164 pases para los que se dispona de
informacin produce, para cada variable, una probabilidad determinada de estar ante una de
las situaciones posibles (niveles de la variable bajo, medio, alto o muy alto). En la muestra, y
simplemente calculando los porcentajes del total de filas y columnas, podremos observar este
hecho.
Como se ve en la tabla siguiente, por ejemplo, nuestra muestra contiene un alto nmero de
pases con alto nivel en el ndice de democracia (un 49,4% de los pases exhiben este alto nivel
de democracia, luego, elegido al azar un pas cualquiera de la muestra, ser bastante probable
obtener un pas de estas caractersticas casi en la mitad de las ocasiones -). En el caso de la
variable de control de la corrupcin, el porcentaje est ms equilibrado.
Tabla 2: Tabla de contingencia con marginales (en porcentaje)

Democracia
Bajo
Medio
Alto
Total Col.
Marginal

Bajo
18
20
6
44
26,8%

Control de la corrupcin
Medio
Alto
14
4
13
8
17
23
44
35
26,8%
21,3%

Muy alto
5
1
35
41
25,0%

Total Filas
41
42
81
164
100,0%

Marginal
25,0%
25,6%
49,4%
100,0%

Para calcular el nmero de pases que se podran haber situado en cada cruce (celda) aun
existiendo independencia entre ambas variables, a cada casilla le podemos asignar el producto
de sus marginales por el nmero total de observaciones:
(Prob. Democ = i) * (Prob. Control Corrupcin =j) * (N de datos) = casos esperables en
independencia
Tabla 3. Valores esperados bajo el supuesto de independencia entre ambas variables

Democracia
Bajo
Medio
Alto
Total Col.

Bajo
11,0
11,3
21,7
44,0

Control de la corrupcin
Medio
Alto
11,0
8,8
11,3
9,0
21,7
17,3
44,0
35,0

Muy alto
10,3
10,5
20,3
41,0

Total Filas
41,0
42,0
81,0
164,0

Licenciatura en derecho y ADE. Universidad Autnoma de Madrid


NOTAS DE CLASE Introduccin a la Econometra (Prof. Rafael de Arce)

Con la informacin de esta tabla de valores esperables incluso en condiciones de


independencia entre las variables, nuestro clculo intuitivo se puede refinar, simplemente
considerando cuntos cul es el nmero de casos en cada celda ms all de los que se
producen por simple azar estadstico. O dicho de otro modo, podramos calcular la diferencia
entre las tablas 1 y 3 para observar si, efectivamente, entre ambas variables existe una
relacin significativa o no.
Para obtener un dato global que nos muestre si hay claras diferencias entre los casos casuales
(esperados en condiciones de independencias) y los realmente observados se emplea el
siguiente ratio:

Donde, simplemente, se obtiene la suma cuadrada2 de todas las diferencias en trminos


relativos a las unidades que estamos midiendo (divididas por el nmero de valores esperados).
Intuitivamente, cuanto ms pequeo sea este ratio, menor ser la diferencia entre los valores
observados y los esperados, luego mayor probabilidad de que no haya dependencia entre las
variables. Dicho esto, en trminos estadsticos, diremos que la hiptesis nula de este contraste
es la independencia entre ambas variables.
Para determinar hasta que nivel en el valor de este ratio podemos considerar que las
diferencias no son significativamente distintas de cero, basta con conoce cmo se distribuye
dicho ratio en condiciones de independencia (no diferencia entre valores observados y
esperados). De un modo muy sucinto, sin entrar en detalle, comprobamos que se trata del
sumatorio de variables normales estndar al cuadrado (en condiciones de independencia), por
lo que podramos demostrar que la distribucin de este ratio ser la de una chi-cuadrado con
grados de libertad iguales al nmero de filas menos uno por el nmero de columnas menos
uno.
En el ejemplo que nos ocupa, el valor del ratio es 798,6. Aunque, por lo abultado, es evidente
que es significativamente distinto de cero, para comprobarlo estadsticamente habra que ver
de donde a donde estn los valores de las tablas de la chi-cuadrado para el porcentaje de
confianza deseado y, en este caso, con seis grados de libertad ((3-1)*(4-1)). Por ejemplo, para
un 95% de confianza, todos los valores de una variable que se distribuye como un chi-cuadrado
con seis grados de libertad son iguales o menores que 12.5916. Luego nuestro valor es
claramente mayor que este as que, con ms de un 95% se puede afirmar que se rechaza la
hiptesis nula de independencia o, dicho de modo alterno, existe una clara dependencia entre
el ndice de democracia y el control de la corrupcin.

Al cuadrado simplemente para evitar que en la suma se compensen diferencias de signo negativo con
diferencias de signo positivo. Se trata ahora de ver si hay diferencias, no de cul es su signo.

Licenciatura en derecho y ADE. Universidad Autnoma de Madrid


NOTAS DE CLASE Introduccin a la Econometra (Prof. Rafael de Arce)

CUL ES EL GRADO DE IMPORTANCIA DE LA RELACIN ENCONTRADA?3


Una vez determinado que existe relacin entre dos variables, el segundo aspecto de inters
lgico ser medir de algn modo el grado de importancia de la misma y, para el caso de las
variables ordinales, medir tambin su carcter inverso o directo (recurdese que en este tipo
de variables, el nmero asignado a cada opcin representa el tamao u orden, luego tiene
sentido observar si aumentos en una variable producen aumentos en la otra relacin directa
o lo contrario relacin inversa -).
Otro aspecto de inters sera analizar la direccionalidad de la relacin encontrada. Dicho de
otro modo, observar qu variable acta mejor como explicativa o causante de la otra.
Existen multitud de test para analizar la importancia de la relacin, alguno de ellos
simplemente diferentes en cuestiones de matiz. Claramente se puede hacer las siguientes
distinciones entre ellos:
Phi (Es la ms utilizada en tablas 2x2 con
verdaderas dicotmicas

Variables nominales
[0 , 1]

Basados ChiCuadrado
(si la dependencia es
perfecta, el valor de
la chi-cuadrado
tiende a ser igual al
nmero de
observaciones n)

C Coeficiente de Contingencia (Intenta


corregir la PHI para tablas de ms de 2x2)

C=

2
( 2 + n)

T Cramer V (Es la ms utilizada, vale para


tablas de cualquier orden PERO slo alcanza
el 1 si los marginales son iguales en filas y
columnas. Tiende a dar un valor ms
pequeo que la Phi o C )

V=

Variables Ordinales
[-1, 1]

2
n(k 1)

k es el max{nfilas, n columnas}
Lambda: observa el ratio de reduccin del
error de considerar la asignacin de cada
Basados en la
caso a una celda slo teniendo en cuenta una
reduccin
variable frente al de tener en cuenta las dos
proporcional del
a la vez
error
Coeficiente de incertidumbre (similar al
anterior). Incorpora direccionalidad
Gamma de Goodman y Kruskal (discordancia o concordancia entre -1
y 1 PERO para variables ordinales, es decir, concordancia o
discordancia entre dos ordenaciones Y ADEMS con la posibilidad de

Se puede encontrar ms detalle sobre los distintos estadsticos presentados en esta seccin en el libro
de Antonio Pardo Gua para la utilizacin de SPSS 11.0
(http://www.uca.es/serv/ai/formacion/spss/Pantalla/verguia.pdf )

Licenciatura en derecho y ADE. Universidad Autnoma de Madrid


NOTAS DE CLASE Introduccin a la Econometra (Prof. Rafael de Arce)

observar intervalos de confianza)


Tau de Kendall (Tau de Kendall Concordancia ordinal, como la
Gamma pero teniendo en cuenta los empates PERO adecuada slo
para tablas cuadradas)
o
D-Somers (es igual que las TAUS pero con la ventaja de que
es simtrica, puede analizarse por separado el efecto de R (rows)
sorbe C (columns) o al revs)

En nuestro ejemplo, ambas variables son ordinales, luego correspondera utilizar un anlisis
como los presentados en la segunda parte de la tabla anterior. A pesar de ello, en la hoja de
clculo que completa este documento, tambin se presentan los clculos de los coeficientes C
y V de Cramer, ms adecuados para las tablas de contingencia en las que interviene una
variable nominal.
Los resultados obtenidos en el ejemplo son C=0,48 y V= 0,21, lo que nos indicara (en el caso
de que utilizarlos fuera lo correcto) que el grado de dependencia sera entre bajo y medio.
Tericamente, ambos oscilan entre 0 y 1, aunque raramente alcanzan el valor mximo. Como
regla prctica de uso, se podra decir que:
0 - 0,25 : poca dependencia
0,26 - 0,5: dependencia media
0,6 - 0,75: alta dependencia
> 0,76: muy alta dependencia

En las medidas de asociacin para variables ordinales, tiene inters observar no slo la
potencia de la relacin, sino tambin su signo, dado que en dichas variables se contiene una
medida no exacta de la magnitud que permite, precisamente, ordenarlas: es til saber si la
relacin de dependencia es directa o inversamente proporcional (a ms cantidad de una
variable, ms de la otra o a ms cantidad de la variable menos de la segunda,
respectivamente). En las distintas medidas propuestas en la tabla anterior, se analizan los
cambios en una variable y otra (cuando una crece la otra tambin o lo contrario) y se
contabilizan el nmero de inversiones y no inversiones. Cualquier software al uso incluye
el clculo de estos coeficientes, por lo que no entrar en ms detalle sobre su clculo que, a
hecho mano, sera algo largo.
En nuestro ejemplo, el estadstico ms habitual, la tau beta de kendall, da un valor de +..,
valorable como dependencia media y positiva (a ms de una variable, ms de la otra).

ENTRE QU COMBINACIONES DE ATRIBUTOS SE PRODUCE UNA MAYOR


DEPENDENCIA?
Siguiendo la lgica del procedimiento que estamos utilizando, y una vez ya hemos visto que
existe dependencia y cul es el grado de importancia de la misma; el siguiente paso de nuestro
anlisis debiera ser determinar concretamente entre qu combinaciones de las dos variables
que estamos explorando se produce esa dependencia con ms fuerza.

Licenciatura en derecho y ADE. Universidad Autnoma de Madrid


NOTAS DE CLASE Introduccin a la Econometra (Prof. Rafael de Arce)

En nuestro procedimiento, bastar simplemente con observar en qu celdas de la tabla se


produce una mayor diferencia entre los valores observados (reales) y esperados (en caso de
independencia).
Intuitivamente, bastara con restar los resultados de ambas tablas (observadas esperadas =
residuos) y determinar aquellos valores ms grandes presentes en ellas. Sin embargo, este
anlisis se puede mejorar estadsticamente haciendo dos clculos sencillos:
-

Sabemos que la dependencia se determin a partir del valor de la chi-cuadrado


calculada anteriormente. En vez de observar directamente los residuos, podra
observarse la aportacin de cada celda al valor total de la chi-cuadrado, lo que
resultara en una estimacin de cmo cada cruce en las tablas aporta a que haya o no
dependencia entre ambas variables. Para ello, basta simplemente con calcular el valor
de cada residuo dividido de la raz cuadrado de su valor esperado en condiciones de
independencia.

residuoij
(esperadoij
Dado que la suma de todos estos valores al cuadrado resulta la chi-cuadrado calculada
(nuestro modo de ver si hay o no dependencia), los valores anteriores al cuadrado
entre la chi nos sern tiles para ver lo que cada cruce aporta a la construccin de la
dependencia.
-

Tiene especial inters poder calcular lo que se conoce con el nombre de los residuos
tipificados corregidos (los anteriores divididos por su desviacin tpica). En esta nueva
tabla, se podr asumir que dichos residuos se distribuyen como una N(0,1). Siendo as,
cualquier valor de la tabla que, en valor absoluto, supere el valor de dos representar
un cruce con un error especialmente alto (ms alto o bajo que donde se situaran el
95% de los casos en una normal). Estos cruces sern entonces los que ms estn
contribuyendo a generar esa dependencia entre ambas variables. El clculo de estos
valores simplemente incorpora al anterior el valor de variacin mxima de las
frecuencias observadas en el cruce de cada fila y columna:

residuoij
(esperadoij (1 suma _ filai / n)(1 suma _ colum j / n))

En nuestro ejemplo, los resultados son los siguientes:


Aportacin a la dependencia a partir de los residuos tipificados

Democracia
Bajo

Bajo
8,7%

Control de la corrupcin
Medio
Alto
1,6%
5,0%

Muy alto
5,2%

Licenciatura en derecho y ADE. Universidad Autnoma de Madrid


NOTAS DE CLASE Introduccin a la Econometra (Prof. Rafael de Arce)

Medio
Alto

13,2%
22,2%

0,5%
2,0%

0,2%
3,7%

16,7%
20,9%

En 12 cruces, la aportacin igual en cada celda sera 1/12=8,3%. Cualquier valor de esta
tabla que exceda ese porcentaje es reseable.
Para observar qu valores de error son especialmente significativos y utilizando los
residuos tipificados corregidos, obtenemos los siguientes resultados:
Residuos tipificados corregidos

Democracia
Bajo
Medio
Alto

Bajo
2,8
3,5
-5,5

Control de la corrupcin
Medio
Alto
1,2
-2,1
0,7
-0,4
-1,7
2,2

Muy alto
-2,2
-3,9
5,3

Donde valores absolutos por encima de dos representan un cruce con una diferencia
estadsticamente significativa entre el valor observado y el esperable en caso de
independencia.

También podría gustarte