Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para el seguimiento de los clculos realizados en este documento es conveniente abrir al tiempo la
hoja de excel http://www.uam.es/personal_pdi/economicas/rarce//pdf/demo_corrup_cross_tab.xls
Respecto al primer punto, no hace falta entrar en ms detalle sobre la precisin de medida de
cualquier variable (ms an cuando es de tipo cualitativo). Al no existir una precisin perfecta,
o al poder haberse incluido errores de otro tipo al contabilizar un fenmeno, siempre es
necesario recurrir a los instrumentos de la estadstica de probabilidad para poder realizar
anlisis con cierta garanta.
Respecto al segundo punto, quiz el ms interesante por especfico en esta tcnica, el anlisis
de tablas de contingencia observar cuando efectivamente se dan coincidencias asociativas
entre los pares de combinaciones posibles en una tabla ms all de aquellos que podran
haberse dado por mera casualidad o, dicho de otro modo, en condiciones de independencia
estadstica entre ambas variables.
A modo de ejemplo, escribimos los datos de una tabla de contingencia (bivariada o cross-tab)
que cruza los datos para 164 pases de dos variables: el ndice de democracia y el control de
corrupcin. Ambas variables han sido categorizadas desde sus unidades iniciales, de modo
que ahora se presentan tres/cuatro niveles de las mismas: bajo, medio, alto y muy alto.
Tabla 1: Tabla de contingencia
Democracia
Bajo
Medio
Alto
Total Col.
Bajo
18
20
6
44
Control de la corrupcin
Medio
Alto
Muy alto
14
4
5
13
8
1
17
23
35
44
35
41
Total Filas
41
42
81
164
Fuente: base de datos de la Universidad de Gottenburg (QOG Institute, Quality of Goverment dataset)
Inicialmente, podra observarse a partir de esta tabla si existe o no relacin entre ambas
variables. De una forma muy intuitiva, el hecho de que los extremos de la tabla (por
simplificar) presenten gran cantidad de datos podra ser significativo de una relacin entre
ambas variables (ntese que un bajo ndice de democracia est asociado a un bajo nivel de
democracia se dan 18 pases en esta circunstancia, el 21% de los pases y, de una forma
mucho ms clara, un alto nivel democrtico est asociado a un mayor control de corrupcin
se dan 35 pases en este cruce ). Podra seguir argumentndose este hecho comprobando,
por ejemplo, que pocos valores de bajo nivel de democracia estn asociados con un alto
control de la corrupcin (apenas cinco pases de un total de 164), etc.
Este primer anlisis puede ser claramente mejorado si se incluye en l una dimensin
estadstica bsica: incluso en el caso en el que no hubiera relacin entre ambas variables,
casualmente podran encontrarse datos de coincidencias bajo-bajo, alto-muy alto, etc. Habra
pases en los que se produciran estos cruces que, sin embargo, no representaran una mayora
ms all de la de la ancdota.
Dicho esto, cabe plantearse cules seran aquellos cruces posibles entre cada par de
situaciones (en cada una de las variables) que podran no ser significativos.
Democracia
Bajo
Medio
Alto
Total Col.
Marginal
Bajo
18
20
6
44
26,8%
Control de la corrupcin
Medio
Alto
14
4
13
8
17
23
44
35
26,8%
21,3%
Muy alto
5
1
35
41
25,0%
Total Filas
41
42
81
164
100,0%
Marginal
25,0%
25,6%
49,4%
100,0%
Para calcular el nmero de pases que se podran haber situado en cada cruce (celda) aun
existiendo independencia entre ambas variables, a cada casilla le podemos asignar el producto
de sus marginales por el nmero total de observaciones:
(Prob. Democ = i) * (Prob. Control Corrupcin =j) * (N de datos) = casos esperables en
independencia
Tabla 3. Valores esperados bajo el supuesto de independencia entre ambas variables
Democracia
Bajo
Medio
Alto
Total Col.
Bajo
11,0
11,3
21,7
44,0
Control de la corrupcin
Medio
Alto
11,0
8,8
11,3
9,0
21,7
17,3
44,0
35,0
Muy alto
10,3
10,5
20,3
41,0
Total Filas
41,0
42,0
81,0
164,0
Al cuadrado simplemente para evitar que en la suma se compensen diferencias de signo negativo con
diferencias de signo positivo. Se trata ahora de ver si hay diferencias, no de cul es su signo.
Variables nominales
[0 , 1]
Basados ChiCuadrado
(si la dependencia es
perfecta, el valor de
la chi-cuadrado
tiende a ser igual al
nmero de
observaciones n)
C=
2
( 2 + n)
V=
Variables Ordinales
[-1, 1]
2
n(k 1)
k es el max{nfilas, n columnas}
Lambda: observa el ratio de reduccin del
error de considerar la asignacin de cada
Basados en la
caso a una celda slo teniendo en cuenta una
reduccin
variable frente al de tener en cuenta las dos
proporcional del
a la vez
error
Coeficiente de incertidumbre (similar al
anterior). Incorpora direccionalidad
Gamma de Goodman y Kruskal (discordancia o concordancia entre -1
y 1 PERO para variables ordinales, es decir, concordancia o
discordancia entre dos ordenaciones Y ADEMS con la posibilidad de
Se puede encontrar ms detalle sobre los distintos estadsticos presentados en esta seccin en el libro
de Antonio Pardo Gua para la utilizacin de SPSS 11.0
(http://www.uca.es/serv/ai/formacion/spss/Pantalla/verguia.pdf )
En nuestro ejemplo, ambas variables son ordinales, luego correspondera utilizar un anlisis
como los presentados en la segunda parte de la tabla anterior. A pesar de ello, en la hoja de
clculo que completa este documento, tambin se presentan los clculos de los coeficientes C
y V de Cramer, ms adecuados para las tablas de contingencia en las que interviene una
variable nominal.
Los resultados obtenidos en el ejemplo son C=0,48 y V= 0,21, lo que nos indicara (en el caso
de que utilizarlos fuera lo correcto) que el grado de dependencia sera entre bajo y medio.
Tericamente, ambos oscilan entre 0 y 1, aunque raramente alcanzan el valor mximo. Como
regla prctica de uso, se podra decir que:
0 - 0,25 : poca dependencia
0,26 - 0,5: dependencia media
0,6 - 0,75: alta dependencia
> 0,76: muy alta dependencia
En las medidas de asociacin para variables ordinales, tiene inters observar no slo la
potencia de la relacin, sino tambin su signo, dado que en dichas variables se contiene una
medida no exacta de la magnitud que permite, precisamente, ordenarlas: es til saber si la
relacin de dependencia es directa o inversamente proporcional (a ms cantidad de una
variable, ms de la otra o a ms cantidad de la variable menos de la segunda,
respectivamente). En las distintas medidas propuestas en la tabla anterior, se analizan los
cambios en una variable y otra (cuando una crece la otra tambin o lo contrario) y se
contabilizan el nmero de inversiones y no inversiones. Cualquier software al uso incluye
el clculo de estos coeficientes, por lo que no entrar en ms detalle sobre su clculo que, a
hecho mano, sera algo largo.
En nuestro ejemplo, el estadstico ms habitual, la tau beta de kendall, da un valor de +..,
valorable como dependencia media y positiva (a ms de una variable, ms de la otra).
residuoij
(esperadoij
Dado que la suma de todos estos valores al cuadrado resulta la chi-cuadrado calculada
(nuestro modo de ver si hay o no dependencia), los valores anteriores al cuadrado
entre la chi nos sern tiles para ver lo que cada cruce aporta a la construccin de la
dependencia.
-
Tiene especial inters poder calcular lo que se conoce con el nombre de los residuos
tipificados corregidos (los anteriores divididos por su desviacin tpica). En esta nueva
tabla, se podr asumir que dichos residuos se distribuyen como una N(0,1). Siendo as,
cualquier valor de la tabla que, en valor absoluto, supere el valor de dos representar
un cruce con un error especialmente alto (ms alto o bajo que donde se situaran el
95% de los casos en una normal). Estos cruces sern entonces los que ms estn
contribuyendo a generar esa dependencia entre ambas variables. El clculo de estos
valores simplemente incorpora al anterior el valor de variacin mxima de las
frecuencias observadas en el cruce de cada fila y columna:
residuoij
(esperadoij (1 suma _ filai / n)(1 suma _ colum j / n))
Democracia
Bajo
Bajo
8,7%
Control de la corrupcin
Medio
Alto
1,6%
5,0%
Muy alto
5,2%
Medio
Alto
13,2%
22,2%
0,5%
2,0%
0,2%
3,7%
16,7%
20,9%
En 12 cruces, la aportacin igual en cada celda sera 1/12=8,3%. Cualquier valor de esta
tabla que exceda ese porcentaje es reseable.
Para observar qu valores de error son especialmente significativos y utilizando los
residuos tipificados corregidos, obtenemos los siguientes resultados:
Residuos tipificados corregidos
Democracia
Bajo
Medio
Alto
Bajo
2,8
3,5
-5,5
Control de la corrupcin
Medio
Alto
1,2
-2,1
0,7
-0,4
-1,7
2,2
Muy alto
-2,2
-3,9
5,3
Donde valores absolutos por encima de dos representan un cruce con una diferencia
estadsticamente significativa entre el valor observado y el esperable en caso de
independencia.