Está en la página 1de 53

Estadística Social

Dr. Tabaré Fernández (2017) Estadística Social Básica


Básica - 2017
Módulo III – Tema 6: Asociación.
Estadístico de   : cálculo, interpretación y
limitaciones

1
Asociación # independencia

Dr. Tabaré Fernández (2017) Estadística Social Básica


• El estudio de la Asociación se hace rechazando la hipótesis
nula que nos presenta la estadística: la independencia entre
las variables

• En una tabla de contingencia de 2x2 (cruce de dos variables de


dicotómicas), el examen consistirá en establecer si se cumple
la igualdad de la hipótesis nula:


•   = 

2
Instrumentos para el análisis
de asociación

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Hasta ahora hemos visto 2 instrumentos:

• Tabla de contigencia porcentualizada en el sentido de la variable


INDEPENDIENTE

• Computo de frecuencias esperadas en cada celda, y cálculo de la


discrepancia entre las observadas y esperadas en cada celda.

• Ambos instrumentos los hemos usado para determiner si Podemos


rechazar la hipótesis nula de la independencia estadística.

• Pero el análisis de asociación también supone un segundo objetivo,


además de la existencia: determiner la fuerza de asocación. 3
Existencia y fuerza de la
asociación
• Hemos visto que es posible rechazar la independencia con una

Dr. Tabaré Fernández (2017) Estadística Social Básica


diferencia minima. Por lo que queda abierta la pregunta por la
fuerza de la asociación.

• El cálculo de las frecuencias


frecuencias esperadas y de las discrepancias
y de las discrepancias
(observado/
observado/esperado)
esperado) es
) la clave que seguiremos para construir
una medida resumen que además de la independencia, nos
permita concluir sobre la fuerza de la asociación

• Revisemos este concepto, el cálculo de la medida de


4
discrepancias y sus limitaciones.

Frecuencias esperadas

Dr. Tabaré Fernández (2017) Estadística Social Básica


5
Lógica de cálculo: (O– E)

Dr. Tabaré Fernández (2017) Estadística Social Básica


Tabla de contingencia A1 A2

B1 O(A1, B1) O(A2, B1)


A1 A2

B2 O(A1, B2) O(A2, B2)


B1 E(A1, B1) E(A2, B1)

B2 E(A1, B2) E(A2, B2) Esperadas según


6
Independencia
Discrepancias

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Es una medida que resume la magnitude de la diferencia
entre la frecuencia observada y la frecuencia esperada en una
celda de la tabla.

• )* )* )*

7
Asociación

Dr. Tabaré Fernández (2017) Estadística Social Básica


• En una tabla de contigencia que cruza dos variables
dicotómicas, podemos concluir Asociación si:


  ≠ 
,

-)* ≠ 0

/)* − 1)* ≠ 0
8
Pero esta definición tiene
algunos problemas

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Al ser estrictamente matemática (hemos dejado de lado el
problema del error, y trabajamos los datos como dados),
cualquier diferencia implicará Asociación.

• Este primer problema se hace más evidente en tablas más


grades que 2x2

• Aún cuando aceptemos los riesgos del anterior problema, no


nos permite trabajar un segundo objetivo del análisis de
Asociación: estudiar el grado o magnitud con que están
asociadas dos variables. 9
Primer problema …..
Frecuencias OBSERVADAS
• Alcanza con que UrbanoRural
/22 ≠ 122 para que
No
concluir que hay 2990.402 301 0.398
600 0.400
migró
Asociación?
Migro 201 199 400
500 500 1000
• Ejemplo: migración y
tipo de localidad Frecuencias esperadas
(urbana/rural) UrbanoRural
No
3001 300 -1 600
migró
Migro 200 200 400 10

500 500 1000


Segundo problema

Dr. Tabaré Fernández (2017) Estadística Social Básica


• ¿Es útil esta medida de discrepancias?

• La respuesta es:

• solo parcialmente
• Más en las tablas grandes (más de 2x2).

• Veamos un ejemplo de la ambigüedad de esta medida.

11
Una tabla más grande (2x4)
Pobreza Tamaño de Localidad (en 4cat)
Ingresos Capitales LocMay5mi LocMenor5 Rural Total

no pobre 8,548 1,836 1,288 967 12,639


86.19 90.31 83.53 90.80 86.82

pobre 1,370 197 254 98 1,919


13.81 9.69 16.47 9.20 13.18

Total 9,918 2,033 1,542 1,065 14,558


100.00 100.00 100.00 100.00 100.00

12
Discrepancias
• Aprendimos a • -22 = /22 − 122

Dr. Tabaré Fernández (2017) Estadística Social Básica


• -2 = /2 − 12
calculary la
• -23 = /23 − 123
discrepancia en cada • -24 = /24 − 124
celda, -)* . • -2 = /2 − 12
• - = / − 1
• -3 = /3 − 13
• Pero, si la tabla es de • -4 = /4 − 14
4x2, tendremos 8
discrepancias
• ¿Es posible resumir
lo que sucede en
toda la tabla? 13

• Qué tal si sumamos?


Tercer problema

Dr. Tabaré Fernández (2017) Estadística Social Básica


• No Podemos directamente llegar a una única medida de
resumen que nos informe sobre la Asociación.

• 5 = ∑9)82 ∑7*82 -)*

• 5 = ∑9)82 ∑7*82(/)* −1)* )

• D=0

• La suma de las disprepancias entre frecuencias observadas y


esperadas es igual a cero
14
Las discrepancias en una tabla
más grande, 2x4
LocMay5 LocMenor
Ingresos Capitales Rural Total
mil 5mil

no pobre -63 71 -51 42 0

pobre 63 -71 51 -42 0

Total 0 0 0 0 15
Síntesis

Dr. Tabaré Fernández (2017) Estadística Social Básica


• La suma de las discrepancias no parecería ser una medida util
en el camino de contar con una única medida de Asociación,
que informe no solo la existencia sino el grado o magnitud.

• Necesitamos sofisticar y complejizar nuestro concepto y


cálculo para llegar a una medida de asociación que resuma la
distribución conjunta de dos variables no métricas.

16
(JI-CUDRADA)
III.5. ESTADÍSTICO DE Χ2

Dr. Tabaré Fernández (2017) Estadística Social Básica


17
Idea general (i) para un estadístico
resumen

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Buscar un número que resuma la distribcuión conjunta
observada en la table de contingencia y que permita

• Reporte claramente las sistuciones en que existe independencia


estadística

• Informe qué magnitud se distancia la table observada de la situación


de independencia estadística; v.g. magnitud de la asociación,

• La idea más a mano parece ser sumar las discrepancias


como medida de resumen

• Cuánto más se alejase esa suma del cero, mayor la evidencia de que
existe asociación. 18
Idea general (ii)

Dr. Tabaré Fernández (2017) Estadística Social Básica


Valor
Valor esperado
observado en
en una celda
una celca

Diferencia
Cuanto más alejado del cero se
encuentre, más evidencia de que 19
existe asociación entre esas 2
categorías
Sin embargo, la suma de las
discrepancias o D
• 5 = ∑9)82 ∑7*82 -)*

Dr. Tabaré Fernández (2017) Estadística Social Básica


• 5 = ∑9)82 ∑7*82(/)* −1)* )

• D=0

• La suma de las disprepancias entre


frecuencias observadas y esperadas es 20
igual a cero
Una transformación de D:
elevar al cuadrado

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Para evitar este resultado inconveniente, obviamos los valores
negativos elevando al cuadrado la discrepancia computada
en cada celda


-)* = (/)* −1)* )

21
Una segunda transformación
de D

Dr. Tabaré Fernández (2017) Estadística Social Básica


• La primera transformación suprime los signos y permite que
cada celda aporte una medida al estadístico de Asociación.

• Sin embargo, los tamaños de las celdas dependen de los


tamaños de los marginales, por lo que lo que cada una aporta
como discrepancia tiene un peso relative muy distinto.

• Por tanto, es necesario normalizar las discrepancias. Para


esto usamos los tamaños esperados

(/)* −1)* )
-)* =
1)*
22
Computo de los sumandos
Discrepancias cuadráticas normalizadas

Dr. Tabaré Fernández (2017) Estadística Social Básica


Rurales o urbanos

Rural Urbano Total R


Pobreza de
ingresos Pobre 12.8
met2006
No pobre

Total C
23

:4 
Celda -22 = .
24; 4 = 12.8
Discrepancias cuadráticas
normalizadas

Dr. Tabaré Fernández (2017) Estadística Social Básica


rural urbana total R

pobre 12.8 1.0 13.8

Nopobre 1.9 0.2 2.1

Total C 14.7 1.2 15.9


9 7
24
(/)* −1)* )
<<
1)*
)82 *82
Ji-cuadrada
9

Dr. Tabaré Fernández (2017) Estadística Social Básica


7 
 )* )*
*82 )*
)82

• El ji cuadrado (también se dice chi


cuadrado) es la suma de todas las
discrepancias cuadráticas normalizadas 25
La χ2 mide existencia de la
asociación

Dr. Tabaré Fernández (2017) Estadística Social Básica


• El estadístico proporciona una magnitud que informa sobre la
diferencia entre lo esperado y lo observado en cada celda de
una tabla de contingencia.

• Su valor mínimo será cero,   = 0, cuando todas y cada una


de las discrepancias sean iguales a cero. Esta es la situación de
independencia estadística.

26
Pero podría ser tentador ….

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Interpretar que la magnitud del estadístico también podría
informar sobre la fuerza de la Asociación.

27
Ji-cuadrada del ejemplo
• χ = 15

Dr. Tabaré Fernández (2017) Estadística Social Básica


• El valor es 0 ?
• El valor está próximo a cero?
• Que podemos afirmar?
• Tratándose de una tabla de 2 x 2 y con un valor tan alto de Ji
cuadrada, resulta evidencia más que razonable para rechazar la
hipótesis de que las variables son independientes y sostener que la
condición rural o urbano está asociada a la pobreza en personas de
la región frontera del Uruguay

• Pero la asociación es fuerte, débil, moderada?. Veamos algunas


limitaciones
28
Resultado en la tabla


Dr. Tabaré Fernández (2017) Estadística Social Básica


• 15.9

•¿Qué significa este resultado?


•¿Es comparable con otras
tablas? 29
Comparamos la misma tabla, pero
una con el doble de casos CASO 1: N

Dr. Tabaré Fernández (2017) Estadística Social Básica


AREA GEOGRAFICA
POBREZA Urbana Rural Total

no pobre 11,672 967 12,639


pobre 1,821 98 1,919

Total 13,493 1,065 14,558

AREA GEOGRAFICA
POBREZA Urbana Rural Total
CASO 2: N*2
no pobre 23,344 1,934 25,278
pobre 3,642 196 3,838

Total 26,986 2,130 29,116


30
Asociación Perfecta (caso 3)

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Máxima dependencia estadística entre las variables.

OBSERVADAS

POBREZA Urbana Rural Total

no pobre 12,639 0 12,639


pobre 854 1,065 1,919

Total 13,493 1,065 14,558

31
Valores calculados

Dr. Tabaré Fernández (2017) Estadística Social Básica


Caso 1 Caso 2 Caso 3

N 14558 29116 14558


Ji cuadrado 15.9 31.8 7568.0

• ¿Qué pasó con la Ji cuadrada en estos tres ejemplos?


• ¿Dónde hay mayor Asociación? 32
Limitaciones

Dr. Tabaré Fernández (2017) Estadística Social Básica


1. Los valores de Ji-cuadrada dependen del número total de
casos (n)
• Cuanto mayor es N, mayor es la Ji-cuadrada

2. Valores grandes de Ji-cuadrada no pueden ser interpretados


directamente como:
• Existencia de asociación
• Fuerza de asociación (vg. Asociación perfecta)

3. Valores de Ji-cuadrada calculados en distintas tablas no


pueden ser comparados
• A menos que los totales, N, sean iguales en ambas tablas
33
Pasos para el uso de la Ji-
Cuadrada

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Hacer la tabla de contingencia
• Calcular las frecuencias esperadas
• Calcular las diferencias
• Elevar cada disrepancia observado-esperado al cuadrado
• Dividir ese resultado entre la frecuencia esperada para la celda
• Sumar todos los cocientes de la tabla
• El valor final es el valor de la Ji-cuadrada
• Interpretar

34
Recordar sobre la Ji-cuadrado

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Cuando hay independencia estadística, Ji-
cuadrado toma valor cero

• No hay valores máximos de Ji-cuadrado, de aquí


que se tomen decisiones orientadas por la
proximidad del valor observado al valor cero.

• Una magnitud grande NO implica 35


necesariamente que la Asociación es fuerte.
III. TEMA 6.
COEFICIENTES DE ASOCIACIÓN

Dr. Tabaré Fernández (2017) Estadística Social Básica


36
Previo (i): grado de asociación

Dr. Tabaré Fernández (2017) Estadística Social Básica


• El estadistico de ji cuadrado no permite avanzar mas allá de
concluir que hay Asociación entre dos variables.

• Es necesario por lo tanto construir un estadístico que sea


capaz de cumplir con el segundo objetivo del análisis: informar
del grado de asociación.

37
Previo (ii): Asociación perfecta

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Para poder entender la Asociación, es necesario construir
teóricamente cuáles sería el caso más extremo de Asociación
lógicamente posible. Asociación perfecta.

• Trabajaremos tres situaciones.

• Diagonal mayor
• Diagonal menor
38
• Condición imposible
Asociación perfecta en la
diagonal mayor

Dr. Tabaré Fernández (2017) Estadística Social Básica


B B’ Total
• Primera situación ideal:
A N11 0 N1.
• “en el medio urbano no A’ 0 N22 N2.
hay pobres y en el medio
rural todos lo son” total N.1 N.2 N

• Toda vez está presente B


(rural) también está
presente A (pobreza) y que
a su vez, cuando esté B’
(urbano), está presente A’
(no pobre). 39
Asociación perfecta en la
diagonal menor

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Segunda situación ideal:
B B’ Total
• “En el medio urbano son
todos pobres y en el A 0 N12 N1.
medio rural no hay
pobres” A’ N21 0 N2.
total N.1 N.2 N
• Toda vez que esté presente
B’ (urbana) está presente A
(pobreza) y que a su vez,
cuando esté B (rural), está
presente A’ (no pobreza). 40
Asociación perfecta: condición
imposible.

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Sea la siguiente
hipótesis:
B B’ Total

• “La pobreza rural en A 0 N12 N1.


Uruguay tiende a ser A’ N21 N22 N2.
inexistente”
total N.1 N.2 N

41
Idea general

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Superar las limitaciones de la Ji-cuadrada
• Normalizando el estadístico al controlarlo por el número de casos
• Representando la fuerza de la asociación con los números reales
• Encerrando el recorrido del estadístico entre dos valores extremos
que informen “ausencia de asociación” y “asociación perfecta”

• El coeficiente valdrá 0, cuando estamos frente a la


independencia estadística.

• Valdrá 1 cuando exista asociación perfecta entre las variables.

• Esto da lugar a un conjunto importante de estadísticos 42


llamados “coeficientes de asociación”
Algunos coeficientes

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Normalizar el valor del estadístico para que no dependa de la
cantidad de casos:

• phi cuadrado (φ 2 )

• Cerrar el recorrido del estadístico entre 0 y 1


• V de Cramer
• Informar existencia, fuerza y sentido de la asociación, con
recorrido cerrado
• Gama (γ)
• Caso especial para tablas 2x2: coeficientes Phi φ y Q de Yule
• Tau (τ ) de Kendall (hay 3 variantes)

43
Coeficiente φ 2
• Corrije el problema de la dependencia de  2 con n..

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Esto lo logra dividiendo entre n..
• A esto se le llama “normalizar”

• Permite comparar coeficientes entre tablas de diferente n..


 AB
• Fórmula: @ =
C..
• Aplicación:
;.D3E D.3E
• @ = = 0.007 # @  = = 0.007
223 223;

44
Coeficiente V de cramer

Dr. Tabaré Fernández (2017) Estadística Social Básica


AB
•H= = M
C∗JKL ():2,*:2)

• Está normalizado

• Tiene recorrido entre [0 y 1]

• El valor máximo se corresponde con la situación de


asociación perfecta en la que todos los casos en están
sobre una de las diagonals.

• Es un coeficiente muy utilizado 45


Coeficiente Q de Yule

Dr. Tabaré Fernández (2017) Estadística Social Básica


• La peculiaridad de este coeficiente es que sólo es útil para
tablas de 2x2 (cruce de variables dicotómicas)

• Está normalizado

• Tiene recorrido cerrado entre -1 y +1.


• Esto permite observar existencia, magnitud y sentido de la
relación

• Tiene sensibilidad rinconal, lo que le permite capturar la si la


relación entre las variables tiende a una “L” con una celda que
tiende a 0. 46
Q de Yule e hipótesis “rinconal”

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Sea la siguiente
hipótesis:
B B’ Total

• “La pobreza rural en A N11 N12 N1.


Uruguay tiende a ser A’ N21 0 N2.
inexistente”
total N.1 N.2 N

47
Q de Yule: cálculo

Dr. Tabaré Fernández (2017) Estadística Social Básica


B B‘ TOTAL • Numerador:
A a b
• Producto de celdas de la
A’ d c diagonal principal menos
TOTAL el producto de celdas de
la diagonal secundaria

O∗P − Q∗- • Denominador:


N=
O∗P + Q∗- • Producto de celdas de la
diagonal principal MAS
el producto de celdas de
la diagonal secundaria.
48
Q de Yule

Dr. Tabaré Fernández (2017) Estadística Social Básica


SIMULADO 1:
INDEPENDENCIA SIMULADO 2: ASOCIACIÓN DIRECTA

POBREZ POBREZ
Urbana Rural Total Urbana Rural Total
A A

no pobre 360 240 600 no pobre 600 0 600


pobre 240 160 400 pobre 0 400 400

Total 600 400 1,000 Total 600 400 1,000

SIMULADO 3: ASOCIACIÓN INVERSA SIMULADO 4: ASOCIACIÓN EN "L"

POBREZ POBREZ
Urbana Rural Total Urbana Rural Total
A A

no pobre 299 310 609 no pobre 202 398 600


pobre 301 90 391 pobre 398 2 400 49
Total 600 400 1,000 Total 600 400 1,000
Coeficientes comparados

Dr. Tabaré Fernández (2017) Estadística Social Básica


caso 1 caso 2 caso 3 caso 4
JI
CUADRA 0.0 1,000.0 76.9 433.4
DO
Phi2 0 1 0.077 0.433
V de
Cramer 0 1 0.005911 0.187838
Q de Yule 0 1 -0.55232 -0.99491

50
La elección de un coeficiente…

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Por razones estadísticas y / o matemáticas:

• El coeficiente está normalizado, v.g. no depende del total de casos de


la tabla

• El coeficiente tiene un valor a priori conocido máximo, v.g. el valor 1


indica asociación perfecta

• Por razones teóricas:

• El coeficiente es el que mejor representa la hipótesis de asociación


que estoy analizando.
• Por ejemplo, si espero que los casos se concentren en alguan de las diagonales o
si propongo que una de las celdas estará vacía o que tenderá a vaciarse. 51
Interpretación de los coeficientes

Dr. Tabaré Fernández (2017) Estadística Social Básica


Valor (en términos
Interpretación
absolutos)
Menor a 0.10 Despreciables

Entre 0.10 y 0.29 Baja

Entre 0.30 y 0.49 Moderada

Entre 0.50 y 0.69 Sustancial


52

Desde 0.70 y más Muy fuerte


Sobre el esquema de Sierra
Bravo

Dr. Tabaré Fernández (2017) Estadística Social Básica


• Se aplica a coeficientes de asociación que miden magnitudes
de la asociación (al menos)

• Y que tienen recorridos cerrados (a priori)

• o que, conociendo el valor máximo del coeficiente en tablas


típicas, puede ser re-escalado.

53

También podría gustarte