Está en la página 1de 29

Coeficientes de Correlación III:

Coeficientes para variables categóricas


Universidad de Chile
Asignatura: Estadística II
Profesor: Andrés Antivilo Bruna
Año Académico 2012
El calculo de un Coeficiente de correlación
depende del nivel de medición de las variables:

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 2
Coeficientes para Variables Categóricas
 Todo análisis relacional debería ser precedido por el
correspondiente análisis descriptivo.
 ¿Cómo se pueden describir variables categóricas?
 Son variables “de las que únicamente es posible obtener una
medida de tipo nominal (u ordinal con pocos valores)” (Pardo,
Ruiz y san Martín, 2009, pag.282)
 En investigación clínica se pueden encontrar variables del tipo
“Padecer o no un determinado síntoma” o se puede clasificar a
los pacientes como “Tratados/No tratados” o “Recuperados/No
Recuperados”.
 En investigación social las respuestas de los sujetos se pueden
clasificar por la Actitud que manifiestas (desde totalmente
favorable hasta totalmente desfavorable), o analizarlas en
función del Estado Civil, Sexo, Raza, Profesión, etc.
ESTADÍSTICA II, Sesión 3. 2012.
Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 3
Tablas de Contingencia
Al trabajar con variables categóricas -al mismo tiempo- hay
que abordar dos procedimientos (Pardo et al, 2009):
1. Describir el comportamiento conjunto de ambas variables
2. Determinar si existe relación entre ellas.
 Para describir solo una variable categórica se ha utilizado
un técnica específica de resumen llamada Tabla de
Frecuencias.
 Para describir dos variables categóricas simultáneamente
se construye una Tabla de frecuencias conjuntas, la que
combina las categorías de ambas variables: Tabla de
Contingencia.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 4
Ejemplo:
Tablas de Frecuencia para Sexo y Tabaquismo.

Sexo ni Tabaquismo ni

Fumador 60
Hombre 94
Exfumador 13
Mujer 106
No Fumador 127
Total 200
Total 200

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 5
TABLA 1:
Tabla de Contingencia de Sexo por Tabaquismo:

Tabaquismo

Sexo Fumador Exfumador No Fumador Total

Hombres 18 7 69 94

Mujeres 42 6 58 106

Total 60 13 127 200

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 6
TABLA 2:
Tabla de Contingencia de Sexo por Tabaquismo:
Se destacan las FRECUENCIAS ABSOLUTAS CONJUNTAS

Tabaquismo

Sexo Fumador Exfumador No Fumador Total

Hombres 18 7 69 94

Mujeres 42 6 58 106

Total 60 13 127 200

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 7
TABLA 3:
Tabla de Contingencia de Sexo por Tabaquismo:
Se destacan los TOTALES MARGINALES

Tabaquismo

Sexo Fumador Exfumador No Fumador Total

Hombres 18 7 69 94

Mujeres 42 6 58 106

Total 60 13 127 200

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 8
Tabla de Contingencia de Sexo por Tabaquismo:
CALCULE el Porcentaje para las COLUMNAS

Tabaquismo

Sexo Fumador Exfumador No Fumador Total

Hombres

Mujeres

Total 100%

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 9
Tabla de Contingencia de Sexo por Tabaquismo:
Porcentaje para las COLUMNAS

Tabaquismo

Sexo Fumador Exfumador No Fumador Total

Hombres 30.0% 53.8% 54.3% 47%

Mujeres 70.0% 46.2% 45.7% 53%

Total 100% 100% 100% 100%

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 10
Correlación en Tablas de Contingencia
 El principal objetivo de combinar dos variables en una
tabla de contingencia es “evaluar si tienen algo que
ver entre si o no”, es decir, examinar si están
relacionadas.
 En este contexto solo existen dos posibles resultados:
1. Las variables son independientes.
2. Las variables están asociadas.
 “Dos variables son Independientes cuando el
comportamiento de una de ellas NO se ve alterada
por la presencia de la otra” (Pardo et al, 2009, pag
288).

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 11
Tabla de Contingencia de Sexo por Tabaquismo:
Porcentaje para las FILAS

Tabaquismo

Sexo Fumador Exfumador No Fumador Total

Hombres 18 7 69 94

Mujeres 42 6 58 106

Total 60 13 127 200

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 12
Tabla de Contingencia de Sexo por Tabaquismo:
INTERPRETACIÓN del Porcentaje para las FILAS

Tabaquismo

Sexo Fumador Exfumador No Fumador Total

Hombres 19.1% 7.4% 73.4% 100%

Mujeres 39.6% 5.7% 54.7% 100%

Total 30.0% 6.5% 63.5% 100%

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 13
Correlación en Tablas de Contingencia
 Si se asume que las variables X e Y son
independientes, la probabilidad de encontrar una
observación cualquiera en una casilla determinada es
igual al producto de las probabilidades marginales de
esa casilla.
 En la práctica, lo que se calculan son las Frecuencias
Esperadas, considerando las frecuencias marginales
asociadas a cada casilla y el número total de casos:
ni   ni 
ˆ ij 
m
n
ESTADÍSTICA II, Sesión 3. 2012.
Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 14
Estadístico Chi Cuadrado
 Por lo tanto, si se asume independencia, las
Frecuencias Esperadas de cada casilla pueden
estimarse multiplicando sus correspondientes
frecuencias marginales y dividiendo ese producto entre
el número total de casos.
 Para contrastar la hipótesis solo falta comparar los
pronósticos teóricos (Frecuencias Esperadas) con los
datos realmente obtenidos (Frecuencias Observadas).
 Pearson (1911) generó el estadístico chi cuadrado.
 Fluctúa entre 0 e infinito.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 15
Estadístico Chi Cuadrado
 Fórmula:

 ˆ ij 
2
I J n m
  
2 ij
1
Obs
i 1 j 1 ˆ ij
m

 Cuando se cumple la hipótesis de independencia, las diferencias


entre las frecuencias observadas y las correspondientes
frecuencias esperadas valen cero; por lo tanto, el estadístico chi
cuadrado también valdrá cero.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 16
Cálculo de las Frecuencias Esperadas
ni   ni  94  60
mˆ 11    28.2
n 200

ni   ni  106  60
mˆ 21    31.8
n 200

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 17
Tabla de Contingencia de Sexo por Tabaquismo:
FRECUENCIAS OBSERVADAS Y ESPERADAS

Tabaquismo

Sexo Fumador Exfumador No Fumador Total

Hombres 18 (28.2) 7 (6.1) 69 (59.7) 94

Mujeres 42 (31.8) 6 (6.9) 58 (67.3) 106

Total 60 13 127 200

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 18
Cálculo de Chi Cuadrado
  mˆ ij 
2
I J n
  
2 ij
1
mˆ ij
Obs
i 1 j 1

18  28.2   7  6.1  58  67.3


2 2 2

 2Obs    ......  9.95


28.2 6.1 67.3

 Chi Teórico con (I-1)(J-1) grados de libertad y alfa (0.05) = 5.99


 Como el Chi Observado (9.95) es mayor que el chi cuadrado teórico (5.99),
es posible concluir que las variables sexo y tabaquismo no son
independientes.
 En otras palabras, sexo y tabaquismo son dos variables relacionadas.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 19
Coeficientes de asociación:
1. Coeficiente de Contingencia
Aun falta cuantificar la relación encontrada: Falta una medida de asociación.

2
C
2  n
Elcoeficiente de contingencia fluctúa entre valores menores que uno y cero.
 Permite cuantificar la relación obtenida mediante chi cuadrado.

2 9.95
C   0.22
 n
2
9.95  200
ESTADÍSTICA II, Sesión 3. 2012.
Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 20
Coeficiente de Contingencia

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 21
Limitaciones del Coeficiente de
Contingencia
1. No puede alcanzar la unidad, aun cuando las
medidas estén perfectamente correlacionadas.
El límite superior para el C es una función del
número de categorías.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 22
Limitaciones del Coeficiente de
Contingencia

2. Debido a esta característica, se crea la


segunda limitación de C: dos coeficientes de C
no son comparables a menos que sean
resultado de tablas de contingencia del mismo
tamaño.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 23
Limitaciones del Coeficiente de
Contingencia
3. El cálculo de C depende de que los datos se
adecúen al cálculo de chi cuadrado. Chi
cuadrado puede usarse sólo si hasta el 20%
de las celdillas tienen una frecuencia teórica
menor a 5, y ninguna celdilla tiene frecuencia
teórica menor a 1.
 Este coeficiente no es comparable con ninguna
otra medida de correlación.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 24
Coeficientes de asociación:
2. Coeficiente V de Cramer
Es otra medida de asociación basada en chi cuadrado (1946).

2
VCramer 
 n  k  1 

 K es el valor más pequeño del número de filas y columnas


 A diferencia de C, V en condiciones perfectas de asociación si llega a 1.

2 9.95
VCramer    0.22
 n(k  1)  200  (2  1)
ESTADÍSTICA II, Sesión 3. 2012.
Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 25
El Coeficiente V de Cramer
 En variables de más de dos niveles el coeficiente phi
puede tomar valores superiores a 1.
 La V de Cramer modifica levemente esta fórmula,
asegurando que la V nunca excede de 1.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 26
El coeficiente V de Cramer
 Intenta corregir Φ para que tome un valor
entre 0 y 1.
 También intenta minimizar el efecto del
tamaño de la muestra sobre la
cuantificación del grado de asociación.
 Es utilizado en el estudio de variables
nominales.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 27
Ejemplo V de Cramer
 Se realizó una encuesta entre madres que han establecido una
nueva relación de pareja. Se preguntó a las mujeres acerca de la
relación entre sus hijos y sus nuevas parejas, obteniéndose los
siguientes datos, sobre los que se calcula la correlación.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 28
Output de SPSS para la V de Cramer

Pruebas de chi-cuadrado Medidas simétricas

Sig. asintótica Sig.


Valor gl (bilateral) Valor aproximada
Chi-cuadrado de Pearson 6,172a 2 ,046 Nominal por Phi ,129 ,046
Razón de v erosimilitud 6,210 2 ,045 nominal V de Cramer ,129 ,046
Asociación lineal por Coeficiente de
4,901 1 ,027 ,128 ,046
lineal contingencia
N de casos v álidos 373 N de casos v álidos 373
a. 0 casillas (,0%) tienen una f recuencia esperada inf erior a 5. a. Asumiendo la hipótesis alternativa.
La f recuencia mínima esperada es 53,95.
b. Empleando el error típico asintótico basado en la hipótesis
nula.

ESTADÍSTICA II, Sesión 3. 2012.


Académico: Andrés Antivilo Bruna
UNIVERSIDAD DE CHILE 29

También podría gustarte