MÓDULO III:
MEDIDAS DE ASOCIACIÓN
ENTRE VARIABLES
ÍNDICE
MÓDULO III: MEDIDAS DE ASOCIACIÓN ENTRE VARIABLES Pág.
I. ANÁLISIS DE CORRELACIÓN………….……………………… 3
II. ANÁLISIS DE REGRESIÓN SIMPLE……………………………. 5
III. APLICACIONES DE CHI CUADRADO…………………………... 10
IV. ODDS RATIO Y RIESGO RELATIVO……………………………. 13
MÓDULO III
MEDIDAS DE ASOCIACIÓN ENTRE VARIABLES
Para determinar la asociación entre variables depende del tipo de variable, es decir:
VARIABLES CUANTITATIVAS
Análisis de Correlación Lineal Simple
Análisis de Regresión Lineal Simple
VARIABLES CUALITATIVAS
Uso del Chi2: Pruebas de Independencia y Homogeneidad
Evaluación de factores de riesgo en estudio comparativo de:
o cohorte (prospectivo)
o caso-control (retrospectivo)
I. ANÁLISIS DE CORRELACIÓN
Es un procedimiento que permite medir la asociación o relación lineal que puede existir entre
dos variables aleatorias cuantitativas y determina su grado de relación y sentido. El
coeficiente de correlación poblacional se obtiene:
Y su valor oscila entre: -1 ≤ ρ ≤1, para su interpretación:
3
Para tener una idea cuando dos variables cuantitativas están correlacionadas se recurre al
DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS, que consiste en graficar los puntos
en un plano cartesiano. A continuación presentamos gráficamente cuando dos variables
cuantitativas están correlacionadas:
1.1. Estimación del coeficiente de correlación (muestra)
Para estimar el parámetro , se recurre a una muestra aleatoria de n unidades . De
cada una de ellas, se determinan los valores: (x1, y1), (x2, y2),..., (xn, yn).
El estimador del parámetro , es el coeficiente de correlación muestral r, definido como:
1.2. Evaluación de la significancia del coeficiente de correlación muestral
Paso 1.- Planteamiento de hipótesis.
H0 : 0
H : 0
1
Paso 2.- Niveles de significación. (teórico) ””
Paso 3.- Estadístico de prueba.
tcalc. = r* n–2 P – VALOR
1–r2 (tabla )
GRADOS DE LIBERTAD = n - 2
Paso 4.- Formular la regla de decisión
Si el p-valor < Se rechaza H0
Si el p-valor ≥ No se rechaza H0
Paso 5.- Conclusión:
En este caso se especifica la hipótesis estadística que no ha sido rechazada
indicando el nivel de significancia teórico considerado (α)
II. ANÁLISIS DE REGRESIÓN SIMPLE
4
Es la relación funcional entre dos variables uno conocida como variable dependiente “Y” y
la otra como independiente “X”
2.1. El Modelo de Regresión Lineal Simple
Está dado por: y= + ß*x + e
Donde:
Y es la variable dependiente
X es la variable independiente.
ß es el coeficiente de regresión
es el intercepto
e es una variable aleatoria con media 0 y varianza ²y/x.
2.1.1. Objetivos
Establecer una relación cuantitativa entre dos variables relacionadas.
PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el
valor de la otra variable relacionada (v. Independiente).
2.1.2. Supuestos
Normalidad
Homogeneidad
Independencia
Linealidad
2.1.3. Modelo Estimado
2.1.4. Interpretación del coeficiente de regresión “b”
5
Si b>0; indica que por cada unidad que se incremente en X, Y aumenta en
promedio en b unidades.
Si b<0; indica que por cada unidad que se incremente en X, Y disminuye en
promedio en b unidades.
Para obtener los coeficientes “a” y “b” del modelo de regresión estimado, se
aplica el método de mínimos cuadrado obteniendo los valores:
Conociendo b es posible hallar el valor de a con la ecuación:
Sin embargo, aún con la ecuación, como todos los puntos no están exactamente
sobre una línea recta, se cometen errores en el ajuste.
2.2. Coeficiente de determinación
Para medir la bondad de ajuste de los puntos a la recta utilizamos el coeficiente de
determinación: R2 = r²*100 nos indica que porcentaje de la variabilidad de los valores
de Y es explicada por la regresión. 0≤ R2 ≤ 100%
Ejemplo:
Interés: Determinar la correlación entre el número de hijos en la familia y el coeficiente
de inteligencia promedio de los hijos. Mediante un estudio transversal se obtuvo los
siguientes resultados:
6
NUMERO DE COEFICIENTE DE
HIJOS EN INTELIGENCIA
LA FAMILIA PROMEDIO DE LOS HIJOS
1 110
2 105
3 100
4 101
5 98
6 97
7 86
8 84
9 70
10 60
Comentario: Del cuadro se aprecia que hay una correlación inversa de las variables
en estudio.
Graficando mediante el diagrama de dispersión:
FAMILIAS SEGUN NUMERO DE HIJOS Y COEFICIENTE
120
DE INTELIGENCIA PROMEDIO
110
1; 110
Coeficiente de inteligencia
2; 105
3; 100 4; 101
100
5; 98
6; 97
90
7; 86
8; 84
80
70 9; 70
10; 60
60
0 1 2 3 4 5 6 7 8 9 10 11
Numero de hijos en la familia
Comentario: Del gráfico se aprecia que hay una correlación inversa de las variables en
estudio con tendencia lineal.
Para obtener el coeficiente de correlación estimado, primero se realiza los siguientes
cálculos preliminares:
7
COEFICIENTE DE
NUMERO DE
INTELIGENCIA
HIJOS EN
PROMEDIO DE LOS
LA FAMILIA
HIJOS X² Y² X*Y
X Y
1 110 1 12100 110
2 105 4 11025 210
3 100 9 10000 300
4 101 16 10201 404
5 98 25 9604 490
6 97 36 9409 582
7 86 49 7396 602
8 84 64 7056 672
9 70 81 4900 630
10 69 100 4761 690
55 920 385 86452 4690
ΣX ΣY ΣX² ΣY² ΣX*Y
Luego remplazamos los valores en la fórmula:
10*4690-55*920
r = ---------------------------------------------
√(10 ∗ 385 − (55)²) ∗ (10 ∗ 86452 − (920)²)
r = - 0.957
Interpretación: Existe una correlación lineal inversa intensa entre el número de hijos
en la familia y el coeficiente de inteligencia promedio de los hijos; es decir; a medida
que aumenta el número de hijos entonces el coeficiente de inteligencia promedio
disminuye.
Para evaluar si el coeficiente de correlación es o no significativo, aplicamos la prueba
estadística t- de student siguiendo los pasos:
8
Paso 1.- Planteamiento de hipótesis.
H0 : 0
H1 : 0
Paso 2.- Niveles de significación. (teórico) ”= 0.05”
Paso 3.- Estadístico de prueba.
Tcalc.= (- 0.957) 10 – 2 = - 9.3
1 – (- 0.957) 2 P=0.00001
GRADOS DE LIBERTAD = 10 – 2= 8
Paso 4.- Formular la regla de decisión
Como p-valor < 0.05 Se rechaza H0
Paso 5.- Conclusión:
Se concluye que hay evidencia suficiente para indicar que el coeficiente de correlación es
significativo, es decir: que el numero de hijos en la familia y el coeficiente de inteligencia
promedio de los hijos están intensamente correlacionados negativamente, para un nivel
de significación del 5%.
TAREA:
a) Estime la ecuación de regresión lineal simple: Y = a + b*X
b) Interprete el coeficiente de regresión “b” = …………..
c) Estime el coeficiente de inteligencia para una familia de 11 hijos.
d) ¿Cuánto vale “Y” para X=11?
e) Determina la bondad de ajuste del modelo. R2 =……….
9
III. APLICACIONES DE CHI CUADRADO
Se utiliza para variables cualitativas con escala de medición nominal. Fórmula de trabajo:
Ei= (Total de fila)(Total columna)
Gran total
Mide el grado de concordancia entre los pares de frecuencias observadas y esperadas de
las celdas, dado que la Ho sea verdadera.
Aplicaciones mas usuales
de chi cuadrado
PRUEBA DE INDEPENDENCIA PRUEBA DE HOMOGENEIDAD
.- Una muestra .- Mas de una muestra
.- Dos variables cualitativas .- Una variable cualitativas
.- Ho : Independencia .- Ho : Homogeneidad
H1 : No independencia H1 : No homogeneidad
.- Se rechaza la hipótesis nula si P-valor < α
Ejemplo: Para estudiar la dependencia entre la práctica de algún deporte y la hipertensión,
se seleccionó una muestra aleatoria simple de 100 personas, con los siguientes resultados:
Hipertensión Arterial Total
Si No
No 38 9 47
Deportista
Deportista 31 22 53
Total 69 31 100
10
Solución:
1. Verificar que sean variables cualitativas
2. Planteamiento de hipótesis
H0: La Hipertensión Arterial es independiente de la práctica de algún deporte
H1: La Hipertensión Arterial está asociada a la práctica de algún deporte
3. Determinación del nivel de significación α = 0.05
4. Cálculo de frecuencias esperadas y 2:
47 x 69
E11 32.43
100
47 x31
E12 14.57
100
53 x 69
E21 36.57
100
53 x31
E22 16.43
100
38 32.43 31 36.57 9 14.57 22 16.43
2 2 2 2
c2
32.43 36.57 14.57 16.43
2
c 5,8227
Valor de p: Consultando la tabla de 2 con g.l.=1 se observa: 0.01<p<0.02
5. Decisión y conclusión: Decisión: Siendo p < 0.05, se rechaza Ho.
Conclusión: La Hipertensión Arterial está asociada con la práctica
Deportiva.
Ejemplo:
Evaluar la presencia de hipertensión arterial en pacientes provenientes de tres distritos de
la ciudad de Talara (Diciembre del 2006).
Hipertensión Distrito Total
Pariñas El Alto La Brea
Si 75 25 70 170
No 15 45 10 70
Total 90 70 80 240
¿Los 3 distritos son homogéneos respecto a la HTA?
11
1. Planteamiento de la hipótesis
Ho: Las muestras provienen de poblaciones homogéneas según la
presencia de hipertensión arterial.
H1: Las muestras no provienen de poblaciones homogéneas según la
presencia de hipertensión arterial.
2. Nivel de significación: α = 0.05
3. Frecuencias esperadas y cálculo de 2 :
170 x90 170 x 70
E11 63.75 E12 49.58
240 240
170 x80 70 x90
E13 56.67 E21 26.25
240 240
70 x 70 70 x80
E22 20.42 E23 23.34
240 240
75 63.75 25 49.58 10 23.34
2 2 2
c2 ...
63.75 49.58 23.34
c2 59.34
Valor de p. Consultando la tabla de 2 = 59.34; con g.l.= 2 ; se observa p
< 0.005
4. Decisión y conclusión:
Decisión: Siendo p 0.05 se rechaza la hipótesis nula.
Conclusión: las muestras no provienen de poblaciones homogéneas. Es decir, la
presencia de hipertensión arterial es distinta en los tres distritos de la ciudad.
12
IV. ODDS RATIO Y RIESGO RELATIVO
Las medidas de frecuencia relativa solamente expresan el riesgo absoluto de enfermar. se
tienen dos tipos básicos de indicadores para medir la fuerza de asociación:
riesgo relativo
odds ratio
LA FORMA DE OBTENER ESTOS
VALORES DE RIESGO DEPENDE
DEL TIPO DE ESTUDIO
COHORTE CASO – CONTROL
(prospectivo) (retrospectivo)
(a / a+b) Odds ratio (OR) = a·d / b·c
Riesgo relativo (RR) = Ie+ / Ie- =
(c / c+d) Casos Controles
Exposición Sí a b
No c d
NOTA: Si : RR o OR < 1 : FACTOR PROTECTOR
RR o OR = 1 : SIN EFECTO
RR o OR > 1 : FACTOR DE RIESGO
Ejemplo:
Se tiene interés en evaluar si el uso de anticonceptivos orales es un factor de riesgo del
infarto miocárdico en mujeres casadas menores de 45 años de edad. Para tal efecto se
realiza un estudio comparativo tipo caso control y se obtienen los siguientes resultados:
Uso de anticonceptivos Pacientes con infarto Sin infarto
orales Miocárdico (Casos) Miocárdico (Controles)
___________________________________E_____________________E´_____
Si (F) 23 34
Nunca (F´) 35 132
_________________________________________________________________
Total 58 166
13
Se pide calcular e interpretar el odds ratio (OR):
P (F/E) 23/58
ODDS1 = ---------- = -----------
P (F’/E) 35/58
P (F/E’) 34/166
ODDS2 = ---------- = -----------
P (F’/E’) 132/166
Dividir los dos ODDS para calcular OR:
ODDS1 23*132
OR = ----------- = -------------------- = 2.55
ODDS2 34*35
Ejemplo
Evaluar si niveles altos de colesterol sérico (>250) se considera factor de riesgo de un infarto
del miocardio. Por consiguiente se realiza un estudio comparativo de cohortes y se obtiene
los siguientes resultados:
Niveles de colesterol Desarrolla IM No desarrolló IM Total
Sérico (mg%) E E´
_________________________________________________________
>250 F 10 125 135
250 F´ 21 449 470
_________________________________________________________
Se pide calcular e interpretar el riesgo relativo
P (E/F) 10/135
RR = --------- = ------------ = 1,66
P (E/F’) 21/470
14
15
16