Está en la página 1de 37

Regresión

Simple
y Correlación

Daniel Griffith
Bioestadística

1
Recomendaciones antes de hacer
un análisis estadístico
1.  Comprender el problema de fondo y su contexto.
2.  Comprender bien el objetivo u objetivos del estudio.
•  Cuidado con los análisis no dirigidos. Si buscas lo suficiente siempre encontrarás algún
tipo de relación entre las variables, pero puede que esta relación no sea más que una
coincidencia.

3.  Plantear el problema en términos estadísticos.


•  Esto es uno de los pasos más difíciles e implica la formulación de hipótesis y modelos.
•  Una vez que el problema ha sido traducido al lenguaje de la estadística, la solución suele
ser rutinaria.
Relación
4.  Entender bien los datos. Variable è Variable
•  ¿Son datos observacionales o experimentales? independiente dependiente
¿Por qué?
•  ¿Hay valores faltantes?
•  ¿Cómo están representadas las variables cualitativas?
•  ¿Cúales son las unidades de medición?
•  ¿Hay algún error en los datos?

Por todo ello, es importante revisar bien los datos y llevar a cabo algún análisis
preliminar para detectar anomalías en los mismos. 2
Pasos para
seguir para
ajustar un
modelo lineal
¿Qué es un análisis de regresión?
El análisis que se usa para explicar o modelar la relación entre una
variable continua Y, llamada variable respuesta o variable dependiente,
y una o más variables continuas X1, X2, . . . Xk, llamadas variables
explicativas o independientes.
Cuando k = 1, se denomina regresión simple:

Y = β0 + β1X + ε

Cuando k > 1, se denomina regresión múltiple:

Y = β0+ β1X1+ β2X2+…+ βkXk + ε



Donde β0, β1, β2, …,βk son los parámetros del modelo (constantes desconocidos)

ε = error aleatorio 4
Importancia de la Regresión

•  La regresión es una de las aplicaciones más


importantes de la estadística porque estima el valor
medio de una variable dependiente Y además de la
predicción de algún valor futuro de Y con base en el
conocimiento de un conjunto de variables
independientes relacionadas: X1, X2, . . . Xk.

•  El término regresión fue introducido por Francis


Galton en su libro “Natural Inheritance” (1889)
refiriéndose a la “ley de la regresión universal”: Francis Galton
•  Primo de Darwin
•  Estadístico y aventurero
•  Ejemplo: Altura del hijo = a + b * altura del padre
•  Fundador (con otros) de
la estadística moderna
para explicar las teorías
de Darwin. 5
Estudio conjunto de dos variables
•  Esta tabla muestra los datos de altura y peso
medidos de varios individuos de una muestra. Altura Peso
(cm) (kg)
o  Fila: los datos de un individuo 162 61
o  Columna: los valores que toma cada variable 154 60
sobre los mismos 180 78
o  Las individuos no se muestran en ningún orden 158 62
particular 171 66
•  La exploración de los datos se puede realizar 169 60
mediante un diagrama de ???. 166 54

•  El objetivo es intentar a reconocer si existe una 176 84


relación entre las variables, de qué tipo, y si es 163 68
posible predecir el valor de una de ellas en función ... ...
de la otra.
6
Diagrama de dispersión o nube de puntos
Ejemplo: Alturas y pesos de 30 individuos representados en un diagrama
de dispersión.
100
90
80 Pesa 76 kg
Peso (kg)

70

Mide 187 cm
60
Pesa 50 kg
50
40 Mide 161 cm

30
140 150 160 170 180 190 200
Altura (cm) 7
Predicción de una variable en función de la otra
Aparentemente el peso aumenta 10 kg por cada 10 cm de altura. En otra
palabra, el peso aumenta en una unidad por cada unidad de altura.
Peso (kg)

10 kg

10 cm

Altura (cm) 8
Repaso de la ecuación de una recta
Y = β0 + β1 X
β0 = la intersección (ordenada) en el origen
(donde la recta corta el eje Y)

β1 β1 = la pendiente
Y

•  En las relaciones positivas, β1 es positivo


•  En las relaciones negativas, β1 es negativo
β0
•  Si no hay relación, β1 es aproximada-
mente 0
0 X

Si queremos predecir Y a partir de X, necesitamos calcular (en el caso


de una relación lineal) la recta de regresión de Y sobre (a partir de) X
Regresión lineal simple
Es un tipo de modelo probabilístico que supone que el
valor medio de Y para un valor dado de X se grafica como
una línea recta y que los puntos se desvían de esta línea
de medias en una cantidad aleatoria (positiva o negativa)
igual a ε, es decir:

Y = β0 + β1 X + ε

Peso (kg)
β0 , β1 = los parámetros del
modelo
ε = error aleatorio
Altura (cm)
Bondad de un ajuste R2
La bondad de un ajuste de un modelo de regresión se mide usando el
coeficiente de determinación, R2
•  R2 es una cantidad adimensional que sólo puede tomar valores entre [0, 1]
•  Cuando un ajuste es bueno R2 será cercano a uno
•  Cuando un ajuste es malo R2 será cercano a cero

•  A R2 también se le denomina el porcentaje de variabilidad explicado por


el modelo de regresión.
•  R2 puede ser pesado de calcular en modelos de regresión general, pero en
11
el modelo lineal simple, la expresión es de lo más sencilla: R2 = r2
Bondad de un ajuste R2
Sin embargo, usar R2 no es suficiente. Por ejemplo, las curvas ajustadas
que se muestran en la gráficas abajo podrían tener un valor R2 alto, pero
aparentemente los modelos están equivocados.

Por lo tanto, es
necesario diagnosticar
el resultado de la
regresión mediante el
análisis residual.

12
Ejemplo 1: Regresión lineal simple
¿La distancia que se requiere para frenar un auto depende de su
velocidad?

H0: β1 = 0
Ha: β1 > 0
Ejemplo 1: Regresión lineal simple
plot(cars$dist ~ cars$speed, xlab = "Velocidad", ylab =
"Distancia de frenado")
abline(lm.cars, col="red")

Y = 3.93X – 17.58
Ejemplo 1: Regresión lineal simple
data(cars) # leer datos
lm.cars <- lm(dist ~ speed, data = cars) # crear modelo
summary(lm.cars) # obtener resultados del modelo
Call: lm(formula = dist ~ speed, data = cars)
Residuals:
Min 1Q Median 3Q Max
La probabilidad de
-29.069 -9.525 -2.272 9.215 43.201 que el coeficiente
Coefficients: estimado de speed
Estimate Std. Error t value Pr(>|t|) esté dentro de una
distribución de
(Intercept) -17.5791 6.7584 -2.601 0.0123 * coeficientes
speed 3.9324 0.4155 9.464 1.49e-12 *** obtenidos aleatoria-
--- mente pero que en
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 realidad no son
distintos de cero.
Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438 Por tanto, se
F-statistic: 89.57 on 1 and 48 DF, p-value: 1.490e-12 rechaza H0
Ejemplo 1: Regresión lineal simple
data(cars) # leer datos
lm.cars <- lm(dist ~ speed, data = cars) # crear modelo
summary(lm.cars) # obtener resultados del modelo
Call: lm(formula = dist ~ speed, data = cars)
Residuals:
Min 1Q Median 3Q Max
-29.069 -9.525 -2.272 9.215 43.201
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
--- El porcentaje de
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 variabilidad
explicado por el
Residual standard error: 15.38 on 48 degrees of freedom modelo de
Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438 regresión. En este
F-statistic: 89.57 on 1 and 48 DF, p-value: 1.490e-12 caso es 64.38%
Ejemplo 1: Regresión lineal simple
Calcular Y para valores concretos de X
Y = 3.93X – 17.58
•  ¿Cuál distancia se requiere para frenar un automóvil que va a 20
millas / hora?
3.93 * 20 – 17.58
[1] 61.02

•  ¿Cuál distancia se requiere para frenar el automóvil que va a 50
millas / hora?
3.93 * 50 – 17.58
[1] 178.92
Ojo! Cuidado con la suposición que la relación es lineal mas allá de los
valores de X medidos. No se debe extrapolar el modelo mucho mas allá
del rango de X medido (Velocidad entre 0 y 30 en este ejemplo).
Cálculo de la ecuación de regresión lineal
(de Y sobre X)

El criterio de mínimos cuadrados


Ŷ nos proporciona un valor de β0 y
uno de β1, tal que
n 2
⌃'
∑ (Y − Y )
Y

i i sea mínimo
i =1

MÉTODO DE LOS MÍNIMOS CUADRADOS


X
Estimación del modelo
•  En el modelo de regresión lineal simple, dado dos variables
–  Y (dependiente)
–  X (independiente, explicativa, predictora)

•  Buscamos encontrar una función de X muy simple (lineal) que


nos permita aproximar Y mediante
Ŷ = β0 + β1X
•  β0 (ordenada en el origen, constante)
•  β1 (pendiente de la recta)

•  Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de


regresión. A la cantidad
e = Yi - Ŷ se le denomina residuo o error residual 19
Evaluación de
las supocisiones
del modelo
Suposiciones de modelos lineales
1.  Independencia: los sujetos muestrales y, por tanto, los residuos del
modelo, son independientes entre sí.

2.  Linealidad: la respuesta de Y frente a X es lineal.

3.  Normalidad: los residuos del modelo son normales.

4.  Homocedasticidad: las varianzas residuales tienen que ser iguales o


constantes.

Si no se cumplen estas suposiciones, se puede:


•  Efectuar transformaciones adecuadas (ln(X), √X, 1/X, etc.)
•  Usar un test no paramétrico (i.e., correlación de Spearman para dos
variables continuas)
•  Usar algún otro tipo de modelo (i.e., modelos lineales generalizados GLM,
modelos no lineales, modelos aditivos generalizados GAM) 21
Evaluación de las suposiciones del modelo:
Exploración grafica de los residuos

Hay que comprobar


las suposiciones de
normalidad y
homocedasticidad
(= homogeneidad Datos
ligeramente
de varianzas) heterocedásticos Datos desvían ligera-
mente de la diagonal
par(mfcol=c(2, 2))
plot(lm.cars)

22
Evaluación de las suposiciones del modelo:
test de Shapiro-Wilk y test de Levene
Comprobar que los datos de Comprobar que los datos de ANOVA
regresión o ANOVA son normales: son homocedásticos: test de Levene
test de Shapiro-Wilk
Si p < 0.05, se rechaza la hipótesis nula
Si p < 0.05, se rechaza la hipótesis que los datos son homocedásticos.
nula que los datos son normales. install.packages("car", dep=T)
library(car)
shapiro.test(residuals(lm.cars)) leveneTest(dist ~ speed.cat,
data=cars)
Shapiro-Wilk normality test
data: residuals(lm.cars) Levene’s Test for Homogeneity of Variance
W = 0.9451, p-value = 0.02153 (center = median)
Df F value Pr(>F)
group 2 3.202 0.0497 *
47
¿Conclusión? ¿Conclusión? 23

Otros modelos de regresión
•  Se pueden considerar otros ¿recta o parábola?
tipos de modelos, en función
del aspecto que presente el
diagrama de dispersión (i.e.,
regresión no lineal)

•  Se puede considerar el que 140 150 160 170 180 190 200
una variable dependa de varias
(regresión múltiple). ¿recta o cúbica?

140 150 160 170 180 190 200


24
Regresión versus Correlación
Regresión
•  Un análisis estadístico que estudia la relación funcional entre una(s)
variable(s) independiente(s) y una variable dependiente, con el
objetivo de predecir la dependiente en función de la(s)
independiente(s)
•  Implica causa y efecto
Correlación
•  Un análisis estadístico que mide la intensidad de la relación entre dos
variables
•  No implica causa y efecto

•  Se mide la intensidad de esta relación con el coeficiente de


correlación, r 25
Correlación versus Causalidad

26
Correlación: formas de relación lineal

330 100

280 Incorrelación 90 Fuerte relación


80 directa.
230
70
180
60
130
50
80 40
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80
70 Cierta relación
60 inversa
50
40
30
20
10
27
0
140 150 160 170 180 190 200
Medida de correlación

•  La covarianza entre dos variables, Sxy, nos indica si la


posible relación entre dos variables es directa o inversa.
o  Directa: Sxy > 0
1
o  Inversa: Sxy < 0 S xy = ∑ ( xi − x )( yi − y )
n i
o  Incorreladas: Sxy = 0

•  El signo de la covarianza indica si el aspecto de la nube de


puntos es creciente o no, pero no nos dice nada sobre el
grado de relación entre las variables.

28
Coeficiente de correlación de Pearson (r)

•  La coeficiente de correlación lineal de Pearson


de dos variables, r, indica si los puntos tienen
una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).

•  r tiene el mismo signo que Sxy por tanto de su S xy


signo obtenemos el que la posible relación sea r=
directa o inversa. SxS y
•  r es útil para determinar si hay relación lineal
entre dos variables, pero no servirá para otros
tipos de relaciones (cuadrática, logarítmica, etc.)
29
Propiedades de r
•  Es adimensional
•  Sólo toma valores en [-1, 1]
•  Si las variables son incorreladas ó r = 0
•  Relación lineal perfecta entre dos variables ó r = +1 o r = -1
o  Excluimos los casos de puntos alineados horizontal o verticalmente
•  Cuanto más cerca esté r de +1 o -1, mejor será el grado de
relación lineal.
o  Siempre que no existan observaciones anómalas.
Relación Relación
inversa directa casi
Variables
perfecta perfecta
incorreladas

-1 0 +1 30
Evolución de r y diagrama de dispersión

31
Correlación: ejemplo
Los siguientes datos corresponden a longitud de las alas de 13 gorriones
de diferente edades. Graficar, estimar y probar la significación de la
correlación.

32
Diagrama de dispersión y prueba de correlación
age <- c(3,4,5,6,8,9,10,11,12,14,15,16,17)
wing <- c(1.4,1.5,2.2,2.4,3.1,3.2,3.2,3.9,4.1,4.7,4.5,5.2,5)
plot(age, wing, pch=19, cex=1.5, cex.lab=1.5, cex.axis=1.5,
xlab="Edad (días)", ylab="Longitud (cm)")

cor.test(age, wing)
5


Pearson's product-moment correlation
data: age and wing
4
Longitud (cm)

t = 20.0272, df = 11, p-value = 5.267e-10


alternative hypothesis:
3

“true correlation is not equal to 0”


95 percent confidence interval:
[0.9543390 - 0.9960913]
2

sample estimates:
cor
4 6 8 10 12 14 16
Edad (días)
0.986563 33
Otros coeficientes de correlación

•  Cuando las variables son ordinales, en vez de ser numéricas, es


posible que haya algún tipo de correlación entre ellas.

•  Disponemos de dos estadísticos para estos casos, que


pertenecen a la clase de análisis no paramétricos

•  Los usaremos en otra clase:

ρ (‘ro’) de Spearman

τ (‘tau’) de Kendall

cor.test(x, y, method=c("spearman", "kendall")

34
Comprobar colinealidad
Cuando tienes muchas variables que podrían
ser correlacionadas:
# Valores de r
cor(agua[, 3:8], method="pearson")

# Matriz de diagramas de dispersion
# (colocar histogramas en el diagonal)

panel.hist <- function(x, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = "cyan", ...)
35
}
Comprobar colinealidad


# Matriz de diagramas de
dispersion
pairs(agua[, 3:8],
lower.panel=panel.smooth,
upper.panel=panel.cor,
diag.panel=panel.hist)

# ρ (‘ro’) de Spearman
cor(agua[, 3:8],
method="spearman")

36
Ejemplo 2 (trabajo independiente)
Se observaron dos variables en una muestra de países desarrollados: X = consumo anual
de vino (litros/habitante), Y = número de muertes por enfermedad cardíaca por cada
100.000 habitantes.









a)  Hipótesis: ¿Qué podemos esperar sobre la relación entre las dos variables?
b)  Exploración de los datos. ¿Hay patron?
c)  Desarrolle el modelo lineal. ¿Podemos predecir el valor de Y conociendo el valor de X?
d)  Compruebe las suposiciones del modelo. 37