Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Simple
y Correlación
Daniel Griffith
Bioestadística
1
Recomendaciones antes de hacer
un análisis estadístico
1. Comprender el problema de fondo y su contexto.
2. Comprender bien el objetivo u objetivos del estudio.
• Cuidado con los análisis no dirigidos. Si buscas lo suficiente siempre encontrarás algún
tipo de relación entre las variables, pero puede que esta relación no sea más que una
coincidencia.
Por todo ello, es importante revisar bien los datos y llevar a cabo algún análisis
preliminar para detectar anomalías en los mismos. 2
Pasos para
seguir para
ajustar un
modelo lineal
¿Qué es un análisis de regresión?
El análisis que se usa para explicar o modelar la relación entre una
variable continua Y, llamada variable respuesta o variable dependiente,
y una o más variables continuas X1, X2, . . . Xk, llamadas variables
explicativas o independientes.
Cuando k = 1, se denomina regresión simple:
Y = β0 + β1X + ε
Cuando k > 1, se denomina regresión múltiple:
ε = error aleatorio 4
Importancia de la Regresión
70
Mide 187 cm
60
Pesa 50 kg
50
40 Mide 161 cm
30
140 150 160 170 180 190 200
Altura (cm) 7
Predicción de una variable en función de la otra
Aparentemente el peso aumenta 10 kg por cada 10 cm de altura. En otra
palabra, el peso aumenta en una unidad por cada unidad de altura.
Peso (kg)
10 kg
10 cm
Altura (cm) 8
Repaso de la ecuación de una recta
Y = β0 + β1 X
β0 = la intersección (ordenada) en el origen
(donde la recta corta el eje Y)
β1 β1 = la pendiente
Y
Peso (kg)
β0 , β1 = los parámetros del
modelo
ε = error aleatorio
Altura (cm)
Bondad de un ajuste R2
La bondad de un ajuste de un modelo de regresión se mide usando el
coeficiente de determinación, R2
• R2 es una cantidad adimensional que sólo puede tomar valores entre [0, 1]
• Cuando un ajuste es bueno R2 será cercano a uno
• Cuando un ajuste es malo R2 será cercano a cero
Por lo tanto, es
necesario diagnosticar
el resultado de la
regresión mediante el
análisis residual.
12
Ejemplo 1: Regresión lineal simple
¿La distancia que se requiere para frenar un auto depende de su
velocidad?
H0: β1 = 0
Ha: β1 > 0
Ejemplo 1: Regresión lineal simple
plot(cars$dist ~ cars$speed, xlab = "Velocidad", ylab =
"Distancia de frenado")
abline(lm.cars, col="red")
Y = 3.93X – 17.58
Ejemplo 1: Regresión lineal simple
data(cars) # leer datos
lm.cars <- lm(dist ~ speed, data = cars) # crear modelo
summary(lm.cars) # obtener resultados del modelo
Call: lm(formula = dist ~ speed, data = cars)
Residuals:
Min 1Q Median 3Q Max
La probabilidad de
-29.069 -9.525 -2.272 9.215 43.201 que el coeficiente
Coefficients: estimado de speed
Estimate Std. Error t value Pr(>|t|) esté dentro de una
distribución de
(Intercept) -17.5791 6.7584 -2.601 0.0123 * coeficientes
speed 3.9324 0.4155 9.464 1.49e-12 *** obtenidos aleatoria-
--- mente pero que en
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 realidad no son
distintos de cero.
Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438 Por tanto, se
F-statistic: 89.57 on 1 and 48 DF, p-value: 1.490e-12 rechaza H0
Ejemplo 1: Regresión lineal simple
data(cars) # leer datos
lm.cars <- lm(dist ~ speed, data = cars) # crear modelo
summary(lm.cars) # obtener resultados del modelo
Call: lm(formula = dist ~ speed, data = cars)
Residuals:
Min 1Q Median 3Q Max
-29.069 -9.525 -2.272 9.215 43.201
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
--- El porcentaje de
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 variabilidad
explicado por el
Residual standard error: 15.38 on 48 degrees of freedom modelo de
Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438 regresión. En este
F-statistic: 89.57 on 1 and 48 DF, p-value: 1.490e-12 caso es 64.38%
Ejemplo 1: Regresión lineal simple
Calcular Y para valores concretos de X
Y = 3.93X – 17.58
• ¿Cuál distancia se requiere para frenar un automóvil que va a 20
millas / hora?
3.93 * 20 – 17.58
[1] 61.02
• ¿Cuál distancia se requiere para frenar el automóvil que va a 50
millas / hora?
3.93 * 50 – 17.58
[1] 178.92
Ojo! Cuidado con la suposición que la relación es lineal mas allá de los
valores de X medidos. No se debe extrapolar el modelo mucho mas allá
del rango de X medido (Velocidad entre 0 y 30 en este ejemplo).
Cálculo de la ecuación de regresión lineal
(de Y sobre X)
i i sea mínimo
i =1
22
Evaluación de las suposiciones del modelo:
test de Shapiro-Wilk y test de Levene
Comprobar que los datos de Comprobar que los datos de ANOVA
regresión o ANOVA son normales: son homocedásticos: test de Levene
test de Shapiro-Wilk
Si p < 0.05, se rechaza la hipótesis nula
Si p < 0.05, se rechaza la hipótesis que los datos son homocedásticos.
nula que los datos son normales. install.packages("car", dep=T)
library(car)
shapiro.test(residuals(lm.cars)) leveneTest(dist ~ speed.cat,
data=cars)
Shapiro-Wilk normality test
data: residuals(lm.cars) Levene’s Test for Homogeneity of Variance
W = 0.9451, p-value = 0.02153 (center = median)
Df F value Pr(>F)
group 2 3.202 0.0497 *
47
¿Conclusión? ¿Conclusión? 23
Otros modelos de regresión
• Se pueden considerar otros ¿recta o parábola?
tipos de modelos, en función
del aspecto que presente el
diagrama de dispersión (i.e.,
regresión no lineal)
• Se puede considerar el que 140 150 160 170 180 190 200
una variable dependa de varias
(regresión múltiple). ¿recta o cúbica?
26
Correlación: formas de relación lineal
330 100
80
70 Cierta relación
60 inversa
50
40
30
20
10
27
0
140 150 160 170 180 190 200
Medida de correlación
28
Coeficiente de correlación de Pearson (r)
-1 0 +1 30
Evolución de r y diagrama de dispersión
31
Correlación: ejemplo
Los siguientes datos corresponden a longitud de las alas de 13 gorriones
de diferente edades. Graficar, estimar y probar la significación de la
correlación.
32
Diagrama de dispersión y prueba de correlación
age <- c(3,4,5,6,8,9,10,11,12,14,15,16,17)
wing <- c(1.4,1.5,2.2,2.4,3.1,3.2,3.2,3.9,4.1,4.7,4.5,5.2,5)
plot(age, wing, pch=19, cex=1.5, cex.lab=1.5, cex.axis=1.5,
xlab="Edad (días)", ylab="Longitud (cm)")
cor.test(age, wing)
5
Pearson's product-moment correlation
data: age and wing
4
Longitud (cm)
sample estimates:
cor
4 6 8 10 12 14 16
Edad (días)
0.986563 33
Otros coeficientes de correlación
ρ (‘ro’) de Spearman
τ (‘tau’) de Kendall
34
Comprobar colinealidad
Cuando tienes muchas variables que podrían
ser correlacionadas:
# Valores de r
cor(agua[, 3:8], method="pearson")
# Matriz de diagramas de dispersion
# (colocar histogramas en el diagonal)
panel.hist <- function(x, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = "cyan", ...)
35
}
Comprobar colinealidad
# Matriz de diagramas de
dispersion
pairs(agua[, 3:8],
lower.panel=panel.smooth,
upper.panel=panel.cor,
diag.panel=panel.hist)
# ρ (‘ro’) de Spearman
cor(agua[, 3:8],
method="spearman")
36
Ejemplo 2 (trabajo independiente)
Se observaron dos variables en una muestra de países desarrollados: X = consumo anual
de vino (litros/habitante), Y = número de muertes por enfermedad cardíaca por cada
100.000 habitantes.
a) Hipótesis: ¿Qué podemos esperar sobre la relación entre las dos variables?
b) Exploración de los datos. ¿Hay patron?
c) Desarrolle el modelo lineal. ¿Podemos predecir el valor de Y conociendo el valor de X?
d) Compruebe las suposiciones del modelo. 37