Está en la página 1de 40

Estadística Multivariada

Regresión Lineal
Profesor : Manuel Ricardo Contento Rubio
manuel.contento@utadeo.edu.co
Oficina: modulo 6 / 501
Ambientación
Introducción- Ejemplo 1
Se desea estudiar la relación entre la nota final de calculo en el
primer semestre basándose en la calificación que el estudiante
obtiene en una prueba de aprovechamiento realizada antes de
que ingrese a la universidad. Se dispone de información acerca
de estas dos variables en una muestra de 10 estudiantes.

diagrama de dispersion de nota calculo vs aprovechamiento


Estudiante Calificación en la prueba Calificación final en
de aprovechamiento calculo (y) 102
(x)
1 39 65 92
2 43 78
3 21 52 nota calculo 82
4 64 82
5 57 92
72
6 47 89
7 28 73
8 75 98 62
9 34 56
10 52 75 52
21 31 41 51 61 71 81
aprovechamiento
Introducción- Ejemplo 2.
 Los datos que se presentan corresponden a la tasa de mortalidad para menores de 5
años (casos/10000) y al porcentaje de inmunizados contra DPT (Difteria,
Bordetella Pertussis -tos ferina- y Tétanos) en 20 países.
País Porcentaje de inmunización Tasa Mortalidad
Bolivia 40 165
Brasil 54 85
Canadá 85 9
China 95 43
Egipto 81 94
Etiopia 26 226
Finlandia 90 7
Francia 95 9
Grecia 83 12
India 83 145
Italia 85 11
Japón 83 6
México 65 51
Polonia 98 18
Senegal 47 189
Turquía 74 90
Reino Unido 75 10
Estados Unidos 97 12
Rusia 79 33
Yugoslavia 91 27
Diagrama de dispersión
x <- c(40,54,85,95,81,26,90,95,83,83,85,83,65,98,47,74,75,97,79,91)
y <- c(165,85,9,43,94,226,7,9,12,145,11,6,51,18,189,90,10,12,33,27)

#Diagrama de Dispersión. Mortalidad = f(Inmunización)


label_x <- "Inmunización (%)" #Título del eje x
label_y <- "Tasa de Mortalidad (casos/10000)" #Título del eje y
plot(x,y,main="Diagrama de Dispersión",xlim=c(0,100),ylim=c(0,300),xlab=label_x,ylab=label_y)
Diagrama de dispersión
Diagrama de dispersión
Especificación del modelo
y

yi

yˆ i
ei

xi x
Objetivo-Modelo
Objetivo: estudiar la relación que se presenta entre dos
variables, una llamada dependiente o respuesta (y) y otra
explicativa (x), en un conjunto de n observaciones.

yi     xi  ei i  1, 2, , n.
 : intercepto con el eje Y
 : pendiente
Supuestos
Se hacen sobre el error aleatorio y son:
 E(ei) = 0
 V(ei) = 2
 Cov(ei , ej ) = 0  i  j
 e  N( 0 ; 2 )
Violación de supuestos
y

x
Violación de supuestos
y y

x x

x
Violación de supuestos
y

x
Violación de supuestos
y

x
Estimación por mínimos cuadrados
Los estimadores de  y  son tal que minimicen las
diferencias que se presentan, en conjunto, entre el
valor observado (yi) y el valor estimado (ŷi).
Problema: Hallar  y  tal que sea mínima la SCE.

n n
SSE   ei2   ( yi  yˆi )2
i 1 i 1
Estimadores de  ,  y 2
 n  n 
n   xi    yi 
 i 1   i 1 
 x y
i i 
n S xy
ˆ  b  i 1
2

 n
 S xx
n  i  x
 i 1 

i 1
xi
2

n

n n

y i x i
ˆ  a  i 1
b i 1
 y  bx
n n
2
 n

SSE S yy  bS xy n  i  y
ˆ  s   S yy   yi2   i 1 
2 2

n2 n2 i 1 n
Estimación coeficientes con R
> #Modelo de regresión lineal simple
> regresion <- lm(y ~ x)
> summary(regresion)
Call:
lm(formula = y ~ x)

Residuals:
Min 1Q Median 3Q Max
-55.782 -29.124 -0.025 21.396 101.877

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 278.2139 35.5082 7.835 3.29e-07 ***
x -2.8324 0.4508 -6.283 6.34e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 39.44 on 18 degrees of freedom


Multiple R-squared: 0.6868, Adjusted R-squared: 0.6694
F-statistic: 39.48 on 1 and 18 DF, p-value: 6.343e-06
Estimaciones
Ecuación de regresión: ŷ = 278.2139 – 2.8324 x
s = 39.44 error estándar de los residuales (IC-PH)
abline(regresion, col=2)
Interpretación de los coeficientes

b = -2.8324

Se estima que la tasa de mortalidad se reduce en


promedio 2.8324 (casos/10000) por cada incremento
de un punto en el porcentaje de inmunización.

Como se interpretaría el valor de a?


Inferencia respecto a  .
Ho:  = 0 (no existe relación lineal entre x  y)
Ha:  < 0 (existe relación lineal inversa entre x  y)
Ha:  > 0 (existe relación lineal directa entre x  y)
Ha:   0 (existe relación lineal entre x  y)

𝑏
𝑡𝑐 = ~𝑇(𝑛 −2)
𝑒𝑒(𝑏)

𝑏 ± 𝑡𝛼/2 ; 𝑛−2 𝑒𝑒(𝑏)


Ejemplo
Ho:  = 0 vs Ha:  < 0 ( = 0.05)
𝑡𝑐 = −6.283 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 6.34𝑒 − 06
• Punto crítico: t 0.95 ; 18 = -1.734064.
> qt(0.95,18,lower.tail=F)
[1] -1.734064
• Decisión.
• Puesto que tc =-6.283 < -1.734064 se rechaza Ho.
• Puesto que valor-p=3.17*10- 6< 0.05 se rechaza Ho.
• Conclusión.
• Al nivel de significancia del 5%, hay evidencia para pensar que
existe una relación inversa que es estadísticamente significativa
entre la tasa de mortalidad y el porcentaje de inmunización.
I.C. del 95% para 
t 0.025 ; 18  2.100922 −2.8324 ± 2.100922 ∗ 0.4508
[ -3.779495638 ; -1.885304362]
Con confianza de 95% se estima que la real reducción
en la tasa de mortalidad por cada incremento de un
punto en el porcentaje de inmunizados se encuentra
entre 3.779495638 y 1.885304362.
> #IC para los parámetros
> confint(regresion,level = 0.95)
2.5 % 97.5 %
(Intercept) 203.614008 352.813802
inmunizacion_x -3.779499 -1.885347
Coeficiente de correlación y determinación
El coeficiente de correlación (r) mide el grado de
asociación lineal entre dos variables.
 -1  r  1.

El coeficiente de determinación (r²) indica el porcentaje


de variabilidad en y explicado por la relación lineal con x.
Ejemplo
> #Coeficiente de correlación
> cor(x,y)
[1] -0.8287595

r2 = (-0.8287595²)  0.6868.


El 68.68% de la variabilidad en la tasa de mortalidad
esta explicada por su relación lineal con el porcentaje
de inmunización.
ANOVA en Regresión
y

𝑦ො
𝑖 = 𝑎 + 𝑏𝑥𝑖
yi  yˆi
yi

yˆ i
yˆ i  y y

yi  y

xi x
Anova en regresión
n n n

 i
( y
i 1
 y ) 2
  i
( ˆ
y  y ) 2

i 1
 i i
( y  ˆ
y ) 2

i 1

SStotal = SSR + SSE

Fuente de Suma de Grados de Cuadrado Medio f calculada (fc) Valor P


variación cuadrados libertad
Regresión SSR 1 MSR = SSR / 1 MSR / MSE
Error SSE n-2 MSE = SSE / n -2
Total SStotal n-1
Anova para regresión en R
> #ANOVA asociado al modelo de regresion lineal
> anova(regresion)
Analysis of Variance Table

Response: mortalidad_y
Df Sum Sq Mean Sq F value Pr(>F)
inmunizacion_x 1 61423 61423 39.479 6.343e-06 ***
Residuals 18 28005 1556
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residuales
Residuales
Análisis de Residuales
#Residuales en función del valor ajustado. e=f(Y_est)
valores.ajustados <- fitted(regresion)
residuos <- rstandard(regresion)
plot(valores.ajustados, residuos)
abline(h=0)
Análisis de Residuales
#Valor ajustado en función del valor observado. Y_est=f(Y)
plot(y, valores.ajustados)
abline(0,1)
Análisis de Residuales
#Gráfico Cuantil-Cuantil para los residuales
qqnorm(residuos)
qqline(residuos)
Análisis de Residuales
#Histograma y función de densidad estimada para los residuales
par(mfrow=c(2,1))
hist(residuos)
plot(density(residuos))
dev.off()
Normalidad de Residuales
> #Pruebas de Normalidad para los residuales
> shapiro.test(residuos) #Prueba de Shapiro-Wilks
Shapiro-Wilk normality test
data: residuos
W = 0.94508, p-value = 0.2985

> install.packages("nortest") #Prueba de Anderson-Darling


> library(nortest)
> ad.test(residuos)$p.value
[1] 0.4955687
> cvm.test(residuos)$p.value #Prueba de Cramer-von Mises
[1] 0.6360294
> lillie.test(residuos)$p.value #Prueba de Kolmogorov-Smirnov
[1] 0.6634557
> pearson.test(residuos)$p.value #Prueba de Pearson
[1] 0.909796
> sf.test(residuos)$p.value #prueba de Shapiro-Francia
[1] 0.2259072
Homogeneidad de varianza de residuales
> #Prueba de Homogeneidad de Varianzas
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
26.00 71.75 83.00 76.30 90.25 98.00
> plot(x,y,main="Diagrama de Dispersión(Homogeneidad Varianzas)",xlim=c(0,100),ylim=c(0,300),
xlab=label_x, ylab=label_y)
> abline(regresion);abline(v=83, col=3)
Homogeneidad de varianza de residuales
> var.test(residuals(regresion)[x > 83],residuals(regresion)[x < 83])
F test to compare two variances
data: residuals(regresion)[x > 83] and residuals(regresion)[x < 83]
F = 0.32178, num df = 7, denom df = 8, p-value = 0.1529
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.07105514 1.57649809
sample estimates:
ratio of variances
0.3217776

> var.test(residuals(regresion)[x < 83],residuals(regresion)[x > 83])


F test to compare two variances
data: residuals(regresion)[x < 83] and residuals(regresion)[x > 83]
F = 3.1077, num df = 8, denom df = 7, p-value = 0.1529
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6343173 14.0735778
sample estimates:
ratio of variances
3.107736
Script
#Datos
x <- c(40,54,85,95,81,26,90,95,83,83,85,83,65,98,47,74,75,97,79,91)
y <- c(165,85,9,43,94,226,7,9,12,145,11,6,51,18,189,90,10,12,33,27)

#Diagrama de Dispersión. Mortalidad = f(Inmunización)


label_x <- "Inmunización (%)" #Título del eje x
label_y <- "Tasa de Mortalidad (casos/10000)" #Título del eje y
plot(x,y,main="Diagrama de Dispersión",xlim=c(0,100),ylim=c(0,300),xlab=label_x, ylab=label_y)

#Modelo de regresión lineal simple


regresion <- lm(y ~ x)
summary(regresion)
abline(regresion, col=2)
residuals(regresion) ##residuales

#Intervalos de confianza para los parámetros del modelo lineal simple


confint(regresion,level = 0.95)

#Coeficiente de correlación
cor(x,y)
Script
#ANOVA asociado al modelo de regresión lineal
anova(regresion)

#Diagrama de Dispersión de los residuales en función del valor ajustado. e=f(Y_est)


valores.ajustados <- fitted(regresion)
residuos <- rstandard(regresion)
plot(valores.ajustados, residuos)
abline(h=0)

#Diagrama de Dispersión del valor ajustado en función del valor observado. Y_est=f(Y)
plot(y, valores.ajustados)
abline(0,1)

#Gráfico Cuantil-Cuantil para los residuales


qqnorm(residuos)
qqline(residuos)

#Histograma y función de densidad estimada para los residuales


par(mfrow=c(2,1))
hist(residuos)
plot(density(residuos))
dev.off()
Script
#Pruebas de Normalidad para los residuales
shapiro.test(residuos) #Prueba de Shapiro-Wilks
install.packages("nortest") #Prueba de Anderson-Darling
library(nortest)
ad.test(residuos)$p.value
cvm.test(residuos)$p.value #Prueba de Cramer-von Mises
lillie.test(residuos)$p.value #Prueba de Kolmogorov-Smirnov
pearson.test(residuos)$p.value #Prueba de Pearson
sf.test(residuos)$p.value #Prueba de Shapiro-Francia

#Prueba de Homogeneidad de Varianzas


summary(x) #resumen para la variable x
plot(x,y,main="Diagrama de Dispersión(Homogeneidad Varianzas)",xlim=c(0,100),ylim=c(0,
300),xlab=label_x, ylab=label_y)
abline(regresion);abline(v=83, col=3)
var.test(residuals(regresion)[x > 83],residuals(regresion)[x < 83])
var.test(residuals(regresion)[x < 83],residuals(regresion)[x > 83])
Actividad
Examinar y ejecutar el script DataGalapagos.R que se
encuentra en AVATA.
 Que información contiene esta base de datos.
 Que aplicación tienen la función pairs(gala) de R.
 Describa el modelo que estudia la relación entre Species en función
de Area. (modelo1)
 Explique el modelo de regresión sin intercepto aplicado a las anteriores
variables. (modelo 2)
 Analice el IC para el intercepto del modelo 1.
 Se cumplen los supuestos en el modelo 1.
 Identifique si hay algún valor extremos que pueda afectar la relación de
las variables al considerar el modelo 1
 Analice el modelo 3. ¿Qué problema se pretende resolver en este caso?

También podría gustarte