Regresion Lineal Multiple

Becerril Reyna Claudia Lizbeth
Ejercicio de regresión lineal múltiple
1.- La asociación de atletismo de Carolina está interesada en organizar el primer triatlón anual de
Tarheel. Para atraer atletas de alto nivel, la asociación desea ofrecer premios en efectivo a los
primeros lugares, estableciendo tiempos para los ganadores globales de la competencia de
hombres. Como el recorrido no se ha recorrido antes, la asociación ha escogido 10 carreras de
diferentes longitudes que considera comparables en clima y condiciones del recorrido. Como en
toda carrera de atletismo, el ganador se determina con respecto a quien tenga menor tiempo en
el recorrido.
Millas Hombres
______________________ ___________
Lugares Nado Ciclismo Carrera Tiempos/min

1 2.4 112 26.2 489
2 2 100 18.6 505
3 1.2 55.3 13.1 245
4 1.5 48 10 204
5 0.93 24.8 6.2 114
6 0.93 24.8 6.2 108
7 0.50 18 5 79
8 2.4 112 26.2 566
9 0.5 20 4 74
10 0.6 25 6.2 116
a) Hacer un análisis de la correlación entre las variables: Reportar correlaciones bajas medias
y altas entre: la variable dependiente con las variables independientes y entre las variables
independientes.
VARIABLES CORRELACION
Tiempo, lugar -0.4854 MEDIA
Tiempo, nado 0.9604 ALTA
Tiempo, ciclismo 0.9932 ALTA
Tiempo, carrera 0.9720 ALTA
Lugar, nado -0.5832 MEDIA
Lugar, ciclismo -0.5371 MEDIA
Lugar, carrera 0.4943 MEDIA
Nado, ciclismo 0.9728 ALTA
Nado, carrera 0.9652 ALTA
Ciclismo, carrera 0.9853 ALTA
b) Analizar gráficamente las correlaciones entre las variables.

2 4 6 8 20 60 100
300 500
Tiempo
100
2 4 6 8
Lugar
1.5
Nado
0.5
100
Ciclismo
60
20
25
15
Carrera
5
100 300 500 0.5 1.5 5 15 25
Tiempo-Lugar no hay tanta relación lineal según el gráfico y con la matriz de correlación -0.48
concuerdan los análisis.
Tiempo y nado si tienen una relación lineal.
Tiempo y ciclismo tienen una relación mucho más lineal, esto quiere decir, que probablemente
una de las variables tenga que salir del modelo.
c) Concluir con respecto a los dos análisis anteriores.
La variable lugar podría salir del modelo por tener baja correlación con tiempo.
Las demás variables están correlacionadas linealmente con el tiempo.
Hay problemas de multicolinealidad entre los variables nado, ciclismo y carrera. Al menos
alguna de estas debe salir del modelo.
d) Analizar si existen puntos atípicos.

500
400
300
200
100
0
Tiempo Lugar Nado Ciclismo Carrera
De acuerdo a la gráfica de cajas, aparentemente no se alcanza a observar ningún punto atípico.
Sin embargo, de acuerdo a la distancia de Cook si existen puntos atípicos, en los puntos 2 y 8 ya
que hay una distancia mayor a 1.
e) En caso de haber puntos atípicos e influyentes indicar si lo quitan o lo dejan, indicar porque
toma esa decisión.
Los puntos atípicos deben dejarse, ya que al tener una base de datos muy pequeña se estaría
reduciendo aún más la base de datos, por esto y entre otras situaciones estadísticas es
recomendable no quitar los puntos que aparecen como atípicos.
f) Realizar y dar un modelo que involucre a todas las variables que se cree aportan
información a la variable dependiente
Tiempo = -57.519 + 5.588(lugar) + 8.368(nado) + 6.666(ciclismo) – 7.723(carrera)
g) Reportar los estadísticos necesarios que nos ayuden para realizar una comparación con
modelos que se generarán posteriormente con estas mismas variables.
R2 = 0.9929
R2ajustada= 0.9872
SCE = 2427
h) Por medio de la función “step” determinar qué variables aportan información, para esto,
hacer uso de las funciones “forward”, “backward” y “both”. Reportar los resultados con la
mayor claridad posible.
El estadístico que nos ayuda en la selección de variables independientes es el criterio de

información (AIC).
En cada modelo aparece un valor del AIC y se escoge el modelo cuyo valor de AIC sea menor, en
este caso:
Para “forward” tenemos que: AIC=64.92
Tiempo ~ Lugar + Nado + Ciclismo + Carrera, siendo este el mejor modelo, notemos que incluye a
todas las variables.
Para “backward” notamos que el AIC es menor que en forward
AIC=62.98
Tiempo ~ Lugar + Ciclismo + Carrera, y el modelo se reduce a estas tres variables.
Para “both” tenemos que:
Coincidiendo con backward
AIC=62.98
Tiempo ~ Lugar + Ciclismo + Carrera, siendo entonces este el mejor modelo.
i) De los resultados del inciso anterior determinar cuál es el mejor modelo.
Tiempo ~ Lugar + Ciclismo + Carrera
Tiempo = -53.515 + 5.377(lugar) + 6.757(ciclismo) -7.467(carrera
j) Ahora es el momento de revisar si se cumplen con los supuestos sobre los errores.
Residuals vs Fitted Normal Q-Q
2
Standardized residuals
5 2 8
10
1
Residuals
0
-10
-1
1
-30
9 1
-2
100 200 300 400 500 -1.5 -0.5 0.5 1.5
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage

2
1
28
1.2
8 2
1
1
0.8
0.5
0
0.5
1
0.4
-1
Cook's distance
-2
0.0
100 200 300 400 500 0.0 0.2 0.4 0.6 0.8
Fitted values Leverage
Como podemos observar en los gráficos, en la gráfica de la distancia de cook no se cumplen

los supuestos de los errores, ya que hay distancias mayores a 1. Y en el caso de la gráfica
Residuals vs Fitted notamos que en el rango -30 hay puntos atípicos, por lo tanto de igual
manera no se cumplen los supuestos sobre los errores.
k) En caso de no cumplirse algún supuesto, realizar la trasformación para corregir la

deficiencia detectada.
Residuals vs Fitted Normal Q-Q

1.5
0.2
3 3
0.5
Residuals
0.0
-0.5
-0.2
-1.5
1
9 9
1
4.5 5.0 5.5 6.0 -1.5 -0.5 0.5 1.5
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage

1
1.2
9
1.0
3 8
1
0.5
0.8
0.0
0.5
1
0.4
-1.0
Cook's
9 distance
0.0
-2.0
4.5 5.0 5.5 6.0 0.0 0.2 0.4 0.6 0.8
Fitted values Leverage

Después de realizada la transformación notamos que en la gráfica de residuals vs Fitted
ahora si se cumplen los supuestos sobre los errores, ya que todos los puntos están
contendidos dentro del rango.
Sin embargo en la distancia de Cook nada cambio.
Datos<-read.table("Dtriatlon.txt",header=T)
Datos
attach(Datos)
cor(Datos,method="pearson")
Datos1<-
data.frame(Datos$Tiempos.min,Datos$Lugares,Datos$Nado,Datos$Ciclismo,Datos$Carrera)
Datos1
names(Datos1)=c("Tiempo","Lugar","Nado","Ciclismo","Carrera")
Datos1
cor(Datos1)
pairs(Datos1)
attach(Datos1)
boxplot(Datos1)
ML<-lm(Tiempo~Lugar+Nado+Ciclismo+Carrera)
ML
cook<-cooks.distance(ML)
cook
significativas<-cook>1
significativas
summary(ML)
anova(ML)
step(ML,direction="forward")
step(ML,direction="backward")
step(ML,direction="both")
MF<-lm(Tiempo~Lugar+Ciclismo+Carrera)
MF
par(mfrow=c(2,2))
plot(MF)
MF2<-lm(log(Tiempo)~Lugar+Ciclismo+Carrera)
MF2
par(mfrow=c(2,2))

Regresion Lineal Multiple

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal Multiple

Cargado por

Copyright:

Formatos disponibles

Becerril Reyna Claudia Lizbeth

Ejercicio de regresión lineal múltiple

Lugares Nado Ciclismo Carrera Tiempos/min

b) Analizar gráficamente las correlaciones entre las variables.

Tiempo y nado si tienen una relación lineal.

c) Concluir con respecto a los dos análisis anteriores.

Las demás variables están correlacionadas linealmente con el tiempo.

d) Analizar si existen puntos atípicos.

Tiempo Lugar Nado Ciclismo Carrera

De acuerdo a la gráfica de cajas, aparentemente no se alcanza a observar ningún punto atípico.

Tiempo = -57.519 + 5.588(lugar) + 8.368(nado) + 6.666(ciclismo) – 7.723(carrera)

El estadístico que nos ayuda en la selección de variables independientes es el criterio de

Para “forward” tenemos que: AIC=64.92

Para “backward” notamos que el AIC es menor que en forward

Tiempo ~ Lugar + Ciclismo + Carrera, y el modelo se reduce a estas tres variables.

Para “both” tenemos que:

Coincidiendo con backward

Tiempo ~ Lugar + Ciclismo + Carrera, siendo entonces este el mejor modelo.

i) De los resultados del inciso anterior determinar cuál es el mejor modelo.

Tiempo ~ Lugar + Ciclismo + Carrera

Tiempo = -53.515 + 5.377(lugar) + 6.757(ciclismo) -7.467(carrera

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

Fitted values Leverage

Como podemos observar en los gráficos, en la gráfica de la distancia de cook no se cumplen

k) En caso de no cumplirse algún supuesto, realizar la trasformación para corregir la

Residuals vs Fitted Normal Q-Q

4.5 5.0 5.5 6.0 -1.5 -0.5 0.5 1.5

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

4.5 5.0 5.5 6.0 0.0 0.2 0.4 0.6 0.8

Fitted values Leverage

También podría gustarte