Práctica 5

Las islas Galápagos (también conocida como islas de los Galápagos y oficialmente archipiélago de Colón o archipiélago
de Galápagos) constituyen un archipiélago del océano Pacífico ubicado a 1000 km de la costa de Ecuador. Está conformado
por trece islas grandes con una superficie mayor a 10 km², seis islas medianas con una superficie de 1 km² a 10 km² y otros
215 islotes de tamaño pequeño, además de promontorios rocosos de pocos metros cuadrados, distribuidos alrededor de
la línea del ecuador terrestre, que conjuntamente con el Archipiélago Malayo, son los únicos archipiélagos del planeta que
tienen tierras tanto en el hemisferio norte como en el hemisferio sur.
Se analizaron varias especies de tortugas en las Islas Galápagos. Las siguientes variables fueron medidas:
 Species: Número de especímenes de esa especie encontradas en la isla
 Endemics El número de especies endémicas
 Elevation: La altitud más alta de la isla (metros)
 Nearest: La distancia de la isla más cercana (km)
 Scruz: La distancia a la isla de Santa Cruz (km)
 Adjacent: El área de la isla (km2)
El objetivo del estudio es ver el comportamiento cómo el número de especímenes de las tortugas es afectado por las
demás variables en estudio.
1. Establece la variable dependiente y las variables independientes:

Y: Species
X1: Endemics
X2: Elevation
𝑿𝟑 : Nearest
𝑿𝟒 : Scruz
𝑿𝟓 : Adjacent
2. Realiza la matriz de dispersión e interpreta los gráficos de dispersión adecuados

Gráfica Interpretación
0 40 80 0 1000 0 100 250
 Gráfica Species vs Endemics;
se observa una relación línea
200 400
Species
positiva entre Species y
0
Endemics
40 80
Endemics
0
 Gráfica Species vs Elevation:

0 2000
Area
se observa una relación línea
positiva entre Species y
1000
Elevation
Elevation
0
20 40
Nearest
0
0 100 250
Scruz
0 2000
Adjacent
0 200 400 0 2000 0 20 40 0 2000

3. Verifica los supuestos de normalidad y homocedasticidad por medio de pruebas de hipótesis. Verifica las pruebas
de hipótesis a una confianza del 99%. El supuesto de independencia verifícalo por medio del gráfico
correspondiente.
Hipótesis
H0: los residuales se distribuyen normal

Ha: los residuales no se distribuyen normal
Estadístico de prueba: 0.93
Valor p= 0.05
α= 0.01
Conclusión: No se rechaza Ho. Por lo tanto, si se

cumple el supuesto de normalidad, con una confianza del
99%
Hipótesis
H0: la varianza es constante

Ha: la varianza no es constante
Estadístico de prueba: 13.80
Valor p=0.02
α= 0.01
Conclusión: No se rechaza Ho. Por lo tanto, si se cumple el supuesto de

homocedasticidad, con una confianza del 99%.
Supuesto de independencia
Gráfica Conclusión
 si se cumple el supuesto de
4
independencia porque están alrededor

del cero de forma aleatoria,
2
r.estandarizados
0
-2
0 5 10 15 20 25 30
1:n
4. Aplica el método de selección hacia adelante para encontrar el mejor modelo. Escribe el modelo resultante en
cada paso. Da el modelo resultante ajustado
Modelo inicial 𝑌 = 𝛽0
Paso 1 𝑌 = 𝛽0 + 𝛽1 𝑋1
Paso 2
Paso 3
Paso 4
𝑀𝑜𝑑𝑒𝑙𝑜 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑛𝑡𝑒 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜: 𝒚̂ = 𝟐𝟏. 𝟎𝟓 + 𝟒. 𝟎𝟕𝑿𝟏
5. Aplica el método de eliminación hacia atrás para encontrar el mejor modelo. Escribe el modelo resultante en
cada paso. Da el modelo resultante ajustado
Modelo inicial 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽4 𝑋4 + 𝛽5 𝑋5
Paso 1 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽5 𝑋5
Paso 2 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽3 𝑋3 + 𝛽5 𝑋5
Paso 3 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽5 𝑋5
Paso 4 𝑌 = 𝛽0 + 𝛽1 𝑋1
6. Aplica el método de selección paso a paso para encontrar el mejor modelo. Escribe el modelo resultante en cada
paso. Da el modelo resultante ajustado
Modelo inicial 𝑌 = 𝛽0
Paso 1 𝑌 = 𝛽0 + 𝛽1 𝑋1
Paso 2
Paso 3
Paso 4
Utiliza el modelo de regresión obtenido por el método de selección paso a paso para contestar las siguientes
preguntas
7. Verifica si el modelo de regresión múltiple es significativo. Utiliza una confianza del 99%
Hipótesis
H0: El modelo de regresión no es significativo

Ha: El modelo lineal es significativo
Estadístico de prueba:459.8
Valor p= < 2x10-16
Conclusión : Se rechaza Ho, es decir, el modelo lineal es significativo

8. Realiza la prueba de hipótesis para los coeficientes de regresión individual. Utiliza una confianza del 98%
Intercepto Endemics
Hipótesis 𝑯𝒐: 𝜷𝟎 = 𝟎 𝑯𝒐: 𝜷𝟏 = 𝟎
𝑯𝒂: 𝜷𝟎 ≠ 𝟎 𝑯𝒂: 𝜷𝟏 ≠ 𝟎
Estadístico de
-2.96 21.44
prueba
Valor p
< 2x10-16
0.006
Conclusión Se rechaza Ho
Se rechaza Ho
9. ¿El modelo de regresión se reduce?

 No, ya que 𝜷𝟎 𝒚 𝜷𝟏 son diferentes de cero
10. ¿Cuánto porcentaje de los datos permite explicar el modelo de regresión obtenido?
Al 94.26 %
11. ¿Existen datos atípicos?

4
2
r.estandarizados
0
-2
0 100 200 300
Yest
 Hay 2 datos atípicos
12. ¿Existen datos influyentes?
 Si, hay 4 datos influyentes (Isabela, San Salvador, Santa Cruz, Santa María)
13. Conclusión global del análisis

 De todo lo estudiado lo único que está afectando y lo que nos ayuda a explicar el número de especímenes de
esa especie encontradas es el número de especies endémicas las cuales nos da la variable “Endemics”.
 Por cada especie endémica que haya, aumenta 4.07el número de especies endémicas.
 Existe una relación línea positiva entre el número de especímenes de esa especie encontradas es el número de
especies endémicas.
14. Script de R.
library(faraway)
####################################
# Lectura de datos
####################################
data(gala)
datos<-gala
datos
####################################################
# Realiza el diagrama de dispersion
#####################################################
plot(datos)
#############################################
# Recta de regresion
#############################################
regresion<-lm(Species~Endemics+Elevation+Nearest+Scruz+Adjacent, data=datos)
#######################################
# Analisis de residuales
######################################
#######################################
# Residuales
######################################
Yest<-fitted(regresion)
residuales<-residuals(regresion)
r.estandarizados<-rstudent(regresion)
info<-data.frame( Yest, residuales, r.estandarizados)

info
### Homocedasticidad
#Graficas
par(mfrow=c(2,1))
plot(Yest, residuales)
plot(Yest, r.estandarizados)
abline(h=c(-3,3), col="red")
#Test de Breusch-Pagan
library(lmtest)
bptest(regresion)
### Independencia
#Grafica
n=30
plot(1:n,r.estandarizados, type="l")
abline(h=0, col="red")
#Test de Durbin Watson

dwtest(regresion, alternative ="two.sided")
### Normalidad
#Graficas
par(mfrow=c(1,2))
hist(residuales)
qqnorm(residuales)
qqline(residuales)
#Test de Shapiro-Wilk
shapiro.test(residuales)
##################################################################
##################################################################
# Metodos de seleccion
##################################################################
##################################################################
library("MASS")
#Modelo completo
mod.c<- lm(Species~Endemics+Elevation+Nearest+Scruz+Adjacent, data=datos)
#Modelo Sin variables explicativas

mod.sv <- lm(Species~1, data=datos)
#Seleccion hacia adelante

stepAIC(mod.sv,direction="forward",scope=list(upper=mod.c,lower=mod.sv))
#Eliminacion hacia atras

stepAIC(mod.c, direction = "backward")
#Paso a paso
stepAIC(mod.sv,direction="both",scope=list(upper=mod.c,lower=mod.sv))
###################################################
# Recta de regresion con variables seleccionadas
# por algun metodo de seleccion
################################################
regresion<-lm(Species~Endemics, data=datos)
summary(regresion)
##########################################
# Tabla ANOVA
########################################
calculos<-aov(regresion)
calculos
anova(calculos)
#####################################
# Datos atipicos
#####################################
Yest<-fitted(regresion)
r.estandarizados<-rstudent(regresion)
plot(Yest, r.estandarizados)
abline(h=c(-3,3), col="red")
#####################################
# Datos influyentes
#####################################
influence.measures(regresion)

Práctica 5

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Práctica 5

Cargado por

Copyright:

Formatos disponibles

Las islas Galápagos (también conocida como islas de los Galápagos y oficialmente archipiélago de Colón o archipiélago

1. Establece la variable dependiente y las variables independientes:

2. Realiza la matriz de dispersión e interpreta los gráficos de dispersión adecuados

 Gráfica Species vs Elevation:

0 200 400 0 2000 0 20 40 0 2000

H0: los residuales se distribuyen normal

Estadístico de prueba: 0.93

Conclusión: No se rechaza Ho. Por lo tanto, si se

H0: la varianza es constante

Estadístico de prueba: 13.80

Conclusión: No se rechaza Ho. Por lo tanto, si se cumple el supuesto de

independencia porque están alrededor

𝑀𝑜𝑑𝑒𝑙𝑜 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑛𝑡𝑒 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜: 𝒚̂ = 𝟐𝟏. 𝟎𝟓 + 𝟒. 𝟎𝟕𝑿𝟏

𝑀𝑜𝑑𝑒𝑙𝑜 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑛𝑡𝑒 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜: 𝒚̂ = 𝟐𝟏. 𝟎𝟓 + 𝟒. 𝟎𝟕𝑿𝟏

H0: El modelo de regresión no es significativo

Valor p= < 2x10-16

Conclusión : Se rechaza Ho, es decir, el modelo lineal es significativo

9. ¿El modelo de regresión se reduce?

11. ¿Existen datos atípicos?

0 100 200 300

 Hay 2 datos atípicos

12. ¿Existen datos influyentes?

13. Conclusión global del análisis

info<-data.frame( Yest, residuales, r.estandarizados)

#Test de Durbin Watson

#Modelo Sin variables explicativas

#Seleccion hacia adelante

#Eliminacion hacia atras

También podría gustarte