Está en la página 1de 5

Tarea 2: UTILIZACIÓN DEL

PROGRAMA “R”
LEA CUIDADOSAMENTE LAS INSTRUCCIONES. EN CASO DE NO
SEGUIR LAS PAUTAS E INSTRUCCIONES EN LA ELABORACIÓN DE
LAS TAREAS, LAS MISMA NO SERÁN REVISADAS POR EL
PROFESOR Y LA CALIFICACIÓN SERÁ CERO (0)

Pauta (1):

La tarea se entregará en dos partes, el docente publicará dos


tareas en el SGA: la 1ra tarea se refiere al análisis descriptivo de
los datos y la 2da tarea se refiere a la regresión lineal múltiple.
Pauta (2):

Cada tarea debe entregarse en un archivo WORD, en el archivo


respectivo de cada tarea deben estar: a) todas las instrucciones
utilizadas en el programa “R”, b) los resultados numéricos
obtenidos, c) los gráficos asociados a los resultados [en los casos
que sea adecuado realizar un gráfico para complementar el
análisis numérico].
NO se aceptarán tareas entregadas en otros formatos digitales,
ya que en la clase el docente ha explicado claramente cómo
organizar la información en el tema de Regresión Lineal Múltiple.
Pauta (3):

Cada miembro del equipo de trabajo debe conocer y dominar el


100% de los resultados obtenidos en la tarea, ya que luego de la
entrega el profesor podrá hacer preguntas de manera aleatoria a
cualquier estudiante.
Pauta (4):
El grupo debe respetar el orden de los apartados dentro de cada
parte de la tarea.

2da PARTE DE LA TAREA:


REGRESIÓN LINEAL MÚLTIPLE

CON LOS DATOS “BOSTON” ENCONTRAR EL MEJOR MODELO DE


REGRESIÓN LINEAL MÚLTIPLE, TOMANDO LA VARIABLE “MEDV” como
variable de respuesta Y (variable dependiente).
Para leer los datos en “R” utilice las siguientes funciones:
# primero se deben instalar los paquetes “MASS” e “ISLR”
library(MASS)
library(ISLR)

 La variable MEDV significa “el valor de la


vivienda” [la mediana de los valores]
data("Boston")
str(Boston)
'data.frame': 506 obs. of 14 variables:
$ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
$ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
$ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
$ chas : int 0 0 0 0 0 0 0 0 0 0 ...
$ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
$ rm : num 6.58 6.42 7.18 7 7.15 ...
$ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
$ dis : num 4.09 4.97 4.97 6.06 6.06 ...
$ rad : int 1 2 2 3 3 3 5 5 5 5 ...
$ tax : num 296 242 242 222 222 222 311 311 311 311 ...
$ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
$ black : num 397 397 393 395 397 ...
$ lstat : num 4.98 9.14 4.03 2.94 5.33 ...
$ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

a)REALICE EL ANÁLISIS DESCRIPTIVO CORCENIENTE A LA REGRESIÓN


LINEAL, ESTO ES: CALCULAR TODAS LA CORRELACIONES Y HACER
LOS DIAGRAMAS DE DISPERSIÓN DE LA VARIABLE “Y”
COMPARADO CON CADA UNA DE LAS VARIABLES “Xs”.
b)APLIQUE LOS MÉTODOS “FORWARD”, “BACKWARD” Y “STEP” Y
COMPARE LOS RESULTADOS PARA EL MEJOR SUBCONJUNTO DE
MODELOS DE REGRESIÓN SEGÚN LA CANTIDAD DE VARIABLES.
 Utilice los criterios de “R2 cuadrado ajustado”, “Suma de
Residuales Cuadráticos” y “AIC” para comparar los posibles
modelos de regresión y proceder a seleccionar el mejor modelo.

Método de creación de Criterio de comparación


ecuaciones de regresión y selección

Forward $adjr2 $rss

Backward $adjr2 $rss

STEP AIC

Objetivo del apartado (): Encontrar el mejor modelo de regresión para


explicar el costo “mediana” de la vivienda (medv) en función
del resto de datos ¿determinar cuáles son las variables
que entran a la ecuación de regresión lineal múltiple?

IMPORTANTE:
Se debe escribir la ecuación de regresión lineal múltiple con los
coeficientes correspondientes, según las variables seleccionadas para
cada método y cada criterio específico.
Recuerde que se debe escribir las funciones utilizadas en el programa “R”
con los respectivos resultados, entonces para cada método y criterio
utilizado se deben mostrar las instrucciones usadas con los resultados
obtenidos en la consola de “R”

c)ELABORAR EL DIAGRAMA DE RESIDUALES DEL APORTE DE CADA


VARIABLE INCLUIDA EN CADA UNA DE LAS ECUACIONES DE
REGRESIÓN EN EL APARTADO (b)

d)ELABORAR EL DIAGRAMA QQPLOT PARA CADA ECUACIÓN DE


REGRESIÓN SELECCIONADA EN EL APARTADO (b)
e)INVESTIGAR Y APLICAR UN CRITERIO ADICIONAL DE ANÁLISIS
[VALIDACIÓN] DEL MODELO DE REGRESIÓN LINEAL USANDO LOS
VALORES RESIDUALES. ES COMÚN EN LA ESTADÍSTICA ENCONTRAR
ALGÚN “TEST” O “ESTADÍSTICO” QUE SE UTILICE PARA COMPRAR
LA CALIDAD DE LOS MODELOS DE REGRESIÓN LINEAL UTILIZANDO
LOS RESIDUALES.
El “test” o “estadístico” seleccionado debe ser aplicado a cada una
de las ecuaciones de regresión seleccionadas en el apartado (b) y
luego usando dicho valor comparan los cincos modelos de regresión
lineal múltiple. Debe usar una redacción breve de los resultados
obtenidos según el “test” aplicado.

Ejemplo de un test:
https://rstudio-pubs-
static.s3.amazonaws.com/602205_bf9dbf67b6964831b8fd284309ee2b0a
.html#_3-_distribuci%C3%B3n_normal_de_los_residuos:_

# extracto de la información mostrada en el link

Test de Shapiro-Wilk Este test se emplea para contrastar normalidad cuando el tamaño de la
muestra es menor de 50. Para muestras grandes es equivalente al test de kolmogorov-Smirnov.

##
## Shapiro-Wilk normality test
##
## data: Modelo_1$residuals
## W = 0.95807, p-value = 0.3773
Referencias Bibliográficas

https://www.maximaformacion.es/blog-dat/seleccion-paso-a-paso-e-importancia-de-los-predictores/

http://www.estadistica-dma.ulpgc.es/masterSASA/

https://rstudio-pubs-static.s3.amazonaws.com/170338_9a955c5879a94a5da6d19657f45e1ddd.html

https://rpubs.com/alejo0574/regresionlinealmultiple

http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/ManualR/regresion.html

https://www.uv.es/pjperez/curso_R/tt_3_cargar_datos_v4.html

También podría gustarte