Está en la página 1de 2

Andres G. Abad, Ph.D.

Decisiones Multicriterio

Deber: Regresion Lineal y Logstica

1. Conjunto de Datos: retail92.dat

El conjunto de datos contiene informacion sobre 845 locales de autoservicios en los Estados Unidos
de America. Las variables en cada columna son:
1 Nombre y ubicacion
2 Ventas per capita (en $1000s)
3 Establecimientos de autoservicios per capita
4 Ingresos per capita (en $1000s)
5 Gasto publico per capita (en $1000s)
6 Hombres por cada 100 mujeres

El objetivo del estudio es predecir las ventas de cada local. Para esto no se utilizara la variable
Nombre y ubicacion.
Especficamente, se requiere lo siguiente:

(a) Particionar los datos en 70% para entrenamiento del modelo y 30% para prueba. Hacerlo
aletoriamente, utilizando la funcion sample.
(b) Entrene un modelo de regresion lineal simple para cada una de las variables. Utilice los datos
de entrenamiento.
(c) Identifique el modelo con el mayor R2 . Utilice los datos de prueba.

ESPOL
(d) Determine el numero de modelos de regresion lineal multiple posibles.
(e) Utilice el metodo de seleccion hacia adelante para encontrar el mejor modelo de regresion
lineal simple. Entrene el modelo utilizando datos de entrenamiento y comparelos utilizando
datos de prueba. Como regla para parar, utilize un umbral para el valor-p de 0.75.
(f) Se esta considerando abrir un nuevo local. Para esto se estan considerando dos opciones.
La primera opcion tiene las siguientes caractersticas:
3 Establecimientos de autoservicios per capita: 1.4
4 Ingresos per capita (en $1000s): 22.3
5 Gasto publico per capita (en $1000s): 7.3
6 Hombres por cada 100 mujeres: 98
La segunda opcion tiene las siguientes caractersticas:
3 Establecimientos de autoservicios per capita: 1.9
4 Ingresos per capita (en $1000s): 43.4
5 Gasto publico per capita (en $1000s): 6.6
6 Hombres por cada 100 mujere: 103
Utilizando el modelo encontrado arriba, determine la venta de cada una de las dos opciones.

2. Conjunto de Datos: FlightDelays.csv

El conjunto de datos consiste de 2201 vuelos aereos durante Enero de 2014 desde el area de Wash-
ington DC hacia el area de Nueva York en EEUU. La caracterstica de interes (la respuesta) es si
el vuelo tuvo un retraso de mas de 15 minutos o no (codificada como 1 para retraso y 0 para No
retraso). Las demas variables incluyen
tres arepuertos distintos de arribos (Kennedy, Newark, y LaGuardia);
tres arepuertos distintos de partida (Reagan, Dulles, y Baltimore);
ocho aereolneas;

1
Andres G. Abad, Ph.D. Decisiones Multicriterio

variable categorica para 16 horas diferentes de partida (de 6 am a 10 pm);


condiciones ambientales (0=buenas y 1=malas);
da de la semana (1 para Domingos y Lunes; y 0 para los demas das).

El objetivo es predecir la probabilidad de que un vuelo sufra un retraso1 .


Se requiere:

(a) Particionar los datos en 70% para entrenamiento del modelo y 30% para prueba. Hacerlo
aletoriamente, utilizando la funcion sample.
(b) Entrene un modelo de regresion logstica con una sola variabla para cada una de las variables.
Utilice los datos de entrenamiento.
(c) Identifique el modelo con el menor error de prediccion. Utilice los datos de prueba.
(d) Corra un modelo de regresion logstica con todas las variables.
(e) Determine el error de prediccion. Utilice los datos de prueba.
(f) Cual es la probabilidad de que un vuelo con los datos: schedtime 840, carrier DL, dest
LGA, distance 214, date 1/15/2004, flightnumber 4964, origin DCA, weather 0, dayweek 4,
daymonth15, tailnu N703MQ, se retrase?
(g) Considere que el costo de predecir un vuelo atrasado equivocadamente es la mitad que el de
predecir un vuelo no atrasado equivocadamente. Determine el umbral de probabilidad optimo
en esta situacion.
(h) Construya una curva ROC para el modelo.

ESPOL
(i) Determine si el modelo encontrado en 5 tiene un menor o mayor error de prediccion que el
encontrado en 3. Utilice los datos de prueba.

1 Nota: No utilizar variable deptime, ya que esta se asume desconocida al momento del analisis