Está en la página 1de 4

Guía N° 2

Regresión Multiple

1. Los datos del fichero "eje1" son relativos a diferentes variables de coches. Se pide:
a) Ajustar un modelo de regresión múltiple, siendo la variable respuesta ”millas por galón” (inversa del
consumo) y las variables regresoras: precio, peso y desplazamiento.
b) ¿Son todas las variables significativas (contraste invidual de la t)?
c) ¿Cuál es el coeficiente de determinación? y ¿cuál el coeficiente de correlación múltiple?
d) Tabla ANOVA. ¿Qué conclusiones se obtienen de esta tabla (contraste conjunto de la F )? ¿qué indican los
contrastes individuales de la F? ¿Éstos contrastes tienen alguna relación con los contrastes invidualesde
la t?
e) Analizar los residuos utilizando un estudio descriptivo de los mismos y los gráficos de residuos. ¿Se
verifican las hipótesis del modelo (homocedasticidad, normalidad)? ¿Mejorará el modelo si se introduce la
variable ”aceleración” en el modelo?
f) ¿Qué indican los gráficos de efectos de las componentes?
g) Analizar la hipótesis de multicolinealidad.
h) Analizar la hipótesis de independencia.
i) Repetir este mismo problema pero utilizando solamente los datos relativos a coches USA. ¿Cambian las
conclusiones anteriores?

2. Con los datos del fichero "eje2" (cardata) estudiar la regresión de la variable respuesta ”millas por galón”
(inversa del consumo) respecto a las variables regresoras: precio, peso, desplazamiento, potencia (caballos de
vapor) aceleración y número de cilindros.
a) Utilizando el algoritmo de ”regresión paso a paso” obtener las variables regresoras que deben entrar.
b) Utilizando diferentes medidas indicar el mejor modelo de regresión de todos los posibles.
c) Trabajando con el mejor modelo de regresión lineal seleccionado en el apartado anterior ¿los estimadores
contraídos proporcionan mejores resultados que los estimadores por mínimos cuadrados?
d) Introduciendo algún término cuadrático ¿se puede mejorar el modelo de regresión?
e) Estudiar el modelo de regresión lineal simple de la variable respuesta ”millas por galón” respecto al
”peso” pero teniendo en cuenta el origen (variables atributo o dumping)?

3. En el fichero "eje3" se encuentran datos relativos a partidos de la liga ACB de baloncesto. Se desea estudiar
si existe alguna relación lineal entre la variable, puntos por partido (PUNT ×PART) que es capaz de anotar
un jugador de baloncesto respecto a las siguientes variables regresoras:
- La altura del jugador (ALTURA).
- Los minutos que juega por partido (MIN×PART).
- Los balones que pierde por partido (BP×PART).

1
GUÍA No2

- Las faltas personales cometidas por partido (FP×PART).


- El porcentaje en tiros de campo por partido (porcentaje obtenido de los tiros de dos y tres puntos
conseguidos e intentados) (POR_TC).
(Recogida de datos: Los datos para realizar la regresión se han obtenido a partir de la Guía Oficial Liga
1989-1990, de la ACB (Asociación de Clubs de Baloncesto), para lo cual se han seleccionado 62 jugadores
al azar de entre el total.) En base a estos datos, se pide:
a) Ajustar un modelo de regresión a estos datos, sin excluir ninguna variable e interpretar el resultado. ¿Es
el ajuste bueno?
b) Analizar la hipótesis de multicolinealidad para el modelo anterior.
c) Con el modelo anterior ¿Cuáles son las observaciones atípicas y/o influyentes?
d) ¿Existe un modelo de regresión lineal más adecuado según estos datos? ¿Es aconsejable utilizar un ajuste
no lineal? Justificar la respuesta.
e) Analizar los residuos del modelo que se considere más adecuado.

4. En el fichero "eje4" se encuentran datos relativos a 60 observaciones de datos del Mercado Financiero
Canadiense (de septiembre del 77 a diciembre del 80). Se han considerado las siguientes variables:
- Bankcan: activos del Banco de Canadá.
- Trsbill: intereses de las Letras del Tesoro a 90 días.
- CPI: índice de precios al consumo.
- Usspot: razón de cambio Canadá/USA.
- Usforw: razón de cambio a un mes Canadá/USA.
Ajustando un modelo de regresión lineal múltiple de la variable de interés Trsbill frente a las otras cuatro
variables. Se pide:
a) Calular el modelo de regresión lineal múltiple.
b) Estudio de la multicolinealidad del modelo.
c) Estudio de las observaciones influyentes y atípicas.
d) Análisis de residuos. ¿Se verifican las hipótesis del modelo?
e) Estudiar la existencia de un modelo de regresión que mejore al obtenido.

5. En el fichero problema "eje5" se presentan datos del fósforo encontrado en 18 muestras de aceite tomadas
a 20○. La variable X1 es el fósforo inorgánico, X2 el fósforo orgánico e Y es el fósforo de maíz en el aceite.
Encontrar un modelo que explique la variable Y como función de las otras dos variables regresoras.

6. Se ha realizado un experimento para investigar como la resistencia del corcho al rozamiento se ve afectada por
la dureza del corcho y la fuerza tensorial. Para ello se han testado treinta muestras de corcho de las que se ha
calculado la dureza (en grados Shore, a mayor número mayor dureza) y la fuerza tensorial (medidos
en Kgr por cm2). El corcho era sometido a un rozamiento continuo por un período de tiempo fijo y se medía
la pérdida de peso de corcho en gramos por hora. Los datos obtenidos en este experimento se encuentran
en el archivo "eje6". En base a ellos:
a) Analizar la relación de la variable de interés, peso de corcho perdido, con las dos variables explicativas
utilizando regresión lineal múltiple.
b) Determine intervalos de confianza del 95% para los parámetros del modelo.
c) Analizar las hipótesis del modelo.

2
GUÍA No2

7. Los datos de este problema son clásicos en análisis de regresión (archivo "eje7"), corresponden a la obser-
vación de 21 días de trabajo en una planta química para la oxidación del amonio como una etapa en la
producción del ácido nítrico. Las variables regresoras observadas son:
X1 =”flujo de aire”
X2 =”temperatura del ahua de refrigeración (○C)”
X3 =”concentración de ácido (%)”
Y = ”pérdida acumulada, porcentage del amonio que escapa sin ser absorbido”
El objetivo del estudio es el de ajustar un modelo de regresión a estos datos que explique el comportamiento
de la variable respuesta Y respecto a las otras tres variables regresoras.

8. En el archivo "eje8" se presentan datos de contaminación atmosférica en 41 ciudades de EEUU relativos a


los aňos 1969-71 . La variable de interés es Y =”contenido de SO2 en el aire en microgramos por metro
cúbico” y se desea estudiar su relación con seis variables regresoras, dos relativas a ecología humana y cuatroal
clima. Son la siguientes:
X1 = ”temperatura media anual en grados Farenheit”
X2 = ”número de fábricas con más de 20 empleados”
X3 = ”número de habitantes, en miles”
X4 = ”Velocidad media del viento al aňo en millas por hora”
X5 = ”precipitación media anual en litros por pulgada”
X6 =”número medio de días con lluvia al aňo”
El objetivo del estudio es encontrar un modelo de regresión múltiple que explique adecuadamente el com-
portamiento de la variable Y . Haga un análisis completo.

9. En el archivo "eje9" se presentan datos sobre el número de muertes e intensidad de los terremotos ocurridos
desde 1.900. También se proporciona el aňo en que ocurrió el terremoto, en total, 40 datos. Se desea estudiar
si existe una relación entre el número de muertes y la intensidad del terremoto. Analizar las hipótesis básicas
del modelo ajustado.

10. En el archivo "eje10" se indica la altura (H), longitudde las naves (G), anchura de la nave principal (A) y
número de naves (N) de algunas iglesias románicas espaňolas. Estudiar la relación entre la variable altura
(H) y el resto de las variables.

11. En el archivo "eje11"se presentan datos de porcentajes de delitos de siete tipos (asesinato, violación, atraco,
agresión, robo, latrocinio y robo de vehículos) en cincuenta estados de USA en el aňo 1986. Los datos que
se presentan son el número de delitos por cada 100.000 residentes. Analizar analítica y gráficamente estas
variables y estudiar si se puede ajustar un modelo de regresión que explique el comportamiento de una de
ellas en función de las otras.

12. Se desea estudiar la relación entre el Consumo de helados, medido en pintas per capita, y las variables
regresoras Precio del helado, en doláres por pinta, el Ingreso familiar por semana y la Temperatura media
medida en grados Farenheit. Para ello se obtuvieron datos de 30 meses, desde Marzo de 1951 a Julio de 1953.
Estos datos se encuentran en el archivo "eje12". Analizar estos datos y estudiar un modelo de regresión que se
ajuste a los mismos.

3
GUÍA No2

13. Algunas veces es necesario bajar la presión sanguínea de un paciente durante una intervención quirúrgica
utilizando un fármaco hipotensivo. Los datos del archivo "eje13" son relativos a los resultados de aplicar un
determinado fármaco en 53 enfermos. En cada uno de ellos se ha medido el tiempo en minutos antes de que
la presión sistólica sanguínea del paciente vuelva a los 100 mm (T R, tiempo de recuperación), el logaritmo
de la dosis de fármaco en miligramos (GD) y la presión media sistólica sanguínea del paciente mientras el
fármaco hacía efecto (P M ). ¿Qué relación existe entre la variable T R y las otras dos variables?.

14. El archivo "eje14" contiene datos de seis variables de 22 aviones de combate de EEUU. Las variables
estudiadas son las siguientes:
FFD = ”first flight date, fecha del primer vuelo en meses después de Enero de 1940”
SP R = ”specific power, potencia específica proporcional a la potencia por unidad de peso”
RGF = ”flight range factor, factor de rango de vuelo”
P GF = ”payload como una fracción del peso bruto del avión”
SGF = ”factor de carga sostenido”
CAR = ”una variable binaria que vale 1 si el avión puede aterrizar en un portaviones y 0 en otro caso”
El objetivo del estudio es encontrar un modelo de regresión múltiple que explique el comportamiento de
la variable de interés FFD (o una transformada de la misma, por ejemplo, tomar logaritmos) como una
función del resto de variables. Tener en cuenta la presencia de la variable atributo CAR, interpretar el
modelo resultante al introducir esta variable.

También podría gustarte