Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Multiple
Regresion Multiple
Introducción
Cuando hay más de una variable explicativa es conveniente usar la notación matricial:
Donde la cantidad de variables (k) es normalmente bastante inferior a la cantidad de datos (n), y
p = k +1.
y = X ⋅ β + ε~
~
H1) Εε~ = 0
H2/H3) Vε~ = σ 2 ⋅ I
Esto significa que la varianza del error es la misma para todos los valores de y (homocedasticidad); y
que los errores no están correlacionados (ausencia de autocorrelación).
1
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
H4) ε~ : N (0;σ 2 ⋅ I )
Los errores tienen distribución normal multidimensional con la media y varianza especificadas en H1,
H2, y H3.
Con la estimación de los parámetros se puede pronosticar la variable de estudio para cualquier punto
t
x = (1; x1 ; x2 ! xk ) :
~
yˆ x = tx ⋅ b
Como los puntos normalmente no están alineados sobre un hiperplano, las predicciones no serán
perfectas, sino que existirá un término residual, ~
e:
~ ~
y = yˆ + ~
e = X ⋅ b + e~
~
El residuo es observable porque, luego de estimarse b , puede calcularse por diferencia.
Estimación de β:
La estimación de parámetros procede de minimizar la suma de Gauss:
Q = et ⋅ e → mínimo
∂Q
Desarrollando el gradiente: =0 se obtiene:
∂b
b = ( XX )−1 Xy
t t
~
Como ~
y es aleatorio, también lo es el vector de estimadores: b .
Propiedades:
~
P5’) El estimador b es función lineal de ~
y.
~
P6’) El estimador b es no viciado.
2
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
P7’/P8’) X ⋅ e = 0
t
Estimación de σ 2:
1 t
s2 = ⋅ e⋅e
n− p
Se demuestra que:
ν ⋅ s2
= χν2 donde ν = n − p grados de libertad
σ 2
Es decir que se aplica la regla para los grados de libertad: tamaño de muestra menos la cantidad de
promedios usados en la estimación de los parámetros ( x1 ; x2 ! xk y y ).
Análisis de la varianza:
El análisis de la varianza es exactamente igual que en regresión simple, con la salvedad de que R2 no
coincide con el cuadrado de ningún coeficiente de correlación, sino que es una medida del conjunto de
los coeficientes de correlación de cada x j con y .
Inferencia sobre β:
~
Asumiendo H4, y por P5’ y P6’: b : N ( β ;Vb )
En este caso se trata de una distribución normal p-dimensional.
bj − β j
Entonces: tν = con ν =n−2
cjj ⋅ sb2
Donde cjj son los elementos diagonales de ( tXX )−1 .
En realidad la estimación de los coeficientes de regresión no es independiente. Existe una región de
confianza conjunta para todos los coeficientes que tiene forma de elipsoide en un espacio de k
3
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
dimensiones. Los intervalos de confianza unidimensionales son la proyección del elipsoide sobre cada
eje.
Inferencia sobre Ε~
y x0 = tx0 ⋅ β
Se demuestra: Ε yˆ x0 = tx0 ⋅ β
V yˆ x0 = tx0 ( tXX )−1 x0 ⋅ σ 2
t
x0 ⋅ b − tx0 ⋅ β
Entonces: tν = con ν = n− p
s⋅ x0 ( tXX )−1 x0
t
Este no es un parámetro sino una variable aleatoria, por eso no se lo estima, sino que se lo predice o
pronostica.
Se demuestra: Ε yˆ x0 = tx0 ⋅ β
Ε~y x0 = tx0 ⋅ β
Estas dos expresiones indican que el predictor es no viciado: su esperanza coincide con la esperanza de
la variable a predecir.
También: V( yˆ x0 − ~
y x0 ) = (1+ tx0 ( tXX )−1 x0 ) ⋅ σ 2
t
x0 ⋅ b − ~
y x0
Entonces: tν = con ν = n− p
s ⋅ 1+ tx0 ( tXX )−1 x0
4
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
La aparición de un coeficiente de correlación elevado indica colinealidad entre el par de variables. Sin
embargo la colinealidad entre grupos de tres o más variables no se detecta por simple inspección de
esta matriz. Una manera de detectarla es calculando el determinante de la matriz de correlaciones. Si
todas las variables fueran independientes este determinante valdría 1. Si hubiera multicolinealidad
perfecta este determinante valdría 0. Con la experiencia se ha desarrollado la siguiente regla empírica
para el diagnóstico de la multicolinealidad:
5
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
Bibliografía:
• Canavos. Probabilidad y estadística. Mc Graw Hill.
• Walpole y Myers. Probabilidad y estadística. Mc Graw Hill.
Bibliografía avanzada:
• Draper y Smith. Applied regression analysis. J. Wiley.
• Myers. Classical and modern regression with applications. Prentice Hall.
• Graybill. An introduction to linear statistic model. Mc Graw Hill.
6
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
Ejercicios
RM1) Para el estudio del gasto que una familia realiza en alimentación se tomó una muestra de 20
familias al azar en la población. Se acordó con ellas realizar un seguimiento de todos los gastos que
realizaran en concepto de alimentación durante varios meses, y se calculó el promedio mensual.
También se registró el ingreso promedio mensual y el tamaño de las familias (número de integrantes
viviendo en el hogar). Se piensa que estas dos variables pueden explicar el gasto en alimentación de
una familia. Ver el archivo de datos.
a) Estimar el modelo.
b) Explicar el significado de cada coeficiente de regresión.
c) Evaluar el ajuste del modelo planteado.
d) Evaluar la multicolinealidad.
e) Estimar el gasto medio en alimentación de la familia tipo de clase media, que tiene 4 integrantes y
un ingreso de 2000 $/M. Utilizar un intervalo al 90% de confianza.
f) Estimar el gasto mensual en alimentación de una familia en particular, con 4 integrantes y un ingreso
de 2000 $/M. Utilizar un intervalo al 90% de confianza.
Parte a:
Regression Statistics
Multiple R 0.98661
R Square 0.97341
Adjusted R Square 0.97028
Standard Error 30.6513
Observations 20
ANOVA
df SS MS F p-value
Regression 2 584613 292307 311.129 4.1E-14
Residual 17 15971.6 939.503
Total 19 600585
Coeff. Std. Error t p-value Low 95% Up 95% Low 90% Up 90%
Intercept 24.9802 15.3708 1.62517 0.12252 -7.4495 57.4099 -1.759 51.7195
Tamaño familia 23.833 3.37724 7.05695 1.9E-06 16.7076 30.9583 17.9579 29.708
Ingreso familiar 0.08014 0.00324 24.7486 9E-15 0.0733 0.08697 0.0745 0.08577
Parte b:
Parte c:
Parte d:
Como hay sólo dos variables explicativas es sencillo evaluar la multicolinealidad. Basta calcular el
coeficiente de correlación entre las mismas: -0,16. Como este valor no es muy alto, vemos que no
hay multicolinealidad. Si hubiera dudas podría hacerse el ensayo correspondiente.
Otro buen signo del modelo es que los intervalos de confianza de los coeficientes tienen signo
definido: β1: [18 ; 30], y β2: [0,075 ; 0,086]. Si algún intervalo tuviera extremos de distinto signo,
no estaría claro qué signo tiene ese coeficiente, es decir no se sabría si contribuye positivamente o
negativamente a la respuesta. En ese caso es probable que la variable correspondiente no
contribuya a explicar la respuesta y que convenga eliminarla. Pero también podría ser consecuencia
de la multicolinealidad, requiriendo un análisis más profundo. Afortunadamente no tenemos ese
problema aquí.
Parte e:
Parte f:
8
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
IP = yˆ x0 ± t17;0,95 ⋅ s yˆ x0 − ~
y x0 = 441 ± 1,7396 ⋅ 1063 = [384;498]
Se observa que la predicción de un valor aleatorio es mucho más imprecisa que la estimación de la
media.
!
RM2) Una compañía que participa en el mercado de heladeras de uso doméstico, desea construir un
modelo de demanda. Para ello se forma un equipo multi-funcional en el que participan el analista
económico de la compañía, el gerente de Marketing, el gerente de Ventas y el gerente de Investigación
y Desarrollo. El analista económico de la compañía piensa que los principales determinantes de la
demanda son el precio, la publicidad y el nivel de actividad de la economía. Por ello reúne la siguiente
información:
• Precio de una canasta de los principales modelos de heladera del mercado [$/u].
• Publicidad de todas las marcas del mercado sumada [k$/Mes].
• PBI: un índice mensual de la evolución del producto bruto interno estimado a partir de la
información oficial trimestral.
El gerente de Marketing sugirió que, considerando que se trata de un bien de uso, la decisión de un
consumidor de comprar una heladera nueva podía verse afectada por la disponibilidad de crédito y por
las expectativas sobre la situación económica. Se incluyeron entonces las siguientes variables:
• Indicador de expectativas: resultado de una encuesta a la población en la que se pregunta la
expectativa sobre la situación económica, y se asigna –1 si la respuesta es “va a empeorar”, 0 si
es “va a permanecer igual”, y +1 si es “va a mejorar”.
• Tasa de interés de préstamos personales.
• Desocupación: porción de la fuerza laboral activa que no encuentra trabajo.
El gerente de Investigación y Desarrollo de la compañía observó que en los meses de verano la
heladera funciona en un régimen de mayor exigencia que aumenta la probabilidad de fallas, y
probablemente los reemplazos. Se construyeron entonces las siguientes variables:
• Estacionalidad media: una variable indicadora que vale 1 para los meses de Sep, Oct, Mar y
Abr, y 0 para los otros.
• Estacionalidad alta: una variable indicadora que vale 1 para los meses de Nov, Dic, Ene y Feb,
y 0 para los otros.
• Temperatura ambiente promedio mensual [°C al mediodía].
Ver el archivo de datos.
a) Estimar el modelo con estas 9 variables explicativas y evaluar su ajuste.
b) Realizar un análisis residuos en busca de datos extraños.
El analista económico de la compañía, intrigado por la demanda inusualmente alta de ciertos meses,
fue a ver al gerente de Ventas, quien no había participado de las reuniones anteriores. Este destacó la
9
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
importancia de las promociones en las ventas de la compañía. Asumiendo que también podrían influir
en la demanda total se construyó la siguiente variable:
• Promoción: una variable indicadora que vale 1 en los meses en los que alguna de las principales
marcas realizó una promoción importante, y 0 en otro caso.
c) Estimar el modelo con las 10 variables explicativas y evaluar su ajuste.
d) Evaluar la multicolinealidad.
e) En caso de encontrar multicolinealidad, buscar la forma de resolverla sacando algunas variables del
modelo.
f) Explicar el significado de cada coeficiente de regresión.
g) Con el modelo depurado, pronosticar la demanda para el próximo mes (enero) mediante un intervalo
al 90% de confianza, asumiendo que el precio subirá a 505 $/u, la publicidad será de 2000 k$/M, no
habrá promociones especiales, el índice de PBI bajará a 1,15, el índice de expectativas, la tasa de
interés y la desocupación mantendrán los valores de diciembre, y la temperatura será igual a la de
enero del año anterior.
Parte a:
Regression Statistics
Multiple R 0.96252
R Square 0.92645
Adjusted R Square 0.90099
Standard Error 7.89519
Observations 36
ANOVA df SS MS F p-value
Regression 9 20413.8 2268.2 36.3878 1.7E-12
Residual 26 1620.68 62.334
Total 35 22034.5
Coeff. Std Error t p-value Low 95% Up 95% Low 90% Up 90%
Intercept 128.622 75.444 1.70487 10% -26.455 283.7 -0.0562 257.301
Precio -0.2555 0.09691 -2.6363 1% -0.4547 -0.0563 -0.4208 -0.0902
Publicidad 0.02445 0.00232 10.5533 0% 0.01969 0.02922 0.0205 0.0284
PBI -14.235 27.5133 -0.5174 61% -70.789 42.3197 -61.162 32.6924
Expectativas 20.7686 7.39569 2.8082 1% 5.56649 35.9706 8.15435 33.3828
Tasa interés 73.7519 58.9164 1.25181 22% -47.352 194.856 -26.737 174.241
Desocupación 96.6829 110.948 0.87142 39% -131.37 324.74 -92.552 285.918
Temperatura 0.45135 0.25548 1.76671 9% -0.0738 0.97649 0.01561 0.8871
Est media -6.2014 4.01668 -1.5439 13% -14.458 2.05505 -13.052 0.64955
Est alta -11.582 6.34415 -1.8256 8% -24.623 1.45863 -22.403 -0.7613
El ajuste es bueno como puede verse por el alto R2 y por el ensayo del análisis de la varianza, que
arroja un p-value muy inferior a 5%.
10
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
Parte b:
Standard
Observation Predicted Y Residuals Residuals
1 50.237 2.66302 0.39134
2 37.2164 -1.9164 -0.2816
3 42.67 4.92997 0.72448
4 22.1394 -1.6394 -0.2409
5 18.471 1.32901 0.19531
6 22.9571 0.94295 0.13857
7 12.8007 4.3993 0.6465
8 24.6216 -1.8216 -0.2677
9 22.81 6.69 0.98313
10 52.7559 -0.2559 -0.0376
11 67.9348 -7.6348 -1.122
12 95.6009 -15.801 -2.322 x
13 60.1834 0.71664 0.10531
14 24.5263 10.0737 1.48038
15 18.3391 -6.7391 -0.9903
16 19.8319 -3.7319 -0.5484
17 64.0563 13.9437 2.0491 x
18 62.8298 5.77021 0.84796
19 20.5214 -10.521 -1.5462
20 18.116 -9.116 -1.3396
21 14.6802 -0.7802 -0.1147
22 26.2398 0.96015 0.1411
23 27.1572 1.74277 0.25611
24 71.5357 -0.7357 -0.1081
25 67.0352 -0.4352 -0.064
26 68.1543 3.34575 0.49168
27 59.0285 -2.3285 -0.3422
28 46.7915 -1.6915 -0.2486
29 23.5486 -3.9486 -0.5803
30 20.8894 -8.8894 -1.3063
31 26.7518 17.9482 2.63758 x
32 30.0363 -10.036 -1.4749
33 32.5422 4.15781 0.61101
34 40.9716 0.42843 0.06296
35 72.9117 7.88833 1.15923
36 107.407 0.09294 0.01366
Comparando los residuos estandarizados con t26;0,975 = 2,055 (no es un ensayo exacto, pero da una
idea de magnitud) se observan tres outliers, marcados con una cruz. Dos de ellos se deben a
promociones.
11
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
Parte c:
Regression Statistics
Multiple R 0.98883
R Square 0.97778
Adjusted R Square 0.96889
Standard Error 4.4258
Observations 36
ANOVA df SS MS F p-value
Regression 10 21544.8 2154.48 109.991 4.2E-18
Residual 25 489.694 19.5877
Total 35 22034.5
Coeff. Std Error t p-value Low 95% Up 95% Low 90% Up 90%
Intercept 67.1767 43.0578 1.56015 13% -21.502 155.856 -6.372 140.725
Precio -0.1915 0.05497 -3.4834 0% -0.3047 -0.0783 -0.2854 -0.0976
Publicidad 0.01723 0.00161 10.7074 0% 0.01392 0.02055 0.01448 0.01998
Promo 30.0299 3.952 7.59866 0% 21.8906 38.1692 23.2793 36.7805
PBI 28.6065 16.4213 1.74203 9% -5.2138 62.4268 0.55657 56.6564
Expectativas 13.456 4.25603 3.16164 0% 4.69058 22.2215 6.18614 20.7259
Tasa interés 8.43074 34.1272 0.24704 81% -61.855 78.7169 -49.863 66.7247
Desocupación 21.5828 62.9746 0.34272 73% -108.12 151.281 -85.987 129.152
Temperatura 0.74416 0.14831 5.01772 0% 0.43872 1.0496 0.49083 0.99748
Est media -0.0086 2.39458 -0.0036 100% -4.9403 4.92314 -4.0989 4.08169
Est alta 0.09717 3.87426 0.02508 98% -7.882 8.07636 -6.5206 6.71496
El ajuste es mejor aun, confirmado por el p-value del análisis de la varianza. Indefectiblemente R2
tenía que mejorar, porque se agregó una variable explicativa. Lo interesante es que la mejora fue
muy alta: Había un 7,6% de varianza no explicada (1-R2), que ahora se reduce a 2,2%.
Parte d:
Precio Publicidad Promo PBI Expect. Tasa Desocup. Temp. Est med Est alta
Precio 1 0.21569 -0.3167 0.30963 0.86138 -0.5482 -0.7238 0.1511 -0.0683 0.18793
Publicidad 0.21569 1 0.0598 0.42966 0.22099 -0.1857 -0.236 0.58963 -0.2686 0.72091
Promo -0.3167 0.0598 1 -0.2585 -0.3004 0.24934 0.15437 -0.3384 -0.2132 -0.2132
PBI 0.30963 0.42966 -0.2585 1 0.5258 -0.4689 -0.2032 0.29624 -0.0642 0.24663
Expectativas 0.86138 0.22099 -0.3004 0.5258 1 -0.7701 -0.5176 0.23737 -0.0458 0.1289
Tasa interés -0.5482 -0.1857 0.24934 -0.4689 -0.7701 1 0.0259 -0.0997 0.15653 -0.1577
Desocupación -0.7238 -0.236 0.15437 -0.2032 -0.5176 0.0259 1 -0.1162 -0.0911 -0.0289
Temperatura 0.1511 0.58963 -0.3384 0.29624 0.23737 -0.0997 -0.1162 1 0.0695 0.61703
Est media -0.0683 -0.2686 -0.2132 -0.0642 -0.0458 0.15653 -0.0911 0.0695 1 -0.5
Est alta 0.18793 0.72091 -0.2132 0.24663 0.1289 -0.1577 -0.0289 0.61703 -0.5 1
12
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
Parte e:
Después de varios intentos obtuvimos el siguiente modelo que retiene un muy buen R2 y alivia el
problema de multicolinealidad, porque el determinante de la matriz de correlaciones es 0,103.
Regression Statistics
Multiple R 0.98741
R Square 0.97497
Adjusted R Square 0.9708
Standard Error 4.28759
Observations 36
ANOVA df SS MS F p-value
Regression 5 21483 4296.59 233.721 4.5E-23
Residual 30 551.503 18.3834
Total 35 22034.5
Coeff. Std Error t p-value Low 95% Up 95% Low 90% Up 90%
Intercept 120.623 16.9807 7.10353 0% 85.9439 155.302 91.8024 149.444
Precio -0.2315 0.0336 -6.8901 0% -0.3001 -0.1629 -0.2885 -0.1745
Publicidad 0.01814 0.00099 18.3188 0% 0.01611 0.02016 0.01646 0.01982
Promo 28.0443 3.14335 8.92179 0% 21.6247 34.4638 22.7092 33.3793
Expectativas 15.9206 2.23006 7.1391 0% 11.3662 20.475 12.1356 19.7056
Temperatura 0.70676 0.11099 6.36786 0% 0.48009 0.93343 0.51838 0.89513
Parte f:
Parte g:
El predictor es:
13
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
IP = yˆ x0 ± t 30;0,95 ⋅ s yˆ x0 − ~
y x0 = 70,7 ± 1,6973 ⋅ 20,19 = [63,1;78,4]
RM3) Una compañía desea evaluar el efecto de la publicidad televisiva en el desarrollo de una nueva
marca que introdujo recientemente en el mercado. Diversos estudios muestran que no es posible
encontrar una relación entre las ventas y la publicidad, porque intervienen demasiados factores de
difícil medición. Sin embargo puede evaluarse si la publicidad logra hacer conocer la marca entre la
gente. Se realizó una encuesta continua para tal fin: a partir del lanzamiento, cada semana se midió la
porción de gente que recordaba la marca espontáneamente. La intensidad de la publicidad emitida cada
semana se mide mediante los PBR (puntos brutos de rating). El rating de un programa de televisión es
el porcentaje de la población que ve ese programa. La suma de los ratings de los programas donde se
emitió el comercial durante la semana da los PBR, que resultan ser una medida de la cantidad de
contactos publicitarios realizados. Ocurre que el conocimiento de la marca depende de la publicidad
emitida desde el lanzamiento, no sólo de los PBR de la semana. Pero también la gente se olvida de la
marca si no vuelve a ver el comercial. Estas consideraciones dan lugar al modelo de la publicidad
demorada. En este modelo se utilizan varias variables para explicar el conocimiento de la marca: la
publicidad de la semana, la publicidad de la semana anterior, la de hace dos semanas, etc, y también
suele incluirse la publicidad acumulada desde el principio como otra variable más.
Ver el archivo de datos.
a) Construir el modelo de publicidad demorada con las siguientes variables: PBR(t), PBR(t-1), PBR(t-
2), PBR(t-3), y PBR acumulados desde el lanzamiento hasta t-4, siendo t la semana.
b) Estimar el modelo y evaluar su ajuste.
c) Explicar el significado de cada coeficiente de regresión. ¿Tienen los signos esperados? Evaluar el
modelo considerando estos resultados.
RM4) El departamento de Personal de una empresa lo contrata a usted como consultor para evaluar el
proceso de selección. Los candidatos a un puesto en la empresa son entrevistados por varios gerentes,
quienes emiten una calificación técnica en una escala en la que 0 significa totalmente inadecuado para
el puesto y 10 es perfectamente adecuado. Además son invitados a hacer un test en el que reciben una
14
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
RM5) Una empresa revendedora de automóviles usados desea hacer un modelo de valuación. Para
ello reúne datos sobre los últimos 20 autos vendidos de un determinado modelo. Se piensa que la
antigüedad es el determinante principal del valor del auto. También se ha registrado el uso, en miles de
km recorridos, y el estado de la chapa, medido por la cantidad de piezas en mal estado. Como los
elementos opcionales pueden también influir en el precio se registró cuáles autos tenían equipo de aire
acondicionado y cuáles tenían algún sistema de seguridad como barras laterales, ABS, o air bags; y se
construyeron dos variables indicadoras con esta información. Finalmente se anotó el precio real de
cada auto vendido, en miles de $.
Ver el archivo de datos.
a) Estimar el modelo con estas 5 variables explicativas.
b) Estimar el modelo con las mismas 5 variables explicativas, pero con la variable respuesta (precio)
transformada al logaritmo natural. ¿Cuál modelo ajusta mejor?
c) La empresa tiene a la venta 4 autos del modelo que se ha estudiado. Sus características figuran en la
tabla siguiente. Pronosticar el precio de cada auto mediante un intervalo al 90% de confianza. Hacerlo
con ambos modelos (el del punto a y el del punto b).
Antigüedad Uso Aire Seguridad Estado
[años] [kkm] chapa
1 20 0 1 0
3 30 1 1 5
6 85 1 1 4
9 95 0 0 0
15
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
RM6) La velocidad de un corredor olímpico es decreciente con la longitud del trayecto, debido al
cansancio. Se ha medido el tiempo que tardó un corredor en cubrir trayectos de distinta longitud,
calculándose la velocidad como el cociente entre longitud y tiempo.
Ver el archivo de datos.
a) Estimar un modelo de regresión lineal simple.
b) Estimar un modelo de regresión polinómica de grado 4. ¿Cuál es mejor?
RM7) Una empresa de alimentos tiene dos plantas en las afueras de la ciudad. El intercambio de
mercadería entre ellas es intenso, las plantas están alejadas entre sí y la ciudad tiene graves problemas
de tránsito; por lo cual el gerente de Logística le ha encargado a usted un estudio sobre el asunto. Hay 3
caminos alternativos para hacer el viaje, pero no está claro cuál es el más conveniente. Se piensa que la
hora de partida puede influir en el tiempo de viaje porque el tránsito varía. Los conductores afirman
que el día de la semana también influye en el tránsito, siendo los lunes y los viernes los días más
complicados. Además mencionan que los días de lluvia se tarda más porque el tránsito avanza
lentamente. Se registró esa información para 100 viajes tomados al azar. Ver el archivo de datos.
a) Construir un modelo con las variables mencionadas y estimarlo.
b) Explicar el significado de cada coeficiente de regresión. ¿Cuál es el mejor camino?
c) Evaluar el ajuste del modelo.
d) Realizar un análisis de residuos en busca de valores extraños.
e) Consultando a los conductores por los datos extraños, se encontró que en los viajes número 37, 50,
62, 72, 93, 94, y 95 el camión se había demorado porque el camino estaba cortado por una
manifestación. Tomar una decisión sobre los datos extraños.
f) Estimar el modelo sin los valores extraños. ¿Cuál es el mejor camino?
g) Antes de presentar el resultado al gerente de Logística usted tiene la precaución de consultar a un
experimentado conductor de la empresa, quien le responde: “Sabe ingeniero, a mi no me gusta el
camino 2 porque dos por tres me encuentro con una manifestación”. ¿Qué haría usted? ¿Qué
inconveniente tendría incluir una variable indicadora que valiera 1 cuando hubo manifestación y 0 en
todo otro caso?
RM8) Un banco minorista busca optimizar la cantidad de personal en sus 1000 sucursales. Para ello se
eligen 40 sucursales de variadas características y ubicaciones en el país, se estudia detalladamente el
proceso, y se define la cantidad óptima de personal para cada una de ellas. Entonces se desea construir
un modelo que permita extender estos resultados al resto de la red. Se conocen las siguientes variables
para todas las sucursales de la red:
• Cantidad de cuentas corrientes.
• Cantidad de cuentas de ahorro.
• Cantidad de cuentas de inversión.
• Tránsito de la sucursal [personas/ día].
• Superficie cubierta de la sucursal.
• Presencia de cajero automático.
• Cantidad de bancos en un radio de 300 m.
Además, para las 40 sucursales de la muestra se conoce la cantidad de empleados a tiempo completo.
a) Construir un modelo con las variables mencionadas y estimarlo.
b) Explicar el significado de cada coeficiente de regresión.
16
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
17
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.