Regresion Multiple

REGRESIÓN LINEAL MÚLTIPLE
Introducción
El modelo lineal general es:
yi = β 0 + β 1 ⋅ x1i + β 2 ⋅ x2i + ! + β k ⋅ xki + ε~i

~ i = 1;2;...; n
Cuando hay más de una variable explicativa es conveniente usar la notación matricial:
~ y1  1 x11 x21 .. xk 1   ε~1 

~ β0 
y  1 x12 x22 .. xk 2  β 
ε~ 
 2    2
~ y3  1 x13 x23 .. xk 3   1 ε~ 
~
y=  X =  β = β 2  ε~ =  3 
: : : : :    :
: : : : :   :  :
~     β k  ~ 
 y n  1 x1n x2 n .. xkn  ε n 
nx1 nxp px1 nx1
Donde la cantidad de variables (k) es normalmente bastante inferior a la cantidad de datos (n), y
p = k +1.
Entonces el modelo se escribe:
y = X ⋅ β + ε~
~
Y las hipótesis que lo sustentan toman la forma:
H1) Εε~ = 0
H2/H3) Vε~ = σ 2 ⋅ I
Esto significa que la varianza del error es la misma para todos los valores de y (homocedasticidad); y
que los errores no están correlacionados (ausencia de autocorrelación).
1
ING. EMILIO PICASSO.
ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA.
EJERCICIOS DE REGRESIÓN MÚLTIPLE
H4) ε~ : N (0;σ 2 ⋅ I )
Los errores tienen distribución normal multidimensional con la media y varianza especificadas en H1,
H2, y H3.
Se dispone de una muestra de n vectores de datos (x1i ; x 2i ! xki ; ~

yi ) , a partir de la cual se calculará una
~
estimación del vector de parámetros β, que denominaremos b . Estas estimaciones son aleatorias
porque se calculan a partir de la muestra, que lo es.
Con la estimación de los parámetros se puede pronosticar la variable de estudio para cualquier punto
t
x = (1; x1 ; x2 ! xk ) :
~
yˆ x = tx ⋅ b
Como los puntos normalmente no están alineados sobre un hiperplano, las predicciones no serán
perfectas, sino que existirá un término residual, ~
e:
~ ~
y = yˆ + ~
e = X ⋅ b + e~
~
El residuo es observable porque, luego de estimarse b , puede calcularse por diferencia.
Estimación de β:
La estimación de parámetros procede de minimizar la suma de Gauss:
Q = et ⋅ e → mínimo
∂Q
Desarrollando el gradiente: =0 se obtiene:
∂b
b = ( XX )−1 Xy
t t
~
Como ~
y es aleatorio, también lo es el vector de estimadores: b .
Propiedades:
~
P5’) El estimador b es función lineal de ~
y.
~
P6’) El estimador b es no viciado.
2
P7’/P8’) X ⋅ e = 0
t
Esta propiedad incluye como caso particular: ∑ ~e = 0 ,

i porque la primera columna de X está
compuesta por unos.
Estimación de σ 2:
1 t
s2 = ⋅ e⋅e
n− p
Se demuestra que:
ν ⋅ s2
= χν2 donde ν = n − p grados de libertad
σ 2
Es decir que se aplica la regla para los grados de libertad: tamaño de muestra menos la cantidad de
promedios usados en la estimación de los parámetros ( x1 ; x2 ! xk y y ).
Análisis de la varianza:
El análisis de la varianza es exactamente igual que en regresión simple, con la salvedad de que R2 no
coincide con el cuadrado de ningún coeficiente de correlación, sino que es una medida del conjunto de
los coeficientes de correlación de cada x j con y .
Inferencia sobre β:
~
Asumiendo H4, y por P5’ y P6’: b : N ( β ;Vb )
En este caso se trata de una distribución normal p-dimensional.
Se demuestra: σ b2 = ( tXX )−1 ⋅ σ 2
Luego se estima: sb2 = ( tXX )−1 ⋅ s 2
bj − β j
Entonces: tν = con ν =n−2
cjj ⋅ sb2
Donde cjj son los elementos diagonales de ( tXX )−1 .
En realidad la estimación de los coeficientes de regresión no es independiente. Existe una región de
confianza conjunta para todos los coeficientes que tiene forma de elipsoide en un espacio de k
3
dimensiones. Los intervalos de confianza unidimensionales son la proyección del elipsoide sobre cada
eje.
Inferencia sobre Ε~
y x0 = tx0 ⋅ β
El estimador es: yˆ x0 = tx0 ⋅ b
Asumiendo H4 y por P5’ y P6’: yˆ x0 : N (Ε yˆ x0 ; V yˆ x0 )
Se demuestra: Ε yˆ x0 = tx0 ⋅ β
V yˆ x0 = tx0 ( tXX )−1 x0 ⋅ σ 2
Luego se estima: s y2ˆ x0 = tx0 ( tXX )−1 x0 ⋅ s 2
t
x0 ⋅ b − tx0 ⋅ β
Entonces: tν = con ν = n− p
s⋅ x0 ( tXX )−1 x0
t
Inferencia sobre y x0 = tx0 ⋅ β + ε~

~
Este no es un parámetro sino una variable aleatoria, por eso no se lo estima, sino que se lo predice o
pronostica.
El predictor es: yˆ x0 = tx0 ⋅ b
Se demuestra: Ε yˆ x0 = tx0 ⋅ β
Ε~y x0 = tx0 ⋅ β
Estas dos expresiones indican que el predictor es no viciado: su esperanza coincide con la esperanza de
la variable a predecir.
También: V( yˆ x0 − ~
y x0 ) = (1+ tx0 ( tXX )−1 x0 ) ⋅ σ 2
Luego: s 2yˆ x0 − ~y x0 = (1+ tx0 ( tXX )−1 x0 ) ⋅ s 2
t
x0 ⋅ b − ~
y x0
Entonces: tν = con ν = n− p
s ⋅ 1+ tx0 ( tXX )−1 x0
4
Nociones sobre Modelización:

La modelización consiste en encontrar el conjunto de variables que mejor explican una determinada
variable de estudio, también llamada respuesta.
Un modelo sirve para dos cosas:
1) Conocer la sensibilidad de la variable respuesta a las variables explicativas.
2) Predecir la variable respuesta para un dado valor de las variables explicativas.
Un modelo con un grado de ajuste pobre (R2 bajo) no es útil para ninguno de esos objetivos. Puede
demostrarse que el agregado de una nueva variable explicativa siempre aumenta o mantiene R2, nunca
lo reduce. Por eso el analista puede verse tentado a incorporar un gran número de variables
explicativas. Sin embargo un buen R2 es necesario pero no suficiente para un buen modelo. Un modelo
con muchas variables tiene alta probabilidad de sufrir de multicolinealidad. Este verdadero veneno de
la regresión consiste en la existencia de dos o más variables explicativas parecidas entre sí. Es deseable
que las variables explicativas estén altamente correlacionadas con la variable respuesta, pero es
indeseable que estén correlacionadas entre sí. Supongamos un modelo con dos variables explicativas
altamente correlacionadas. Los puntos muestrales se ubicarán en una faja angosta en el plano (x1;x2),
como se ve en el gráfico.
El plano de regresión puede ajustar muy bien a los y
puntos, pero está pobremente estimado: “se
mueve como una tabla apoyada sobre una viga”.
Un nuevo punto muestral puede alterar mucho el
ángulo de inclinación del plano y, por lo tanto, los
coeficientes de regresión. Es decir que la varianza
de los coeficientes de regresión es muy alta. La x1
predicción puede ser buena en la faja del plano
(x1;x2) donde se encuentra la muestra, pero
alejándose de la misma los intervalos crecen
rápidamente.
Lo más grave de la multicolinealidad es que es x2
difícil de diagnosticar y resolver. La forma más
elemental de diagnóstico es la matriz de
correlaciones de las variables explicativas:
1 r12 " r1k 

r 1 " r2 k 
 21  donde rij = Corr ( xi ; x j )
# # $ # 
 
rk1 rk 2 " 1
La aparición de un coeficiente de correlación elevado indica colinealidad entre el par de variables. Sin
embargo la colinealidad entre grupos de tres o más variables no se detecta por simple inspección de
esta matriz. Una manera de detectarla es calculando el determinante de la matriz de correlaciones. Si
todas las variables fueran independientes este determinante valdría 1. Si hubiera multicolinealidad
perfecta este determinante valdría 0. Con la experiencia se ha desarrollado la siguiente regla empírica
para el diagnóstico de la multicolinealidad:
5
• Hay problema serio de multicolinealidad cuando: Det([rij]) < 0,1

• Puede despreciarse la multicolinealidad cuando: Det([rij]) > 0,2
El tratamiento de la multicolinealidad es más complicado aun que su diagnóstico y excede el alcance
del curso. Una medida simple es sacar variables del modelo hasta que desaparezca el problema. No es
fácil decidir cuales son las variables que deben salir, y a veces no hay forma de hacerlo sin deteriorar
excesivamente R2. Otros métodos más elaborados son la regresión moderada (ridge regression) y el
método de las componentes principales. Puede consultarse la bibliografía mencionada abajo, en
particular: Myers, o Draper y Smith capítulos 16 y 17.
En síntesis conviene tener siempre presente el principio de parsimonia de Sir Maurice Kendall: “Si dos
modelos describen razonablemente bien la realidad, el más simple es mejor”.
La multicolinealidad no es el único problema que se encuentra en la modelización. La verificación de

las hipótesis de la regresión ofrece un campo fértil para las dificultades también.
El incumplimiento de H1 (ausencia de vicio) se manifiesta como un bajo R2: el modelo no ajusta bien.
El diagnóstico específico surge de un análisis de residuos. Graficando los residuos contra cada una de
las variables explicativas se puede advertir si la relación de la respuesta con alguna de ellas no es lineal
sino curva. Una solución posible para este problema es incorporar términos polinomiales u otras
funciones de la variable explicativa en cuestión, aunque no siempre es efectivo. Ver Draper y Smith
cap 12.
El incumplimiento de H2 (homocedasticidad) se diagnostica mediante el análisis de residuos.
Graficando los residuos contra la variable respuesta, a veces, se observa que la nube de puntos se va
ensanchando hacia la derecha. Esto significa que la varianza crece con la variable. El tratamiento de
este problema se realiza mediante transformaciones homogeneizantes de la variable respuesta, o bien
mediante regresión ponderada (weighted regression). Ver Draper y Smith cap 13 y 9 respectivamente.
El incumplimiento de H3 (no autocorrelación) se diagnostica mediante el ensayo de Durbin-Watson.
Una introducción al tema puede verse en el libro de Canavos.
El incumplimiento de H4 (normalidad) se diagnostica mediante el análisis de residuos. Un histograma
de los residuos, asi como la asimetría y la curtosis muestral permiten validar la normalidad. El
tratamiento de este problema se realiza mediante transformaciones normalizantes de la variable
respuesta, o bien mediante regresión robusta (robust regression). Ver Draper y Smith cap 13 y 25
respectivamente.
En la aplicación de la regresión múltiple es habitual enfrentarse con un problema de modelización.

Como habrá podido observarse en los párrafos precedentes es complicado y excede alcance del curso.
Recomendamos a los alumnos interesados en la aplicación profesional de la regresión múltiple, tomar
el curso de Estadística Técnica Superior donde se tratan estos temas con profundidad.
Bibliografía:
• Canavos. Probabilidad y estadística. Mc Graw Hill.
• Walpole y Myers. Probabilidad y estadística. Mc Graw Hill.
Bibliografía avanzada:
• Draper y Smith. Applied regression analysis. J. Wiley.
• Myers. Classical and modern regression with applications. Prentice Hall.
• Graybill. An introduction to linear statistic model. Mc Graw Hill.
6
Ejercicios
RM1) Para el estudio del gasto que una familia realiza en alimentación se tomó una muestra de 20
familias al azar en la población. Se acordó con ellas realizar un seguimiento de todos los gastos que
realizaran en concepto de alimentación durante varios meses, y se calculó el promedio mensual.
También se registró el ingreso promedio mensual y el tamaño de las familias (número de integrantes
viviendo en el hogar). Se piensa que estas dos variables pueden explicar el gasto en alimentación de
una familia. Ver el archivo de datos.
a) Estimar el modelo.
b) Explicar el significado de cada coeficiente de regresión.
c) Evaluar el ajuste del modelo planteado.
d) Evaluar la multicolinealidad.
e) Estimar el gasto medio en alimentación de la familia tipo de clase media, que tiene 4 integrantes y
un ingreso de 2000 $/M. Utilizar un intervalo al 90% de confianza.
f) Estimar el gasto mensual en alimentación de una familia en particular, con 4 integrantes y un ingreso
de 2000 $/M. Utilizar un intervalo al 90% de confianza.
Parte a:
El Excel da el siguiente resultado:
Regression Statistics
Multiple R 0.98661
R Square 0.97341
Adjusted R Square 0.97028
Standard Error 30.6513
Observations 20
ANOVA
df SS MS F p-value
Regression 2 584613 292307 311.129 4.1E-14
Residual 17 15971.6 939.503
Total 19 600585
Coeff. Std. Error t p-value Low 95% Up 95% Low 90% Up 90%
Intercept 24.9802 15.3708 1.62517 0.12252 -7.4495 57.4099 -1.759 51.7195
Tamaño familia 23.833 3.37724 7.05695 1.9E-06 16.7076 30.9583 17.9579 29.708
Ingreso familiar 0.08014 0.00324 24.7486 9E-15 0.0733 0.08697 0.0745 0.08577
Parte b:
Cada integrante de la familia implica 23,8$ más de gasto en alimentación.

7
Cada 1$ de ingreso familiar implica 0,08$ más de gasto en alimentación.

El término independiente (intercept) significa que hay un gasto fijo en alimentación, independiente
del tamaño de la familia y del ingreso: 25$.
Parte c:
El valor de R2 = 0,973 indica un buen ajuste a la muestra.

El análisis de la varianza que da el Excel permite evaluar estadísticamente el ajuste del modelo. El
“p-value” es el nivel de significación a posteriori (α*) del ensayo H0) β = 0. Como es muy inferior
a 5%, se deduce que el ajuste del modelo es significativo.
Parte d:
Como hay sólo dos variables explicativas es sencillo evaluar la multicolinealidad. Basta calcular el
coeficiente de correlación entre las mismas: -0,16. Como este valor no es muy alto, vemos que no
hay multicolinealidad. Si hubiera dudas podría hacerse el ensayo correspondiente.
Otro buen signo del modelo es que los intervalos de confianza de los coeficientes tienen signo
definido: β1: [18 ; 30], y β2: [0,075 ; 0,086]. Si algún intervalo tuviera extremos de distinto signo,
no estaría claro qué signo tiene ese coeficiente, es decir no se sabría si contribuye positivamente o
negativamente a la respuesta. En ese caso es probable que la variable correspondiente no
contribuya a explicar la respuesta y que convenga eliminarla. Pero también podría ser consecuencia
de la multicolinealidad, requiriendo un análisis más profundo. Afortunadamente no tenemos ese
problema aquí.
Parte e:
El gasto medio se estima mediante un intervalo de confianza:
yˆ x0 = 25 + 23,8 ⋅ 4 + 0,08 ⋅ 2000 = 441
La matriz tXX es:

20 73 27448
73 351 86029
27448 86029 1.3E+08
s y2ˆ x0 = tx0 ( tXX ) −1 x0 ⋅ s 2 = 0,132 ⋅ 940 = 124
IC = yˆ x0 ± t17;0,95 ⋅ s yˆ x0 = 441 ± 1,7396 ⋅ 124 = [421;460]
Parte f:
8
El gasto de una familia en particular se pronostica con un intervalo de predicción:
El predictor es el mismo yˆ x0 = 441
s 2yˆ x0 − ~y x0 = (1+ tx0 ( tXX ) −1 x0 ) ⋅ s 2 = 1,132 ⋅ 940 = 1063
IP = yˆ x0 ± t17;0,95 ⋅ s yˆ x0 − ~
y x0 = 441 ± 1,7396 ⋅ 1063 = [384;498]
Se observa que la predicción de un valor aleatorio es mucho más imprecisa que la estimación de la
media.
!
RM2) Una compañía que participa en el mercado de heladeras de uso doméstico, desea construir un
modelo de demanda. Para ello se forma un equipo multi-funcional en el que participan el analista
económico de la compañía, el gerente de Marketing, el gerente de Ventas y el gerente de Investigación
y Desarrollo. El analista económico de la compañía piensa que los principales determinantes de la
demanda son el precio, la publicidad y el nivel de actividad de la economía. Por ello reúne la siguiente
información:
• Precio de una canasta de los principales modelos de heladera del mercado [$/u].
• Publicidad de todas las marcas del mercado sumada [k$/Mes].
• PBI: un índice mensual de la evolución del producto bruto interno estimado a partir de la
información oficial trimestral.
El gerente de Marketing sugirió que, considerando que se trata de un bien de uso, la decisión de un
consumidor de comprar una heladera nueva podía verse afectada por la disponibilidad de crédito y por
las expectativas sobre la situación económica. Se incluyeron entonces las siguientes variables:
• Indicador de expectativas: resultado de una encuesta a la población en la que se pregunta la
expectativa sobre la situación económica, y se asigna –1 si la respuesta es “va a empeorar”, 0 si
es “va a permanecer igual”, y +1 si es “va a mejorar”.
• Tasa de interés de préstamos personales.
• Desocupación: porción de la fuerza laboral activa que no encuentra trabajo.
El gerente de Investigación y Desarrollo de la compañía observó que en los meses de verano la
heladera funciona en un régimen de mayor exigencia que aumenta la probabilidad de fallas, y
probablemente los reemplazos. Se construyeron entonces las siguientes variables:
• Estacionalidad media: una variable indicadora que vale 1 para los meses de Sep, Oct, Mar y
Abr, y 0 para los otros.
• Estacionalidad alta: una variable indicadora que vale 1 para los meses de Nov, Dic, Ene y Feb,
y 0 para los otros.
• Temperatura ambiente promedio mensual [°C al mediodía].
Ver el archivo de datos.
a) Estimar el modelo con estas 9 variables explicativas y evaluar su ajuste.
b) Realizar un análisis residuos en busca de datos extraños.
El analista económico de la compañía, intrigado por la demanda inusualmente alta de ciertos meses,
fue a ver al gerente de Ventas, quien no había participado de las reuniones anteriores. Este destacó la
9
importancia de las promociones en las ventas de la compañía. Asumiendo que también podrían influir
en la demanda total se construyó la siguiente variable:
• Promoción: una variable indicadora que vale 1 en los meses en los que alguna de las principales
marcas realizó una promoción importante, y 0 en otro caso.
c) Estimar el modelo con las 10 variables explicativas y evaluar su ajuste.
d) Evaluar la multicolinealidad.
e) En caso de encontrar multicolinealidad, buscar la forma de resolverla sacando algunas variables del
modelo.
f) Explicar el significado de cada coeficiente de regresión.
g) Con el modelo depurado, pronosticar la demanda para el próximo mes (enero) mediante un intervalo
al 90% de confianza, asumiendo que el precio subirá a 505 $/u, la publicidad será de 2000 k$/M, no
habrá promociones especiales, el índice de PBI bajará a 1,15, el índice de expectativas, la tasa de
interés y la desocupación mantendrán los valores de diciembre, y la temperatura será igual a la de
enero del año anterior.
Parte a:
El Excel da el siguiente resultado:
Multiple R 0.96252
R Square 0.92645
Observations 36
ANOVA df SS MS F p-value
Regression 9 20413.8 2268.2 36.3878 1.7E-12
Residual 26 1620.68 62.334
Total 35 22034.5
Coeff. Std Error t p-value Low 95% Up 95% Low 90% Up 90%
Intercept 128.622 75.444 1.70487 10% -26.455 283.7 -0.0562 257.301
Precio -0.2555 0.09691 -2.6363 1% -0.4547 -0.0563 -0.4208 -0.0902
Publicidad 0.02445 0.00232 10.5533 0% 0.01969 0.02922 0.0205 0.0284
PBI -14.235 27.5133 -0.5174 61% -70.789 42.3197 -61.162 32.6924
Expectativas 20.7686 7.39569 2.8082 1% 5.56649 35.9706 8.15435 33.3828
Tasa interés 73.7519 58.9164 1.25181 22% -47.352 194.856 -26.737 174.241
Desocupación 96.6829 110.948 0.87142 39% -131.37 324.74 -92.552 285.918
Temperatura 0.45135 0.25548 1.76671 9% -0.0738 0.97649 0.01561 0.8871
Est media -6.2014 4.01668 -1.5439 13% -14.458 2.05505 -13.052 0.64955
Est alta -11.582 6.34415 -1.8256 8% -24.623 1.45863 -22.403 -0.7613
El ajuste es bueno como puede verse por el alto R2 y por el ensayo del análisis de la varianza, que
arroja un p-value muy inferior a 5%.
10
Parte b:
Si le pedimos al Excel que muestre los residuos naturales y estandarizados tenemos:
Standard
Observation Predicted Y Residuals Residuals
1 50.237 2.66302 0.39134
2 37.2164 -1.9164 -0.2816
3 42.67 4.92997 0.72448
4 22.1394 -1.6394 -0.2409
5 18.471 1.32901 0.19531
6 22.9571 0.94295 0.13857
7 12.8007 4.3993 0.6465
8 24.6216 -1.8216 -0.2677
9 22.81 6.69 0.98313
10 52.7559 -0.2559 -0.0376
11 67.9348 -7.6348 -1.122
12 95.6009 -15.801 -2.322 x
13 60.1834 0.71664 0.10531
14 24.5263 10.0737 1.48038
15 18.3391 -6.7391 -0.9903
16 19.8319 -3.7319 -0.5484
17 64.0563 13.9437 2.0491 x
18 62.8298 5.77021 0.84796
19 20.5214 -10.521 -1.5462
20 18.116 -9.116 -1.3396
21 14.6802 -0.7802 -0.1147
22 26.2398 0.96015 0.1411
23 27.1572 1.74277 0.25611
24 71.5357 -0.7357 -0.1081
25 67.0352 -0.4352 -0.064
26 68.1543 3.34575 0.49168
27 59.0285 -2.3285 -0.3422
28 46.7915 -1.6915 -0.2486
29 23.5486 -3.9486 -0.5803
30 20.8894 -8.8894 -1.3063
31 26.7518 17.9482 2.63758 x
32 30.0363 -10.036 -1.4749
33 32.5422 4.15781 0.61101
34 40.9716 0.42843 0.06296
35 72.9117 7.88833 1.15923
36 107.407 0.09294 0.01366
Comparando los residuos estandarizados con t26;0,975 = 2,055 (no es un ensayo exacto, pero da una
idea de magnitud) se observan tres outliers, marcados con una cruz. Dos de ellos se deben a
promociones.
11
Parte c:
Incorporando la variable Promociones el Excel arroja:
Multiple R 0.98883
R Square 0.97778
Observations 36
Regression 10 21544.8 2154.48 109.991 4.2E-18
Residual 25 489.694 19.5877
Total 35 22034.5
Intercept 67.1767 43.0578 1.56015 13% -21.502 155.856 -6.372 140.725
Precio -0.1915 0.05497 -3.4834 0% -0.3047 -0.0783 -0.2854 -0.0976
Publicidad 0.01723 0.00161 10.7074 0% 0.01392 0.02055 0.01448 0.01998
Promo 30.0299 3.952 7.59866 0% 21.8906 38.1692 23.2793 36.7805
PBI 28.6065 16.4213 1.74203 9% -5.2138 62.4268 0.55657 56.6564
Expectativas 13.456 4.25603 3.16164 0% 4.69058 22.2215 6.18614 20.7259
Tasa interés 8.43074 34.1272 0.24704 81% -61.855 78.7169 -49.863 66.7247
Desocupación 21.5828 62.9746 0.34272 73% -108.12 151.281 -85.987 129.152
Temperatura 0.74416 0.14831 5.01772 0% 0.43872 1.0496 0.49083 0.99748
Est media -0.0086 2.39458 -0.0036 100% -4.9403 4.92314 -4.0989 4.08169
Est alta 0.09717 3.87426 0.02508 98% -7.882 8.07636 -6.5206 6.71496
El ajuste es mejor aun, confirmado por el p-value del análisis de la varianza. Indefectiblemente R2
tenía que mejorar, porque se agregó una variable explicativa. Lo interesante es que la mejora fue
muy alta: Había un 7,6% de varianza no explicada (1-R2), que ahora se reduce a 2,2%.
Parte d:
El problema de este modelo es la multicolinealidad.

Esta es la matriz de correlaciones:
Precio Publicidad Promo PBI Expect. Tasa Desocup. Temp. Est med Est alta
Precio 1 0.21569 -0.3167 0.30963 0.86138 -0.5482 -0.7238 0.1511 -0.0683 0.18793
Publicidad 0.21569 1 0.0598 0.42966 0.22099 -0.1857 -0.236 0.58963 -0.2686 0.72091
Promo -0.3167 0.0598 1 -0.2585 -0.3004 0.24934 0.15437 -0.3384 -0.2132 -0.2132
PBI 0.30963 0.42966 -0.2585 1 0.5258 -0.4689 -0.2032 0.29624 -0.0642 0.24663
Expectativas 0.86138 0.22099 -0.3004 0.5258 1 -0.7701 -0.5176 0.23737 -0.0458 0.1289
Tasa interés -0.5482 -0.1857 0.24934 -0.4689 -0.7701 1 0.0259 -0.0997 0.15653 -0.1577
Desocupación -0.7238 -0.236 0.15437 -0.2032 -0.5176 0.0259 1 -0.1162 -0.0911 -0.0289
Temperatura 0.1511 0.58963 -0.3384 0.29624 0.23737 -0.0997 -0.1162 1 0.0695 0.61703
Est media -0.0683 -0.2686 -0.2132 -0.0642 -0.0458 0.15653 -0.0911 0.0695 1 -0.5
Est alta 0.18793 0.72091 -0.2132 0.24663 0.1289 -0.1577 -0.0289 0.61703 -0.5 1
12
Donde pueden observarse varios coeficientes bastante altos.

El determinante vale 0,00041, mostrando un serio problema de multicolinealidad.
Parte e:
Después de varios intentos obtuvimos el siguiente modelo que retiene un muy buen R2 y alivia el
problema de multicolinealidad, porque el determinante de la matriz de correlaciones es 0,103.
Multiple R 0.98741
R Square 0.97497
Observations 36
Regression 5 21483 4296.59 233.721 4.5E-23
Residual 30 551.503 18.3834
Total 35 22034.5
Intercept 120.623 16.9807 7.10353 0% 85.9439 155.302 91.8024 149.444
Precio -0.2315 0.0336 -6.8901 0% -0.3001 -0.1629 -0.2885 -0.1745
Publicidad 0.01814 0.00099 18.3188 0% 0.01611 0.02016 0.01646 0.01982
Promo 28.0443 3.14335 8.92179 0% 21.6247 34.4638 22.7092 33.3793
Expectativas 15.9206 2.23006 7.1391 0% 11.3662 20.475 12.1356 19.7056
Temperatura 0.70676 0.11099 6.36786 0% 0.48009 0.93343 0.51838 0.89513
Parte f:
Significado de los coeficientes de regresión:

El precio influye negativamente en la demanda de heladeras a razón de 0,23 ku/M por cada 1$/u.
La publicidad influye positivamente a razón de 0,018 ku/M por cada k$/M de inversión.
La realización de una promoción importante por parte de alguna de las marcas principales aumenta
la demanda en 28 ku/M.
El indicador de expectativas influye positivamente a razón de 15,9 ku/M por unidad.
La temperatura ambiente influye positivamente a razón de 0,707 ku/M por cada 1°C.
Parte g:
La demanda de heladeras de un mes en particular se pronostica con un intervalo de predicción:
El predictor es:
13
yˆ x0 = 120,6 − 0,2315 ⋅ 505 + 0,01814 ⋅ 2000 + 28 ⋅ 0 + 15,92 ⋅ 0,66 + 0,707 ⋅ 30 = 70,7
La matriz tXX es:
36 18068 37300 3 6.43 667.3

18068 9136838 1.9E+07 1368 4104.52 337120
37300 1.9E+07 7.4E+07 3700 11786 887680
3 1368 3700 3 -1.4 24.3
6.43 4104.52 11786 -1.4 16.2479 170.646
667.3 337120 887680 24.3 170.646 15481.8
s y2ˆ x0 − ~y x0 = (1+ tx0 ( tXX ) −1 x0 ) ⋅ s 2 = 1,098 ⋅ 4,288 = 20,19
IP = yˆ x0 ± t 30;0,95 ⋅ s yˆ x0 − ~
y x0 = 70,7 ± 1,6973 ⋅ 20,19 = [63,1;78,4]
RM3) Una compañía desea evaluar el efecto de la publicidad televisiva en el desarrollo de una nueva
marca que introdujo recientemente en el mercado. Diversos estudios muestran que no es posible
encontrar una relación entre las ventas y la publicidad, porque intervienen demasiados factores de
difícil medición. Sin embargo puede evaluarse si la publicidad logra hacer conocer la marca entre la
gente. Se realizó una encuesta continua para tal fin: a partir del lanzamiento, cada semana se midió la
porción de gente que recordaba la marca espontáneamente. La intensidad de la publicidad emitida cada
semana se mide mediante los PBR (puntos brutos de rating). El rating de un programa de televisión es
el porcentaje de la población que ve ese programa. La suma de los ratings de los programas donde se
emitió el comercial durante la semana da los PBR, que resultan ser una medida de la cantidad de
contactos publicitarios realizados. Ocurre que el conocimiento de la marca depende de la publicidad
emitida desde el lanzamiento, no sólo de los PBR de la semana. Pero también la gente se olvida de la
marca si no vuelve a ver el comercial. Estas consideraciones dan lugar al modelo de la publicidad
demorada. En este modelo se utilizan varias variables para explicar el conocimiento de la marca: la
publicidad de la semana, la publicidad de la semana anterior, la de hace dos semanas, etc, y también
suele incluirse la publicidad acumulada desde el principio como otra variable más.
a) Construir el modelo de publicidad demorada con las siguientes variables: PBR(t), PBR(t-1), PBR(t-
2), PBR(t-3), y PBR acumulados desde el lanzamiento hasta t-4, siendo t la semana.
b) Estimar el modelo y evaluar su ajuste.
c) Explicar el significado de cada coeficiente de regresión. ¿Tienen los signos esperados? Evaluar el
modelo considerando estos resultados.
RM4) El departamento de Personal de una empresa lo contrata a usted como consultor para evaluar el
proceso de selección. Los candidatos a un puesto en la empresa son entrevistados por varios gerentes,
quienes emiten una calificación técnica en una escala en la que 0 significa totalmente inadecuado para
el puesto y 10 es perfectamente adecuado. Además son invitados a hacer un test en el que reciben una
14
calificación psicológica, en una escala donde 0 denota la presencia de serios trastornos de la

personalidad y 100 significa que el individuo es mentalmente sano. Luego del primer año de trabajo en
la empresa los empleados son evaluados en su desempeño por el supervisor en una escala donde 0
significa mal desempeño y 4 es la nota máxima.
Usted releva la información de calificación técnica, psicológica y de desempeño de las últimas 60
personas que ingresaron a la empresa. Ver el archivo de datos.
a) Evaluar en qué medida las dos variables medidas al ingreso explican el desempeño.
b) Realizar un análisis de residuos en busca de valores extraños. Revisando la información se encontró
que el dato número 39 corresponde al hijo de uno de los dueños de la empresa. ¿Qué decisión tomaría
con ese dato?
c) Estimar el modelo de acuerdo a la decisión tomada en el punto anterior, y evaluar el ajuste.
d) Explicar el significado de cada coeficiente de regresión.
e) Hay dos nuevos candidatos para cubrir un puesto: El primero recibió una calificación técnica de 9/10
pero tuvo una mala calificación psicológica: 10/100. El segundo recibió una calificación técnica más
modesta: 6/10, pero tuvo una calificación psicológica excelente: 90/100. Pronosticar el desempeño de
cada uno mediante intervalos al 90% de confianza. ¿Qué variable pesa más en el desempeño?
f) Mientras usted está presentando el modelo a la alta gerencia de la empresa el presidente interrumpe y
dice: “La forma en que medimos el desempeño de los empleados es incompleta. Hay personas de alto
desempeño individual que no saben trabajar en equipo y generan todo tipo de conflictos
improductivos”. Si esto fuera cierto, ¿cómo afectaría al modelo planteado? ¿Qué recomendaría usted
para mejorar el modelo y el proceso de selección de la empresa?
RM5) Una empresa revendedora de automóviles usados desea hacer un modelo de valuación. Para
ello reúne datos sobre los últimos 20 autos vendidos de un determinado modelo. Se piensa que la
antigüedad es el determinante principal del valor del auto. También se ha registrado el uso, en miles de
km recorridos, y el estado de la chapa, medido por la cantidad de piezas en mal estado. Como los
elementos opcionales pueden también influir en el precio se registró cuáles autos tenían equipo de aire
acondicionado y cuáles tenían algún sistema de seguridad como barras laterales, ABS, o air bags; y se
construyeron dos variables indicadoras con esta información. Finalmente se anotó el precio real de
cada auto vendido, en miles de $.
a) Estimar el modelo con estas 5 variables explicativas.
b) Estimar el modelo con las mismas 5 variables explicativas, pero con la variable respuesta (precio)
transformada al logaritmo natural. ¿Cuál modelo ajusta mejor?
c) La empresa tiene a la venta 4 autos del modelo que se ha estudiado. Sus características figuran en la
tabla siguiente. Pronosticar el precio de cada auto mediante un intervalo al 90% de confianza. Hacerlo
con ambos modelos (el del punto a y el del punto b).
Antigüedad Uso Aire Seguridad Estado
[años] [kkm] chapa
1 20 0 1 0
3 30 1 1 5
6 85 1 1 4
9 95 0 0 0
15
RM6) La velocidad de un corredor olímpico es decreciente con la longitud del trayecto, debido al
cansancio. Se ha medido el tiempo que tardó un corredor en cubrir trayectos de distinta longitud,
calculándose la velocidad como el cociente entre longitud y tiempo.
a) Estimar un modelo de regresión lineal simple.
b) Estimar un modelo de regresión polinómica de grado 4. ¿Cuál es mejor?
RM7) Una empresa de alimentos tiene dos plantas en las afueras de la ciudad. El intercambio de
mercadería entre ellas es intenso, las plantas están alejadas entre sí y la ciudad tiene graves problemas
de tránsito; por lo cual el gerente de Logística le ha encargado a usted un estudio sobre el asunto. Hay 3
caminos alternativos para hacer el viaje, pero no está claro cuál es el más conveniente. Se piensa que la
hora de partida puede influir en el tiempo de viaje porque el tránsito varía. Los conductores afirman
que el día de la semana también influye en el tránsito, siendo los lunes y los viernes los días más
complicados. Además mencionan que los días de lluvia se tarda más porque el tránsito avanza
lentamente. Se registró esa información para 100 viajes tomados al azar. Ver el archivo de datos.
a) Construir un modelo con las variables mencionadas y estimarlo.
b) Explicar el significado de cada coeficiente de regresión. ¿Cuál es el mejor camino?
c) Evaluar el ajuste del modelo.
d) Realizar un análisis de residuos en busca de valores extraños.
e) Consultando a los conductores por los datos extraños, se encontró que en los viajes número 37, 50,
62, 72, 93, 94, y 95 el camión se había demorado porque el camino estaba cortado por una
manifestación. Tomar una decisión sobre los datos extraños.
f) Estimar el modelo sin los valores extraños. ¿Cuál es el mejor camino?
g) Antes de presentar el resultado al gerente de Logística usted tiene la precaución de consultar a un
experimentado conductor de la empresa, quien le responde: “Sabe ingeniero, a mi no me gusta el
camino 2 porque dos por tres me encuentro con una manifestación”. ¿Qué haría usted? ¿Qué
inconveniente tendría incluir una variable indicadora que valiera 1 cuando hubo manifestación y 0 en
todo otro caso?
RM8) Un banco minorista busca optimizar la cantidad de personal en sus 1000 sucursales. Para ello se
eligen 40 sucursales de variadas características y ubicaciones en el país, se estudia detalladamente el
proceso, y se define la cantidad óptima de personal para cada una de ellas. Entonces se desea construir
un modelo que permita extender estos resultados al resto de la red. Se conocen las siguientes variables
para todas las sucursales de la red:
• Cantidad de cuentas corrientes.
• Cantidad de cuentas de ahorro.
• Cantidad de cuentas de inversión.
• Tránsito de la sucursal [personas/ día].
• Superficie cubierta de la sucursal.
• Presencia de cajero automático.
• Cantidad de bancos en un radio de 300 m.
Además, para las 40 sucursales de la muestra se conoce la cantidad de empleados a tiempo completo.
a) Construir un modelo con las variables mencionadas y estimarlo.
b) Explicar el significado de cada coeficiente de regresión.
16
c) Evaluar el ajuste del modelo.

d) Realizar un diagnóstico de multicolinealidad: Calcular el determinante de la matriz de correlaciones
de las variables explicativas, y los factores de inflación de la varianza de los coeficientes de regresión.
e) Modificar el modelo sacando variables para reducir la multicolinealidad. Tratar de conseguir que el
determinante de la matriz de correlaciones supere 0,1 manteniendo R2 lo más alto posible.
f) Una sucursal tiene las siguientes características: 500 cuentas corrientes, 1000 cuentas de ahorro,
3000 cuentas de inversión, un tránsito de 150 personas/ día, una superficie de 700 m2, tiene cajero
automático y compite con otros 7 bancos en un radio de 300 m. Trabajan en ella 19 personas. Estimar
la dotación óptima mediante un intervalo al 90% de confianza. Repetir la estimación con el modelo que
tiene todas las variables y compararlas.
17

Regresion Multiple

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Multiple

Cargado por

Copyright:

Formatos disponibles

REGRESIÓN LINEAL MÚLTIPLE

El modelo lineal general es:

yi = β 0 + β 1 ⋅ x1i + β 2 ⋅ x2i + ! + β k ⋅ xki + ε~i

~ y1  1 x11 x21 .. xk 1   ε~1 

Entonces el modelo se escribe:

Y las hipótesis que lo sustentan toman la forma:

Se dispone de una muestra de n vectores de datos (x1i ; x 2i ! xki ; ~

Esta propiedad incluye como caso particular: ∑ ~e = 0 ,

Se demuestra: σ b2 = ( tXX )−1 ⋅ σ 2

Luego se estima: sb2 = ( tXX )−1 ⋅ s 2

El estimador es: yˆ x0 = tx0 ⋅ b

Asumiendo H4 y por P5’ y P6’: yˆ x0 : N (Ε yˆ x0 ; V yˆ x0 )

Luego se estima: s y2ˆ x0 = tx0 ( tXX )−1 x0 ⋅ s 2

Inferencia sobre y x0 = tx0 ⋅ β + ε~

El predictor es: yˆ x0 = tx0 ⋅ b

Luego: s 2yˆ x0 − ~y x0 = (1+ tx0 ( tXX )−1 x0 ) ⋅ s 2

Nociones sobre Modelización:

1 r12 " r1k 

• Hay problema serio de multicolinealidad cuando: Det([rij]) < 0,1

La multicolinealidad no es el único problema que se encuentra en la modelización. La verificación de

En la aplicación de la regresión múltiple es habitual enfrentarse con un problema de modelización.

El Excel da el siguiente resultado:

Cada integrante de la familia implica 23,8$ más de gasto en alimentación.

Cada 1$ de ingreso familiar implica 0,08$ más de gasto en alimentación.

El valor de R2 = 0,973 indica un buen ajuste a la muestra.

El gasto medio se estima mediante un intervalo de confianza:

yˆ x0 = 25 + 23,8 ⋅ 4 + 0,08 ⋅ 2000 = 441

La matriz tXX es:

s y2ˆ x0 = tx0 ( tXX ) −1 x0 ⋅ s 2 = 0,132 ⋅ 940 = 124

IC = yˆ x0 ± t17;0,95 ⋅ s yˆ x0 = 441 ± 1,7396 ⋅ 124 = [421;460]

El gasto de una familia en particular se pronostica con un intervalo de predicción:

El predictor es el mismo yˆ x0 = 441

s 2yˆ x0 − ~y x0 = (1+ tx0 ( tXX ) −1 x0 ) ⋅ s 2 = 1,132 ⋅ 940 = 1063

El Excel da el siguiente resultado:

Si le pedimos al Excel que muestre los residuos naturales y estandarizados tenemos:

Incorporando la variable Promociones el Excel arroja:

El problema de este modelo es la multicolinealidad.

Donde pueden observarse varios coeficientes bastante altos.

Significado de los coeficientes de regresión:

La demanda de heladeras de un mes en particular se pronostica con un intervalo de predicción:

yˆ x0 = 120,6 − 0,2315 ⋅ 505 + 0,01814 ⋅ 2000 + 28 ⋅ 0 + 15,92 ⋅ 0,66 + 0,707 ⋅ 30 = 70,7

La matriz tXX es:

36 18068 37300 3 6.43 667.3

s y2ˆ x0 − ~y x0 = (1+ tx0 ( tXX ) −1 x0 ) ⋅ s 2 = 1,098 ⋅ 4,288 = 20,19

calificación psicológica, en una escala donde 0 denota la presencia de serios trastornos de la

c) Evaluar el ajuste del modelo.

También podría gustarte