Está en la página 1de 21

Regresión Lineal Múltiple

Samuel Martı́nez
August 13, 2019

1 Introducción
Los modelos de regresión lineal múltiple son la extensión natural de los modelos
de regresión lineal simple con varias variables independientes es decir:

y = β0 + β1 x1 + ... + βk xk
Donde β0 , ..., βk son los coeficientes estimados para cada una de las variables
independientes.

1.1 Medidas de Bondad de Ajuste


Las medidas de bondad de ajuste son similares al modelo de regresión lineal
simple. Las cuales son:

1. Coeficiente de determinación R2 es similar al coeficiente de correlación


simple. La diferencia radica de que es el porcentaje de varianza explicada
de la variable respuesta por las variables independientes.
2. Factores de inflación de la varianza (VIF). La multicolinealidad es un
problema propio de los modelos de regresión lineal múltiple dado que se
tienen muchas relaciones entre las variables independientes se debe elim-
inar este sobre efecto de estimación en la variable respuesta. Los valores
(VIF) deben ser menores a 10 entre las variables para garantizar que no
existe sobre estimación.
3. Independencia entre los errores. Hipótesis nula la autocorrelación es cero.

1
1.2 Ejercicios
1. Borron’s realiza revisiones anuales de los corredores de bolsa en lı́nea, en
la que se incluyen tanto corredores a los que se les puede contactar vı́a
un explorador de Internet, ası́ como corredores que tienen acceso directo
y que ponen al cliente en contacto directo con el servidor de una red de
corredores de bolsa. La oferta y el desempeño de cada corredor se evalúa
en seis áreas, empleando para cada área una escala de 0 a 5. Los resultados
se ponderan para obtener una evaluación general y a cada corredor se le
asigna una evaluación final que va de cero a cinco estrellas. Tres de las
áreas evaluadas son ejecución de la operación, facilidad de uso y gama
de ofertas. Un 5 en ejecución de la operación significa que la llegada del
pedido y el proceso de ejecución fluyó con facilidad de un paso a otro.
En facilidad de uso, 5 significa que el sitio es de fácil uso y que se puede
ajustar para ver lo que le interesa al usuario ver. Un 5 en gama de ofertas
significa que todas las transacciones pueden realizarse en lı́nea. En los
datos siguientes se presentan las puntuaciones obtenidas en ejecución de
la operación, facilidad de uso y gama de ofertas y el número de estrellas
obtenidas por los integrantes de una muestra de 10 corredores de bolsa
(Barron’s, 10 de marzo de 2003).

Corredor Ejecución de operación Uso Gama Estrellas


Wall St. Access 3.7 4.5 4.8 4.0
E*TRADE (Power) 3.4 3.0 4.2 3.5
E*TRADE (Standard) 2.5 4.0 4.0 3.5
Preferred Trade 4.8 3.7 3.4 3.5
my Track 4.0 3.5 3.2 3.5
TD Waterhouse 3.0 3.0 4.6 3.5
Brown y Co. 2.7 2.5 3.3 3.0
Brokerage America 1.7 3.5 3.1 3.0
Merrill Lynch Direct 2.2 2.7 3.0 2.5
Strong Funds 1.4 3.6 2.5 2.0

(a) Determine la ecuación de regresión estimada que se puede usar para


predecir el número de estrellas dadas las evaluaciones a ejecución,
facilidad de uso y gama de ofertas.
(b) Emplee la prueba F para determinar la significancia global de la
relación. Empleando como nivel de significancia 0.95, ¿cuál es la
conclusión?
(c) Emplee la prueba t para determinar la significancia de cada una de
las variables independientes. Empleando como nivel de significancia
0.05, ¿cuál es la conclusión?
(d) Elimine cualquiera de las variables independientes que no sea signi-
ficativa para la ecuación de regresión estimada. ¿Cuál es la ecuación

2
de regresión estimada que recomienda? Compare R2 con el valor de
R2 para el inciso a). Analice las diferencias.

2. La sección “Guı́a para el usuario” del sitio en la Red de la revista Car and
Driver proporciona información sobre pruebas viales (road test) de au-
tomóviles, camiones, SUV (acrónimo en inglés de Sport Utility Vehicle) y
vans. Abajo se presentan las puntuaciones generales para calidad general,
modelo de vehı́culo, frenado, manejo, economı́a de combustible, confort
interior, aceleración, confiabilidad, ajuste y terminado, transmisión dadas
a diversos vehı́culos empleando una escala del 1 (lo peor) a 10 (lo mejor).
Aquı́ se presenta una parte de los datos de 14 automóviles Deportivos/GT
(www.caranddriver.com, 7 de enero de 2004).

Deportivos/GT General Manejo Confiabilidad Ajuste y terminado


Acura 3.2CL 7.80 7.83 8.17 7.67
Acura RSX 9.02 9.46 9.35 8.97
Audi TT 9.00 9.58 8.74 9.38
BMW 3-Series/M3 8.39 9.52 8.39 8.55
Chevrolet Corvette 8.82 9.64 8.54 7.87
Ford Mustang 8.34 8.85 8.70 7.34
Honda Civic Si 8.92 9.31 9.50 7.93
Infiniti G35 8.70 9.34 8.96 8.07
Mazda RX-8 8.58 9.79 8.96 8.12
Mini Cooper 8.76 10.00 8.69 8.33
Mitsubishi Eclipse 8.17 8.95 8.25 7.36
Nissan 350Z 8.07 9.35 7.56 8.21
Porsche 911 9.55 9.91 8.86 9.55
Toyota Celica 8.77 9.29 9.04 7.97

(a) Dé una ecuación de regresión estimada usando manejo, confiabilidad,


y ajuste y terminado para predecir la calidad general.
(b) Otro de los automóviles deportivos/GT evaluados por Car and Driver
es el Honda Accord. Las evaluaciones de manejo, confiabilidad, y
ajuste y terminado dadas a este automóvil fueron 8.28, 9.06 y 8.07,
respectivamente. Estime la evaluación general dada a este automóvil.
(c) Dé un intervalo de 95% de confianza para la calidad general de todos
los automóviles deportivos y GT con las caracterı́sticas enumeradas
en el inciso a).
(d) Dé un intervalo de predicción de 95% para la calidad general del
Honda Accord descrito en el inciso b).
(e) La evaluación general dada por Car and Driver para el Honda Accord
fue 8.65. Compare esta evaluación con las estimaciones obtenidas en
los incisos b) y d).

3
3. Un estudio realizado a lo largo de 10 años por la American Heart Asso-
ciation proporcionó datos sobre la relación que tienen la edad, la presión
sanguı́nea y el fumar sobre el riesgo de sufrir un infarto. Los datos que se
dan a continuación se obtuvieron como parte de este estudio. El riesgo se
interpreta como la probabilidad (multiplicada por 100) de que el paciente
sufra un infarto en los próximos 10 años. Para fumar, defina una variable
ficticia que tome el valor 1 si la persona es fumadora y el valor 0 si no es
fumadora.

Riesgo Edad Presión Fumador


12 57 152 No
24 67 163 No
13 58 155 No
56 86 177 Sı́
28 59 196 No
51 76 189 Sı́
18 56 155 Sı́
31 78 120 No
37 80 135 Sı́
15 78 98 No
22 72 152 No
36 70 173 Sı́
15 67 135 Sı́
48 77 209 Sı́
15 60 199 No
36 82 119 Sı́
8 66 166 No
34 80 125 Sı́
3 62 117 No
37 59 207 Sı́

(a) Obtenga la ecuación de regresión estimada que relaciona el riesgo de


infarto con la edad, la presión sanguı́nea y el fumar o no fumar.
(b) ¿Es el fumar un factor significativo para el riesgo de infarto? Ex-
plique. Use α = 0.05.
(c) ¿Cuál es la probabilidad de que Art Apeen sufra un infarto en los
próximos 10 años, si tiene 68 años, fuma y su presión sanguı́nea es
175? ¿Qué recomendará el médico hacer a este paciente?

4
4. En los datos siguientes se presenta peso en vacı́o, caballos de fuerza y
velocidad en 14 de milla de 10 automóviles deportivos y GT. Supóngase
que se tiene también el precio de cada uno de estos automóviles. Todo el
conjunto de datos es el siguiente.
1
Automóvil deportivo y GT Precio (miles de $) Peso en vacio (lb) Caballos de fuerza (lb) velocidad en 4 de milla (mph)
Accura Integra Type R 25035 2577 195 90.7
Accura NSX-T 93758 3066 290 108.0
BMW Z3 2.8 40900 2844 189 93.2
Chevrolet Camaro Z28 24865 3439 305 103.2
Chevrolet Corvette Convertible 50144 3246 345 102.1
Dodge Viper RT/10 69742 3319 450 116.2
Ford Mustang GT 23200 3227 225 91.7
Honda Prelude Type SH 26382 3042 195 89.7
Mercedes-Benz CLK320 44988 3240 215 93.0
Mercedes-Benz SLK230 42762 3025 185 92.3
Mitsubishi 3000GT VR-4 47518 3737 320 99.0
Nissan 240SX SE 25066 2862 155 84.6
Pontiac Firebird Trans Am 27770 3455 305 103.2
Porsche Boxster 45560 2822 201 93.2
Toyota Supra Turbo 40989 3505 320 105.0
Volvo C70 41120 3285 236 97.0

(a) Obtenga la ecuación de regresión estimada en la que se emplee precio


y caballos de fuerza para predecir la velocidad en 14 de milla.
(b) Verifique si hay observaciones atı́picas. ¿A qué conclusión llega?
(c) ¿Hay alguna observación influyente? Explique.

5
5. La revista SmartMoney evaluó 65 zonas metropolitanas para determinar si
el valor de las casas (home values) estaba cambiando (are headed). La pun-
tuación para una ciudad ideal era 100 y significaba que todos los factores
medidos eran tan favorables como era posible. Zonas cuya puntuación
era 60 o más, eran zonas en las que era posible una revalorización de los
precios; zonas cuya puntuación era menor a 50 eran zonas que podrı́an
ver una disminución en el valor de la vivienda. Dos de los factores evalu-
ados fueron resistencia a la recesión y accesibilidad de la zona. Estos dos
factores se evaluaron empleando una escala de 0 (evaluación más baja) a
10 (evaluación más alta). Acontinuación se presentan los datos obtenidos
en una muestra de 20 ciudades evaluadas por SmartMoney (SmartMoney,
febrero de 2002).

Área metropolitana Resistencia a la recesión Accesibilidad Puntuación


Tucson 10 7 70.7
Fort Worth 10 7 68.5
San Antonio 6 8 65.5
Richmond 8 6 63.6
Indianapolis 4 8 62.5
Philadelphia 0 10 61.9
Atlanta 2 6 60.7
Phoenix 4 5 60.3
Cincinnati 2 7 57.0
Miami 6 5 56.5
Hartford 0 7 56.2
Birmingham 0 8 55.7
San Diego 8 2 54.6
Raleigh 2 7 50.9
Oklahoma City 1 6 49.6
Orange County 4 2 49.1
Denver 4 4 48.6
Los Ángeles 0 7 45.7
Detroit 0 5 44.3
Nueva Orleáns 0 5 41.2

(a) Dé una ecuación de regresión estimada que sirva para dar la pun-
tuación conociendo la resistencia a la recesión. Empleando como
nivel de significancia 0.05, pruebe la significancia de la relación
(b) ¿Proporciona la ecuación obtenida en el inciso a) un buen ajuste a
los datos? Explique.
(c) Obtenga una ecuación de regresión estimada que sirva para predecir
la puntuación a partir de la resistencia a la recesión y la accesibilidad.
Empleando como nivel de significancia 0.05 pruebe la significancia
global.

6
6. The State of Vermont is divided into 10 Health Planning Districts—they
correspond roughly to counties. The following data represent the percent-
age of live births of babies weighing under 2500 grams (Y ), the fertility
rate for females 17 years of age or younger (X1 ), total high-risk fertil-
ity rate for females younger than 17 or older than 35 years of age (X2 ),
percentage of mothers with fewer than 12 years of education (X3 ), per-
centage of births to unmarried mothers (X4 ), and percentage of mothers
not seeking medical care until the third trimester (X5 ).

Y X1 X2 X3 X4 X5
6.1 22.8 43.0 23.8 9.2 6
7.1 28.7 55.3 24.8 12.0 10
7.4 29.7 48.5 23.9 10.4 5
6.3 18.3 38.8 16.6 9.8 4
6.5 21.1 46.2 19.6 9.8 5
5.7 21.2 39.9 21.4 7.7 6
6.6 22.2 43.1 20.7 10.9 7
8.1 22.3 48.5 21.8 9.5 5
6.3 21.8 40.0 20.6 11.6 7
6.9 31.2 56.7 25.2 11.6 9

Estimate the ”best” line of least squares to the data.

7
7. Una empresa de paqueterı́a evalúa los tiempos de entrega, por lo que
recaba información sobre los tiempos de recorrido de rutas junto con las
distancias recorridas y el número de paquetes entregados. En la tabla
siguiente se muestran los datos.

Ruta Tiempo del recorrido (horas) Recorrido (km) Paquetes entregados


1 10.4 165 5
2 5.7 82 4
3 9.7 165 5
4 7.6 165 3
5 5.2 82 3
6 7.3 132 2
7 8.3 124 4
8 7 107 4
9 8.5 149 4
10 7.1 149 3
11 6.7 132 4
12 6.1 140 2

Determine la ecuación de regresión para el mejor modelo posible, con el


tiempo de recorrido como variable dependiente.
8. En la tabla siguiente se presenta una lista con diversas caracterı́sticas de
6 autos hı́bridos que se venden en Estados Unidos.
Marca Modelo Precio(USD) Millas por galón en ciudad Millas por galón en carretera Potencia(hp) rpm
Toyota Prius 20875 61 50 76 5000
Honda Civic 20650 48 47 93 5700
Honda Accord 29990 30 37 255 6000
Ford Escape 26780 36 31 133 6000
Lexus RX 400h 49060 31 27 268 5600
Toyota Highlander 39855 33 28 268 5600

(a) ¿Cuál variable incorporarı́a usted primero al modelo? ¿Por qué?


(b) ¿Cuál o cuáles variables no incorporarı́a usted al modelo? ¿Por qué?
(c) Determine la ecuación de regresión para el mejor modelo posible,
utilizando el precio como variable dependiente.

8
9. En la tabla siguiente se muestran las calificaciones que obtuvieron 15 es-
tudiantes en 4 asignaturas.

Estadı́stica inferencial Estadı́stica descriptiva Fundamentos de matemáticas Matemáticas financieras


1 6.5 7.5 7.5 6.5
2 6.5 7 6.5 6
3 6.5 8 6.5 7
4 7.5 10 7 8
5 8 9 9 8.5
6 7.5 8 8.5 7.5
7 6 6.5 7.5 5.5
8 6.5 8 7 7.5
9 6.5 7.5 7 6.5
10 6.5 7 6.5 5
11 5.5 6 6 5
12 7 8 5.5 7
13 7.5 8.5 8 7.5
14 7.5 9.5 7 8
15 7.5 6.5 7.5 5

(a) Construya la ecuación regresión lineal múltiple, utilizando “estadı́stica


inferencial” como la variable dependiente.
(b) Determine el coeficiente de determinación múltiple e interprételo.
(c) Plantee la hipótesis para realizar una prueba global de significación
para la regresión utilizando el estadı́stico F de Fisher, interprételo y
establezca la conclusión, tanto en términos de aceptar o rechazar la
hipótesis nula como en términos de los datos mismos.
(d) Si las conclusiones de b) muestran que tiene sentido, plantee hipótesis
para realizar pruebas sobre los coeficientes de regresión parcial de la
ecuación de regresión. Determine los estadı́sticos de prueba t de
Student y establezca las conclusiones correspondientes.
(e) ¿Las conclusiones de c) indican que se debe modificar el modelo? Si
es afirmativo, hágalo y repita los incisos c) y d).

9
10. En un estudio de gastos con tarjeta de crédito se reunieron datos sobre
ingreso anual, número de miembros de la familia y gasto anual con tarjeta
de crédito y se obtuvieron los siguientes resultados:

Ingreso anual Miembros de la familia Gastos anuales con tarjeta


540000 4 4020
300000 3 3160
320000 5 5100
500000 6 4750
310000 3 1870
550000 3 4100
370000 2 2750
400000 3 3350
660000 5 4770
510000 4 4150
250000 4 4210
480000 5 4220
270000 2 2480
330000 3 2520
650000 4 4220
630000 5 4970
420000 7 4420
210000 3 2450
440000 2 3000
370000 6 4180
620000 7 5680
210000 4 3630
550000 8 5310
420000 3 3020
410000 8 4830
340000 6 3590
670000 5 5040
500000 3 3610
670000 6 5350
550000 7 5370
520000 3 3890
620000 4 4710

10
Ingreso anual Miembros de la familia Gastos anuales con tarjeta
640000 3 4160
220000 4 3580
290000 5 3890
390000 3 3980
360000 2 3130
390000 5 4190
540000 4 3830
230000 7 4130
270000 3 2920
260000 8 4610
610000 3 4270
300000 8 3070
220000 3 3080
460000 3 4820
660000 5 5150

(a) Construya la ecuación regresión lineal múltiple, utilizando “gastos


anuales con tarjeta” como la variable dependiente.
(b) Determine el coeficiente de determinación múltiple e interprételo.
(c) Plantee la hipótesis para realizar una prueba global de significación
para la regresión utilizando el estadı́stico F de Fisher, interprételo y
establezca la conclusión, tanto en términos de aceptar o rechazar la
hipótesis nula como en términos de los datos mismos.
(d) Si las conclusiones de b) muestran que tiene sentido, plantee hipótesis
para realizar pruebas sobre los coeficientes de regresión parcial de la
ecuación de regresión. Determine los estadı́sticos de prueba t de
Student y establezca las conclusiones correspondientes.
(e) ¿Las conclusiones de c) indican que se debe modificar el modelo? Si
es afirmativo, hágalo y repita los incisos c) y d).

11
11. En una muestra de 10 supermercados se recopiló información sobre la
proporción de clientes que preferı́an una marca de determinado producto,
junto con el promedio de ingresos mensuales y el ı́ndice de escolaridad de
las familias del área de influencia de cada supermercado, con los resultados
que se muestran a continuación:

Supermercado Proporción de preferencia


de la marca Promedio de ingresos mensuales Índice de escolaridad
A 56.1 4 10.3
B 43.2 2.4 9.5
C 55.5 7.1 7.6
D 54.9 6.1 9.8
E 62.7 7.7 10.8
F 42.2 2.8 11.9
G 40.2 5.6 8.2
H 34 2.4 10
I 43.8 7.1 6.8
J 43.5 4.7 10.7

Considerando la proporción de consumidores que prefieren la marca en


cuestión como la variable dependiente, indique si ambas variables inde-
pendientes contribuyen a un modelo de regresión lineal múltiple. Explique
su respuesta.

12
12. Para evaluar la efectividad de los anuncios en periódicos y en radio para
la promoción de cierto artı́culo, se recopilaron datos sobre cantidades de
anuncios en ambos medios y en 20 ciudades de tamaño similar y se obtu-
vieron los siguientes resultados:

Ciudad Ventas Anuncios en periódicos Anuncios en radio


1 1070300 440 0
2 1230900 440 0
3 962000 275 275
4 687500 275 275
5 1001000 330 330
6 1068100 330 330
7 1024100 385 385
8 1294700 385 385
9 970200 275 440
10 1080200 275 440
11 1790800 495 495
12 1734700 495 495
13 1148400 0 550
14 1005400 0 550
15 1461900 275 605
16 1463000 275 605
17 1545500 330 660
18 1579600 330 660
19 1673100 385 715
20 1915100 385 715

Considerando las ventas como la variable dependiente indique si am-


bas variables independientes contribuyen a un modelo de regresión lineal
múltiple. Explique su respuesta.

13
13. En un estudio de hábitos de ahorro, se recopiló información sobre 15 fa-
milias:

Familia Ahorro Ingreso mensual Arriendo Alimentos Medicinas


1 660 8250 2805 3135 825
2 0 6270 2475 2970 330
3 1650 13860 64620 3960 1320
4 1320 11220 3960 4290 0
5 495 9240 3630 3300 990
6 825 10230 2640 4125 825
7 2640 17160 4950 4620 1815
8 0 14520 5775 5115 1485
9 3135 11880 2970 2805 660
10 990 12705 3465 4455 1155
11 165 6765 2640 3465 0
12 495 8745 2145 3135 495
13 660 6435 1650 2640 330
14 0 8250 2970 3300 825
15 1485 15840 4620 5280 1485
16 1634 17424 5082 5808 1634

Considerando el ahorro como la variable dependiente, indique si las 4 vari-


ables independientes contribuyen a un modelo de regresión lineal múltiple.
Explique la respuesta.

14
14. En la tabla siguiente se resumen los datos de 20 modelos de automóviles.

Auto Tamaño del motor (cm3) Peso (kg) Longitud Rendimiento de gasolina (km/l)
1 3020 2148 4.50 5.67
2 1400 1225 3.23 10.00
3 4400 2500 4.78 4.00
4 3510 2263 4.60 5.00
5 3500 2035 4.50 6.00
6 3050 1925 4.30 6.00
7 850 1013 2.98 11.00
8 3050 1983 4.25 5.67
9 1300 1495 3.83 7.33
10 2320 1600 3.25 66.67
11 3180 2070 4.45 5.67
12 850 1010 3.08 9.67
13 850 985 2.93 11.33
14 4000 2343 4.68 4.33
15 2500 1675 3.93 7.33
16 2250 1685 4.03 7.67
17 910 880 2.75 14.67
18 2500 1688 3.95 8.00
19 970 1133 3.13 10.67
20 1110 1078 3.28 9.00

Ajuste una ecuación de regresión lineal múltiple, con el rendimiento de la


gasolina como variable dependiente, y:
(a) Determine el coeficiente de determinación múltiple e interprételo.
(b) Plantee la hipótesis para realizar una prueba global de significación
para la regresión utilizando el estadı́stico F de Fisher, interprételo y
establezca la conclusión, tanto en términos de aceptar o rechazar la
hipótesis nula como en términos de los datos mismos.
(c) Si las conclusiones de b) muestran que tiene sentido, plantee hipótesis
para realizar pruebas sobre los coeficientes de regresión parcial de la
ecuación de regresión. Determine los estadı́sticos de prueba t de
Student y establezca las conclusiones correspondientes.
(d) ¿Las conclusiones de c) indican que se debe modificar el modelo? Si
la respuesta es afirmativa, hágalo y repita los incisos c) y d).
(e) ¿Los residuos son normales? Concluya con base en su respuesta.

15
15. Un despacho de auditores analiza la relación entre el tiempo que sus au-
ditores dedican a su labor, junto con el tiempo de computadora que se
utiliza y la magnitud de los errores contables que se detectan y encuentra
los siguientes datos para los meses de un año determinado

Mes Magnitud de los errores contables Horas de trabajo de los auditores Horas de computadora
Ene. 500000 21 34
Feb. 470000 19 29
Mar. 490000 20 32
Abr. 500000 18 30
Mayo 480000 18 31
Jun. 510000 19 33
Jul. 490000 21 35
Ago. 500000 21 33
Sept. 490000 20 33
Oct. 480000 20 32
Nov. 520000 21 29
Dic. 550000 22 31

Ajuste una ecuación de regresión lineal múltiple, con la magnitud de los


errores contables como variable dependiente, y:

(a) Determine el coeficiente de determinación múltiple e interprételo.


(b) Plantee la hipótesis para realizar una prueba global de significación
para la regresión utilizando el estadı́stico F de Fisher, interprete éste
y establezca la conclusión, tanto en términos de aceptar o rechazar
la hipótesis nula como en términos de los datos mismos.
(c) Si las conclusiones de b) muestran que tiene sentido, plantee hipótesis
para realizar pruebas sobre los coeficientes de regresión parcial de la
ecuación de regresión. Determine los estadı́sticos de prueba t de
Student y establezca las conclusiones correspondientes.
(d) ¿Las conclusiones de c) indican que se debe modificar el modelo? Si
la respuesta es afirmativa, hágalo y repita los incisos c) y d).
(e) Realice un análisis de los residuales del modelo al que se llegó hasta
aquı́:
(f) ¿Los residuos son normales?.

16
16. Jon Grant, supervisor de la Carven Manufacturing Facility, está exami-
nando la relación existente entre la calificación que obtiene un empleado
en una prueba de aptitud, su experiencia previa y el éxito en el trabajo.
Se estudia y se pondera la experiencia de un empleado en trabajos an-
teriores, y se obtiene una calificación entre 2 y 12. La medida del éxito
en el empleo se basa en un sistema de puntuación que incluye producción
total y eficiencia, con un valor máximo posible de 50. Grant tomó una
muestra de seis empleados con menos de un año de antigüedad y obtuvo
lo siguiente:

Resultado de la prueba de aptitud X1 Experiencia en trabajos anteriores X2 Evaluación del desempeño Y


74 5 28
87 11 33
69 4 21
93 9 40
81 7 38
97 10 46

(a) Desarrolle la ecuación de estimación que mejor describa estos datos.


(b) Si un empleado obtuvo 83 puntos en la prueba de aptitud y tenı́a
una experiencia en trabajos anteriores de 7, ¿qué evaluación de de-
sempeño puede esperar?

17
17. The Money Bank desea abrir nuevas cuentas de cheques para clientes que
emitirán al menos 30 cheques al mes. Como ayuda en la selección de
los nuevos clientes, el banco ha estudiado la relación entre el número de
cheques expedidos y la edad y el ingreso anual de ocho de sus clientes
actuales. La variable EDAD se registró al año más cercano, y la variable
INGRESO anual se registró en miles de dólares. Los datos se presentan a
continuación:

Cheques Edad Ingreso


29 37 16.2
42 34 25.4
9 48 12.4
56 38 25.0
2 43 8.0
10 25 18.3
48 33 24.2
4 45 7.9

(a) Desarrolle una ecuación de estimación que utilice las variables edad
e ingreso para predecir el número de cheques emitidos por mes.
(b) ¿Cuántos cheques al mes se esperarı́a de un cliente de 35 años de
edad con un ingreso anual de $22,500?

18
18. David Ichikawa es un agente de bienes raı́ces que trabaja con urbanistas
que construyen casa nuevas. Aunque gran parte de su trabajo es vender
las casas terminadas, también consulta con los constructores cuánto deben
pagar por cada lote. En un área residencial, recolectó la siguiente infor-
mación de ventas cerradas de lotes aptos para construir; registró PRECIO
de venta (en miles de dólares), TAMAÑO (pies lineales de frente en la
calle) y una variable indicativa (0 o 1) de si el lote tiene VISTA. De las
listas de impuestos puede estimar el área del lote a partir de un avalúo
basada en el frente.

PRECIO TAMAÑO ÁREA (=TAMAÑO2 ) VISTA


56.2 175 30625 1
42.5 125 15625 1
67.5 200 40000 1
39.0 115 13225 1
33.3 125 15625 0
29.0 100 10000 0
30.0 108 11664 0
48.0 170 28900 0
44.3 160 25600 0

(a) ¿Qué fracción de la variación de PRECIO explica esta ecuación?


(b) ¿Ayudó utilizar ÁREA (el cuadrado del TAMAÑO) en la regresión?
Explique su respuesta.

19
19. Camping-R-Us, un fabricante nuevo de equipo para acampar, planea com-
ercializar tiendas de campaña para dos personas que se pueden utilizar en
casi cualquier clima. Para establecer un precio justo, toma en consid-
eración ocho tiendas de campaña comparables que se encuentran en el
mercado, en términos de peso y superficie. Los datos obtenidos son los
siguientes:

Peso (onzas) Superficie (pies cuadrados) Precio


Kelty Nautilus 94 37 $225
Nort Face Salamander 90 36 240
U Mountain Hut 112 35 225
Sierra Designs Meteor light 92 40 220
Eureka! Cirrus 3 93 48 167
Sierra Designs Clip 3 98 40 212
Eureka! Timberline Deluxe 114 40 217
Diamond Brand Free Spirit 108 35 200

(a) Calcule la ecuación de mı́nimos cuadrados para predecir el precio a


partir del peso y la superficie.
(b) Si la tienda de Camping-R-Us pesa 100 onzas y tiene una superficie
de 46 pies cuadrados, ¿a qué precio debe venderla?

20
20. Home Depot es una cadena en crecimiento de centros de descuento en
materiales para mejorar las casas. La tabla proporciona información de los
reportes anuales, que son los datos tı́picos que usan los analistas financieros
para predecir el ingreso futuro de la compañı́a.

(a) Desarrolle la ecuación de regresión múltiple que describa el ingreso


total como función del número de tiendas y el tamaño promedio de
la tienda. ¿Qué factor parece ser más importantes para determinar
el crecimiento en los ingresos? Como consultor, ¿recomendarı́a una
estrategia de expansión enfocada a una dispersión geográfica amplia
(aumentando el número de tiendas) o la construcción de un número
menor de tiendas muy grandes (que aumenta el tamaño de las tien-
das)?
(b) Desarrolle una columna de ingreso promedio por empleado. Encuen-
tre la recta de regresión que mejor describa esa variable como función
del año y el tamaño promedio de la tienda. ¿Son más productivos
los empleados en tiendas más grandes o es la recta de tendencia (el
factor de regresión AÑO) un factor más importante? Como analista,
¿calificarı́a la tendencia a poner tiendas más grandes como una es-
trategia exitosa, o juzgarı́a que la inflación y otros factores son más
importantes.

Año Número de tiendas Tamaño promedio de tienda ingreso total Número de empleados
1 31 77 433 4000
2 50 80 701 5400
3 60 80 1001 6600
4 75 82 1454 9100
5 96 86 2000 13000
6 118 88 2758 17500
7 145 92 3815 21500
8 174 95 5136 28000
9 214 98 7148 38900
10 264 100 9239 50600
11 340 103 12477 67300

21