Está en la página 1de 5

Paquetes de software En este capítulo, veremos cómo encontrar la ecuación de regresión de mejor ajuste para un con-

para regresión junto dado de datos, y cómo analizar la ecuación obtenida. Aunque mostraremos cómo se puede ha-
cer regresión múltiple a mano o con una calculadora, pronto será evidente que no conviene hacer ni
siquiera un problema real pequeño a mano. Afortunadamente, hay muchos paquetes de software dis-
ponibles para hacer regresiones múltiples y otros análisis estadísticos. Estos paquetes realizan las
“operaciones numéricas” y lo dejan libre para concentrarse en el análisis del significado de la ecua-
ción de estimación resultante.
La regresión múltiple nos permitirá también ajustar tanto curvas como rectas. Usando las técni-
cas de variables ficticias, podemos incluir factores cualitativos, tales como el sexo, en nuestra regre-
sión múltiple. Esta técnica nos permitirá analizar el problema de discriminación con que abrimos el
presente capítulo. Las variables ficticias y las curvas de ajuste son solamente dos de las muchas téc-
nicas de modelado que se pueden utilizar en la regresión múltiple para aumentar la precisión de nues-
tras ecuaciones de estimación.

Ejercicios 13.1
Conceptos básicos
■ 13-1 ¿Por qué utilizamos regresión múltiple en lugar de regresión simple al estimar una variable dependiente?
■ 13-2 ¿De qué manera se utilizarán las variables ficticias en nuestro estudio de regresión múltiple?
■ 13-3 ¿A qué se refiere la palabra múltiple en la frase regresión múltiple?
■ 13-4 La dueña de una cadena de almacenes desea predecir las ventas mensuales a partir del tamaño de la ciu-
dad donde se localiza una tienda. Después de ajustar un modelo de regresión simple, decide que desea
incluir el efecto de la temporada del año en el modelo. ¿Se puede hacer esto utilizando las técnicas del pre-
sente capítulo?
■ 13-5 Describa los tres pasos del proceso de análisis de regresión múltiple y correlación.
■ 13-6 ¿Los procedimientos utilizados en la regresión múltiple difieren mucho de los usados en regresión sim-
ple? Explique su respuesta.

13.2 Deducción de la ecuación


de regresión múltiple
Un problema que Veamos cómo podemos calcular la ecuación de regresión múltiple. Por conveniencia, utilizaremos
ilustra la regresión sólo dos variables independientes en el problema que trabajaremos en esta sección. Sin embargo,
múltiple tenga en mente que en principio la misma clase de técnica se aplica a cualquier número de variables
independientes.
El Servicio Interno de Contribuciones (IRS, Internal Revenue Service) de Estados Unidos está
tratando de estimar la cantidad mensual de impuestos no pagados descubiertos por su departamento
de auditorías. En el pasado, el IRS estimaba esta cantidad con base en el número esperado de horas de
trabajo de auditorías de campo. En los últimos años, sin embargo, las horas de trabajo de auditorías
de campo se han convertido en un pronosticador errático de los impuestos no pagados reales. Como
resultado, la dependencia está buscando otro factor para mejorar la ecuación de estimación.
El departamento de auditorías tiene un registro del número de horas que usa sus computadoras
para detectar impuestos no pagados. ¿Podríamos combinar esta información con los datos referen-
tes a las horas de trabajo de auditorías de campo y obtener una ecuación de estimación más precisa
para los impuestos no pagados descubiertos cada mes? En la tabla 13-1 se presentan esos datos pa-
ra los últimos 10 meses.
Símbolos adecuados En la regresión simple, X es el símbolo utilizado para los valores de la variable independiente. En la
regresión múltiple tenemos más de una variable independiente. Entonces, seguiremos usando X, pero agre-
garemos un subíndice (por ejemplo, X1, X2) para diferenciar cada una de las variables independientes.

13.2 Deducción de la ecuación de regresión múltiple 567


Tabla 13-1 X1 X2 Y
Horas de trabajo de Horas en Impuestos reales
Datos de los registros de
auditoría de campo computadora no pagados descubiertos
auditorías del IRS de los
últimos 10 meses Mes (dos ceros omitidos) (dos ceros omitidos) (millones de dólares)

Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27

Definición de las En este problema, X1 representa el número de horas de trabajo de auditoría de campo y X2 el nú-
variables mero de horas en computadora. La variable dependiente, Y, será los impuestos reales no pagados des-
cubiertos.
Ecuación de Recuerde que en la regresión simple, la ecuación de estimación Ŷ  a  bX describe la relación
estimación para entre las dos variables X y Y. En regresión múltiple, debemos extender esa ecuación, agregando un
regresión múltiple término para cada nueva variable. En símbolos, la ecuación 13-1 es la fórmula que se usa cuando te-
nemos dos variables independientes:

Ecuación de estimación que describe la relación entre tres variables


Ŷ  a  b1X1  b2X2 [13-1]

donde,
• Ŷ  valor estimado correspondiente a la variable dependiente
• a  ordenada Y
• X1 y X2  valores de las dos variables independientes
• b1 y b2  pendientes asociadas con X1 y X2, respectivamente
Visualización de la Podemos visualizar la ecuación de estimación simple como una recta en una gráfica; de manera
regresión múltiple similar, podemos representar una ecuación de regresión múltiple de dos variables como un plano,
como el que ilustra la figura 13-1. Se trata de una forma o figura tridimensional, con profundidad,
largo y ancho. Para obtener una idea intuitiva de esta forma tridimensional, visualice la intersección
de los ejes Y, X1 y X2 como un rincón de una habitación.
La figura 13-1 es una gráfica de los 10 puntos de la muestra y el plano alrededor del cual estos
puntos parecen agruparse. Algunos están arriba del plano y otros abajo; del mismo modo que los pun-
tos estaban arriba y abajo de la recta de regresión simple.
Uso del criterio de Nuestro problema consiste en decidir cuál de los planos que podemos dibujar será el que mejor
mínimos cuadrados se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mínimos cuadrados y localizaremos
para ajustar un plano el plano que minimice la suma de los cuadrados de los errores, es decir, de las distancias de los pun-
de regresión
tos alrededor del plano a los puntos correspondientes sobre el plano. Usemos nuestros datos y las si-
guientes tres ecuaciones para determinar los valores de las constantes numéricas a, b1 y b2.

Ecuaciones normales
Y  na  b1X1 b2X2 [13-2]
X1Y  aX1  b1X12 b2X1X2 [13-3]
X2Y  aX2  b1X1X2 b2X22 [13-4]

568 Capítulo 13 Regresión múltiple y modelado


FIGURA 13-1 Punto observado
Y
Plano de regresión Error Punto correspondiente
múltiple para 10 en el plano
datos

Plano formado a través


de los puntos de la muestra:
^
Y = a + b 1X 1 + b 2X 2

a = ordenada Y

X1

X2

Podemos obtener a, b1 y b2, los coeficientes del plano de regresión, resolviendo las ecuaciones
13-2, 13-3 y 13-4. Obviamente, la mejor manera de calcular todas las sumas implicadas en estas tres
ecuaciones es elaborar una tabla para recolectar y organizar la información necesaria, como se hizo
en la regresión simple. Esto se presenta en la tabla 13-2, para el problema del IRS.
Obtención de a, b1 Ahora, utilizando la información de la tabla 13-2 en las ecuaciones 13-2, 13-3 y 13-4, obtenemos
y b2 resolviendo las tres ecuaciones con tres constantes desconocidas (a, b1 y b2):
ecuaciones 13-2,
13-3 y 13-4 272  10a  441b1  147b2
12,005  441a  19,461b1  6,485b2
4,013  147a  6,485b1  2,173b2
Cuando resolvemos estas tres ecuaciones de manera simultánea, obtenemos:
a  13.828
b1   0.564
b2   1.099
Sustituyendo estos tres valores en la ecuación de regresión de dos variables (ecuación 13-l), obtene-
mos una ecuación que describe la relación entre el número de horas de trabajo en auditorías de cam-
po, el número de horas de computación y los impuestos no pagados descubiertos por el departamen-
to de auditorías:
Ŷ  a  b1X1  b2X2 [13-1]
 13.828  0.564X1  1.099X2
El departamento de auditorías puede utilizar esta ecuación mensualmente para estimar la canti-
dad de impuestos no pagados que va a descubrir.
Uso de la ecuación Suponga que el IRS desea aumentar la cantidad de detecciones de impuestos no pagados el siguien-
de regresión múltiple te mes. Como los auditores capacitados son escasos, el IRS no tiene la intención de contratar perso-
para estimaciones nal adicional. El número de horas de trabajo en auditorías, entonces, permanecerá en el nivel de oc-

13.2 Deducción de la ecuación de regresión múltiple 569


Tabla 13-2 Y X1 X2 X1Y X2Y X1Y2 X 12 X 22 Y2
(1) (2) (3) (2)  (1) (3)  (1) (2)  (3) (2)2 (3)2 (1)2
Valores para ajustar
el plano de mínimos 29 45 16 1,305 464 720 2,025 256 841
cuadrados, donde
n  10 24 42 14 1,008 336 588 1,764 196 576
27 44 15 1,188 405 660 1,936 225 729
25 45 13 1,125 325 585 2,025 169 625
26 43 13 1,118 338 559 1,849 169 676
28 46 14 1,288 392 644 2,116 196 784
30 44 16 1,320 480 704 1,936 256 900
28 45 16 1,260 448 720 2,025 256 784
28 44 15 1,232 420 660 1,936 225 784
27 43 15 1,161 405 645 1,849 225 729
272 441 147 12,005 4,013 6,485 19,461 2,173 7,428
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
Y X1 X2 X1Y X2Y X1X2 X 12 X 22 Y 2

  27.2
Y
X1  44.1

2  14.7
X

tubre, alrededor de 4,300 horas. Pero con el fin de aumentar las detecciones de impuestos no pagados,
el IRS espera aumentar el número de horas en computadora a cerca de 1,600. Como resultado:
X1  43 ← 4,300 horas de trabajo en auditorías de campo
X2  16 ← 1,600 horas de tiempo en computadora
Sustituyendo estos valores en la ecuación de regresión para el departamento de auditorías, obte-
nemos:
Ŷ  13.828  0.564 X1  1.099X2
Ŷ  13.828  (0.564)(43)  (1.099)(16)
Ŷ  13.828  24.252  17.584
Ŷ  28.008 ← Detecciones estimadas de $28,008,000
Interpretación de la Por tanto, en el pronóstico para noviembre, el departamento de auditorías espera encontrar una
estimación evasión de impuestos cercana a 28 millones de dólares, para esta combinación de factores.
a, b1 y b2 son los Hasta este punto nos hemos referido a a como la ordenada Y, y a b1 y b2 como las pendientes del
coeficientes de re- plano de regresión múltiple. Pero, para ser más precisos, debemos decir que estas constantes numé-
gresión estimados ricas son los coeficientes de regresión estimados. La constante a es el valor de Ŷ (en este caso, la es-
timación de los impuestos no pagados) si tanto X1 como X2 tienen valor cero. Los coeficientes b1 y
b2 describen cómo los cambios en X1 y X2 afectan el valor de Ŷ. En el ejemplo del IRS, podemos de-
jar constante el número de horas de trabajo de auditoría de campo, X1, y cambiar el número de ho-
ras en computadora, X2. Cuando hacemos esto, el valor de Ŷ aumenta en $1,099,000 por cada 100
horas adicionales de tiempo en computadora. Del mismo modo, podemos fijar X2 y encontrar que
por cada aumento adicional de 100 horas en el número de horas de trabajo de auditorías de campo,
Ŷ aumenta $564,000.

SUGERENCIAS Sugerencia: si tiene problemas para vi- que el de la recta de regresión adecuada, es decir, el que mi-
Y sualizar lo que hace en realidad la regre- nimiza la suma de los cuadrados de las distancias vertica-
SUPOSICIONES sión múltiple, piense en el capítulo 12 y les entre los puntos de los datos y el plano, en este caso. Tal
recuerde que una recta de regresión des- vez sea útil recordar que cada variable independiente puede
cribe la relación entre dos variables. En la regresión múlti- ser responsable de cierta variación en la variable depen-
ple, el plano de regresión, como el que se ve en la página diente. La regresión múltiple es sólo una manera de usar
anterior, describe la relación entre tres variables, Y, X1 y X2. varias variables independientes para hacer un pronóstico
El concepto del plano de regresión adecuado es el mismo mejor de la variable dependiente.

570 Capítulo 13 Regresión múltiple y modelado


Ejercicios 13.2
Ejercicios de autoevaluación
EA 13-1 Dado el siguiente conjunto de datos:
a) Calcule el plano de regresión múltiple.
b) Prediga Y cuando X1  3.0 y X2  2.7.
Y X1 X2

25 3.5 5.0
30 6.7 4.2
11 1.5 8.5
22 0.3 1.4
27 4.6 3.6
19 2.0 1.3
EA 13-2 Se ha reunido la siguiente información de una muestra aleatoria de arrendadores de departamentos en una
ciudad. Se intenta predecir la renta (en dólares por mes) con base en el tamaño del departamento (núme-
ro de habitaciones) y la distancia al centro de la ciudad (en millas).
Renta Número de Distancia
(dólares) habitaciones al centro

360 2 1
1,000 6 1
450 3 2
525 4 3
350 2 10
300 1 4

a) Calcule la ecuación de mínimos cuadrados que relacione mejor estas tres variables.
b) Si alguien busca un departamento de dos habitaciones a 2 millas del centro, ¿qué renta debe esperar pagar?

Conceptos básicos
■ 13-7 Dado el siguiente conjunto de datos:
a) Calcule el plano de regresión múltiple.
b) Pronostique Y cuando X1  10.5 y X2  13.6.
Y X1 X2

11.4 4.5 13.2


16.6 8.7 18.7
20.5 12.6 19.8
29.4 19.7 25.4
7.6 2.9 22.8
13.8 6.7 17.8
28.5 17.4 14.6
■ 13-8 Para el siguiente conjunto de datos:
a) Calcule el plano de regresión múltiple.
b) Prediga Y cuando X1  28 y X2  10.
Y X1 X2

10 8 4
17 21 9
18 14 11
26 17 20
35 36 13
8 9 28

13.2 Deducción de la ecuación de regresión múltiple 571

También podría gustarte