Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIÓN MÚLTIPLE
En regresión lineal una variable se puede predecir con bastante exactitud en términos
de la otra, pero si consideramos más información es lógico que las predicciones deben ser
mejores.
Aquí, se presentan fórmulas matemáticas que permiten expresar relaciones entre más
de dos variables, así debemos extender esta ecuación, agregando un término para cada
nueva variable.
Donde:
y: es la variable a predecir
xi: variables de predicción
a, bi: constantes numéricas que se deben determinar.
i = 1, 2, . . . , k
y = a + b1x1 + b2x2
12
MÉTODOS CUANTITATIVOS 13
Mg. María V. Hermenegildo Chávez
Ejemplo:
El Servicio Interno de Reembolso (SIR) está tratando de estimar la cantidad mensual de
impuestos no pagados descubiertos por su departamento de auditorías. En el pasado, el SIR
estimaba esta cantidad sobre la base del número esperado de horas de trabajo de auditorías
de campo. En los últimos años, sin embargo, las horas de trabajo de auditorías de campo se
han vuelto un factor de predicción errático de los impuestos reales no pagados. Como
resultado de ello, el SIR está buscando otro factor con el cual pueda mejorar la ecuación de
estimación.
Tabla1. Datos de la auditoría del SIR registrados durante los últimos diez meses.
x1 x2 y
Mes Horas de trabajo de Horas en Impuestos reales no pagados
auditoría de campo computadora descubiertos
(millones de dólares)
Enero 4500 1600 29
Febrero 4200 1400 24
Marzo 4400 1500 27
Abril 4500 1300 25
Mayo 4300 1300 26
Junio 4600 1400 28
Julio 4400 1600 30
Agosto 4500 1600 28
Septiembre 4400 1500 28
Octubre 4300 1500 27
En la que:
13
MÉTODOS CUANTITATIVOS 14
Mg. María V. Hermenegildo Chávez
Se puede visualizar la ecuación de estimación simple como una línea recta en una
gráfica de manera similar, se puede representar una ecuación de regresión múltiple en dos
variables como un plano, aquí tenemos una forma tridimensional que posee profundidad,
longitud y ancho. Para adquirir una idea intuitiva de esta forma tridimensional, visualice las
intersecciones de los ejes Y, X1 y X2 como el rincón de un cuarto.
Para este caso se utilizará la suma de cuadrados de los errores, es decir las distancias
desde los puntos alrededor del plano a los correspondientes sobre el plano. Usemos nuestros
datos y las siguientes tres ecuaciones para determinar los valores de las constantes numéricas
a, b1, b2.
Σ y = n a + b1 Σ x1 + b2 Σ x2
Σ x1 y = a Σ x1 + b1 Σ x 12 + b2 Σ x1 x2
Σ x2y = a Σ x2 + b1 Σ x1 x2 + b2 Σ x 22
Al resolver estas ecuaciones para a, b1, b2 nos dará los coeficientes del plano regresión.
Obviamente, la mejor manera de calcular todas las sumas implicadas en estas tres ecuaciones
es mediante el uso de una tabla para recoger y organizar la información necesaria, del mismo
modo como lo hicimos en la regresión simple. Hemos hecho esto en la Tabla 2 para el
problema del SIR.
n = 10
y x1 x2 x1 y x2 y x1 x2 x 12 x 22 y2
29 45 16 1,305 464 720 2,025 256 841
24 42 14 1,008 336 588 1,764 196 576
27 44 15 1,188 405 660 1,936 225 729
25 45 13 1,125 325 585 2,025 169 625
26 43 13 1,118 338 559 1,849 169 676
28 46 14 1,288 392 644 2,116 196 784
30 44 16 1,320 480 704 1,936 256 900
28 45 16 1,260 448 720 2,025 256 784
28 44 15 1,232 420 660 1,936 225 784
27 43 15 1,161 405 645 1,849 225 729
272 441 147 12,005 4,013 6,485 19,461 2,173 7,428
Y = 27.2
14
MÉTODOS CUANTITATIVOS 15
Mg. María V. Hermenegildo Chávez
X 1 = 44.1
X 2 = 14.7
Sustituyendo estos tres valores en la ecuación de regresión de dos variables, obtenemos una
ecuación que describe la relación entre el número de horas de trabajo de auditorías de
campo, el número de horas de computación y los impuestos no pagados descubiertos por el
departamento de auditorías:
ŷ = a + b1x1 + b2x2
ŷ = -13.828 + 0.564 x1 + 1.099 x2
15
MÉTODOS CUANTITATIVOS 16
Mg. María V. Hermenegildo Chávez
Hasta este punto nos hemos referido a a como la intersección con y, y a las
constantes b1 y b2 como las pendientes del plano de regresión múltiple. Pero, para ser más
preciso, deberíamos decir que estas constantes numéricas son los coeficientes de regresión
estimados. La constante a es el valor de ŷ (en este caso, la estimación de los impuestos no
pagados) si tanto x1 y x2 tienen valor cero. Los coeficientes b1 y b2 describen como los
cambios en x1 y x2 afectan el valor de ŷ. En el ejemplo del SIR, podemos dejar constante el
número de horas de trabajo de auditorías de campo, x1, y cambiar el número de horas en
computadora x2. Cuando hacemos esto, el valor de ŷ aumenta en $1´099,000 por cada 100
horas adicionales de tiempo en computadora. Del mismo modo, podemos fijar x2 y encontrar
que por cada aumento adicional de 100 horas en el número de horas de trabajo de auditorías
de campo, ŷ aumenta en $ 564,000.
GRUPO DE EJERCICIOS
1. Sam Spade, dueño y gerente del almacén Campus Stationery Store, está preocupado
sobre el comportamiento de las ventas de un modelo de reproductora de discos compactos y
casetes que se venden en la tienda. Se da cuenta de que existen muchos factores que podrían
ayudar a explicarlo, pero cree que la publicidad y el precio son los principales determinantes.
Sam ha recogido los siguientes datos:
33 3 125
61 6 115
70 10 140
82 13 130
17 9 145
24 6 140
16
MÉTODOS CUANTITATIVOS 17
Mg. María V. Hermenegildo Chávez
360 2 1
1,000 6 1
450 3 2
525 4 3
350 2 10
300 1 4
3. La Allegheny Stell de Estados Unidos ha estado buscando los factores que influyen
en la cantidad de acero (en millones de toneladas) que es capaz de vender cada año. La
administración sospecha que los siguientes son los factores principales: la tasa anual de
inflación del país, el precio promedio por tonelada mediante el cual el acero importado acota
los precios (en dólares) de la Allegheny, y el número de automóviles (en millones) que los
fabricantes de autos de Estados Unidos están planeando producir en ese año. Se han
recogido los datos correspondientes a los últimos siete años:
y x1 x2 x3
Año Millones de Tons Tasa de Limitación de Número de
vendidas Inflación import. automóviles
1993 4.2 3.1 3.10
1992 3.1 3.9 5.00 6.2
1991 4.0 7.5 2.20 5.1
1990 4.7 10.7 4.50 7.1
1989 4.3 15.5 4.35 6.5
1988 3.7 13.0 2.60 6.1
1987 3.5 11.0 3.05 5.9
17
MÉTODOS CUANTITATIVOS 18
Mg. María V. Hermenegildo Chávez
CORRELACIÓN
Se cumple que:
Σ (y – y )2 = Σ (ŷ – y )2 + Σ (y – ŷ)2 (I)
donde:
Σ (y – y )2, es la variación total de las y, se denomina Suma Total de
Cuadrados.
Lo anterior no siempre ocurre, pues los pares (x, y), están a uno y otro lado de
la recta de regresión, lo que indica que existen otros factores, que se resumen en el
término de “casualidad”, y es dada por:
FÓRMULAS DE CÁLCULO
1
donde: Syy = Σ y2 – ( Σ y)2
n
2. Σ (y – y )2 = Syy
Así:
3. Σ (ŷ – y )2 = bSxy
18
MÉTODOS CUANTITATIVOS 19
Mg. María V. Hermenegildo Chávez
COEFICIENTE DE DETERMINACIÓN
r2 =
∑ (y - y ) 2
(II)
_
∑ (y - y ) 2
De ecuación (I):
Σ(y − y ) Σ(y − y )
2 2
<
1424 3 1424 3
*1 *2
al dividir entre *2, y extraer la raíz cuadrada, se tiene:
–1 < r < 1
- Si Σ (y – ŷ)2 = 0
⇒ Σ (ŷ – y )2 = Σ (y – y )2
⇒ r = –1 ó r = 1, el ajuste es perfecto
Sxy
r2 = b.
Syy
19
MÉTODOS CUANTITATIVOS 20
Mg. María V. Hermenegildo Chávez
Sxy S 2 xy
donde b = ⇒ r2 =
Sxx SxxSyy
Así:
Sxy
r=
Sxx.Syy
r mide sólo la exactitud con que una variable describe a otra, no hasta que punto el
cambio de una variable es causado por la otra.
3. Estimar tendencias del futuro sobre una estimación realizada en el pasado, es un error,
pues algunas variables dependen del tiempo, y otro errores que las circunstancias pueden
cambiar y anular una o más de las suposiciones en que se basa el análisis de regresión.
4. Buscar relaciones entre las variables cuando no existen, para evitar usar la prueba de
significación de r.
PRUEBA DE SIGNIFICACIÓN DE r
para un nivel de significación α, aceptamos esta hipótesis si: – r α׀2 < r < r α׀2, y
rechazamos la hipótesis
20
MÉTODOS CUANTITATIVOS 21
Mg. María V. Hermenegildo Chávez
n−2
t = r.
1− r2
Si t > t α׀2 ó t < – t α׀2, se rechaza Ho, y se acepta H1, esto significa que hay correlación
Donde: Z = r. n-1
y y2
20 400
15 225 Σ x = 212
17 289
9 81 Σ xy = 3781
16 256
7 49 b = 0.5781
22 484
23 529
2
Σ y = 129 Σ y = 2313
21
MÉTODOS CUANTITATIVOS 22
Mg. María V. Hermenegildo Chávez
1
Sxy = Σ xy – ( Σ x) ( Σ y)
n
= 362.5
= 23.3137
Σ (y – y )2 = Syy
= 232.875
Σ (ŷ – y )2 = Σ (y – y )2 - Σ ( y - ŷ)2
= bSxy
= (0.5781) (362.5)
= 209.5613
^ _
r2 =
∑ (y - y ) 2
_
∑ (y - y ) 2
= 0.8999
22
MÉTODOS CUANTITATIVOS 23
Mg. María V. Hermenegildo Chávez
COEFICIENTE DE CORRELACIÓN
En la tabla impresa:
Decimos que una correlación, r = 0.9486 es 5 veces más fuerte que una correlación de r =
0.424, pues 90%/18% = 5.
Otro caso:
La correlación r = 0.60 es 9 veces más fuerte que una correlación de 0.20 pues:
(0.60)2 /(0.20)2 = 9.
r = 0.9486 > 0.878 = r 0.025, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa
con un nivel de significación α = 0.05, lo que indica que las dos variables tamaño de la
tienda y utilidad están relacionadas.
23
MÉTODOS CUANTITATIVOS 24
Mg. María V. Hermenegildo Chávez
24