Tema2 - Regresion Multiple - 2019 - I

MÉTODOS CUANTITATIVOS 12
Mg. María V. Hermenegildo Chávez
REGRESIÓN MÚLTIPLE
En regresión lineal una variable se puede predecir con bastante exactitud en términos
de la otra, pero si consideramos más información es lógico que las predicciones deben ser
mejores.
En la regresión simple, x es el símbolo utilizado para los valores de la variable

independiente. En la regresión múltiple tenemos más de una variable independiente. De
modo que se debe continuar usando x, pero se debe añadir un subíndice (por ejemplo x1, x2)
para diferenciar las variables independientes que estamos utilizando.
Recuerde que en la regresión simple, la ecuación de estimación:
ŷ = a + bx, describe la relación entre dos variables x e y.
Aquí, se presentan fórmulas matemáticas que permiten expresar relaciones entre más
de dos variables, así debemos extender esta ecuación, agregando un término para cada
nueva variable.
ŷ = a + b1x1 + b2x2 + . . . + bkxk
Donde:
y: es la variable a predecir
xi: variables de predicción
a, bi: constantes numéricas que se deben determinar.
i = 1, 2, . . . , k
Resolvemos este problema, como en regresión lineal, minimizando la suma de

cuadrados Σ (y - ŷ)2, donde ŷ son los valores calculados por medio de la ecuación lineal.
Si tenemos dos variables independientes:
y = a + b1x1 + b2x2
resolver las tres ecuaciones normales
Σy = na + b1( Σ x1) + b2( Σ x2)
Σ x1.y = a ( Σ x1) + b1( Σ x12 ) + b2( Σ x1.x2 )
Σ x2.y = a ( Σ x2) + b1( Σ x1.x2 ) + b2( Σ x22 )
12
Cuando crece el número de variables independientes, las operaciones son más

complejas y tediosas, el uso de la computadora nos ahorra tiempo y trabajo, también ofrece
información que permite de modo más fácil probar hipótesis nulas sobre los coeficientes de
regresión múltiple verdaderos α, β 1, β 2, . . . ó la construcción de intervalos de confianza.
Ejemplo:
El Servicio Interno de Reembolso (SIR) está tratando de estimar la cantidad mensual de
impuestos no pagados descubiertos por su departamento de auditorías. En el pasado, el SIR
estimaba esta cantidad sobre la base del número esperado de horas de trabajo de auditorías
de campo. En los últimos años, sin embargo, las horas de trabajo de auditorías de campo se
han vuelto un factor de predicción errático de los impuestos reales no pagados. Como
resultado de ello, el SIR está buscando otro factor con el cual pueda mejorar la ecuación de
estimación.
El departamento de auditorías tiene un registro del número de horas que sus

computadoras usan para detectar impuestos no pagados. ¿Podríamos combinar esta
información con los datos referentes a las horas de trabajo de auditorías de campo y obtener
una ecuación de estimación más precisa para los impuestos no pagados descubiertos cada
mes?
En la tabla 1 se presentan esos datos correspondientes a los últimos diez meses.

En este problema:
x1: número de horas de trabajo de auditoría de campo.

x2: número de horas en computadoras.
y, impuestos reales no pagados descubiertos.
En forma simbólica, la ecuación: ŷ = a + b1x1 + b2x2, es la fórmula que podemos

utilizar cuando tenemos dos variables independientes:
Tabla1. Datos de la auditoría del SIR registrados durante los últimos diez meses.
x1 x2 y
Mes Horas de trabajo de Horas en Impuestos reales no pagados
auditoría de campo computadora descubiertos
(millones de dólares)
Enero 4500 1600 29
Febrero 4200 1400 24
Marzo 4400 1500 27
Abril 4500 1300 25
Mayo 4300 1300 26
Junio 4600 1400 28
Julio 4400 1600 30
Agosto 4500 1600 28
Septiembre 4400 1500 28
Octubre 4300 1500 27
En la que:
13
ŷ : Valor estimado correspondiente a la variable dependiente

a : Intersección con y cuando x1 y x2 son cero.
x1 , x2 : Valores de las dos variables independientes
b1 , b2 : Pendientes asociadas con x1 y x2, respectivamente.
Se puede visualizar la ecuación de estimación simple como una línea recta en una
gráfica de manera similar, se puede representar una ecuación de regresión múltiple en dos
variables como un plano, aquí tenemos una forma tridimensional que posee profundidad,
longitud y ancho. Para adquirir una idea intuitiva de esta forma tridimensional, visualice las
intersecciones de los ejes Y, X1 y X2 como el rincón de un cuarto.
Para este caso se utilizará la suma de cuadrados de los errores, es decir las distancias
desde los puntos alrededor del plano a los correspondientes sobre el plano. Usemos nuestros
datos y las siguientes tres ecuaciones para determinar los valores de las constantes numéricas
a, b1, b2.
Σ y = n a + b1 Σ x1 + b2 Σ x2
Σ x1 y = a Σ x1 + b1 Σ x 12 + b2 Σ x1 x2
Σ x2y = a Σ x2 + b1 Σ x1 x2 + b2 Σ x 22
Al resolver estas ecuaciones para a, b1, b2 nos dará los coeficientes del plano regresión.
Obviamente, la mejor manera de calcular todas las sumas implicadas en estas tres ecuaciones
es mediante el uso de una tabla para recoger y organizar la información necesaria, del mismo
modo como lo hicimos en la regresión simple. Hemos hecho esto en la Tabla 2 para el
problema del SIR.
n = 10
Tabla 2. Valores para ajustar el plano de mínimos cuadrados, en donde:
y x1 x2 x1 y x2 y x1 x2 x 12 x 22 y2
29 45 16 1,305 464 720 2,025 256 841
24 42 14 1,008 336 588 1,764 196 576
27 44 15 1,188 405 660 1,936 225 729
25 45 13 1,125 325 585 2,025 169 625
26 43 13 1,118 338 559 1,849 169 676
28 46 14 1,288 392 644 2,116 196 784
30 44 16 1,320 480 704 1,936 256 900
28 45 16 1,260 448 720 2,025 256 784
28 44 15 1,232 420 660 1,936 225 784
27 43 15 1,161 405 645 1,849 225 729
272 441 147 12,005 4,013 6,485 19,461 2,173 7,428
Y = 27.2
14
X 1 = 44.1
X 2 = 14.7
reemplazando en las ecuaciones, se obtienen tres ecuaciones con tres constantes

desconocidas (a, b1, b2):
272 = 10a + 441b1 + 147b2

12,005 = 441a + 19,461b1 + 6,485 b2
4,013 = 147a + 6,485b1 + 2,173 b2
resolviendo estas tres ecuaciones de manera simultánea, se obtiene:

a = -13.828
b1 = 0.564
b2 = 1.099
Sustituyendo estos tres valores en la ecuación de regresión de dos variables, obtenemos una
ecuación que describe la relación entre el número de horas de trabajo de auditorías de
campo, el número de horas de computación y los impuestos no pagados descubiertos por el
departamento de auditorías:
ŷ = a + b1x1 + b2x2
ŷ = -13.828 + 0.564 x1 + 1.099 x2
El departamento de auditorías puede utilizar esta ecuación mensualmente para

estimar la cantidad de impuestos no pagados que va a descubrir.
Suponga que el SIR desea aumentar la cantidad de sus descubrimientos de impuestos

no pagados durante el siguiente mes. Como los auditores entrenados son escasos, el SIR no
tiene la intención de contratar personal adicional. El número de horas de trabajo en
auditorías de campo, entonces, permanecerá en el nivel de octubre, alrededor de 4,300 horas.
Pero con el fin de aumentar sus hallazgos de impuestos no pagados, el SIR espera aumentar
el número de horas en computadora a aproximadamente 1,600. Como consecuencia de lo
anterior:
x1 = 43 → 4,300 horas de trabajo en auditorías de campo.

x2 = 16 → 1,600 horas de tiempo en computadora.
Sustituyendo estos valores en la ecuación de regresión para el departamento de

auditorías, obtenemos:
ŷ = -13.828 + 0.564 x1 + 1.099 x2

= -13.828 + 0.564 (43) + 1.099 (16)
= 28.008
15
descubrimientos estimados en $ 28’008,000
Por consiguiente, en el pronóstico para noviembre, el departamento de auditorías

espera encontrar una evasión de impuestos de aproximadamente 28 millones de dólares, para
esta combinación de factores.
Hasta este punto nos hemos referido a a como la intersección con y, y a las
constantes b1 y b2 como las pendientes del plano de regresión múltiple. Pero, para ser más
preciso, deberíamos decir que estas constantes numéricas son los coeficientes de regresión
estimados. La constante a es el valor de ŷ (en este caso, la estimación de los impuestos no
pagados) si tanto x1 y x2 tienen valor cero. Los coeficientes b1 y b2 describen como los
cambios en x1 y x2 afectan el valor de ŷ. En el ejemplo del SIR, podemos dejar constante el
número de horas de trabajo de auditorías de campo, x1, y cambiar el número de horas en
computadora x2. Cuando hacemos esto, el valor de ŷ aumenta en $1´099,000 por cada 100
horas adicionales de tiempo en computadora. Del mismo modo, podemos fijar x2 y encontrar
que por cada aumento adicional de 100 horas en el número de horas de trabajo de auditorías
de campo, ŷ aumenta en $ 564,000.
GRUPO DE EJERCICIOS
1. Sam Spade, dueño y gerente del almacén Campus Stationery Store, está preocupado
sobre el comportamiento de las ventas de un modelo de reproductora de discos compactos y
casetes que se venden en la tienda. Se da cuenta de que existen muchos factores que podrían
ayudar a explicarlo, pero cree que la publicidad y el precio son los principales determinantes.
Sam ha recogido los siguientes datos:
Ventas Publicidad Precio

(Unidades Vendidas) (Número de Anuncios) ($)
33 3 125
61 6 115
70 10 140
82 13 130
17 9 145
24 6 140
a. Calcule la ecuación de mínimos cuadrados para predecir las ventas

determinadas por publicidad y precio.
b. Si la Publicidad es 7 y el precio es $132, ¿Cuántas unidades de ventas podría

predecir?
c. Si la publicidad es 12 anuncios y el precio es $142, ¿Qué ventas podría

predecir?
16
2. La siguiente información ha sido recabada de una muestra aleatoria de inquilinos de

departamentos de una ciudad. Estamos tratando de predecir el monto de la renta (en dólares
por mes) basado en el tamaño del departamento (número de cuartos) y en la distancia al
centro de la ciudad (en millas).
Renta Número de cuartos Distancia al centro

($)
360 2 1
1,000 6 1
450 3 2
525 4 3
350 2 10
300 1 4
a. Calcule la ecuación de mínimos cuadrados que mejor relaciona estas tres

variables.
b. Si alguien está buscando un departamento de dos recámaras que este a dos

millas del centro de la ciudad, ¿Qué alquiler esperaría pagar?
3. La Allegheny Stell de Estados Unidos ha estado buscando los factores que influyen
en la cantidad de acero (en millones de toneladas) que es capaz de vender cada año. La
administración sospecha que los siguientes son los factores principales: la tasa anual de
inflación del país, el precio promedio por tonelada mediante el cual el acero importado acota
los precios (en dólares) de la Allegheny, y el número de automóviles (en millones) que los
fabricantes de autos de Estados Unidos están planeando producir en ese año. Se han
recogido los datos correspondientes a los últimos siete años:
y x1 x2 x3
Año Millones de Tons Tasa de Limitación de Número de
vendidas Inflación import. automóviles
1993 4.2 3.1 3.10
1992 3.1 3.9 5.00 6.2
1991 4.0 7.5 2.20 5.1
1990 4.7 10.7 4.50 7.1
1989 4.3 15.5 4.35 6.5
1988 3.7 13.0 2.60 6.1
1987 3.5 11.0 3.05 5.9
a. Utilizando cualquier paquete de computadora que tenga disponible, determine

la ecuación de regresión de mejor ajuste para los datos.
b. ¿Cuántas toneladas de acero deberá esperar la Allegheny vender en un año en
el que la tasa de inflación sea de 7.1, los fabricantes de automóviles
norteamericanos estén planeando producir 6.0 millones de autos y el
17
promedio de limitación impuesto por el acero importado por tonelada sea de

$3.50?.
CORRELACIÓN
El objetivo principal del análisis de correlación consiste en determinar que tan

intensa es la relación entre dos variables.
Dado un conjunto de datos en pares (x, y) deben decidir en que proporción la

relación existente de las variables x e y, o, la casualidad conduce a la variación total entre
las y.
Se cumple que:
Σ (y – y )2 = Σ (ŷ – y )2 + Σ (y – ŷ)2 (I)
donde:
Σ (y – y )2, es la variación total de las y, se denomina Suma Total de
Cuadrados.
Σ (ŷ – y )2, Suma de Regresión de Cuadrados, mide la porción de la

variación total de las y, que existiría como si las diferencias en x,
fueran las únicas causas de las diferencias entre las y. (como si
todas las y están sobre ŷ = a + bx, así y - ŷ = 0)
Lo anterior no siempre ocurre, pues los pares (x, y), están a uno y otro lado de
la recta de regresión, lo que indica que existen otros factores, que se resumen en el
término de “casualidad”, y es dada por:
Σ (y – ŷ)2 , Suma residual de cuadrados, la variación aleatoria depende de

las cantidades que hacen que los puntos se desvíen de la recta.
FÓRMULAS DE CÁLCULO
1. Σ (y – ŷ)2 = Syy – bSxy
1
donde: Syy = Σ y2 – ( Σ y)2
n
2. Σ (y – y )2 = Syy
Así:
3. Σ (ŷ – y )2 = bSxy
18
COEFICIENTE DE DETERMINACIÓN
Mide La proporción de la variación total de las y que se puede atribuir a la diferencia

entre las x.
^ _
r2 =
∑ (y - y ) 2
(II)
_
∑ (y - y ) 2
Luego: r = ± coeficiente de determinación
es el coeficiente de correlación que es la medida de la fuerza de la relación

lineal entre dos variables
Donde el signo de r, es el mismo signo de b, que es la pendiente de la recta de regresión.
Si r > 0, la correlación es positiva,

Si r < 0, la correlación es negativa,
Si r = 0, no hay correlación.
De ecuación (I):
Σ(y − y ) Σ(y − y )
2 2
<
1424 3 1424 3
*1 *2
al dividir entre *2, y extraer la raíz cuadrada, se tiene:
–1 < r < 1
- Si Σ (y – ŷ)2 = 0
⇒ Σ (ŷ – y )2 = Σ (y – y )2
⇒ r = –1 ó r = 1, el ajuste es perfecto
- Si r = 0, no hay correlación, quiere decir que nada de las y se puede atribuir a su

relación con x, el valor pronosticado de y es y , para x cualquiera (Aquí, b = 0, ŷ = a)
Forma práctica para el cálculo de r2
Sxy
r2 = b.
Syy
19
Sxy S 2 xy
donde b = ⇒ r2 =
Sxx SxxSyy
Así:
Sxy
r=
Sxx.Syy
r mide sólo la exactitud con que una variable describe a otra, no hasta que punto el
cambio de una variable es causado por la otra.
Observaciones en el Análisis de Regresión y Correlación:
1. La ecuación de regresión es válida sólo sobre el mismo intervalo de donde se extrajo

inicialmente la muestra.
2. Los análisis de regresión y correlación de ninguna manera determinan la causa y el

efecto.
3. Estimar tendencias del futuro sobre una estimación realizada en el pasado, es un error,
pues algunas variables dependen del tiempo, y otro errores que las circunstancias pueden
cambiar y anular una o más de las suposiciones en que se basa el análisis de regresión.
4. Buscar relaciones entre las variables cuando no existen, para evitar usar la prueba de
significación de r.
PRUEBA DE SIGNIFICACIÓN DE r
( para muestras grandes y pequeñas)
Sea r, la correlación de una muestra y ρ , la correlación de una población.
Consideramos la hipótesis nula, Ho, r = 0, no existe correlación
para un nivel de significación α, aceptamos esta hipótesis si: – r α‫׀‬2 < r < r α‫׀‬2, y
rechazamos la hipótesis
nula, en el caso contrario, si: r < – r α‫׀‬2 ó r > r α‫׀‬2,
Prueba de significación del Coeficiente de Correlación r
Sea r, la correlación de una muestra, y, ρ la correlación de una población:
20
La hipótesis nula y alternativa son:
H0 : ρ = 0, la correlación de la población es cero.

H1 : ρ ≠ 0, la correlación de la población es diferente de cero.
Para muestras pequeñas ( n < 30)
Se usa la distribución t, con n - 2 grados de libertad, con un nivel de significación α.
n−2
t = r.
1− r2
Si – t α‫׀‬2 < t < t α‫׀‬2 se acepta la hipótesis nula.
Si t > t α‫׀‬2 ó t < – t α‫׀‬2, se rechaza Ho, y se acepta H1, esto significa que hay correlación
entre las variables x e y con un nivel de significación α.
Para muestras grandes ( n ≥ 30)
La distribución normal se usa para muestras grandes.
Donde: Z = r. n-1
Si - Z α‫׀‬2 < Z < Z α‫׀‬2 se acepta Ho, de lo contrario se acepta H1
Según el ejemplo (3)
y y2
20 400
15 225 Σ x = 212
17 289
9 81 Σ xy = 3781
16 256
7 49 b = 0.5781
22 484
23 529
2
Σ y = 129 Σ y = 2313
Syy = Σ y2 – 1/n ( Σ y)2
= 2313 – 1/8 (129)2 = 232.875
21
1
Sxy = Σ xy – ( Σ x) ( Σ y)
n
= 3781 – 1/8 (212) (129)
= 362.5
⇒ Σ ( y - ŷ)2 = Syy – b Sxy
= 232.875 – 0.5781 (362.5)
= 23.3137
Suma residual de cuadrados
Σ (y – y )2 = Syy
= 232.875
Σ (ŷ – y )2 = Σ (y – y )2 - Σ ( y - ŷ)2
= Syy - ( Syy – b Sxy)
= bSxy
= (0.5781) (362.5)
= 209.5613
Regresión: suma total de de regresión cuadrados 209.25

Error : Suma residual de cuadrados 23.63
Total : Suma total de cuadrados 232.88
CÁLCULO DEL COEFICIENTE DE DETERMINACIÓN
^ _
r2 =
∑ (y - y ) 2
_
∑ (y - y ) 2
= 0.8999
22
El 89.99% es la proporción de la variación total de la utilidad que se puede atribuir a la

diferencia entre el tamaño adecuado de las tiendas.
COEFICIENTE DE CORRELACIÓN
r =+ 0.8999 , lleva el signo de b

= 0.9486
En la tabla impresa:
R – Sq: coeficiente de determinación, 89.9%
Si r = 0.9486, significa que el 89.99%, aproximadamente 90% de la variación en y se

atribuye a su relación con x.
Para otro caso:
Si r2 = 0.18, r = 0.424, significa que sólo el 18% de la variación en y se atribuye a su

relación con x.
Decimos que una correlación, r = 0.9486 es 5 veces más fuerte que una correlación de r =
0.424, pues 90%/18% = 5.
Otro caso:
La correlación r = 0.60 es 9 veces más fuerte que una correlación de 0.20 pues:
(0.60)2 /(0.20)2 = 9.
Prueba de significación de r, para ejemplo (3)
Tenemos que r = 0.9486
Según, Ho suponemos que la correlación de la población ρ = 0, es decir que no haya

correlación entre las variables, rechazamos la hipótesis Ho, si r es menor que – r α‫׀‬2 o
mayor que r α‫׀‬2 para un nivel de significación de α = 0.05
-r 0.025 = - 0.878 r=0 r 0.025 = 0.878
r = 0.9486 > 0.878 = r 0.025, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa
con un nivel de significación α = 0.05, lo que indica que las dos variables tamaño de la
tienda y utilidad están relacionadas.
23
24

Tema2 - Regresion Multiple - 2019 - I

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema2 - Regresion Multiple - 2019 - I

Cargado por

Copyright:

Formatos disponibles

MÉTODOS CUANTITATIVOS 12

Mg. María V. Hermenegildo Chávez

En la regresión simple, x es el símbolo utilizado para los valores de la variable

Recuerde que en la regresión simple, la ecuación de estimación:

ŷ = a + bx, describe la relación entre dos variables x e y.

ŷ = a + b1x1 + b2x2 + . . . + bkxk

Resolvemos este problema, como en regresión lineal, minimizando la suma de

Si tenemos dos variables independientes:

resolver las tres ecuaciones normales

Σy = na + b1( Σ x1) + b2( Σ x2)

Σ x1.y = a ( Σ x1) + b1( Σ x12 ) + b2( Σ x1.x2 )

Σ x2.y = a ( Σ x2) + b1( Σ x1.x2 ) + b2( Σ x22 )

Cuando crece el número de variables independientes, las operaciones son más

El departamento de auditorías tiene un registro del número de horas que sus

En la tabla 1 se presentan esos datos correspondientes a los últimos diez meses.

x1: número de horas de trabajo de auditoría de campo.

En forma simbólica, la ecuación: ŷ = a + b1x1 + b2x2, es la fórmula que podemos

ŷ : Valor estimado correspondiente a la variable dependiente

Tabla 2. Valores para ajustar el plano de mínimos cuadrados, en donde:

reemplazando en las ecuaciones, se obtienen tres ecuaciones con tres constantes

272 = 10a + 441b1 + 147b2

resolviendo estas tres ecuaciones de manera simultánea, se obtiene:

El departamento de auditorías puede utilizar esta ecuación mensualmente para

Suponga que el SIR desea aumentar la cantidad de sus descubrimientos de impuestos

x1 = 43 → 4,300 horas de trabajo en auditorías de campo.

Sustituyendo estos valores en la ecuación de regresión para el departamento de

ŷ = -13.828 + 0.564 x1 + 1.099 x2

descubrimientos estimados en $ 28’008,000

Por consiguiente, en el pronóstico para noviembre, el departamento de auditorías

Ventas Publicidad Precio

a. Calcule la ecuación de mínimos cuadrados para predecir las ventas

b. Si la Publicidad es 7 y el precio es $132, ¿Cuántas unidades de ventas podría

c. Si la publicidad es 12 anuncios y el precio es $142, ¿Qué ventas podría

2. La siguiente información ha sido recabada de una muestra aleatoria de inquilinos de

Renta Número de cuartos Distancia al centro

a. Calcule la ecuación de mínimos cuadrados que mejor relaciona estas tres

b. Si alguien está buscando un departamento de dos recámaras que este a dos

a. Utilizando cualquier paquete de computadora que tenga disponible, determine

promedio de limitación impuesto por el acero importado por tonelada sea de

El objetivo principal del análisis de correlación consiste en determinar que tan

Dado un conjunto de datos en pares (x, y) deben decidir en que proporción la

Σ (ŷ – y )2, Suma de Regresión de Cuadrados, mide la porción de la

Σ (y – ŷ)2 , Suma residual de cuadrados, la variación aleatoria depende de

1. Σ (y – ŷ)2 = Syy – bSxy

Mide La proporción de la variación total de las y que se puede atribuir a la diferencia

Luego: r = ± coeficiente de determinación

es el coeficiente de correlación que es la medida de la fuerza de la relación

Donde el signo de r, es el mismo signo de b, que es la pendiente de la recta de regresión.

Si r > 0, la correlación es positiva,

- Si r = 0, no hay correlación, quiere decir que nada de las y se puede atribuir a su

Forma práctica para el cálculo de r2

Observaciones en el Análisis de Regresión y Correlación:

1. La ecuación de regresión es válida sólo sobre el mismo intervalo de donde se extrajo

2. Los análisis de regresión y correlación de ninguna manera determinan la causa y el

( para muestras grandes y pequeñas)

Sea r, la correlación de una muestra y ρ , la correlación de una población.

Consideramos la hipótesis nula, Ho, r = 0, no existe correlación

nula, en el caso contrario, si: r < – r α‫׀‬2 ó r > r α‫׀‬2,

Prueba de significación del Coeficiente de Correlación r

Sea r, la correlación de una muestra, y, ρ la correlación de una población:

La hipótesis nula y alternativa son:

H0 : ρ = 0, la correlación de la población es cero.

Para muestras pequeñas ( n < 30)