Está en la página 1de 13

MÉTODOS CUANTITATIVOS 12

Mg. María V. Hermenegildo Chávez

REGRESIÓN MÚLTIPLE

En regresión lineal una variable se puede predecir con bastante exactitud en términos
de la otra, pero si consideramos más información es lógico que las predicciones deben ser
mejores.

En la regresión simple, x es el símbolo utilizado para los valores de la variable


independiente. En la regresión múltiple tenemos más de una variable independiente. De
modo que se debe continuar usando x, pero se debe añadir un subíndice (por ejemplo x1, x2)
para diferenciar las variables independientes que estamos utilizando.

Recuerde que en la regresión simple, la ecuación de estimación:

ŷ = a + bx, describe la relación entre dos variables x e y.

Aquí, se presentan fórmulas matemáticas que permiten expresar relaciones entre más
de dos variables, así debemos extender esta ecuación, agregando un término para cada
nueva variable.

ŷ = a + b1x1 + b2x2 + . . . + bkxk

Donde:
y: es la variable a predecir
xi: variables de predicción
a, bi: constantes numéricas que se deben determinar.
i = 1, 2, . . . , k

Resolvemos este problema, como en regresión lineal, minimizando la suma de


cuadrados Σ (y - ŷ)2, donde ŷ son los valores calculados por medio de la ecuación lineal.

Si tenemos dos variables independientes:

y = a + b1x1 + b2x2

resolver las tres ecuaciones normales

Σy = na + b1( Σ x1) + b2( Σ x2)

Σ x1.y = a ( Σ x1) + b1( Σ x12 ) + b2( Σ x1.x2 )

Σ x2.y = a ( Σ x2) + b1( Σ x1.x2 ) + b2( Σ x22 )

12
MÉTODOS CUANTITATIVOS 13
Mg. María V. Hermenegildo Chávez

Cuando crece el número de variables independientes, las operaciones son más


complejas y tediosas, el uso de la computadora nos ahorra tiempo y trabajo, también ofrece
información que permite de modo más fácil probar hipótesis nulas sobre los coeficientes de
regresión múltiple verdaderos α, β 1, β 2, . . . ó la construcción de intervalos de confianza.

Ejemplo:
El Servicio Interno de Reembolso (SIR) está tratando de estimar la cantidad mensual de
impuestos no pagados descubiertos por su departamento de auditorías. En el pasado, el SIR
estimaba esta cantidad sobre la base del número esperado de horas de trabajo de auditorías
de campo. En los últimos años, sin embargo, las horas de trabajo de auditorías de campo se
han vuelto un factor de predicción errático de los impuestos reales no pagados. Como
resultado de ello, el SIR está buscando otro factor con el cual pueda mejorar la ecuación de
estimación.

El departamento de auditorías tiene un registro del número de horas que sus


computadoras usan para detectar impuestos no pagados. ¿Podríamos combinar esta
información con los datos referentes a las horas de trabajo de auditorías de campo y obtener
una ecuación de estimación más precisa para los impuestos no pagados descubiertos cada
mes?

En la tabla 1 se presentan esos datos correspondientes a los últimos diez meses.


En este problema:

x1: número de horas de trabajo de auditoría de campo.


x2: número de horas en computadoras.
y, impuestos reales no pagados descubiertos.

En forma simbólica, la ecuación: ŷ = a + b1x1 + b2x2, es la fórmula que podemos


utilizar cuando tenemos dos variables independientes:

Tabla1. Datos de la auditoría del SIR registrados durante los últimos diez meses.

x1 x2 y
Mes Horas de trabajo de Horas en Impuestos reales no pagados
auditoría de campo computadora descubiertos
(millones de dólares)
Enero 4500 1600 29
Febrero 4200 1400 24
Marzo 4400 1500 27
Abril 4500 1300 25
Mayo 4300 1300 26
Junio 4600 1400 28
Julio 4400 1600 30
Agosto 4500 1600 28
Septiembre 4400 1500 28
Octubre 4300 1500 27
En la que:

13
MÉTODOS CUANTITATIVOS 14
Mg. María V. Hermenegildo Chávez

ŷ : Valor estimado correspondiente a la variable dependiente


a : Intersección con y cuando x1 y x2 son cero.
x1 , x2 : Valores de las dos variables independientes
b1 , b2 : Pendientes asociadas con x1 y x2, respectivamente.

Se puede visualizar la ecuación de estimación simple como una línea recta en una
gráfica de manera similar, se puede representar una ecuación de regresión múltiple en dos
variables como un plano, aquí tenemos una forma tridimensional que posee profundidad,
longitud y ancho. Para adquirir una idea intuitiva de esta forma tridimensional, visualice las
intersecciones de los ejes Y, X1 y X2 como el rincón de un cuarto.

Para este caso se utilizará la suma de cuadrados de los errores, es decir las distancias
desde los puntos alrededor del plano a los correspondientes sobre el plano. Usemos nuestros
datos y las siguientes tres ecuaciones para determinar los valores de las constantes numéricas
a, b1, b2.

Σ y = n a + b1 Σ x1 + b2 Σ x2

Σ x1 y = a Σ x1 + b1 Σ x 12 + b2 Σ x1 x2

Σ x2y = a Σ x2 + b1 Σ x1 x2 + b2 Σ x 22

Al resolver estas ecuaciones para a, b1, b2 nos dará los coeficientes del plano regresión.
Obviamente, la mejor manera de calcular todas las sumas implicadas en estas tres ecuaciones
es mediante el uso de una tabla para recoger y organizar la información necesaria, del mismo
modo como lo hicimos en la regresión simple. Hemos hecho esto en la Tabla 2 para el
problema del SIR.

n = 10

Tabla 2. Valores para ajustar el plano de mínimos cuadrados, en donde:

y x1 x2 x1 y x2 y x1 x2 x 12 x 22 y2
29 45 16 1,305 464 720 2,025 256 841
24 42 14 1,008 336 588 1,764 196 576
27 44 15 1,188 405 660 1,936 225 729
25 45 13 1,125 325 585 2,025 169 625
26 43 13 1,118 338 559 1,849 169 676
28 46 14 1,288 392 644 2,116 196 784
30 44 16 1,320 480 704 1,936 256 900
28 45 16 1,260 448 720 2,025 256 784
28 44 15 1,232 420 660 1,936 225 784
27 43 15 1,161 405 645 1,849 225 729
272 441 147 12,005 4,013 6,485 19,461 2,173 7,428

Y = 27.2

14
MÉTODOS CUANTITATIVOS 15
Mg. María V. Hermenegildo Chávez

X 1 = 44.1
X 2 = 14.7

reemplazando en las ecuaciones, se obtienen tres ecuaciones con tres constantes


desconocidas (a, b1, b2):

272 = 10a + 441b1 + 147b2


12,005 = 441a + 19,461b1 + 6,485 b2
4,013 = 147a + 6,485b1 + 2,173 b2

resolviendo estas tres ecuaciones de manera simultánea, se obtiene:


a = -13.828
b1 = 0.564
b2 = 1.099

Sustituyendo estos tres valores en la ecuación de regresión de dos variables, obtenemos una
ecuación que describe la relación entre el número de horas de trabajo de auditorías de
campo, el número de horas de computación y los impuestos no pagados descubiertos por el
departamento de auditorías:

ŷ = a + b1x1 + b2x2
ŷ = -13.828 + 0.564 x1 + 1.099 x2

El departamento de auditorías puede utilizar esta ecuación mensualmente para


estimar la cantidad de impuestos no pagados que va a descubrir.

Suponga que el SIR desea aumentar la cantidad de sus descubrimientos de impuestos


no pagados durante el siguiente mes. Como los auditores entrenados son escasos, el SIR no
tiene la intención de contratar personal adicional. El número de horas de trabajo en
auditorías de campo, entonces, permanecerá en el nivel de octubre, alrededor de 4,300 horas.
Pero con el fin de aumentar sus hallazgos de impuestos no pagados, el SIR espera aumentar
el número de horas en computadora a aproximadamente 1,600. Como consecuencia de lo
anterior:

x1 = 43 → 4,300 horas de trabajo en auditorías de campo.


x2 = 16 → 1,600 horas de tiempo en computadora.

Sustituyendo estos valores en la ecuación de regresión para el departamento de


auditorías, obtenemos:

ŷ = -13.828 + 0.564 x1 + 1.099 x2


= -13.828 + 0.564 (43) + 1.099 (16)
= 28.008

15
MÉTODOS CUANTITATIVOS 16
Mg. María V. Hermenegildo Chávez

descubrimientos estimados en $ 28’008,000

Por consiguiente, en el pronóstico para noviembre, el departamento de auditorías


espera encontrar una evasión de impuestos de aproximadamente 28 millones de dólares, para
esta combinación de factores.

Hasta este punto nos hemos referido a a como la intersección con y, y a las
constantes b1 y b2 como las pendientes del plano de regresión múltiple. Pero, para ser más
preciso, deberíamos decir que estas constantes numéricas son los coeficientes de regresión
estimados. La constante a es el valor de ŷ (en este caso, la estimación de los impuestos no
pagados) si tanto x1 y x2 tienen valor cero. Los coeficientes b1 y b2 describen como los
cambios en x1 y x2 afectan el valor de ŷ. En el ejemplo del SIR, podemos dejar constante el
número de horas de trabajo de auditorías de campo, x1, y cambiar el número de horas en
computadora x2. Cuando hacemos esto, el valor de ŷ aumenta en $1´099,000 por cada 100
horas adicionales de tiempo en computadora. Del mismo modo, podemos fijar x2 y encontrar
que por cada aumento adicional de 100 horas en el número de horas de trabajo de auditorías
de campo, ŷ aumenta en $ 564,000.

GRUPO DE EJERCICIOS
1. Sam Spade, dueño y gerente del almacén Campus Stationery Store, está preocupado
sobre el comportamiento de las ventas de un modelo de reproductora de discos compactos y
casetes que se venden en la tienda. Se da cuenta de que existen muchos factores que podrían
ayudar a explicarlo, pero cree que la publicidad y el precio son los principales determinantes.
Sam ha recogido los siguientes datos:

Ventas Publicidad Precio


(Unidades Vendidas) (Número de Anuncios) ($)

33 3 125
61 6 115
70 10 140
82 13 130
17 9 145
24 6 140

a. Calcule la ecuación de mínimos cuadrados para predecir las ventas


determinadas por publicidad y precio.

b. Si la Publicidad es 7 y el precio es $132, ¿Cuántas unidades de ventas podría


predecir?

c. Si la publicidad es 12 anuncios y el precio es $142, ¿Qué ventas podría


predecir?

16
MÉTODOS CUANTITATIVOS 17
Mg. María V. Hermenegildo Chávez

2. La siguiente información ha sido recabada de una muestra aleatoria de inquilinos de


departamentos de una ciudad. Estamos tratando de predecir el monto de la renta (en dólares
por mes) basado en el tamaño del departamento (número de cuartos) y en la distancia al
centro de la ciudad (en millas).

Renta Número de cuartos Distancia al centro


($)

360 2 1
1,000 6 1
450 3 2
525 4 3
350 2 10
300 1 4

a. Calcule la ecuación de mínimos cuadrados que mejor relaciona estas tres


variables.

b. Si alguien está buscando un departamento de dos recámaras que este a dos


millas del centro de la ciudad, ¿Qué alquiler esperaría pagar?

3. La Allegheny Stell de Estados Unidos ha estado buscando los factores que influyen
en la cantidad de acero (en millones de toneladas) que es capaz de vender cada año. La
administración sospecha que los siguientes son los factores principales: la tasa anual de
inflación del país, el precio promedio por tonelada mediante el cual el acero importado acota
los precios (en dólares) de la Allegheny, y el número de automóviles (en millones) que los
fabricantes de autos de Estados Unidos están planeando producir en ese año. Se han
recogido los datos correspondientes a los últimos siete años:

y x1 x2 x3
Año Millones de Tons Tasa de Limitación de Número de
vendidas Inflación import. automóviles
1993 4.2 3.1 3.10
1992 3.1 3.9 5.00 6.2
1991 4.0 7.5 2.20 5.1
1990 4.7 10.7 4.50 7.1
1989 4.3 15.5 4.35 6.5
1988 3.7 13.0 2.60 6.1
1987 3.5 11.0 3.05 5.9

a. Utilizando cualquier paquete de computadora que tenga disponible, determine


la ecuación de regresión de mejor ajuste para los datos.
b. ¿Cuántas toneladas de acero deberá esperar la Allegheny vender en un año en
el que la tasa de inflación sea de 7.1, los fabricantes de automóviles
norteamericanos estén planeando producir 6.0 millones de autos y el

17
MÉTODOS CUANTITATIVOS 18
Mg. María V. Hermenegildo Chávez

promedio de limitación impuesto por el acero importado por tonelada sea de


$3.50?.

CORRELACIÓN

El objetivo principal del análisis de correlación consiste en determinar que tan


intensa es la relación entre dos variables.

Dado un conjunto de datos en pares (x, y) deben decidir en que proporción la


relación existente de las variables x e y, o, la casualidad conduce a la variación total entre
las y.

Se cumple que:

Σ (y – y )2 = Σ (ŷ – y )2 + Σ (y – ŷ)2 (I)

donde:
Σ (y – y )2, es la variación total de las y, se denomina Suma Total de
Cuadrados.

Σ (ŷ – y )2, Suma de Regresión de Cuadrados, mide la porción de la


variación total de las y, que existiría como si las diferencias en x,
fueran las únicas causas de las diferencias entre las y. (como si
todas las y están sobre ŷ = a + bx, así y - ŷ = 0)

Lo anterior no siempre ocurre, pues los pares (x, y), están a uno y otro lado de
la recta de regresión, lo que indica que existen otros factores, que se resumen en el
término de “casualidad”, y es dada por:

Σ (y – ŷ)2 , Suma residual de cuadrados, la variación aleatoria depende de


las cantidades que hacen que los puntos se desvíen de la recta.

FÓRMULAS DE CÁLCULO

1. Σ (y – ŷ)2 = Syy – bSxy

1
donde: Syy = Σ y2 – ( Σ y)2
n

2. Σ (y – y )2 = Syy

Así:

3. Σ (ŷ – y )2 = bSxy

18
MÉTODOS CUANTITATIVOS 19
Mg. María V. Hermenegildo Chávez

COEFICIENTE DE DETERMINACIÓN

Mide La proporción de la variación total de las y que se puede atribuir a la diferencia


entre las x.
^ _

r2 =
∑ (y - y ) 2
(II)
_

∑ (y - y ) 2

Luego: r = ± coeficiente de determinación

es el coeficiente de correlación que es la medida de la fuerza de la relación


lineal entre dos variables

Donde el signo de r, es el mismo signo de b, que es la pendiente de la recta de regresión.

Si r > 0, la correlación es positiva,


Si r < 0, la correlación es negativa,
Si r = 0, no hay correlación.

De ecuación (I):

Σ(y − y ) Σ(y − y )
2 2
<
1424 3 1424 3
*1 *2
al dividir entre *2, y extraer la raíz cuadrada, se tiene:

–1 < r < 1

- Si Σ (y – ŷ)2 = 0

⇒ Σ (ŷ – y )2 = Σ (y – y )2

⇒ r = –1 ó r = 1, el ajuste es perfecto

- Si r = 0, no hay correlación, quiere decir que nada de las y se puede atribuir a su


relación con x, el valor pronosticado de y es y , para x cualquiera (Aquí, b = 0, ŷ = a)

Forma práctica para el cálculo de r2

Sxy
r2 = b.
Syy

19
MÉTODOS CUANTITATIVOS 20
Mg. María V. Hermenegildo Chávez

Sxy S 2 xy
donde b = ⇒ r2 =
Sxx SxxSyy

Así:
Sxy
r=
Sxx.Syy

r mide sólo la exactitud con que una variable describe a otra, no hasta que punto el
cambio de una variable es causado por la otra.

Observaciones en el Análisis de Regresión y Correlación:

1. La ecuación de regresión es válida sólo sobre el mismo intervalo de donde se extrajo


inicialmente la muestra.

2. Los análisis de regresión y correlación de ninguna manera determinan la causa y el


efecto.

3. Estimar tendencias del futuro sobre una estimación realizada en el pasado, es un error,
pues algunas variables dependen del tiempo, y otro errores que las circunstancias pueden
cambiar y anular una o más de las suposiciones en que se basa el análisis de regresión.

4. Buscar relaciones entre las variables cuando no existen, para evitar usar la prueba de
significación de r.

PRUEBA DE SIGNIFICACIÓN DE r

( para muestras grandes y pequeñas)

Sea r, la correlación de una muestra y ρ , la correlación de una población.

Consideramos la hipótesis nula, Ho, r = 0, no existe correlación

para un nivel de significación α, aceptamos esta hipótesis si: – r α‫׀‬2 < r < r α‫׀‬2, y
rechazamos la hipótesis

nula, en el caso contrario, si: r < – r α‫׀‬2 ó r > r α‫׀‬2,

Prueba de significación del Coeficiente de Correlación r

Sea r, la correlación de una muestra, y, ρ la correlación de una población:

20
MÉTODOS CUANTITATIVOS 21
Mg. María V. Hermenegildo Chávez

La hipótesis nula y alternativa son:

H0 : ρ = 0, la correlación de la población es cero.


H1 : ρ ≠ 0, la correlación de la población es diferente de cero.

Para muestras pequeñas ( n < 30)

Se usa la distribución t, con n - 2 grados de libertad, con un nivel de significación α.

n−2
t = r.
1− r2

Si – t α‫׀‬2 < t < t α‫׀‬2 se acepta la hipótesis nula.

Si t > t α‫׀‬2 ó t < – t α‫׀‬2, se rechaza Ho, y se acepta H1, esto significa que hay correlación

entre las variables x e y con un nivel de significación α.

Para muestras grandes ( n ≥ 30)

La distribución normal se usa para muestras grandes.

Donde: Z = r. n-1

Si - Z α‫׀‬2 < Z < Z α‫׀‬2 se acepta Ho, de lo contrario se acepta H1

Según el ejemplo (3)

y y2
20 400
15 225 Σ x = 212
17 289
9 81 Σ xy = 3781
16 256
7 49 b = 0.5781
22 484
23 529
2
Σ y = 129 Σ y = 2313

Syy = Σ y2 – 1/n ( Σ y)2

= 2313 – 1/8 (129)2 = 232.875

21
MÉTODOS CUANTITATIVOS 22
Mg. María V. Hermenegildo Chávez

1
Sxy = Σ xy – ( Σ x) ( Σ y)
n

= 3781 – 1/8 (212) (129)

= 362.5

⇒ Σ ( y - ŷ)2 = Syy – b Sxy

= 232.875 – 0.5781 (362.5)

= 23.3137

Suma residual de cuadrados

Σ (y – y )2 = Syy
= 232.875

Σ (ŷ – y )2 = Σ (y – y )2 - Σ ( y - ŷ)2

= Syy - ( Syy – b Sxy)

= bSxy

= (0.5781) (362.5)

= 209.5613

Regresión: suma total de de regresión cuadrados 209.25


Error : Suma residual de cuadrados 23.63
Total : Suma total de cuadrados 232.88

CÁLCULO DEL COEFICIENTE DE DETERMINACIÓN

^ _

r2 =
∑ (y - y ) 2
_

∑ (y - y ) 2

= 0.8999

22
MÉTODOS CUANTITATIVOS 23
Mg. María V. Hermenegildo Chávez

El 89.99% es la proporción de la variación total de la utilidad que se puede atribuir a la


diferencia entre el tamaño adecuado de las tiendas.

COEFICIENTE DE CORRELACIÓN

r =+ 0.8999 , lleva el signo de b


= 0.9486

En la tabla impresa:

R – Sq: coeficiente de determinación, 89.9%

Si r = 0.9486, significa que el 89.99%, aproximadamente 90% de la variación en y se


atribuye a su relación con x.

Para otro caso:

Si r2 = 0.18, r = 0.424, significa que sólo el 18% de la variación en y se atribuye a su


relación con x.

Decimos que una correlación, r = 0.9486 es 5 veces más fuerte que una correlación de r =
0.424, pues 90%/18% = 5.

Otro caso:
La correlación r = 0.60 es 9 veces más fuerte que una correlación de 0.20 pues:

(0.60)2 /(0.20)2 = 9.

Prueba de significación de r, para ejemplo (3)

Tenemos que r = 0.9486

Según, Ho suponemos que la correlación de la población ρ = 0, es decir que no haya


correlación entre las variables, rechazamos la hipótesis Ho, si r es menor que – r α‫׀‬2 o
mayor que r α‫׀‬2 para un nivel de significación de α = 0.05

-r 0.025 = - 0.878 r=0 r 0.025 = 0.878

r = 0.9486 > 0.878 = r 0.025, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa
con un nivel de significación α = 0.05, lo que indica que las dos variables tamaño de la
tienda y utilidad están relacionadas.

23
MÉTODOS CUANTITATIVOS 24
Mg. María V. Hermenegildo Chávez

24

También podría gustarte