Está en la página 1de 36

TABLA: Consumo de petrleo para calefaccin, temperatura atmosfrica y cantidad de

aislamiento para una muestra aleatoria de 15 casas de una sola familia


Consumo mensual de
de petrleo
(galones)
275.3
363.8
164.3
40.8
94.3
230.9
366.7
300.6
237.8
121.4
31.4
203.5
441.1
323.0
52.5

Temperatura atmosfrica
promedio diaria
( F)
40
27
40
73
64
34
9
8
23
63
65
41
21
38
58

Cantidad de aislamiento
en la parte alta de la
(pulgadas)
3
3
10
6
6
6
6
10
10
3
10
6
3
3
10

Para el caso de nuestros datos con dos variables explicatorias, el modelo de regresin
lineal mltiple se expresa como:

Yi 0 1 X 1i 2 X 2i 3 X 3i ... p X pi
en la que:
0 la interseccin con el eje Y.

1 la pendiente de Y respecto a la variable X1 manteniendo las variables X2,


X3, ... Xp constantes.
2 la pendiente de Y respecto a la variable X2 manteniendo las variables X1,
X3, ... Xp constantes.
.
.
.
p la pendiente de Y respecto a la variable Xp manteniendo las variables X1,
X2, ... Xp-1 constantes.
i error aleatorio en Y correspondiente a la observacin i.

Al igual que en el caso de la regresin lineal simple, cuando se analizan los datos de la
muestra, los coeficientes de regresin de la muestra (b0 , b1 y b2) se utilizan como
estimaciones de los parmetros verdaderos (0 , 1 y 2). Por consiguiente, la ecuacin
de regresin para el modelo de regresin lineal mltiple con dos variables explicatorias
sera:

Yi b0 b1 X1i b2 X 2i
Utilizando el mtodo de mnimos cuadrados, los valores de los tres coeficientes
de regresin de la muestra pueden obtenerse con un adecuado paquete de computacin.
(Vase Fig. 1). En dicha Fig. 1, observamos que los valores calculados de los
coeficientes de regresin para el problema que se est tratando son:
b0 =562.151

b1 = -5.43658

b2= -20.0123

Por lo tanto, la ecuacin de regresin mltiple puede expresarse como:

Yi 562.151 5.43658 X 1i 20.0123 X 2i


en la que:
Yi cantidad promedio predicha de petrleo para calefaccin que se consume
durante el mes de enero para la observacin i.
X1i = temperatura atmosfrica promedio diaria (F) durante enero para la
observacin i.
X2i = cantidad de aislamiento para la parte ms alta de la casa (pulgadas) para la
observacin i.

PREDICCIN DE LA VARIABLE DEPENDIENTE Y PARA VALORES DADOS


DE LAS VARIABLES EXPLICATIVAS
Utilizaremos el modelo de regresin mltiple para predecir el consumo mensual
de petrleo para calefaccin.
Suponga que deseamos predecir el nmero de galones de petrleo para
calefaccin consumidos en una casa que posee 6 pulgadas de aislamiento en la parte
ms alta de la casa, durante un mes en el cual la temperatura atmosfrica diaria
promedio fue de 30F. Utilizando nuestra ecuacin de regresin mltiple:

Yi 562.151 5.43658 X 1i 20.0123 X 2i


con X1i = 30 y X2i = 6, tenemos

Yi 562.151 5.43658(30) 20.0123(6)


y, por consiguiente,

Yi 278.9798
En consecuencia estimaramos que un promedio de 278.98 galones de petrleo para calefaccin
se utilizaran en casas con 6 pulgadas de aislamiento en la parte ms alta de la casa, cuando la temperatura
promedio fuera de 30F.

MEDICION DE LA ASOCIACION EN EL MODELO DE REGRESION MULTIPLE

En la regresin mltiple, puesto que al menos se tienen dos variables


explicatorias, el coeficiente de determinacin mltiple representa la porcin de la
variacin en Y que se puede explicar mediante el conjunto de variables explicatorias
elegidas. En nuestro ejemplo, que contiene dos variables independientes, el coeficiente
de determinacin mltiple (rY2.12 ) est dado por:

rY2.12

SSR
SST

en la que
n

i 1

i 1

i 1

SSR b0 Yi b1 X 1iY b2 X 2iYi nY 2


n

SST Yi 2 nY 2
i 1

En el problema del consumo de petrleo para calefaccin ya hemos calculado


SSR = 228,015 y SST = 236,135. As pues, como se muestra en el resultado obtenido
con el paquete MINITAB de la fig. 1, se tiene:

rY2.12

SSR 228,015

0.9656
SST 236,135

Este coeficiente de determinacin mltiple, calculado como 0.9656, puede interpretarse


diciendo que, de la muestra, 96.56% de la varaicin en el consumo de petrleo para
calefaccin domstica puede ser explicada por la variacin en la temperatura
atmosfrica diaria promedio y por la variacin en la cantidad de aislamiento en el tico.
Sin embargo, cuando tratamos con modelos de regresin mltiple, algunos
investigadores sugieren que se calcule un coeficiente r2 ajustado que refleje tanto el
nmero de variables explicatorias del modelo como el tamao de la muestra. Esto se
hace especialmente necesario cuando estamos comparando dos o ms modelos de
regresin que predicen la misma variable dependiente, pero que poseen diferente
nmero de variables explicativas o de prediccin. Por lo tanto, en la regresin mltiple,
podemos representar el coeficiente r2 ajustado como:

n 1

2
raju
1 (1 rY2.1.2...P )
n P 1

en donde P es el nmero de variables explicativas que hay en la ecuacin de regresin.

As pues, para nuestros datos correspondientes al petrleo para calefaccin, como


rY2.1.2 0.9656, n 15, P 2 ,

(15 1)
14

2
raju
1 (1 0.9656)
1 (1 0.9656)
1 0.04 0.96
(
15

1
)
12

En consecuencia, 96% de la variacin en el uso de petrleo para calefaccin domstica puede ser
explicada por nuestro modelo de regresin mltiple: ajustado para el nmero de variables de prediccin y
el tamao de muestra.

Con el propsito de hacer un estudio ms profundo de la relacin entre la variables, a


menudo resulta de utilidad examinar la correlacin entre cada pareja de variables
incluidas en el modelo. Esta matriz de correlacin, que indica el coeficiente de
correlacin entre cada pareja de variables, se muestra en la siguiente tabla:
TABLA: Matriz de correlacin para el problema sobre el consumo del petrleo para calefaccin

Y
(Petrleo para calefaccin)
Y (petrleo para
Calefaccin)
X1 (temperatura)
X2 (aislamiento)

rYY = 1.0
rY1 = -0.86974
rY2 = -0.46508

X1
X2
(Temperatura) (Aislamiento)

rY1 = -0.86974 rY2 = -0.46508


r11 = 1.0
r12 = 0.00892
r12 = 0.00892 r22 = 1.0

En la tabla podemos observar que la correlacin entre la cantidad de petrleo para


calefaccin consumida y la temperatura es de 0.86974, lo cual indica que existe una
fuerte asociacin negativa entre las variables. Tambin podemos observar que la
correlacin entre la cantidad de petrleo para calefaccin consumida y el alislamiento
en el tico es de 0.46508, lo cual indica que existe una correlacin negativa moderada
entre estas variables. Adems, observamos tambin que virtualmente no existe
correlacin alguna (0.00892) entre las dos variables explicativas, la temperatura y el
aislamiento en el tico. Finalmente, podemos observar que los coeficientes de
correlacin situados en la diagonal principal de la matriz (rYY, r11, r22) tienen valor de
1.0, puesto que habr una correlacin perfecta entre la variable y ella misma.

ANALISIS RESIDUAL EN REGRESION MULTIPLE

Cuando examinamos un modelo de regresin lineal mltiple con dos variables


explicativas, las siguientes grficas de residuos son de inters:
1.
2.
3.
4.

Residuos
Residuos
Residuos
Residuos

estandarizados
estandarizados
estandarizados
estandarizados

contra
contra
contra
contra

Yi .
X1i.
X2i.
el tiempo.

La primera grfica de residuos sirve para examinar el patrn de residuos para los
valores predichos de Y. Si los residuos estandarizados parecen variar para diferentes
niveles del valor predicho de Y, esto nos proporciona evidencia de un posible efecto
curvilneo en al menos una variable explicativa y/o de la necesidad de transformar la
variable dependiente. La segunda y tercera grficas de residuos implican a las
variables explicativas. La aparicin de patrones
en la grfica de los residuos
estandarizados contra una variable explicativa puede ser una indicacin de la
existencia de un efecto curvilneo y, por consiguiente, nos llevara a la posible
transformacin de dicha variable independiente. El cuarto tipo de grfica se utiliza
para investigar patrones en los residuos cuando los datos han sido recolectados en
orden cronolgico. Asociada con la grfica de los residuos en funcin del tiempo, la
estadstica de Durbin-Watson puede calcularse y determinarse la existencia de
correlacin positiva entre los residuos.
Las grficas de residuos se obtienen como parte de los resultados de casi todos
los paquetes estadsticos de computacin. En la siguiente Fig. se presentan las
grficas de residuos obtenidas con el paquete MINITAB para el problema del
consumo de petrleo para calefaccin. En esta figura podemos observar que parece
haber un patrn muy pequeo o no haberlo en la relacin entre los residuos
estandarizados y cualquiera de los valores predichos de Y, X1 (la temperatura) o X2
(el aislamiento en el tico). As pues, podemos llegar a la conclusin de que el
modelo de regresin lineal mltiple es apropiado para predecir el consumo de
petrleo con propsitos de calefaccin.

FIG.: Grficas de residuos para el modelo de consumo de petrleo para calefaccin, obtenidas con el
paquete MINITAB

ResiduoSt

-1

-2
3

10

ResiduoSt

ResiduoSt

Aislam

-1

-1

-2

-2
5

15

25

35

Temp

45

55

65

75

100

200

Estimado

300

400

Prueba de la Importancia de la Relacin entre la Variable


Dependiente y las Variables Explicativas

Ahora que hemos utilizado el anlisis de residuos para asegurarnos de que el modelo de
regresin mltiple es apropiado, podemos determinar si existe una relacin significativa
entre la variable dependiente y el conjunto de variables explicativas. Puesto que se tiene
ms de una variable independiente, las hiptesis nula y alternativa pueden establecerse
de la manera siguiente:

H 0 : 1 2 0

(No existe relacin lineal entre la variable dependiente y


las variables explicativas).

H1 : Al menos una j 0 (Al menos un coeficiente de regresin no es igual a cero)


Esta hiptesis nula puede probarse utilizando una prueba F, como se indica en
la siguiente tabla:

TABLA: Anlisis de Varianza para probar la significacin de un conjunto de coeficientes de regresin de


un modelo de regresin mltiple que contiene p = 2 variables explicatorias
Fuente

Regresin

G.L.
P

Cuadrado medio

(Varianza)
SSR
MSR
p
F

Error

n p - 1

MSE

SSE
n p 1

MSR
MSE

Cuando probamos la significacin de los coeficientes de regresin, la medida del error


aleatorio se conoce como varianza de error, de modo que la prueba F es el cociente de
la varianza debida a la regresin dividida entre la varianza de eror. P es el nmero de
variables explicatorias del modelo de regresin, y F sigue una distribucin F con p y n
p 1 grados de libertad.
La regla de decisin es:
Rechace H0 al nivel de significacin si
caso, no rechace H0.

F FU ( p , n p 1) ;

en cualquier otro

Para los datos correspondientes al problema del consumo de petrleo para


calefaccin, presentado en la Tabla Anova, es F = 168.47.
Si se elige un nivel de significacin de 0.05, determinamos que el valor crtico
en la distribucin F (con 2 y 12 grados de libertad) es 3.89. Puesto que F = 168.47 >
FU(2,12)= 3.89, podemos rechazar H0 y llegar a la conclusin de que al menos una de las
variables explicativas (temperatura y/o aislamiento) est relacionada con el consumo de
petrleo para calefaccin.

Prueba de Porciones del Modelo de Regresin Mltiple


En el desarrollo de un modelo de regresin mltiple, el objetivo consiste en
emplear solamente aquellas variables que son de utilidad en la prediccin del valor de
una variable dependiente. Si una variable explicativa no resulta de ayuda para hacer tal
prediccin, puede ser eliminada del modelo de regresin mltiple y se puede usar en su
lugar un modelo con menos variables independientes.
Uno de los mtodos para determinar la contribucin de una variable explicativa
es el conocido como criterio de la prueba F parcial. Este explica la determinacin de la
contribucin a la suma de cuadrados de regresin hecha por cada variable independiente
despus de que todas ellas han sido incluidas en un modelo. Una nueva variable
explicativa sera incluida slo si mejora significativamente el modelo. Para aplicar el
criterio de la prueba F parcial a nuestro problema concerniente al consumo de petrleo
para calefaccin, que contiene dos variables explicativas, necesitamos evaluar la
contribucin de la variable aislamiento en tico (X2) cuando la variable temperatura
atmosfrica diaria promedio (X1) ya ha sido incluida en el modelo y, por el contrario,
tambin debemos evaluar la contribucin de la variable temperatura atmosfrica diaria
promedio (X1) cuando ya se ha incluido en el modelo la variable aislamiento en el tico
(X2).

La contribucin de cada variable independiente que se va a incluir en el modelo puede


ser determinada si se toma en cuenta la suma de cuadrados de regresin de un modelo
que incluya a todas las variables explicativas excepto a la que nos interesa, SSR (todas
las variables excepto k). Por consiguiente, en general, para determinar la contribucin
de la variable k dado que todas las dems variables ya han sido incluidas, tendramos:
SSR(Xk / todas las variables excepto k)
= SSR(todas las variables incluida k) SSR(todas las variables excepto k)
Si, como en el problema del consumo de petrleo para calefaccin, se tienen dos
variables independientes, se puede determinar la contribucin de cada una de ellas con
las siguientes ecuaciones:
Contribucin de la variable X1 sabiendo que X2 est incluida
SSR(X1 / X2) = SSR(X1 y X2) SSR(X2)
Contribucin de la variable X2 sabiendo que X1 est incluida
SSR(X2 / X1) =SSR(X1 y X2) SSR(X1)
El trmino SSR(X2) representa la suma de cuadrados debida a la regresin,
correspondiente a un modelo que slo incluye la variable explicativa X2 (cantidad de
aislamiento en el tico); el trmino SSR(X1) representa la suma de cuadrados para un
modelo que nicamente incluye la variable explicativa X1 (temperatura atmosfrica
diaria promedio). En las siguientes figuras se presentan los resultados obtenidos
mediante el paquete MINITAB, correspondiente a estos dos modelos.

FIG. 1: Resultado parcial de un modelo de regresin lineal simple de la cantidad de


petrleo para calefaccin consumido y la cantidad de aislamiento en el tico.
Anlisis de regresin
The regression equation is
Consumo = 345 - 20.4 Aislam
Predictor
Constant
Aislam
S = 119.3

Coef
345.38
-20.35

StDev
74.69
10.74

R-Sq = 21.6%

T
4.62
-1.89

P
0.000
0.081

R-Sq(adj) = 15.6%

Anlisis de Varianza
Source
Regression
Residual Error
Total

DF
1
13
14

SS

51076
185059
236135

MS
51076
14235

F
3.59

P
0.081

FIG. 2: Resultado parcial del modelo de regresin lineal simple de la cantidad de


petrleo para calefaccin consumido y la temperatura atmosfrica diaria promedio.
Anlisis de regresin
The regression equation is
Consumo = 436 - 5.46 Temp
Predictor
Constant
Temp

Coef
436.44
-5.4622

S = 66.51

StDev
38.64
0.8596

R-Sq = 75.6%

T
11.30
-6.35

P
0.000
0.000

R-Sq(adj) = 73.8%

Anlisis de Varianza
Source
Regression
Residual Error
Total

DF
1
13
14

SS

178624
57511
236135

MS
178624
4424

F
40.38

Podemos observar que


SSR(X2) = 51,076
y, por consiguiente, de la ecuacin:
SSR(X1 / X2) = SSR(X1 y X2) SSR(X2)
tenemos,
SSR(X1 / X2) = 228,015 51,076 = 176,939

P
0.000

Con el propsito de determinar si X1 mejora significativamente el modelo


despus de que X2 ha sido incluida en ste, ahora podemos dividir la suma de cuadrados
de regresin en dos partes componentes, como se muestra en la siguiente tabla:
TABLA: Tabla de Anlisis de Varianza que divide la suma de cuadrados de regresin en componentes
para determinar la contribucin de la variable Xi

Fuente
Regresin
X 2

X1 / X 2
Error
Total

G.L.

Suma de cuadrados

2
1

1
12

228,015
51,076

176
,
939

8,120

14

236,135

Cuadrado
medio
(Varianza)
114,007.5
51,076
176,939
MSE=676.67

261.48

Las hiptesis nula y alternativa para probar la contribucin de X1 al modelo seran:


H0: La variable X1 no mejora significativamente el modelo ya que se ha incluido la
variable X2.
H1: La variable X1 mejora significativamente el modelo ya que se ha incluido la
variable X2.
El criterio de la prueba F parcial se expresa como:

SSR( X k / todas las var iables excepto k )


MSE

As pues, de la tabla anterior, tenemos:

176,939
F
261.48
676.67
Puesto que se tienen, respectivamente, uno y doce grados de libertad, si se selecciona un nivel de
significacin de 0.05, podemos observar que el valor crtico es de 4.75. Como el valor de F calculado es
mayor que este valor de F crtico (261.48 > 4.75), nuestra decisin sera rechazar H 0 y llegar a la
conclusin de que la adicin de la variable X1 (temperatura atmosfrica diaria promedio) mejora
significativamente el modelo de regresin mltiple que ya tiene incluida la variable X 2 (aislamiento en el
tico).

Con el fin de evaluar la contribucin de la variable X2 (aislamiento en el tico) a un


modelo que ya tiene incluida la variable X1, necesitamos utilizar la ecuacin:
SSR(X2 / X1) = SSR(X1 y X2) SSR(X1)
Podemos observar en la figura 2 que:
SSR(X1) = 178,624
Por consiguiente,
SSR(X2 / X1) = 228,015 178,624 = 49,391
As pues, con el fin de determinar si X2 mejora significativamente un modelo despus
de que X1 ha sido incluida en ste, la suma de cuadrados de regresin puede divirse en
dos partes como se muestra en la siguiente tabla:

TABLA: Tabla de Anlisis de Varianza que divide la suma de cuadrados de regresin en componentes
para determinar la contribucin de la variable X 2

Fuente
Regresin
X1

X
/
X
2 1

Error
Total

G.L.

Suma de cuadrados

2
1

1
12

228,015
178,624

49
,
391

8,120

14

236,135

Cuadrado
medio
(Varianza)
114,007.5
178,624
49,391
MSE=676.67

72.99

La hiptesis nula y alternativa para probar la contribucin de X2 al modelo seran:


H0: La variable X2 no mejora significativamente el modelo ya que se ha incluido la
variable X1.
H1: La variable X2 mejora significativamente el modelo ya que se ha incluido la
variable X1.
As pues, de la tabla anterior, tenemos:

49,391
72.99
676.67
Puesto que se tienen uno y doce grados de libertad, respectivamente, si se elige un nivel
de significacin de 0.05, observamos que el valor crtico de F es 4.75. Ya que el valor
calculado de F es mayor que este valor crtico (72.99 > 4.75), nuestra decisin es
rechazar la hiptesis nula y llegar a la conclusin de que la adicin de la variable X2
(aislamiento en el tico) mejora significativamente el modelo de regresin mltiple que
ya contiene a la variable X1 (temperatura atmosfrica diaria promedio).
F

As pues, al probar la contribucin de cada variable explicativa despus de que la otra ya ha sido
incluida en el modelo, determinamos que cada una de las dos variables independientes contribuye
mejorando significativamente el modelo. Por consiguiente, nuestro modelo de regresin mltiple debera
incluir tanto la temperatura atmosfrica diaria promedio, X1, como la cantidad de aislamiento en el tico,
X2, en la prediccin del consumo de petrleo para calefaccin.

Inferencias Relativas a los Coeficientes de Regresin de Poblacin


Prueba de Hiptesis
Para probar la hiptesis de que la pendiente de poblacin k , es cero, para la
regresin mltiple se utiliza la ecuacin siguiente:

bk
t
S bk
Donde:
bk
: coeficiente de regresin.

S bk
P

: error estndar del coeficiente de regresin bk.


: nmero de variables explicatorias del modelo de regresin.

y t sigue una distribucin t con n P 1 grados de libertad.


Como las frmulas para los errores estndar de los coeficientes de regresin se encuentran
sobrecargadas con un gran nmero de variables, resulta ventajoso que los resultados sean proporcionados
por los paquetes de software estadsticos.

As pues, si deseamos determinar si la variable X2 (cantidad de aislamiento en el tico)


tiene efecto significativo en el consumo de petrleo para calefaccin domstica,
tomando en cuenta la temperatura atmosfrica diaria promedio, las hiptesis nula y
alternativa seran:

H0 : 2 0
H1 : 2 0
De la ecuacin anterior, tenemos:

b2
S bk

y de los datos correspondientes al problema,

b2 20.012 y
de manera que:

Sb2 2.343

20.012
8.5412
2.343

Si se selecciona un nivel de significacin de 0.05, podemos observar que, para 12


grados de libertad, los valores crticos de t son 2.1788 y +2.1788.
Puesto que tenemos t = -8.5412 < -2.1788, rechazamos H0 y llegamos a la conclusin de que
existe una relacin significativa entre la variable X 2 (cantidad de aislamiento en el tico) y el consumo de
petrleo para calefaccin, tomando en cuenta la temperatura atmosfrica diaria promedio, X 1.

Estimacin del Intervalo de Confianza


En lugar de intentar determinar la significacin de un coeficiente de regresin,
podemos estar ms interesados en la estimacin del valor de poblacin de un coeficiente
de regresin. En el anlisis de regresin mltiple se puede obtener una estimacin de
intervalo de confianza con:

bk tn P 1Sbk
Por ejemplo, si deseramos obtener una estimacin de intervalo de confianza de
95% de la pendiente de poblacin, 1 (esto es, el efecto de la temperatura diaria
promedio, X1, sobre el consumo de petrleo para calefaccin, Y, dejando constante el
efecto del aislamiento en el tico, X2), tendramos, de la ecuacin anterior:

b1 t12Sb1
Como el valor crtico de t al nivel de confianza de 95%, con 12 grados de libertad, es
2.1788, tenemos:
5.4366 (2.1788)(0.3362)
5.4366 0.732512
6.169112 1 4.704088

Coeficiente de Determinacin Parcial


Ahora que ya hemos examinado formas en que se puede evaluar la contribucin
de cada variable explicativa al modelo de regresin mltiple, podemos tambin calcular
los coeficientes de determinacin parcial (rY21.2 y rY22.1 ) . Los coeficientes son una
medida de la porcin de la variacin en la variable dependiente que es explicada por
cada variable explicativa, mientras se controla o se mantiene constante a las dems
variables explicativas. As pues, en un modelo de regresin mltiple con dos variables
explicativas tenemos:
rY21.2

SSR( X 1 / X 2 )
SST SSR( X 1 yX 2 ) SSR( X 1 / X 2 )

rY22.1

SSR( X 2 / X 1 )
SST SSR( X 1 yX 2 ) SSR( X 2 / X 1 )

y tambin

en la que:
SSR(X1 / X2) = suma de cuadrados de la contribucin de la variable X1 al modelo de
regresin dado que la variable X2 ha sido incluida en el modelo.
SST = suma total de cuadrados para Y.
SSR(X1 y X2) = suma de cuadrados de regresin cuando las variables X1 y X2 estn
incluidas en el modelo de regresin mltiple.
SSR(X2 / X1) = suma de cuadrados de la contribucin de la variable X 2 al modelo de regresin
que la variable X1 ha sido incluida en el modelo.

dado

Mientras que en un modelo de regresin mltiple que contiene varias (P) variables
explicativas, tenemos:

rYk2 .(todas las var iables excepto k )

SSR( X k / todas las var iables excepto k )


SST SSR(todas las var iables incluida k )
SSR( X k / todaslas var iables excepto k )

Para nuestro problema sobre el consumo de petrleo para calefaccin podemos calcular

rY21.2

176,939
0.9561
236,135 228,015 176,939

rY22.1

49,391
0.8588
236,135 228,015 49,391

El coeficiente de determinacin parcial de la variable Y con X 1, mientras se mantiene constante X2

(rY21.2 ) puede interpretarse como que, para una cantidad fija (constante) de aislamiento en el tico,
95.61% de la variacin en el consumo de petrleo para calefaccin durante enero puede explicarse por la
variacin en la temperatura atmosfrica diaria promedio en dicho mes. Adems, el coeficiente de
determinacin parcial de la variable Y con X2, mientras se mantiene constante X1

(rY22.1 ) puede

interpretarse como que, para una temperatura atmosfrica diaria promedio dada (constante), 85.88% de la
variacin en el consumo de petrleo para calefaccin durante enero puede ser explicada por la variacin
en la cantidad de aislamiento.

El Modelo de Regresin Curvilneo


En nuestro anlisis de la regresin simple y en el de regresin mltiple, hemos
supuesto que la relacin entre Y y cada variable explicativa es lineal. Sin embargo,
existen varios tipos diferentes de relaciones entre variables. Una de las relaciones no
lineales ms comunes es la relacin polinomial curvilnea entre dos variables en la que
Y aumenta (o disminuye) con una rapidez variable para diferentes valores de X. Este
modelo de una relacin polinomial entre X y Y puede expresarse como:

Yi 0 1 X 1i 11 X 12i i

en la que:
0 = interseccin Y.
1 = efecto lineal en Y.
1 1 = efecto curvilneo en Y.
i = error aleatorio en Y para la observacin i.
Este modelo de regresin es parecido al modelo de regresin mltiple con dos
variables explicativas, excepto en que la segunda variable explicativa, en este caso, es
justamente el cuadrado de la primera variable.
Al igual que en el caso de la regresin lineal mltiple, cuando se analizan datos
de muestra, los coeficientes de regresin de muestra (b0 , b1 y b11 ) se utilizan como
estimaciones de los parmetros de poblacin ( 0 , 1 , 11) . En consecuencia, la ecuacin
de regresin para el modelo polinomial curvilneo con una variable explicativa (X 1) y
una variable dependiente (Y) es:

Yi b0 b1 X 1i b11 X 12i

(1)

Un planteamiento alternativo al modelo de regresin curvilneo expresado en la


ecuacin (1) consiste en centrar los datos mediante la sustraccin de la media de la
variable explicativa de cada valor del modelo. Este modelo de regresin centrada se
presenta en la siguiente ecuacin:

Yi b0' b1' ( X 1i X 1 ) b11 ( X 1i X 1 ) 2

(2)

Bsqueda de los Coeficientes de Regresin y Prediccin de Y


Con el fin de ilustrar el modelo el regresin curvilneo, suponga que el departamento de
mercadotecnia de una cadena grande de supermercados desea estudiar la flexibilidad de precios de los
paquetes de rasuradoras desechables. Se seleccion una muestra aleatoria de 15 tiendas con igual
afluencia de clientes y colocacin de artculos (es decir, junto a las cajas registradoras). El nmero de
paquetes vendidos y el precio en cada tienda se presentan en la siguiente tabla:

TABLA: Ventas y precios de paquetes de rasuradoras desechables para una muestra de 15 tiendas

Ventas
142
151
163
168
176
91
100
107

Precio (ctvos.)
79
79
79
79
79
99
99
99

Ventas
115
126
77
86
95
100
106

Precio (ctvos.)
99
99
119
119
119
119
119

Con el propsito de investigar la seleccin del modelo adecuado que representa la


relacin entre precio y ventas, se grafic un diagrama de dispersin en la siguiente
figura:
FIG.: Diagrama de dispersin del precio (X) y las ventas (Y)

Ventas(Y)

180

130

80
80

90

100

110

120

Precio(X1)

Un examen ms detallado de ste nos indica que la disminucin de las ventas se nivela con un
aumento de los precios. Por consiguiente, parece que podra ser ms apropiado utilizar un modelo
curvilneo para estimar las ventas basndose en el precio, en lugar de usar un modelo lineal.

En la siguiente Fig. se presenta el resultado parcial obtenido con el paquete MINITAB


para los datos de nuestro ejemplo, utilizando el modelo centrado (ecuacin 2).

Anlisis de Regresin
La ecuacin de regresin es:
Ventas(Y) = 108 - 1.68 (X1i - media) + 0.0465 (X1i - media)sq
Predictor
Constant
(X1i - m
(X1i - m

Coef

107.800
-1.6800
0.04650

S = 12.87

StDev
5.756
0.2035
0.01762

R-Sq = 86.2%

T
18.73

-8.26
2.64

P
0.000
0.000
0.022

R-Sq(adj) = 83.9%

Anlisis de Varianza
Source
Regression
Residual Error
Total
Source
(X1i - m
(X1i - m

DF
1
1

DF
2
12
14

SS
12442.8
1987.6
14430.4

MS

6221.4
165.6

F
37.56

Seq SS
11289.6
1153.2

En la figura observamos que:

b0" 107.8

b1" 1.68

b11 0.0465

Por consiguiente, el modelo curvilneo centrado puede expresarse como:

Yi 107.8 1.68( X 1i X 1 ) 0.0465( X 1i X ) 2


en la que Yi = venta promedio predichas para la tienda i.
X 1i = precio de las rasuradoras desechables en la tienda i.

P
0.000

Prueba de la Significacin del Modelo Curvilneo


Ahora que el modelo curvilneo ha sido ajustado a los datos, podemos
determinar si existe una relacin curvilnea significativa entre las ventas, Y, y el precio,
X,. De manera parecida a la regresin mltiple, las hiptesis nula y alternativa pueden
establecerse como

H 0 : 1 11 0
H1 : 1 y/o 11 0

(no existe relacin entre X1 y Y)


(el ltimo coeficiente de regresin no es igual a cero).

La hiptesis nula puede ser probada utilizando una prueba F. Utilizando los
resultados obtenidos para nuestro problema mediante el paquete MINITAB, se tiene:

MSR
6,221.4

37.57
MSE
165.6
Si se selecciona un nivel de segnificacin de 0.05, tenemos que, para 2 y 12
grados de libertad, el valor crtico de la distribucin F es de 3.89. Por lo tanto, dado que
F 37.57 FU ( 2,12) 3.89 , podemos rechazar la hiptesis nula y llegar a la conclusin
de que existe una relacin curvilnea significativa entre las ventas y el precio de las
rasuradoras.
F

En el modelo de regresin mltiple calculamos el coeficiente de determinacin


mltiple, rY2.12 para que represente la porcin de variacin en Y que es explicada por la
variacin en las variables independientes. En el anlisis de regresin curvilnea, este
coeficiente puede calcularse con la ecuacin siguiente:
SSR
rY2.12
SST

De los resultados del paquete MINITAB, tenemos


SSR = 12,442.8 y SST = 14,430.4
As pues,

rY2.12

SSR 12,442.8

0.862
SST 14,430.4

Este coeficiente de determinacin mltiple, cuyo valor se calcul en 0.862,


puede interpretarse como que el 86.2% de la variacin en las ventas puede ser
explicado por la relacin curvilnea entre las ventas (Y) y el precio (X). Tambin se
puede calcular un coeficiente rY2.12 ajustado para tomar en cuenta el nmero de variables
explicativas y el nnero de grados libertad. En nuestro modelo de regresin curvilneo,
P = 2, puesto que tenemos dos variables independientes, X 1 y su cuadrado , X 12 . Por
consiguiente, para las ventas de rasuradoras, tenemos:

(15 1)
n 1

2
2
r 1 (1 rY .1.2...P )
1 (1 rY .12 )
1 (1 0.862)

n P 1
(15 2 1)

1 0.161 0.839
2
aju

Prueba del Efecto Curvilineal


Al utilizar un modelo de regresin para examinar una relacin entre dos
variables, nos gustara ajustar no slo el modelo ms preciso, sino tambin el ms
sencillo que pueda expresar dicha relacin. En consecuencia, resulta importante
examinar si existe una diferencia significativa entre el modelo curvilneo
Yi 0" 1" ( X 1i X 1 ) 11( X 1i X 1 ) 2 i
y el modeo lineal
Yi 0 1 X i i
Estos dos modelos pueden ser comparados mediante la determinacin del efecto de
regresin que se tiene al agregar el trmino curvilneo, dado que el trmino lineal ya ha
sido incluido, esto es, SSR( X 12 / X 1 ).
Podemos utilizar la prueba t para el coeficiente de regresin con el fin de
determinar si cada variable particular hace una contribucin significativa al modelo de
regresin. De acuerdo con el resultado obtenido con el paquete MINITAB, observamos
que el error estndar de cada coeficiente de regresin y su correspondiente estadstica t
estn disponibles. As pues, podemos probar la significacin de la contribucin del
efecto curvilneo con las siguientes hiptesis nula y alternativa:
H0 : El incluir el efecto curvilneo no mejora significativamente el modelo (
( 11 0) .
H1 : El incluir el efecto curvilneo mejora significativamente el modelo
( 11 0) .
Para nuestros datos:

b11
0.0465

2.64
Sb1
0.01762

Si se selecciona un nivel de significacin de 0.05, encontramos que con doce grados de libertad,
los valores crticos son 2.1788 y +2.1788. Puesto que t = 2.64 > t12 =2.1788, nuestra decisin sera
rechazar H0 y llegar a la conclusin de que el modelo curvilneo es significativamente mejor que el
modelo lineal en la representacin de la relacin entre las ventas y los precios.

Prueba del Efecto Lineal


Ahora que hemos probado el efecto curvilneo, deberamos determinar tambin
si existe una diferencia significativa entre el modelo curvilneo:
Yi 0' 1' ( X1i X1 ) 11( X1i X1 ) i
y el modelo que incluye nicamente el efecto curvilneo:
Yi 0' 11( X1i X1 ) 2 1
Como en el caso del efecto curvilneo, podemos utilizar la prueba t para
determinar la contribucin del efecto lineal dado que el efecto curvilneo ya se
encuentra incluido en el modelo.
Para nuestros datos,

b1"
1.68
t

8.26
Sb "
0.2035
1

Las hiptesis nula y alternativa para probar la contribucin del efecto lineal al modelo
de regresin son:

H 0 : 1' 0 (La inclusin del efecto lineal no mejora el modelo de efecto curvilneo.)
H1 : 1' 0 (La inclusin del efecto lineal mejora el modelo de efecto curvilneo.)
Si se selecciona un nivel de significacin de 0.05, encontramos que con doce
grados de libertad, los valores crticos son 2.1788 y +2.1788. Puesto que t = -8.26 < t12
= -2.1788, nuestra decisin sera rechazar H0 y llegar a la conclusin de que el modelo
curvilneo que incluye al efecto lineal es significativamente mejor que el modelo que
slo incluye al efecto curvilneo.

Modelos de Variables Ficticias


En nuestro anlisis de los modelos de regresin mltiple efectuada hasta el
momento, hemos supuesto que cada variable explicativa (o independiente) es numrica.
Sin embargo, se tienen muchos casos en los que se necesita tomar en cuenta variables
categricas como parte del proceso de desarrollo del modelo. Por ejemplo, si se tiene los
resultados de una Encuesta de satisfaccin de los empleados en una empresa, y
utilizamos la antigedad (en nmero de aos) en la planta de trabajo para desarrollar un
modelo para predecir el ingreso. Adems, podemos desear tambin incluir el efecto de
factores como el sexo de los trabajadores, si los individuos participan en decisiones
presupuestales, si toman parte en las decisiones que afectan su trabajo y si estn
orgullosos de estar trabajando para la organizacin.
El uso de variables ficticias es el vehculo que nos permite tomar en
consideracin variables categricas como parte del modelo de regresin. Si una variable
independiente categrica tiene dos categoras, entonces solamente se necesitar una
variable ficticia para representar a las dos categoras. La variable ficticia particular (Xd)
se define como:

0 si la observacin estaba en la categora 1.


Xd
1 si la observacin estaba en la categora 2.

Con el propsito de ilustrar la aplicacin de variables ficticias en la regresin,


examinemos un modelo para predecir el ingreso de los empleados basndonos en la
antigedad en la planta de trabajo (X1) y si el individuo participa o no en decisiones
presupuestales. As pues, una vriable ficticia correspondiente a la participacin en
decisiones presupuestales (X2) se define como:
0 si el individuo no tuvo participac in en las decisiones pre sup uest
X2
1 si el individuo participa en las decisiones pre sup uestales .
Suponiendo que la pendiente entre el ingreso y la antigedad en la planta de trabajo es
la misma para ambos grupos, el modelo de regresin puede establecerse como:

Yi 0 1 X1i 2 X 2i i

(1)

en la que Yi ingreso correspondiente al empleado i.

0 interseccin con Y.
1 pendiente del ingreso con la antigedad en la planta de trabajo,
manteniendo
constante si el individuo participa o no en decisiones
presupuestales.
2 efecto de aumento de la participacin individual en decisiones
presupuestales, manteniendo constante la antigedad en la planta de trabajo.
i error aleatorio en Y correspondiente al empleado i.
Usando la muestra de 57 empleados cuya ocupacin est clasificada como tcnica de ventas, se
ajust el modelo establecido en la ecuacin (1). Los valores de los coeficientes de regresin de
muestra resultantes (b0 , b1 y b2) , de los errores estndar y de t se resumen en la siguiente tabla:

TABLA: Resumen de los Resultados para el Modelo de Variable Ficticia

Nombre de la variable
Constante
Aos
Participacin
en
decisiones presupuestales

Coeficiente de
regresin

Error estndar

13.936
0.7314

3.850
0.1759

3.62
4.16

8.027

3.341

2.40

Observe lo siguiente:
1. Manteniendo constante el efecto de si el individuo participa en decisiones
presupuestales, se estima que cada ao adicional de antigedad en la planta
de trabajo se obtiene en promedio $731.40 en el ingreso del empleado.
2. b2 mide el efecto sobre el ingreso de haber participado en decisiones presupuestales (X 2 = 1)
en comparacin con no haber participado en tales decisiones (X 2 = 0). Por lo tanto,
manteniendo la antigedad en la planta de trabajo constante, estimamos que un empleado
que participa en decisiones presupuestales tendr, en promedio, un ingreso de $8,027.00 por
encima de alguien que no participa en dichas decisiones.

Utilizando los resultados de la tabla anterior, el modelo para estos datos puede
establecerse como:

Yi 13.936 0.7314 X1i 8.027 X 2i


Para empleados que no participan en decisiones presupuestales el modelo se reduce a:

Yi 13.936 0.7314 X1i


puesto que X2 = 0.
Para empleados que s participan en decisiones presupuestales el modelo se reduce a:

Yi 21.963 0.7314 X1i


puesto que X2 = 1.

También podría gustarte