Está en la página 1de 39

1 REGRESIN LINEAL SIMPLE Y MLTIPLE

INTRODUCCIN
El anlisis de regresin tiene como objetivo modelar en forma matemtica el
comportamiento de una variable de respuesta en funcin de una o ms variables
independientes (factores). Por ejemplo, suponga que el rendimiento de un proceso
qumico est relacionado con la temperatura de operacin. Si mediante un modelo
matemtico es posible describir tal relacin, entonces este modelo puede ser
usado para propsitos de prediccin, optimizacin o control.
Para estimar los parmetros de un modelo de regresin son necesarios los datos,
los cuales pueden obtenerse de experimentos planeados, de observaciones de
fenmenos no controlados o de registros histricos.
Sean dos variables X y Y, suponga que se quiere explicar el comportamiento de Y
con base en los valores que toma X. Para esto, se mide el valor de Y sobre un
conjunto de n valores de X, con lo que se obtienen n parejas de puntos
(x1,y1),(x2,y2),,(xn,yn). A Y se le llama la variable dependiente o variable de
respuesta y a X se le conoce como variable independiente. La variable X no
necesariamente es aleatoria, ya que en muchas ocasiones el investigador fija sus
valores; en cambio, Y s es una variable aleatoria. Una manera de estudiar el
comportamiento de Y con respecto a X es mediante un modelo de regresin que
consiste en ajustar un modelo matemtico a las n parejas de puntos. Con ello, se
puede ver si dado un valor de la variable independiente X es posible predecir el
valor promedio de Y.
Suponga que las variables X y Y estn relacionadas linealmente y que para cada
valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que
cada observacin de Y puede ser descrita por el modelo:
= +  + 

(1.1)

  | =
+ 

(1.2)

Donde  es un error aleatorio con media cero y varianza   . Tambin suponga que
los errores aleatorios no estn correlacionados. La ecuacin (1.1) es conocida
como el modelo de regresin lineal simple. Bajo el supuesto de que este modelo
es adecuado y como el valor esperado del error es cero,   = 0, se puede ver
que el valor esperado de la variable Y, para cada valor de X, est dado por lnea
recta.
En donde
y son los parmetros del modelo y son constantes desconocidas.
Por lo tanto, para tener bien especificada la ecuacin que relaciona las dos
1

variables ser necesario estimar los dos parmetros, que tienen los siguientes
significados:
es el punto en el cual la lnea recta intercepta o cruza el eje y, y
es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o
disminuye la variable Y por cada unidad que se incrementa X.
El siguiente ejemplo nos permitir ilustrar mejor los conceptos anteriores.
Ejemplo 1.1 En un laboratorio se quiere investigar la forma en que se relaciona la
cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel). Los
datos obtenidos en un estudio experimental son los siguientes:
Porcentaje de fibra
4
6
8
10
12
14
16
18
20
22
24
26
28
30

Resistencia
134
145
142
149
144
160
156
157
168
166
167
171
174
183

Tabla 1.1 Datos de resistencia de la pulpa

Es claro que la variable de respuesta o variable dependiente es la resistencia, por


eso se denota con Y. para tener una idea de la relacin que existe entre X y Y, los
14 pares de datos son graficados en un diagrama de dispersin como el siguiente.
190

180

Resistencia

170

160

150

140

130
5

10

15
20
Porcentaje de fibra

25

30

Figura 1.1 Diagrama de dispersin para los datos de resistencia de la pulpa

Se observa que entre X y Y existe una correlacin lineal positiva, ya que conforme
aumenta X tambin se incrementa Y, por lo que es razonable suponer que la
relacin entre X y Y la explique un modelo de regresin lineal simple. As, cada
observacin de Y, la podemos expresar como:
 = +  + 

(1.3)

Con i=1,2,,n (n=14 para este ejemplo). Para estimar y ajustamos la recta
que explique de mejor manera el comportamiento de los datos en el diagrama de
dispersin de la figura 1.1. En otras palabras, debemos encontrar la recta que
pasa ms cerca de todos los puntos. Un procedimiento para ajustar la mejor recta
y, por lo tanto, para estimar y es mediante el mtodo de mnimos cuadrados,
el cual consiste en lo siguiente: Si de la ecuacin (1.3) despejamos los errores, los
elevamos al cuadrado y los sumamos, obtenemos lo siguiente:


= !  = !  [ +  ]




(1.4)

De esta forma, se quieren encontrar los valores de y que minimizan la suma


de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la
suma de las distancias en forma vertical de los puntos a la recta se minimice.
El procedimiento matemtico para minimizar los errores de la ecuacin (1.4) y as
encontrar los estimadores de mnimos cuadrados de y , consiste en calcular
dichos estimadores por medio de las siguientes frmulas:
 =

    
   

(1.5)

 =   

(1.6)

,  son las medias muestrales de las dos variables, es decir,


 =  



 =  


(1.7) y (1.8)

De esta forma, para obtener la recta ajustada es necesario aplicar las frmulas
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos
de la resistencia de la pulpa.
3

Porcentaje de fibra
(Xi)
4
6
8
10
12
14
16
18
20
22
24
26
28
30
 =238
=17

Resistencia
(Yi)
134
145
142
149
144
160
156
157
168
166
167
171
174
183
 =2216

=158.286



 

16
36
64
100
144
196
256
324
400
484
576
676
784
900

 =4956

536
870
1136
1490
1728
2240
2496
2826
3360
3652
4008
4446
4872
5490
  =39150

Tabla 1.2 Procedimiento para realizar los clculos para la regresin simple

 =

$% &'( ) * &+.+-


)%&-( )+%

)*+
% '

= 1.6242

 = 158.286 1.624217 = 130.67

Por lo tanto, la lnea recta que mejor explica la relacin entre porcentaje de fibra y
resistencia del papel, est dada por:
6 = 130.67 + 1.6242

(1.9)

En la siguiente figura se muestra el ajuste de esta lnea. De esta manera, por cada
punto porcentual de incremento en el porcentaje de fibra, se espera un incremento
de la resistencia de 1.6242 en promedio.
190

180

Resistencia

170

160

150

140

130
5

10

15
20
Porcentaje de fibra

25

30

Figura 1.2 Lnea que mejor se ajusta a los puntos

La ecuacin (1.9) sirve para estimar la resistencia promedio esperada para


cualquier porcentaje de fibra utilizada, claro que esa estimacin ser ms precisa
en la medida que X est dentro del intervalo de los valores con los que se hizo la
estimacin. Por ejemplo, para cada Xi, con el que se experiment, se puede
estimar el 6 con base en el modelo.
Hasta aqu hemos obtenido una ecuacin de regresin que estima la relacin
entre la variable X y la variable Y, ahora la pregunta es Qu tan bien se ajusta a
los datos dicha ecuacin?
Una medida de la bondad de ajuste de la ecuacin de regresin estimada (lo bien
que se ajusta la ecuacin a los datos) es el coeficiente de determinacin, mismo
que se obtiene realizando algunas sumas de cuadrados que veremos a
continuacin.
A la diferencia que existe, en la observacin i, entre el valor observado de la
variable dependiente Yi, y el valor estimado de la variable dependiente 6 , se le
llama residual y se denota como: 7
El residual 7 representa el error que existe al usar 6 para estimar Yi. Por lo tanto,
para la observacin i, el residual es: 7 =  6

La suma de los cuadrados de estos residuales o errores es la cantidad que se


minimiza empleando el mtodo de los mnimos cuadrados. Esta cantidad, tambin
conocida como suma de cuadrados debida al error, se denota por SCE.
SUMA DE CUADRADOS DEBIDA AL ERROR:

9 E ?
ABC = DE D

(1.10)

El valor SCE es una medida del error al utilizar la ecuacin de regresin estimada
para estimar los valores de la variable dependiente en los elementos de la
muestra. Por lo tanto, SCE mide el error que existe al utilizar la ecuacin de
regresin estimada para predecir Y.
Retomando el ejemplo 1.1, los valores de las variables independiente y
dependiente para/del porcentaje de fibra 1 son X1= 4 y Y1= 134. El valor estimado
para esta resistencia de la pulpa segn la ecuacin de regresin estimada es
9 = :;<. => + :. =?@?@ = :;>. ?<. Por lo tanto, para el porcentaje 1, el error al
Y
9 para estimar Y1 es:
usar Y

9 = 134 137.20 = 3.2 El error elevado al cuadrado, (-3.2)2=10.24.


Y Y

Despus de calcular y elevar al cuadrado los residuales de cada uno de los


porcentajes de la muestra, se suman y se obtiene la Suma de Cuadrados debido
al Error (SCE).
A continuacin se muestra una tabla con cada uno de los residuales de cada uno
de los porcentajes de fibra.
Porcentaje
de fibra
(Xi)
4
6
8
10
12
14
16
18
20
22
24
26
28
30
 =238

Resistencia
(Yi)
134
145
142
149
144
160
156
157
168
166
167
171
174
183
 =2216

Resistencia
estimada
6
137.17
140.42
143.66
146.91
150.16
153.41
156.66
159.90
163.15
166.40
169.65
172.90
176.15
179.40

Residual
(error)
7 =  6
-3.17
4.59
-1.66
2.09
-6.16
6.59
-0.66
-2.90
4.85
-0.40
-2.65
-1.90
-2.15
3.60

Residual al
cuadrado
7 =   6 
10.05
21.02
2.76
4.37
37.95
43.43
0.44
8.41
23.52
0.16
7.02
3.61
4.62
12.96
SCE=180.32

Tabla 1.3 Clculos de SCE suma de cuadrados debido al error

  es la varianza del error aleatorio, . As que es natural utilizar los residuos para
hacer una estimacin para dicha varianza. Para ello la suma de cuadrados debido
al error se divide entre sus respectivos grados de libertad, por lo tanto, un
estimador insesgado de   est dado por:
GHI

F  = ( = BJC

(1.11)

Como se aprecia en la expresin anterior F  recibe el nombre de Cuadrado Medio


debido al Error; y la raz cuadrada de ste, es decir, F = LM, se conoce como
error estndar de estimacin.

1.1.1 PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE


En cualquier anlisis de regresin no basta hacer los clculos que se explicaron
antes, sino que es necesario evaluar qu tan bien el modelo (la lnea recta) explica
la relacin entre X y Y.
Para probar si existe una relacin de regresin significante, se debe realizar una
prueba de hiptesis.
Hay dos pruebas que son las usadas: Prueba t y F, en ambas se requiere una
estimacin de  , misma que est dada en la expresin (1.11).
1.1.1.1 PRUEBA DE HIPTESIS t
Por lo general, la hiptesis de mayor inters plantea que la pendiente es
significativamente diferente de cero. Esto se logra al probar la siguiente hiptesis:
P : = 0
P : 0

(1.12)

Si se rechaza Ho, se concluir que 0, y que entre las dos variables existe una
relacin estadsticamente significante.
Para encontrar el estadstico de prueba o de contraste para esta hiptesis, se
requiere calcular previamente el error estndar estimado de
ERROR ESTNDAR ESTIMADO DE Z: :

F[ =

]
\

^ ( _

El estadstico de prueba o de contraste se determina as:

(1.13)

V`ab = \]

(1.14)1

Uno de los mtodos para rechazar la hiptesis nula (P  es el del valor crtico; el
cual si recordamos, dado el nivel de significancia y considerando n-2 grados de
libertad; se busca en las tablas de distribucin t, recordemos tambin que la
prueba es de dos extremos porque la H1 0, por lo tanto el nivel de significancia se
divide entre 2; por lo que el valor crtico est dado por: t R/ , gl

Al aplicar este criterio, se rechaza Ho si tcal VW/ si tcal VW/ en caso contrario no
se rechaza Ho.
1

el subndice cal permite diferenciar el valor t calculado del valor crtico t


7

No rechazar que = 0, en el caso del modelo de regresin lineal simple, implica


que no existe una relacin lineal significativa entre X y Y; por lo tanto, no existe
relacin entre las variables.
Si se utiliza como criterio de rechazo la comparacin de la significancia observada
(valor-p o p-value) contra la significancia predefinida (), entonces se rechaza Ho
si valor-p < .
La estimacin de los parmetros del modelo y las pruebas de hiptesis sobre los
mismos se sintetizan en la tabla siguiente.
PARMETRO

ESTIMACIN

Intercepcin

     

Pendiente

 

ERROR ESTNDAR

     
    

F[ 

ESTADSTICO

F

V`ab 

^  


F[

VALOR-P

PrVW g |V`ab |

Consideremos el ejemplo 1.1 (resistencia de la pulpa) para realizar la prueba de


hiptesis recin descrita.
Determinamos nuestras hiptesis:

P :  0
P : O 0

Calculamos el error estndar estimado de : F[ 


c

]
\
^

(_

$.+*-&
$'. --

 0.1285

.-)

Calculamos el estadstico de prueba: V`ab  \]  '. +&  :?. =@


d

Considerando un nivel de significancia de 0.05, determinamos el valor crtico; as


tenemos que t '.'&/ , 12gl equivale a 2.1788

-2.1788

2.1788

V`ab  12.64

Sustituimos valores respectivos en la regla de rechazo si tcal VW/ si tcal VW/ se


rechaza Ho. Como el estadstico de contraste es positivo, probamos la segunda
condicin de dicha regla, as tenemos que 12.64 2.1788 por lo tanto se rechaza
Ho.
8

Debido a que rechazamos Ho podemos concluir que O 0, es decir que existe una

relacin significativa entre las variables X y Y o sea que existe una relacin significativa
entre la cantidad de fibra en la pulpa y la resistencia del papel.

1.1.1.2 PRUEBA DE HIPTESIS F (anlisis de varianza del modelo de


regresin)
Otro enfoque para analizar la significancia del modelo es descomponer la
variabilidad observada, y a partir de ello probar hiptesis. Efectivamente, la
variabilidad total observada en la variable de respuesta puede ser medida a travs
de la Suma Total de Cuadrados, que est dada por:

SUMA TOTAL DE CUADRADOS

k ? = SCR + SCE
STC = DE D

(1.15)

El primer componente de STC se denota por SCR, mide la variabilidad explicada


por la recta de regresin (modelo de regresin) y se le conoce como Suma de
Cuadrados debido a la Regresin y est dada por:
SUMA DE CUADRADOS
DEBIDO A LA REGRESIN

ABn =  6 

(1.16)

Mientras que como vemos, la ecuacin 1.10, es el segundo componente de STC y


mide la variabilidad no explicada por la recta de regresin (modelo de regresin).
Los grados de libertad para STC son n-1, SCR tiene un grado de libertad y SCE
tiene n-2.
Al dividir las sumas de cuadrados entre sus grados de libertad obtenemos los
cuadrados medios:
CUADRADO MEDIO DEBIDO AL ERROR
CUADRADO MEDIO DEBIDO A LA REGRESIN

GHI

BJC = (
BJn =

GHo

(1.11)
(1.17)

Como se mencion en la pgina 6 del presente material; un estimador insesgado


de   es el CME, as que, otro estimador de   lo proporciona el CMR.

Todo lo anterior podemos utilizarlo para generar otra forma de probar la hiptesis
sobre la significancia de la regresin:
P : = 0
P : 0

(1.20)

Ya que si Ho es verdadera, entonces el siguiente estadstico:


qrst =

ESTADSTICO DE PRUEBA F

Huo
HuI

(1.21)

Tiene una distribucin F con 1 y n-2 grados de libertad en el numerador y


denominador respectivamente. Por lo tanto, se rechaza P : = 0, si el estadstico
de prueba es mayor que el valor crtico correspondiente, es decir, se rechaza Ho si
F>F(, 1, n-2).
El anlisis de varianza para probar la significancia del modelo de regresin se
resume a continuacin.
Fuente de
variacin
Regresin
Error o
residual
Total

Suma de
cuadrados
SCR

Grados de
libertad
1

Cuadrado
medio
CMR

SCE

n-2

CME

STC

n-1

Valor-p

LMp
LM

Pr(F>Fcal)

Tabla 1.5 Anlisis de varianza (ANOVA) para el modelo de regresin simple

Ejemplo 1.2 Al hacer el anlisis de regresin y el anlisis de varianza para el


modelo que se ajust a los datos del ejemplo 1.1 (resistencia de la pulpa), se
obtienen las tablas 1.6 y 1.7. Veamos los detalles.
En la pgina cuatro y ocho del presente material ya habamos visto que ' =
130.675 y  = 1.6242, F[ = 0.1285 y V`ab = 12.64, as tenemos que el anlisis de
regresin para la recta de regresin que relaciona el porcentaje de fibra con la
resistencia de la pulpa es:
PARMETRO
Intercepcin
Pendiente

ESTIMACIN
130.675
1.6242

ERROR ESTNDAR

ESTADSTICO

VALOR-P

0.1285

12.64

0.0000

Tabla 1.6 Anlisis de regresin para el ejemplo 1.2

10

En cuanto al anlisis de varianza para la siguiente tabla ya tenemos el valor de


SCE=180.32, el cual se calcul en la pgina 6 del presente, por lo que nos falta
calcular los dems valores de dicha tabla.
Tomando informacin de la tabla 1.3 calcularemos la SCR de la siguiente manera:
Porcentaje
de fibra
(Xi)
4
6
8
10
12
14
16
18
20
22
24
26
28
30

Resistencia
(Yi)
134
145
142
149
144
160
156
157
168
166
167
171
174
183

 6 

Resistencia
estimada
6
137.17
140.42
143.66
146.91
150.16
153.41
156.66
159.90
163.15
166.40
169.65
172.90
176.15
179.40

445.63
319.16
213.74
129.28
65.93
23.72
2.62
2.62
23.72
65.93
129.28
213.74
319.34
446.05
SCR= 2400.5

Prcticamente ya tenemos todos los clculos para completar el anlisis de


varianza de la tabla 1.7, slo restara:
STC= 2,400.5+180.32= 2,580.86
CME=

+'.$


= :v. <?>:

Fuente de variacin
Regresin
Error o residual
Total

Suma de
cuadrados
2,400.5
180.32
2,580.86

CMR=
F=

Grados de
libertad
1
12
13

,)''.&

,)''.&

&.'*

= ?, @<<. v

= :vw. >:

Cuadrado
medio
2,400.5
180.32

Valor-p

159.71

0.0000

Tabla 1.7 Anlisis de varianza (ANOVA) para el ejemplo 1.2

En esta tabla se observa que el modelo de regresin es significativo, ya que el


valor p es menor de 0.05. Esta misma conclusin se obtiene si se procede con el
mtodo del valor crtico, ya que de las tablas de distribucin F se obtiene que
x`ab = 159.71 > x'.'&; ,  = 6.55
11

1.1.2 CALIDAD DEL AJUSTE EN LA REGRESIN LINEAL SIMPLE


En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una
relacin significativa entre X y Y; sin embargo, no hemos visto si tal relacin
permite hacer estimaciones con una precisin aceptable. Por ejemplo, es de
inters saber qu tanta de la variabilidad presente en Y fue explicada por el
modelo.
1.1.2.1 COEFICIENTE DE DETERMINACIN R2
Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el
modelo se ajust a los datos. En el caso de la regresin lineal simple esto se
distingue al observar si los puntos tienden a ajustarse razonablemente bien a la
lnea recta (vase figura 1.2). Pero otro criterio ms cuantitativo es el que
proporciona el coeficiente de determinacin, que en regresin est definido por:
n? =

~aacba b`aa  b b
~aacba ab

ABn
AB

(1.22)

Es claro que 0 < n? 1. En general p  se interpreta como la proporcin de la


variabilidad en los datos (Y) que es explicada por el modelo. En el caso de los
,)''.&
datos del ejemplo 1.1, a partir de la tabla 1.7 tenemos que p   ,&+'.+- = 0.930. Por
lo tanto, podemos decir 93% de la variacin observada en la resistencia es
explicada por el modelo (lnea recta), lo cual nos dice que la calidad del ajuste es
satisfactorio, y que por ello, la relacin entre X y Y es descrita adecuadamente por
una lnea recta.
Coeficiente de determinacin ajustado n?s| . Este coeficiente se calcula de la
siguiente manera:
n?s| =

Hu(HuI
Hu

(1.23)

Donde el cuadrado medio total, CMT, se obtiene al dividir la Suma Total de


Cuadrados (STC) entre sus grados de libertad. Cuando hay muchos trminos en

un modelo el estadstico pa}
se prefiere en lugar de p  , puesto que este ltimo es
engaoso al incrementarse en forma artificial con cada trmino que se agrega al
modelo, aunque sea un trmino que no contribuya en nada a la explicacin de la

respuesta. En cambio, el pa}
incluso baja de valor cuando el trmino que se

agrega no aporta nada. Se cumple que 0 < pa}
p  1.

12

Para el modelo del ejemplo 1.1, de acuerdo a la tabla 1.7, el coeficiente de


determinacin ajustado est dado por:
n?s| 

"2,580.8613] [180.3212]
= <. w?@;:
2,580.8613

Coeficiente de correlacin r. Es bien conocido que el coeficiente de correlacin,


r, mide la intensidad de la relacin lineal entre dos variables X y Y. Si se tiene n
pares de datos de la forma (Xi,Yi), entonces este coeficiente se obtiene de la
siguiente manera:
    
=
     L
Se puede ver que -1 r 1; si r es prximo a -1, entonces tendremos una relacin
lineal negativa fuerte, y si r es prximo a cero, entonces diremos que no hay
correlacin lineal, y finalmente si r es prximo a 1, entonces tendremos una
relacin lineal positiva fuerte. Por ejemplo, para los datos del ejemplo 1, el
coeficiente de correlacin es =
correlacin lineal positiva fuerte.

)*+

^% '&+'.%

= <. w=@@?, lo cual habla de una

Media del error absoluto (mea). Otra forma de medir la calidad del ajuste es a
travs de la media del valor absoluto de los residuos, es decir:
7 =


 | |


(1.24)

Es claro que mientras mejor sea el ajuste, los residuos sern ms pequeos y, en
consecuencia, tambin la mea tender a ser ms pequea. La mea se puede ver
como una medicin para ver cunto falla en promedio el modelo al hacer la
estimacin de la variable de respuesta. En los datos del ejemplo 1.1, de acuerdo a
la tabla 1.3:
7 =

|3.17| + |4.59| + |1.7| + + |3.6| 43.37


=
= 3.0979
14
14

13

1.1.2.2 ANLISIS GRFICO DE RESIDUOS


Como complemento a lo que se ha discutido hasta aqu, un anlisis adecuado de
los residuos proporciona informacin adicional sobre la calidad del ajuste del
modelo de regresin y de esa manera es posible verificar si el modelo es
adecuado. Las grficas que suelen hacerse para completar el diagnostico del
modelo consisten en: graficar los residuos en papel de probabilidad normal,
graficar los residuos contra los predichos (F , los residuos contra cada variable
independiente (Xi) y contra alguna otra variable importante que no haya sido
incluida en el modelo.
Por ejemplo, para los residuos del ejemplo 1.1 que se muestran en la tabla 1.3, se
construye la grfica de probabilidad normal que se muestra a continuacin.

99

95

Porcentaje acumulado

90
80
70
60
50
40
30
20
10
5

-10

-5

0
Residuos

10

Figura 1.3 Grfica de probabilidad normal para los residuos del ejemplo 1.1

En esta grfica se aprecia que los puntos tienden a ajustarse razonablemente bien
a la lnea recta.
A partir de la tabla 1.3 es fcil obtener la grfica de residuos contra predichos
(7 . F  que se muestra en la figura 1.4. Si el modelo es adecuado se espera que
en esta grfica los puntos no sigan ningn patrn y que, por lo tanto, estn
distribuidos ms o menos aleatoriamente a lo largo y ancho de la grfica. Cuando
esto ocurre significa que el modelo se ajusta de igual manera a lo largo de los
valores de Y. por el contrario, si se aprecia algn patrn habr que ver cul es el
tipo de patrn que se observa en la grfica y diagnosticar cul es la falla que
registra el modelo.

14

7.5

5.0

Residuos

2.5

0.0

-2.5

-5.0

140

150

160
Valores Predichos

170

180

Figura 1.4 Grfica de residuos contra estimados o predichos del ejemplo 1.1

En particular la figura anterior no muestra ninguna anomala, lo cual es una


evidencia ms a favor del modelo de regresin simple para el ejemplo 1.1

1.1.3 ESTIMACIN Y PREDICCIN


REGRESIN LINEAL SIMPLE

POR

INTERVALO

EN

Una de las aplicaciones ms importantes en un anlisis de regresin es hacer


estimaciones de la respuesta media para un valor dado Xp. En el caso particular
de la regresin lineal simple, sabemos que un estimador puntual de la respuesta
media lo da la recta de regresin:
6  6   +  
Adems de esto, en ocasiones es de inters obtener una estimacin por intervalo
para | ). Para ello, un intervalo de confianza al 100(1- )% para la respuesta
media en Xp est dado por:
6 V(W,()

INTERVALO DE CONFIANZA

(1.25)

La notacin usada anteriormente corresponde a:


 = valor dado de la variable independiente X
6 = valor de la variable dependiente Y que corresponde al valor dado 
F =

error estndar de 6

ERROR ESTNDAR DE 6

= LM +


( ()_

k2
=1 2 

(1.26)

15

Al intervalo 1.25 se le conoce tambin como intervalo para la recta de regresin.


Note que su amplitud depende de CME y de la distancia entre  y . La amplitud
es mnima cuando  =  y se incrementa conforme | -| se hace ms grande.
Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo
1.1, y obtengamos el intervalo de confianza para la respuesta media en  = 12
(porcentaje en fibra).
El estimador puntual est dado por 6 =130.67 + (1.6242)(12) = 150.16; y un
intervalo de confianza al 95% para la respuesta media en ese punto es:
1 12 17

150.16 2.17915.0271 +
14
910
:v<. := ?. =v=@

De aqu que el intervalo de confianza para la respuesta media en  = 12 est


dado por:
147.5  | = 12) 152.82
Resistencia = 130.7 + 1.624 Porcentaje de fibra
190

Regression
95% C I
95% PI

180

S
R-Sq
R-Sq(adj)

Resistencia

170

3.87648
93.0%
92.4%

160
150
140
130
120
5

10

15
20
Porcentaje de fibra

25

30

Figura 1.5 Recta de regresin con intervalo de confianza y de prediccin para observaciones
futuras para el ejemplo 1.1

La primera banda (roja) de confianza en torno a la recta de regresin de la figura


1.5 indica el clculo del intervalo de confianza de la expresin (1.25) para los
valores  con los que se ajust la recta de regresin. Ntese cmo se va
abriendo esta banda debido a que se incrementa | -|.
16

1.2 REGRESIN LINEAL MULTIPLE


Aunque la seccin previa aplica a una relacin entre dos variables, en esta
seccin veremos un mtodo para analizar una relacin lineal que incluye ms de
dos variables.
Al igual que en la seccin anterior, slo estudiaremos relaciones lineales.
Utilizamos la siguiente ecuacin de regresin mltiple para describir relaciones
lineales que incluyen ms de dos variables.
Una ecuacin de regresin mltiple expresa una relacin lineal entre una variable de respuesta
Y y dos o ms variables de prediccin (x1, x2, x3,,xk). La forma general de una ecuacin de
regresin mltiple es:
= +  +   + +  +
(1.27)
Por lo tanto la forma general de una ecuacin de regresin mltiple ESTIMADA es
6 =  +   +   + +  

(1.28)

Emplearemos la siguiente notacin, que surge de manera natural de la notacin


utilizada en la seccin anterior.
Notacin:

9  + : : +
D
? ? + + (Forma general de la ecuacin de regresin

mltiple estimada).
n = tamao de la muestra.
k = nmero de variables de prediccin. (Las variables de prediccin tambin se
conocen como variables independientes o variables x).
9 =valor predicho de Y (se calcula por medio de la ecuacin de regresin mltiple)
D
: , ? , , Son las variables de prediccin
Z = intercepto Y, o el valor de Y cuando todas las variables de prediccin son 0.
(Este valor es un parmetro poblacional).
= estimado de basado en los datos muestrales ( es un estadstico
muestral).
Z: , Z? , , Z son los coeficientes de las variables de prediccin  ,  , , 
: , ? , , son estimados muestrales de los coeficientes ,  , ,
=es el error aleatorio, que permite a cada respuesta desviarse del valor promedio
de Y por la cantidad . Se debe suponer que los valores de son independientes;
tienen una media de 0 y una varianza comn   para cualquier conjunto
 ,  , ,  y tienen una distribucin normal
17

Cuando estos supuestos respecto a se cumplen, el valor promedio de Y para un


conjunto dado de valores  ,  , ,  es igual al siguiente modelo:
  = +  +   + + 

Observemos que el modelo de regresin mltiple y los supuestos son muy


similares al modelo y los supuestos usados para la regresin lineal simple. Por lo
tanto, no nos sorprenda saber que los procedimientos de prueba y estimacin
tambin son extensiones de los usados en la seccin anterior.
Los modelos de regresin mltiple son muy flexibles y toman muchas formas, lo
que depende de cmo sean introducidas las variables independientes  ,  , , 
en el modelo.
ANALISIS DE REGRESIN MLTIPLE
Este anlisis tiene que ver con procedimientos de estimacin, prueba y
diagnstico diseados para ajustar el modelo de regresin mltiple   = +
 +   + +  a un conjunto de datos.
Debido a la complejidad de los clculos, estos procedimientos se ponen en
prctica casi siempre mediante un programa de regresin en uno o varios
paquetes de software. Seguiremos los patrones bsicos establecidos en la
regresin lineal simple, comenzando con una descripcin de los procedimientos
generales e ilustrados con un ejemplo.
Veamos cmo podemos calcular la ecuacin de regresin mltiple. Por
conveniencia utilizaremos solamente dos variables independientes en el problema
que trabajaremos en esta seccin. Debemos tener en consideracin, que en
principio la misma tcnica es aplicable a cualquier nmero de variables
independientes.
Ejemplo 1.3 El SAT est tratando de estimar la cantidad mensual de impuestos no
pagados descubiertos por su departamento de auditoras. En el pasado, el SAT
estimaba esta cantidad sobre la base del nmero esperado de horas de auditoras
de campo. En los ltimos aos, sin embargo, las horas de trabajo de auditoras de
campo se han vuelto un factor de prediccin errtico de los impuestos reales no
pagados. Como resultado de ello, el SAT est buscando otro factor con el cual
pueda mejorar la ecuacin de estimacin.
18

El departamento de auditoras tiene un registro del nmero de horas que sus


computadoras usan para detectar impuestos no pagados. Podramos combinar
esta informacin con los datos referentes a las horas de trabajo de auditoras de
campo y obtener una ecuacin de estimacin ms precisa para los impuestos no
pagados descubiertos cada mes? En la siguiente tabla se presentan esos datos
correspondientes a los ltimos diez meses.
En la regresin simple, X es el smbolo utilizado para los valores de la variable
independiente. En la regresin mltiple tenemos ms de una variable
independiente. De modo que debemos continuar usando X, pero debemos aadir
un subndice (por ejemplo X1,X2) para diferenciar las variables independientes que
estamos utilizando.
En este ejemplo, dejaremos que X1 represente el nmero de horas de trabajo de
auditoras en campo y X2 represente el nmero de horas en computadora. La
variable dependiente, Y, ser los impuestos reales no pagados descubiertos.
Mes

Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre

Horas de
trabajo de
auditora de
campo
(x1)
45
42
44
45
43
46
44
45
44
43

Horas en
computadora
(x2)

16
14
15
13
13
14
16
16
15
15

Impuestos
reales no
pagados
descubiertos
(Yi)
29
24
27
25
26
28
30
28
28
27

Tabla 1.8 Datos de la auditora del SAT empleados en el ejemplo 1.3

Recordemos que en la regresin simple, la ecuacin 6   +   describe la


relacin entre dos variables X y Y. En regresin mltiple, debemos extender esa
ecuacin, agregando un trmino para cada nueva variable. En forma simblica, la
ecuacin (1.28) es la frmula que podemos utilizar cuando tenemos dos variables
independientes
6   +   +  

19

En la que:
6 = valor estimado correspondiente a la variable dependiente
 = Interseccin con Y
 y  = valores de las dos variables independientes
 y  = pendientes asociadas con  y , respectivamente.

Recordemos que visualizamos la ecuacin de estimacin como una lnea recta en


una grfica; as pues, podemos representar una ecuacin de regresin mltiple
con dos variables independientes como un plano, como el siguiente.

Aqu tenemos una forma tridimensional que posee profundidad, longitud y ancho.
Para adquirir una idea intuitiva de esta forma tridimensional, visualice la
interseccin de los ejes Y, X1 y X2 como el rincn de un cuarto.
Usaremos los datos de la tabla 1.8 y las siguientes ecuaciones para determinar los
valores de las constantes numricas  ,  y 
  +   +  

(1.29)

    +    +   

(1.30)

  '  +    +  

(1.31)

El resolver las ecuaciones 1.29, 1.30 y 1.31 para  ,  y  nos dar los
coeficientes del plano de regresin. Obviamente, la mejor manera de calcular
20

todas las sumas implicadas en estas tres ecuaciones es mediante el uso de una
tabla para recoger y organizar la informacin necesaria, del mismo modo como lo
hicimos en la regresin simple. Hemos hecho esto en la siguiente tabla para el
problema del SAT
Y
(1)
29
24
27
25
26
28
30
28
28
27
272

X1
(2)
45
42
44
45
43
46
44
45
44
43
441
:

k  ?>. ?,
D

X2
(3)
16
14
15
13
13
14
16
16
15
15
147
?

X1Y
X2 Y
X1X2
 
(2)x(1) (3)x(1) (2)x(3)
(2)2
1,305
464
720
2,025
1,008
336
588
1,764
1,188
405
660
1,936
1,125
325
585
2,025
1,118
338
559
1,849
1,288
392
644
2,116
1,320
480
704
1,936
1,260
448
720
2,025
1,232
420
660
1,936
1,161
405
645
1,849
12,005 4,013
6,485 19,461
: D ? D : ? ?:

k : = @@. :,
k ? = :@. >


(3)2
256
196
225
169
169
196
256
256
225
225
2,173
??

Y2
(1)2
841
576
729
625
676
784
900
784
784
729
7,428
D?

Tabla 1.9 Datos de 15 condominios para el ejemplo 1.4

Ahora, utilizando la informacin de la tabla anterior en las ecuaciones 1.29, 1.30 y


1.31, obtenemos tres ecuaciones con tres constantes desconocidas ( ,  y  :
272 = 10 +
441 + 147
12,005 = 441 + 19,461 + 6,485
4,013 = 147 + 6,485 + 2,173

Cuando resolvemos estas tres ecuaciones de manera simultnea obtenemos:


 = 13.828,  = 0.564 y  = 1.099

Sustituimos estos valores en la ecuacin de regresin de dos variables,


obtenemos una ecuacin que describe la relacin entre el nmero de horas de
trabajo de auditoras de campo, el nmero de horas de computacin y los
impuestos no pagados descubiertos por el departamento de auditoras:
6 =  +   +  
= -13.828 + 0.564 + 1.099
21

El departamento de auditoras puede utilizar esta ecuacin mensualmente para


estimar la cantidad de impuestos no pagados que va a descubrir.
Supongamos que el SAT desea aumentar la cantidad de sus descubrimientos de
impuestos no pagados durante el siguiente mes. Como los auditores entrenados
son escasos, el SAT no tiene la intencin de contratar personal adicional. El
nmero de horas de trabajo en auditoras de campo, entonces, permanecer en el
nivel de octubre, alrededor de 4,300 horas. Pero con el fin de aumentar sus
hallazgos de impuestos no pagados, el SAT espera aumentar el nmero de horas
en computadora a aproximadamente 1,600. Como consecuencia de lo anterior:
  43  4,300 horas de trabajo en auditoras de campo
 = 16  1,600 horas de tiempo en computadora

Sustituimos estos valores en la ecuacin de regresin para el departamento de


auditoras, obtenemos:
= -13.828 + 0.564 + 1.099
= -13.828 + (0.564)(43) +(1.099)(16)
= -13.828 + 24.252 + 17.584
= 28.008 descubrimientos estimados en $28008,000
Por consiguiente, en el pronstico para noviembre, el departamento de auditoras
espera encontrar una evasin de impuestos de aproximadamente 28 millones de
dlares, para esta combinacin de factores.
Hasta este punto nos hemos referido a  como la interseccin con Y y a  y 
como las pendientes del plano de regresin mltiple. Pero, para ser ms precisos,
deberamos decir que estas constantes numricas son los coeficientes de
regresin estimados. La constante  es el valor de 6 (en este caso, la estimacin
de los impuestos no pagados) si tanto X1 y X2 tienen valor cero. Los coeficientes
 y  describen cmo los cambios en X1 y X2 afectan el valor de 6.
En el ejemplo del SAT, podemos dejar constante el nmero de horas de trabajo de
auditora de campo, X1, y cambiar el nmero de horas en computadora, X2.
Cuando hacemos esto, el valor de 6 aumenta en $1099,000 por cada 100 horas
adicionales de tiempo en computadora. Del mismo modo, podemos fijar X2 y
encontrar que por cada aumento adicional de 100 horas en el nmero de horas de
trabajo de auditoras de campo, 6 aumenta en $564,000.
Como vemos, cada variable independiente puede ser responsable por algo de la
variabilidad de la variable dependiente.
22

En resumen, la regresin mltiple es slo una tcnica para usar varias variables
independientes para construir una mejor ecuacin de prediccin.
LA REGRESIN MLTIPLE
En la seccin inicial y hasta donde vamos de la presente, hemos visto problemas
simplificados y muestras de tamao pequeo. Despus del ejemplo anterior,
probablemente hayamos concluido que no nos interesa la regresin si tenemos
que realizar los clculos a mano. De hecho, conforme aumenta el tamao de las
muestras y el nmero de variables independientes de la regresin se hace mayor,
rpidamente se vuelve impracticable hacer los clculos, incluso con la ayuda de
una calculadora de bolsillo.
Sin embargo, como profesionistas, tendremos que tratar con problemas complejos
que requieren muestras ms grandes y variables independientes adicionales. Para
ayudarnos a resolver estos problemas ms detallados, utilizaremos una
computadora, lo cual nos permitir efectuar un gran nmero de clculos en un
perodo muy pequeo.
Para demostrar cmo una computadora maneja el anlisis de regresin mltiple,
tomemos el problema del SAT de la seccin anterior. Supongamos que el
departamento de auditoras agrega a su modelo la informacin correspondiente a
las recompensas pagadas a los informantes. El SAT desea incluir esta tercera
variable independiente, X3, debido a que siente que es verdad que existe una
cierta relacin entre estos pagos y la evasin de impuestos descubierta.
Mes

Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre

Horas de
trabajo de
auditora de
campo
(x1)
45
42
44
45
43
46
44
45
44
43

Horas en
Recompensa
Impuestos
computadora
a
reales no
(x2)
informantes
pagados
(X3)
descubiertos
(Yi)
16
71
29
14
70
24
15
72
27
13
71
25
13
75
26
14
74
28
16
76
30
16
69
28
15
74
28
15
73
27

Tabla 2.0 Datos de la auditora del SAT empleados en el ejemplo 1.3

23

En la tabla 2.0 se recogi la informacin correspondiente a los ltimos diez meses.


Para resolver este problema, el departamento de auditoras ha utilizado el
procedimiento de regresin mltiple del paquete estadstico Minitab. Desde luego
que todava no sabemos cmo interpretar la solucin proporcionada por el
paquete, pero como veremos ms adelante, la mayora de los nmeros que se
dan en la solucin corresponden bastante bien a los que hemos analizado en el
contexto de regresin simple.
Una vez que todos los datos se han capturado en la computadora y se han elegido
las variables independiente y dependiente, el programa Minitab calcula los
coeficientes de regresin y varias estadsticas asociadas con la ecuacin de
regresin. Miremos lo que se obtiene para el problema del SAT y veamos que
significan los nmeros producidos. La primera parte del informe se da en la
siguiente figura.
The regression equation is
Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2)
+ 0.405 Recompensa (x3)

Predictor
Constant
Auditoria (x1)
Compu (x2)
Recompensa (x3)

Coef
-45.796
0.59697
1.17684
0.40511

SE Coef
4.878
0.08112
0.08407
0.04223

T
-9.39
7.36
14.00
9.59

P
0.000
0.000
0.000
0.000

Como podemos ver, Minitab muestra explcitamente la ecuacin de estimacin, as


como tambin da una tabla con los coeficientes. Por lo tanto, podemos leer la
ecuacin de estimacin como:
6   +   +   + $ $
= -45.796 + 0.597 + 1.177+ 0.405$

Podemos interpretar esta ecuacin del mismo modo en que interpretamos la


ecuacin de regresin de dos variables en la pgina 21 de este material. Si
mantenemos constante el nmero de horas de trabajo en auditoras de campo, X1,
y el nmero de horas en computadora, X2, y cambiamos la recompensa a
informantes, X3, entonces el valor de 6 aumentar $405,000 por cada $1,000
pagados a los informantes. De manera parecida, dejando constantes X1 y X3,
vemos que cada 100 horas adicionales de tiempo de computadora empleadas 6
se incrementar en $1177,000. Finalmente, si X2 y X3 se mantienen fijas,
estimamos que un gasto adicional de 100 horas en las auditoras de campo
descubrir una evasin de impuestos adicional de $597,000.
24

Supongamos que en noviembre el SAT intenta dejar las horas de trabajo en


auditoras de campo y las horas en computadora en sus niveles de octubre (4,300
y 1,500), pero decide aumentar las recompensas pagadas a los informantes a
$75,000. Cunto de impuestos no pagados esperan descubrir en noviembre?
Sustituyendo estos valores en la ecuacin de regresin estimada, obtenemos:
6 = - 45.796 + 0.597 + 1.177 + 0.405$
= - 45.796 + 0.597(43) + 1.177(15) + 0.405(75)
= - 45.796 + 25.671 + 17.6556 + 30.375
= 27.905 descubrimientos estimados, $27905,000
De modo que el departamento de auditoras espera descubrir aproximadamente
$28 millones de evasin de impuestos en noviembre.
Una medida de dispersin, el error estndar de la estimacin de la regresin
mltiple, el cul es denotado en Minitab por la letra S y es mostrado
inmediatamente despus de la primera parte del informe, como vemos a
continuacin:
S = 0.286128

R-Sq = 98.3%

R-Sq(adj) = 97.5%

Recordemos que la estimacin se hace ms precisa conforme el grado de


dispersin alrededor del plano de regresin mltiple se hace ms pequeo. Por lo
tanto considerando el informe de Minitab, podemos ver que la estimacin de los
impuestos descubiertos se desva en $286,000.
En la misma lnea en la que Minitab muestra el error estndar de la estimacin, se
encuentran los coeficientes de determinacin mltiple as como el coeficiente de
determinacin mltiple ajustado. Al igual que en regresin simple, en regresin
mltiple el coeficiente de determinacin representa la proporcin de la variabilidad
total de Y pero aqu, dicha variabilidad es explicada por el plano de regresin.
Por lo tanto, podemos decir 98.3% de la variacin total de impuestos no pagados
descubiertos se explica por las tres variables independientes. Para la regresin de
dos variables que efectuamos anteriormente, R2 es solamente 0.7289, as que
72.89% de la variacin se explica por las horas de trabajo de auditora de campo y
las horas en computadora. El agregar las recompensas a los informantes explica
otro 25.45% de la variacin.
Si deseamos saber el porcentaje en el que las variables estn relacionadas
debemos calcular el coeficiente de correlacin, para lo cual sacamos raz
cuadrada al coeficiente de determinacin R2, para este caso en particular tenemos
25

que p  p   . 983 = .991; como vemos, la relacin entre las variables es


intensa, pues es del 99.1%.

1.2.1 PRUEBA DE HIPTESIS EN REGRESIN LINEAL MULTIPLE


Al inicio de este material, notamos que la lnea de regresin de muestra 6 = ' +
  (ecuacin 1.9), estimaba la lnea de regresin de la poblacin, = + .
La razn por la cual solamente podamos estimar la lnea de regresin de
poblacin en lugar de encontrarla exactamente era que los puntos de dato no caen
exactamente en la lnea de regresin de la poblacin. Debido a las perturbaciones
aleatorias, los puntos de dato satisfacan = +  +  (ecuacin 1.1) ms que
a = + .
Exactamente el mismo tipo de situacin se tiene en la regresin mltiple. Nuestro
plano de regresin estimado:
6 =  +   +   + +  

(1.28)

Es una estimacin de un plano de regresin de poblacin verdadero pero


desconocido de la forma:
= +  +   + + 

(1.27a)

De nuevo, los puntos de dato individuales normalmente no caen con exactitud en


el plano de regresin de poblacin. Consideremos el problema del SAT para ver
cmo es esto. No todos los pagos a los informantes sern igualmente efectivos.
Algunas de las horas en computadora podran ser utilizadas para recolectar y
organizar datos; otras podran ser utilizadas para analizar tales datos en bsqueda
de errores y fraudes. El xito de la computadora en descubrir impuestos no
pagados puede depender de cunto tiempo se dedique a cada una de estas
actividades. Por stas y otras razones, algunos de los puntos de dato se
encontrarn por encima del plano de regresin y algunos estarn por debajo de
ste.
En esta seccin haremos inferencias acerca de las pendientes ( ,  , ,  de la
ecuacin de regresin verdadera (la que se aplica a la poblacin completa)
basadas en las pendientes ( ,  , ,   de la ecuacin de regresin estimada a
partir de la muestra de puntos de dato.

26

INFERENCIAS ACERCA DE LA REGRESIN COMO UN TODO (PRUEBA


GLOBAL)
En la regresin lineal simple se usaron las pruebas t y F, las que llevaban a la
misma conclusin; es decir, si se rechaza la hiptesis nula, se concluye que b1
0. En la regresin mltiple, la prueba t y F tienen propsitos diferentes.
1. La prueba F se usa para determinar si existe una relacin de significancia
entre la variable dependiente y el conjunto de todas las variables
independientes; a esta prueba F se le llama prueba de significancia
global.
2. Si la prueba F indica que hay significancia global, se usa la prueba t para
ver si cada una de las variables individuales es significativa. Para cada una
de las variables independientes del modelo se realiza una prueba t. A cada
una de estas pruebas t se les conoce como pruebas de significancia
individual.
El modelo de regresin mltiple que se defini al inicio de esta seccin es:
 +  +   + +  +

La hiptesis de la prueba F comprende los parmetros del modelo de regresin


mltiple.
P : =  = = = 0
P :  7 7V 7 VV 7 7
Cuando se rechaza la hiptesis nula, la prueba proporciona evidencia estadstica
suficiente para concluir que uno o ms de los parmetros no es igual a cero y que
la relacin global entre Y y el conjunto de variables independientes X1, X2,,Xk
es significativa.
En la seccin 1.1.1.2 de este material, nos fijamos en tres trminos diferentes,
cada uno de los cuales es una suma de cuadrados. Los denotamos como:
STC = suma total de cuadrados
SCR = suma de cuadrados debido a la regresin
SCE = suma de cuadrados debido al error

=  
=  6 
=  6

As tenemos que STC=SCR+SCE. Cada una de estas sumas de cuadrados tiene


un nmero asociado de grados de libertad.

27

STC tiene n-1 grados de libertad (n observaciones, pero perdimos un grado de


libertad debido a que la variable de la muestra est fija). SCR tiene k grados de
libertad, debido a que existen k variables independientes que se utilizaron para
explicar Y. SCE tiene n-k-1 grados de libertad, porque utilizamos nuestras n
observaciones para estimar k+1 constantes b0, b1, b2,,bk.
Por otro lado, un cuadrado medio es una suma de cuadrados dividida entre sus
correspondientes grados de libertad. Por lo tanto, el cuadrado medio debido a la
regresin (CMR) es SCR/k y el cuadrado medio debido al error (CME) es SCE/(nk-1).
CUADRADO MEDIO DEBIDO A LA REGRESIN

LMp =
LM =

CUADRADO MEDIO DEBIDO AL ERROR

GHo

GHI

((

(1.32)
(1.33)

El siguiente informe de Minitab corresponde al problema del SAT; dicho informe se


encuentra inmediatamente despus del anlisis de regresin visto anteriormente.
Analysis of Variance
Source
Regression
Residual Error
Total

DF
3
6
9

SS
29.1088
0.4912
29.6000

MS
9.7029
0.0819

F
118.52

P
0.000

Aplicaremos la prueba F al problema del SAT. Como se tienen tres variables


independientes, las hiptesis se expresan como se mencion anteriormente:
P : =  = = = 0
P :  7 7V 7 VV 7 7
Como podemos ver, en el presente anlisis de varianza tenemos que el CMR =
9.7029 y que el CME = 0.0819; as mismo vemos que el estadstico de prueba F
tiene un valor de 118.52, el cual, si recordamos de la seccin anterior vimos que
ste se calcula dividiendo CMR/CME.
Ahora usaremos el mtodo del valor crtico para emplear la regla de rechazo y
emitir una conclusin. Para determinar dicho valor crtico se procede igual que en
la regresin lineal simple, pero lo realizaremos nuevamente aqu. Consideremos la
siguiente expresin:
W;,((


28

Donde:
= nivel de significancia dado
k = nmero de variables independientes = V1 = grados de libertad
n-k-1 = nmero total de la muestra - nmero de variables independientes -1 = V2
Suponiendo que el nivel de significancia es del 1%, en las tablas de distribucin F
buscamos lo siguiente: ;,((  .;$,-'.''&;$,- :?. w?
_

12.92

Fcal= 118.52

La regla de rechazo dice: Rechazar Ho si Fcal F


Como 118.52 > 12.92, se rechaza H:    0 y se concluye que existe una
relacin significativa entre los impuestos reales descubiertos no pagados, Y, y las
tres variables independientes, auditoras en campo, horas en computadora y
recompensa a informantes.

INFERENCIAS ACERCA DE UNA PENDIENTE INDIVIDUAL ZE


El plano de regresin se deriva de una muestra y no de la poblacin completa.
Como resultado de ello, no podemos esperar que la ecuacin de regresin
verdadera  +  +   + +  (la que se aplica a la poblacin
completa) sea exactamente igual que la ecuacin estimada a partir de
observaciones de muestra, 6  ' +   +   + +   . Pero, a pesar de
esto, podemos utilizar el valor  , una de las pendientes que calculamos a partir de
la muestra, para probar hiptesis acerca del valor  , una de las pendientes del
plano de regresin para la poblacin completa.
El procedimiento para probar una hiptesis con respecto a  es parecido al
procedimiento analizado en la seccin 1 de este material sobre prueba de
hiptesis. Para entender este problema regresemos al problema en que se
relaciona la evasin de impuestos descubierta con las horas de trabajo en
auditoras de campo, horas en computadora y recompensa a informantes. En la

29

pgina 21 apuntamos que  = 0.597. El primer paso consiste en hallar algn valor
para y compararlo con  = 0.597.
Supongamos que durante un largo periodo transcurrido, la pendiente de la relacin
entre Y y X1 fue de 0.400. Para probar si todava esto es vlido, podramos definir
las hiptesis como:
P : = 0.400  Hiptesis nula
P : 0.400 Hiptesis alternativa

En efecto, estamos probando para saber si los datos actuales indican que ha
cambiado su valor histrico de 0.400.
Para encontrar el estadstico de prueba para , es necesario hallar primero el
error estndar del coeficiente de regresin. Aqu, el coeficiente de regresin con el
que estamos trabajando es  de modo que el error estndar de este coeficiente
se representa con c . Resulta demasiado difcil calcular c a mano, pero,
afortunadamente, el programa Minitab calcula los errores estndar de todos los
coeficientes de regresin. Por conveniencia, repetiremos el resultado de Minitab
The regression equation is
Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2)
+ 0.405 Recompensa (x3)

Predictor
Constant
Auditoria (x1)
Compu (x2)
Recompensa (x3)

Coef
-45.796
0.59697
1.17684
0.40511

SE Coef
4.878
0.08112
0.08407
0.04223

T
-9.39
7.36
14.00
9.59

P
0.000
0.000
0.000
0.000

Del resultado anterior, vemos que c es 0.08112. (Similarmente si deseamos


probar una hiptesis acerca de  , vemos que el error estndar apropiado que
debemos utilizar es c_ = 0.0841.) Ya que hemos encontrado c en el resultado
obtenido con Minitab, podemos usar la ecuacin siguiente para estandarizar la
pendiente de nuestra ecuacin de regresin ajustada:
V`ab =

ESTADSTICO DE PRUEBA

As tenemos que, V`ab =

c ([
G

'.&%*('.)''
'.'+

c ([
G

(1.32)

= ?. @;?

Supongamos que estamos interesados en probar nuestras hiptesis al nivel de


significancia de 10%. Como tenemos diez observaciones en nuestra muestra de
datos, y tres variables independientes, sabemos que se tienen n-k-1= 10-3-1= 6
30

grados de libertad. Buscamos en la tabla de distribucin t, en la columna


correspondiente al 10% hasta que encontremos el rengln de los 6 grados de
libertad. Ah, notamos que el valor apropiado de t es 1.943. Como nos preocupa si
 (la pendiente del plano de regresin de la muestra) es significativamente
diferente de (la pendiente hipotetizada del plano de regresin de la poblacin),
sta es una prueba de dos extremos, y los valores crticos son -1.943 y +1.943. el
estadstico de prueba se encuentra fuera de la regin de no rechazo de nuestra
prueba, como vemos en la siguiente figura:

-1.943

1.943

V`ab  2.432

Por consiguiente, rechazamos la hiptesis nula de que sigue siendo igual a


0.400. En otras palabras, existe una diferencia significativa (suficientemente
grande) entre  y 0.400 para que podamos concluir que ha cambiado su valor
tradicional. Debido a esto, sentimos que cada 100 horas adicionales de trabajo en
auditoras de campo ya no aumentan la cantidad de descubrimientos de impuestos
no pagados en $400,000 como lo hacan en el pasado.
Antes tenamos el 0.400 como un parmetro que nos servia para pensar que si aumentbamos
100 horas a las auditoras de campo seguramente descubriramos $400,000 de impuestos no
pagados, pero como la prueba nos dice que rechacemos el 0.400 como vlido, ya no hay un
parmetro que nos deje suponer lo anterior, sino que aumentemos lo que aumentemos no
sabremos cuantos impuestos no pagados descubriremos.

31

1.2.2 INTERVALOS DE CONFIANZA


REGRESIN LINEAL MULTIPLE

PREDICCIN

EN

Adems de la prueba de hiptesis, tambin podemos construir un intervalo de


confianza para cualquiera de los valores de  . Del mismo modo que  es una
estimacin puntual de  , estos intervalos de confianza son estimaciones de
intervalo de  . Para ilustrar el proceso de construccin de un intervalo de
confianza, encontremos un intervalo de confianza del 95% para $ en el ejemplo
del SAT. Los datos importantes son:
$ = 0.405
c

= 0.0422

De los resultados de Minitab

nivel de significancia () de 5% y 6
VW = 2.447  grados de libertad

Con esta informacin podemos calcular el intervalo de confianza de la siguiente


manera:
$ + VW  c  = 0.405 + 2.4470.0422
= 0.508 lmite superior del intervalo
$ VW  c  = 0.405 2.4470.0422
= 0.302 lmite inferior del intervalo
Vemos que podemos estar seguros en 95% de que cada $1,000 adicionales
pagados a informantes aumenta el descubrimiento de impuestos no pagados en
una cantidad entre $302,000 y $508,000.
Al igual que en regresin lineal simple podemos construir intervalos de confianza
sobre la respuesta media para el conjunto de condiciones dadas por las variables
independientes.
Un intervalo de confianza de (1-)100% para la respuesta media de X1, X2,,Xk
es:
INTERVALO DE CONFIANZA

6 VW

(1.33)

Donde:
6 = respuesta media estimada
VW = valor de la distribucin t con n-k-1 grados de libertad
F = error estndar de la prediccin mltiple

32

Con los datos del ejemplo del SAT, construiremos un intervalo de confianza de
95% para la respuesta media, cuando X1= 42, X2= 13 y X3= 69. Como ya lo
mencionamos anteriormente, los clculos de forma manual en regresin mltiple
resultan poco prcticos, por lo tanto seguimos explotando las herramientas del
programa Minitab, as que una vez ingresados los valores deseados para cada
una de las variables independientes, dicho programa nos arroja el siguiente
resultado:
Predicted Values for New Observations
New Obs
1

Fit
22.5279

SE Fit
0.2775

95% CI
(21.8489, 23.2068)

95% PI
(21.5526, 23.5031)

Values of Predictors for New Observations

New Obs
1

Auditoria
(x1)
42.0

Compu
(x2)
13.0

Recompensa
(x3)
69.0

Analicemos el informe de Minitab; en primer lugar tenemos la respuesta media


estimada, 6 , 22.5279, luego tenemos el error estndar de prediccin e
inmediatamente despus tenemos el intervalo de confianza cuyos lmites son:
21.8489 y 23.2068. Notemos tambin que los datos finales de dicho rengln
pertenecen a los lmites del intervalo de prediccin, en este caso 21.5526 para el
lmite inferior y 23.5031 para el lmite superior.
En la parte inferior Minitab nos corrobora los valores asignados a cada variable
independiente.
Con los resultados anteriores, podemos estar seguros en 95% de que si el SAT
asigna cada mes 4,200 horas a las auditoras de campo, 1,300 horas en
computadora y $69,000 en recompensas a informantes el descubrimiento de
impuestos no pagados en promedio estar entre $21848,900 y $23206,800.
Si el SAT decide manejar para un solo mes (cualquiera que este fuera), 4,200
horas a las auditoras de campo, 1,300 horas en computadora y $69,000 en
recompensas a informantes, el SAT esperara descubrir entre $21552,600 y
$23503,100 de impuestos no pagados.
Es importante distinguir claramente entre el intervalo de confianza sobre la
respuesta media y el intervalo de prediccin sobre una respuesta observada. Esta
ltima proporciona una frontera dentro de la cual puede decirse que caer una
respuesta nueva observada.
33

1.3 REGRESIN NO LINEAL


El modelo de regresin cuadrtica es una alternativa cuando el modelo lineal no
logra un coeficiente de determinacin apropiado, o cuando el fenmeno en estudio
tiene un comportamiento que puede considerarse como parablico. La forma ms
simple de tratar de establecer la tendencia es a travs de un diagrama de
dispersin o nube de puntos, tal como la siguiente:

4.0

3.5

3.0

2.5

2.0
10

15

20

25

30

Figura 1.6 diagrama de dispersin del ejemplo 1.4

Las variables independientes X1, X2,,X3 empleadas en el modelo lineal no tienen


que representar variables independientes diferentes. Por ejemplo, si se sospecha
que una variable independiente X afecta la respuesta Y, pero la relacin es
curvilnea ms que lineal, entonces se podra elegir ajustar a un modelo
cuadrtico:
Una ecuacin de regresin no lineal expresa una relacin curvilnea entre una variable de
respuesta Y y dos o ms variables de prediccin (x1, x2, x3,,xk), en las que una de ellas est
elevada al cuadrado. La forma general de una ecuacin de regresin no lineal es:

= ' +  +   +
Por lo tanto la forma general de una ecuacin de regresin no lineal ESTIMADA es
6 =  +   +  

(1.34)

(1.35)

Notacin:
Y: Variable dependiente
' , ,  : Parmetros de la ecuacin, que generalmente son desconocidos
: Error asociado al modelo
Xk : Valor de la k-sima observacin de la variable independiente
 : Trmino cuyos exponentes suman 2 (en este caso, X2)
34

Las siguientes frmulas nos permiten calcular de forma manual los coeficientes de
la ecuacin de regresin no lineal estimada:

: =

? =

 

  
   
    
    
)

$





 

 
   
    
 )
 $






(1.36)

  
 
    
    
 
 $






 
   
    
)
$






 

< =

(1.37)

    


(1.38)

Para facilitar un poco el clculo de las frmulas anteriores, se construye la


siguiente tabla de datos:
X

X2

X2

X3

X3

X4

X4

X*Y

X*Y

X2*Y

X2Y

Y2

Y2

Tabla 2.1 Organizacin de datos para clculo de < , : , ?

Ejemplo 1.4 En un estudio de variables que afecta la productividad en el comercio


de comestibles al menudeo, Erick Moreno usa valor agregado por hora de trabajo
para medir la productividad de tiendas de comestibles al menudeo. l define valor
agregado como el excedente (dinero generado por el negocio) disponible para
pagar empleados, mobiliario y enseres y equipo. Los datos consistentes con la
relacin entre valor agregado por hora de trabajo Y y el tamao X de una tienda de
comestibles descrita en el artculo de Moreno, se muestran en la tabla 2.1 para 10
tiendas de alimentos ficticias. Escoja un modelo para relacionar Y con X.

35

Tienda

1
2
3
4
5
6
7
8
9
10

Valor agregado por hora


de trabajo
(Y)
4.08
3.40
3.51
3.09
2.92
1.94
4.11
3.16
3.75
3.60

Tamao de tienda (miles


de pies cuadrados)
(X)
21.0
12.0
25.2
10.4
30.9
6.8
19.6
14.5
25.0
19.1

Tabla 2.1 Datos ficticios de diez tiendas de alimentos

Podemos investigar la relacin entre Y y X al observar el diagrama de puntos de la


figura 1.6, el cul insertamos nuevamente aqu:

4.0

3.5

3.0

2.5

2.0
10

15

20

25

30

Esta grfica siguiere que la productividad, Y, aumenta cuando el tamao de la


tienda de comestibles, X, aumenta hasta alcanzar un tamao ptimo. Arriba de
ese tamao, la productividad tiende a disminuir. La relacin parece ser curvilnea y
un modelo cuadrtico,     ' +  +   puede ser apropiado. Recordemos
que, al elegir usar este modelo, no estamos diciendo que la verdadera relacin
sea cuadrtica, sino slo que puede dar estimaciones y predicciones ms precisas
que, por ejemplo, un modelo lineal.
Para ajustar este tipo de modelo podemos proceder manualmente usando las
frmulas (1.36),(1.37) y (1.38), o por medio del programa estadstico Minitab,

36

como haremos en este material. Una vez capturados los datos en el programa
obtenemos el siguiente informe:
The regression equation is
Y = - 0.1594 + 0.3919 X - 0.009495 X**2

S = 0.250298

R-Sq = 87.9%

R-Sq(adj) = 84.5%

Analysis of Variance
Source
Regression
Error
Total

DF
2
7
9

SS
3.19889
0.43855
3.63744

MS
1.59945
0.06265

F
25.53

P
0.001

Sequential Analysis of Variance


Source
Linear
Quadratic

DF
1
1

SS
0.80032
2.39858

F
2.26
38.29

P
0.171
0.000

De la salida anterior de Minitab, podemos ver que la ecuacin de regresin es:


6  0.1594 + 0.3919 0.009495
La grfica de esta ecuacin cuadrtica junto con los puntos de datos se muestran
en la figura 1.7:
Fitted Line Plot
Y = - 0.1594 + 0.3919 X
- 0.009495 X**2
S
R-Sq
R-Sq(adj)

4.0

0.250298
87.9%
84.5%

3.5

3.0

2.5

2.0
10

15

20

25

30

Figura 1.7 Recta de regresin cuadrtica ajustada para el ejemplo 1.4

Para evaluar lo adecuado del modelo cuadrtico, podemos realizar una prueba de
hiptesis global, como la siguiente:

37

Establecemos las hiptesis:

P :    0
P :    0

Con un nivel de significancia de 5% y procediendo por el mtodo del valor crtico


tenemos que ; ,_  '.'&;,*  =. v@.
_

Recordemos que el estadstico de contraste est dado por x`ab 


?;. v;

6.54

Huo
HuI

.&%%)&
'.'--&

Fcal 23.53

Rechazamos la hiptesis nula; en consecuencia, el ajuste total del modelo es


altamente significativo. Por otro lado, vemos que el coeficiente de determinacin,
R2, muestra un ajuste de la lnea a los puntos en 87.9% y si calculamos el
coeficiente de correlacin, R, ste nos dice que la relacin entre las variables es
de un 93.7%, por todo esto podemos concluir que la productividad en el comercio
de los comestibles al menudeo est altamente relacionado con el tamao de la
tienda.

38

BIBLIOGRAFA:
Levin, Richard I. y Rubin S. David. Estadstica para administradores.
Prentice-Hall Hispanoamrica, 1996.
Anderson, David R., Sweeney Dennis J. y Williams Thomas A. Estadstica para
administracin y economa.
Cengage Learning Editores, 2008.
Mendenhall, William, Beaver, Robert J. y Barbara M. Introduccin a la probabilidad
y estadstica.
Cengage Learning Editores, 2010

39

También podría gustarte