Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIN
El anlisis de regresin tiene como objetivo modelar en forma matemtica el
comportamiento de una variable de respuesta en funcin de una o ms variables
independientes (factores). Por ejemplo, suponga que el rendimiento de un proceso
qumico est relacionado con la temperatura de operacin. Si mediante un modelo
matemtico es posible describir tal relacin, entonces este modelo puede ser
usado para propsitos de prediccin, optimizacin o control.
Para estimar los parmetros de un modelo de regresin son necesarios los datos,
los cuales pueden obtenerse de experimentos planeados, de observaciones de
fenmenos no controlados o de registros histricos.
Sean dos variables X y Y, suponga que se quiere explicar el comportamiento de Y
con base en los valores que toma X. Para esto, se mide el valor de Y sobre un
conjunto de n valores de X, con lo que se obtienen n parejas de puntos
(x1,y1),(x2,y2),,(xn,yn). A Y se le llama la variable dependiente o variable de
respuesta y a X se le conoce como variable independiente. La variable X no
necesariamente es aleatoria, ya que en muchas ocasiones el investigador fija sus
valores; en cambio, Y s es una variable aleatoria. Una manera de estudiar el
comportamiento de Y con respecto a X es mediante un modelo de regresin que
consiste en ajustar un modelo matemtico a las n parejas de puntos. Con ello, se
puede ver si dado un valor de la variable independiente X es posible predecir el
valor promedio de Y.
Suponga que las variables X y Y estn relacionadas linealmente y que para cada
valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que
cada observacin de Y puede ser descrita por el modelo:
=
+ +
(1.1)
| =
+
(1.2)
Donde es un error aleatorio con media cero y varianza . Tambin suponga que
los errores aleatorios no estn correlacionados. La ecuacin (1.1) es conocida
como el modelo de regresin lineal simple. Bajo el supuesto de que este modelo
es adecuado y como el valor esperado del error es cero, = 0, se puede ver
que el valor esperado de la variable Y, para cada valor de X, est dado por lnea
recta.
En donde
y son los parmetros del modelo y son constantes desconocidas.
Por lo tanto, para tener bien especificada la ecuacin que relaciona las dos
1
variables ser necesario estimar los dos parmetros, que tienen los siguientes
significados:
es el punto en el cual la lnea recta intercepta o cruza el eje y, y
es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o
disminuye la variable Y por cada unidad que se incrementa X.
El siguiente ejemplo nos permitir ilustrar mejor los conceptos anteriores.
Ejemplo 1.1 En un laboratorio se quiere investigar la forma en que se relaciona la
cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel). Los
datos obtenidos en un estudio experimental son los siguientes:
Porcentaje de fibra
4
6
8
10
12
14
16
18
20
22
24
26
28
30
Resistencia
134
145
142
149
144
160
156
157
168
166
167
171
174
183
180
Resistencia
170
160
150
140
130
5
10
15
20
Porcentaje de fibra
25
30
Se observa que entre X y Y existe una correlacin lineal positiva, ya que conforme
aumenta X tambin se incrementa Y, por lo que es razonable suponer que la
relacin entre X y Y la explique un modelo de regresin lineal simple. As, cada
observacin de Y, la podemos expresar como:
=
+ +
(1.3)
Con i=1,2,,n (n=14 para este ejemplo). Para estimar
y ajustamos la recta
que explique de mejor manera el comportamiento de los datos en el diagrama de
dispersin de la figura 1.1. En otras palabras, debemos encontrar la recta que
pasa ms cerca de todos los puntos. Un procedimiento para ajustar la mejor recta
y, por lo tanto, para estimar
y es mediante el mtodo de mnimos cuadrados,
el cual consiste en lo siguiente: Si de la ecuacin (1.3) despejamos los errores, los
elevamos al cuadrado y los sumamos, obtenemos lo siguiente:
= ! = ! [
+ ]
(1.4)
(1.5)
=
(1.6)
=
=
(1.7) y (1.8)
De esta forma, para obtener la recta ajustada es necesario aplicar las frmulas
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos
de la resistencia de la pulpa.
3
Porcentaje de fibra
(Xi)
4
6
8
10
12
14
16
18
20
22
24
26
28
30
=238
=17
Resistencia
(Yi)
134
145
142
149
144
160
156
157
168
166
167
171
174
183
=2216
=158.286
16
36
64
100
144
196
256
324
400
484
576
676
784
900
=4956
536
870
1136
1490
1728
2240
2496
2826
3360
3652
4008
4446
4872
5490
=39150
Tabla 1.2 Procedimiento para realizar los clculos para la regresin simple
=
)*+
%'
= 1.6242
Por lo tanto, la lnea recta que mejor explica la relacin entre porcentaje de fibra y
resistencia del papel, est dada por:
6 = 130.67 + 1.6242
(1.9)
En la siguiente figura se muestra el ajuste de esta lnea. De esta manera, por cada
punto porcentual de incremento en el porcentaje de fibra, se espera un incremento
de la resistencia de 1.6242 en promedio.
190
180
Resistencia
170
160
150
140
130
5
10
15
20
Porcentaje de fibra
25
30
9 E ?
ABC = DE D
(1.10)
El valor SCE es una medida del error al utilizar la ecuacin de regresin estimada
para estimar los valores de la variable dependiente en los elementos de la
muestra. Por lo tanto, SCE mide el error que existe al utilizar la ecuacin de
regresin estimada para predecir Y.
Retomando el ejemplo 1.1, los valores de las variables independiente y
dependiente para/del porcentaje de fibra 1 son X1= 4 y Y1= 134. El valor estimado
para esta resistencia de la pulpa segn la ecuacin de regresin estimada es
9 = :;<. => + :. =?@?@ = :;>. ?<. Por lo tanto, para el porcentaje 1, el error al
Y
9 para estimar Y1 es:
usar Y
Resistencia
(Yi)
134
145
142
149
144
160
156
157
168
166
167
171
174
183
=2216
Resistencia
estimada
6
137.17
140.42
143.66
146.91
150.16
153.41
156.66
159.90
163.15
166.40
169.65
172.90
176.15
179.40
Residual
(error)
7 = 6
-3.17
4.59
-1.66
2.09
-6.16
6.59
-0.66
-2.90
4.85
-0.40
-2.65
-1.90
-2.15
3.60
Residual al
cuadrado
7 = 6
10.05
21.02
2.76
4.37
37.95
43.43
0.44
8.41
23.52
0.16
7.02
3.61
4.62
12.96
SCE=180.32
es la varianza del error aleatorio, . As que es natural utilizar los residuos para
hacer una estimacin para dicha varianza. Para ello la suma de cuadrados debido
al error se divide entre sus respectivos grados de libertad, por lo tanto, un
estimador insesgado de est dado por:
GHI
F = ( = BJC
(1.11)
(1.12)
Si se rechaza Ho, se concluir que 0, y que entre las dos variables existe una
relacin estadsticamente significante.
Para encontrar el estadstico de prueba o de contraste para esta hiptesis, se
requiere calcular previamente el error estndar estimado de
ERROR ESTNDAR ESTIMADO DE Z: :
F[ =
]
\
^ ( _
(1.13)
V`ab = \]
(1.14)1
Uno de los mtodos para rechazar la hiptesis nula (P
es el del valor crtico; el
cual si recordamos, dado el nivel de significancia y considerando n-2 grados de
libertad; se busca en las tablas de distribucin t, recordemos tambin que la
prueba es de dos extremos porque la H1 0, por lo tanto el nivel de significancia se
divide entre 2; por lo que el valor crtico est dado por: t R/ , gl
Al aplicar este criterio, se rechaza Ho si tcal VW/ si tcal VW/ en caso contrario no
se rechaza Ho.
1
ESTIMACIN
Intercepcin
Pendiente
ERROR ESTNDAR
F[
ESTADSTICO
F
V`ab
^
F[
VALOR-P
PrVW g |V`ab |
P
: 0
P : O 0
]
\
^
(_
$.+*-&
$'.--
0.1285
.-)
-2.1788
2.1788
V`ab 12.64
Debido a que rechazamos Ho podemos concluir que O 0, es decir que existe una
relacin significativa entre las variables X y Y o sea que existe una relacin significativa
entre la cantidad de fibra en la pulpa y la resistencia del papel.
k ? = SCR + SCE
STC = DE D
(1.15)
ABn = 6
(1.16)
GHI
BJC = (
BJn =
GHo
(1.11)
(1.17)
Todo lo anterior podemos utilizarlo para generar otra forma de probar la hiptesis
sobre la significancia de la regresin:
P
: = 0
P : 0
(1.20)
ESTADSTICO DE PRUEBA F
Huo
HuI
(1.21)
Suma de
cuadrados
SCR
Grados de
libertad
1
Cuadrado
medio
CMR
SCE
n-2
CME
STC
n-1
Valor-p
LMp
LM
Pr(F>Fcal)
ESTIMACIN
130.675
1.6242
ERROR ESTNDAR
ESTADSTICO
VALOR-P
0.1285
12.64
0.0000
10
Resistencia
(Yi)
134
145
142
149
144
160
156
157
168
166
167
171
174
183
6
Resistencia
estimada
6
137.17
140.42
143.66
146.91
150.16
153.41
156.66
159.90
163.15
166.40
169.65
172.90
176.15
179.40
445.63
319.16
213.74
129.28
65.93
23.72
2.62
2.62
23.72
65.93
129.28
213.74
319.34
446.05
SCR= 2400.5
+'.$
= :v. <?>:
Fuente de variacin
Regresin
Error o residual
Total
Suma de
cuadrados
2,400.5
180.32
2,580.86
CMR=
F=
Grados de
libertad
1
12
13
,)''.&
,)''.&
&.'*
= ?, @<<. v
= :vw. >:
Cuadrado
medio
2,400.5
180.32
Valor-p
159.71
0.0000
~aacba b`aa
b
b
~aacba
ab
ABn
AB
(1.22)
Hu(HuI
Hu
(1.23)
12
"2,580.8613] [180.3212]
= <. w?@;:
2,580.8613
)*+
^%'&+'.%
Media del error absoluto (mea). Otra forma de medir la calidad del ajuste es a
travs de la media del valor absoluto de los residuos, es decir:
7 =
| |
(1.24)
Es claro que mientras mejor sea el ajuste, los residuos sern ms pequeos y, en
consecuencia, tambin la mea tender a ser ms pequea. La mea se puede ver
como una medicin para ver cunto falla en promedio el modelo al hacer la
estimacin de la variable de respuesta. En los datos del ejemplo 1.1, de acuerdo a
la tabla 1.3:
7 =
13
99
95
Porcentaje acumulado
90
80
70
60
50
40
30
20
10
5
-10
-5
0
Residuos
10
Figura 1.3 Grfica de probabilidad normal para los residuos del ejemplo 1.1
En esta grfica se aprecia que los puntos tienden a ajustarse razonablemente bien
a la lnea recta.
A partir de la tabla 1.3 es fcil obtener la grfica de residuos contra predichos
(7 . F que se muestra en la figura 1.4. Si el modelo es adecuado se espera que
en esta grfica los puntos no sigan ningn patrn y que, por lo tanto, estn
distribuidos ms o menos aleatoriamente a lo largo y ancho de la grfica. Cuando
esto ocurre significa que el modelo se ajusta de igual manera a lo largo de los
valores de Y. por el contrario, si se aprecia algn patrn habr que ver cul es el
tipo de patrn que se observa en la grfica y diagnosticar cul es la falla que
registra el modelo.
14
7.5
5.0
Residuos
2.5
0.0
-2.5
-5.0
140
150
160
Valores Predichos
170
180
Figura 1.4 Grfica de residuos contra estimados o predichos del ejemplo 1.1
POR
INTERVALO
EN
INTERVALO DE CONFIANZA
(1.25)
error estndar de 6
ERROR ESTNDAR DE 6
= LM +
( ()_
k2
=1 2
(1.26)
15
150.16 2.17915.0271 +
14
910
:v<. := ?. =v=@
Regression
95% C I
95% PI
180
S
R-Sq
R-Sq(adj)
Resistencia
170
3.87648
93.0%
92.4%
160
150
140
130
120
5
10
15
20
Porcentaje de fibra
25
30
Figura 1.5 Recta de regresin con intervalo de confianza y de prediccin para observaciones
futuras para el ejemplo 1.1
(1.28)
9 + : : +
D
? ? + + (Forma general de la ecuacin de regresin
mltiple estimada).
n = tamao de la muestra.
k = nmero de variables de prediccin. (Las variables de prediccin tambin se
conocen como variables independientes o variables x).
9 =valor predicho de Y (se calcula por medio de la ecuacin de regresin mltiple)
D
: , ? , , Son las variables de prediccin
Z = intercepto Y, o el valor de Y cuando todas las variables de prediccin son 0.
(Este valor es un parmetro poblacional).
= estimado de
basado en los datos muestrales (
es un estadstico
muestral).
Z: , Z? , , Z son los coeficientes de las variables de prediccin , , ,
: , ? , , son estimados muestrales de los coeficientes , , ,
=es el error aleatorio, que permite a cada respuesta desviarse del valor promedio
de Y por la cantidad . Se debe suponer que los valores de son independientes;
tienen una media de 0 y una varianza comn para cualquier conjunto
, , , y tienen una distribucin normal
17
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Horas de
trabajo de
auditora de
campo
(x1)
45
42
44
45
43
46
44
45
44
43
Horas en
computadora
(x2)
16
14
15
13
13
14
16
16
15
15
Impuestos
reales no
pagados
descubiertos
(Yi)
29
24
27
25
26
28
30
28
28
27
19
En la que:
6 = valor estimado correspondiente a la variable dependiente
= Interseccin con Y
y = valores de las dos variables independientes
y = pendientes asociadas con y , respectivamente.
Aqu tenemos una forma tridimensional que posee profundidad, longitud y ancho.
Para adquirir una idea intuitiva de esta forma tridimensional, visualice la
interseccin de los ejes Y, X1 y X2 como el rincn de un cuarto.
Usaremos los datos de la tabla 1.8 y las siguientes ecuaciones para determinar los
valores de las constantes numricas
, y
+ +
(1.29)
+ +
(1.30)
' + +
(1.31)
El resolver las ecuaciones 1.29, 1.30 y 1.31 para
, y nos dar los
coeficientes del plano de regresin. Obviamente, la mejor manera de calcular
20
todas las sumas implicadas en estas tres ecuaciones es mediante el uso de una
tabla para recoger y organizar la informacin necesaria, del mismo modo como lo
hicimos en la regresin simple. Hemos hecho esto en la siguiente tabla para el
problema del SAT
Y
(1)
29
24
27
25
26
28
30
28
28
27
272
X1
(2)
45
42
44
45
43
46
44
45
44
43
441
:
k ?>. ?,
D
X2
(3)
16
14
15
13
13
14
16
16
15
15
147
?
X1Y
X2 Y
X1X2
(2)x(1) (3)x(1) (2)x(3)
(2)2
1,305
464
720
2,025
1,008
336
588
1,764
1,188
405
660
1,936
1,125
325
585
2,025
1,118
338
559
1,849
1,288
392
644
2,116
1,320
480
704
1,936
1,260
448
720
2,025
1,232
420
660
1,936
1,161
405
645
1,849
12,005 4,013
6,485 19,461
: D ? D : ? ?:
k : = @@. :,
k ? = :@. >
(3)2
256
196
225
169
169
196
256
256
225
225
2,173
??
Y2
(1)2
841
576
729
625
676
784
900
784
784
729
7,428
D?
En resumen, la regresin mltiple es slo una tcnica para usar varias variables
independientes para construir una mejor ecuacin de prediccin.
LA REGRESIN MLTIPLE
En la seccin inicial y hasta donde vamos de la presente, hemos visto problemas
simplificados y muestras de tamao pequeo. Despus del ejemplo anterior,
probablemente hayamos concluido que no nos interesa la regresin si tenemos
que realizar los clculos a mano. De hecho, conforme aumenta el tamao de las
muestras y el nmero de variables independientes de la regresin se hace mayor,
rpidamente se vuelve impracticable hacer los clculos, incluso con la ayuda de
una calculadora de bolsillo.
Sin embargo, como profesionistas, tendremos que tratar con problemas complejos
que requieren muestras ms grandes y variables independientes adicionales. Para
ayudarnos a resolver estos problemas ms detallados, utilizaremos una
computadora, lo cual nos permitir efectuar un gran nmero de clculos en un
perodo muy pequeo.
Para demostrar cmo una computadora maneja el anlisis de regresin mltiple,
tomemos el problema del SAT de la seccin anterior. Supongamos que el
departamento de auditoras agrega a su modelo la informacin correspondiente a
las recompensas pagadas a los informantes. El SAT desea incluir esta tercera
variable independiente, X3, debido a que siente que es verdad que existe una
cierta relacin entre estos pagos y la evasin de impuestos descubierta.
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Horas de
trabajo de
auditora de
campo
(x1)
45
42
44
45
43
46
44
45
44
43
Horas en
Recompensa
Impuestos
computadora
a
reales no
(x2)
informantes
pagados
(X3)
descubiertos
(Yi)
16
71
29
14
70
24
15
72
27
13
71
25
13
75
26
14
74
28
16
76
30
16
69
28
15
74
28
15
73
27
23
Predictor
Constant
Auditoria (x1)
Compu (x2)
Recompensa (x3)
Coef
-45.796
0.59697
1.17684
0.40511
SE Coef
4.878
0.08112
0.08407
0.04223
T
-9.39
7.36
14.00
9.59
P
0.000
0.000
0.000
0.000
R-Sq = 98.3%
R-Sq(adj) = 97.5%
(1.28)
(1.27a)
26
=
= 6
= 6
27
LMp =
LM =
GHo
GHI
((
(1.32)
(1.33)
DF
3
6
9
SS
29.1088
0.4912
29.6000
MS
9.7029
0.0819
F
118.52
P
0.000
28
Donde:
= nivel de significancia dado
k = nmero de variables independientes = V1 = grados de libertad
n-k-1 = nmero total de la muestra - nmero de variables independientes -1 = V2
Suponiendo que el nivel de significancia es del 1%, en las tablas de distribucin F
buscamos lo siguiente: ;,(( .;$,-'.''&;$,- :?. w?
_
12.92
Fcal= 118.52
29
pgina 21 apuntamos que = 0.597. El primer paso consiste en hallar algn valor
para y compararlo con = 0.597.
Supongamos que durante un largo periodo transcurrido, la pendiente de la relacin
entre Y y X1 fue de 0.400. Para probar si todava esto es vlido, podramos definir
las hiptesis como:
P
: = 0.400 Hiptesis nula
P : 0.400 Hiptesis alternativa
En efecto, estamos probando para saber si los datos actuales indican que ha
cambiado su valor histrico de 0.400.
Para encontrar el estadstico de prueba para , es necesario hallar primero el
error estndar del coeficiente de regresin. Aqu, el coeficiente de regresin con el
que estamos trabajando es de modo que el error estndar de este coeficiente
se representa con c . Resulta demasiado difcil calcular c a mano, pero,
afortunadamente, el programa Minitab calcula los errores estndar de todos los
coeficientes de regresin. Por conveniencia, repetiremos el resultado de Minitab
The regression equation is
Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2)
+ 0.405 Recompensa (x3)
Predictor
Constant
Auditoria (x1)
Compu (x2)
Recompensa (x3)
Coef
-45.796
0.59697
1.17684
0.40511
SE Coef
4.878
0.08112
0.08407
0.04223
T
-9.39
7.36
14.00
9.59
P
0.000
0.000
0.000
0.000
ESTADSTICO DE PRUEBA
c ([
G
'.&%*('.)''
'.'+
c ([
G
(1.32)
= ?. @;?
-1.943
1.943
V`ab 2.432
31
PREDICCIN
EN
= 0.0422
nivel de significancia () de 5% y 6
VW = 2.447 grados de libertad
6 VW
(1.33)
Donde:
6 = respuesta media estimada
VW = valor de la distribucin t con n-k-1 grados de libertad
F = error estndar de la prediccin mltiple
32
Con los datos del ejemplo del SAT, construiremos un intervalo de confianza de
95% para la respuesta media, cuando X1= 42, X2= 13 y X3= 69. Como ya lo
mencionamos anteriormente, los clculos de forma manual en regresin mltiple
resultan poco prcticos, por lo tanto seguimos explotando las herramientas del
programa Minitab, as que una vez ingresados los valores deseados para cada
una de las variables independientes, dicho programa nos arroja el siguiente
resultado:
Predicted Values for New Observations
New Obs
1
Fit
22.5279
SE Fit
0.2775
95% CI
(21.8489, 23.2068)
95% PI
(21.5526, 23.5031)
New Obs
1
Auditoria
(x1)
42.0
Compu
(x2)
13.0
Recompensa
(x3)
69.0
4.0
3.5
3.0
2.5
2.0
10
15
20
25
30
= ' + + +
Por lo tanto la forma general de una ecuacin de regresin no lineal ESTIMADA es
6 =
+ +
(1.34)
(1.35)
Notacin:
Y: Variable dependiente
' , , : Parmetros de la ecuacin, que generalmente son desconocidos
: Error asociado al modelo
Xk : Valor de la k-sima observacin de la variable independiente
: Trmino cuyos exponentes suman 2 (en este caso, X2)
34
Las siguientes frmulas nos permiten calcular de forma manual los coeficientes de
la ecuacin de regresin no lineal estimada:
: =
? =
)
$
)
$
(1.36)
$
)
$
< =
(1.37)
(1.38)
X2
X2
X3
X3
X4
X4
X*Y
X*Y
X2*Y
X2Y
Y2
Y2
35
Tienda
1
2
3
4
5
6
7
8
9
10
4.0
3.5
3.0
2.5
2.0
10
15
20
25
30
36
como haremos en este material. Una vez capturados los datos en el programa
obtenemos el siguiente informe:
The regression equation is
Y = - 0.1594 + 0.3919 X - 0.009495 X**2
S = 0.250298
R-Sq = 87.9%
R-Sq(adj) = 84.5%
Analysis of Variance
Source
Regression
Error
Total
DF
2
7
9
SS
3.19889
0.43855
3.63744
MS
1.59945
0.06265
F
25.53
P
0.001
DF
1
1
SS
0.80032
2.39858
F
2.26
38.29
P
0.171
0.000
4.0
0.250298
87.9%
84.5%
3.5
3.0
2.5
2.0
10
15
20
25
30
Para evaluar lo adecuado del modelo cuadrtico, podemos realizar una prueba de
hiptesis global, como la siguiente:
37
P
: 0
P : 0
6.54
Huo
HuI
.&%%)&
'.'--&
Fcal 23.53
38
BIBLIOGRAFA:
Levin, Richard I. y Rubin S. David. Estadstica para administradores.
Prentice-Hall Hispanoamrica, 1996.
Anderson, David R., Sweeney Dennis J. y Williams Thomas A. Estadstica para
administracin y economa.
Cengage Learning Editores, 2008.
Mendenhall, William, Beaver, Robert J. y Barbara M. Introduccin a la probabilidad
y estadstica.
Cengage Learning Editores, 2010
39