Está en la página 1de 52

UNIDAD II

Captulo 8
REGRESION MULTIPLE LINEAL
CONTENIDO

1.- INTRODUCCION
2.- SUBDIVISION DE SUMAS DE CUADRADOS DE LA
VARIABLE RESPUESTA Y NOTACION R( )
3.- ANALISIS DE VARIANZA DE LA REGRESION
4.- CONTRIBUCION INDIVIDUAL DE UNA VARIABLE X
5.- TIPOS DE SUMAS DE CUADRADOS
6.- SUMAS DE CUADRADOS SECUENCIALES
7.- SUMAS DE CUADRADOS PARCIALES
8.- VARIANZAS Y COVARIANZAS DE LAS ESTIMACIONES
DE LOS PARMETROS
INTRODUCCION
La regresin mltiple presenta dos dificultades a
considerar:

1. Problemas computacionales para formar y resolver
las ecuaciones normales, que se requieren para
lograr las estimaciones; problema ya resuelto con el
uso del lgebra matricial.


2. Particin de la suma de cuadrados en formas tiles
y la interpretacin de resultados, especialmente
cuando la informacin proviene de estudios
observacionales.


La regresin mltiple es aplicable tanto a
observaciones provenientes de estudios
observacionales como de situaciones experimentales
donde el experimentador puede controlar las
variables predictoras. El modelo de regresin mltiple
que se describir puede ser utilizado para datos
observacionales o para datos experimentales.


Modelo de primer orden con 2 variables predictoras
X
1
y X
2
.

Con dos variables predictoras el modelo de regresin
es:
i i i i
X X Y c | | | + + + =
2 2 1 1 0
Ejemplo.
Crecimiento de las plantas Y, a diferentes
combinaciones de luz (X
1
), y temperatura (X
2
)
Ejemplo ficticio para comprender lo que
implica la no presencia de correlacin entre
X
1
y X
2
en un modelo de regresin mltiple

Supongamos la siguiente relacin funcional
(relacin exacta) entre Y con X
1
y X
2

Y = 95 - 1,5 X
1
+ 20 X
2


i Y
i
X
1i
X
2i
1 100 10 1
2 85 20 1
3 70 30 1
4 55 40 1
5 120 10 2
6 105 20 2
7 90 30 2
8 75 40 2
9 140 10 3
10 125 20 3
11 110 30 3
12 95 40 3
La caracterstica de la relacin entre X
1
y X
2
es que la correlacin entre
ellas es cero.

La consecuencia de que las variables X
1
y X
2
no estn correlacionadas
es que la accin de X
1
sobre Y no se afecta por la presencia de X
2
en el
modelo, lo mismo sucede con la accin de X
2
sobre Y.
As el coeficiente relacionando Y con X
1
e Y con X
2
, pueden ser
encontrados usando ajustes de paso, sin importar el orden en que se
ajusten las variables.

Clculos de los coeficientes Clculos de los coeficientes
de la relacin de Y con X
1,
X
2
de la relacin de Y con X
2,
X
1
2 1
2 .
1
20 5 , 1 95
_____ __________
20 40
5 , 1 135

1
X X Y
X e
X Y
x y
+ =
+ =
=
2 1
1 .
2
20 5 , 1 95
_____ __________
5 , 1 5 , 37
20 5 , 57

2
X X Y
X e
X Y
x y
+ =
+ =
+ =
Conclusin: la interpretacin de los coeficientes |, es la misma
que si fueran coeficientes de regresin simple.
Ejemplo ficticio para comprender lo que implica la
presencia de correlacin entre X
1
y X
2
Supongamos la siguiente relacin funcional
(relacin exacta) entre Y con X
1
y X
2

Y = 115 - 3,5 X
1
+ 20 X
2


i Y
i
X1
i
X2
i
1 100 10 1
2 85 20 2
3 70 30 3
4 55 40 4
5 120 10 2
6 105 20 3
7 90 30 4
8 75 40 5
9 140 10 3
10 125 20 4
11 110 30 5
12 95 40 6
La caracterstica de la relacin entre X
1
y X
2
cuando la correlacin entre
ellas no es cero.

La consecuencia de que las variables X
1
y X
2
no sean independientes es
que la accin de X
1
sobre Y es afectada por la presencia de X
2
en el
modelo, lo mismo sucede con la accin de X
2
sobre Y respecto a la
presencia de X
1
en el modelo. As el coeficiente relacionando Y con X
1
e
Y con X
2
, no pueden ser encontrados usando ajustes de paso e importa
el orden en que se ajusten las variables.
Clculos de los coeficientes de la relacin de Y con X
1,
X
2

2 1
2 .
1
45 , 6 5 , 1 7 , 110
_______ __________
95 , 6 3 , 24
5 , 1 135

1
X X Y
X e
X Y
x y
+ =
+ =
=
Que sucedi?: cuando el efecto de X
2
es removido de Y, parte
de los que es removido es debido a X1, debido a la correlacin
entre X
1
y X
2
.
Entonces el cambio de Y, por unidad de cambio en X
2
, depende
de si X
1
es ignorado o considerado en el modelo.
no se obtuvo la ecuacin original
Y = 115 - 3,5 X
1
+ 20 X
2

Como aborda el procedimiento de mnimos cuadrados la
estimacin de los coeficientes | en un modelo de regresin
mltiple lineal (Y = f(X
1
, X
2
), cuando X
1
y X
2
estn correlacionados
Para averiguar esto consideremos el ltimo modelo Y = 115 3,5X
1
+ 20X
2
y el
mismo ltimo set de datos.
Si el propsito es determinar el cambio en Y por una unidad de cambio en X
2
,
despus de remover el efecto de X
1
, entonces se comienza por remover el
efecto de X
1
sobre ambos Y y X
2
Para esto se usa el modelo de regresin simple lineal:
Y = |
0
+ |
1
X
1
X
2
= |
0
+ |
1
X
1



1
5 . 1 135

X Y =
Y Y e
Y

1 .
=
2 2 1 . 2

X X e =
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(

=
20
20
20
20
0
0
0
0
20
20
20
20
1 . Y
e
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(
(

=
1
1
1
1
0
0
0
0
1
1
1
1
1 . 2
e
1 2
1 . 0 0 . 1

X X + =
Finalmente usando un modelo de regresin simple lineal se ajustan los
residuales, esto es, lo que ha permanecido en Y, despus de descontar el
efecto de X
1
sobre Y (e
Y.X1
); y lo que ha permanecido en X
2
, despus de
descontar el efecto de X
1
sobre X
2
(e
X2.X1
)

e
YX1
= 0 + 20
X2.X1


Note que 20 es el valor de |2 proporcionado por la solucin de las
ecuaciones normales cuando X
1
y X
2
, estando correlacionados fueron
considerados simultneamente en el modelo

As los |s requieren de una definicin ms detallada que aquella asociada al
coeficiente de regresin simple, la cual es:

El cambio en Y por unidad de cambio en X
2
, despus que se ha removido el
efecto lineal de X
1
sobre ambos Y y X
2
. Esto equivale a decir el cambio e Y
por unidad de cambio en X
2
, dejando a X
1
constante. Este enunciado
corresponde con la definicin del coeficiente de regresin parcial.


Si se hubiese determinado el efecto de X
2
sobre Y, ignorando X
1
, la
respuesta seria que Y = 107,4 2,8X
2
; es decir el efecto de X
2
sobre
Y es -2,8 cuando X
1
es ignorado y 20 cuando X
1
es considerado en
el modelo y removido su efecto desde Y y X
2
.
y = -2,8261x + 107,39
0
20
40
60
80
100
120
140
0 1 2 3 4 5 6 7
X
2
Y
La relacin de Y con X
2
ignorando X
1
Ejemplo: en el modelo original
Y = 115 3,5 X
1
+ 20X
2
.
Si X
1
=10
Y = 115 3,5(10) + 20(X
2
)
Y = 80 + 20X
2

La relacin de Y con X
2
dejando constante X
1
en cada
uno de sus niveles
y = 20x +80
y = 20x +45
y = 20x + 10
y = 20x - 25
0
50
100
150
200
250
0 5 10
X
2
Y
x1=10
x1=20
x1=30
x1=40

2- SUBDIVISION DE LA
SUMA DE CUADRADOS
DE LA VARIABLE DE
RESPUESTA

Los son los valores pronosticados por
el modelo para las diversas
combinaciones de los valores de X. Las
diferencias entre los valores observados
y los estimados; los es, son las
desviaciones residuales desde la lnea o
plano ajustado.
Si Y est dividido en dos partes.
entonces, la suma de cuadrados de los
Ys o YY, puede tambin ser
particionada.
s Y'

( )

2
Y
e e Y Y Y Y '

'

' + =
En que la particin de la suma de cuadrados total
corresponde a un primer componente asociado a la parte
de la variacin total que es explicada por el modelo y el
segundo componente corresponde a la parte de la
variacin total que no es explicada por el modelo o
tambin conocido como el residual de dicho modelo

Al reemplazar las estimaciones de Y se obtiene :



Esta divisin de la suma de cuadrados tiene la misma
explicacin conceptual presentada anteriormente ya que
solo hemos reemplazado las estimaciones por el valor
calculado del estimador a travs del mtodo de mnimos
cuadrados.
e e Y X b Y Y ' ' ' ' + =
NOTACION R( )
Si por ejemplo la situacin considera una respuesta (Y) y
dos variables Xs, una lista de los modelos que
posiblemente podran ser incluidos es:









Para cualquiera de estos modelos el mtodo de mnimos
cuadrados podra ser aplicado para encontrar las
estimaciones del los y una subsecuente
descomposicin de YY en dos partes: . As,
cuando es usada la notacin YY, el lector necesita
conocer qu modelo fue usado como base para generar
tal vector . Con el objeto de hacer esto claro, la
notacin es reemplazada por un R( ) en que dentro
del parntesis se incluyen las variables Xs usadas en el
modelo.
e X Y + =
0 0
|
e X X Y + + =
1 1 0 0
| |
e X X Y + + =
2 2 0 0
| |
e X X X Y + + + =
2 2 1 1 0 0
| | |
s ' |
e e Y Y ' y

'

Y Y

'

La letra R debe ser considerada como un


smbolo para representar la reduccin en
Suma de cuadrados desde YY debida al
modelo particular que se ajuste.

As, YY es reducida por una cantidad
cuando un modelo dado es usado,
dejando una cantidad ee. Si hay dos
variable Xs, las posibles reducciones o
sumas de cuadrados de los valores
pronosticados deberan ser:
Y Y

'

Y Y

'

e X Y + =
0 0
|
e X X Y + + =
1 1 0 0
| |
e X X Y + + =
2 2 0 0
| |
e X X X Y + + + =
2 2 1 1 0 0
| | |
MODELO USADO NOTACION PARA LA SUMA DE
CUADRADOS DE LOS VALORES
PRONOSTICADOS
R(X
0
)
R(X
0
, X
1
)
R(X
0
, X
2
)
R(X
0
, X
1
, X
2
)
Cada suma de cuadrados tiene asociados
grados de libertad. Si hay n observaciones Y,
entonces YY debe tener n grados de libertad.
La suma de cuadrados de los valores
pronosticados tiene un grado de libertad por
cada parmetro estimado. As, R(X
0
, X
1
) y R(X
0
,
X
2
), tienen dos grados libres y R(X
0
, X
1
, X
2
)
tiene tres. Las sumas de cuadrados residuales
YY-R( ) tendrn (n-p) grados de libertad, en que
p es el nmero de variables Xs que aparecen
en la notacin R( ).

La notacin para la suma de cuadrados de total
es equivalente a lo que puede
leerse como la suma de cuadrados en Y
reducida por la cantidad contabilizada por el
modelo . Existen situaciones
especiales en las que algunos modelos no
incluyan a , para la discusin aqu
considerada como el modelo ms
bsico y todos los otros modelos sern
comparados en relacin a esta base.
( )
2

Y Y
) ( '
0
X R Y Y
c | + =
0 0
X Y
0
|
c | + =
0 0
X Y
3.- ANALISIS DE VARIANZA DE LA
REGRESION
Suponga que se han colectado datos sobre una
variable respuesta Y, y de dos factores, X
1
y X
2

que podran influenciar la respuesta. El
mtodo de Mnimos Cuadrados proporciona
una estimacin de Y que es . Muchas
preguntas diferentes podran surgir de una
situacin como la planteada. Un punto de
partida es preguntar si los datos proporcionan
un evidencia de que la variable respuesta Y est
relacionada a X
1
y X
2
en un modelo como:



o si un modelo como:
Y

c | | | + + + =
2 2 1 1 0 0
X X X Y
c | + =
0 0
X Y
sirve tanto como el modelo anterior para
representar a Y. Hay mtodos objetivos
para resolver esta pregunta y la
operacin es resumida en una tabla. La
lgica es simplemente examinar cunto
de la suma de cuadrados en Y est
explicada por los dos modelos y
comparar la diferencia con una
estimacin del error residual, utilizando
el estadgrafo F. La tabla que resume lo
expuesto es:
( )
2 1 0
, , X X X R ( )
0
X R
( )
2 1 0
, , ' X X X R Y Y
( )
0
' X R Y Y
FUENTE DE VARIACION GL SUMA DE CUADRADOS


Debido a X
1
y X
2
despus de X
0
2
-
Residual n-2

Total corregido por X
0
n-1


los valores numricos de YY, y
provendrn de los datos colectados, los
cuales originan la suma de cuadrados total de
la variable respuesta Y y los arreglos necesarios
para formar y resolver las ecuaciones normales
para cada modelo, uno conteniendo a
y otro conteniendo simplemente a . En
cada caso se encontrar los coeficientes b y la
suma de productos de estos por el resultado del
lados derecho de las ecuaciones normales
(bXY), o lo que es lo mismo que , o la
notacin en trminos de notacin R( ) que sern
usadas en la tabla descrita anteriormente.
( )
2 1 0
, , X X X R
( )
0
X R
( )
2 1 0
, , X X X
( )
0
X
Y Y

'

Al dividir la suma de cuadrados por los respectivos


grados de libertad se obtiene el promedio de las
desviaciones al cuadrado que no es otra cosa que los
cuadrados medios. Si la verdadera situacin es que X
1
y
X
2
no estn relacionados a Y y los residuales estn
normalmente distribuidos, el cuociente de los dos
cuadrados medios CMR/CME correspondera con una
distribucin de F con 2 y n-3 grados de libertad. Valores
grandes de F indicarn alguna relacin conjunta entre Y
y las Xs. La probabilidad de un valor mayor que el
obtenido del anlisis, proporciona una medida de la
evidencia en favor o en contra de la relacin propuesta.

El anlisis descrito es el ms general de los muchos
posibles. Divide la variacin en dos partes, aquella que
va a ser contabilizada por el modelo completo y aquella
que an permanece entre los Y despus del ajuste de ese
modelo. La distribucin de F proporciona una base para
un evaluacin objetiva. Su uso requiere del supuesto de
que los residuales se distribuyen normalmente.
4.- CONTRIBUCIN INDIVIDUAL DE UNA
VARIABLE X
Para el conjunto de datos colectados, casi
siempre se formulan preguntas ms especficas.
Por ejemplo, cul es la diferencia entre incluir y
excluir X
1
en el modelo. Esta pregunta podra
ser establecida en muchas formas. Una de
ellas es preguntarse si es realmente cero en
el modelo . Otra forma
de formular la pregunta es si X
1
agrega algo a la
explicacin de la variable respuesta despus de
haber considerado los efectos de X
2
. Esta
respuesta se logra al comparar la cantidad
explicada por los dos modelos, uno con X
1
y
otro sin X
1
. La notacin que describe los
clculos requeridos, se establece en la tabla
siguiente:
1
|
c | | | + + + =
2 2 1 1 0 0
X X X Y
( )
2 1 0
, , X X X R
( )
2 0
X , X R
( ) ( )
2 0 2 1 0
, , , X X R X X X R
( )
2 1 0
, , ' X X X R Y Y
FUENTE DE VARIACION G.L SUMA DE CUADRADOS C.M.

Total n YY

Modelo conteniendoX
0
X
1
y X
2
3
Modelo conteniendo X
0
y X
2
2

Diferencia o efecto de X
1
en un 1
modelo conteniendo a X
2




Residual n-3
CME
CMR
De nuevo una prueba de F es usada para
evaluar la evidencia. Lo ms importante en la
pregunta anterior es reconocer la base sobre la
cual se plante la pregunta. Ha sido una
pregunta acerca del efecto de X
1
cuando X
2
es
considerada. No es una pregunta acerca del
efecto de X
1
cuando X
2
es ignorada. La
diferencia entre estas dos preguntas ya fue
discutida en una seccin anterior. Es una
diferencia importante y necesita ser
especificada en cualquier situacin donde se
estn manejando variables Xs, correlacionadas.
La comparacin de modelos que involucra a un
grado de libertad para examinar el efecto de X
1

sobre Y, ignorando X
2
sera igual a:
Esta diferencia no ser igual a lo expresado en
la tabla al menos que las variables Xs no estn
correlacionadas.
( ) ( )
0 1 0
, X R X X R
Las preguntas que se hagan, dependen claramente del
propsito para el cual los datos fueron colectados. Solo
una gua general puede ser entregada. Si hay dos
variables, generalmente es de utilidad conocer la
reduccin total en sumas de cuadrados debido al ajuste
de ambas variables Xs.. En la mayora de los casos
tambin es de inters conocer la contribucin nica de
cada variables X cuando la otra est presente. Algunas
veces tambin es cuantificado el efecto de cada variable X
cuando la otra es ignorada. Las dos contribuciones
nicas no sumarn el total de la contribucin cuando
ambas variables Xs son consideradas en conjunto, al
menos que, las Xs no estn correlacionadas.


Esto es:
( ) ( )
0 2 1 0
, , X R X X X R
( ) ( ) ( ) ( )
0 2 0 0 1 0
, , X R X X R X R X X R + =
a menos que:



Esto significa que hay una porcin de sumas de
cuadrados en la respuesta observada que no puede ser
lgica y nicamente atribuida, ya sea a X
1
o a X
2
, esta
porcin permanece indivisible. A pesar de lo lgico de
este asunto, no existe una respuesta simple y clara para
resumir sistemas inter-correlacionados, en donde la
variabilidad total de una variable respuesta pueda ser
clasificada en partes controladas nicamente por
variables especificadas. Sin embargo, el mtodo de
mnimos cuadrados proporciona herramientas para
ayudar en la interpretacin de las complejidades de
sistemas inter-correlacionados.
0
2
,
1
=
X X
r
5.- TIPOS DE SUMAS DE
CUADRADOS
Anteriormente se ha sealado que en caso
particular de un modelo que considere 2
variables X's, esto es X
1
y X
2
, la hiptesis ms
comn a probar es: . Para el caso
de un modelo en que el nmero de variables X's
sea mayor que dos, por ejemplo, un modelo
conteniendo a X
1
, X
2
y X
3
tambin la hiptesis
ms comn de probar ser:
Hiptesis similares se probarn para modelos
ms complejos. El anlisis de varianza para
probar estas hiptesis para el caso en que el
nmero de X's sea igual a K ser:
0 :
2 1 0
= = | | H
0 :
3 2 1 0
= = = | | | H
F.V. G.L. S.C. C.M. F

Regresin K SC Reg CM Reg CMReg/CMRes

Residual n-K-1 SCRes CMRes



Total n-1 SCT
Esta tabla de anlisis de varianza (ANDEVA) es entregada
por cualquier programa computacional de regresin
mltiple. La hiptesis alternante es que a lo menos un
es distinto a cero. De este anlisis tambin se puede
obtener el valor de R
2
= SCReg/SCT indicando la
proporcin de la variacin total en Y expresada por el
modelo de regresin.

Una vez efectuado este ANDEVA surge inmediatamente la
pregunta: Cules son las variables X que efectivamente
contribuyen a explicar la variacin en Y?. La respuesta a
esta pregunta no es simple ya que debemos considerar el
problema de la relacin existente entre las variables X's.
Sin prdida de generalidad, se estudiar el caso en que
K=3 es decir el siguiente modelo:
i
|
Se est ahora interesado en estudiar la contribucin de
cada una de las variables X's a la explicacin de la
variabilidad en Y, en otras palabras nos interesa poder
construir el siguiente ANDEVA:
F.V. G.L. S.C. C.M F
Regresin de un modelo 3 R(X
1
X
2
X
3
) CMReg CMReg/CMRes
en X
1
X
2
X
3

Debido a X
1
1 R(X
1
) R(X
1
) R(X
1
)/CMRes
Debido a X
2
1 R(X
2
) R(X
2
) R(X
2
)/CMRes
Debido a X
3
1 R(X
3
) R(X
3
) R(X
3
)/CMRes
Residual n-K-1 SCRes CMRes
Total n-1 SCT
La notacin R(X
i
) identifica a la suma de cuadrados asociada
a la variable X
i
. De esta manera se podra evaluar el efecto
individual y su contribucin a la explicacin de la variacin
en Y para cada una de las variables X's. Sin embargo, dado
el problema de la relacin entre las variables X's es
imposible (en la mayora de los casos) estudiar la
contribucin individual de una variable X en el modelo de
regresin mltiple.

Para estudiar el problema ser necesario agregar algo ms
en la explicacin de las fuentes de variacin en el ANDEVA.
Existen dos maneras de representar estas fuentes de
variacin, las que estn asociadas a la forma de calcular las
sumas de cuadrados, ellas pueden ser sumas de cuadrados
secuenciales, o sumas de cuadrados parciales.
6.- SUMAS DE CUADRDADOS
SECUENCIALES
El criterio para calcular la suma de cuadrados
secuenciales es el siguiente:
1 1 0 0
X X Y | | + =
2 2 1 1 0 0
X X X Y | | | + + =
3 3 2 2 1 1 0 0
X X X X Y | | | | + + + =
Procedimiento Suma de Cuadrados secuenciales


a)Se ajusta

Se calcula SCreg=R(X
0
, X
1
) R(X
0
, X
1
)-R(X
0
)=R(X
1
)

b) Se ajusta

c) Se ajusta

Se calcula SCreg=R(X
0
, X
1
, X
2
, X
3
) R(X
0
,X
1
,X
2
,X
3
)-R(X
0
,X
1
,X
2
)=R(X
3
)
Se calcula SCreg=R(X0, X
1
, X
2
) R(X
0
, X
1
, X
2
)-R(X
0
,X
1
)=R(X
2
)
De esta forma se obtiene R(X
1
), R(X
2
) y
R(X
3
), en cada una de las etapas de ajuste
respectivamente y el ANDEVA obtenido ser:
F.V. G.L S.C. C.M. F.
Regresin (X
1
X
2
X
3
) 3 R(X
0
, X
1
, X
2
, X
3
) CMReg CMReg/CMRes
X
1
solo 1 R(X
1
) R(X
1
) F
1

X
2
despus de X
1
1 R(X
2
) R(X
2
) F
2

X
3
despus de X
1
y X
2
1 R(X
3
) R(X
3
) F
3

Residual n-4 SCRes CMRes
Total n-1 SCT
En este caso se ha agregado algo ms al nombre de las
fuentes de variacin, esto es lo que distingue al procedimiento
secuencial. En resumen, el procedimiento consiste en ir
efectuando ajustes en forma secuencial para determinar la
contribucin de las variables al ir agregndolas al modelo,
vale decir R(X
1
) representa la contribucin de X
1
al modelo,
R(X
2
) representa la contribucin de X
2
al modelo, despus de
haber incluido a X
1
, R(X
3
) representa la contribucin de X
3
al
modelo, despus de haber incluido a X
1
y X
2
. Los estadgrafos
F
1
, F
2
y F
3
permiten probar la significancia de las
contribuciones secuenciales de las variables X
1
, X
2
y X
3

respectivamente. Es interesante hacer notar la siguiente
igualdad:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
2
.
1
,
0 3
,
2
,
1
,
0 1
,
0 2
,
1
,
0 0 1
,
0 3 2 1
X X X R X X X X R X X R X X X R X R X X R X R X R X R + + = + +
( ) ( ) ( ) ( )
3
,
2
,
1 3 2 1
X X X R X R X R X R = + +
Entonces la suma de las contribuciones secuenciales es igual
a la suma de cuadrados del modelo completo.
A primera vista pareciera ser una propiedad muy til
pues permite discernir la importancia relativa de cada
una de las variables en el modelo. Sin embargo, es
necesario hacer notar que los clculos se efectan en
forma secuencial, vale decir, primero se ajusta X
1
, luego
se agreg X
2
y finalmente X
3
, pero los resultados
dependen de la secuencia en que se incluyan las
variables X's. Si se escogiera la secuencia X
2
, X
3
, X
1
, se
obtendran resultados completamente diferentes:

R(X
0
, X
2
)-R(X
0
)=R(X
2
)
R(X
0
, X
2
, X
3
)-R(X
0
,X
2
)=R(X
3
)
R(X
0
, X
2
, X
3
, X
1
)-R(X
0
,X
2
, X
3
)=R(X
1
)

que son valores diferentes a los obtenidos anterior
mente, por lo tanto, los resultados obtenidos dependen
de la secuencia en que se incluyan las variables, aunque
se mantiene la propiedad de que R(X
1
, X
2
, X
3
) =R(X
1
)
+R(X
2
) +R(X
3
).
De esta manera surge la necesidad
de encontrar un criterio de decisin
que nos permita escoger la
secuencia en que se irn agregando
las variables al modelo. Estos
criterios de seleccin de variables
quedan fuera del alcance de este
curso.
7.- SUMAS DE CUADRADOS
PARCIALES
La segunda forma de representar
las fuentes de variacin involucra el
clculo de las llamados sumas de
cuadrados parciales usando el
mismo modelo en tres variables el
criterio para calcular las sumas de
cuadrados parciales es :
3 3 2 2 1 1 0 0
X X X X Y | | | | + + + =
3 3 2 2 0 0
X X X Y | | | + + =
3 3 1 1 0 0
X X X Y | | | + + =
2 2 1 1 0 0
X X X Y | | | + + =
Procedimiento Suma de Cuadrados Parciales

a) Se ajusta
Se calcula R(X
0
, X
1
, X
2
, X
3
)


b) Se ajusta
Se calcula R(X
0
, X
2
,X
3
) R(X
0
, X
1
,X
2
, X
3
)-R(X
0
,X
2
,X
3
)=R(X
1
)

c) Se ajusta
Se calcula R(X
0
, X
1
, X
3
) R(X
0
, X
1
, X
2
,X
3
)-R(X
0
,X
1
,X
3
)=R(X
2
)

d) Se ajusta

Se calcula R(X
0
, X
1
, X
2
) R(X
0
, X
1
, X
2
,X
3
)-R(X
0
,X
1
,X
2
)=R(X
3
)
De esta manera se nota que la contribucin
parcial de cada una de las variables al modelo
se obtiene como la diferencia en sumas de
cuadrados entre el modelo completo y un
modelo que no incluye la variable de inters.
As, de esta manera, una contribucin parcial
representa la reduccin en Sumas de
Cuadrados que se obtendra al no incluir en el
modelo a la variable de inters. Su
representacin en el ANDEVA ser de la forma :
F.V. G.L S.C. C.M. F.

Regresin (X
1
X
2
X
3
) 3 R(X
1
, X
2
, X
3
) CMReg CMReg/CMRes
Contribucin de X
1
1 R(X
1
) R(X
1
) F
1

Contribucin de X
2
1 R(X
2
) R(X
2
) F
2

Contribucin de X
3
1 R(X
3
) R(X
3
) F
3

Residual n-4 SCRes CMRes

Total n-1 SCT

Los estadgrafos F
1
, F
2
y F
3
permiten probar la
significancia de las contribuciones parciales de X
1
X
2
y X
3

respectivamente.

Es importante hacer notar que no se cumple la igualdad:

R(X
1
, X
2
, X
3
)=R(X
1
) + R(X
2
) + R(X
3
)

Esto implica que no es posible calcular la importancia
relativa de cada una de las variables en forma exacta. La
ventaja de este procedimiento con respecto al de ajuste
secuencial, es que no depende de la secuencia de ajuste
de los modelos. Lo anterior hace que el uso de las sumas
de cuadrados parciales sea el procedimiento utilizado
cuando el inters primordial radica en estudiar la
contribucin de cada una de las variables X's. En el caso
que se desee seleccionar variables, el clculo de sumas
de cuadrados secuenciales es el mtodo preferentemente
utilizado por los procedimientos de seleccin de
variables.
FIN

Unidad 2

Relacin entre variables a partir de datos
experimentales y observacionales