Está en la página 1de 10

La bondad de ajuste del modelo de regresin

lineal simple
Alfonso Novales
Departamento de Economa Cuantitativa
Universidad Complutense
Septiembre 2008
Contents
1 Medidas de bondad de ajuste del modelo de regresin 1
1.1 Error Estndar de la Regresin (EER) . . . . . . . . . . . . . . . 3
1.2 El coeciente de determinacin . . . . . . . . . . . . . . . . . . . 4
1.3 Correlacin en el modelo de regresin lineal . . . . . . . . . . . . 6
1 Medidas de bondad de ajuste del modelo de
regresin
Hasta aqu, hemos propuesto un criterio, de entre los muchos posibles,
para obtener estimadores de los coecientes del modelo de regresin lineal sim-
ple: minimizar la suma de los cuadrados de los residuos, y hemos obtenido
las expresiones analticas de los estimadores resultantes, as como de sus var-
ianzas y su covarianza. Cada uno de estos estimadores es una funcin de las
observaciones muestrales de ambas variables, X e Y, y son, por tanto, variables
aleatorias; por eso hemos calculado sus esperanzas matemticas y varianzas. Si
alguno de ellos fuese funcin nicamente de las observaciones de la variable X
tendra naturaleza determinista, y su valor no cambiara si en vez de utilizar
en la estimacin del modelo la muestra de que disponemos, pudisemos utilizar
otra muestra diferente de igual tamao.
Sin embargo, ste no es el caso: ambos estimadores dependen tambin de
las observaciones de la variable Y, por lo que tienen naturaleza estocstica, es de-
cir, su valor numrico sera distinto con muestras diferentes. Variando la mues-
tra, obtendramos distintos valores de 0 y 1, todos los cuales nos describiran
el histograma de frecuencias correspondiente a su distribucin de probabilidad.
En los prrafos anteriores hemos demostrado que la esperanza matemtica de
cada uno de estos estimadores es el verdadero valor, que es desconocido, del
1
parmetro que pretende estimar, y hemos deducido las expresiones analticas de
las varianzas de cada una de sus distribuciones de probabilidad.
El procedimiento MCO que hemos utilizado garantiza que la recta de
regresin obtenida es la que proporciona la menor Suma de Cuadrados de Resid-
uos que es posible obtener trazando rectas a travs de la nube de puntos. Sin
embargo, en unas ocasiones tal mejor ajuste puede ser excelente, en otras, el
mejor ajuste puede no ser muy bueno. Necesitamos, en cualquier caso, disponer
de criterios que puedan resumir en un indicador el grado de ajuste de la regresin
MCO a la nube de puntos de que partimos.
Recordemos que:
^ u
i
= y
i
^ y
i
= y
i
(
^

0
+
^

1
x
i
)
Si la perturbacin aleatoria sigue una distribucin de probabilidad Normal,
entonces y
i
=
0
+
1
x
i
+ u
i
tambin sigue una distribucin Normal, pues es
igual a una constante, ms una variable con distribucin Normal. Adems:
E(y
i
) = E(
0
+
1
x
i
+u
i
) =
0
+
1
x
i
V ar(y
i
) = V ar(
0
+
1
x
i
+u
i
) = V ar(u
i
) =
2
u
de modo que, de acuerdo con el modelo, todas las observaciones de la variable
endgena tienen la misma varianza, pero diferente esperanza matemtica, pues
sta depende del valor numrico de la variable X, que vara a lo largo de la
muestra.
Puede probarse que el residuo correspondiente a cada observacin es
una combinacin lineal de todos los trminos de error del modelo y, por tanto,
si la perturbacin aleatoria del modelo es Normal, el residuo tambin tiene
distribucin Normal. Su esperanza matemtica es:
E(^ u
i
) = E(y
i
^ y
i
) = E(y
i
) E(
^

0
+
^

1
x
i
) = E (
0
+
1
x
i
+u
i
) E(
^

0
) E(
^

1
x
i
) =
=
0
+
1
x
i
+E(u
i
)
0

1
x
i
= 0
Teniendo en cuenta que, entre
0
,
1
,
^

0
;
^

1
y x
i
, slo
^

0
y
^

1
son aleatorios,
puede obtenerse la siguiente expresin para la varianza de cada residuo:
V ar(^ u
i
) = V ar(y
i
^ y
i
) = V ar
_
(
0
+
1
x
i
+u
i
) (
^

0
+
^

1
x
i
)
_
=
=

2
u
n

n
j=1
(x
j
x
i
)
2

n
j=1
(x
j
x)
2
Al tener esperanza cero, la varianza del residuo es un adecuado indicador
de su tamao. Podemos ver que la varianza es tanto mayor (lo cual no es
deseable), cuanto mayor es
2
u
, pero es menor cuanto mayor sea el tamao
muestral. Tambin es menor cuanto mayor es la varianza muestral de la variable
2
explicativa, lo cual es, por tanto, un aspecto deseable: un apreciable grado
de uctuacin en X no es negativo, sino positivo. Por ltimo, ntese que la
observacin x
i
correspondiente al residuo i aparece en el numerador. Cuanto
ms se separe sta de la media de todas las x
i
, mayor ser la varianza del residuo
correspondiente a dicha observacin muestral.
1.1 Error Estndar de la Regresin (EER)
No slo es cierto que la esperanza matemtica de la distribucin de prob-
abilidad de cada uno de los residuos MCO es igual a cero. Tambin se cumple
que su media muestral es igual a cero, puesto que la suma de todos ellos lo es,
como vimos en las ecuaciones normales. Esta es una peculiaridad del mtodo
de estimacin MCO, que otro procedimiento de estimacin no tiene. Si, consid-
erados a lo largo de toda la muestra, los residuos tienen media cero, entonces
su desviacin tpica muestral ser un indicador del tamao promedio de cada
uno de ellos. Esto es importante, porque si la recta estimada se ajusta bien a la
nube de puntos, entonces los residuos deberan ser pequeos en algn sentido.
Utilizar la desviacin tpica muestral de los residuos parece un criterio razon-
able de ajuste. Adems, sabemos que si utilizamos n 2 en el denominador,
su cuadrado es un estimador insesgado de
2
u
. La ausencia de sesgo en este
estimador puede demostrarse sin necesidad de obtener previamente los residuos
de la regresin, tomando esperanzas en la expresin:
^
2
u
=
SCR
n 2
=
n

i=1
^ u
2
i
n 2
=
1
n 2
n

i=1
^ u
i
_
y
i

1
x
i
_
=
=
1
n 2
n

i=1
^ u
i
y
i
=
1
n 2
_
n

i=1
y
2
i

^

0
n

i=1
y
i

1
n

i=1
x
i
y
i
_
Su raz cuadrada, la desviacin tpica estimada, recibe el nombre de error
estndar de la regresin EER:
EER =
_

n
i=1
^ u
2
i
n 2
=
_
^
2
u
= ^
u
Es claro que minimizar la varianza residual equivale a minimizar el error
estndar de la regresin, EER. Sin embargo, recordemos que la desviacin tpica
tiene, respecto a la varianza, la ventaja de estar medida en las mismas unidades
que la variable a la que se reere, el residuo, que tiene, a su vez, las mismas
unidades que la variable endgena y
i
. Para valorar si el ajuste obtenido por la
recta MCO a la nube muestral de puntos es bueno, es conveniente utilizar el
valor numrico del EER en relacin con alguna referencia, y la media muestral
de la variable endgena es un buen indicador. Ello nos permite presentar el
porcentaje que de la media de y
i
representa el EER, pudiendo decir, por ejemplo:
el modelo estimado es bueno, puesto que el EER es tan slo un 4% de la media
de la variable endgena o, por el contrario: "el ajuste obtenido no es muy bueno,
3
porque el tamao medio de los residuos, indicado por el EER, es de un 65% de
la media de Y ".
1.2 El coeciente de determinacin
El inters del EER como indicador del grado de ajuste de un modelo de
regresin disminuye cuando queremos comparar la bondad del ajuste de dos
modelos que tienen una variable dependiente diferente. En tal caso, no es en
absoluto cierto que el modelo con menor EER sea el modelo con mejor ajuste;
de hecho, no podremos armar nada al respecto, salvo que establezcamos alguna
medida relativa de grado de ajuste, que es lo que hacemos en esta seccin. A
diferencia del EER, el coeciente de determinacin que ahora denimos, deno-
tado por R
2
, es un indicador sin unidades, que no es preciso ni tiene sentido
poner en relacin con ninguna de las variables del modelo.
En primer lugar, escribamos para cada observacin i :
y
i
y = (^ y
i
y) + (y
i
^ y
i
) = (^ y
i
y) + ^ u
i
que muestra que la distancia entre una observacin y
i
y su media y puede
escribirse como la distancia entre su valor ajustado ^ y
i
y dicha media, ms el
residuo correspondiente. La distancia a la media del valor ajustado puede ser
mayor o menor que la de la observacin y
i
, por lo que el residuo puede ser nega-
tivo o positivo. La regresin estimada por MCO proporciona el valor numrico
de ^ y
i
y, que es una aproximacin a la distancia y
i
y. El resto es la parte no
explicada, o residuo. Como hemos mencionado, la explicacin puede exceder o
no de y
i
y. La igualdad anterior muestra cmo la desviacin total respecto a
la media puede escribirse como la suma de la desviacin explicada y el residuo.
Si elevamos al cuadrado ambos miembros, tenemos:
(y
i
y)
2
= (^ y
i
y)
2
+ ^ u
2
i
+ 2 (^ y
i
y) ^ u
i
y sumando a lo largo de toda la muestra:
n

i=1
(y
i
y)
2
=
n

i=1
(^ y
i
y)
2
+
n

i=1
^ u
2
i
+ 2
n

i=1
(^ y
i
y) ^ u
i
(1)
Pero:
n

i=1
^ u
i
(^ y
i
y) =
n

i=1
^ u
i
^ y
i
y
n

i=1
^ u
i
=
n

i=1
^ u
i
^ y
i
=
n

i=1
^ u
i
(
^

0
+
^

1
x
i
) =
=
^

0
n

i=1
^ u
i
+
^

1
n

i=1
^ u
i
x
i
=
^

0
(0) +
^

1
(0) = 0
donde hemos utilizado repetidamente el hecho de que la suma de los residuos
MCO es igual a cero, as como que la suma de sus productos por x
i
tambin es
igual a cero. Ambas condiciones provienen de las ecuaciones normales.
4
Finalmente, substituyendo en (1), llegamos a:
n

i=1
(y
i
y)
2
=
n

i=1
(^ y
i
y)
2
+
n

i=1
^ u
2
i
es decir:
nS
2
y
= nS
^ y
2 +nS
^ u
2
que expresa cmo la variacin muestral total en la variable Y , que es n veces
su varianza, puede descomponerse como la suma explicada por la regresin
estimada, nS
^ y
2 =

n
i=1
(^ y
i
y)
2
; el primero de los sumandos del miembro
derecho, ms la suma no explicada, que es la suma de los cuadrados de los
residuos. Si dividimos la suma explicada por la variacin total en Y , tenemos
la denicin de coeciente de determinacin:
R
2
=
nS
^ y
2
nS
2
y
=
S
y
2 S
^ u
2
S
2
y
= 1

n
i=1
^ u
2
i

n
i=1
(y
i
y)
2
=

n
i=1
(^ y
i
y)
2

n
i=1
(y
i
y)
2
de modo que:
R
2
= 1
Variacin no explicada en Y
Variacin total en Y
=
Variacin explicada en Y
Variacin total en Y
Proposition 1 El coeciente de determinacin de todo modelo de regresin
toma siempre valores numricos entre 0 y 1.
Proof. El miembro derecho de la ecuacin es el cociente de dos trminos pos-
itivos, luego es positivo. Adems, hemos visto que el numerador es uno de los
dos componentes del denominador, luego su valor numrico es inferior al de ste.
En consecuencia, el cociente, que es positivo, es inferior a la unidad.
El coeciente de determinacin, a veces denominado R cuadrado,
nos indica el porcentaje de la variacin total en la variable Y que la regresin
estimada es capaz de explicar. La idea es que si la regresin tiene un ajuste
sucientemente bueno, ser debido a que la variable X explica buena parte de
la variacin que Y experimenta a lo largo de la muestra, los residuos sern
generalmente pequeos, la variacin explicada en Y ser un porcentaje elevado
de su variacin muestral total, y el coeciente de determinacin ser prximo
a la unidad. Lo contrario ocurrir cuando el ajuste de la recta MCO a la
nube de puntos no sea sucientemente bueno, en cuyo caso el coeciente de
determinacin ser prximo a cero.
As pues, un coeciente de determinacin prximo a 1 signica que las
estimaciones obtenidas para los coecientes del modelo de regresin hacen a
ste capaz de explicar un elevado porcentaje de las variaciones que experimenta
la variable endgena. El modelo proporciona en tal caso un buen ajuste a los
datos, por lo que puede utilizarse con conanza para efectuar evaluaciones e
5
inferencias acerca de la cuestin conceptual que lo motiv inicialmente. En
el extremo contrario, un coeciente de determinacin prximo a cero signica
que las estimaciones obtenidas apenas explican las variaciones que experimenta
la variable endgena, por lo que el modelo no puede utilizarse con una gran
abilidad.
Hay que tener bastante cuidado, sin embargo, con la interpretacin del
coeciente de determinacin de una regresin. En ocasiones, si la muestra con-
sta de pocas observaciones, quiz uno o dos residuos elevados pueden generar un
coeciente de determinacin reducido y, por ello, conducir a creer que la regre-
sin estimada es mala, cuando excepto por dichas observaciones, el ajuste puede
ser excelente. Por otra parte, si la muestra consta de muy pocas observaciones, y
ningn residuo es especialmente alto, se tendr un coeciente de determinacin
muy elevado, sin que deba interpretarse como un excelente ajuste, sino ms bien
como un indicador de escasa informacin muestral.
Otro caso delicado se reere al uso del coeciente de determinacin
con muestras de series temporales que muestran una tendencia similar. En
tales casos, el coeciente de determinacin se aproxima a la unidad, aunque
la relacin entre ambas variables, excepcin hecha de sus tendencias, pueda
ser pobre. Esto viene indicado por dos ejercicios relacionados: a veces, basta
estimar y extraer una tendencia determinista de dos series temporales X e Y
para que un coeciente de determinacin en torno a 0,90 antes de la extraccin
de tendencias, se reduzca a 0,3 0,4. El otro ejercicio, casi reverso del anterior,
puede efectuarse tomando dos variables con poca relacin, y aadindoles una
tendencia, es decir, el producto de un detemrinado coeciente, como = 0; 27,
= 3; 45, por una variable de tendencia, que toma valores 1,2,3,... . Pues bien,
si el coeciente de determinacin antes de aadir la tendencia estaba en torno a
0,20, por ejemplo, podra pasar a ser de 0,80 tras aadir la misma tendencia a
ambas variables. Estos ejercicios son importantes, porque no querramos decir
en ninguno de los dos casos que las dos variables estn muy relacionadas y
que, en consecuencia, el modelo de regresin estimado es bueno, slo porque el
coeciente de determinacin sea elevado debido a la presencia de la tendencia
comn a ambas variables. Este aspecto, de suma importancia, es conocido como
el problema de regresin espria, y es estudiado en detalle ms adelante.
Todo esto hace que, entre otras cosas, se exija un coeciente de deter-
minacin superior en regresiones estimadas con datos de series temporales que
con datos de seccin cruzada. En todo caso, es imprescindible acompaar toda
estimacin de un modelo de regresin, con los estadsticos que permitan eval-
uar la bondad del ajuste entre modelo y datos. Estos incluirn el coeciente
de determinacin R
2
, el EER, as como estadsticos que examinaremos en las
prximas secciones.
1.3 Correlacin en el modelo de regresin lineal
Correlacin es el grado de dependencia que existe entre variables. Cuando
se trata de slo dos variables, existe una medida, el coeciente de correlacin,
introducido por K.Pearson:
6

xy
=
Cov(x; y)
_
V ar(x)
_
V ar(y)
cuya justicacin estamos ahora en condiciones de comprender. Vamos a
demostrar que el coeciente de correlacin de Pearson mide el grado de depen-
dencia lineal que existe entre dos variables, X e Y .
Para ello, partimos del coeciente de determinacin de una regresn
lineal simple, y extraemos su raz cuadrada, denotando por r
xy
al estadstico
que as se obtiene:
r
xy
=
p
R
2
=
_
1
S
^ u
2
S
2
y
Ahora bien, puesto que:
^ y
i
=
^

0
+
^

1
x
i
=
_
y
^

1
x
_
+
^

1
x
i
= y +
^

1
(x
i
x)
tenemos:
S
^ u
2 =
1
n
n

i=1
(y
i
^ y
i
)
2
=
1
n
n

i=1
_
y
i

_
y +
S
xy
S
2
x
(x
i
x)
__
2
=
=
1
n
n

i=1
_
(y
i
y)
2
+
(S
xy
)
2
(S
2
x
)
2
(x
i
x)
2
2
S
xy
S
2
x
(x
i
x) (y
i
y)
_
=
= S
2
y
+
(S
xy
)
2
(S
2
x
)
2
S
2
x
2
(S
xy
)
2
S
2
x
= S
2
y

(S
xy
)
2
S
2
x
y, en consecuencia:
r
xy
=
p
R
2
=
_
1
S
^ u
2
S
2
y
=

_
1
S
2
y

(Sxy)
2
S
2
x
S
2
y
=
_
(S
xy
)
2
S
2
x
S
2
y
=
S
xy
S
x
S
y
=
xy
obteniendo, precisamente, el coeciente de correlacin lineal. Es decir, por
haber demostrado que el coeciente de correlacin de Pearson no es sino la
raz cuadrada del coeciente de determinacin en un modelo de regresin lineal,
podemos armar que el coeciente de correlacin de Pearson mide el grado de
relacin entre dos variables, X e Y , supuesto que la relacin entre ambas sea
de tipo lineal. Por tanto, su interpretacin slo est realmente justicada en
la medida que la regresin ptima entre ambas variables, es decir, la esperanza
condicional de Y dado X, sea lineal, y no en otro caso.
Asimismo, puesto que ya hemos probado que el coeciente de determinacin
est comprendido entre 0 y 1, podemos obtener ahora como corolario que el
coeciente de correlacin de Pearson est siempre comprendido entre -1 y +1,
resultado bien conocido de cursos de Estadstica.
7
Es importante destacar que si la verdadera relacin entre dos variables no es
lineal, y utilizamos el coeciente de correlacin de Pearson como un indicador del
grado en que ambas estn relacionadas, podemos cometer todo tipo de errores.
En tal situacin, habra que tratar de identicar qu forma funcional adopta el
mejor modelo de relacin entre ambas variables con el objeto de proceder a su
estimacin y posterior evaluacin de los correspondientes residuos. No es difcil
encontrar ejemplos de relacin no lineal exacta entre dos variables a pesar de
que ambas presentan un coeciente de correlacin igual a cero.
Como sabemos, si dos variables son independientes, entonces su covarianza
es igual a cero. Pero el coeciente de Pearson es el cociente entre sta y el
producto de las desviaciones tpicas de X e Y , por lo que, si dos variables
son independientes, entonces su coeciente de correlacin lineal es igual a cero.
Ello no puede sorprendernos en modo alguno: estamos armando que si dos
variables X e Y son independientes, y ajustamos una recta de regresin, es
decir, un modelo lineal, a un conjunto de observaciones muestrales de ambas
variables, entonces detectaremos un grado de asociacin nulo entre ambas.
Tambin podramos ajustar modelos de otro tipo, con funciones no lineales;
aunque no los hemos examinado aqu, existen procedimientos de estimacin de
tales modelos. Hecho tal ejercicio, volveramos a detectar una capacidad nula
del modelo no lineal, para relacionar X e Y , si bien es cierto que deberamos
utilizar algn estadstico adecuado, que relacionase la suma de cuadrados de
los residuos con la suma de cuadrados de la variable Y . En resumen, si dos
variables son independientes, no podemos estimar ninguna forma funcional de
relacin entre ellas que genere capacidad explicativa alguna; en particular, una
recta no explicar ninguna asociacin.
Por el contrario, si el coeciente de correlacin de Pearson es nulo, slo
podremos armar que la relacin lineal entre ambas variables no es muy buena,
pues no se detecta un grado apreciable de asociacin entre ambas, supuesto
que la forma funcional de tal hipottica relacin sea lineal. Sin embargo, ello no
excluye la posibilidad de que otra forma funcional, no lineal, reejase un grado de
asociacin notable entre ambas variables que, en tal caso, seran dependientes.
Por tanto, ausencia de correlacin lineal entre dos variables, o incorrelacin,
que es lo que mide el coeciente de correlacin de Pearson, no implica en modo
alguno su independencia.
Ahora que conocemos la estrecha relacin entre coeciente de correlacin
de Pearson y coeciente de determinacin, podemos apreciar que el primero
nos proporciona una informacin acerca de la relacin entre las variables que
el coeciente de determinacin no consigue transmitirnos. Ello se debe a que
el coeciente de determinacin es el cuadrado del coeciente de correlacin,
por lo que pierde la informacin concerniente a su signo; sta es relevante,
excepto en algunas situaciones en que es perfectamente conocido a priori, dada
la naturaleza de las variables X e Y . Por ejemplo, si estimamos una regresin
de la cantidad vendida de un producto en un mercado con cierto poder de
monopolio, sobre su precio, sabemos a priori que sta ser una relacin de signo
negativo: un coeciente
1
negativo implicar que variaciones positivas, es decir,
aumentos en el precio del producto, se transmiten en variaciones negativas, es
8
decir, descensos, en la cantidad vendida, y viceversa. En este ejemplo, nos
interesar tan slo tratar de estimar el grado en que el precio explica la cantidad
vendida: si lo hace en gran medida o si, por el contrario, la capacidad explicativa
no es muy elevada y debemos encontrar otros factores explicativos (quiz precios
de otros productos con cierto grado de sustitucin del nuestro, la renta de las
familias, etc.) que aadir al modelo de regresin.
Cuando no contamos con esta informacin, queremos estimar no slo
la capacidad que X tiene para explicar las variaciones que experimenta Y , sino
tambin el signo de su relacin. Para ello, observemos que el signo del coe-
ciente de correlacin es el mismo que el de la covarianza, de modo que si sta
es positiva, la relacin entre ambas variables es positiva o creciente, siendo neg-
ativa o decreciente en el caso alternativo. Por otra parte, los valores numricos
absolutos del coeciente de correlacin de Pearson evolucionan muy en relacin
con los que toma el coeciente de determinacin: si uno es cero, lo es el otro,
mientras que si el valor absoluto del coeciente de correlacin es uno, tambin es
igual a uno el coeciente de determinacin. Adems, puesto que el coeciente
de determinacin slo toma valores numricos entre 0 y 1, necesariamente el
coeciente de correlacin toma valores numricos entre -1 y +1.
As, decimos que cuando el coeciente de correlacin lineal es prximo a
+1, la relacin entre ambas variables es estrecha y directa, o de signo positivo,
es decir, cuando una aumenta, tambin lo hace la otra, y tambin tienden a
disminuir simultneamente. Cuando una de las variables est por encima de su
media, la otra variable tiende a estar tambin por encima de su media, y cuando
una est por debajo, tambin tiende a estarlo la otra. Si fuese exactamente igual
a +1, lo que es prcticamente imposible cuando se trabaja con datos reales,
diramos que la relacin entre ambas variables es perfecta, y positiva o directa.
Cuando el coeciente de correlacin es prximo a -1, entonces la relacin es
muy estrecha, pero inversa, o de signo negativo, es decir, cuando una variable
aumenta la otra tiende a disminuir, y viceversa. Cuando una variable est por
encima de su media, la otra avriable tiende a estar por debajo de su media.
Si fuese exactamente igual a -1, diramos que la relacin entre las variables es
perfecta y negativa, o inversa. Cuando el coeciente de correlacin es prximo
a cero, tambin lo es el coeciente de determinacin, por lo que decimos que la
relacin lineal entre las variables X e Y es prcticamente inexistente.
No debe olvidarse, sin embargo que, a diferencia del coeciente de de-
terminacin, el coeciente de correlacin no es estrictamente cuantitativo: si
tenemos dos modelos de regresin para una misma variable dependiente, con
coecientes de correlacin de .35 y .70, no podemos decir que el segundo tiene
un ajuste doblemente mejor que el primero, si bien podemos armar que muestra
un ajuste claramente mejor. Tales armaciones acerca de comparaciones estric-
tamente cuantitativas slo pueden hacerse para el coeciente de determinacin,
por su signicado como porcentaje de la variacin en la variable dependiente
que el modelo es capaz de explicar. Si los anteriores valores numricos corre-
spondiesen a los coecientes de determinacin de ambos modelos, entonces s
que podramos armar que el segundo muestra un ajuste doblemente superior
al primero.
9
En denitiva, los anlisis de correlacin y de regresin proporcionan
respuestas similares acerca de la evolucin conjunta de dos variables (o ms
de 2 variables, en el caso de la regresin mltiple). El anlisis de correlacin,
basado estrictamente en el clculo del coeciente de correlacin de Pearson,
facilita el grado y signo de la asociacin, pero no proporciona una idea acerca
de la forma funcional de dicha relacin, ni tampoco su direccin. Esta, que
s se obtiene con el anlisis de regresin, es una ventaja del mismo, pero est
condicionada a que se satisfagan las hiptesis del modelo de regresin lineal, que
condicionan la validez del mtodo MCO para la estimacin del modelo lineal
de regresin: as, si a) la verdadera funcin de relacin entre variables, que el
analista desconoce, es realmente lineal, b) no se omiten variables explicativas
relevantes, c) el trmino de error del modelo no tiene media signicativa, d) ni
sus valores para distintas observaciones estn correlacionados entre s, e) si su
varianza es la misma para todas las observaciones, y f) si no existe una relacin
causal de Y hacia X, entonces el anlisis de regresin mediante la estimacin
MCO est plenamente justicada y ser conveniente utilizarlo, por cuanto que
nos proporciona ms informacin que el mero anlisis de correlacin.
Adems, el uso del estimador MCO en el modelo de regresin lineal
simple est justicado por sus propiedades de eciencia: es el estimador lineal de
mnima varianza y si, adems de las condiciones anteriores, las perturbaciones
tienen distribucin Normal, entonces es eciente, pues su varianza alcanza la
cota de Cramer-Rao.
Por el contrario, si tenemos razones para creer que una o ms de tales
hiptesis dejan de cumplirse en un grado apreciable, podemos perder conanza
en los resultados que el anlisis de regresin pueda facilitarnos, preriendo efec-
tuar un anlisis de correlacin, cuya validez no descansa sobre tantas hiptesis,
si bien precisa del supuesto acerca de que la verdadera funcin de relacin entre
X e Y sea lineal.
10

También podría gustarte