Capitulo 8 Madea de regresiin con doe srible: problema de setimaciin 73
tabla 3.1). Por conveniencia, supusimos que A est distribuido simétricamente (en el capitulo 4
bundaremas al rspecto). Como indica la figura, la media de los valores fs, Efi), es igual al
verdadero fy, En esta situacin se dice que fies un estimador insesgado def. Ea la gura 3.7)
se aprecia la distribucién muestra de 3, estimadoralterno de fy abtenido con otto miétodo (es
decir, diferente al de MCO), Por convenieneia, suponga que 83, al igual que fs, es insesgado,
cs decir, que su valor promedio o esperado e igual a fa. Supongamos ademas que fs y 6
son estimadoreslineales, es deci funcioneslineales de ¥. Cul estimador escogetia, B 0 7?
‘Para responder, sobreponga las dos Giguras, como en la figure 3.7c). Es abvio que si bien
Y BJ son insesgados, la dstibueién de p' eaté mis difusa o dispersa aededor del valor de la
Ipediaqueladstibuci def, En ors palabras, a varianza def es mayor que la varianza de
ff Ahora, dados dos estimadores ala ver licalese insesgados, seria preferble el extimador con
Ja menor Varianza, porque ex probable que esté mis cercano a f, que elestimadoralterno, En
resumen, se escogera cl estimador MEL
I teorema de Gauss-Markov es notable, pues no hace ninguna suposicién respecto de la
sistribucidn de probabilidad dela variable aleatoria u, y por consiguinte,tampoco respecto de
¥, (en el siguiente capitulo abordaremos esta cuestién). En Ja medida en que se satisfagan los
supuestos del MCRL, el teorema seré vida, Como resullado, no se necesita buscar otro esti-
sador insesgado lineal, pues no habri otro estimador cuya varianza sea mas pequeéia que la del
estimador de MCO. Por supuesto sino se cumple una o mas de tales suposiciones, el teorema ya
no es vilido. Por ejemplo, si considerames los modelos de regresin no lineales en los parime
tnos (que analizaremos en el capitulo 14), quiza se obtendrian estimadores que funcionen mejor
aque lo estimadores de MCO. Asimismo, como veremos en el capitulo sobre heleroscedasticidad,
sino se cumple el supuesto sobre la varianza homoscedistca, los eatimadores de MO (aunque
scan insesgados y consistenes) ya no son los estimadores de varianza minima, incluso dentro de
Ia clase de los estimadores lineal.
Las propiedades estadisticas que acabamos de exponer se conocen como propiedades de
rmuestras fnitasestas propiedades se manticnen sin importar el tamaio de la muestra en que s°
basen los estimadores, Mas adelante tendzemos ocasin de considerar las propiedades asintéti-
cas, e2 devt, propiedades vilida sé si el tamaio de la muestra es muy grande (ténicamente
hablando, infnit). En el apéndice A se presenta un anilisis general de las propiedades de los
estimadores con mucstrasGnitas y muestra grandes.
nacién r”: una medida de
Coe! nte de dete
ja “bondad del ajust
Hasta el momento, nuesto andlisis se centé en el problema de estima los coeficientes de re-
resin, sus eroresestandar y algunas de sus propicdades, Veremos ahora la bondad del ajuste
deallinca de vegresién aun conjunto de datos; es deci, veemescuda “bien” se ajustala inca de
regresién a los datos. De la figura 3.1, es claro que si todas las observacionescayesen en la linea
de regresibn, obtendriamos un ajuste “perfecto” pero rara Vez se presenta este caso. Por lo gene-
hay algunas fj postivas y algunas i negativas. Se tene la esperanza de que estos residues
rededor de la linea de regresi sean lo més pequetios posibles. El coeiciente de determinacion
1° (caso de dos variables) 0 R® (regres milliple) es una medida comprendida que dice cain
bien se ajusa la linea de represin muestral alos datos
Antes de mostrar cémo calcularr, considerems una explicacién heurstica der? en términos
de una herramionta gréfica, conocida como el diagrama de Venn o de Ballentine, que aparece
en la figura 3.8."
1 VearePerer Kennedy, “Ballentine: A Graphical Aid for Econometrics, Australian Economics Papers, val. 20,
1981, pp. 414-416. Elnombre Ballentine se deriva del emblema de la conocida cerveza Ballantine con sus
cireulos7A. Parte Uno Modelo de reresionunscuaconaler
FIGURA 3.8,
Vision de Ballentine de
rar
opr
1
20D @
Oo O
En esta figura, el cioulo ¥ representa la variacién en la variable dependiente J y el circulo
X-la-variacibn en la variable explicativa X* La interseccién de los dos circulos (el rea som-
breada) indica la medida en la eual la variacin en ¥se explica por la variacién en X (por ejemplo,
‘mediante una regresién de MCO), Entre mayor sea la medida de la interseccién, mayor sera la
variacién en ¥ que se explica por X. 7? es tan slo una medida numérica de esta interscecién,
En la figura, a medida que se va de izquierda a derecha, el érea de la interseccién aumenta, es
decir, sucesivamente hay una proporcién cada vez mayor de la variacién en ¥ que se explica por
X-Bn resumen, 7? aumenta. Cuando no hay interseccién, obviamente r? es cero, pero cuando la
interseccién es completa, res 1, pues ciento por ciento de la variacion en Y se explica por X,
Como mostraremos en breve, r? se encuentra entre 0 y 1
Para calcula r? se procede de la siguiente forma: recuerde que
(26.3)
0, expresado en forma de desviacién,
waa @5.1)
ddonde se emplean (3.1.13) y (3.1.14). Al elevar al cuadrado (3.5.1) en ambos lados y sumar sobre
Ia muestra, obtenemos
Dw = Ls + LG +2).
=Lii+ Dt
-#DY+Da
pues fils = 0 (epor qué?) y J =
Las diversas sumas de cuadrados en (3.5.2) se describen de la siguiente manera: S>y? =
YU; — ¥)? = variacién total de los valores reales de Y respecto de su media muestra, que
‘puede denominarse la suma de cuadrades total (SCT). 03? = H(i — N= Lh - Fy
FI 3a} = variacién de los valores de Y estimados alrededer de su media (7 = ¥), que apro-
pladamente puede Ilamarse la suma de cuadrados debida a la regresién (es decir, debida a la(s)
variable(s) explicaiva(s),o explicada por ésa,o simplemente Ia suma de euadrados explicada
5.2)
os terminos variacisn y varianza son diferentes, Variacién significa a uma de los cuaGrados elas devi
‘cones de una vanable respecto del valor de su medi. Vatianza esa suma de los cuadradordividida por los
‘grades de Nbertad apropiados. En esumen vatianra ~ waracién/ghFIGURA 3.9
Partcion de la variacion
de ¥en dos componentes
Capitulo 8 Maden de regresiin con doe srible: problema de setimaciin 75
Asbido al residue
(%-P) = total
(SCE). Pi? = la variacién residual o no explicada de los valores de Y alrededor de la linea de
-gresion, o sola la suma de cuadrados de los residuos (SCR). Asi, (3.5.2) es
SCT =SCE + SCR 53)
y muestra que la variacién total en los valores ¥ observados alrededor del valor de su media
puede dividirse en dos partes, una atibuible a la linea de regresién y la otra a fuerzas aleato-
Flas, pues no todas las observaciones Y caen sobre la linea ajustada. Geométricamente, tenemos
‘Ahora, al dividir la ecuacién (3.5.8) entre la SCT en ambos lados, se obtiene
Ahora, definimes 7? como
SCE, scr
scr * Sct
hey G54)
Lay” Lay
pa Ldi= i" _ sce @ss)
Ye SCT
@550)
Ser
Scr
La cantidad r? asi definida se conoce come coeficiente de determinacién (nuestra), y es la
‘medida mas comin de Ia bondad del ajuste de una linea de regresién. Verbalmente, r* mide la
‘proporcién o el porcentaje de la variacién total en Y explicada por el modelo de regresién.76 Parte Uno Modelo de reresinunscuaconaler
Pueden observarse dos propiedades de 7?
1. Bs una cantidad no negativa, (Por qué?)
2, Sus limites son 0 <7? < 1. Unde I significa un ajuste perfecto, es decir, ¥;= ¥;porcada
#.Por otra parte, un r? de cero significa que no hay relacin alguna entre la variable regresada y la
variable regresora (es decir, = 0). En este caso, como indica (3.1.9), ¥, = fi = ¥. es decir,
1h mejor prediceién de cualquier valor de ¥ es simplemente el valor de su media, En esta situa
cin, por consiguiente, la linea de regresién sera horizontal al ee X,
A pesar de que r? puede calcularse directamente a partir de su definicién en (3.5.5), su valor
se obtiene més rapido con la siguiente formula
2 _ SC
SCE
=e
Rue
Le
2G)
Si dividimos el numerador y el denominadar de (3.5.6) por el tamafo n de la muestra (o n ~ I, si
li muestra es pequetia), obtenemos:
5.6)
es
donde S? y S? son las varianzas muestrales de ¥ y X, respectivamente.
Como thy = Fo x:9;/SL¥2 la ecuacién (3.5.6) también se expresa como
(San)
5 3.5.8
EeDyt ese)
expresién ficil de caleular
‘Con la definicién de r3, SCE y SCR, explicadas antes, se expresan de la siguiente forma:
G59)
SCR=SCT-s
=ScT(-sce/sc) 8.5.10)
Yy-a-r)
Por consiguicnte, escribimos
SCT = SCE+SCR
5.11)
Yi-P Deu ye
expresién que nos sera muy itil més adelanteCapitulo 8 Mode de regecin com doe variable: problema de etimacion 77
‘Una cantidad estrechamente relacionada con r? pero conceptualmente muy diferente es el
coefieiente de correlacién, el cual, como mencionamos en el capitulo 1, es una medida del grado
de asociacién ente dos variables. Se calcula a partir de
raave @5.12)
ode su definicion
5.13)
ue se conoce como coeficiente de correlacién muestral?
“Algunas propiedades de r son las siguientes (véase la figura 3.10)
1. Puede tener signo positive o negativo, segin el signo del término en el mumerador de
(8.5.13), el cual mide la covariacién muestra de dos variables.
2. Cae entre los limites de —1 y Hes decir, -l << 1
3. Es simétrico por naturaleza; es decir, el coeficiente de correlacién entre X'y Y (ray) es el
sismo que entre Py X (rx).
4. Es independiente del origen y de la escala; es decir, si definimos X} = aX; +C y
Yy =bY, +d, donde a> 0, b> 0, y cy d son constantes, entonces r entte X” y ¥* es igual a7
entre las variables originales X'y ¥.
5. Si X y ¥ son estadisticamente independientes (véase Ia definici6n en el apéndice A), el
coeficiente de correlaciin entre ellas et cero; pero sir = 0, esto no significa que las dos variables
sean independientes. En ottas palabras, una correlacién igual a cero no necesariamente im-
plica independencia, [Véase la figura 3.104).]
6. Bs una medida de arociacin lineal 0 dependencia lineal solamente; su uso en a descrip=
cin de elaciones no lineales no tiene signlicado. Asien la figura 3.10%), Y=" es unazelacién
exactay apesar de ello res cero. (,Por qué?)
7-Aungue es una medida de asociacién lineal entre dos variables, esto no implica necesaia-
‘mente alguna relacin causa-efecto, como mencionamos en el capitulo 1
En el contexto de la regresin, r? es una medida con més significado que r, pues la primera
indica la proporcién de la variacin en Ia variable dependiente explicada por la(s) variable(s)
explicativa(s) y, por consiguiente, constituye una medida global del grado en que la variacién
cen una variable determina la variacin en Ia otra. La segunda no tiene tal valor” Ademas, como
‘veremos, la interpretacién de r(= R) en un modelo de regresin miltiple es de valor dudoso. Sin
embargo, tendremos mas que decir sobre r? en el capitulo 7.
Observe que la r° definida antes también puede calcularse como el coefciente de correla-