Está en la página 1de 6
Capitulo 8 Madea de regresiin con doe srible: problema de setimaciin 73 tabla 3.1). Por conveniencia, supusimos que A est distribuido simétricamente (en el capitulo 4 bundaremas al rspecto). Como indica la figura, la media de los valores fs, Efi), es igual al verdadero fy, En esta situacin se dice que fies un estimador insesgado def. Ea la gura 3.7) se aprecia la distribucién muestra de 3, estimadoralterno de fy abtenido con otto miétodo (es decir, diferente al de MCO), Por convenieneia, suponga que 83, al igual que fs, es insesgado, cs decir, que su valor promedio o esperado e igual a fa. Supongamos ademas que fs y 6 son estimadoreslineales, es deci funcioneslineales de ¥. Cul estimador escogetia, B 0 7? ‘Para responder, sobreponga las dos Giguras, como en la figure 3.7c). Es abvio que si bien Y BJ son insesgados, la dstibueién de p' eaté mis difusa o dispersa aededor del valor de la Ipediaqueladstibuci def, En ors palabras, a varianza def es mayor que la varianza de ff Ahora, dados dos estimadores ala ver licalese insesgados, seria preferble el extimador con Ja menor Varianza, porque ex probable que esté mis cercano a f, que elestimadoralterno, En resumen, se escogera cl estimador MEL I teorema de Gauss-Markov es notable, pues no hace ninguna suposicién respecto de la sistribucidn de probabilidad dela variable aleatoria u, y por consiguinte,tampoco respecto de ¥, (en el siguiente capitulo abordaremos esta cuestién). En Ja medida en que se satisfagan los supuestos del MCRL, el teorema seré vida, Como resullado, no se necesita buscar otro esti- sador insesgado lineal, pues no habri otro estimador cuya varianza sea mas pequeéia que la del estimador de MCO. Por supuesto sino se cumple una o mas de tales suposiciones, el teorema ya no es vilido. Por ejemplo, si considerames los modelos de regresin no lineales en los parime tnos (que analizaremos en el capitulo 14), quiza se obtendrian estimadores que funcionen mejor aque lo estimadores de MCO. Asimismo, como veremos en el capitulo sobre heleroscedasticidad, sino se cumple el supuesto sobre la varianza homoscedistca, los eatimadores de MO (aunque scan insesgados y consistenes) ya no son los estimadores de varianza minima, incluso dentro de Ia clase de los estimadores lineal. Las propiedades estadisticas que acabamos de exponer se conocen como propiedades de rmuestras fnitasestas propiedades se manticnen sin importar el tamaio de la muestra en que s° basen los estimadores, Mas adelante tendzemos ocasin de considerar las propiedades asintéti- cas, e2 devt, propiedades vilida sé si el tamaio de la muestra es muy grande (ténicamente hablando, infnit). En el apéndice A se presenta un anilisis general de las propiedades de los estimadores con mucstrasGnitas y muestra grandes. nacién r”: una medida de Coe! nte de dete ja “bondad del ajust Hasta el momento, nuesto andlisis se centé en el problema de estima los coeficientes de re- resin, sus eroresestandar y algunas de sus propicdades, Veremos ahora la bondad del ajuste deallinca de vegresién aun conjunto de datos; es deci, veemescuda “bien” se ajustala inca de regresién a los datos. De la figura 3.1, es claro que si todas las observacionescayesen en la linea de regresibn, obtendriamos un ajuste “perfecto” pero rara Vez se presenta este caso. Por lo gene- hay algunas fj postivas y algunas i negativas. Se tene la esperanza de que estos residues rededor de la linea de regresi sean lo més pequetios posibles. El coeiciente de determinacion 1° (caso de dos variables) 0 R® (regres milliple) es una medida comprendida que dice cain bien se ajusa la linea de represin muestral alos datos Antes de mostrar cémo calcularr, considerems una explicacién heurstica der? en términos de una herramionta gréfica, conocida como el diagrama de Venn o de Ballentine, que aparece en la figura 3.8." 1 VearePerer Kennedy, “Ballentine: A Graphical Aid for Econometrics, Australian Economics Papers, val. 20, 1981, pp. 414-416. Elnombre Ballentine se deriva del emblema de la conocida cerveza Ballantine con sus cireulos 7A. Parte Uno Modelo de reresionunscuaconaler FIGURA 3.8, Vision de Ballentine de rar opr 1 20D @ Oo O En esta figura, el cioulo ¥ representa la variacién en la variable dependiente J y el circulo X-la-variacibn en la variable explicativa X* La interseccién de los dos circulos (el rea som- breada) indica la medida en la eual la variacin en ¥se explica por la variacién en X (por ejemplo, ‘mediante una regresién de MCO), Entre mayor sea la medida de la interseccién, mayor sera la variacién en ¥ que se explica por X. 7? es tan slo una medida numérica de esta interscecién, En la figura, a medida que se va de izquierda a derecha, el érea de la interseccién aumenta, es decir, sucesivamente hay una proporcién cada vez mayor de la variacién en ¥ que se explica por X-Bn resumen, 7? aumenta. Cuando no hay interseccién, obviamente r? es cero, pero cuando la interseccién es completa, res 1, pues ciento por ciento de la variacion en Y se explica por X, Como mostraremos en breve, r? se encuentra entre 0 y 1 Para calcula r? se procede de la siguiente forma: recuerde que (26.3) 0, expresado en forma de desviacién, waa @5.1) ddonde se emplean (3.1.13) y (3.1.14). Al elevar al cuadrado (3.5.1) en ambos lados y sumar sobre Ia muestra, obtenemos Dw = Ls + LG +2). =Lii+ Dt -#DY+Da pues fils = 0 (epor qué?) y J = Las diversas sumas de cuadrados en (3.5.2) se describen de la siguiente manera: S>y? = YU; — ¥)? = variacién total de los valores reales de Y respecto de su media muestra, que ‘puede denominarse la suma de cuadrades total (SCT). 03? = H(i — N= Lh - Fy FI 3a} = variacién de los valores de Y estimados alrededer de su media (7 = ¥), que apro- pladamente puede Ilamarse la suma de cuadrados debida a la regresién (es decir, debida a la(s) variable(s) explicaiva(s),o explicada por ésa,o simplemente Ia suma de euadrados explicada 5.2) os terminos variacisn y varianza son diferentes, Variacién significa a uma de los cuaGrados elas devi ‘cones de una vanable respecto del valor de su medi. Vatianza esa suma de los cuadradordividida por los ‘grades de Nbertad apropiados. En esumen vatianra ~ waracién/gh FIGURA 3.9 Partcion de la variacion de ¥en dos componentes Capitulo 8 Maden de regresiin con doe srible: problema de setimaciin 75 Asbido al residue (%-P) = total (SCE). Pi? = la variacién residual o no explicada de los valores de Y alrededor de la linea de -gresion, o sola la suma de cuadrados de los residuos (SCR). Asi, (3.5.2) es SCT =SCE + SCR 53) y muestra que la variacién total en los valores ¥ observados alrededor del valor de su media puede dividirse en dos partes, una atibuible a la linea de regresién y la otra a fuerzas aleato- Flas, pues no todas las observaciones Y caen sobre la linea ajustada. Geométricamente, tenemos ‘Ahora, al dividir la ecuacién (3.5.8) entre la SCT en ambos lados, se obtiene Ahora, definimes 7? como SCE, scr scr * Sct hey G54) Lay” Lay pa Ldi= i" _ sce @ss) Ye SCT @550) Ser Scr La cantidad r? asi definida se conoce come coeficiente de determinacién (nuestra), y es la ‘medida mas comin de Ia bondad del ajuste de una linea de regresién. Verbalmente, r* mide la ‘proporcién o el porcentaje de la variacién total en Y explicada por el modelo de regresién. 76 Parte Uno Modelo de reresinunscuaconaler Pueden observarse dos propiedades de 7? 1. Bs una cantidad no negativa, (Por qué?) 2, Sus limites son 0 <7? < 1. Unde I significa un ajuste perfecto, es decir, ¥;= ¥;porcada #.Por otra parte, un r? de cero significa que no hay relacin alguna entre la variable regresada y la variable regresora (es decir, = 0). En este caso, como indica (3.1.9), ¥, = fi = ¥. es decir, 1h mejor prediceién de cualquier valor de ¥ es simplemente el valor de su media, En esta situa cin, por consiguiente, la linea de regresién sera horizontal al ee X, A pesar de que r? puede calcularse directamente a partir de su definicién en (3.5.5), su valor se obtiene més rapido con la siguiente formula 2 _ SC SCE =e Rue Le 2G) Si dividimos el numerador y el denominadar de (3.5.6) por el tamafo n de la muestra (o n ~ I, si li muestra es pequetia), obtenemos: 5.6) es donde S? y S? son las varianzas muestrales de ¥ y X, respectivamente. Como thy = Fo x:9;/SL¥2 la ecuacién (3.5.6) también se expresa como (San) 5 3.5.8 EeDyt ese) expresién ficil de caleular ‘Con la definicién de r3, SCE y SCR, explicadas antes, se expresan de la siguiente forma: G59) SCR=SCT-s =ScT(-sce/sc) 8.5.10) Yy-a-r) Por consiguicnte, escribimos SCT = SCE+SCR 5.11) Yi-P Deu ye expresién que nos sera muy itil més adelante Capitulo 8 Mode de regecin com doe variable: problema de etimacion 77 ‘Una cantidad estrechamente relacionada con r? pero conceptualmente muy diferente es el coefieiente de correlacién, el cual, como mencionamos en el capitulo 1, es una medida del grado de asociacién ente dos variables. Se calcula a partir de raave @5.12) ode su definicion 5.13) ue se conoce como coeficiente de correlacién muestral? “Algunas propiedades de r son las siguientes (véase la figura 3.10) 1. Puede tener signo positive o negativo, segin el signo del término en el mumerador de (8.5.13), el cual mide la covariacién muestra de dos variables. 2. Cae entre los limites de —1 y Hes decir, -l << 1 3. Es simétrico por naturaleza; es decir, el coeficiente de correlacién entre X'y Y (ray) es el sismo que entre Py X (rx). 4. Es independiente del origen y de la escala; es decir, si definimos X} = aX; +C y Yy =bY, +d, donde a> 0, b> 0, y cy d son constantes, entonces r entte X” y ¥* es igual a7 entre las variables originales X'y ¥. 5. Si X y ¥ son estadisticamente independientes (véase Ia definici6n en el apéndice A), el coeficiente de correlaciin entre ellas et cero; pero sir = 0, esto no significa que las dos variables sean independientes. En ottas palabras, una correlacién igual a cero no necesariamente im- plica independencia, [Véase la figura 3.104).] 6. Bs una medida de arociacin lineal 0 dependencia lineal solamente; su uso en a descrip= cin de elaciones no lineales no tiene signlicado. Asien la figura 3.10%), Y=" es unazelacién exactay apesar de ello res cero. (,Por qué?) 7-Aungue es una medida de asociacién lineal entre dos variables, esto no implica necesaia- ‘mente alguna relacin causa-efecto, como mencionamos en el capitulo 1 En el contexto de la regresin, r? es una medida con més significado que r, pues la primera indica la proporcién de la variacin en Ia variable dependiente explicada por la(s) variable(s) explicativa(s) y, por consiguiente, constituye una medida global del grado en que la variacién cen una variable determina la variacin en Ia otra. La segunda no tiene tal valor” Ademas, como ‘veremos, la interpretacién de r(= R) en un modelo de regresin miltiple es de valor dudoso. Sin embargo, tendremos mas que decir sobre r? en el capitulo 7. Observe que la r° definida antes también puede calcularse como el coefciente de correla-

También podría gustarte