-Método de mínimos cuadrados ordinarios (MCO) El método de mínimos cuadrados ordinarios se atribuye a Carl Friedrich Gauss, matemático alemán. A partir de ciertos supuestos (estudiados en la sección 3.2), el método de mínimos cuadrados presenta propiedades estadísticas muy atractivas que lo han convertido en uno de los más eficaces y populares del análisis de regresión. Para entenderlo, primero explicaremos el principio de los mínimos cuadrados. Recuerde la FRP de dos variables: Yi β1 + β2Xi + ui Sin embargo, como mencionamos en el capítulo 2, la FRP no es observable directamente. Se calcula a partir de la FRM: Yi ˆβ1 + ˆβ2Xi + u ˆYi +ˆu i donde Yˆi es el valor estimado (media condicional) de Yi. Pero ¿cómo se determina la FRM? Para hacerlo, se procede de la siguiente forma. Primero, se expresa la ecuación (2.6.3) como ˆui Yi − ˆYi Yi − ˆβ1 − ˆβ2Xi Los estimadores obtenidos antes se conocen como estimadores de mínimos cuadrados, pues se derivan del principio de mínimos cuadrados. Observe las siguientes propiedades numéricas de los estimadores obtenidos con el método de MCO: “Propiedades numéricas son las que se mantienen como consecuencia del uso de mínimos cuadrados ordinarios, sin considerar la forma como se generaron los datos”. En breve consideraremos también las propiedades estadísticas de los estimadores MCO, es decir, propiedades “que se mantienen sólo con ciertos supuestos sobre la forma como se generaron los datos”.4 (Véase el modelo clásico de regresión lineal en la sección 3.2.) I. Los estimadores de MCO se expresan únicamente en términos de las cantidades (es decir, X y Y) observables (es decir, muestras). Por consiguiente, se calculan con facilidad. II. Son estimadores puntuales: dada la muestra, cada estimador proporciona un solo valor (puntual) del parámetro poblacional pertinente. (En el capítulo 5 consideraremos los estimadores por intervalos, que proporcionan un intervalo de valores posibles para los parámetros poblacionales no conocidos.) III. Una vez obtenidos los estimadores de MCO de los datos de la muestra, se obtiene sin problemas la línea de regresión muestral (figura 3.1). La línea de regresión así obtenida tiene las siguientes propiedades 1. Pasa a través de las medias muestrales de Y y X. Esto es evidente por la ecuación (3.1.7), pues esta ecuación puede escribirse ¯Y ˆβ1 + ˆβ2 ¯X, 2. El valor medio de Y estimada ˆYi es igual al valor medio de Y real para ˆYi ˆβ1 + ˆβ2Xi (¯Y − ˆβ2 ¯X) + ˆβ2Xi ¯Y + ˆβ2(Xi − ¯X) (3.1.9) Al sumar ambos lados de esta última igualdad sobre los valores muestrales y dividir por el tamaño n de la muestra, obtenemos: ¯ˆY ¯Y (3.1.10)5 donde se aprovecha que (Xi − ¯X) 0. (¿Por qué?) 2. El valor medio de los residuos uˆ1 es cero. Del apéndice 3A, sección 3A.1, la primera ecuación es a dos los supuestos del modelo clásico de regresión lineal, las estimaciones de mínimos cuadrados poseen algunas propiedades ideales u óptimas, las cuales están contenidas en el famoso teorema de Gauss-Markov. Para entender este teorema necesitamos considerar la propiedad del mejor estimador lineal insesgado.18 Como se explica en el apéndice A, se dice que un estimador, por ejemplo, el estimador de MCO βˆ2, es el mejor estimador lineal insesgado (MELI) de β2 si se cumple lo siguiente: 1. Es lineal, es decir, función lineal de una variable aleatoria, como la variable dependiente Y en el modelo de regresión. 2. Es insesgado, es decir, su valor promedio o esperado, E(βˆ2), es igual al valor verdadero, β2. 3. Tiene varianza mínima dentro de la clase de todos los estimadores lineales insesgados; un estimador insesgado con varianza mínima se conoce como estimador eficiente El teorema de Gauss-Markov es notable, pues no hace ninguna suposición respecto de la distribución de probabilidad de la variable aleatoria ui, y, por consiguiente, tampoco respecto de Yi (en el siguiente capítulo abordaremos esta cuestión). En la medida en que se satisfagan los supuestos del MCRL, el teorema será válido. Como resultado, no se necesita buscar otro estimador insesgado lineal, pues no habrá otro estimador cuya varianza sea más pequeña que la del estimador de MCO. Por supuesto, si no se cumple una o más de tales suposiciones, el teorema ya no es válido. Por ejemplo, si consideramos los modelos de regresión no lineales en los parámetros (que analizaremos en el capítulo 14), quizá se obtendrían estimadores que funcionen mejor que los estimadores de MCO. Asimismo, como veremos en el capítulo sobre heteroscedasticidad, si no se cumple el supuesto sobre la varianza homoscedástica, los estimadores de MCO (aunque sean insesgados y consistentes) ya no son los estimadores de varianza mínima, incluso dentro de la clase de los estimadores lineales. Las propiedades estadísticas que acabamos de exponer se conocen como propiedades de muestras finitas: estas propiedades se mantienen sin importar el tamaño de la muestra en que se basen los estimadores. Más adelante tendremos ocasión de considerar las propiedades asintóticas, es decir, propiedades válidas sólo si el tamaño de la muestra es muy grande (técnicamente hablando, infinito). En el apéndice A se presenta un análisis general de las propiedades de los estimadores con muestras finitas y muestras grandes. Coeficiente de determinación r2: una medida de la “bondad del ajuste” Hasta el momento, nuestro análisis se centró en el problema de estimar los coeficientes de regresión, sus errores estándar y algunas de sus propiedades. Veremos ahora la bondad del ajuste de la línea de regresión a un conjunto de datos; es decir, veremos cuán “bien” se ajusta la línea de regresión a los datos. De la figura 3.1, es claro que, si todas las observaciones cayesen en la línea de regresión, obtendríamos un ajuste “perfecto”, pero rara vez se presenta este caso. Por lo general hay algunas uˆi positivas y algunas uˆi negativas. Se tiene la esperanza de que estos residuos alrededor de la línea de regresión sean lo más pequeños posibles. El coeficiente de determinación r 2 (caso de dos variables) o R2 (regresión múltiple) es una medida comprendida que dice cuán bien se ajusta la línea de regresión muestral a los datos. Antes de mostrar cómo calcular r 2, consideremos una explicación heurística de r 2 en términos de una herramienta gráfica, conocida como el diagrama de Venn o de Ballentine,