Está en la página 1de 371
Pasog) Paso eo 4 ay y ~ SOPMSIY SEUI|GON 9 PROLOGO El objetivo de este libro es presentar las técnicas econométricas esencialmente en. su faceta préctica, Cada capitulo comienza con una breve exposicién de los conceptos tesricos a utilizar en los problemas con el objetivo de que no sea necesario recurtir a textos extemnos para ‘comprender las herramientas utilizadas en las soluciones. Los ejercicios se refuerzan con aplicaciones informéticas para obtener la solucién, Coneretamente se ha utilizado el software Eviews en su sltima versién. Este paquete econométrico, a partir de su versi6n 5, contempla la posibilidad de trabajar en la mayoria de los temas avanzados en Econometria. El contenido de este libro se dirige a docentes y estudiantes universitarios de todos los niveles que imparten o cursan la materia de Econometrfa o modelos en general. También es ‘itil para los profesionales de la Economfa, Ciencias Sociales y otras ramas cientificas en las ‘que se aplican las técnicas de modelizacién. El libro comienza tratando la estimacién, inferencia y prediccién en el modelo de regresi6n miltiple. A continuacién se analizan los modelos con datos de corte transversal y los problemas més caracteristicos que suelen presentar: Heteroscedasticidad, multicolinealidad, ausencia de normalidad, no linealidad, errores de especificacién y problemas de exogeneidad y regresores estocésticos. Para cada problema se estudian tanto los métodos de deteccién ‘como los métodos de correccién, Posteriormente se abordan los modelos de regresién con datos de series temporales y los problemas més acuciantes en este caso: Autocorrelaci6n, variables ficticias, estabilidad estructural y heteroscedasticidad con series de tiempo. Se vuelven a estudiar los métodos de deteccién y correccién, haciendo hincapié en las aplicaciones del uso de variables ficticias y Jos contrastes de cambio estructural y estabilidad de los parémetros asf como la solucién a estos problemas, A continuaci6n se tratan los modelos dinémicos y el anélisis univariante de series ‘temporales incluyendo los modelos ARIMA y Ia metodologia de Box Jenkins. Asimismo, se presentan los contrastes de rafces unitarias més habituales, las técnicas del anélisis de la cointegracién y los modelos de correccién por el error. También se contemplan las técnicas para el trabajo con los modelos con datos de Panel, las combinaciones de cortes transversales de datos y los modelos de ecuaciones simulténeas, incluyendo sistemas con datos de panel. La Gltima parte del libro desarrolla los modelos de variable dependiente limitada incluyendo los modelos de eleccién discreta binaria y miiltiple (Logit, Probit y Gompit o del valor extremo) y los modelos de datos de recuento (Poisson, Binomial Negativa, Exponencial y Normal), Para finalizar se abordan los modelos censurados, truncados y de seleccién muestra, Se contempla el modelo Tobit con censura en los datos y el modelo Tobit truncado, También se tienen presentes los problemas de correccién de ia seleccién muestral incluyendo el ‘truncamiento incidental y el procedimiento de estimacién bietdpica de Heckman o Heckit. El contenido del libro sigue los textos més completos de Ia actualidad en esta materi como son los casos de los textos de Wooldridge, Green, Gujarati, Johnston, Pulido, Novales, Aznar, Pefia y otros EL AUTOR Madrid, enero de 2006 We MES Pareninte CONTENIDO Capitulo 1 Capitulo 2 Modelo de regresién miltiple: estimacién, inferencia y prediccién... 1.1 Conceptos: Los datos en econometria 1.1.1 Concepto de econometia 1.1.2. Estructuras de datos, Datos de corte transversal © seceién eruzada 1.1.3. Estructuras de datos. Datos de series temporales. 1.1.4 Estructuras de datos. Combinaciones de cortes transversales 1.1.5. Estructuras de datos. Datos de panel o longitudinales 1.2 Modelo de regresién miiltiple con datos de corte transversal Estimacién e inferencia 1.2.1 Modelo de regresién lineal multiple, Hipstesis| 1.2.2 Interpretacién de los coeficientes. 1.23. Estimacién del modelo por minimos cuadrados ordinarios MCO 1.2.4 Estimacién MCO del modelo, contrastes e intervalos de confianza a través del célculo matricial 1.2.5 Consistencia de los estimadores MCO. 1.3. Predieciones 1.4 Anilisis de los Residuos. Problemas. Modelos de regresién multiple con datos de corte transversal sass 2.1 Modelos con datos de corte transversal 2.2 Heteroscedasticidad: Estimacién MCG 2.2.1 El problema de Ia heteroscedasticidad y su deteecisn 22.2 Soluciones para la heteroscedasticidad: Minimos Cuadrados Generalizados MCG y Minimos Cuadrados Ponderados 2.2.3. Soluciones para la heteroscedasticidad: Modelos ARCH y GARCH. 22.4 Soluciones para la heteroscedasticidad: Ajuste de White Reon 12 12 13 4 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS Capitulo 3 Vile © res Parnino 23 24 26 Multicotineatidad 2.3.1 El problema de Ia multicolinealidad y su deteccién 23.2 Soluciones para la multicolinealidad. Normatidad de las perturbaciones 2.4.1 El problema de Ia falta de normalidad en los residuos. 24.2. Soluciones para la falta de normalidad en los residuos, No linealidad y errores de especificacién 2.5.1 Error de especificacién en la seleccién de las variables explicativas 2.5.2. Error de especificacién en la forma funcional Exogeneidad y regresores estocésticos 2.6.1 El método de las variables instrumentales 2.62. Elestimador de minimos cuadrados en dos etapas MC2E. 2.63. Elcontraste de Hausman Problemas. Modelos de regresién miltiple con series temporales 34 32 33 34 35 Regresién con series de tiempo Autocorrelacién 3.2.1 El problema de la autocorrelacién y su deteccién 3.2.2. Soluciones para la autocorrelacién. Regresisn con variables cualitativas: variables ficticias 3.3.1 Modelos de regresién con variables cualititativas. 3.3.2. Variables ficticias en el andlisis estacional. 3.3.3. Variables ficticias en la regresi6n por tramos. Estabilidad estructural 3.4.1 Constancia de los parémetros y contraste de prediceién de Chow 3.4.2. Cambio estructural y contraste de Chow 3.4.3. Residuos recursivos: Contrastes basados en la cestimaci6n recursiva, 3.4.4 Contrastes CUSUM y CUSUMQ. Heteroscedasticidad con series de tiempo Problemas. 61 61 2 6 63 107 108 109 109 113 4 4 7 17 18. 118 119 120 121 122 123 Capitulo 4 Capitulo 5 Modelos dinamicos y ARIMA. Rajces unitarias y cointegracién... 4.1. Modelos dinémicos 4.1.1 Modelos con retardos distribuidos finitos 4.1.2 Modelos con retardos distribuidos infinitos 4.2. Andlisis univariante de series temporales 4.2.1 Componentes de una serie temporal 4.2.2. Modelos ARIMA 4.2.3. Series estacionarias 4.2.4 Series estacionales 4.2.5 Metodologia de Box Jenkins para los modelos ARIMA. 3. Elproblema de las regresiones espurias 4.4 Contrastes de rafces unitarias 4.4.1 Contrastes de Dickey-Fuller de las raices unitarias, 4.4.2. Contrastes de Phillips-Perron de las rafces unitarias. 45 Anélisis de la cointegracion 4.5.1 Contraste de Phillips-Oularis para la cointegracién. 4.6 Modelos de correccién por el error MCE. Problemas. Modelos con datos de panel y combinaciones de cortes transversales.... 5.1 Modelos de regresién con datos de panel 5.2. Modelos de panel de coeficientes constantes 5.3, Modelos de panel de efectos fijos 5.4. Modelos de panel de efectos aleatorios 5.5. Modelos con datos de panel dinémicos 5.6 Combinaciones de cortes transversales (poo!) Problemas. CONTENIDO 163 164 164 165 166 166 167 169 172 173, 178 179 179 180 181 181 182 183, © TES Paraninfos IK ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS Capitulo 6 Modelos de ecuaciones simulténeas y sistemas. X0@ MTES Parente 107 Sistemas de datos de panel 6.1 Introducci6n a los modelos estructurales de ecuaciones simulténeas 6.2 Identificacién de modelos de ecuaciones simulténeas 63 Estimacién de modelos de ecuaciones simulténeas 6.4 Métodos de estimacién de sistemas 6.5 Modelos de ecuaciones simulténeas con series de mpo 66 Modelos de ecuaciones simulténeas con datos de panel Problemas. ‘Modelos de variable dependiente limitada: Logit, Probit y Recuento. 7.1. Modelos de variable dependiente limitada 7.2. Modelos de eleccién discreta 7.3. Modelos de elecci6n discreta binaria 7.3.1 Modelo lineal de probabilidad. 7.3.2 Modelos Logit y Probit 7.4. Modelos de eleccién miiltiple 7.4.1 Modelo Logit Multinomial 7.4.2 Modelo Logit Condicional 7.43. Modelo Logit Anidado 7.4.4. Modelo Probit Multinomial 7.4.5, Modelo Probit y Logit Ordenados 7.5. Modelos de datos de recuento 7.5.1 Modelo de regresién de Poisson. 7.5.2. Modelo de regresi6n de Binomial Negativa 7.5.3. Modelo de regresién Exponencial 7.5.4 Modelo de regresién Normal. Problemas. 265 266 268 an 215 216 ann 278 299 300 301 301 301 302 306 306 307 308 309 309 310 310 313 313 313 313 CONTENIDO Capitulo 8 Modelos censurados, truncados y de seleecién muestral: Modelos Tobit... 339 8.1 Modelos censurados: El modelo Tobit 340 8.1.1 Interpretacién de los coeficientes en el modelo Tobit. 341 8.1.2 Efectos parciales en el modelo Tobit 341 8.1.3 Modelo Tobit con censura en los datos. 342 8.2. Estimaci6n del modelo Tobit censurado 343 8.2.1 Estimacién maximo verosimil (MV). 343 8.2.2 Estimacién por minimos cuadrados en dos etapas 343 8.3. Seleccién muestral: modelos truncados 344 8.4. Estimacién del modelo Tobit truncado 344 8.4.1 Efectos parciales en el modelo Tobit truncado 345 8.4.2. Estimacién maximo verosimil (MV) 345 8.4.3 Estimacién por el método de Amemiya en dos etapas. 346 8.5. Correccién de la seleccién muestral 346 8.5.1 Truncamiento incidental 346 85.2 Procedimeinto de estimaci6n bietipico de Heckam o Heckit. 347 Problemas. 348 © ITES-Paraninfos XI ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS 1.1__CONCEPTOS: LOS DATOS EN ECONOMETRIA 1.1.1 Concepto de econometria Puede considerarse la econometrfa como la integracién de la teorfa econdmica, las matemiticas y las téenicas estadisticas, con el objeto de contrastar hipstesis sobre fenémenos ‘econdmicos, aportar estimaciones numéricas de los coeficientes de las relaciones econémicas y prever o predecir los valores futuros de las variables o fenémenos econémicos, La econometria presupone la existencia de un conjunto de teorfas 0 hipstesis ‘econsmiicas que hay que contrastar. Si las variables que sugiere la teorfa econémica no ofrecen una explicacién satisfactoria, el investigador puede experimentar con formulaciones y variables alternativas sugeridas por las contrastaciones anteriores o por otras teorias. De esta forma, la investigacién econométrica puede dar lugar a la aceptacién, el rechazo o la reformulacién de las teorias econémicas. Las mateméticas se utilizan para expresar las afirmaciones verbales de las teorias econémicas en lenguaje simbélico, expresando relaciones exactas 0 funcionales deterministas entre las variables inmersas en los modelos. El anélisis estadistico aplica las técnicas adecuadas para estimar las elaciones inexactas 0 no experimentales entre variables econémicas, utilizando los datos econémicos relevantes.y evaluando los resultados. La investigacién econométrica implica en general tres etapas. La primera consiste en Ia especificacién del modelo o de las hipdtesis realizadas en forma de una ecuacin explicita estocéstica, junto con las especificaciones tedricas a priori sobre el signo y la magnitud de los parémetros de la funcién. La segunda etapa consiste en la recopilaci6n de los datos sobre las variables del modelo y 1a estimacién de los coeficientes de la funcién con las técnicas econométricas adecuadas. La tercera etapa consiste en la evaluacién de los coeficientes estimados de Ia funcién utilizando criterios econémicos, estadisticos y econométricos, 1.1.2 Estructuras de datos. Datos de corte transversal o seccién cruzada Dentro de las estructuras de datos més importantes, tipicas en el trabajo econométrico aplicado, tenemos los datos de corte transversal 0 datos de seccién cruzada. Un conjunto de datos de corte transversal es una muestra compuesta por individuos, familias, empresas, ciudades, estados, paises u otro tipo de unidades muy variadas recogida en un momento determinado del tiempo. En general podemos suponer que los datos de corte transversal se han obtenido mediante un muestreo aleatorio de la poblacién subyacente. Por ejemplo, si ‘obtenemos informacién sobre los salarios, la educacién, la experiencia y otras caracteristicas escogiendo aleatoriamente a 500 personas de la poblacién empleada, podemos decir que ‘contamos con una muestrea aleatoria de toda la poblacién que tiene un empleo, Los datos de corte transversal se emplean muy frecuentemente en economfa y en otras ciencias sociales. En economfa, el andlisis de datos de corte transversal esta estrechamente relacionado con distintas ramas de la microeconomia aplicada, como la economia del trabajo, Jas finanzas pablicas tanto estatales como locales, la organizaci6n industrial, la economfa urbana, la demografia y la economia de la salud. Los datos sobre individuos, familias, ‘empresas y ciudades en un momento determinado son importantes para contrastar hipstesis microeconémicas y evaluar politicas econdmicas, 260 TES Paraito MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION Hay ocasiones en que las muestras de seccién cruzada no son muestras aleatorias de la poblacién, como ocurre cuando tenemos observaciones que no son independientes por correlacién espacial (unidades geogratficas grandes con actividades econémicas correlacionadas), ‘© cuando hay otros disefios de muestra (muestreo estratificado) o seleccién muestral derivada de Ja no respuesta de determinados individuos de la poblacién 1.1.3 Estructuras de datos. Datos de series temporales Un conjunto de datos de series temporales consiste en observaciones sobre una variable 0 distintas variables a lo largo del tiempo. Ejemplos tipicos de datos de series temporales son el producto interior brato, la oferta monetaria, los indices de precios al consumo, las tasas amuales de homicidio o las cifras de venta de automéviles. Dado que los acontecimientos pasados pueden tener influencia sobre acontecimientos futuros, y los efectos retardados en el ‘comportamiento de los individuos son frecuentes en ciencias sociales, el tiempo es un ardmetro importante en los conjuntos de series temporeales. Por oposicién al orden de los datos de corte transversal, la disposicién cronolégica de las observaciones de una serie temporal sf transmite informacién potencialmente importante. Los datos de series temporales suelen utilizarse més en el anélisis macroeconémico, en contraposicién a los datos de corte transversal, que se utilizan sobre todo en anélisis macroeconémico. Las series temporales suelen ser mas dificiles de analizar que los datos de corte transversal debido a que casi nunca podemos suponer que las observaciones econémicas son temporalmente independientes. La mayorfa de las series temporales, ya sean econémicas no, estén relacionadas (a menudo fuertemente relacionadas) con su historia reciente. Por ejemplo, nuestro conocimiento sobre el producto nacional bruto del trimestre pasado nos dice bastante del nivel de PIB que podemos esperar para el trimestre en curso ya que el PIB tiende apermanecer estable de un trimestre a otro. Otra caracteristica importante de los dato de series ‘temporales es la periodicidad con la que se recogen (semanal, mensual, trimestral, etc.) con el hhecho adicional de que muchas series temporales semanales, mensuales 0 trimestrales muestran una caracteristica estacional marcada que puede ser un factor importante en Ia metodologia del anélisis de dichas series 1.1.4 Estructuras de datos. Combinaciones de cortes transversales Una combinacién de cortes transversales o pool de datos es una estructura de datos que tiene ccaracteristicas tanto de datos de corte transversal como de datos de series temporales. Un pool de datos es una fusidn de varios cortes transversales de datos recogidos en diferentes momentos del tiempo en Ia misma poblacién. Por ejemplo, supongamos que se hacen dos encuestas de corte transversal sobre familias en un pafs, una en 1985 y otra en 1990, En 1985, se hace una cencuesta con una muestra aleatoria para obtener variables como el nivel de ingresos, de ahorro, cl tamaiio de las familias, etc. En 1990, se hace un nuevo muestreo aleatorio de las familias y se ‘emplean Jas mismas preguntas que en 1985 para hacer Ia encuesta, Con el objeto de aumentar el tamatio de la muestra, podemos formar un conjunto de datos fusionados de seccién cruzada ‘combinando los datos de dos aftos. La fusién de datos de corte transversal de distintos aiios a menudo resulta wtil para analizar los efectos de nuevas politicas gubernamentales. La idea consiste en recopilar datos de los afios anteriores y posteriores a un cambio politico clave. Generalmente, los datos fusionados de seccién cruzada se analizan de forma muy parecida a los datos de corte transversal convencionales, excepto que a menudo necesitamos tomar en cuenta diferencias de las variables a lo largo del. tiempo. De hecho, ademés de aumentar el tamaito de la muestra, el objetivo de la fusién de datos de seccidn cruzada es menudo observar también c6mo una relacién clave ha cambiado con el tiempo. No obstante, al combinar secciones cruzadas obtenidas por muestreo aleatorio de la misma poblacién en distintos momentos del tiempo, tendremos una muestra de observaciones distribuidas ndependientemente pero no idénticamente. © MES-Parainios 3 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS 1.1.5 Estructuras de datos. Datos de panel 0 longitudinales Un conjunto de datos de panel, o datos longitudinales, consiste en una serie temporal para cada unidad de una seccién cruzada (0 conjunto de datos de corte transversal). Como ejemplo, supongamos que tenemos un registro de datos sobre el salario, Ia educacién, y el historial de ‘empleo de un conjunto de individuos seguidos durante un perfodo de diez afios. También odriamos recopilar informacién sobre los datos financieros o de inversién de un mismo conjunto de empresas durante un periodo de cinco afios. Los datos de panel también pueden recopilarse sobre unidades geogréficas. Por ejemplo, podemos recopilar datos sobre flujos de immigraci6n, nivel de imposicin, salarios, gastos del gobierno, etc., en el mismo conjunto de pafses de la Unién Europea para los aiios 1990, 1995 y 2000. La caracteristica clave de los datos de panel que los diferencia de los datos fusionados de seccién cruzada es el hecho de ‘que se recoge informacién de las mismas unidades de seccidn eruzada (individuos, empresas 0 pafses) en los distintos momentos del tiempo, Dado que la recogida de los datos de panel requiere que se repitan las mismas unidades a encuestar a lo largo del tiempo, éstos son més dificiles de obtener que los datos fusionados de seccién cruzada, especialmente cuando se trata de datos sobre individuos, unidades familiares o empresas. No obstante, una ventaja de los datos de panel es que, a menudo, nos permiten estudiar la importancia de retardos en el comportamiento o de retardos en Ja toma de decisiones. Esta informacién puede ser muy significativa dado que se puede esperar de muchas medidas econémicas que no tengan ningtin impacto hasta que no pase cierto tiempo desde su puesta en aplicaci6n, 1.2 MODELO DE REGRESION MULTIPLE: ESTIMACION E INFERENCIA 1.2.1 Modelo de regresién lineal multiple. Hipétesis La regresién miiltiple tiene como objetivo analizar un modelo que pretende explicar el ‘comportamiento de una variable (variable endégena, explicada o dependiente), que designaremos ‘como ¥, utilizando Ia informacién proporcionada por los valores tomados por un conjunto de variables explicativas (exdgenas o independientes), que designaremos por Xi, Xo. Xe EI modelo lineal (modelo econométrico) viene dado de la forma: =f BXi+ BrXrt ut BX € Los coeficientes (parimetros) 8, (3, ... -denotan la magnitud del efecto que las variables explicativas (ex6genas o independientes) X;, Xo, ... Xe tienen sobre la variable explicada (endégena 0 dependiente) ¥. El coeficiente se denomina término constante (0 independiente) del modelo. El término 1 se denomina término de error del modelo. Disponemos de un conjunto de T observaciones para cada una de las variables endégena y ex6genas. Entonces, podremos escribir el modelo de la forma: Ye Bt BXut BpXast wot BXwt & La aparicién (no necesaria) de un término independiente en el modelo puede interpretarse como la presencia de una primera variable Xo cuyo valor sea siempre 1 El problema fundamental que se aborda es el siguiente: suponiendo que la relacién entre la variable Y y el conjunto de variables X;, Xp... , X, es como se ha descrito en el modelo, y que se dispone de un conjunto de T observaciones para cada una de las variables, Ia endégena y las ‘ex6genas, jcémo pueden asignarse valores numéricos a los parametros &, 8, Py . & baséindonos en la informacién muestral? Estos valores se lamarén estimaciones de los parémetros. 460 ITES-Peranino MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION Una vez. encontradas las estimaciones de los parémetros del modelo, podremos hacer predieciones acerca del comportamiento futuro de la variable ¥. Formulamos el modelo lineal bajo las siguientes hipstesis clasicas: + Las variables X;, Xp... Xi son deterministas (no son variables aleatorias), ya que su valor es constante proveniente de una muestra tomada, y ademas no estn correlacionadas con el término de error & es decir, E(AX1.Xa,... Xz) = 0 (hipstesis de exogeneidad). + La variable ¢ (témmino de error) es una variable aleatoria con esperanza mula y mattiz de covarianzas constante y diagonal (matriz escalar). Es decir que, para todo 1, la variable & tiene media cero y varianza o” no dependiente de 1, y ademas Cov(, &)=0 para todo i y para todo j distintos entre si. EI hecho de que la varianza de & sea constante para todo t (que no dependa de 0), se denomina hip6tesis de homoscedasticidad y puede también expresarse como V(4X1,X2, .. Xe) = 0 y V(N|XiX2, . Xe) = 0°. El hecho de que Cov(é, 6)=0 para todo i distinto de j se denomina hipétesis de no autocorrelacién * La variable ¥ es aleatoria, ya que depende de Ia variable aleatoria € Ademés, Ia relaci6n entre ¥ y X;, Xo, .., Xces efectivamente lineal (hipstesis de linealidad), ‘+ También se supone la ausencia de errores de especificacién, es decir, que suponemos que todas las variables X que son relevantes para la explicaci6n de la variable Y, estan incluidas en la definicidn del modelo lineal, ‘© Las variables X;, Xz, Xeson linealmente independientes, es decir, no existe relacién lineal exacta entre ellas. Esta hipdtesis se denomina hipétesis de independencia, y cuando no se cumple, decimos que el modelo presenta multicolinealidad. ‘+ También se considera la hipdtesis de normatidad de los residuos, consistente en que las variables & sean normales para todo t 1.2.2 Interpretacién de los coeficientes Supongamos que para una muestra escribimos e1 modelo como (modelo nivel-nivel) + BX BXait ont BXwt & con: ~ E(Y|X,, XX )=B+ BX, + BX +.4BX, ~ V(¥|X,.X, En caso de que todas las variables excepto X) permanezean constantes, tenemos AE(Y|X,.X, 505 X,) = BAX, Entonces podemos interpretar el coeficiente , como el niimero de unidades que varia ‘en media ¥ cuando X; varia en una unidad (permaneciendo el resto de las variables constantes. El término constante se interpreta como el prondstico de ¥ cuando las X; se anulan, © MES-Parainios 5 ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS Supongamos ahora que para una muestra escribimos el modelo con logaritmos en la/s variable/s exégena/s (modelo nivel-log). Tenemos: Y=A+AmX+e E(e\X)=0> E(Y|X)= 8 +AInX AE(Y|X) _ AE(Y|X) AlnX AX/X Multiplicando y dividiendo por 100 para expresar Ia variacién de X en términos % tenemos: AE(Y X. B1i99~ AEX) 100% AX / X Podemos interpretar entonces que cuando X varfa en un 1%, ¥ varia en media en 1100 unidades de ¥. ‘Supongamos ahora que para una muestra escribimos el modelo con logaritmos en la variable endégena (modelo log-nivel). Tenemos: InY=f+hX+e E(e|X)=0— E(n¥\X) = 8 + BX AE(nY|X) _ E(AY/¥|X) AX AX Si multiplicamos por 100 para expresar la variacién de ¥ en términos % tendremos: E(QOOxAY/Y|X) 100 = ax 7m Podemos interpretar entonces que cuando X varia en una unidad, ¥ varia en media en sun (B.x100) %. ‘Supongamos ahora que para una muestra escribimos el modelo con logaritmos en la variable endégena y en la/s exdgenas (modelo log-log o de doble logaritmo). Tenemos + BInX +e E(E|X) =0—9 EdnY|X) =f, + B1nX ((nY\X) _ BAY /¥\X) AlnX AX/X Podemos interpretar entonces que cuando X varia en un 1%, ¥ varfa en media en un Bi%, es decir, se interpretan los coeficientes en términos de elasticidades. 660 ITES-Peraino MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION Supongamos ahora que para una muestra escribimos el modelo con términos cuadriticos en la variable endégena. Tenemos: E(6)X) =O E(Y|X) =f + BX + BX AE(Y|X) AX A+2BX Podemos interpretar entonces que cuando X varia en 1 unidad, ¥ varfa en media en BA+2X unidades. En este caso A y 6; no tienen interpretacién por separado. Dependiendo del signo de f; los efectos marginales serdn crecientes (£:>0) 0 decrecientes (;<0). Existe un punto eritico en el que Ia curva E(Y|X) cambia de pendiente: ¥*=~6,/28, La tabla siguiente resume las interpretaciones anteriores, Variable | Variable 5 Modelo ent | independiene | CTP PCtaciOn de ‘nivel = nivel y x Ay= Aide nivel = log y Tog) | Ay=(B, /100)%Ax tog nivel | log(y) x Tog —log_|_log(y) Tost) 1.2.3. Estimacion del modelo por minimos cuadrados ordinarios MCO Supongamos que queremos ajustar el modelo de regresién lineal méltiple: Ya f+ BXi+ BXo+ ct BXet € Disponemos de un conjunto de T observaciones para cada una de las variables endégena y exdgenas, Entonces, podremos escribir el modelo de la forma: Ye Pot BXut Xa t ot BXut & 121,23, 047 La aparicién (no necesaria) de un término independiente en el modelo puede interpretarse como la presencia de una primera variable Xo cuyo valor sea siempre 1 El ctiterio de minimos cuadrados ordinarios MCO considera que la funcién que mejor se ajusta a los datos es la que minimiza la varianza del error ¢ lo que es equivalente a minimizar: 1 S(Bo. Boor Bed = D6? =P, ~ Bo + Bir + Bake, +2 + Boxe)? Derivando respecto de los parémetros ff... € igualando a cero tenemos: © MES-Paraninios 7 ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS aa S10, As, +B ttamned=0 | [S>=mh AIK ATi 8 3, -Br Ant At + ABN) =O So =ASW ALY AD: BF BD Wey tBeerAaness=0) Br Arad rst ADS Estas ecuaciones forman un sistema denominado sistema de ecuaciones normales, que puede resolverse para ff, ..., & mediante cualquier método apropiado para resolver sistemas de ‘ecuaciones lineales. De esta forma se obtiene la estimaci6n del modelo. 1.2.4 Estimacién MCO del modelo, contrastes e intervalos de confianza a través del calculo matricial Ya sabemos que el modelo lineal de regresién miiltiple puede eseribirse de la forma: + BX BX t ot BXut & La expresién anterior puede representarse en forma matricial como sigue: YY (Xu Xa Xa (Bo Hy |_|1Xp Xn Xe | A YJ Xr Xap Xe Abreviadamente podemos poner: Y= X 8+ € EI primer objetivo del anélisis econométrico es el de obtener estimaciones, es decir, valores numéricos de los coeficientes A, i, fy, .... como funcién de 1a informacién ‘muestral. Estas estimaciones pueden ser también por intervalos, es decir, que podremos calcular intervalos de confianza para los pardmetros. Supongamos que disponemos ya de un vector de estimaciones B de los coeficientes. Podrfamos eseribir: io + BAX, + BX a tt BX, Y= Bot BX yt BX a tA BX CHL Book Los residuos son, por definicién, las diferencias entre los verdaderos valores de la variable ¥, y los valores estimados para ¥,. Es decir, é, ~Y, para todo t. De aquf deducimos que Y = ¥ + é = XB + é , con lo que el modelo original es Y = XB+ € y el modelo estimado ser. ¥ = XB + é. Las estimaciones de los pardmetros pueden calcularse por ‘el método de minimos cuadrados, consistente en minimizar la suma de los cuadrados de los residuos, también Hamada suma residual (SR), cuya expresi6n es la siguiente: Ye Le -¥) 860 ITES-Peranino MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION El valor de las estimaciones de los pardmetros (por mfnimos cuadrados o por maxima verosimilitud) viene dado por la expresién B=(X'X)?X'Y; dichas estimaciones son insesgadas, pues E(B)= B. La matriz de covarianzas de 8 resulta sero? (X'X)"! De los resultados anteriores deducimos que el estimader , de uno cualquiera de los ‘coeficientes 8, tiene como esperanza matemitica fi, y como desviacién tipica el valor o%a,, donde a, ‘es el elemento i-ésimo en la diagonal principal de la matriz o (X'X) *. Luego, bajo la hipétesis de normalidad de los residuos, el estadistico N, sigue una distribueién normal (0,0). El estimador (maximo verosimil y de minimos cuadrados) de o7 es cestimador no es insesgado. Un estimador insesgado de la varianza del error es gee T-k-1 Por otra parte, también se demuestra que el estadistico G=ee/o? sigue una distribucién Chi-cuadrado con T-K-1 grados de libertad, lo cual nos va a permitir calcular intervalos de confianza y contrastes de hipotesis para oy para su cuadrado. Las distribuciones de los estadisticos Ni y G nos evan a la conclusién de que el estadistico N, / [GAT-k-1)]'” es una t de Student con T-k-I grados de libertad, lo que permite sigue una distribucién 1 de Student con T-K-I grados éJa, ‘grados de libertad, Jo cual nos va a permitir hallar intervalos de confianza y contrastes de hipétesis para los pardmetros B del modelo. Se podré contrastar la hip6tesis nula H, de que f= 0 para cada i=12,...,T” de la forma habitual utilizando el estadistico T;; es decir, si Tg es el valor de 7; cuando B= 0, se aceptaré Ia hipstesis Ho al nivel a-cuando Tip Star 1 El intervalo de confianza para al nivel ot vendré dado por 8 ttazr-s1 Ga; (taxr-+-1€ el valor de la abscisa de una t de Student ‘con T-K-1 grados de libertad, que deja a su derecha a/2 de érea). Introdueimos ahora los siguientes conceptos: © Suma total st = Py, -¥)' =Y'¥-17? Yy-T¥" © Suma explicada SE=Y, * © Suma residual SR=Y'(¥, ~¥)? = é4 (concepto ya conocido). La swna total es la varianza muestral de la variable endégena (salvo el factor tamafio muestral), y es por tanto una medida del tamaiio de las fluctuaciones experimentadas por dicha variable alrededor de su valor medio. El objeto fundamental de todo modelo econométrico es ‘tratar de explicar dichas fluctuaciones. Lasuma explicada es el grado de fluctuacién de la variable ¥; alrededor del promedio de Y. Por tanto, la suma explicada es el nivel de fluetuacién de la variable Y; que el modelo es ‘capaz de explicar. Es la variaci6n explicada por los regresores. © MES-Parainios 9 ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS La suma residual, ya introducida previamente, es un indicador del nivel de error del ‘modelo en su intento de explicar la evolucién temporal de la variable ¥, Ya sabemos que (Y ~ XBY( - XB)=Y'Y -BYX'Y =¥'Y-¥'Y Luego podemos escribir la igualdad Y'Y =¥'Y + é'é ,y si a los dos miembros de esta igualdad les restamos T ¥ ?, tenemos que: wy TY?)=(P'Y -TY7)+ 22,0 sea, ST = SE + SR. Luego se tiene: Suma total = suma explicada + suma residual A estos tres términos se les Hama Suma de euadrados. ‘A cada suma de cuadrados dividida por sus grados de libertad se le Hama cuadrado medio. Bajo la hipstesis de normalidad de los residuos, SE se distribuye segin una Chi-cuadrado con k ‘grados de libertad, SR segdin una Chi-cuadrado con T-K-1 grados de libertad, y ST segéin una Chi- ‘euadrado con n=I grados de libertad. Por tanto el Cuadrado Medio explicado por el modelo ser CM(E) = SEZ, y el Cuadrado Medio residual sera CM(R) = SRAT-k-1). Se define el coeficiente de determinacién (R°) como una medida descriptiva del ajuste ‘global del modelo cuyo valor es el cociente entre la variabilidad explicada (o suma explicada) y la variabilidad total (0 suma total), 0 sea, R° = SE/ST = 1 ~SR/ST. ‘Un modelo sera tanto mejor cuanto mayor sea R’, aunque esta afirmaci6n no sea demasiado severa, ya que este coeficiente depende mucho de mievas variables introducidas en el modelo, aunque éstas no empeoren Ia calidad de la regresién. Este problema se arregla sustituyendo este coeficiente por el coeficiente de determinacién comegido, que para muestras grandes ya no va a 0» , 0 sea, para muestras grandes, (T—I)(T-k-1) —> 1 y no. depende de k, que es el ntimero de variables del modelo. Ademés, T > 2° => R* — R°. Ahora ya podemos considerar a R? como una buena medida de la calidad de la regresién. El modelo sera tanto mejor cuanto mayor sea el coeficiente de determinacién corregido R* De las distribuciones de SE y SR, se deduce que el estadistico: SE/k F = ———— tiene una distribucién F(&,T- k-1) de Fisher Snedecor. SRAT-k-l) Pero como 1-R? = SR/ST, podemos poner F de la forma: 1060 ES-Pacannto MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION R’_(r-k-1) F(k,T ~k-1)= « ER) Por tanto el estadistico F nos permitiré hacer contrastes sobre el coeficiente de correlacién, Para el caso de regresi6n simple (k=1) tenemos una F(I,7-2) que equivale a una 1 de Student con 7-2 grados de libertad. (B- By X'X(B-B) El estadistico sigue una distribuci6n F(k,T-K-1). Este estadistico va a permitir hallar regiones de confianza a un nivel de significacion @ para el conjunto de parémetros B, del modelo. Este estadistico también nos va a permitit ccontrastar la hipétesis nula 6; El cuadro del andlisis de la varianza quedaré como sigue: Fuente de Suma de Grados de | Cuadrados variacin cuadrados Libertad __| medios Modelo SE k (CM()=SER residual SR 1 CM(R)=SRAL-F-1) Touat 5 FA El estadfstico més general: (DB - DBy{DEe"x)*D'y*(DB- DB) Ke T también sigue una distribucién F(k,7—k-1) para una matriz, adecuada D. Este estadistico va a permitir realizar contrastes més generales de diversas clases de hipotesis y construir regiones de confianza para los parémetros del modelo y para las predicciones. Para ello basta tomar las formas adecuadas de Ia matriz D. Para contrastar la hipétesis {= f°, (a= By" ...= B’, tomamos: 0 10 = 0)\(A) (B Olen, epp=|o 1 OA) |B) 7p GBIeXG-By om] 1? 00-1 00 NB) Le Para contrastar un subconjunto de parimetros Ais= But”, Aa= Bar’ vB Bur» tomamos = DA~ BVIDX'XY'D’ ene or pardmetros, que pueden escribirse en general de la siguiente forma: © MTES-Paraninfow 11 ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS ayy + aby to + OB, = Bi AyB, + dyaby ++ A,B, = By 4B, + 428, ++ A By = Be tomando: ay (DB = DBy(D(X'X)"D(wB - DB) 16 SFr 1.2.5 Consistencia de los estimadores MCO El teorema de Gauss-Markov asegura que en el contexto del modelo de regresién lineal (bajo los supuestos tipicos) los estimadores MCO de los pardmetros fi, f, .. i son los de menor varianza entre los estimadores lineales ¢ insesgados. Ademés, los estimadores MCO, By B,.By.-.By son estimadores consistentes de Ay fi, Bx... Bi Dicho de otra forma, los estimadores MCO fy, A. Ay... son estimadores consistentes de los pardmetros fi, ffi, -- J porque su sesgo tiende a cero cuando el tamaiio ruestral tiende a infinito. 1.3 PREDICCIONES Una de las finalidades del andlisis de los modelos econométricos es hacer predicciones para la variable dependiente, Si estimamos el modelo ¥=XB y obtenemos el modelo estimado 7 = XB, tenemos que el valor ¥, = Xj es un estimador lineal insesgado Sptimo del pronéstico de ¥, para un valor dado X, de X. Se puede predecir la media, E(Y), 0 el valor puntual, Yo. Los errores de prediccién vendrén cuantificados por las varianzas de los predictores. La varianza para la prediccién en media vale 0? XAX'X)"' Xo Un intervalo de confianza para Ia prediccién en media al nivel c vendré dado por la expresiOn ¥y tty, ,(@/2)6YX 9(X'X) 1X", donde t¢r-4-1,(@2) es el valor de la t de Student ‘con T--1 grados de libertad en el punto a/2. La varianza para la prediccén puntual vale o° (Xo(X'X)" Xo'+1), y un intervalo de confianza para la_prediccién puntual vendré dado por la expresién definida como ¥y tty 4 (@/DGY1+ XXX) 'X,", donde tyr-4.1(@2) es el valor de la de Student con T-K-A grados de libertad en el punto 2. 1260 ES Pacaninto MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION 1.4 __ANALISIS DE LOS RESIDUOS Una vez construido el modelo de regresién, tendremos que contrastar entre otras las hipétesis de linealidad, normalidad, homoscedasticidad, no autocorrelacién e independencia, materia que se ampliaré en sucesivos capftulos de la segunda parte de esta obra, Los residuos van a presentar una primera informacién sobre estas hipstesis. Si el histograma de frecuencias de los residuos no se ajusta al de una normal, pueden existir valores atfpicos. Eliminando los pares (X; ¥)) que producen los valores atipicos, se puede conseguir normalidad en los residuos. Si graficamos los valores de ¢ contra los valores de é, (0 sea, si hacemos la grifica ccuyos puntos son los pares (1, é,) y detectamos una tendencia creciente o decreciente en el grafo, puede existir autocorrelacién o correlacién serial Si graficamos los valores de ¥, contra los valores de é, , 0 sea, si hacemos la grifica cuyos puntos son los pares (¥.,2,) y detectamos una tendencia de cualquier tipo en el grafo, puede existir autocorrelaci6n, ya que habré correlacién entre los residuos. También puede haber en este caso heteroscedasticidad, o también falta de linealidad. Si graficamos los valores de Y, contra los valores de é,7, 0 sea, si se hace la grifica ‘cuyos puntos son los pares (¥, ,2,”) y detectamos una tendencia de cualquier tipo en el grafo, puede existir heteroscedasticidad Si graficamos los valores de X, contra los valores de é,, 0 sea, si se hace la grafica cuyos Puntos son los pares (X,, é,) y detectamos una tendencia ereciente o decreciente en el grafo, puede cexistir autocorrelacidn, ya que los residuos no estardn incorrelados con las variables explicativas ‘También puede haber heteroscedasticidad, o falta de linealidad. sgraficamos los valores de X, contra los valores de é,?, 0 sea, ¢ hace la gréfica ‘cuyos puntos son los pares (X,, é,”) y detectamos cualquier tendencia en el grafo, puede existir heteroscedasticidad o falta de linealidad (habré relacién entre la varianza del término del error y las variables explicativas) Estos andlisis pueden realizarse también utilizando residuos estandarizados 0 residuos cestudentizados, que suelen ser més efectivos para detectar deficiencias en el modelo. Los residuos estudentizados, cuya distribucién es una f de Student con T-k-2 grados de libertad, se usan también para detectar valores atfpicos en los residuos (a normalidad de los residuos o de la mala especificacién del modelo) Un contraste muy importante para detectar la autocorrelacién es el contraste de Durbin-Watson, segiin el cual el estadistico: de-2, nos permite adoptar la regla no demasiado rigurosa de que si d vale 0 hay autocorrelacién perfecta positiva; si d se aproxima a 2 no hay autocorrelacién, y si d se aproxima a 4 hay autocorrelacién perfecta negativa. No obstante, d se encuentra tabulado, y segtin la franja en la que caiga su valor, se acepta 0 rechaza la hipotesis de autocorrelacién © TES Paranintow 18 ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS Si la matriz X°X tiene determinante cero, no podré calcularse su inversa (ni podrén hacerse Jas estimaciones de los parémetros), en cuyo caso hay multicolinealidad. Este problema suele resolverse sustituyendo las variables del modelo por un conjunto grande de sus componentes principales para hacer de nuevo la regresién, pero esta vez. con las componentes principales como variables independientes del modelo. La multicolinealidad también puede abordarse mediante la matriz. de correlaciones de las variables independientes, ya que las variables con correlacin alta pueden ser candidatas a provocar multicolinealidad, problema que puede ntentar solucionarse eliminando una de las variables fuertemente correlacionadas, siempre que dicha variable no sea relevante. PROBLEMAS 1.1. Una empresa desea estimar la demanda de sus productos D, en funcién del precio de los mismos P,, para lo cual dispone de los datos de ambas variables en los iltimos 120 meses. La ‘empresa utiliza los siguientes modelos: D D= + oP +6, 2) LogD, = By + BlLogh, + 5, 3) Log, = My + MR +0, 4) D.=Yo+ HLogR, +0, Se pide: 1. (Cuil es el signo esperado del coeficiente a; del primer modelo? 2. Interpretar econémica y matematicamente los coeficientes % y a 3. Interpretar el significado econémico de los coeficientes A. i y / 4, {Cémo se pueden obtener las elasticidades precio de 1a demanda en cada modelo a partir de a, A fy 1? SOLUCION 1, Lo légico seria que Ja demanda de productos disminuya al aumentar su precio, con lo que el signo del coeficiente «i del primer modelo debe de ser negativo 2. Enel modelo D, =a) +a,P+¢,, el coeficiente a es Ia derivada parcial de la cantidad demandada respecto al precio: Entonces el coeficiente a} econémicamente mide cuantas unidades variaré Ia cantidad demandada cuando el precio se incrementa en una unidad. El coeficiente 0 medirfa Ia demanda prevista a precio nulo, lo que en este caso carece de significado. 1400 TES Pacaninto MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION Para Interpretar 8; en el modelo LogD, = fy + B.LogP, +6, derivamos como sigue: ALogb, _ ALogD, ALogP, ALogP, Podemos entonces interpretar 3; como la elasticidad precio de la demanda, Por lo tanto, cuando Jos precios crecen un 1%, Ia demanda lo haré un £,%. Entonces el coeficiente oj econémicamente mide cuantas unidades variaré la cantidad demandada cuando el precio se inerementa en una unidad Para interpretar /4; en el modelo LogD, = fy + [4,P, + 0, derivamos como sigue AD, @LogD, _ALogD, _D, __AD, 1 OP, AP, AP, D,AP, ‘que es una semielasticidad, Por Io tanto, cuando los precios erecen un 1%, Ja demand lo hard un Hil Para interpretar 44; en el modelo LogD, = Uy + u4,P, + v, derivamos como sigue: AD, ALogD, _ALogb, __D, 1 OP, AP, AP, D,AP, ‘que es una semielasticidad, Por Io tanto, cuando los precios erecen un 1%, Ja demand lo hard un Hil Para interpretar 7, en el modelo D, = ¥y + 7;LogP, + @, derivamos como sigue: ap, AD, , , Pp OLogP, ALogh, AP, AP, * ?, n Por lo tanto, cuando los precios crecen un 1%, la demanda variaré 7 unidades. La elasticidad precio de la funcién de demanda es: Luego tenemos: © TES Paranintow 15 ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS aD, atogb, P, ~ dLogD,' OP, D, 1 Wogd, aD, 3) 4) D, Formular y comentar el modelo adecuado cuando se trata de estudiar 1a evolucién de la cantidad demandada de un activo financiero F por un agente a lo largo de 36 meses en funcién de su rendimiento I, del riesgo que conlleva R y de la renta del agente ¥. {Qué modelo seria el adecuado para estudiar Ia variacién de Ia cantidad de demanda del activo financiero por 50 agentes distintos a lo largo de 36 meses en funcidn del rendimiento del activo, el riesgo que conlleva y la renta de cada agente? Formular y comentar el modelo adecuado para estudiar los gastos en publicidad G de las empresas de un determinado sector en funcién del volumen de sus ventas Vy del niimero se sucursales S, sabiendo que se dispone de datos recogidos a 31 de diciembre sobre 100 empresas distintas. SOLUCION: En el primer caso, la variable dependiente es la demanda del activo financiero F, que depende del rendimiento del activo financiero 1, de si riesgo R vy de Ta renta del agente Y. Como la evolucién de la demanda viene recogida a lo largo de 36 meses para un agente, estarfamos ante un caso de modelo de series temporales, cuya modelizacién seria: F =A Pl +R +BY, +8, 2,036 En el segundo caso tenemos datos de la evolucién de la demanda de activos financieros para 50 agentes distintos recogidos a lo largo de 36 meses. El modelo adecuado sera un modelo de datos de panel, que se formularia como sigue: Bit Bal + Bay + BM e+ Ey 112036 7 En el tercer caso estarfamos ante un modelo con datos de seccién cruzada ya que han sido recogidos en un mismo momento del tiempo para las 100 empresas que componen la ‘muestra utilizada para el estudio de los gastos en publicidad. El modelo serfa el siguiente: G,=B,+ BV, + BS, +e, i= 1,100 1660 ITES-Pacaninto MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION En un estudio para aumentar Ia supervivencia (variable y en tanto por ciento) de determinada clase de plantas se utilizan concentraciones de tres productos diferentes (variables xi, % y Xs en gramos), Para distintos valores de las variables x;, x2 y x3 se obtienen los siguientes porcentajes de aumento de la supervivencia: yoy BS_U7s 5301080 312 632 542 9.40 259 622 841 7.20 38.4 1052 463 8,50 184 119 11,60 9,40 267 122 585 9,90 264 410 662 8,00 259 632 872 9.10 32,0 408 442 8,70 25,2 415 7,60 9,20 39,7 1015 483 9,40 35,7 472 312 7,60 265 170 530 8,20 Ajustar los datos a un modelo de regresi6n lineal miltiple que explique el porcentaje de aumento de Ia supervivencia en funcin de las concentraciones de los tres productos que inciden sobre la supervivencia de las plantas. Realizar la estimacién de la varianza. Construir un intervalo de confianza al 95% para la respuesta media cuando x= 3, x= 8 y xs= 9. Construir también un interval de prediccién al 95% para una respuesta individual del porcentaje de supervivencia cuando x\=3, x= 8 y x =9. Realizar el contraste de hipétesis by = -2,5 contra by > -25 para a= 0,05. Caleular el coeficiente de determinacién R’ y realizar también el contraste de significacién conjunta de la regresién y el contraste de significatividad individual parémetro a pardmetro. SOLUCION: Realizaremos el ajuste del modelo Y = XB + u por la via matricial. Para ello ‘comenzamos considerando las matrices 1 174 530 1080) 255 1 632 542 9.40 312 1 622 841 7,20 259 1 1052 463 8,50 384 1 119 11,60 9,40 184 1 122 585 9,90 X=|1 410 662 8,00 1 632 872 910 259 1 408 442 8,70 320 1 415 7,60 9,20 25.2 1 1015 483 9,40 397 1172 312 7,60 357 1 170 530 8,20 265 (© MTES-Paranintow 17 ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS Los pardmetros estimados serén: 8,0648 = 0,0826 -0,0942 ~0,7905)( 3775 39,1574 A i =0,0826 0,0085 0.0017 _0,0037 || 1877,567]_| 1.0161 B=(x'x)'xX'Y = = =0,0942 00017 0,016 + -0,0021 || 2246,661| | -1,8616 -0,7905 0,037 -0,0021 0.0886 )| 337,78) \-0,3433, Por tanto tenemos: by = 39,1574, 6, =10161, b, 1.8616, b, = -0,3433 Por tanto, el modelo de regresi6n lineal miltiple ajustado seré $=39,1574 + L061x, -18616x, ~ 0.34331, El estimador de la varianza residual vendré dado por la expresién: a (¥-xBy — XB) _'Y -(xByY T-k-1 13-3-1 9 =4,298 No olvidemos que las matrices ¥,X y B son ya con: s Un intervalo de confianza para la respuesta media vendra dado por: Botta; Fyro(X'X) "Xo Para nuestros datos tenemos: So = 39.1574 + 1,061(3) ~1,8616(8) - 0,3433(9) = 24,2232 8,0648 -0,0826 -0,0942 ~0,7905 =0,0826 0,0085 0,017 0,0037 =0,0942 0.0017 0,0166 -0,0021 =0,7905 0,037 -0,0021 0,0886 (XX) =0,1267 3.8 9) Caw ‘Como tons = 2,262 para T-k- = 13-3- So ttg Oy x(X'X) 7X = 24,22+ (2,262)(2,073) 0.1267 = [22,5541 25,8923] Un intervalo de confianza de prediccién para una respuesta individual cuando 21= 3, x2 =8 y.x5=9 vendra dado por: By HtasaGYlt xq(X'X) xy = 24,2232 4 (2,262)(2,073)of1.1267 = [19,2459 29,2005] Se observa que el intervalo de prediccién es bastante més ancho que el intervalo de confianza para el porcentaje de supervivencia media. grados de libertad, tenemos: 1860 ITES-Pacaninto MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION Para realizar el contraste de hipotesis by estadistico: 2,5 contra by > -2,5 para or= 0,05 utilizamos el 5) _ -18616-(-2,5) 2,073y/0.0166 04 < 0,05, se rechaza Ia hipstesis b; 2,391 Como el p-valor es P(T? > 2,391) = acepta by > -2,5 al 95% de confianza. Sy se Para calcular el coeficiente de determinacién utilizamos la expresién: 5,-57 SE ZO pyre _expyy-17* _ 80.45 sr ig <> VY-1T¥? YY-TY? — 43813 Yo, -7 9117 Este resultado significa que el 91,17% de la variacién en el porcentaje de supervivencia de las plantas se explica con nuestro modelo de regresi6n lineal. Para contrastar Ia significatividad conjunta de los pardmetros del modelo, es decir, by = b, = b, = b, = 0, utilizamos el estadistico: Elk ke 39. SRIT=k-1) = RT 0,975 Fires ED G-O91T) 3-3-4383 ‘Como el p-valor P(F 39 > 30,975) = conjunta del modelo, ,0001 < 0,005 se concluye la significatividad Para contrastar Ia significatividad individual del modelo (pardmetro a parémetro), es decir, 6, para cada parémetro: Los valores de 7; resultan ser 6,651, 5,323, -6,964 y -0,556. Sus p-valores asociados Ply > T)) resultan ser 0,001, 0,0005, 0,0001 y 0,5916. El tinico coeficiente con problemas de significatividad al 95% es bs, que resulta significativo a partir del 94%. Es préctica habitual presentar los resultados del ajuste comenzando con el cuadro del andlisis de la varianza: Puenie ‘Suma de cuadrados Grados Cuadrados medion F Modelo SE=¥¥ -T¥" XY -TY?* k Residual sR = iri =(y - XBYY -XB)=V'Y-PyY F-k-1 Toral ST=yy-1¥? re © ITES-Paranintow 19 ECONOMETRIA, CONCEPTS Y PROBLEMAS RESUELTOS Que para nuestros datos ha resultado ser el siguiente: Fuente Sumade cuadrados Grados Cuadrados medion _F ___p—valor Modelo SE=SASST 3 CME=TSBISIG oe Scan Residual SR=38.6764 9 CMR = 4.29738 Total ST=43813077 ‘12 RT =09117 EI R’ es muy bueno y el modelo es significativo globalmente ya que el p-valor del ccontraste de la F es menor que 0,05, La presentaci6n habitual de los resultados del ajuste también conlleva un cuadro con Jos valores de los parmetros estimados, el valor de Ia 1 de Student para su significatividad individual y los p-valores asociados, En nuestro caso tenemos: Variable Pardmetro Valor delaT _p-valor Constante 3915735 —-6,651__—_0,0001 x 10161 5323 0.0005, x - 1861649 -6964 0,001 % 0.34326 0.556 0.5916 De esta forma se observan répidamente las estimaciones de los parimetros del modelo y su significatividad individual. El trabajo relativo a este problema puede automatizarse con el software econométrico Eviews introduciendo los datos en un fichero de trabajo (1-3.wk/), cargéndolo en el programa usando File > Open ~ Eviews Workfile...(Figura 1-1) y eligiendo el fichero en la ventana Open (Figura 1-2). Al pulsar Abrir se carga en memoria el fichero. Si queremos ver el contenido del ‘conjunto de datos bastard con seleccionar todas las variables del modo habitual en Windows, hacer clic con el botén derecho del rat6n sobre la seleccién y elegir Open — As Group (Figura 1-3). Se ve asf el contenido de todas las variables del modelo como un grupo (Figura 1-4). Para realizar la regresién, se elige Quick —> Estimate Equation (Figura 1-5), se escribe Ia ecuacién del modelo a ajustar en el campo Equation Specification de la solapa Specification, se elige Least Squares en el campo Method (para ajustar por minimos ‘cuadrados) y se hace clic en Aceptar. Se obtienen los resultados de la Figura 1-6. tem [Srome ____s] + meh Wace Hibctowi Same lor iSimecst lst slarmross lor, Sona Simi Sor Sweat Swen fac ean pata rn Been fon Sood Pets. tome fT =] x Se feeewcntan al ee teeta ten Figura [-1 Figura 1-2 2068 ITES- Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION Sejreiansonelerdsens_|Peloe| pte even = brn oe oan] roy Fee sadpeot_ 7 7]? 2 se a] 3) ie ie oe) so 6 ee [7 | 9 =| 8 | tp a co rL) | oe | tet ao] |e a a [ne Figura 4 Fn) ES [eelenoa fon 13 = ate ‘ty Fe Samii 3 = fas a Been Ba a2 er ces) Ewe nanny fn Sonata ose Eahnrarctcsin ‘eee ny ng erg ‘naFoC noe OF neces enone Ree Neod|Es~ ee See US sl ef © MTES-Paraninfos 21 ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS Dependent Vana: Nato. Leet Saoxes Sate mor me 1250 Sani 113 Incledeasevaian: 19 [veri Yectoeransoona cre ‘ficient Std. Ener em E easter cw Sarin os) 4 £5573 ci) Da Resquared (911724 Mean dependent var Aavsted Roques 0622200 SO vopendentvar 6005 SE oftegrcsion 2.073012 Akaike ino citeron 4 543512 Sum squared resid SBG7EAD) Schwarzcntenon 4717373, Log tthe’ PSE? Dubin'Watson stat 1587590 Palace oearenas [Some (Wem 1S Figura 1? Observamos que las estimaciones de los pardmetros (Coefficient), los valores del estadistico T (t-Statistic) y los p-valores (Prob) obtenidos a través de Eviews coinciden con los obtenidos realizando los célculos directamente, pero la salida de Eviews es més rica. La columna Std, Error recoge la desviacién tipica estimada de los pardmetros del modelo y puede utilizarse para el célculo de intervalos de confianza de los pardmetros estimados a un nivel (Coefficient * tan res Std. Error). Como el valor de la t de Student tooas = 2,262 para T-k-1 1-3-1 = 9 grados de libertad, tenemos que los intervalos de confianza al 95% para los pardmetros estimados serén: 39,15735 + 2,262(5,887060) 1,016100 + 2,262(0,190895) =1,86164 + 2,262(0,267325) -0,34266 + 2,262(0,617052) EL R? ajustado vale 0,88 (indicativo de un buen ajuste al ser muy alto), el error estindar de la regresidn (S.E. of regresién) es bajo y estima Ia desviaci6n tipica del error (su cuadrado es la varianza residual estimada 6?= 4,29). Los valores bajos de los criterios de informaci6n de Akaike y Schwarz indican que el modelo es bueno. El valor del estadistico de Durbin Watson, no demasiado alejado de 2, indica que los problemas de autocorretacién no son relevantes, La suma de los errores al cuadrado (Sum squared resid) es el valor de la funcién objetivo en el minimo cuando estimamos por mfnimos cuadrados ordinarios, El logaritmo de la funci6n de verosimilitud (Log likelihood) es el valor de 1a funcién objetivo en el maximo cuando se estima por méxima verosimilitud. Las caracteristicas bisicas de la variable dependiente vienen recogias por su media (Mean dependent var) y su cuasi desviacién tipica muestral (S.D. dependent var) La ecuacién del modelo definitivo ajustado es: ¥ = 39,15 +1,016Xi-1,86X2-0,34 Xs 2268 ITES Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION La opeién View —> Representations (Figura 1-8) ofrece la ecuacién del modelo cestimado (Figura 1-9). Pe petro — inaten Egon Figura 1-8 Figura 9 Al interpretar esta salida vemos que un aumento unitario en la concentracién del primer producto produce un aumento de 1,016 unidades de la variable Y, es decir, un aumento de un 1,016% en la variable ¥ por venir esta titima dada en tanto por ciento. De igual forma, un aumento unitario en la concentracién del segundo producto produce un descenso de 1,86 unidades de la variable Y, es decir, un descenso de un 1,86% en a variable Y. Por ultimo, un aumento unitario en la concentracién del tercer producto produce un descenso del 0,34% en la variable ¥. En cuanto a la constante, podria interpretarse diciendo que para valores nulos de las concentraciones de los tres productos, el porcentaje de supervivencia de las plantas es del 39,15%, es decir, las plantas sobreviven casi con un 40% de probabilidad aunque no se le apliquen determinadas concentraciones de los tres productos. La constante juega aqui el papel de una cota fija de supervivencia de las plantas independiente de la aplicacién 0 no de las correspondientes concentraciones de los tres productos. El software Eviews permite calcular directamente la significatividad conjunta de los pardmetros estimados del modelo a través del p-valor del contraste de la F siempre y cuando se introduzca Ia ecuacién que define el modelo (pantalla Equation Estimation) tal y como se a en la Figura 1-10 (en lugar de lo indicado en la Figura 1-6). Al pulsar Aceptar, se obtiene Ja Figura 1-11. Se observa un p-valor de la F muy pequeiio (0.000045), Io que indica Ja aceptacién de la hipstesis de Ia significatividad conjunta de todos los parémetros del modelo (pueden considerarse todos los pardmetros del modelo significativamente distintos de cero simulténeamente con una probabilidad muy alta), La significatividad individual de cada pardmetro se analiza a través de los p-valores de la columna Prob en la Figura 1-11 (0 en Ia Figura 1-7), Se ve que todos los parémetros estimados son fuertemente significativos individualmente (distintos de cero) por tener p- valores muy pequefios, salvo el parimetro de la variable Xs, que presenta una baja significatividad del 41% (p-valor = 0,59). Este hecho podria Ilevarnos a eliminar esta variable del modelo. © MES Paranintos 28 ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS unto Eta cee +N aoe Pleo ere nt er ee Eatin teeter eos eS oT sowe Figura 10 Figuea t-11 Eviews también permite contrastar restricciones en los pardmetros a partir del Contraste de Wald mediante View — Coefficient Tests» Wald-Coefficient Restrictions (Figura 1-12), Rellenando la pantalla Wald Test como se indica en la Figura 1-13 se contrasta la significatividad cconjunta de los parémetros estimados por esta via (alternativa al test de la F). En la Figura 1-14 se “observa el rechazo de la mulidad simulténea de los parémetros porque el p-valor es muy pequefio, es decir, se acepta Ia significatividad conjunta de los parémetros del modelo. Por otta parte, si rellenamos la pantalla Wald test como se indica en la Figura 1-14, al pulsar Aceprar se obtiene la Figura 1-16, cuyo p-valor pequefio indica el rechazo de la hipétesis by = 2.5 Bethe ~ Cocfiient oatitions separated bp conmat CFoeceaCIA ajatted Raa Enereples: Heer Ee SE BS | eit tow Figuea 1 2 Figoa es re Ecce Utd = Costicient restrictions separated by commas eat a a ea i Evans Sei tanrse Cor}0, Cra-20H8) Figara 1-14 Figura t-15 24 6.© ITES Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION Fine ens neiarl race eon vets eG van Figure P16 Para caleular predicciones (una en nuestro caso), nos situamos en la pantalla Workfile y elegimos Proc — Siructure/Resize Current Page (Figura 1-17) para ampliar el tamafio de Ta muestra hasta el valor 14 (Figura 1-18). Al pulsar OK se obtiene el aviso de la Figura 1-19 indicativo de la insereién de una nueva observacién en la muestra (que de momento no tiene valores), Si es necesario, con Proc —» Set Sample... se amplfa el tamafo de la muestra a 14, La siguiente tarea es introducir los valores de X;, Xz y Xs para los que se obtendré ta prediccién Para ello seleccionamos como grupo las tres variables eligiendo Open —» as Group en el ment emergente obtenido al hacer clic con el bot6n derecho del ratén sobe las tres variables seleccionadas simulténeamente (Figura 1-20). A continuacién, en la pantalla Group se pulsa en Edit y se introducen los tres valores ee las variables (Figura 1-21). La tarea siguiente es elegir Proc — Forecast en la pantalla Equation (Figura 1-22) y rellenar la pantalla Forecast como se indica en la Figura 1-23 (El vector Y¥f contiene las predicciones y SEf sus errores esténdar). Al pulsar OK aparecen los dos vectores en la pantalla Workfile (Figura 1-24). or oe a te [——— Ce] cea _| Figura 1-17 Figura 1-18 ESI] og 2 nae ST Figura 1-19 Figara 1-20 © MES Paranintow 25 ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS fstrslves| pees rate seen exits is 1 T os ae ‘Sener nares Metbos a: — =. ay eel |B Ss Becet a (22 a EB Ee E Feces wee pea et — Tigura FE Tigra -S¥ Al hacer clic sobre yf en la Figura 1-24 se obtiene la Figura 1-25, cuyo tltimo valor es la prediccién de la variable dependiente pedida (24,2311). Si se hace clic sobte sef, se obtiene la Figura 1-26, cuyo tiltimo valor es el error estdndar de la prediccién (2,209586), que se utilizaré para calcular el intervalo de confianza para la prediccién individual (Eviews no calcula el intervalo de confianza para la prediccién en media), | a eae PSOE a =I Ma ainrencn a Figura 1-25 Figura 1-26 Como fos = 2.262 para 7-k- = 13-3-1 = 9 grados de libertad, un intervalo de confianza de prediccién para una respuesta individual cuando 8 y.x5=9 vendrd dado por: Ja thy gOyl + xg XY x, = 24,2231 + (2,262)(2,209586) =[19.2 29,2] 26 © ITES- Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION Una vez estimado un modelo es muy convenirte realizar un andlisis de los residues para detectar posibles anomalfas, Para ello, en la pantalla Equation, se utilizan las opeiones de Actual, Fitted, Residual del ment View (Figura 1-27). La subopeién Actual, Fitted, Residual Table ofrece los resultados de la Figura 1-28. Se obtienen los valores de la variable endégena ‘observados Y, y estimados Y, y el valor de los residuos. El gréfico de los residuos presenta dos ineas discontinuas situados a una distancia de +25 de la Iinea central continua, siendo S el error estindar de la regresién (estimador de la desviacidn tipica del error). Estas bandas permiten detectar In presencia de residuos significativamente distintos de cero (atipicos). En iuestro caso los residuos niimeros 5, 11 y 12 se salen de las bandas (aunque no demasiado), lo ‘que puede indicar que son atipicos. La subopeién Actual, Fitted, Residual Graph muestra el ‘gréfico de Ia Figura 1-29 que representa los residuos en el eje de ordenadas de Ia izquierda y los valores de la variable endégena observados y estimados en el eje de ordenadas de Ta derecha. De esta forma, en la parte superior del grifico aparecen las grificas de los valores de Ja variable endégena observados y estimados, que han de coineidir lo més posible. En la parte inferior aparece el grifico de los residuos con las bandas +25, que coincide con el grafico de la Figura 1-28. Este grafico ha de ser lo més aleatorio posible sin comportamiento sistemético de ningéin tipo para evitar In existencia de algiin error de especificacién en el modelo o la presencia de otros problemas como a autocorrelacidn. La opcisn Residual Graph de la Figura 1-27 presenta solamente el grifico de los residuos y la opcin Standardized Residual Graph presenta el grafico de los residuos estandarizados (Figura 1-30). No se observan problemas de ‘comportamiento sistemitico residual por lo que puede suponerse aleatoriedad de los residuos. Los posibles valores atipicos pueden venir originados por la presencia de una variable poco significativa en el modelo (Xs). eer a enone) a erel tec) enna] te] scree be | aes | Fee [Bosal] —— Renae Seenecormee +] tease Zn 2x0 Sateen 7] am 7305 Ae Simm B81 0 ane Lg asam0 sz aa semana mune [3] oxo ose Bom Bos sm 23% Figura 1-27 Figura 1-25 Figura 130 (© MES Paranintow 27 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS > 1.4. Consideramos el modelo y, a+ Bix, + Boss uy los siguientes datos para su ajuste: Estimar el modelo y la varianza residual y calcular Jos coeficientes de determinacién y de determinacién corregido, Realizar también los contrastes de hipstesis: A= (contraste de significatividad conjunta de los parémetros del modelo), £.=(=0, £.=10f,, 2A+28+78=50, (B=10f,, 2f+28+7=50). SOLUCION: Realizaremos este ajuste por la via matricial. Para ello comenzamos considerando las matrices: 28 +8 ITES-Paraninto 11 0 13-1 1400 xi St 17-1 18 0 110 -1 110 2 Los pariimetros estimados serén: 8 48 0)'/ 368 ba(x'x)'xy=|4s 364 5] [270 o s 8) | 35 Por tanto tenemos: 7 n 2887-384 240) 6,47 <1 |-384 64 -40/] 6,588 664 240-40 608 )\0.257 0257 Por tanto, el modelo de regresi6n lineal miltiple ajustado seré 47 + 6,588x, +0,257., El estimador de la varianza residual vendré dado por la expresi6n: MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION (— xBy XB) _ V'Y-(xBYY 1B-3- 9 18,513 No olvidemos que las matrices ¥, X y B son ya cono« Para calcular el coeficiente de determinacién utilizamos la expresin: se LON py rp oxpyy 12 ST PY-TF? 3408 33153024 _ st - Lorw =09728 Este resultado significa que el 97,28% de la variacién en Ia variable dependiente se explica con nuestro modelo de regresisn lineal, El coeficiente de determinacién corregido se calcula como sigue: 0962 Para contrastar la significatividad conjunta de los pardmetros del modelo, es decir, y= B, = B; = 0 ulilizamos el estadistic tk Rik 9728/2 SRT =k=1) 0=R)T=k=1) 0-0.9728)8-2-) Fars 9,411 Como el p-valor PCF 35 > 89.411) = 0,00009 < 0,005 se concluye Ia significatividad conjunta del modelo, También puede observarse en las tablas de la F que F 903,38 = 5.41 < 89.41, lo que nos lleva a la aceptacién de a significatividad conjunta del modelo (rechazo de & } Para contrastar la hipstesis nula aque en este caso es: = 0 usamos la forma adecuada de la matriz D, 1} ya que: La hipstesis nula es a 0 4 }-(): y el estadistico del contraste sera: © MES Paranintow 28 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS Saale yo} (4 pb, = DB= OD XDI DB= Or _ ve iv donde V" es el elemento que ocupa la fila i y la columna j en la matriz (X'X)"! Sustituyendo tenemos: esis o2s7) {4 40) "(ssi 2 4664\-40 608} (0,257, Fs e = 89,558 Como F 99525 = 5,79 < 89,558 se rechaza la hipstesis nula al 95%. Para contrastar la hipstesis nula f,-10/;= 0 usamos la forma adecuada de la matriz D, que en este caso es: p=(0 1 -10) ya que: Bo pp=(0 1 -10)) 6, |=#,-199, Bs El estadistico del contraste sera: vt yt pry oy! (-10A,)}(0 1-10] v2 y= ye |] a |] -20, vv ve }l-10 donde V/s el elemento que ocupa la fila y la colunma j en la matriz (XX) Sustituyendo tenemos: (6588-000, 2887-384 240) 0 )]" e}(o 1 -15 =384 64-40] 1 240-40 608 }{-10 0.066 é Como F goss = 13,071 > 0,066 se acepta la hipétesis nula al 95%. Para contrastar la hipstesis nula 2/4 + 2, + 7 = 50 usamos la forma adecuada de Ia matriz, D, que en este €aso es: D=@ 2 7) 90+ © ITES- Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION ya que DB=(2 2 1)) B |=28. +28, +78, B: El estadistico del contraste seré: (DB - 50y(D.X'X)"D'T" (Dp - 50) F, “as 7 785 Como F 9951.5 = 13,071 > 2,785 se acepta la hipétesis nula al 95%. B,-10f, =0 rencontre 4 88 Ia matriz, D adecuada es: 0 TG) oF pf? 1-10 b, “lo 20 7 JP lop, +28,+76. El estadistico del contraste sera: (OB - DBY(D(X'Xy" DT (DB - Dpyir Para los datos de nuestro problema tenemos: ata) es) 2887 -384 240\( 0 2)]" le at fPae a 20] 2) oe 240-40 608 /|-10 7 6470 d(° © 2°) esas]-(° 227 so) [> 0.287, 5.038 Como F 90525 = 5.79 < 6,038 se rechaza la hipétesis nula al 95%. Para resolver este problema con Eviews, se carga el fichero de trabajo (1-4.wk7) usando File > Open —» Eviews Workfile... y se elige Quick —» Estimate Equation (Figura 1-31). Se escribe la ecuacién del modelo a ajustar en el campo Equation Specification de la solapa Specification, se elige Least Squares en el campo Method (para ajustar por minimos cuadrados) y se hace clic en Aceptar (Figura 1-32). Se obtienen los resultados de la Figura 1-33. Se observa {que Ia constante tiene una significatividad inferior al 90% (es distinta de cero al 90% de confianza), el coeficiente de X; es muy significativamente distinto de cero (p-valor muy equefio) y el coeficiente de X» no es significativamente distinto de cero (p-valor muy alto). El R’y el R’ ajustado son 0,973 y 0,962 respectivamente (muy altos). © MES Paraninfo« 31 ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS Figura 1-31 patra Figura 1-32 Figura 1-33 Para realizar los contrastes de restricciones sobre los coeficientes se utiliza View—> Coefficient Tests—> Wald-Coefficient Restrictions (Figura 1-34) y se rellenan las pantallas de entrada ‘como se indica en las Figuras 1-35, 1-37, 1-39 y 1-41. El p-valor (Probability) pequefio de la figura 1-36 muestra el rechazo de Ia hipotesis =; = 0. El p-valor muy alto de Ia Figura 1-38 indica la aceptacién de la hipstesis 4-10, = 0. El p-valor de la Figura 1-40 indica que se rechaza la hipétesis 50 al 85% de confianza, El p-valor de la Figura 1-42. muestra que se rechaza la -y 28+ 2B + 78.= 50 simulténeamente al 95% de confianza. Seared + Sy TTT Figura 1-34 9268 ITES- Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION Coticint resins sepatated by commas i Examples on-0, caHece aK Loree! Figura 135 Figura 136 Caro a CCoaticient esictons separated by commas poh Percee pee ee ee Examples cmd, cower ea Figura 1 37 Ceatficint esttionssanaated by comenas eciecierrciaeso [restate Veta Pea ac BRT Fee Pee Saas CoO, os-2018) ox Gareel Figura 1-39 Figura 40 fron Confit esticionssapaaled by comenas amples E meen Sats Tie Op, Rec) [Sees smiaee nce Figura (Hi Figura 1-42 El contraste A=.=/5=0 de significatividad conjunta de todos los pardmetros del modelo puede obtenerse directamente si se rellena la pantalla Equation Estimation como se indica en la Figura 1-43 (en lugar de la Figura 1-32). Al pulsar Aceptar se obtiene la Figura 1-44, que presenta ‘un p-valor para la F muy pequeito (Pob(F-statistc) = 0,000119), lo que nos eva a aceptar la hip6tesis de significatividad conjunta de los parémeros del modelo con probabilidad muy alta © MES Paranintos 38 ECONOMETRIA. CONCEPTS Y PROBLEMAS RESUELTOS Sots piel epnser vale Soe ]] 5s exon = Figura 143 Figura 144 ‘Como Ia variable X, resulta no significativa individualmente en el modelo (p-valor muy alto), la excluiremos utilizando la opeién Proc — Specifi/Estimate (Figura 1-45) y y rellenando la pantalla Equation Estimation sin la variable Xo (Figura 1-46). Al hacer clic en Aceptar se obtiene la estimacién del modelo (Figura 1-47). Ahora la constante es significativa al 98% (p-valor de 0,08) y la variable X; es muy significativa (p-valor muy pequefio). La significatividad conjunta de los parémetros del modelo también es muy alta (p-valor de la F muy pequefio), Se observa que las significatividades y el estadistico de Durbin Watson (més cercano a 2) han mejorado. La opcién View — Representations muestra el modelo estimado (Figura 1-48), Se observa que el aumento de ‘una unidad en X; provoca un aumento de 6,6 unidades en ¥. Secaeeae Posie ee tune) uanenencSaesed ete eet Seer Bie teams pe |lYeemnscara cite’ Stee Sincecawis” £6019 Figura 1-47 Figura 1-48 94 6© ITES- Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENCIA Y PREDICCION > La produccién de la mineria espafiola entre los aiios 1969 y 1984 expresada en unidades monetarias constantes de 1984 toma los valores X, de la tabla adjunta, El empleo del factor trabajo ‘en la produccién se expresa mediante la variable W, que cuantifica los millones de horas/hombre trabajadas. Para medir el stock de capital o riqueza se utiliza la variable C, que representa la potencia instalada en miles de caballos de vapor. x WC, 1792 1935 1141 181.0 1828 1241 1831 17171357 1849 16341465 1858 1433. 1562 2208 1404 1742 2388 1416 1954 IAL 1386 2141 242.5 1454 2352 240.7 128, 2399 2485 1264 2557 3121 149.2. 2680 347.3 1459. 2899 366.2 1445 3082 4247 139.7 3062 4049 13183052 Se trata de estimar las elasticidades del trabajo y el capital respecto de Ia produccién de nuestra industria minera en el periodo 1964-84 considerando como modelo la funcién de produccién de Cobb-Douglas SOLUCION: El modelo de Cobb-Douglas seré: X,= kW.°C" Como se trata de un modelo no lineal, aplicamos logaritmos para transformarlo en el modelo lineal siguiente: LogX, = Logk+aLogW+bLogC+ Para resolver este problema con Eviews, se carga el fichero de trabajo (1-5.wk1) usando File > Open — Eviews Workfile... y se elige Quick — Estimate Equation (Figura 1-49). Se escribe Ja ecuacién del modelo a ajustar en el campo Equation Specification de la solapa Specification, se elige Least Squares en el campo Method (para ajustar por mfnimos euadrados) y se hace clic en Aceptar (Figura 1-50) Se obtienen los resultados de Ia Figura 1-51. Se observa que todos los parémetros estimados (incluida Ia constante) son significativamente distintos de cero (p-valores muy Pequefios que indican una significatividad del 99% para el parimetro de W,, y superior para los demas). El R’ y el R” ajustado son 0,91 y 0,9 respectivamente (muy altos). © MES Paranintow 35 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS [revnaionen rele omer Pines cea] neuro nfs tex] “te a Figura 1-49 “ Sees oatore pn oaa soem Figura 1-50 Figura 1-51 EI modelo estimado es el siguiente: LogX, = -7.2940,94LogWe+ 1,06LogC, ‘que puede escribirse de la forma: 0006817, +c, Como el modelo ha sido estimado con todas las variables en logaritmos, podemos interpretar Jos pardmetros estimados en términos de elasticidades. Asf, Ia elasticidad trabajo- producto se ha estimado en 0,94, lo que indica que si se inerementa el empleo de la minerfa en un 1%, la produccién cae algo menos del 1% (0,94%). Ademés, la elasticidad capital-producto es algo superior a Ia unidad (1,06), lo que indica que incrementos del capital (potencia instalada) del 1% _generan incrementos productivos superiores a ese porcentaje (1,06%). ‘Se observa que el R’ y el R” ajustados son muy altos explicando las variables exgenas mas de ‘un 90% de la variabilidad de Ia variable endégena. La desviacién tipica estimada del error es 0,093797 y los criterios de informacion de Akaike y Schwartz tienen valores pequefios con lo que a capacidad explicativa del modelo es buena. 96 + © ITES- Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION El estadistico de Durban Watson tiene un valor demasiado alejado de 2, lo que puede rovocar posibles problemas de autocorrelaci6n. La significatividad individual de los pardmetros ¢es buena porque los p-valores son menores que 0,05. La significatividad mas pequefia es casi del 99% (variable LogW). Para ver la significatividad conjunta, rellenamos la pantalla Equation Estimation como se indica en la Figura 1-52. Al pulsar Aceptar se obtienen los resultados de la Figura 1-53 observéndose un p-valor de la F muy bajo, lo que indica alta significatividad conjunta de los pardmetros del modelo, a as] ‘SSeS ucieaeerc" a eens Saree ete Figura 1-52 Figura 1-53 Para analizar Ja importancia de Ia posible autocorrelacién graficamos Jos. valores observados de la variable dependiente contra los residuos a partir de la opeién Quick —» Graph —» Scatter (Figura 1-54). Se rellena la pantalla Series list con los residuos y la variable dependiente (Figura 1-55). Al pulsar OK se obtiene el grifico de dispersién de la Figura 1-56, que presenta una estructura aleatoria de sus puntos indicando la ausencia de problemas serios de autocorrelacién. fester Figura 1-55 (© MTES-Paraninfos 37 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS > Se trata de analizar la relacién existente entre el grado de estrés de los trabajadores Y, medido a partir del tamaiio de Ia empresa en que trabajan X;, el nimero de afios que levan en el puesto de ‘trabajo actual X, el salatio anual percibido Xs y la edad del trabajador X, Se dispone de las “observaciones siguientes: XX XY 812 15 30 38 101 334-8 20 52 60] 377, «5-20 27 10] 303 10 54 36 27 505 13 52 34 89 401 4 27 45 0 177 6 26 50 16 598 9 52 60 184 412 16 34 44 34] 127-2 28 39 «17 601 8 42 4178 297 11 84 $8 141 205 4 31 51 603 5 38 63 104] 4848 41 30 76) Una vez hallada la relacién pedida entre Jas variables, evaluar la capacidad predictiva del modelo y hallar predicciones del grado de estrés de los trabajadores para los valores siguientes de las, variables independientes SOLUCION: Podemos iniciar el problema realizando un anélisis conjunto de las series con la finalidad de ver las relaciones entre ellas. Para realizar esta tarea con Eviews, se carga el fichero de trabajo (1-6.wk/) usando File —» Open — Eviews Workfile.. y se seleccionan todas las variables del modelo (con Ia tecla Ciri. presionada se eligen todas las variables con el ratén). A continuacién se hace clic con el botén derecho sobre la seleccién y se elige Open —> as Group (Figura 1-57). En la pantalla Group se elige View — Multiple Graphs — Scatter — First series against all... (Figura 1-58) para obtener la Figura 1-59, que permite intuir una relacién lineal positiva entre el grado de estrés y cada una de las variables independientes. Esta relacién es mas fuerte con el tamafio de la ‘empresa X; y el salario actual X3. Podemos cuantificar las relaciones entre las variables mediante su matriz de correlaciones (en el ment View de 1a pantalla Group en la Figura 1-58 se elige Correlations —» Pairwise Simples) de la Figura 1-60. Se observa que el tamaiio de la empresa X; y cel salario actual X3 son las variables que presentan mayor correlacién con el nivel de estrés ¥ y que cexiste una cierta relacién entre el tamaiio de Ia empresa X; y el ntimero de afios en el puesto de trabajo X>. También hay relacién entre esta ultima variable y el salario actual X;. Es légico entonces realizar un ajuste lineal de Ta variable ¥ respecto de las demés variables. 98 + © ITES Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION Figure 57 Fiewre 3 ce saat i cer ee ee te el Figwa 59 Figura 1-60 Para realizar el ajuste lineal con Eviews, se elige Quick — Estimate Equation. Se rellena la pantalla Equation Specification de la solapa Specification como se indica en la Figura 1-61), se lige Least Squares en el campo Method (para ajustar por minimos cuadrados) y se hace clic en Aceptar (Figura 1-62). Se obtienen los resultados de la Figura 1-63. Se observa que todos los pardmetros estimados (salvo el coeficiente de X2) son significativamente distintos de cero al 95% (p-valores menores que 0,05) y que Ia significatividad conjunta es muy alta (p-valor de la F may pequefio). El R” y el R” ajustado son 0,84 y 0,78 respectivamente (muy altos) con lo que la variabilidad explicada es alta. La desviaci6n tipica estimada del error es 24,03 y los criterios de informacién de Akaike y Schwartz tienen valores pequefios con lo que la capacidad explicativa del modelo es buena. El estadistico de Durban Watson tiene un valor no demasiado alejado de 2, 1o ‘que indica ausencia de posibles problemas de autocorrelacién. Si sobre Ia pantalla Equation celegimos View — Representation se obtiene Ia ecuacién de ajuste del modelo Figura 1-64). Smt ol aa a) ear Piece ate eens Boosie os oa ————3}|| eee) FP a | ee Figura I-61 Figura 1-62 © TES Paraninfos 38 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS ee ag 7 sewer Figuca 63 Figura -O4 Se observa que un aumento en una unidad la variable X; provoca un aumento en ¥ de 0,176 ‘unidades suponiendo constantes el resto de las variables. Un aumento de una unidad en la variable Xs ‘con las dems variables constantes provoca un aumento en ¥ de 1,57 unidades. Para la variable Xl aumento es superior (1,63). La variable Xs debe eliminarse del modelo por no haber resultado significativamente distinta de cero. Para ello utilizamos la opei6n Proc —» Specify/Estimate Figura 1-65) y rellenamos la pantalla Equation Estimation sin la variable X> (Figura 1-66). Al hacer clic en Aceptar se obtiene la estimacién del modelo (Figura 1-67). Ahora todas las variables del modelo han. aumentado su significatividad (p-valores més pequefios) y los valores de R’ son mejores (mas altos). La significatividad conjunta de los pardmetros del modelo también ha mejorado (p-valor de la F mas pequelio). La opcién View —> Representations muestra el nuevo modelo estimado (Figura 1-68). Figura 1-66 fram scar corse cara Preteen On Figura 1-67 Figura 1-68 40+ © ITES Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION Se observa que un aumento en una unidad Ja variable X; provoca un aumento en ¥ de 0,16 ‘unidades suponiendo constantes el resto de las variables. Un aumento de una unidad en la variable Xs ‘con las dems variables constantes provoca un aumento en ¥ de 1,42 unidades. Para la variable Xl aumento es superior (1,75). Se ve que al eliminar del modelo Ia variable Xa, los efectos de las variables independientes sobre la variable dependiente han disminuido levemente. Por lo tanto, la introduccién de Ia variable no significativa en el modelo provocaba una sobreestimacién de los ‘efectos de las restantes variables sobre la variable dependiente Una vez estimado el modelo es muy conveniente realizar un andlisis de los residuos para detectar posibles anomalias. Para ello, en la pantalla Equation, se utilizan las opciones de Actual, Fitted, Residual del ment View (Figura 1-69). La subopeién Actual, Fitted, Residual Table ofrece los resultados de la Figura 1-70. Se obtienen los valores de la variable endégena observados ¥, y estimadosY, y el valor de los residuos. El gréfico de los residuos presenta dos Iineas discontinuas situados a una distancia de #25 de la nea central continua, siendo § el error estndar de la regresién (estimador de la desviaci6n tipica del error). Estas bandas permiten detectar la presencia de residuos significativamente distintos de cero (atipicos). En nuestro caso. sélo el residuo ntimero 8 se sale de Jas bandas (aunque no demasiado). La subopeién Actual, Fitted, Residual Graph muestra el gréfico de la Figura 1-71 que representa los residuos en el eje de ordenadas de la izquierda y los valores de la variable endégena observados y estimados en el eje de ordenadas de la derecha, De esta forma, en la parte superior del grifico aparecen las grificas de los valores de la variable endégena observados y cstimados, que han de coincidir lo més posible. En la parte inferior aparece el grfico de los residuos ‘con las bandas +25, que coincide con el grifico de Ia Figura 1-70. Este grifico ha de ser lo més aleatorio posible sin comportamiento sistemético de ningtin tipo para evitar la existencia de algin «error de especificacién en el modelo o la presencia de otros problemas como la autocortelac ra) ester] antl sl enone fereeloeend eoeenearleesteel timmmowse | an aes eae eruetta a |ESEE os Se Figura 1-70 ~ \ aR a /\ tt x V © MTES-Paraninfow 41 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS La opeién Residual Graph de la Figura 1-69 presenta solamente el grifico de los residuos y la opcidn Standardized Residual Graph presenta el grafico de los residuos estandarizados (Figura 1-72). No se observan problemas de comportamiento sistemético residual por lo que puede suponerse aleatoriedad de los residuos, Para calcular predicciones (tres en nuestro caso), nos situamos en Ia pantalla Workfile y elegimos Proc — Structure/Resize Current Page (Figura 1-73) para ampliar el tamaiio de la muestra hasta el valor 18 (Figura 1-74). Al pulsar OK se obtiene el aviso de ta Figura 1-75 indicativo de la insercién de una nueva observacién en la muestra (que de momento no tiene valores). Si es necesario, con Proc — Set Sample... (Figura 1-73) se amplia el tamaiio de la ‘muestra a 18 rellenado la pantalla Sample como se indica en la Figura 1-76. La siguiente tarea es introducir los valores de Y, X:, Xo, Xs y Xs para los que se obtendré la prediccién. Para ello seleccionamos como grupo las cinco variables eligiendo Open — as Group en el ment emergente obtenido al hacer clie con el botén derecho del ratén sobe las cuatro variables seleccionadas simulténeamente (Figura 1-77). A continuacién, en la pantalla Group se pulsa en :dit y se introducen los valores de las variables (Figura 1-78). La tarea siguiente es elegir Proc ~ Forecast en la pantalla Equation (Figura 1-79) y rellenar la pantalla Forecast como se indica en la Figura 1-80 (El vector Yf contiene las predicciones y SEf sus errores esténdar). Al pulsar OK se obtiene el grafico de Ia Figura 1-81 con los estadisticos de prediccién, Ademés, en la pantalla Workgile apatecen los dos vectores Yf y SEf en la pantalla Workfile (Figura 1-82), AI hacer clic sobre yf en la Figura 1-82 se obtiene la Figura 1-83, cuyos iltimos valores son las predicciones de la variable dependiente pedidas. Ty Fie oe Pantene, =] Ferme feed ‘a ortho satise 7 Cotintonceettan > teen 5 Figura 1-73 Figura 1-74 Snel ange posal tet 20 “a. Rasie vas neta 3cbomvtone i = @ NP Corinne? 1F conden eter | Figura 1-76 4268 ITES- Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION eer Bilan Tt G— aera | | rsa = renege (i F irnt ena oleae cbienasine ere eee I Faysateronton Figura 1-80 [oir psc beas/ | hn elena sna See 11a = wae Figura 1-83 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS Para evaluar la capacidad predictiva del modelo con Eviews, se utilizan los estadisticos de la Figura 1-81, Siendo n el horizonte de prediccién, estos estadisticos son: Coeficiente de desigualdad de Theil (Theil Inequality Coefficient): CDT Proporcién del sesgo (Bias Proportion): ——“ —")_ VE -¥ ein (S,~ Sp)" Proporcién de la varianza (Variance Proportion); ——*—*~ Le -K en 2a Proporcién de la covarianza (Covariance Proportion): <>!" Le -¥ yn Mientras més proximos estén a cero los valores de los cuatro primeros estadisticos, mejor serd la capacidad predictiva del modelo, lo que permitiré comparar un modelo con otros alternativos, Las tres proporciones varian entre cero y uno y también es conveniente que sean equeias. Los resultados obtenidos para nuestto modelo en la Figura 1-81 muestran un coeficiente de Theil muy cercano a cero, aunque los otros estadisticos no sean demasiado equeiios. La proporcién de la varianza tiene un valor pequeio y la proporcién de la covarianza tiene un valor més 0 menos aceptable, aunque no ocurre lo mismo con la roporcién del sesgo, que tiene un valor algo alto, No olvidemos que s6lo tenemos tres observaciones adicionales para la prediccién, lo que no permite alcanzar una capcidad de prediccién demasiado buena. 4468 ITES Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION 1.7. Se intenta medir el grado de salud en un grupo de personas controlando el consumo de oxigeno (oxigen) en unas pruebas fisicas en funcién de su edad, peso, tiempo empleado en la realizacién de las pruebas, pulsaciones en descanso (pd), pulsaciones en ejercicio (pe) y pulsaciones méximas (pm), Para ello se intenta realizar un ajuste del conjunto de datos de que se dispone para estas variables (I-7.w/l) a un modelo lineal que contenga las variables precisas de modo que la calidad del ajuste sea razonable. Realizar los andlisis gréficos correspondientes para detectar posibles problemas de autocorrelacién, heteroscedasticiad y no linealidad, SOLUCION: Comenzaremos utilizando un modelo que englobe todas las variables definidas en ‘el modelo siendo oxigen la variable dependiente. Para realizar el ajuste lineal con Eviews, ‘cargamos el fichero de trabajo (1-7.wk1) usando File > Open —» Eviews Workfile... y se elige Quick —> Estimate Equation (Figura 1-84). Se rellena la pantalla Equation Specification de la solapa Specification como se indica en la Figura 1-85, se elige Least Squares en el campo Method (para ajustar por minimos cuadrados) y se hace clic en Aceptar (Figura 1-86). Se obtienen los resultados de la Figura 1-87. eo Egat ete cette ceed big eg tia. arene chia Sa Figura 1-84 ee thy EES Sioa = 7 Racket tr 2388 Stine 1G Figura 1-86 Figura t-87 © MES Paranintow 45 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS Se observa que todos los pardmetros estimados son significativamente distintos de cero al 95% (p-valores. menores que 0,05) salvo los relativos a las variables pd y peso y que In significatividad conjunta es muy alta (p-valor de la F muy pequefio). El R* y el R? ajustado son 0,84 y 0,81 respectivamente (muy altos) con lo que la variabilidad explicada es alta. La desviacién tipica estimada del error es 2,31 y los crterios de informacién de Akaike y Schwartz tienen valores pequefios con lo que Ia capacidad explicativa del modelo es buena. El estadistico de Durbin ‘Watson tiene un valor no demasiado alejado de 2, lo que indica ausencia de posibles problemas de autocorrelacién, Las variables pd y peso deben eliminarse del modelo por no haber resultado significativamente distinta de cero, Para ello utilizamos la opeién Proc —> Specif\/Estimate (Figura 1-88) y rellenamos la pantalla Equation Estimation como se indica en la Figura 1-89) Al hacer clic ‘en Aceptar se obtiene la estimacién del modelo (Figura 1-90). Ahora todas las variables del modelo son todas significativas al 95% (p-valores més pequefios que 0.05 aproximadamente) y la significatividad conjunta de los pardmetros del modelo es muy buena (p-valor de la F muy pequefio. Laopeién View —» Representations muestra el nuevo modelo estimado (Figura 1-91), [Pestnoscomt oes nem eal — Sees |i Bat Mtoe sos tse aries Bi Miterccun ‘Eerie Rens ewern tT fasta) a Figura 138 Figura 189 eee ee) Bao elses st acm) pan SSnGEN= 6m) + COEERS Fo—yPE car + esEWPO Teo Games St>Ne OM tebe Fabri Onno Figura 1-90 Figura 1-91 Se observa que el grado de salud esti en relacidn inversa con la edad, las pulsaciones en ejercicio y el tiempo empleado en la realizacién de las pruebas, y esté en relacién directa con las, pulsaciones méximas, 46 + © ITES- Parente MODELO DE REGRESION MULTIPLE: ESTIMACION, INFERENOIA Y PREDICCION En la figura 1-90 se observa que el estadistico de Durbin Watson tiene un valor no demasiado alejado de 2 (1,8), lo que indica ausencia de posibles problemas de autocorrelacién, Para comprobar grificamente la ausencia de heteroscedasticiad y no linealidad representamos los residuos contra las variables independientes del modelo. Par ello elegimos Quick —> Graph — Scatter (Figura 1-92) y rellenamos Ia pantalla Series List sucesivamente como se indica en las Figuras 1-93, 1-95, 1-97 y 1-99. Al pulsar OK se obtienen las Figuras 1-94, 1-96, 1-98 y 1-100. Se observa que todos los gréficos muestran una estructura aleatoria de sus puntos, lo que indica ausencia de problemas de heteroscedasticidad y no linealidad. También pueden representarse los residuos contra los valores predichos para analizar la heteroscedasticidad y la autocorrelacién. Para ello se calculan los valores predichos eligiendo Proc —> Forecast en la pantalla Equation (Figura 1-101) y rellenando la pantalla Forecast como se indica en la Figura 1-102 (El vector oxigenf contiene las predicciones). A continuacién se elige Quick — Graph — Scatter y se rellena la pantalla Series List sucesivamente como se indica en las Figuras 1-103. Al pulsar OK se obtiene la Figura 1-104 que también presenta una estructura aleatoria de sus puntos, lo que indica ausencia de problemas de heteroscedasticidad y autocorrelacion. Ltt cine coups and set expan fresco a Cog] seca | Figura 1-93 Figura 1-94 ite eres. andl sn nen jes enbo Loreel_| Figura 1-95 (© MTES-Paraninfow 47 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS Us of sees. soups anda sts expen te Figura 197 Litt sets, goups, and sts exper sons fester | Figura 198 Figura 1100 mas UNTITLED Sime 86H Fowasime [oat Se cat ‘Sie | ——| | rome -—_ Foecon erge 1 Peet ir 1 Faecateronaten I Inet cab rut oane en sne err) = | Unt sets, ioupe, arose pesos (es onoent Figura 1-103 48 +© ITES- Parente Figura 1-102 ning EE Pelee) rele) Bal os Bey ct . eule Figura 1-104 ECONOMETRIA. CONCEPTOS Y PROBLEMAS RESUELTOS 2.1_MODELOS CON DATOS DE CORTE TRANSVERSAL Ya sabemos que un conjunto de datos de corte transversal (0 datos de seccién eruzada) es una muestra compuesta por individuos, familias, empresas, ciudades, estados, paises u otro tipo de unidades muy variadas recogida en un momento determinado del tiempo. Por lo tanto, la dimensién temporal no existe. En ocasiones, los datos de cada unidad no son ‘exactamente del mismo periodo de tiempo. Por ejemplo, podrian hacerse encuestas a diversas familias durante semanas distintas de un mismo aio. En un anélisis de corte transversal, ignorarfamos cualquier pequefia diferencia en el tiempo de recopilacién de los datos. Aunque ‘un conjunto de familias fuese encuestado en semanas diferentes del mismo afio seguirfamos considerando estos datos como datos de corte transversal. Otra caracteristica importante de los datos de corte transversal es que se supone que se han obtenido mediante un muestreo aleatorio de la poblaci6n subyacente. Este capitulo se centra en el anilisis de datos de corte transversal ya que es el que conlleva menos dificultades de tipo conceptual 0 técnico, al tiempo que permite ilustrar la mayoria de los aspectos principales del anilisis econométrico. Las técnicas utilizadas con este tipo de datos se usan también cuando se traten otros tipos de datos, como los datos de series temporales, Mientras que el andlisis econométrico de series temporales emplea muchas de las, herramientas que se utilizan para el andlisis de corte transversal, el primero es més complicado debido a que muchas series temporales econdmicas suelen tener tendencias, correlaciones, fuerte persistencia, dinémica y estacionalidad. La econometria se emplea en todas las ramas de la economia para contrastar teorias econsmiicas, como fuente de informacién para las personas encargadas de establecer medidas de politica econémica, tanto del émbito privado como a nivel gubernamental. Algunos modelos econométricos derivan de modelos econémicos formales, pero otros se basan en razonamientos econdmicos informales y en la intuicién. El objetivo de cualquier anslisis econométrico es estimar los pardmetros del modelo y contrastar hipétesis sobre estos parémetros; los valores y los signos de los parémetros determinan la validez. de una teorfa econdmica y los efectos de ciertas politicas econémicas. Los datos de corte transversal, de series temporales, de panel y los datos fusionados de seccién cruzada, son los tipos de datos que se emplean mas a menudo en econometria aplicada. Los datos de corte transversal se emplean muy frecuentemente en economia y en otras ciencias sociales, especialmente en ramas de la mieroeconomia aplicada, como la economia del trabajo, las finanzas ptblicas tanto estatales como locales, 1a organizaci6n industrial, Ia economfa urbana, la demografia y la ‘economia de la salud. Suelen ser problemas muy comunes en la econometria con datos de corte transversal Ja presencia de heteroscedasticidad (varianza no constante en los términos de error), ‘multicolinealidad (asociacién lineal entre las variables explicativas), no linealidad en la ‘expresién matemética del modelo, errores de especificaci6n (no incluir las variables adecuadas ni Ia forma funcional 6ptima que define el modelo), endogeneidad y regresores estocdsticos (dependencias entre Ia perturbacién y las variables explicativas y regresores aleatorios). Estos mismos problemas serén también transladables para los modelos con datos de series temporales. No obstante, en el capitulo siguiente se analizarén los problemas especificos de los modelos con datos de series temporales. 50+ © ITES-Paraninto MODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL, 2.2__HETEROSCEDASTICIDAD: ESTIMACION MCG 2.2.1 _ El problema de la heteroscedasticidad y su deteccion En el modelo lineal ¥ = XB + u, suponfamos una serie de hipstesis entre las que se encontraban que la variable w (término de error) es una variable aleatoria con esperanza mula (E(u) = 0) y matriz de covarianzas constante y diagonal (Var(u)= 07 J, matriz escalar). Es decir, que para todo 1, la variable u, tiene media cero y varianza 0 no iente de 1, y ademas Cov(u; 1) = 0 para todo i y para todo j distintos entre si, pudiendo escribir Var(u)= 07 Ii. El hecho de que la varianza de u, sea constante para todo 1 (que no dependa de 1), se denomina hip6tesis de homoscedasticidad. Si se relaja esta hipstesis y Ia varianza de u, no es cconstante estamos ante la presencia de heteroscedasticidad. La importancia del incumplimiento de la hipstesis de homoscedasticidad radica, entre otras cosas, en que los estimadores obtenidos por MCO no son de varianza minima aunque sigan siendo insesgados. Ademés, para cada variable del modelo se estimaré una varianza del error. Para analizar la heteroscedasticidad de un modelo suele comenzarse por el anélisis grifico de los residuos, siendo esenciales las gréficas de los residuos (a poder ser estudentizados) respecto de la variable end6gena predicha y respecto de las exdgenas, que deben de presentar una estructura aleatoria libre de tendencia. El grafico de los residuos contra cada variable exdgena permite detectar como variable mds culpable de heteroscedasticidad aquella cuyo gréfico se separa més de la aleatoriedad. También es un instrumento gréfico til Ia grifica de valores observados contra valores predichos, cuyos puntos han de ser lo més ajustados posible a la diagonal del primer cuadrante, Aparte del anélisis grifico es necesario realizar contrastes formales de heteroscedasticidad, entre los que destacan Goldfeld-Quandt, Glesjer, Breush-Pagan, White, GARCH, ARCH y RESET de Ramsey. Contraste de Goldfeld-Quandt Se detecta la variable culpable de heteroscedasticidad X, y se ordenan las observaciones muestrales de todas las variables en funcién de la ondenacién de X,. Se suprimen las ¢ observaciones centrales de modo que sean 1/3 del total y se hacen dos regresiones distintas con lo que queda. Se considera el estadistico F = SCEV/SCE2 que, bajo la hipétesis de homoscedasticidad, es una F de Fisher con (T-e-2kY2 grados de libertad en ambas dimensiones. SCE1 es la suma de cuadrados del error de Ia regresidn relativa a la submuestra de valores bajos de X, y SCE2 es la relativa a la submuestra de los valores altos Contraste de Glesjer Se estiman los residuos del modelo u, por MCO y se realiza la regresi6n: I-10 12 [uj |= dot diZi'+ri, variable culpable, ft Contrastar d=0 en el modelo anterior es equivalente a contrastar la hipétesis de homoscedasticidad en el modelo inicial Contraste W de White Se efectiia una regresién de los cuadrados de los residuos MCO sobre todas las variables independientes del modelo, sus cuadrados y sus productos cruzados de dos en dos. La homoscedasticidad se acepta si la F permite aceptar la nulidad conjunta de todos los ardmetros salvo la constante © MES Paranintos 51 ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS Contraste RESET de Ramsey En una primera etapa se estiman los residuos u, del modelo inicial y los correspondientes valores ajustados de ¥,, Para cada tse calculan las m primeras potencias de las estimaciones de ¥, En una segunda etapa se realiza la regresin auxiliar de las estimaciones de u, contra todos los regresores del modelo inicial y las m primeras potencias de las estimaciones de Y,. Si no hay significatividad de los coeficientes hay heteroscedasticidad, Contraste de Breush-Pagan Se utiliza cuando la varianza no constante de las perturbaciones puede expresarse como @? = h(Z,’a) siendo h una funcién y Z, un vector con las variables que producen la heteroscedasticidad. Si a = 0 la varianza es constante El contraste se realiza obteniendo los residuos del ajuste del modelo y considerando los cocientes g, entre los cuadrados de cada residuo del modelo original y la media aritmética de dichos cuadrados (o 1a estimacién MV de la varianza del error). Al realizar la regresién centre las variables g, y las variables culpables Z, (p-1 variables) més la constante, la cantidad Q = VER se distribuye segiin una Chi-cuadrado con p-I grados de libertad bajo la hipstesis mula de homoscedasticidad (a = 0). VE es la varianza explicada de la regresi6n anterior. La mejor propiedad de este contraste es que no es necesario explicitar la forma de la funci6n h Contraste ARCH (Autorregresive Conditional Heteroscedasticity) Dado que la varianza del témino del error puede interpretarse como una incertidumbre en Ia relacién econémica especificada en un modelo, una mayor incertidumbe en el pasado podria afectar al comportamiento presente, por lo que Engel (1982) propuso que Ja matriz de varianzas y covarianzas del término del error del modelo ¥ = X B + u depende del ‘cuadrado de los errores observados en el pasado: 7 = V(u) = dotds tha Met dy trp? Evidentemente, si d; =...= d, = 0 no existe efecto ARCH (no hay heteroscedasticidad) En la prictica, para realizar el contraste ARCH(p), se comienza estimando los residuos 1, del modelo inicial y después se realiza la regresin auxiliar uj? = detdy Wut. dy La homoscedasticidad existe sila F acepta la nulidad eonjunta de los parsimetros salvo la constante Un problema habitual en este método es identificar p, para lo cual suele usarse el correlograma estimado de los residuos al cuadrado, tomando p como el retardo a partir del cual Jos coeficientes son no significativos Contraste GARCH (Generalizad Autorregresive Conditional Heteroscedasticity) Boliersiev (1986) amplié Ia estructura ARCH de Engel incluyendo en la especificaci6n de la varianza valores retardados de la misma, de modo que en una estructura GARCH(p.q) tenemos: 0° = Vu) = dotdwnrt.+ dat yptQ@ Our ++ OF rg La identificaci6n de p y q se realiza como en Ios modelos ARIMA a través del correlograma y el correlograma estimado. Actualmente se utilizan otras estructuras GARCH mas amplias, como Jos modelos TARCH, EGARCH, PARCH, CGARCH y GARCH-M. 926© ITES- Parente MODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL, Contraste de rangos Se trata de un método no paramétrico que se resume en los siguientes pasos: + Se aplican mfnimos cuadrados al modelo original ‘* Se calculan los rangos de los residuos en valor absoluto y de las observaciones de la variable culpable de la heteroscedasticidad © Se calcula el coeficiente de correlacién por rangos de Sperman r, = 1-6ED/1T*-1)) siendo D, la diferencia entre los rangos de la variable explicativa y Ju © Se contrasta la hipétesis nula Ho: 2, = 0 mediante el estadistico r,(7-2)""/(1-r2)'” que sigue una r de Student con 7-2 grados de libertad, Sise acepta Hohay homoscedasticidad, y si se rechaza, hay heteroscedasticidad, 2.2.2 Soluciones para la heteroscedasticidad: Minimos Cuadrados Generalizados (MCG) y Minimos Cuadrados Ponderados En general, para resolver el problema de heteroscedasticidad es necesario realizar la estimaci6n por MCG (Minimos Cuadrados Generalizados). Pero si la estructura de la varianza de las perturbaciones es conocida, se facilita el eélculo de los estimadores. Si se puede suponer aproximadamente que 07 = f(Z)), siendo Z, un vector de variables que incluye una o varias variables exdgenas de la regresién y /uuna funcién cualquiera, entonces puede reducirse Ia estimacién MCG a MCO (Mimimos Cuadrados Ordinarios) con ponderaciones adecuadas (Minimos Cuadrados Ponderados). Entre las estructuras tipicas de la varianza tenemos 07 = FX, 07 = 0X,', o? = a+bXy y a2 = exp(Z7’a), siendo las dos primeras las mas comunes y la tercera una translacién de la primera. En los dos primeros casos las matrices de varianzas covarianzas resultan ser: xX, 0 0 0 eu] Xe 0 ° 0 0 Re bg En estos casos la regresién MCG coincide con la MCO utilizando como ponderaciones los valores 1/X; y 1/X;", 0 sea los inversos de los elementos de la diagonal de 5. Si la estructura de la varianza es 6?= 0°X;, el modelo se transforma dividiendo sus términos por X;"”, de modo que estimariamos por MCO el modelo: yf, a. ay Ky Ky Ke Ky Ky En general, para resolver el problema de heteroscedasticidad es conveniente tomar logaritmos. También pueden suprimirse las variables més culpables con justificacién estadistica y econémica o introducir variables dummy adecuadas, © MTES-Paranintos 58 ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS Para detectar Ja mejor forma funcional que sigue la varianza, se ajustan distintos modelos para las distintas formas funcionales del tipo siguiente Se toma como esquema de heteroscedasticidad aquella forma funcional para Ia que Ia regresién correspondiente presenta un R” mas elevado, 2.2.3 Soluciones para la heteroscedasticidad: Modelos ARCH y GARCH Detectada una estructura de heteroscedasticidad autorregresiva condicional ARCH) en un modelo, existen métodos para su estimacién, La estructura del modelo a estimar ser Y=XB+u, 7 = Vu) = dgtdy ty +. dy ey? La estructura anterior puede ampliarse a Ia estimacién de un modelo GARCH(,) con heteroscedasticidad autorregresiva condicional generalizada, EI modelo a estimar en este ¢as0 es: Y=XB+u digtdyt yt. dell OO p14. OyPug La estructura GARCH-M amplia Ia estructura GARCH introduciendo Ia varianza como término de la ecuacién el modelo, El modelo a estimar en este caso serd B+ Ro? +u, dotdstl st. del OO 14. + MP vg y Dos variantes de la estructura GARCH-M consisten en introducir en la ecuacién del modelo el logaritmo de la varianza (en lugar de la varianza) o incluso la desviacién tipica: y Y B+ Alog(o? +, B+ dot La estructura GARCH(p,g) también puede ampliarse con la introduccién de regresores ‘exdgenos en el estructura de la varianza. El modelo a estimar en este caso es: y o Bey , abit dl gh Oot OO? AZ La estructura TARCH(,4,r) denominada Threshold GARCH también es una ampliacién OF = dotdilul 0, sb... dell. Op + O4l0g( Os) +... Oh log O:g)4B, eal Os +--+ Bett Or 94 © ITES-Paraninto MODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL, La estructura PARCH(,g7) denominada Power ARCH también es una ampliak modelo GARCH(p,q) El modelo a estimar en este caso es: Y=XBtu; Of = dots insta)”. dig Poti) #040 1. CGO (r>0, [AISI i=1,...,s, B=0 para i>s y s10), donde R? es el R° de la regresi6n auxiliar de la variable explicativa jen funeidn de las demas variables explicativas. Valores propios A de X'X cercanos a cero 0 indice de condicién (Ayéx/Ays)'” mayor que 30. El contraste de Farrar-Glauber basado en el estadistico G = -[T-1-2k+5)/6]L|R. que bajo Ia hipstesis mala de no muticolinealidad es una Chi-cuadrado con k(k-1)/2 grados de libertad. 7 ‘sel tamaiio muestra, k-I el niimero de variables explicativas y Ry su matriz de correlaciones, Soluciones para la multicolinealidad Entre las soluciones més comunes para la multicolinealidad tenemos: Ampliar la muestra o transformar las variables (por ejemplo a ratios o diferencias). Suprimir algunas variables con justificacién estadistica y econémica. (© MES Paranintow 55 ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS © Sustitucién de las variables explicativas por sus componentes principales mas significativas (puntuaciones). * Utilizar el modelo en diferencias vigilando la autocorrelaci6n. ‘© Usar la regresién en cadena, que ofrece como estimadores de los pardimetros (X’X+cl)' X’Y siendo ¢ una constante adecuada. La matriz de varianzas covarianzas adopta la forma o'(X'X+cl)X’X(X'X+cl)". En la prictica suele tomarse como un valor entre 0,01 y 0,1 ‘que hace que el ajuste sea bueno en cuanto a R’ y significatividad individual y conjunta, 2.4 NORMALIDAD DE LAS PERTURBACIONES 2.4.1 El problema de la falta de normalidad en los residuos Una de las hiptesis importantes a cumplir en el modelo de regresién miitiple es la normalidad de los residuos. Aunque dicha hipétesis no es necesaria para la obtencién de los estimadores de los parimetros del modelo de regresiGn por el método de los minimos cuadrados ‘ordinarios, s{es estrictamente necesaria para la realizaciGn de la inferencia en el modelo, Para probar la normalidad de los residuos puede utilizarse cualquier contraste de ajuste a ‘una distribucidn normal, por ejemplo el contraste de la Chi-cuadrado 0 el contraste de Kolmogorov-Smimov. No obstante, existen también contrastes especificos para comprobar el ajuste de un conjunto de datos a una distribucién normal, como pot ejemplo Contraste de normalidad de Shapiro y Wilks y los contrastes de normalidad de asimetrfa, curtosis_ Jarque-Bera. Contraste de normalidad de Shapiro y Wilks El contraste de Shapiro y Wilks mide el ajuste de los residuos de la regresién a una recta al dibujarla en un papel probabilistico normal. Se rechaza la normalidad cuando el ajuste es bajo, que corresponde a valores pequefios del estadistico del test. Dicho estadistico toma la expresion: donde ns*=(.x, -¥)’, h es ni2 sin es par y (n-1)/2 sin es impar. Los coeficientes a,, estén tabulados y x,) es el valor ordenado en Ia muestra que ocupa el lugar j. La distribucién de w est tabulada, y se rechaza la normalidad cuando su valor ealculado a partir de la muestra es menor que el correspondiente valor critico dado en las tablas. De todas formas, puede utilizarse el criterio del p-valor, rechazando la hipétesis nula de normalidad de los datos al nivel cuando el p-valor es menor que @ y acepténdola en caso contratio. Contrastes de normalidad de asimetria, curtosis y Jarque-Bera Estos contrastes se basan en los coeficientes de asimetria y curtosis muestrales (la muestra son los residuos del modelo). Si la hipétesis de normalidad es cierta, el estadistico del contraste, que es el coeficiente de asimetria muestral o% = ms /m,"", tiene una distribucién asintéticamente normal de media cero y varianza 6/n, siendo mr y m; los momentos muestrales centrados en la media de drdenes 2 y 3 respectivamente. Tenemos: re) 96 + © ITES-Paraninto MODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL, Este estadistico a permite contrastar la hipstesis de que los residuos provienen de una distribucién con simetrfa normal (asimetria = 0) y se basa en que si la hipstesis de normalidad es cierta, el coeficiente de asimetrfa estima un parémetro de la poblacién que es cero (el coeficiente de asimetria de una distribucién normal es cero). Para realizar el contraste se halla el valor k tal que P(d% > k) = @ siendo cel nivel de significacién establecido para el contraste. Si el valor del estadistico para los residuos es mayor que k se rechaza la hipétesis nula de simetrfa, y por supuesto la de normalidad. De Ia misma forma, si la hipotesis de normalidad es cierta, el estadistico del contraste, que es el coeficiente de curtosis muestral a= ms/m,*-3, tiene una distribuci6n asint6ticamente normal de media cero y varianza 24/n, siendo mz y my los momentos muestrales centrados en Ia media de 6rdenes 2 y 4 respectivamente aa Be-a-oio | Este estadistico @ permite contrastar Ia hipstesis de que los residuos provienen de una distribueién con curtosis normal (curtosis = 0) y se basa en que si la hipétesis de normalidad es cierta, el coeficiente de curtosis estima un pardmetro de la poblacién que es cero (el coeficiente de curtosis de una distribucién normal es cero). Para realizar el contraste se halla el valor & tal que P(a > k) = @ siendo cel nivel de significacién establecido para el ccontraste, Si el valor del estadistico a para los residuos es mayor que k se rechaza la hipstesis nula de curtosis cero, y por supuesto la de normalidad. Para muestras grandes, el contraste de Jarque-Bera usa los dos estadisticos anteriores mediante la consideracién del estadistico de Bowman-Shelton siguiente: a a ay [f-E)2 Es posible utilizar para estos contrastes (como siempre) el criterio del p-valor, rechazando Ia hipétesis nula de normalidad de los residuos al nivel & cuando el p-valor es menor que cen alguno de ellos, y aceptindola cuando el p-valor es mayor que cen los dos. Como criterio més suave sobre 1a normalidad, suele considerarse normal 1a poblacién ‘cuya muestra presenta coeficientes de asimetria y curtosis comprendidos entre ~2 y 2 2.4.2 Soluciones para la falta de normalidad en los residuos Habitualmente la falta de normalidad en los residuos suele provenir de la presencia de datos atipicos que generan una distribucién mas apuntada o no simétrica. Estos problemas en los. residuos suelen aparecer cuando se omiten variables relevantes en el modelo o cuando existe falta de linealidad en Ia especificacién del mismo. Si se arreglan previamente los problemas citados, suelen solucionarse los problemas de normalidad residual. Cuando los residuos no son normales por Ja presencia de més de una moda, los datos suelen provenir varias poblaciones, lo que puede arreglarse con la introduccién de variables ficticias en el modelo para las diferentes poblaciones, En ‘otras ocasiones, Ia solucién para la falta de normalidad es la transformacién adecuada de las variables para conseguirla, por ejemplo la transformacién de Box Cox y sus derivados. (© MES Paranintos 57 ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS 2.5 NO LINEALIDAD Y ERRORES DE ESPECIFICACION La técnica de los minimos cuadrados ordinarios MCO es el caballo de batalla de los econsmetras y se utiliza de modo rutinario en el anélisis de una gran variedad de conjuntos de datos. Bajo los supuestos exigidos al modelo lineal, los estimadores mfnimo cuadréticos oseen las propiedades deseables y, por ello, pueden emplearse con fiabilidad. Sin embargo, nos enfrentamos a una pregunta crucial. {Cémo saber si los supuestos que ocultan los MCO son vilidos para un conjunto determinado de datos? {Cémo conocer las propiedades del ‘término de perturbacién no observable?%,Cémo saber qué variables incluir en la matriz X y en qué forma funcional hacerlo? Cuando alguno de los supuestos subyacentes carece de validez, {qué sucede con los estimadores MCO? {Siguen siendo titiles o resultan confusos? Existen estimadores y procedimientos de inferencia alternativos que resulten mas apropiados bajo supuestos alternativos? En este capitulo y en los siguientes responderemos a estas preguntas El error de especificacién aparece cuando alguno de los supuestos esté equivocado, Ciertos errores de especificacién tienen implicaciones menores; otros, sin embargo, las tienen muy graves. Resulta tremendamente importante estar alertado de posibles errores de especificacién y verificar su presencia. En este capitulo se estudia cémo muchas veces es necesario utilizar y desarrollar especificaciones y procedimientos de inferencia més complejos ‘que los que subyacen en la técnica de los MCO. La especificacién del modelo lineal se centra en el vector de términos de perturbaciones w y en la matriz X. Recordemos que los supuestos esenciales del modelo lineal y= XB-+u relativos a las perturbaciones son: u, son indepedientes idénticamente distribuidas N@.?) i= 1, .... m (perturbaciones normales de ruido blanco), homoscedasticidad E(u’) diaglo,... 2) 0 matriz de varianzas covarianzas residual constante), endogeneidad (E(X;u,) = 0 para todo i = 1... KY $= Ivy M0 incorrelacién entre las perturbaciones y las variables independientes) y ausencia de autocorrelacién (E(u,u,.,)=0 (8 #0) 0 ausencia de comrelaciones centre perturbaciones adyacentes). La heteroscedasticidad (ausencia de homoscedasticidad) es muy frecuente en aplicaciones con datos de corte transversal, aunque puede encontrarse también en aplicaciones con datos de series temporales. En las aplicaciones de series temporales se dan fuertes correlaciones entre perturbaciones adyacentes y, tal vez, correlaciones menores entre perturbaciones més alejadas entre s{ (autocorrelacién). De modo similar, y cuando trabajamos con datos de corte transversal, es posible que ciertas unidades compartan perturbaciones comunes. También existen en el modelo lineal supuestos relativos a la matriz X, entre los que destacan su rango pleno (ausencia de multicolinealidad), la inclusién y no exclusién de variables relevantes en X (ausencia de errores de especificaci6n en la seleccién de las variables explicativas) y problemas de especificacién de una forma funcional incorrecta para el modelo. Otro supuesto comiin es la estacionariedad de las variables del modelo. La mayoria de los procedimientos de inferencia tradicionales suponen que las variables son estacionarias. Cuando no se da este caso nos enfrentamos a procedimientos de inferencia no esténdar y nos introducimos en el campo de las variables integradas, la cointegracién, los modelos de correccién del error, etc., que se tratarén més adelante También pueden existir problemas de especificacién con f. Las especificaciones del modelo lineal asumen de forma implicita que f es un vector constante, tanto en el conjunto de observaciones actuales como en otras observaciones muestrales posibles. Estamos ante a cespecificacién de ausencia de cambio estructural que se tratara en un capitulo posterior. 58 + © ITES-Paaninto MODELOS DE REGRESION CON DATOS DE CORTE TRANSVERSAL, Las pricticas econométricas habituales formulan un modelo basado en teorfa o en anteriores descubrimientos econométricos, estiman los pardmetros del modelo mediante los datos muestrales relevantes disponibles, y examinan los estimadores resultantes y estadisticos asociados con el fin de juzgar la validez del modelo especificado. Dicho examen suele centrarse en el ajuste global, en Ia concordancia con los signos de unos coeficientes previamente supuestos, en la significacién estadfstica de los coeficientes y en la comprobacién de la autocorrelacién de las perturbaciones. Si el modelo cumple dichos critetios satisfactoriamente, Ia nueva ecuacién pasaba a engrosar la literatura de la materia y podria utilizarse para realizar predicciones con datos externos a la escala temporal o al rango empirico de Ia muestra. En caso de que el modelo se clasifique de insatisfactorio, el nvestigador seguiré intentando hallar la reformulacién que cumpla los requisitos necesatios, Actualmente existen tendencias basadas en comprobar de todas las formas posibles las especificaciones y que s6lo deberdn utilizarse aquellas que sobrevivan a este proceso de prueba y que correspondan a un modelo econémico razonable. Asi se llega a una auténtica baterfa de pruebas de diagnéstico que no pueden utilizarse ni de forma automética ni rutina ya que requieren una dosis de juicio, intuicién econémica o sentido comin, Algunos de los ccontrastes resaltan un error o errores de especificacién en particular. Otros indican que determinada especificacién no funciona bien sin sefialar explicitamente un problema preciso. Finalmente, puede ocurrir que sobrevivan a este proceso de prueba o que algunas cespecificaciones superen un cierto tipo de pruebas estadisticas pero no otras. 2.5.1 Error de especificacion en la seleccin de las variables explicativas Las especificacién mds importante del modelo lineal relativa a la matriz X es que sea tuna matriz no estocéstica de rango pleno igual a k (ausencia de multicolinealidad). Pero puede haber posibles problemas adicionales con X, entre los que destacan: 1, Exelusi6n de variables relevantes (variables omitidas). La teorfa econsmica ensefia que cel ingreso y los precios afectan conjuntamente a la demanda, por lo tanto, si aislamos el ingreso de la ecuacién de 1a demanda no esperamos obtener un buen estimador para la clasticidad del precio. Sin embargo, y en situaciones més complicadas, no suele ser tan evidente averiguar cudles son Ias variables a incorporar en una relacidn, lo que puede gar a convertirse en un importante problema de especificacién, 2. Inclusién de variables irrelevantes (redundantes). Caso contrario al anterior. Ahora, la hipétesis incluye variables que no deberian estar presentes en la ecuacidn. Este hecho tiene ciertas consecuencias sobre los procedimientos de inferencia aunque, en general, suelen ser menos graves que aquellas relacionadas con la exclusi6n de variables relevantes, Existen contrastes para observar si un modelo adolece de variables omitidas. El test de Ja razén de verosimilitud para variables omitidas permite aiadir un conjunto de variables a una ecuaci6n existente y contrastar si constituyen una contribucién significativa a la explicacién de la variable dependiente. Este contraste tiene como hipétesis mula que el cconjunto regresores adicionales no son conjuntamente significativos. ‘También existen contrastes para detectar si un modelo presenta variables redundantes. El test de la razén de verosimilitud para variables redundantes permite contrastar si_un subconjunto de variables de una ecuacién existente son conjuntamente significativas, © mejor dicho, si los coeficientes de determinadas variables del modelo van a tener valor cero, en cuyo ‘caso esas variables pueden ser eliminadas de la ecuacién del modelo, © MES Paranintos 58 ECONOMETRIA, CONCEPTOS Y PROBLEMAS RESUELTOS El test de Wald para contrastar restricciones en los coeficientes de un modelo también puede utilizarse para detectar cuando una variable es redundante. Basta comprobar cuando puede considerase cero su coeficiente de modo formal a través del test citado. También es posible aplicar métodos de inclusién o exclusién automética de variables en el modelo, Partiendo de un conjunto inicial de k variables, se trata de no incluir nuevas variables irrelevantes en la definicién del modelo ni omitir variables adecuadas. El método més rudimentario serfa efectuar todas las regresiones posibles partiendo del conjunto més amplio de variables candidatas en el modelo y elegir la mejor con las variables que sean significativas. No obstante existen métodos automatizados que realizan esta tarea. El método de seleccién hacia delante (método forward) permite partir de un conjunto minimo de variables en Ia regresidn e ir incluyendo variables adecuadas en el modelo de forma sucesiva ‘comprobando la significatividad del nuevo coeficiente, El método de seleccién hacia atrds (método backward) parte de 1a regresién con todas las variables y va eliminando las no significativas por orden de significatividad hasta encontrar un modelo adecuado con todas sus variables lo suficientemente significativas. El método paso a paso (método stepwise) es un método de selecci6n hacia adelante que comprueba en cada paso, no sélo Ia significatividad del nuevo coeficiente, sino también la de las variables incorporadas en los pasos anteriores. 2.5.2 Error de especificacién en la forma funcional Puede darse el caso de que las variables incluidas en un modelo sean las correctas pero la forma funcional lineal que las relaciona sea incorrecta. A veces, el contexto de modelo lineal es suficiente para manejar el problema, pero en ocasiones no puede sostenerse la linealidad y estamos ante problemas de no linealidad. Una relacién Y = f(X,,X) puede especificarse como Y = 8, + B,X,+B,X,+u 0, como Y=, +f,X,+8,X,+7,X} +y3X}+(X,X,)+u. La segunda ecuacién ‘permite tanto una respuesta cuadritica a los regresores como un efecto de interaccién. El efecto de interaccién se basa en una nueva variable, el producto de los dos regresores. Por lo tanto, el efecto esperado de un cambio unitario en X sera, +2y, + OX, dependiendo pues de fi; y de los niveles de X2 y Xs. Del mismo modo, el efecto esperado de un cambio unitario en Xs dependers tanto del nivel de Xp, como del de Xs. Cuando el error de especificacién consiste en utilizar la primera ‘ecuacién en lugar de la segunda, aquél se corrige fiicilmente aftadiendo los términos X}, X}, y (X,X,). En otros casos, serd necesaria una especificacién intrinsicamente no lineal, Para detectar problemas de especificacién en la forma funcional suelen utilizarse los grificos de los residuos, que, ante la presencia de no linealidades, normalmente presentan tendencias que indican su falta de aleatoriedad. Los altos grados de autocorrelacién también son indicadores de la posible presencia de mala especificacién funcional en el modelo, Asimismo, es ttl realizar la representacidn de los gréficos de los residuos contra las variables explicativas y predichas con la finalidad de comprobar que son aleatorios. La falta de aleatoridad en estos grificos puede indicar la presencia de un problema de no linealidad 0 de mala especificacién funcional del modelo, La solucién para los problemas de mala especificacién del modelo pasa por introducir variables ficticias o por la definicidn alternativa de la ecuacién del modelo baséndose en la tendencia observada en los graficos residuales citados anteriormente. 60+ © ITES- Parente

También podría gustarte