Está en la página 1de 696
FCONOMETRIA Segunda edi ALFONSO NOVALES CINCA Catedratico del Departamento de Economia Cuantitativa Facultad de Econémicas. Universidad Complutense Madrid McGraw-Hill MADRID « BUENOS AIRES » CARACAS e GUATEMALA @ LISBOA # MEXICO NUEVA YORK @ PANAMA e SAN JUAN # SANTAFE DE BOGOTA e SANTIAGO e SAO PAULO ‘AUCKLAND « HAMBURGO @ LONDRES @ MILAN e MONTREAL # NUEVA DELHI PARIS @ SAN FRANCISCO e SIDNEY e SINGAPUR @ ST. LOUIS # TOKIO e TORONTO ECONOMETRIA. Segunda edicién No esté permitida fa reproduccién total o parcial de este libro, ni su tratamiento informatico, ni la transmision de ninguna forma o por cualquier medio, ya sea electrénico, mecanico, por fotocopia, por registro u otros métodos, sin el permis previo y por escrito de los titulares del Copyright. DERECHOS RESERVADOS © 1993, respecto a la primera edicién en espafiol, por McGRAW-HILL/INTERAMERICANA DE ESPANA, S. A. U. Edificio Valrealty, 1? planta Basauri, 17 28023 Aravaca (Madrid) ISBN: 84-481-0128-6 Depésito legal: M. 49,970-2000 Editora: Isabel Capella Cubierta: Félix Pifluela. Grafismo electrénico Compuesto en: Fernandez Ciudad, S. L. Impreso en: LAVEL, Industria Grafica, S.A. IMPRESO EN ESPANA - PRINTED IN SPAIN A mis hermanos Sepamos buscar como quien espera encontrar, y encontrar como quien espera seguir buscando (Adaptacién libre de S. Agustin.) CONTENIDO Prefacio 2.0.0.0. e eee terete tee et eter eens xv Introducci6n 6... 0.6. oe cece eee eee eee tenet ee ee ees xix Capitulo 1. Anilisis matricial... 2.2.2.0. oe 1 1.1, Primeras definiciones 1 1.1.a, Operaciones con matrices . 2 1.2. Determinantes .......... 4 1.3, Matriz inversa. oo... eee eee eee ee eee 6 1.4, Rango de una matriz . Bn aoe suse ohonsoaas 8 1'5. Valores y vectores propios de una mattiz.. : 12 Capitulo 2. Analisis estadistico ..... 0.0.0.0... 0 ececeeeeeeeneeeees 17 2.1, Introduccion: variable aleatoria, distribuciones discretas . 7 2.2. Distribuciones continuas, Funcién de densidad . . . . 21 2.3. Momentos de una distribucion 23 2.3.a. Momentos poblacionales con respecto al origen . 23 2:3.b. Momentos poblacionales con respecto a la media . 24 2.3.. Momentos muestrales . . - 25 2.4, Distribuciones bivariantes 26 2.5. Momentos en una distribucidn bivariante . 29 2.6. Propiedades de un estimador........ 32 2.7. Cambio de variable en distribuciones de probabilidad . 33 2.8. Distribuciones derivadas veseee 34 2.9, Elestimador de maxima verosimilitud . 36 2.10. Teoria asintotica . . 37 2.10.2. Convergencia en probabilidad 37 2.10.b. Convergencia en distribucion 40 2.11, Teorema Central del Limite . : 2 2.12. Contrastes de hipdtesis . . 44 2.13. Distribuciones truncadas - 46 Problemas 48 Contenido Capitulo 3. El modeto lineal general .......... . ceceeeeeenees 52 3.1. Introduccion... . ee eoe 3.1.a. Caracteristicas del modelo . - ee 3S 3.1.b. Descripcién de los capitulos posteriores . 59 3.2. El estimador de minimos cuadrados ordinarios . 61 3.3, Propiedades del estimador de minimos cuadrados, ordinarios . 67 3.4, Estimacion de 0? + . B 3.5. Contraste de Normalidad 80 3.6. El estimador de maxima verosimilitud 82 3.7. Regresién particionada ........ + 85 3.8. El modelo lineal en desviaciones con respecto a la media 86 3.9, Algunos modelos lineales sencillos . . cece eee 91 3.10. Cambios de escala y de origen . . oa 96 3.11. Errores de especificacion ...... erererees 100 Problemas Ripsososee jasonodasecocanesas vee. 103 Capitulo 4, Inferencia en el modelo lineal ....... . fe ee ls 41. Introduccion... 0. eee eee eee 13 4.2. Contraste de hipotesis: un tratamiento introductorio . 115 4.2.a. Interpretacion del estadisti . MS 4.3. - Contraste de hipdtesis: tratamiento general 17 4.3.a. La formulacion del problema 117 4.3.b. El estadistico F para el contraste de cualquier conjunto de hipo- tesis lineales . .. vee tees HY 4.3.¢. Un procedimiento alternativo . : 121 4.4. Aplicacién a algunos casos particulares : +. 1B 4.4.a, Contraste de hiptesis acerca de un coeficiente del modelo... 123 4.4.b. Contraste de hipdtesis acerca de todos los coeficientes del mo- delo (excepto el término independiente) . . 123 44.c. Elcontraste de significacién global del modelo econométrico ... 124 4.4.d. Contraste acerca de un subvector de s variables (I = a) Dado un vector y de dimension n se tiene - 1,y = j, donde j es la media aritmética de los componentes del vector y. 6 . 1 b) Dada una matriz X de dimension m x n se tiene a 1,.X =X, donde x’ es el vector fila de dimension n formado por las medias aritméticas de los elementos que integran cada columna de la matriz X. Denotaremos por Q una matriz de dimensién n x n, que nos sera de especial utilidad en la discusién de algunas cuestiones, y en particular en la Seccidn 3.8, Esta matriz viene definida por: Q ei, : 4 Economenta Es facil ver (lo dejamos como ejercicio) que esta matriz es simétrica e idem- potente, Otras propiedades suyas que el lector puede comprobar sin dificul- tad son: es decir, que la matriz Q transforma un vector en el vector de diferencias con respecto a la media aritmética de sus componentes. Como consecuencia, si el vector y tiene sus componentes iguales entre si, entonces el producto Qy es igual al vector cero. Otra consecuencia es que si la media aritmética de las componentes del vector y es cero, entonces Qy = y. b) Dada una matriz A n x p se tiene: 431 — yy yz — Gay os, yy — Gy 1 = Gy, G27 — Ga, «+5 zy — Ay + Aap — ay 43, — Gy, 43 — G2, ny — Ay Gnz — B25 +045 Gnp — Ay es decir, que la matriz Q transforma una matriz A en la matriz de diferencias con respecto a las medias aritméticas de cada columna de A. Una forma intuitiva de ver este resultado es considerando la matriz A como una coleccién de p vectores columna, cada uno con n componentes, y utilizar la propiedad a) aplicada a cada vector columna. Otra propiedad que utilizaremos con frecuencia y que el lector puede pro- bar sin dificultad es: Dada una matriz X, de dimension m x n, la matriz M es simétrica, idempotente y cumple MX = 0p... In — X(X'X)EX” 1.2. DETERMINANTES El determinante es una funcién real de una matriz cuadrada, es decir, una funcién que asocia un namero real definido de modo univoco a toda matriz cuadrada, Las matrices cuadradas mas sencillas son I x 1, y su determinante es numéricamente igual al tinico elemento en dicha matriz, Dada una ma- triz 2 x 2: (es , m X p; By1, M2 x py, y Bz2, ny X pp. Entonces se tiene: AunBu + Ai2Bo1 Ai Bi + pace) AB= or + An2Br AaiBy2 + Az2Bo2 EI producto de Kronecker de una matriz A de dimension m xn y una matriz B de dimension p x q ¢s otra matriz C de dimension mp x ng, defi- nida por: @,,B a,B a,3B ... a;,B caan@na{ 8 fel tle an Be ae .B) GeBee oe donde aj, i= 1, s.., mj = 1, ..., n son los elementos de la matriz A. La inversa de la matriz C es igual a A~' ® B-!, Notese que, a diferencia de la inversa del producto habitual de dos matrices, en este caso no se altera el orden de los factores. De modo similar, se tiene C= A'@ B’. En varias ocasiones a lo largo del texto es preciso obtener la derivada de tun producto de matrices con respecto a uno o varios parametros, para lo que ser conveniente recordar las siguientes reglas: a) La derivada de una funcién f(@,, 62, ..., 64) con respecto al vector (01, 825». 8) es igual a un vector columna, llamado el gradiente de la funcién. El vector tiene k componentes, cada uno de ellos igual a una de las derivadas parciales: 2/20, b) La matriz hessiana de la funcién f(0;, 02, ..., &,) es una matriz cuadra- da, de dimensi6n k x k, cada uno de cuyos componentes es igual a 0f7/€0,00). En particular, los elementos de la diagonal de dicha matriz son las derivadas segundas con respecto a cada uno de los parametros 6). c) El gradiente de la funcion lineal A®, donde A es kxk y@kx I, con respecto al vector @, es la matriz A. d) La derivada de la forma cuadratica @'A® con respecto al vector es igual a 2A0. La derivada de 0'AO respecto de A es igual a 00’. e) La derivada del determinante {A| con respecto a la matriz A es igual a la matriz |AI(A’) ‘f) La derivada de In|A| con respecto a A es igual a (A’)~', y en particular la derivada de In|Al con respecto a aj es a”. 1.4, RANGO DE UNA MATRIZ Una matriz A, de dimension m x n, puede interpretarse como una coleccion de m vectores fila de dimension n, 0 como una coleccion de n vectores co- lumna de dimension m. Ello permite aplicar la teoria algebraica de los Andlisis matricial 9 espacios vectoriales a las filas o columnas de una matriz. En particular, puede hablarse de filas linealmente independientes 0 dependientes, en el sentido en que vectores de dimensi6n n lo son, y lo mismo con las columnas de fa matriz. Como vamos a ver, el maximo numero de filas lincalmente independientes en una matriz es igual al maximo nimero de columnas linealmente inde- pendientes. Dicho numero se llama rango de la matriz. De ello se deduce inmediatamente que una matriz y su traspuesta tienen el mismo rango. También se deduce que, dada una matriz A m x n, su rango es S min{m, n}. Lema 1.1. El maximo numero de filas linealmente independientes de una matriz cualquiera es igual al maximo numero de columnas linealmente inde- pendientes. Demostracién, Sea A una matriz m xn y sea p el maximo mimero de filas linealmente independientes. Tomemos p filas linealmente independientes y formemos con ellas una submatriz A*, p xn. Sea q el maximo numero de columnas linealmente independientes de la matriz A. Como no puede haber mas columnas linealmente independientes en A* que en A, se tiene que q es también el maximo numero de columnas linealmente independientes de A*. Cada columna de la matriz A* tiene p elementos, lo que implica que q < p, puesto que el maximo numero de vectores de dimension p linealmente inde- pendientes entre si es, precisamente, igual a p. Por otra parte, construyamos ahora A**, la matriz.m x q que se obtiene con q columnas linealmente independientes de la matriz A. Como p es el maximo néimero de filas linealmente independientes de A, también es el maxi- mo niimero de filas linealmente independientes de A**, y como cada una de ellas tiene q elementos, entonces p too 1 fly Xa 1 0 mientras que el némero de columnas de la matriz de partida es 4. Excluyendo la tercera ecuacion se llegaria a: x 1 0 _ fe) )-2 -3\fs ““TsJo foi _, (°) Xs 2 0 1 pero estas dos columnas son combinaci6n lineal de las dos columnas de la matriz anterior, y representan por tanto el mismo subespacio nulo. Teorema 1.1, Dada una matriz X, Tx k, con Rango(X) =p k y que las k columnas de X son linealmente independientes, En tal caso, Rango(X) = k = Rango(X’X) = Rango(XX’). Como X'X es una matriz k x k, este resultado 12 Econometria implica que dicha matriz es no singular y por tanto invertible. En cambio, XX’ es una matriz Tx T, y el resultado implica que es singular. Teorema 1.2, El rango de una matriz A no cambia al premultiplicar o postmultiplicar dicha matriz por una matriz. cuadrada no singular. Es decir, si A es una matriz m x n y P, Q son matrices m x m y nx n no singulares, se tiene: Rango(A) = Rango(PA) = Rango(AQ) = Rango(PAQ) Demostracién. 1. Si xeSN(A), entonces Ax=0 y por tanto PAx =0, por lo que xeSN(PA). Por otra parte, si xeSN(PA), entonces PAx =0, lo que implica que P~'(PAx)= Ax =0 y xeSN(A). En consecuencia, como Ay PA tienen igual nimero de columnas, también tienen el mismo rango. 2. Puesto que el rango de una matriz es igual al rango de su traspues- ta, se tiene: Rango(AQ) = Rango(Q’A’). De acuerdo con 1 se tiene: Ran- 20(Q’A’) = Rango(A’), y es igual a Rango(A) 3. Rango(PAQ) = Rango(A) es ahora obvio, sin mas que utilizar 1 y 2 sucesivamente. Teorema 1.3. Rango(AB) < min {Rango(A), Rango(B)}. Demostracién, 1. Sea x un vector del SN(B). Entonces Bx =0 y por tanto ABx = 0, por lo que xeSN(AB). Por tanto, SN(B) < SN(AB). Como By AB tienen el mismo numero de columnas, entonces Rango(B) > Rango(AB). 2. Rango(AB) = Rango(B’A’) < Rango(A’) = Rango(A), donde la des- igualdad proviene del resultado 1. 1.5. VALORES Y VECTORES PROPIOS DE UNA MATRIZ Dada una matriz cuadrada A n x n, entonces una constante / y un vector x, nx I no nulo que satisfagan el sistema de ecuaciones Ax = Ax se llaman, res- pectivamente, valor propio y vector propio de la matriz A. Si la matriz A — AI, no es singular, entonces la unica solucion a la ecuacién anterior es la trivial: x = 0,. Para que haya una solucién no nula, debe ocurrit que |A — AI,| = 0. Esta es la ecuacién caracteristica de la matriz A. Dicha ecuacién tiene n solu- ciones, aunque no necesariamente diferentes entre si. Por ser las raices de un polinomio de grado n, los valores propios pueden, en principio, ser udmeros complejos Para cada solucion (valor propio) existe un vector propio asociado, que se obtiene sustituyendo el valor de 4 en Ja ecuacién Ax = Ax. Cuando un valor propio es una solucién milltiple de la ecuacién caracteristica, entonces el niimero de vectores propios linealmente independientes asociados con dicho valor propio es igual a su orden de multiplicidad. Es importante observar que cada vector propio correspondiente a un valor propio no nulo es la solucién a un sistema lineal homogéneo y, por tanto, no est dnicamente determinado, sino que es, en realidad, un subespacio de Anélisis matricial 13 dimension uno. Para determinar univocamente el vector propio se utilizan distintos criterios, como normalizar los vectores propios para que tengan modulo igual a 1, lo que haremos de ahora en adelante. Como ejemplo puede comprobarse que los valores propios de la matriz 5 3/2 uot . son = ¥ 5. ¥ que sus vectores propios, normalizados para 32-1 2 3 1 1 3 jue tengan modulo unidad, son { ——; —— =) — =}. Ademas, ania (Fs 7) 2 (a 7) puede comprobarse que estos dos vectores propios son ortogonales entre si. Aunque puede hablarse de vectores y valores propios de cualquier matriz cuadrada, en este texto solo calcularemos valores y vectores propios de matrices simétricas. Las siguientes son propiedades fundamentales de los valores propios de una matriz: A Proposicién 1.1. Los valores propios de una matriz simétrica son reales: En el caso de una matriz A = (a,), 2. 2, los valores propios vienen dados por 1 oF Aa 5 lean + a2) £ Mar + aa3F = ir azn — 41342,)). Si la matriz os simétrica, entonces 2 = ; (ay; +423) + J(@is = 422)? + 4a3,)) y por tanto son reales, ya que el radicando es positivo. Proposicién 1.2. Los vectores propios correspondientes a distintos valores propios de una matriz simétrica son ortogonales entre si, es decir, su producto es cero. Demostracion. Sean x,'y x, vectores propios de la matriz A correspondientes a los valores propios 2, y 22, respectivamente, Entonces se tiene Ax, = 4X; y AX, = AX2. Por tanto, xAX; = A;X5x, y x, AX, = A)X{x>. Ahora bien, x, Ax, y xAXx, son matrices traspuestas una de la otra, y de dimensién I x 1, es decir, escalares, y por tanto son iguales entre si. En consecuencia, (A, — Aa)xiX2 =0. Si Ay ¥ Ap, entonces, necesariamente, x,x, = 0. Esta proposicién tiene una aplicacién de interés: dada una matriz A, de dimension n x n, construyamos otra matriz B que tiene por columnas los vectores propios de la matriz A. Como acabamos de ver, dichas columnas son vectores ortogonales entre si, Por tanto, si formamos el producto C = B’B, su elemento genérico c,, esti formado por el producto de las columnas i y j de B. Dicho producto sera cero, salvo cuando i = j, en cuyo caso sera igual a I, de acuerdo con nuestro convenio de normalizacién. Por tanto, B'B = I,; pero, por esta raz6n, también se tiene BB’ = I,, y B’ es la inversa de B, por lo que B es una matriz ortogonal, 14> Econometria Proposicion 1.3. (Descomposicién canénica de una matriz cuadrada.) Dada una matriz simétrica A n x n, sea Bla matriz que tiene por columnas los vectores propios de A. Entonces, se cumple: AB=T donde I es una matriz. diagonal que tiene por elementos los valores propios de A. Demostracién, En efecto, si denotamos por C al producto B’AB, el elemento genérico cy se obtiene multiplicando la fila i-ésima de B’ (columna i-ésima de B) por A y por la columna j-ésima de B: x/Ax;=x;(2)x)) tanto, dicho producto es cero salvo cuando i es igual a j, en cuyo caso XIAX, = A,(X/X,) = Ay. Proposici6n 1.4, Dada una matriz A simétrica, definida positiva, existe una matriz no singular P tal que A = PP’. Demostracion. Por la descomposicion anterior B’'AB=T_ y por tanto B(B’AB)B’ = BIB’. Pero B es una matriz ortogonal, por lo que BB’ = B'B =I, y finalmente A = BIB’. Si denotamos por F? la matriz diagonal que tiene por elementos las raices cuadradas de los valores propios de la matriz A, entonces A = PP’, donde P = (BI*). Notemos que A no necesita ser simétrica. Basta que tenga k vectores propios linealmente independientes, en cuyo caso AB = BI’, donde las colum- nas de B son los vectores propios de A, y B-'AB=B 'BI =T, solo que ahora B no es necesariamente ortogonal. Proposicién 1.5. La suma de los valores propios de una matriz A es igual a su traza, es decir, a la suma de los elementos de su diagonal principal Demostracién, Por la descomposicién antes vista: B’AB =I’, donde B es una matriz ortogonal, y utilizando la propiedad circular de la traza: traza(P) = raza (B’ AB) = traza(BB' A) = traza(A), pero traza(I) es, simplemente, la suma de los valores propios de fa matriz A. Proposicién 1.6. El producto de los valores propios de una matriz es igual al determinante de dicha matriz. De ello se deduce que una matriz es singular si y sdlo si tiene al menos un valor propio igual a cero. Demostracién (para matrices simétricas), Utilizando de nuevo la descomposi- cion B’AB =I se tiene |B'||A| |B] =|E|=I1f_,/,. Ahora bien, por ser B una matriz ortogonal se tiene B’B=I, y por tanto |B’B| = |B'||B| = |B)? = 1. Consecuentemente, |Bj = +1 0 —1, 10 que Hlevado a la expresin anterior implica finalmente |A| = Tf. 4). Anélisis matricial, 15 Proposici6n 1.7. El rango de una matriz es igual al-nimero de valores pro- pios no nulos. Demostracién, Puesto que el rango de una matriz no varia al pre o post- multiplicar dicha matriz por una matriz no singular, entonces por la descom- posicién candnica anterior se tiene Rango(A) = Rango(I). Ahora bien, las filas de esta iltima matriz s6lo tienen un elemento no nulo, aquél en la diagonal de I. Tales filas serdn necesariamente independientes entre si, salvo que alguno de dichos elementos (valores propios de A) sea igual a cero. Proposicién 1.8. Los valores propios de la matriz A? (= AA) son igual al cuadrado de los valores propios de la matriz A. Sin embargo, los vectores propios de A? son iguales a los de A. (Claramente, este resultado prueba que el determinante de la matriz A? es positivo.) Demostracién. Si x es un vector propio asociado al valor propio 2, entonces Ax = Ax, por lo que también se tiene A?x = A(Ax) = (Ax) = 2?x, por Jo que 7? es un valor propio de la matriz A? y x un vector asociado a dicho valor propio. Proposicién 1.9. a) Los valores propios de la matriz A~' son los inversos de Jos valores propios de la matriz A, pero los vectores propios son los mismos que los de A. b) Los valores propios de una matriz idempotente son igual adel. Demostracién. a) Puesto que Ax = Ax y premultiplicando por A~* se tiene x = 2A7'x, por lo que 2~! es un valor propio de A~! y x es el vector propio correspondiente. b) Sea 4 un vector propio de A y sea x un vector propio aso- ciado a 2. Entonces, 4? es un valor propio de A? y x un vector propio asociado a dicho valor propio. Asi se tiene Ax = Ax y también A?x = J?x. Ahora bien, como A?x = Ax (por ser A idempotente), entonces se tiene #x = Ax, por lo que A(A— 1)x = 0, es decir, que bien 4=0, 0 A= 1. Proposicion 1.10. El rango de una matriz idempotente es igual al nimero de valores propios iguales a 1, e igual a su traza. Demostracién. El rango de una matriz A es igual al rango de la matriz dia- gonal I’ formada con sus valores propios. En una matriz. idempotente éstos son 0.6 1, por lo que el rango de A coincide con el nimero de valores propios iguales a [. Finalmente, la traza de A es igual a la traza de P, es decir, la suma de los valores propios de A, y ésta coincide, en este caso, con el niimero de valores propios iguales a 1. En consecuencia, el rango de la matriz Q introducida en la Secci6n 1.1.a es: Rango(Q) =n ~ 1. Proposicién 1.11, Dado un valor propio de multiplicidad k, existen k vectores linealmente independientes asociados con dicho valor propio. Una matriz simétrica A de dimension nxn se dice definida positiva (semidefinida positiva) si para cualquier vector a de dimensién n distinto de 0, 16 Econometria se tiene que a’Aa > 0 (20). Una matriz A simétrica se dice definida negativa (semidefinida negativa) si — A es definida positiva (semidefinida positiva). Una condicién necesaria y suficiente para que una matriz sea definida positiva es que todos sus valores propios sean positivos. Vamos a probar algunas propiedades que nos seran de utilidad en temas posteriores: Proposicién 1.12. Supongamos que la matriz A de dimensién m x n tiene sus columnas linealmente independientes entre si, lo que exige que m > n, puesto que las columnas son vectores de dimension m, y sim 0 para todo vector x de dimension n no nulo, y como consecuencia la matriz A’A es definida positiva. FI tinico caso en que el producto y'y no seria positivo es que fuese cero, pero recordemos que dicho producto es igual a la suma de cuadrados de las componentes de y, es decir, una suma de sumandos no negativos. En conse- cuencia, ello solo podria ocurrir si el vector y fuese cero. Ahora bien, como y = Ax, el vector y es una combinacién lineal de las columnas de la matriz A, que por hipdtesis son linealmente independientes, por lo que ninguna combi- naci6n lineal de dichas columnas puede ser igual al vector 0,, Proposicién 1.13. Sea A una matriz m x m definida positiva y P una matriz m x n, de tango m. El producto P'AP es una matriz definida positiva. Demostracion. Dado un vector y de dimensién n, el producto Py es otro vector de dimensi6n m, por lo que se tiene (Py)‘A (Py) > 0. Pero (Py)'A(Py)=y'(PAP)y, que sera por tanto positivo. Como ello ocurre para todo vector y, se tiene que P’AP es una matriz definida positiva. Proposicién 1.14. Los elementos de la diagonal principal de una matriz defi- nida positiva son estrictamente positivos, mientras que los elementos de la diagonal principal de una matriz semidefinida positiva son no negativos. Demostracién. Para probar cualquiera de estos resultados para el elemento i-ésimo de la diagonal basta utilizar en la definicion el vector a, que tiene todos sus elementos iguales a cero, excepto el i-ésimo que es igual a 1. CAPITULO 2 ANALISIS ESTADISTICO 2.1. INTRODUCCION: VARIABLE ALEATORIA, DISTRIBUCIONES DISCRETAS EI objeto de este capitulo consiste en revisar algunos resultados estadisticos que scran de utilidad en cl analisis de los métodos y modelos econométricos que vamos a efectuar en este texto, No podemos llevar a cabo un tratamiento exhaustivo de los distintos aspectos tratados, por lo que Ia lectura de este capitulo no puede suplir al estudio de un buen manual de Estadistica. En castellano, los textos de D. Pefia (1992) y Arnaiz (1978) son especialmente recomendables. Interpretamos cada variable econdmica como teniendo naturaleza aleato- tia, Asi, cuando decimos que el Producto Interior Bruto (PIB) espafiol en un determinado aiio ha sido de 68,3 billones de pesetas, entendemos que dicho valor numérico no es sino uno de los (posiblemente muchos) valores que el PIB pudo haber tomado en dicho afio. A priori no podemos saber con exactitud el valor futuro del PIB, y esa incertidumbre es, precisamente, el reflejo de su naturaleza aleatoria. Un suceso es cada uno de los resultados que pueden observarse acerca del comportamiento de una variable aleatoria: asi que el PIB sea igual a 68,3 billones de pesetas es un suceso, y que sea igual a 71,2 billones es otro suceso. Hay sucesos mas complejos: que cl PIB exceda de 60 billones es un suceso, de igual modo que el que esté comprendido entre 65 y 70 billones de pesetas es otro suceso. Una probabilidad es una medida positiva, con valor maximo igual a la unidad, y con la propiedad de que la medida de una unién finita 0, a lo mas, numerable de sucesos disjuntos es igual a la suma de sus medidas individua- les. La unin de todos los sucesos posibles tiene probabilidad igual a 1. En gran parte, el interés por el trabajo empirico en Economia estriba en asignar probabilidades a los posibles sucesos que pueden acaecer con la variable econémica en estudio. La Econometria proporciona herramientas iitiles para tal fin. abe 18 Econometria Si denotamos por X el PIB y por xo una determinada ¢ifra, P(X = x) denota la probabilidad de que el PIB sea igual a x9. Tedricamente puede asociarse a cada valor posible de una variable aleatoria X una determinada probabilidad; en la practica, evaluar tales probabilidades puede resultar muy dificil. El conjunto formado por los valores posibles de una variable, junto con las probabilidades a ellos asociadas, constituyen su distribucion de proba- bilidad. En general, aunque no es necesario, ni siempre cierto: 1. Muchos de los hipotéticos valores xo de una variable tendran una probabilidad nula. Mas ain, el soporte de una variable econémica, es decir, el rango maximo de valores que tienen probabilidad no nulla, es acotado. 2. La distribucién de probabilidad de una variable econémica cambia a través del tiempo. 3. Dicha distribucién de probabilidad puede venir influida, y quizd deter- minada, por otras variables econémicas, es decir, que existen relaciones de dependencia entre ellas. Una variable aleatoria se dice discreta si distribuye la masa unitaria de probabilidad entre un conjunto discreto de valores (puntos en la recta real). Asi, una variable aleatoria discreta puede definitse como un conjunto, quiz infinito, de némeros reales x, cada uno de los cuales tiene asignada una determinada probabilidad p,, de modo que 0 0 tal que x + €, < Xz y consideramos: cada entero n = F(x; + 81) — F(x, — &)) = PIX < xy +e] — P(X < xy — 6) = haciendo tender ¢, a cero = P(X = x,) =F, Por tanto, el salto en la funcién de distribucién en el punto x, es igual a la probabilidad en dicho punto. Sea ahora e, un nimero positivo tal que Xy + &) 0. No es preciso definir dF(x) en los puntos en que F ¢s continua, pero no derivable, y puede suponerse, a todos los efectos, que dF(x) es igual a cero en tales puntos. Con estos criterios, el valor de la funcion de distribucion en un punto xq de la recta real viene dado por: F (Xo) = f'*,, F(x) = f,, fddx teniéndose ademas que: §2,, floddx = 1 Un caso mas general es el de las mezclas o mixturas de distribuciones discretas y continuas, representadas por una funcion de densidad con un mi- mero finito de puntos de discontinuidad, correspondientes a puntos en que esta concentrada una masa positiva de probabilidad. En tales puntos, dF (x) = Ps donde p, denota la magnitud del salto en la distribucion F. En la Figura 2.2.a aparece una funcién de densidad que es constante en el intervalo (a, b). Cuando existe, la funcién de densidad puede acumularse a lo largo de un intervalo de la recta, para medir la probabilidad contenida en el 22 Econometria fe fils) a 6 6 FIGURA 2.2.2. FIGURA 2.2.b, mismo. Asi, en dicha figura, la probabilidad esta uniformemente distribuida a lo largo del intervalo (a, b). De este modo, la probabilidad en un subinter- valo es proporcional a la longitud del mismo, por lo que la probabilidad en (a, b) es igual a k(b — a). Puesto que la masa total de probabilidad es igual a |, en realidad, la funcién que aparece dibujada en la Figura 2.2. sdlo es una funcion de densidad si k = b= 1 En la Figura 2.2. hay una masa de probabilidad igual a 5 en el punto a 1 ae x = a. La probabilidad restante, que es también igual a 7 esta uniformemente repartida en el intervalo (a, 6). Por un razonamiento analogo al anterior, la I constante k’ debe ser igual a =~——. gual? 3a) Derivemos las funciones de distribucion respectivas: a) En el caso de la Figura 2.2.a se tiene: yF(@=PIX< ab > F,Q)=4 al = dx = b) En el caso de la Figura 2.2.b se tiene: y F,(y)=0 = FO = 5 Anilisis estadistico 23 a Fi) = fa dF{%) = ft dFx(x) + fi dF) = = FAQ) + dF) = 5 + 5p ines que tiende a 5 segin nos acercamos all punto a, y tiende a 1 segiin nos acercamos al punto b y>b = F,y)=1 El lector debe representar graficamente estas dos funciones de distribucién. Algunas distribuciones continuas 1. La distribucién exponencial esta definida por la funcién de densidad ‘Slx) = ke-* para todo x > 0. 2. La distribucién uniforme en el intervalo [a, b] esta definida por la 1 funcidn de densidad flx) = ;—. 3. La distribucién Normal N(, 0) esté definida por la funcién de den- sidad f(x) = 22" sobre la recta real. En particular, la distribucion et N@, 1) esta caracterizada por Ia funcién de densidad f(x) Vin 23. MOMENTOS DE UNA DISTRIBUCION 2.3.a, Momentos poblacionales con respecto al origen Los momentos de orden 1, 2,... con respecto al origen se definen por: Hy = E(X') = 20 XdF(x) = J2.. x"f(x)dx si la distribucion es continua, y XID si la distribucién es de tipo discreto De éstos, el mas importante es el momento de orden 1, que suele denotarse simplemente por 1 (sin subindice) y que recibe el nombre de esperanza matematica de la variable aleatoria. Por ser integrales impropias, los momen- tos de una variable aleatoria pueden no existir. La esperanza de una constante es la misma constante. Conviene recordar que la esperanza de una variable aleatoria no es, necesariamente, el valor mas probable de dicha variable. De hecho, pudiera ocurrir que una variable aleatoria tuviese una probabilidad nula de tomar un valor igual a su esperanza matematica. El valor mas probable de una variable 24 = Econometria es:su_moda, y puede no: ser‘ nica, Un némero seak-m que satisface la : 1 I . propiedad P(X ; es una mediana de la variable, que puede presentar algunos problemas de definicién en una variable aleatoria discreta. 2.3.b. Momentos poblacionales con respecto a la media Cuando existe fa esperanza matemitica de una variable aleatoria, pueden definirse asimismo momentos con respecto a dicha esperanza por medio de: m, = El(x — W'] = JP (% — BY dF (x) = = J®. (x — w'F%) dx si la distribuci6n es de tipo continuo, y == — WP: si la distribucion es discreta El momento m, es igual a cero para toda variable aleatoria, ya que m, = E{(X — u)] = EX — x =0. El momento mas importante con respecto a la media es, sin duda, m,, la varianza de la variable aleatoria, denotada también por Var(X) 0 62. Por otra parte, la dest tipica a se define como Ia raiz cuadrada, con signo positivo, de la varianza de la variable aleatoria. La varianza de toda constante es igual a cero. Los. cocientes 3 y % se denominan coeficientes de asimetria y curtosis, respectivamente. Si una distri- bucién es simétrica: f(u — x) = f(u + x) para todo x, su coeficiente de asime- tria es cero. Una variable Bernouilli tiene esperanza p y varianza igual a p(1 — p). Una variable binomial (n, x) tiene esperanza nz y varianza nx(1—r). Una variable de Poisson tiene esperanza y varianza iguaies a 4. Una distribucién uniforme (=a y varianza igual a = Una distribucion , at tiene esperanza igual a 1 exponencial tiene esperanza igual a; y varianza igual a 3. 3 a Ademés, los momentos de una variable aleatoria satisfacen las siguientes propiedades: lL E(X+a)=p+a. 2, E(aX) = ap. 3. E(aX +b)=an+b. 4. Var(X + a) = Var(X). 5. Var(aX) = a? Var(X). 6. Var(X) = E(X?) = p?. 7. Var(aX + b) = a? Var(X). Anilisis estadistico 25 . oy XK Ejemplo. Si X es una variable N(x, 02), entonces la variable ~—* tiene o distribucién N(0, 1). Una variable N(jt, 6) tiene coeficiente de asimetria cero y coeficiente de curtosis igual a 3. Igualmente, se tienen las siguientes propiedades Proposicion 2.1. La esperanza matematica de una variable aleatoria X es la constante para la que es minima la esperanza E{(X —a)?). Demostracién. Basta desarrollar la expresion anterior y derivar" con respec- to al parametro a. Esta proposicién admite una interpretacién interesante: Supongamos que se pretende predecir el valor que tomar la variable aleatoria X, sobre la que no se dispone de otra informacién que la de su distribucién de probabilidad. Evidentemente, X podra tomar cualquier valor de su soporte: supongamos que el investigador asocia al posible error de prediccién que cometa una pérdida cuadratica que es tanto mayor cuanto mayor es dicho error, con independencia de que sea por exceso o por defecto. En tales condiciones, el investigador minimizara el valor esperado de su funcién de pérdida utilizando como prediccién de X su esperanza matematica. Proposicion 2.2. Si la variable aleatoria toma s6lo valores positivos y si existe su esperanza E(X) = ul, entonces E(X) = [fl — FQo|dx. Proposicién 2.3 (desigualdad de Chebychev). Para cualquier variable aleato- ria X, cuya esperanza matematica yp y varianza o? existen, se tiene: P(X —p|> 20] <4-? para todo 2>0 2.3.c. Momentos muestrales Al igual que en el caso poblacional pueden definirse momentos con respecto al origen y con respecto a la media en una muestra obtenida a partir de una determinada variable aleatoria. Una vez mas, los momentos mas importantes son la media muestral X y la varianza muestral s*, definidos: © Supuesto que pueda derivarse bajo el signo integral, es decir, que la derivada de la integral sea igual a Ja integral de la derivada. 26 = Econometria La desviacién tipica es la raiz cuadrada de la varianza, tomada con signo positivo, y puede interpretarse como la distancia promedio entre las observa- ciones muestrales y la media muestral. Cuando la media muestral es cero, la desviacion tipica es un indicador del tamafio de la variable aleatoria. La cuasi- varianza es igual a la varianza, multiplicada por —” 7: También pueden definirse coeficientes de asimetria y curtosis muestrales. Los momentos muestrales, por ser funcién de la muestra recogida, son variables aleatorias y su valor cambia de una muestra a otra. Pues bien, la media muestral (como variable aleatoria que es) tiene una esperanza matema- tica igual a la de la distribucién de la que se obtuvo la muestra E(X) = p, mientras que si las observaciones muestrales son independientes, su varianza es igual a la varianza de la variable aleatoria de Ja que se obtuvo la muestra, dividida por el tamaiio muestral Var(X) = ©. Es decir, dada una poblacion, la media muestral tiene una varianza tanto mas pequefia cuanto mayor sea el tamatio de la muestra en la que se calculd, 2.4. DISTRIBUCIONES BIVARIANTES Aunque hasta aqui hemos examinado tan solo distribuciones de probabilidad univariantes, es decir, correspondientes a una sola variable aleatoria, existen también distribuciones de probabilidad multivariantes, es decir, concernientes ala distribucion de pares (0 n-tuplas de variables aleatorias). Una distribucién de probabilidad bivariante (es decir, correspondiente a dos variable: rias) puede venir definida por la tabla de numeros reales y probabil siguiente: Como puede apreciarse, las 15 cifras que aparecen en el cuadro suman exactamente 1, y son las probabilidades asignadas a una determinada variable aleatoria. Dicha variable toma, en realidad, pares de valores (X,, X,): (—2, -1), (-2, 0), (—2, 2), (-1, -D, (-1, 0), (-1, 2), @ —D, (0, 9), (0, 2), (, ~1), C, 0), , 2), 2, —), (2, 0), (2, 2); con las probabilidades Andlisis estadistico 27 FIGURA 2.3. resefiadas en Ja tabla. La informacion que la tabla proporciona puede, a su vez, organizarse de distintos modos. Por ejemplo, alguien podria cuestionarse acerca de las probabilidades asignadas a los posibles valores de la variable X,, con independencia de los valores que tome la variable X;. Esta constituye la distribucin de probabilidad marginal de la variable X,, y es: Valores de X, -2. =1 0 1 e Probabilidades P, 1 $ bilidad marginal de Ja variable aleatoria X, es: 1 que implica E(X,) = 5, Var(X,) = 55, mientras que la distribucién de proba- Valores de X -1 0 2 Probabilidades P, £ s a con E(X3) -3 y Var(X) -3 Asi, ndtese que las probabilidades correspondientes a la distribucion mar- ginal se obtienen de: 28° Econometria P,[Xy = —2) = ZygPIX; = —2] = PIX, = -2/X, = —I] + + PIX, = —2/X = 0) + PIX, = -2/X,=J La distribucién de probabilidad de la variable X, condicional en el valor tomado por la variable X, se obtiene dividiendo cada fila de la distribucién bivariante por la probabilidad marginal del valor correspondiente de X,: Valores posibles X: —2 -1 0 1 2 Probabilidades: Si X, = : 0 : uy 0 obabilidades: Si X, = 3 aa - 1 2 2 Six, =0 o 5; g 0 § . 3. 2 6 Si X,=2 OF eg 0 oe Como puede verse, la representacion analitica de la distribucién de proba- bilidad condicionada es complicada, pues es, en realidad, una distribucion de probabilidad diferente para cada posible valor de la variable que condi- ciona X,. Del mismo modo, la distribucion de probabilidad de X, condicio- nada en el valor tomado por la variable X, vendria dada por las columnas de Ja tabla inicial, divididas por la probabilidad del valor correspondiente de X. La esperanza condicional de X,, dada la variable X,, es la esperanza matematica de la distribucién de probabilidad condicionada. La esperanza condicional es una variable aleatoria, pues su valor numérico depende del valor que tome la variable aleatoria X,. Asi, en nuestro ejemplo se tiene: ° con probabilidad * (si X,=—1) E(X,/X2) = con probabilidad ‘ (si X, = 0) jour con probabilidad <, (si Xp =2) a 24 que es la distribucién de probabilidad de la esperanza condicional de la variable X, cuando la condicién es el valor tomado por la variable aleatoria X. Las probabilidades © se corresponden con las probabilidades de que 5 Il 24° 247 24 X; tome los valores —1, 0 y 2, respectivamente. Como tal variable aleatoria, tiene (salvo que no exista) esperanza matemitica, y ademas se tiene: ELE(X ,/X2)] = EX) Anélisis estadistico 29 En este ejemplo: _ 8.3.5, 9 HW RoI FIEQG IMAM = 0 55 + 5° 5g + TT 2g = 2a = 3 precisamente la esperanza matematica de la variable X ,, es decir, la esperanza matematica que se obtiene de la distribucion de probabilidad marginal de la variable X,. Asi pues, la distribucién de probabilidad de una variable aleatoria condi- cionada por otra variable aleatoria se obtiene dividiendo las probabilidades de pares de valores de ambas variables por la probabilidad del valor de aquella variable que se utiliza como condicionante: P(X, = PX, =x) PUL =m /Xa = x)= = 2 Dos variables aleatorias X, y X, son independientes si la distribucién de probabilidad de cada una de ellas, condicionada por la otra, coincide con su distribucién de probabilidad marginal, La intuicién es clara pues, si se cumple esta condicién, se tiene que el valor observado de una variable, por ejemplo, X,, no aporta ninguna informacién relevante acerca de la distribucion de probabilidad de la variable X;. Ello se refleja en el hecho de que al obtener la distribucién de X, condicionada por Xz se obtiene, precisamente, la distribucion marginal de X,. En tal caso se tiene P(X, = x,/Xz = x2)= P(X, = x1) y, en consecuen- cia, P(X, = x1, Xz = x2) = P(X; = x1)- P(X = x2). Si las funciones de dis- tribucién son derivables y por tanto existen sus funciones de densidad, entonces se tiene fix,, x2) = fy(x:)f2(x,). En nuestro ejemplo las variables X, y X; no son independientes, pues, como puede verse, la distribucion de probabilidad de la variable X, depende del valor que tome la variable X> Otra forma de ver que ambas variables no son independientes, consiste en tomar un valor de la funcién de probabilidad conjunta como, por ejemplo, en 2 el punto 2, 0): POX, =2, X2=0)= 55, y el valor dela distribucion de probabilidad marginal de X, en el punto 0, P(X, = 0)= - El cociente entre 2 8 ambos es 5, que no coincide con P(X; = 2), que es 57. 2.5. MOMENTOS EN UNA DISTRIBUCION BIVARIANTE En el caso de una distribucién de probabilidad bivariante de tipo continuo, si denotamos por f(x, y) la funcién de densidad conjunta de ambas varia- bles debe cumplirse que: [fox dx dy = 1 30° Econometria y se tienen las siguientes definiciones: Funciones de densidad marginales: Sil) = JP Al, yay Frly) = JPn Ax, yd Funciones de densidad condicionales: Seely = FP siempre que _f,()) #0 fois) = Fe siempre que fy(x) #0 @ Momentos conjuntos con respecto al origen: Hrs = S[2a0 xVM, yd dy © Momentos con respecto a las medias: mys = SPE = Ha) Y = Hy) 0% yd dy donde }1, = J; Y Hy = Hos Son las esperanzas matemiticas de x ¢ y. En particular, la covarianza de las variables aleatorias X ¢ Y es el mo- mento de orden (I, 1) con respecto a las medias, es decir: Cov(x, y) = my El coeficiente de correlacién entre X e Yes el cociente entre la covarianza y el producto de las desviaciones tipicas de X e Y. Proposicién 2.4. Si dos variables aleatorias X y Y son independientes, en- tonces j4,, = E(x’)E(). Demostracién Hes = Je [Pax VS(%, ydedy = [Pu JP ox Vi) W)dxdy = = ((20xfi @)dx) (Py fe V)dy) = EXE") Proposicion 2.5. Si dos variables aleatorias X e Y son independientes, en- tonces su covarianza es igual a cero. Demostracién Cov(X, Y) = E[(X ~ EX)(¥— EY)] =[E(X — EX)[E(Y — EY] =0 Anilisis estadistico 31 Proposicién 2.6. Los momentos de una distribucién bivariante satisfacen las siguientes propiedades: a) E(aX + bY) = aE(X) + bE(Y). b) Var(aX + bY) = a? Var(X) + b? Var(¥) + 2ab Cov(X, ¥). ©) Si X e Y son independientes, entonces Var(X + ¥) = Var(X — Y) = = Var(X) + Var(¥). d) Cov(aX, bY) = ab Cov(X, Y). Demostracién. Se deja como ejercicio para el lector. Proposicion 2.7. Para todo par de variables aleatorias Xe ¥ se tiene: Cov(X, ¥) = E(XY) = pty = E[X — wy) Y) = EIX(Y— 1) Ejemplo. Dada la distribucién de probabilidad conjunta definida por la fun- cidn de densidad: Sl y) = kx(x + y) O 0, lim PIX, — X| 0 existe un to tal que si t > tp, entonces P[|X,— X|1—n 38 Fconometria La convergencia en probabilidad de la sucesién anterior se indica mediante la notacién plim X,—X. Una sucesion de variables aleatorias interesantes es la formada por los estimadores , de un parametro desconocido @ que van obteniéndose segiin aumenta el tamafio muestral. Asi, 0, denota el estimador de @ obtenido con las t primeras observaciones muestrales, 0,,, denota el estimador obtenido con las primeras t + 1 observaciones, y asi sucesivamente. Si la sucesién 0, converge en probabilidad al verdadero valor (desconocido) del parametro , entonces se dice que el estimador 4 es consistente. Es decir: Definicién 2.2. El estimador 6 del parametro @ es consistente si al obtener la sucesion {6,}2, del modo descrito se tiene: Ve >0, lim P[\9,— 0| kod < py . e Si elegimos la constante k =.—, entonces: a PIX, -—e >a < > Anilisis estadistico 39 que, por hipétesis, converge a cero cuando aumenta el’ tamafio muestral. En consecuencia, X, converge en probabilidad a c. La interpretacién de este resultado en términos de un problema de estima- cién es que si se dispone de un estimador 8, que es insesgado para cualquier tamafio muestral y si su varianza tiende a cero al aumentar el numero de observaciones, entonces dicho estimador es consistente. Un ejemplo lo consti- tuye la media muestral X, que tiene las propiedades: - oe E(X)=n y Var(X)= — con independencia del tipo de poblacién de la que se obtuvo la muestra, siempre que tenga esperanza y varianza finitas. En virtud de la Proposi- cién 2.9, la media muestral es un estimador consistente de la esperanza po- blacional de cualquier distribucién de probabilidad. Este resultado también es cierto cuando el estimador no es insesgado en muestras finitas, siempre que, tanto su sesgo como su varianza, tiendan a cero cuando crece el tamaiio muestral: 0, entonces: plim X, = Proposicion 2.10. Si fim E(X,) ysi tim Var(X,) Demostracion, Basta descomponer X, — c = (X, — E(X,)) + (E(X) — ) y pro- bar que ambos elementos convergen en probabilidad a cero. Por ejemplo, la cuasivarianza muestral es un estimador insesgado de la varianza poblacional, pero la varianza muestral s? es un estimador sesgado peta por lo que el sesgo tiende a 0 al aumen- de o?. Sin embargo, Es? = tar el tamajio muestral T. Pero, ademas, si la poblacién es N(0, o), entonces (T= 1)s? sigue una distribucién chi-cuadrado con T— 1 grados de libertad. o Por tanto: var(@ s ps) 2(T-1) lo que implica: que tiende a cero al aumentar el tamafo muestral. Por tanto, la varianza muestral es un estimador sesgado, aunque consistente, de la varianza pobla- cional en una poblacién Normal (0, 0”). 40° Econometria En realidad, ni siquiera es necesario que'la sucesién de variables aleatorias tenga varianza finita: Proposicion 2.11 (Khintchine). Si las variables aleatorias Xj, Xy..... Xj: son independientes e idénticamente distribuidas con esperanza finita 1, y si X, denota a ; EX, entonces la media muestral X, converge en probabilidad a la esperanza poblacional: plim X, =p Ejemplo. Consideremos la sucesién de variables aleatorias: ' t : Z con probabilidad — | donde Z se distribuye N(0, 1) a 1 t con probabilidad > cuyo limite en probabilidad es {a variable N(0, 1), Ejemplo. Consideremos la sucesion de variables aleatorias: 7 0 con probabilidad t? con probabilidad En este caso, plim X, =0, a pesar de que el valor no nulo de la variable X, crece ripidamente. 2.10.b. Convergencia en distribu Definicin 2.3. Sea X,, X2,.... Xp... una sucesion de variables aleatorias con funciones de distribucién Fy, F, ..., F), .-. Supongamos F,(x) —> F(x) en todos los puntos de continuidad de la funcién F(x) y que, en ellos, F(x) es una funcién de distribucién. Entonces se dice que la sucesion de variables aleatorias X, converge en distribucién a X, donde X es una variable aleatoria con funcién de distribucién F, y se representa por X, 2+ X. La definicién de convergencia en distribucién se extiende, sin ninguna dificultad, al caso de vectores alcatorios. Un resultado que nos sera de gran utilidad en este texto es.el que con- cierne a la convergencia de una funcién continua de una sucesin de vectores aleatorios que converge en probabilidad o en distribucién a un vector X. Andlisis estadistico 41 Proposicién 2.12. Si X, es una sucesin de vectores aleatorios que converge en probabilidad (o en distribucin) al vector aleatorio X y si g(.) es una funcién continua, entonces la sucesién de vectores aleatorios g(X,) converge en probabilidad (0 en distribucién) al vector aleatorio g(X). Es crucial tener en cuenta que la funcién g no puede depender del tiempo f. Por ejemplo, g(X,) = £X? es una funcién continua de X,, pero dependiente del tiempo. El resultado anterior se satisface también para una funcién g cuyo con- junto de puntos de discontinuidad tenga medida cero bajo Ia distribucion limite F(.). En el caso de distribuciones multivariantes se tiene: Proposicién 2.13. Sea X, una sucesidn de vectores aleatorios de dimension k que convergen en probabilidad al vector aleatorio X y sea Y, una sucesion de vectores de dimensién m que convergen asimismo en probabilidad al vector constante ¢. Si ademas g(.) es una funcién continua definida sobre R**", entonces la sucesion g(X,, Y,) converge en probabilidad a g(X, ¢). En este resultado hay que tener en cuenta que los vectores a los. que se hace referencia pueden también ser matrices. Las aplicaciones mas usuales de este importante resultado son: Si plim X, =X, variable aleatoria, y si plim Y, = constante, entonces: plim(X, + Y,) = X +c, plim(X,¥,) = eX, y, en particular, si plim ¥, =0, en- tonces plim X,¥,=0. También se tiene plim x = %, siempre que ¢ sea fc distinta de cero. A continuacién damos algunos resultados que relacionan las convergen- cias en probabilidad y en distribucién. Proposicin 2.14. a) Si plim X,=X, entonces la sucesién de variables aleatorias X, converge en distribucién a X b) Sila sucesion de variables aleatorias X, converge en distribuci6n a la constante c, entonces plim(X,) =. Proposicién 2.15. Dadas dos sucesiones de variables aleatorias X, e Y,, si se tiene que plim(X, — ¥,) = 0 y también que Y, converge a Y en distribucion, entonces se tiene que X,—2+ Y. En particular, si la diferencia de dos variables aleatorias X,— Y, converge en probabilidad a cero y una de elas (por ejemplo, ¥,) converge en probabilidad a una constante, entonces X, converge en probabilidad (y en distribucién) a dicha constante. Este resultado puede generalizarse al caso vectorial Proposicién 2.16, Sea ¥, una matriz. aleatoria de dimensién fija pxq y sea X, un vector aleatorio de dimensién q x 1. Entonces, si 42 Econometria Y, —24 A (matriz de constantes) y xXx se tiene que ¥,X, —2+ AX. El siguiente resultado es una importante caracterizacién alternativa de la convergencia en distribucion, pues es el modo mis frecuente de probar que una sucesién de variables aleatorias converge en distribucién a una determina- da variable aleatoria. Dada una variable aleatoria X, su funcion caracteristica se define como Y,(2) = E(e), siendo i la unidad imaginaria. Proposicion 2.17. Sea X,, X>,..., X;,... una sucesion de variables aleatorias con funciones caracteristicas Y ,(z), P>(z),..., Y,(z),... La sucesién de varia- bles aleatorias X, converge en distribucion a la variable aleatoria X si y solo si la sucesion de funciones caracteristicas V,(z) converge a la funcion caracte- ristica ¥(z) de X en todo punto zeR, y si (z) es continua en z 2.11. TEOREMA CENTRAL DEL LIMITE Los resultados contenidos en esta seccién aseguran que una determinada funcién lineal de un estimador converge en distribucién a una variable Normal. Ello justifica la utilizacién de distribuciones Normales en casos en que el investigador desconoce, o no esta dispuesto a suponer, una determinada distribucion de probabilidad para las variables aleatorias con que trabaja. Teorema Central del Limite. Sea X,, X2..... Xj... uma sueesion de vectores aleatorios de dimension k, independientes entre si ¢ idénticamente distribui- dos, con E(X,) = py Var(X,) = E. Entonces se tiene: V7 ERs, = | Por ejemplo, una muestra aleatoria simple de una variable con esperanza matematica jy varianza igual ac? constituye una sucesién como la del teorema (s6lo que ahora son variables aleatorias y no vectores). Sin necesidad de suponer que la variable de la que se obtiene la muestra tiene una deter- minada distribucién de probabilidad, el teorema garantiza que \/T[X — y] converge en distribucién a una variable N(0, o?), lo que permite aproximar 2 N,(0, ©) ° o la distribucién de la media aritmética X por una N(, 7), la misma que se hubiese obtenido si hubiésemos supuesto la Normalidad de la variable de la que se obtuvo la muestra. Por tanto, pueden calcularse intervalos de confianza para y como si la variable fuese Normal. Estos intervalos scran tanto mas correctos cuanto Andlisis estadistico 43 mayor sea el tamafio muesiral, siempre que las observaciones muestrales sean independientes entre si. 2 ; : P Notese, por ultimo, que como Var(X) “po entonces, segiin crece el tamafio muestral, la distribucion limite de la media muestral tiende a ser degenerada en el punto yt. El teorema anterior asegura que si se multiplica X por el factor \/T, la distribucién limite esta bien definida y, concretamente, 2 « la aproximacién de la media muestral por una distribucién N(1 Fes valida. Teorema de Mann-Wald, Sea X una matriz T x k y u un vector de dimensién T tales que: i) E(u) = 0, Eun’) = o/1,. ii) E(Xju) =0, i= 1, 2,..., k, donde X, es la columna i-ésima de la matriz X. x’ iti) olin (<*) =, <0, donde Z,, es una matriz, simétrica, definida positiva. Entonces se tiene que: Por iiltimo, a veces no se esta interesado en Ia distribucién de un esti- mador, sino en la de una funcion del mismo. En tales casos, el resultado a utilizar es el siguiente: Proposicién 2.18. Sea X; un vector en R* y supongamos que JVT(X_—a) 2+ NO, ¥) Sif es una funcion diferenciable de R* en R", se tiene: VT(f&1) — fla) 2+ N(0, Va) EV (ay) donde Vf(.) denota la matriz gradiente de la funcion vectorial f(.). Volviendo al ejemplo anterior, puesto que ,/T(X — 1) converge en distri- bucin a una N(0, 0), se tiene que ./T(X? — 4?) converge en distribucién 44 Econometria a.una variable N(0, 44207), lo que permite aproximar el cuadrado de la media : 440? muestral por medio de una variable N («, “e), La distribucién asintética del estimador de maxima verosimilitud Previamente hemos definido un estimador eficiente como aquel de minima varianza, y hemos hecho referencia al interés de tal propiedad. La cota de Cramer-Rao proporciona la menor varianza que puede tener un estimador insesgado® 6 de un vector de parametros 8, Dicha cota viene dada por la inversa de la matriz: _ pf ZI LO] _ ,[ (212 L@) (2 In LOY 000 | 0) \ llamada matriz de informacién, denotada por 1(8). Bajo ciertas condiciones de regularidad (véase Rao, 1973), el estimador de maxima verosimilitud es consistente, tiene distribucién asintética Normal, y la matriz de covarianzas de dicha distribucién limite es la menor posible, ¢s decir, el estimador es asintéticamente eficiente. El resultado puede también expresarse como: VT Oy — 0) 26 »(0, lim ]) donde 1(@) es la matriz de informacion. Para obtener valores numéricos, se evaliia 1(0) en 0 = Oyy. 2.12. CONTRASTES DE HIPOTESIS Una vez que se dispone de una estimacion de un parametro desconocido, el investigador esta generalmente interesado en contrastar una determinada hi- potesis nula: Hy: 6€© acerca del verdadero valor desconocido del parametro de interés, frente a una alternativa: H,: 0€Q. Existen distintas estrategias para llevar a cabo tales contrastes, que vamos a repasar brevemente en esta seccion. Cada una de estas estrategias, aplicada a un contraste particular, le confiere © La cota de Cramer-Rao se derivé para estimadores cualesquiera, no necesariamente insesgados, en cuyo caso su formulacién analitica es ligeramente mas compleja. Su utilizaciOn en este texto se referird tan s6lo a estos tltimos. En la prictica, la matriz de informacién se estima por: z @ln f(x, 8)\ (2 inf, DY F 00 20 Anédlisis estadistico 45 unas determinadas caracteristicas: el error del tipo I de un contraste se produce cuando se rechaza la hipétesis nula siendo cierta, mientras que el error de tipo II se produce cuando se mantiene la hipotesis nula, a pesar de ser falsa. El tamario o nivel de significacién « de un contraste es la probabilidad de cometer un etror de tipo I, y su complemento 1 ~ « es el nivel de confianza del contraste. La potencia del contraste es el complementario de la probabili- dad f de cometer un error de tipo I: la probabilidad de rechazar la hipotesis nula cuando ésta es falsa. Un contraste es insesgado cuando su potencia es mayor que su tamaiio para todos los posibles valores del parametro desco- nocido. Légicamente, el investigador quiere que un contraste sea potente, y tam- bién que las probabilidades de ambos errores sean pequeiias, pero ello no es posible simultaneamente; generalmente solo puede reducirse el error de tipo I de un contraste a costa de aumentar el error de tipo Il, y viceversa. Un primer procedimiento para llevar a cabo contrastes de hipdtesis se basa en el uso de intervalos de confianza. Este método es especialmente adecuado cuando se contrasta una hipotesis nula simple (es decir. cuando © contiene un solo valor numérico, 9). frente a una alternativa compuesta como H,: 6 # 09. Estimado 0, se construye un intervalo del nivel de confianza escogido alrededor de 0 y se rechaza Hy si Q cae fuera de dicho intervalo. Otro procedimiento de contrastacion consiste en evaluar la discrepancia con que la estimacion de que se dispone deja de satisfacer las restricciones que se especifican en la hipotesis nula Ho. Si, por ejemplo, Hy es 6 = 9, siendo 9, un determinado valor numérico, entonces la discrepancia mencionada es 6 — 0). Se trata de decidir si ésta es grande o pequeiia; lo que sabemos es que se trata de una variable aleatoria, puesto que @ lo es. Para saber si es grande, debe compararse con su desviacion tipica. El estadistico de Wald compara el cuadrado de la discrepancia (@ — 0)? con la varianza Var(6 — ,), es decir, = 60) “Var() donde se ha utilizado Var(6) = Var(9 — 0). Dicho estadistico se distribuye como una chi-cuadrado con un grado de libertad. Si @ fuese un vector, el estadistico de Wald seria: W= @— 6) [var@)]~1@ — 0) con distribucion 2, siendo k Ia dimension de 0. Para un contraste de restricciones lineales mas general Ho: RO =r, donde R es una matriz q x k y r un vector q x I, ambos conocidos, ef estadistico de Wald es: (RO — r[Var(RO — 1p)" "(RO ~ r) = (RO — n)'[R Var(@)R'}- (RO — r) con distribucion 72.

También podría gustarte