Está en la página 1de 9

Econometría Plagio Capitulo 5

Ante todo, se debe tener en cuenta que no todos los fenómenos en la sociedad y en la
naturaleza se ajustan a la curva de Gauss. Pero el teorema menciona que si aumentamos el
número de observaciones indefinidamente los estimadores tendrán una distribución normal.

La consistencia de un estimador es una propiedad importante, pero sola no permite realizar


inferencias estadísticas. Saber que a medida que el tamaño de la muestra aumenta un estimador
se acerca cada vez más al valor poblacional no permite probar hipótesis acerca de los parámetros.
Para probar hipótesis, se necesita la distribución de muestreo del estimador de MCO.

El teorema 4.1 muestra que bajo los supuestos RLM.1 a RLM.6 del modelo lineal clásico, estas
distribuciones de muestreo son normales. Este resultado es la base para obtener las
distribuciones t y F que con frecuencia se emplean en la econometría aplicada.

 RLM.1: Linealidad en parámetros


Y =B0 + B1 X 1 +B 2 X 2+....+ Bk X k +u

 RLM.2: Muestreo aleatorio. Usamos un muestreo aleatorio con n observaciones


{(x1 i , x2 i ,... , x ki ):i=1,2 , ..., n } de acuerdo con el modelo poblacional propuesto.
y 1=B0 + B1 X 1 i+ B2 X 2 i +....+ B k X ki +ui

 RLM.3: No hay multicolinealidad perfecta. Ninguno de los regresores es constante


y tampoco existen relaciones lineales exactas entre las variables independientes
 RLM.4: Media condicional cero: E(u∨x 1 , x 2 , ... , x K )=0. Así, todas las variables
explicativas son exógenas.
 RLM.5: Homocedasticidad condicional. Dado cualquier valor x para (x 1 , x 2 ,... , x K ),
el término de error u tiene la misma varianza, es decir,
Var ( u|x 1 , x 2 ,… , x K )=σ 2
Si esto no se cumple, estaríamos en presencia de heterocedasticidad.
 RLM.6: Normalidad. El error poblacional u es independiente de las variables
explicativas x 1 , x 2 , … , x K y se distribuye normalmente con media cero y varianza σ 2,
u ∼ Normal(0 , σ 2 )
La normalidad exacta de los estimadores de MCO depende de manera crucial de la normalidad,
en la población, de la distribución del error u. Si los errores u1 ,u 2 , ... ,u n son tomados de manera
aleatoria de una distribución distinta a la normal, los ^β j no estarán distribuidos normalmente, lo
que significa que los estadísticos t no tendrán distribuciones t y que los estadísticos F no tendrán
distribuciones F. Este es un problema que podría ser serio porque las inferencias dependen de que
puedan obtenerse los valores críticos o los valores-p a partir de las distribuciones t y F
respectivamente.

Recuerde que el supuesto RLM.6 es equivalente a decir que la distribución de y dadas


x 1 , x 2 , ... , x k es normal. Como y sí se puede observar y u no, en una aplicación determinada, es
mucho más fácil pensar en si la distribución de y es normal. En efecto, se han visto ya algunos
ejemplos en los que y en definitiva no puede tener una distribución condicional normal. Una
variable aleatoria distribuida normalmente tiene una distribución simétrica respecto a su media,
puede tomar cualquier valor positivo o negativo (pero con probabilidad cero) y más de 95% del
área bajo la distribución se encuentra a no más de dos desviaciones estándar de la media.

Diapositiva 2

La distribución normal es un modelo teórico capaz de aproximar satisfactoriamente el valor de


una variable aleatoria a una situación ideal.

En el ejemplo 3.5 se estimó un modelo que explicaba la cantidad de detenciones de cada hombre
joven en un determinado año (narr86). En la población, la mayoría de los hombres no son
arrestados durante un año y la inmensa mayoría es arrestada cuando mucho una vez. (En la
muestra de los 2,725 hombres de la base de datos CRIME1.RAW, menos de 8% fue arrestado más
de una vez durante 1986.) Como en 92% de la muestra la variable narr86 toma sólo dos valores,
no se puede decir que esta variable esté distribuida normalmente en la población.
Diapositiva 3

En el ejemplo 4.6, se estimó un modelo que explicaba la participación porcentual (prate) en los
planes de pensiones 401(k).

En la figura 5.2, la distribución de frecuencia (conocida también como histograma) muestra que la
distribución de prate es muy asimétrica hacia la derecha y no distribuida normalmente. En efecto,
más de 40% de las observaciones de prate corresponden al valor 100, lo cual indica 100% de
participación. Esto viola el supuesto de normalidad, incluso condicionada a las variables
explicativas.
Diapositiva 4

Se sabe que la normalidad no juega ningún papel en la insesgadez de MCO y tampoco afecta las
conclusiones de que MCO es el mejor estimador lineal insesgado bajo los supuestos de Gauss
Markov. Pero la inferencia exacta basada en los estadísticos t y F requiere RLM.6. Significa esto
que, ¿en el análisis de prate que se realizará en el ejemplo 4.6, debe abandonarse el estadístico t
para determinar qué variables son estadísticamente significativas? Por fortuna, la respuesta a esta
pregunta es no. Aunque las y I no provienen de una distribución normal, puede emplearse el
teorema del límite central para concluir que los estimadores de MCO satisfacen la normalidad
asintótica, lo cual significa que están distribuidos de manera aproximadamente normal cuando
se tienen muestras de tamaño suficientemente grande.

El teorema explica que mientras mas grande sea n, beta sombrero estandarizado se aproximara a
una distribución normal.

La demostración de la normalidad asintótica es un poco complicada y se esboza en el apéndice


para el caso de la regresión simple. El inciso ii) es consecuencia de la ley de los grandes números y
el iii) de los incisos i) y ii) y de las propiedades asintóticas que se analizan en el apéndice C.

El teorema 5.2 es útil porque se abandona el supuesto de normalidad RLM.6; la única restricción
a la distribución del error es que tenga varianza finita, algo que se supondrá siempre. También
se ha supuesto la media condicional cero (RLM.4) y la homocedasticidad de u (RLM.5).
Diapositiva 5

Para ver la normalidad asintótica se realiza una simulación de Montecarlo (La simulación de
Montecarlo es un método estadístico. Este es utilizado para resolver problemas matemáticos
complejos a través de la generación de variables aleatorias.)

La importancia del teorema como se menciono antes es debido a que en la vida real es muy difícil
que una variable se asemeje a una curva de Gauss.

También se debe tener en cuenta que no se menciona a partir de que numero de observaciones se
considera grande la muestra para llegar a la asintocidad, eso depende del campo de estudio.
Este es el modelo poblacional, donde u tiene una distribución chi cuadrado con 2 grados de
libertad, beta1 es igual a 1 y beta 2 es igual a 0.5, si la muestra crece de manera indefinida el beta
2 se debe aproximar a 0,5 lo cual está ocurriendo.

El grafico que se muestra es la distribución de probabilidades de beta 2, en el grafico lo idea esta


dada por la curva roja que sería la distribución normal y mientras aumenta el numero de
observaciones la curva azul se va acercando a la curva roja. También se puede observar en la
cuadricula azul que el coeficiente de asimetría, mientras el n va haciéndose más grande, tiende al
valor de 0 y la curtosis tiene al valor de tres, las cuales son condiciones necesarias para una
distribución normal.

Esto es la normalidad asintótica. Con ello se puede empezar a realizar pruebas de hipótesis e
intervalos de confianza.

Observe que en (5.7) aparece la distribución normal estándar, y no la distribución t n−k−1. Esto se
debe a que la distribución es sólo aproximada.
Diapositiva 6

En cambio, en el teorema 4.2 la distribución del cociente en (5.7) fue exactamente t n−k−1 para
cualquier tamaño de muestra. Desde una perspectiva práctica, esta diferencia es irrelevante. En
realidad, es igual de legítimo escribir

( β^ j−β j ) /ee( ^β j)a t n−k−1 5.8


ya que a medida que aumentan los grados de libertad t n−k−1 se aproxima a la distribución normal
estándar.

La ecuación (5.8) indica que la prueba t y la construcción de intervalos de confianza se realizan


exactamente como bajo los supuestos del modelo lineal clásico. Esto significa que el análisis de
variables dependientes como prate y narr86 no tiene que cambiar en absoluto si se satisfacen los
supuestos de Gauss-Markov: en ambos casos se tienen al menos 1,500 observaciones, lo que sin
duda es suficiente para justificar la aproximación del teorema del límite central.

Si el tamaño de la muestra no es muy grande, entonces la distribución t puede ser una


aproximación inadecuada para la distribución del estadístico t cuando u no está distribuida de
manera normal. Por desgracia, no hay una indicación de qué tan grande debe ser el tamaño de la
muestra para que la aproximación sea suficientemente buena. Algunos econometristas piensan
que n=30es satisfactorio, pero esto puede no ser suficiente para todas las distribuciones de u.

Dependiendo de la distribución de u puede que para que el teorema del límite central
proporcione una aproximación útil sean necesarias más observaciones. Además, la calidad de la
aproximación no sólo depende de n , sino también de los gl , n−k −1: cuando en el modelo hay
más variables independientes, para emplear la aproximación t en general se necesita un tamaño
de muestra mayor.

Es muy importante ver que el teorema 5.2 sí requiere el supuesto de homocedasticidad (junto
con el de media condicional cero). Si Var ( y ∨x) no es constante, el estadístico t usual y los
intervalos de confianza no son válidos, sin importar qué tan grande sea el tamaño de la muestra; el
teorema del límite central no nos saca de apuros cuando hay heterocedasticidad.

Una conclusión del teorema 5.2 es que σ^ 2 es un estimador consistente de σ 2 ; sabíamos del
Teorema 3.3 que σ^ 2 es insesgada para σ 2 bajo los supuestos de Gauss-Markov. La consistencia
implica que σ^ es un estimador consistente de σ lo cual es importante para establecer el
resultado de normalidad asintótica de la ecuación (5.7).

Recuerde que σ^ aparece en el error estándar de cada ^β j . En efecto, la varianza estimada de ^β j es

^ σ^
2
Var ( ^β ¿ ¿ j)= ¿
ST C J (1−R2j )
2
donde ST C J es la suma total de cuadrados de x j en la muestra, y R j es la R-cuadrada de regresar
x j sobre todas las demás variables independientes. En la sección 3.4, se estudiaron cada uno de
los componentes de (5.9), los cuales se exponen ahora en el contexto del análisis asintótico. A
medida que aumenta el tamaño de la muestra, σ^ 2 converge en probabilidad a la constante σ 2.
2
Además, R j se aproxima a un número estrictamente entre cero y la unidad (de manera que
1−R j converge a algún número entre cero y uno). La varianza de muestreo de x j es ST C J / n, y
2

de esta manera, a medida que el tamaño de la muestra aumenta, ST C J /n converge a Var (x j ).


Esto significa que ST C J aumenta aproximadamente a la misma velocidad que el tamaño de la
2 2
muestra: ST C J ≈ n σ j , donde σ j es la varianza poblacional de x j . Combinando estos hechos se
^ (^
encuentra que Var β ). se reduce a cero a la velocidad de 1/n; a esto se debe que las muestras
j
de tamaño grande sean mejores.

Diapositiva 7


2
σ^
2
ST C J (1−R j )

Cuando u no está distribuida normalmente, a la raíz cuadrada de (5.9) se le suele llamar error
estándar asintótico y al estadístico t estadístico t asintótico. En el libro se les nombra como errores
estándar y estadísticos t, entendiéndose que algunas veces sólo están justificados con muestras
grandes. Un comentario similar vale también para los intervalos de confianza asintóticos
construidos a partir de errores estándar asintóticos.

Empleando los argumentos anteriores acerca de la varianza estimada, se puede escribir

ee ( ^
β j ) ≈ c j / √n

donde c j es una constante positiva que no depende del tamaño de la muestra. La ecuación es sólo
una aproximación, pero es una regla práctica útil: puede esperarse que los errores estándar
disminuyan a una velocidad inversamente proporcional a la raíz cuadrada del tamaño de la
muestra.

Diapositiva 8

Ejemplo 5.2

[Errores estándar en una ecuación para el peso al nacer]

Los datos del archivo BWGHT.RAW se emplean para estimar una relación en la que el logaritmo
del peso al nacer es la variable dependiente, y la cantidad de cigarros fumados por día (cigs) así
como el logaritmo del ingreso familiar son las variables independientes. La cantidad total de
observaciones es 1,388. Empleando la primera mitad de las observaciones (694), el error
estándar de ^β cigs es aproximadamente .0013. Empleando todas las observaciones, el error
estándar es más o menos .00086. El cociente del último error estándar entre el primero es
.00086/.0013 ≈ .662. Esta cantidad es bastante cercana a √ 694 /1,388 ≈ .707 , el cociente que
se obtiene con la aproximación dada en (5.10). En otras palabras, la ecuación (5.10) implica que
el error estándar que se obtiene empleando el tamaño de muestra mayor debe ser
aproximadamente 70.7% del error estándar que se obtiene empleando la muestra menor. Este
porcentaje está bastante cercano al 66.2% que se calculó empleando el cociente de los errores
estándar

La normalidad asintótica de los estimadores de MCO implica también que, en las muestras
grandes, los estadísticos F tienen distribuciones aproximadamente F. Por tanto, para probar
restricciones de exclusión u otras hipótesis múltiples, no cambia nada de lo hecho antes.

Preguntas

¿En la normalidad asintótica los datos deben ser normales?

Distribución de los datos no necesariamente deben ser normales, la idea es que cuando los n es
muy grande la distribución del estimador, no de los datos, se aproxima a una distribución normal

¿Como se emplea el teorema del límite central concluir que los estimadores de MCO satisfacen
la normalidad asintótica?

El teorema del límite central (TLC) Indica que el promedio de una muestra aleatoria para cualquier
población (con varianza finita), cuando se estandariza, tiene una distribución normal estándar
asintótica.

También podría gustarte