Revision PDF

Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis
Tópicos de Econometrı́a Avanzada

1. Revisión
Marcos Herrera1
1 CONICET
IELDE - Universidad Nacional de Salta (Argentina)
Universidad Nacional de Salta

1er Cuatrimestre de 2014 (Salta, Argentina)
1 / 78
Esquema de la Presentación
1 Conceptos Principales
2 Descriptiva
3 Variables Aleatorias
4 Modelo
5 Sobre los Datos
6 MLG
Supuestos
MCO
7 Tests de Hipótesis
2 / 78
Programa del Curso
1. Revisión conceptos básicos.

(19, 26 y 31 de Marzo, 7 de Abril)
Modelo lineal general. Modelos causales y no causales.
Contraste de Hipótesis. Estructuras de Datos microeconómicos.
2. Evaluación y Tratamiento
(9, 14, 16 y 21 de Abril)
Variables Instrumentales.
Propensity Scoring, Matching, D-D.
3. Modelo de Var. dependiente no continua
(23, 28 y 30 de Abril, 5 de Mayo)
Modelo Binario y Multinomial.
Tobit y Modelos de Selección.
3 / 78
Programa del Curso
4. Econometrı́a Espacial
(7, 12, 14 y 19 de Mayo)
Dependencia y Heterogeneidad Espacial.
Tipologı́a. Contrastes de Autocorrelación Espacial.
5. Modelos Jerárquicos
(21, 26 y 28 de Mayo, 2 de Junio)
Estimación Multinivel.
Estimación de Ecuaciones Generalizadas.
6. Datos de Panel
(4, 9, 11 y 16 de Junio)
Modelos Dinámicos.
Modelos Espaciales.
4 / 78
Evaluación
Graduados:
1 Entrega de trabajos prácticos individuales (aprobados).
2 Trabajo Final (no más de 2 alumnos): Documento de trabajo
(no más de 25 pag.) con la siguiente estructura tentativa:
Introducción
Revisión de la literatura
Metodologı́a
Datos y Análisis descriptivo
Resultados
Referencias bibliográficas
Alumnos:
1 Cumplir con los puntos 1 y 2 de graduados.
2 Clases: 80 % de asistencia.
5 / 78
Econometrı́a
Ragnar Frisch (1933):
“... econometrı́a no significa lo mismo que estadı́stica aplicada a la

economı́a.
No es idéntica a la llamada teorı́a económica general, aunque una
considerable porción de esta teorı́a tiene un carácter definitivamente
cuantitativo.
... no debe ser tomada como sinónimo de la aplicación de las
matemáticas a la economı́a.
La experiencia ha demostrado que cada uno de estos puntos de vista
(estadı́stica, teorı́a económica, y matemáticas) son condiciones
necesarias, pero no suficientes en si mismas, para un real entendimiento
de las relaciones cuantitativas en la vida económica moderna.
La unificación de los tres puntos es poderosa y esta unificación es

lo que constituye a la ECONOMETRÍA.”
6 / 78
Unidad de Observación y Análisis
Existen conceptos claves que deben ser considerados y entendidos

desde el inicio:
Unidad de Observación: es el objeto básico de estudio en
una investigación. Ejemplos de esto son personas, familias,
comunidades, provincias, etc. Es el objeto sobre el que se
efectúa la medición.
Unidad de Análisis: es el nivel común para el cuál los datos
de las variables son reducidos y analizados. Es el nivel sobre el
que se realizan las inferencias.
Una variable es simplemente una función de valores reales
definida para cada unidad (ya sea, de análisis o de
observación).
7 / 78
Naturaleza de los Datos
Datos observacionales:
Datos censales.
Encuestas: presenciales, en puntos de compra, por internet, etc.
Observacional: datos recolectados por muestreo sin controlar
las caracterı́sticas de los mismos (St ).
St es una muestra de tamaño n de una función de distribución
poblacional F (Zt |θt ), donde Zt es un conjunto de variables de
interés y θt es un vector de parámetros, obtenida en un
periodo o intervalo temporal t.
8 / 78
Proceso Generador
F generalmente depende del tiempo:

Si las caracterı́sticas poblacionales son constantes, podemos
escribir θt = θ (población estacionaria).
Algunas poblaciones se modifican entre periodos, es posible
que la función de distribución conjunta no sea estable.
En estadı́stica es habitual encontrar el concepto de
superpoblación para hacer referencia al conjunto de posibles
poblaciones en cada periodo.
En econometrı́a, denominamos a este conjunto como proceso
generador de datos (PGD).
9 / 78
Procesos Generadores Alternativos
El proceso generador de datos puede ser ampliado de tal forma que

contenga todas las estructuras que veremos en el curso:
PGD espacial: F (Zi ) , i ∈ R, R representa a regiones (campo
aleatorio).
PGD temporal: F (Zt ) , t ∈ T , T representa periodos
temporales.
PGD espacio-temporal: F (Zi,t ) , i ∈ R, t ∈ T (también
definirse bajo N).
PGD jerárquico: F (Zi,j ) , i ∈ N, j ∈ J. J representa
conglomerados o estratos.
Los datos observados se consideran realizaciones de algún tipo de
PGD.
10 / 78
Medidas de Tendencia Central
Media muestral (1er momento muestral):

n
1X
y= yi
n
i=1
Mediana muestral:

y(n+1)/2 impar
ymed = 1

2 yn/2 + y(n/2+1) par
donde se han ordenado los valores tal que yi ≤ yi+1 , ∀i.
11 / 78
Medidas de dispersión
2do momento centrado muestral:

n
1X
m2 = (yi − y )2
n
i=1
Varianza muestral:
n
1 X
s2 = (yi − y )2
n−1
i=1
Desviación estándar muestral:

v
u n
u 1 X
sy = t (yi − y )2
n−1
i=1
12 / 78
Medidas de distribución
Medida de Asimetrı́a:
A = m3 /s 3
Medida de Curtosis:
K = m4 /s 4
n
donde mr es el momento centrado de orden r : mr = 1P
n (yi − y )r .
i=1
Si la distribución es próxima a la normal, los valores de estas
medidas serán: A ∼ =0yK ∼ = 3.
13 / 78
Medidas de Asociación
Covarianza muestral:
n
1 X
sxy = (xi − x) (yi − y )
n − 1 i=1
Correlación muestral:
sxy
rxy =
.
sx sy
En el caso de más de dos variables, se suele presentar la matriz de
varianzas-covarianzas:
s12 ···
 
s12 s1p
 s21 s22 ··· s2p 
Var − Cov = 
 
.. .. .. .. 
 . . . . 
sp1 sp2 ··· sp2
q
La matriz de correlación es la similar con cada elemento como rjk = sjk / sj2 sk2 .
Ver Stata: 1.1 descriptiva
14 / 78
Variable Aleatoria Discreta
Una variable y es llamada aleatoria si su resultado no puede ser

predicho con certeza (probabilidad igual a 1).
La incertidumbre de dicho resultado se describe por medio de una
distribución de probabilidad de dicha variable:
Dado un conjunto de valores discretos que puede asumir y ∈ {v1 , v2 , . . .},

la distribución de y viene dada por el conjunto de probabilidades
pi = P (y = vi ) ,
P
tal que pi ≥ 0 y pi = 1.
i
Adicionalmente, puede definirse la función de distribución acumulada:
X
F (v ) = P [y ≤ v ] = pi ,
i,vi ≤v
la cual es no-decreciente y cumple lim F (v ) = 0 y lim F (v ) = 1.

v →−∞ v →+∞
15 / 78
Variable Aleatoria Continua
La incertidumbre de una variable aleatoria continua se describe por

medio de la función de densidad de dicha variable:
Dada una función de densidad de y , f (y ), la probabilidad de que y

asuma un valor dentro de A viene dada por
Z
P (y ∈ A) = f (y )dy ,
A
+∞
R
tal que f (y ) es positiva y f (y ) dy = 1
−∞
Adicionalmente, puede definirse la función de distribución acumulada:
F (v ) = P [y ≤ v ] .
dF (v ) Rb
tal que f (v ) = dv
, y P (a < y ≤ b) = F (b) − F (a) = f (v ) dv .
a
16 / 78
Momentos poblacionales
Media Poblacional
X
µ = E [y ] = yi pi
i
+∞
Z
= yf (y ) dy
−∞
Varianza Poblacional
h i X
σ 2 = E (y − µ)2 = (yi − µ)2 pi
i
+∞
Z
= (y − µ)2 f (y ) dy
−∞
Momentos de mayor orden pueden obtenerse:

+∞
Z
r
µr = E [(y − µ) ] = (y − µ)r f (y ) dy
−∞
17 / 78
Variables Aleatorias Conjuntas

Con dos o más variables discretas, la incertidumbre se define sobre
pares de resultados (x, y ) tal que:
pij = P [x = vi , y = wj ]
La función de distribución acumulada conjunta es:
X
F [v , w ] = P [x ≤ v , y ≤ w ] = pij
(i,j);vi ≤v ,wj ≤w
Con variables continuas, la correspondiente función de densidad

conjunta es:
∂ 2 F (v )
f (v , w ) =
∂v ∂w
+∞
tal que f (v , w ) ≥ 0 y
R
f (v , w ) dvdw = 1
−∞
18 / 78
Funciones de densidad marginal
Las distribuciones marginales son:

Z
fx (v ) = f (v , w ) dw
Z
fy (w ) = f (v , w ) dv
Las esperanza o medias poblaciones vienen dadas por:

Z
µx = vfx (v ) dv
Z
µy = wfy (w ) dw
19 / 78
Covarianza y Correlación
Para variables continuas la covarianza se define como:
cov (x, y ) = E [(x − µx ) (y − µy )]

ZZ
= (v − µx ) (w − µy ) f (v , w ) dvdw
= E (xy ) − E (x) E (y )
El coeficiente de correlación se define con:
cov (x, y )
ρxy =
σx σy
Dos variables no están correlacionadas si ρxy = 0, que implica:
E (xy ) = E (x) E (y )
20 / 78
Distribución condicional
La distribución condicional discreta de y dado x se define como

(asumiendo pi > 0):
P [x = vi , y = wj ] pij
P [y = wj |x = vi ] = =
P [x = vi ] pi
Para el caso de variables continuas:
f (v , w )
fy |x=v (w ) =
fx (v )
Por lo tanto, la media condicional de y dado x viene dada por
Z
E [y |x] = wfy |x=v (w ) dw
21 / 78
Independencia
Para variables discretas, si y solo si para todo (vi , wj ):
P [y = wj |x = vi ] = P [x = vi ] P [y = wi ]
entonces se dice que las variables son independientes.

Para el caso de variables continuas, dos variables serán
independientes si y solo si, para todo (v , w ):
f (v , w ) = f (v ) f (w )
Bajo independencia:
la distribución conjunta se obtiene por multiplicación de las
marginales.
la media y varianza condicional son iguales a los momentos no
condicionados.
Las variables independientes siempre tienen correlación 0, pero la
inversa no es cierta.
22 / 78
Algunas Distribuciones
El caso más simple es una variable discreta que asume dos valores,
0 y 1, tal que
Distribución Bernoulli:
f (y ) = p y (1 − p)1−y , y = {0, 1}
tal que:

p si y = 1
f (y , p) =
1 − p si y = 0
Los momentos de esta distribución son:
E (y ) = p
Var (y ) = p (1 − p)
23 / 78
Si tenemos n variables i.i.d, con distribución Bernoulli, entonces:
X
y= yi ∼ B (n, p)
i
Distribución Binomial
n!
f (y ) = p y (1 − p)n−y
y ! (n − y )!
donde y = {0, 1, . . . , n}
Los momentos de esta distribución son:
E (y ) = np
Var (y ) = np (1 − p)
24 / 78
La distribución más ampliamente utilizada en econometrı́a es la

Normal (una de las razones es el TCL).
Dada una variable continua y = {−∞, +∞}, la función de
densidad viene representada por:
Distribución Normal
1 1 2
f (y ) = √ e − 2σ2 (y −µ)
σ 2π
Esta distribución se puede caracterizar por dos parámetros: µ y σ 2 ,
tal que se resume como y ∼ N µ, σ 2 .
Es habitual la estandarización:
y −µ
∼ N (0, 1)
σ2
25 / 78
La distribución de un vector de n variables normales,

0
y = y1 y2 · · · yn posee una distribución conjunta
representada por:
Distribución Normal Multivariada
0 P−1
1 − 1 (y−µ) (y−µ)
f (y) = n/2 P 1/2 e 2σ2
(2π) (det ( ))
P
donde det ( ) es el determinante de la matriz de
varianza-covarianza (matriz positiva y simétrica) de dimensión
(n × n). P
La distribución multivariada se resume como y ∼ N (µ, ).
26 / 78
Otras distribuciones útiles son:
Chi-cuadrado
Si y = yi2 , tal yi ∼ i.i.d.N (0, 1) entonces:
P
i
y ∼ χ2 (n) , n = grados de libertad

t de Student
Si y1 ∼ N (0, 1)y y2 ∼ χ2 (r ) entonces:
y
p 1 ∼ t (r )
y2/r
F de Snedecor
Si y1 ∼ χ2 (r1 ) y y2 ∼ χ2 (r2 ) entonces:
y1/r1
∼ F (r1 , r2 )
y2/r2
27 / 78
Conceptos
Supongamos que tenemos una muestra de n observaciones de

un conjunto de variables yi , xi ,i = 1, ..., n.
Consideramos que la muestra es el resultado aleatorio de un
PGD con distribución de probabilidad conjunta {Fθ ; θ ∈ Θ}.
Los parámetros, θ, son valores numéricos desconocidos
pertenecientes a un espacio paramétrico Θ.
Un estadı́stico es una función que depende de la muestra:
g (y1 , . . . , yn ).
Un estimador es un estadı́stico que es usado para aproximar el
valor del parámetro θ y se denota como θ.
b
El resultado numérico del estimador se denomina estimación.
28 / 78
Modelo Estructural
Dado un conjunto de datos observados, establecemos un modelo
estructural (Cowles Commision) como:
1 Un
conjunto
de variables Z particionadas en forma conveniente:
y x ;
2 Una distribución de probabilidad conjunta de Z , F (Z , θ);
3 Un ordenamiento a priori de Z de acuerdo a un modelo causal
hipotético y un conjunto de restricciones del modelo.
4 Especificación de la forma funcional del modelo (paramétrica, no
paramétrica o semiparamétrica).
Un modelo estructural (en forma implı́cita) puede resumirse como:
g (yi , xi , ui |θ) = 0
donde g es una función conocida, ui es una perturbación aleatoria

y θ representa al conjunto de parámetros estructurales.
29 / 78
Forma Reducida
Si existe una solución única de yi para cada (xi , ui ). La ecuación

puede escribirse en forma explı́cita:
yi = g (xi , ui |π) .
Esta es la forma reducida del modelo estructural, donde π is un
vector de parámetros que son funciones de θ.
Si yi = f (xi , ui |π) tiene una forma funcional conocida y es
aditivamente separable en xi y ui , entonces:
yi = f (xi |π) + ui = E [yi |xi ] + ui ,

luego, y como función de x es una predicción natural para y dado
x.
30 / 78
Función Expectativa condicional
Hemos establecido que el valor esperado de y es función de una o

más variables x:
E (y |x1 , x2 , . . . , xk ) = m (x1 , x2 , . . . , xk ) .
m (.) es llamada función de expectativa condicional, siendo función
de las variables explicativas observadas.
Si las variables son continuas, entonces:
Z
m (x) = E (y |x) = yfy |x (y |x) dy
Ver Stata: 1.2 condicionales
31 / 78
Función Expectativa Condicional del Error

Ahora, podemos definir u como la diferencia entre y y la función
de expectativa condicional:
u = y − m (x)
Por construcción, esto genera la fórmula:
y = m(x) + u
Se cumple que E (u|x) = 0, que es llamada restricción de media
condicional o independencia promedio:
E (u|x) = E [(y − m (x)) |x]

= E (y |x) − E [m (x) |x] = m (x) − m (x)
No implica que la distribución de u sea independiente de x!

32 / 78
Orden causal. Relación entre Variables
Un punto controversial es el punto 3: el ordenamiento causal de las

variables.
¿Qué variable es la causal y cuál el efecto?
Esto se relaciona con:
¿Cuáles son las variables externamente determinadas y cuáles
son las internamente determinadas?
Por lo general, denotaremos y a la(s) variable(s) internamente
determinadas y x a las externamente determinadas.
Podemos decir que y es la variable dependiente y x las
explicativas.
Se suele usar como sinónimos: “dependiente”=“endógena” y
“explicativas”=“exógenas”, pero los términos no son
equivalentes.
33 / 78
Exogeneidad
Considerando una representación general, la distribución conjunta

de Z y el espacio paramétrico particionado en θ = θ1 θ2 .
Factorizando la distribución conjunta:
F (Z , θ) = f (y |x, θ) × f (x, θ) .
Un caso especial ocurre cuando:
F (Z |θ) = f (y |x, θ1 ) × f (x, θ2 ) ,

siendo θ1 y θ2 funcionalmente independientes.
Luego, decimos que x es exógena con respecto a θ1 . En otros
términos, el conocimiento de f (x, θ2 ) no es requerido para hacer
inferencia respecto a θ1 .
34 / 78
Exogeneidad Débil
Se dice que x es débilmente exógena para un parámetro λ si se

cumplen dos condiciones.
1 λ solo depende de θ1 (λ = h (θ1 )), por lo que solo la
distribución condicional es de interés.
2 Los parámetros θ1 y θ2 son de libre variación, es decir, los
parámetros de la distribución conjunta no están sujetos a
restricciones cruzadas.
35 / 78
Independencia Condicional
Supongamos
que particionamos
las variables en
Z = y x1 x2 . Luego, x1 e y son condicionalmente
independientes dada x2 si:
f (y |x1 , x2 ) = f (y |x2 ) .
Esta independencia condicional es más fuerte que la habitual que
es en términos de esperanza:
E (y |x1 , x2 ) = E (y |x2 ) .
Esta condición puede ser interpretada como no-causalidad de
Granger en un entorno temporal.
36 / 78
Exogeneidad Fuerte
Se dice que x es fuertemente exógena para un parámetro λ si se

cumplen dos condiciones.
1 Es débilmente exógeno para λ.
2 Se cumple la independencia condicional (no causalidad de
Granger).
También conocida como exogeneidad estricta.
37 / 78
Exogeneizando Variables
La exogeneidad es una propiedad de las variables aleatorias

relativas a los parámetros de interés.
Una variable puede ser exógena en un modelo pero no en otro.
No tiene validez universal.
Estrategias:
Cowles Commission: exogeneidad a priori.
En corte transversal: variable que puede ser intervenida.
Existe una tendencia relacionar variable exógena con variable
causal.
38 / 78
Modelo uniecuacional
Un modelo simple puede ser considerado:
y1i = αy2i + βxi + ui

donde y1 e y2 son variables endógenas y x son variables exógenas.
En general, puede reexpresarse como:
yi = xi β + ui
donde en el vector xi se encuentra comprendida la variable
endógena y la exógena.
39 / 78
Datos observacionales
Los datos observacionales pueden provenir de:

Censos: representación de todas las unidades poblacionales.
Muestras simples: poco frecuentes. Las observaciones
muestreadas son igualmente probables.
Muestreo multietápico: en este caso, las unidades muestreadas
poseen diferente representatividad en la muestra.
Estratos: subpoblaciones no-traslapadas (provincias).
PSU: subconjunto no traslapado del estrato (ciudad).
SSU: sub-unidades del PSU (barrio).
USU: unidades de muestreo final que son elegidas para la
entrevista (familia).
Las encuestas de muestreos complejos proporcionan el factor de
expansión (la inversa de la probabilidad de elección).
40 / 78
Datos de experimentos sociales
Análogo a datos experimentales con un proceso similar al siguiente:
41 / 78
Datos de experimentos naturales
Los datos son recolectados cuando un subconjunto de la población

experimenta un cambio exógeno en una determinada variable.
Por ejemplo:
Cambio impositivo en una provincia o estado de forma no
esperada.
Desastre natural que afecta a una única región.
Estas circunstancias permiten capturar el cambio en las variables
explicativas y medir su impacto sobre la variable endógena.
Los grupos surgen de forma “natural”.
42 / 78
Sesgo muestral
Si se aplica el muestreo aleatorio simple, la distribución de

probabilidad de los datos es la misma que la de la población.
Generalmente, la práctica se desvı́a del muestreo aleatorio
simple (por costo-beneficio) a ciertas particiones de la
población que pueden generar sesgo muestral.
43 / 78
Sesgo de selección muestral
Ocurre cuando una parte de la población objetivo es excluida del

muestreo.
Puede ser:
No aleatoria: seleccionamos de forma intencionada la muestra.
Incorrecta definición de la población objetivo (basada en
información no actual).
Muestra por autoselección (voluntad de los participantes).
El efecto que tiene este problema es que los resultados obtenidos
no pueden generalizarse a toda la población.
44 / 78
Problema de No-respuesta
Este problema es usualmente pasado por alto.

La no-respuesta puede deberse a que el individuo no conoce la
respuesta (considerado aleatorio).
La no-respuesta puede provenir de un rechazo sistemático a
ofrecer esa información.
En el segundo caso, la no-respuesta contiene información que
permitirı́a ajustar en cuestionario o corregir el resultado final del
estudio.
45 / 78
Datos faltantes
Las encuestas contienen numerosas preguntas y no todas son

respondidas.
Si estamos interesados en estudiar un conjunto de variables y una
de ellas faltante tiene faltantes:
el vector completo de las variables de ese individuo será
excluido del estudio.
Esto genera que la muestra se reduzca y puede ser importante en
la cantidad de observaciones excluidas.
Además, este problema puede sesgar los resultados del estudio.
46 / 78
Error de medición
Este problema está siempre presente en las encuestas:

Puede originarse por diferentes causas:
Respuesta incorrecta.
Reporte malintencionado (encuestas polı́ticas).
Interpretación incorrecta de las preguntas.
Error en el procesamiento de datos.
47 / 78
Desgaste muestral
Este problema está presente en datos de panel en donde la persona

es encuestada varias veces.
Podemos tener varios casos:
Respuesta total (participación completa).
No participación en los primeros periodos y luego
participación.
Participación en los primeros periodos y no participación
posterior (desgaste muestral).
Este último caso puede ser considerado como un caso especial de
selección muestral.
48 / 78
Estructura de los Datos
Corte transversal
id x1 x2 x3
1 2 0 2,5
2 4,6 1 1,5
.. .. .. ..
. . . .
n 6,8 0 2,0
No hay referencia temporal.
49 / 78
Estructura de los Datos
Datos de Panel
id tiempo x1 x2 x3
1 1 2 0 2,5
id x1t1 x1t2 x2t1 x2t2 x3t1 x3t2
1 2 4,6 0 3,1
1 2 4,6 0 0 2,5 3,1
2 1 2,8 1 5,7
2 2,8 2,3 1 1 5,7 9,2
2 2 2,3 1 9,2 .. .. .. .. .. .. ..
.. .. .. .. .. . . . . . . .
. . . . .
n 6,8 3,2 1 1 5,2 2,0
n 1 6,8 1 5,2
n 2 3,2 1 2,0
Formato Largo Formato Ancho
50 / 78
Algunos consejos con los datos
Cuestiones Prácticas del Manejo de Base de Datos.

Limpiar la base de datos:
Borrar las observaciones que tengan datos faltantes en las
variables de interés.
Borrar las datos de no-respuesta. (luego puede hacerse un
análisis si estos datos contienen información útil).
Cuidado con los datos faltantes
Suelen tabularse como 9, 99, 999 o en valores negativos.
Chequear en cada variable.
Grandes bases de datos implican mayor probabilidad de cometer
errores en el manejo de la base.
Presentar estadı́sticos descriptivos y gráficos ayuda a detectar
errores.
51 / 78
Supuestos
Modelo Lineal General
Asumamos que hay solo una variable dependiente y , la cual puede

ser explicada por medio de las variables x1 , x2 , ..., xk .
Consideramos que la relación entre las mismas es una función
lineal del vector de parámetros β :
yi = β1 x1i + β2 x2i + ... + βk xki + ui
o, usando notación vectorial:
yi = xi β + ui
x0i β es la parte sistemática.

ui es la parte no-sistemática o aleatoria.
52 / 78
Supuestos
Modelo Lineal General
Las n observaciones pueden ser escritas en forma matricial como
y = Xβ + u,
0
donde y = y1 y2 · · · yn es n × 1 y
0
X = x1 x2 · · · xn .
 
1 x21 x31 ··· xk1
 1
 x22 x32 ··· xk2 

X= 1
 x23 x33 ··· xk3 

 .. .. .. .. .. 
 . . . . . 
1 x2n x3n ··· xkn
53 / 78
Supuestos
Supuestos Parte Sistemática

1 Exogeneidad Estricta: X es una matriz de constantes fija, tal que
F (X, u) = f (X) f (u)

f (u|X) = f (u)
Adicionalmente, la matriz satisface:

1 0
lim X X = QX
n→∞ n
donde QX es una matriz definida positiva.

2 Matriz X con rango completo: no hay multicolinealidad perfecta.
r (X) = k
3 Estabilidad del vector de parámetros β: un único modelo explica
toda la muestra
54 / 78
Supuestos
Supuestos Parte Aleatoria

1 Esperanza nula:
E (ui |X) = E (ui ) = 0, ∀i
E (u|X) = 0
2 Perturbaciones esféricas:
1 Homocedasticidad
var(ui ) = E ui2 = σ 2 , ∀i

2 No autocorrelación
cov(ui , uj ) = E (ui uj ) = 0, ∀i 6= j
0
h i
Matricialmente: V (u) = E (u − E u) (u − E u) = σ 2 In
3 Perturbaciones Normalmente Distribuidas:
u ∼ N (0, σ 2 In )
55 / 78
MCO
Estimador MCO
Estimador MCO minimiza el valor de la suma de los residuos al

cuadrado:
β̂ = arg min S(β)
donde
n
X
S(β) = (yi − xi β)2
i=1
= (y − Xβ)0 (y − Xβ)
= y0 y − 2β 0 X0 y + β 0 X0 Xβ
56 / 78
MCO
Estimador MCO
La derivada parcial de S(β) respecto a β es igual:
∂S(β)
= −2X0 y + 2X0 Xβ̂ = 0
∂β 0
De la condición surge un sistema de k ecuaciones (sistema de ecuaciones
normales):
X0 Xβ̂ = X0 y
 ˆ
··· ··· β1
  
1 1 1 1 x21 xk1
 x21 x22 ··· x2n  1 x22 ··· xk2   β̂2 
X0 Xβ̂ =
   
.. .. .. .. .. .. .. ..  .
  ..
  
 . . . .  . . . . 
xk1 xk2 ··· xkn 1 x2n ··· xkn β̂k
···
  
1 1 1 y1
 x21 x22 ··· x2n  y2 
X0 y = 
  
.. .. .. ..  .. 
 . . . .  . 
xk1 xk2 ··· xkn yn
57 / 78
MCO
Estimador MCO
El resultado de la minimización de S(β) es:
β̂ = (X0 X)−1 X0 y.
Luego, puede obtenerse una estimación de la expectativa
condicional de y (predicciones):
ŷ = Xβ̂
y una estimación de los errores o perturbaciones (residuos):
û = y − Xβ̂ = y − ŷ
Ver Matlab: 1.3 mco manual, 1.4 estimacion mco
58 / 78
MCO
Propiedades Algebraicas de MCO
P
1 La suma de los residuos es nula: ûi = 0.
i
2 La regresión pasa los puntos medios de las variables
explicativas: y = xβ̂
3 Los residuos no se correlacionan con las variables explicativas:
0
cov (X, û) = X û = 0
La estimación de la varianza σ 2 o parámetro de dispersión es:
P 2
ûi 0
û û
σ̂ 2 = i =
n−k n−k
59 / 78
MCO
Propiedades Finitas de β̂

1 Insesgadez: E β̂ = β
Normalidad: β̂ ∼ N β, (X 0 X )−1 σ 2

2
3 ELIO: Alcanza la mı́nima varianza de los estimadores

insesgados lineales.
4 Eficiencia: Alcanza la mı́nima varianza entre los estimadores
insesgados.
Ver Matlab: 1.5 insesgado, 1.6 sesgado, 1.7 elio
60 / 78
MCO
Propiedades Finitas de σ̂ 2
Asumiendo que
0 −1 0
û = y − X β̂ = y − X X X X y
0 −1
= In − X X X X 0 y = My
0 0 0
u Mu
û û = u Mu ⇒ σ2
∼ χ2n−k
Insesgadez: E σ̂ 2 = σ 2
No ELIO, ni eficiente
61 / 78
MCO
Propiedades Asintóticas de β̂

1 Insesgadez asintótica: lim E β̂n = β
n→∞
2 Consistencia: Dos condiciones suficientes (1) insesgadez asintótica y (2)
varianza converge a cero.
σ 2 X 0 X −1
lim V β̂ = lim ( )
n→∞ n→∞ n n
= 0 × Q −1
p
β̂ → β o plim β̂ = β
3 Normalidad Asintótica (TCL, convergencia en distribución)
β̂ − β (X 0 X )−1 X 0 u
=
0 −1 0
√ X X X u
n β̂n − β = √
n n
√
d

n β̂n − β0 → N 0, σ 2 QX−1
No se asume normalidad, solo i.i.d de las perturbaciones
Ver Matlab: 1.8 asintótica. (LGN y TCL) 62 / 78
MCO
Intervalo de estimación de β̂
Hemos establecido que:

0 −1
2
β̂j ∼ N βj , σ X X
jj
y por lo tanto:
β̂j − βj
q ∼ N [0, 1]
−1
σ 2 (X 0 X )jj
Además, hemos establecido:
0
û û
∼ χ2n−k
σ2
63 / 78
MCO
Intervalo de estimación de β̂
Teniendo en cuenta los resultados anteriores:
β̂ −βj
r j
−1
σ 2 (X 0 X )jj
β̂j − βj
r 0
= q ∼ tn−k
−1
û û
σ2
σ̂ (X 0 X )jj
n−k
Fijando
h un nivel de confianza,
i (1 − α), tenemos que
β̂j −βj
Pr −tα/2 < seˆ j < tα/2 = 1 − α
y entonces:
β̂j ± tα/2 se
ˆ j (j = 1, . . . , k)
64 / 78
MCO
Bondad de Ajuste
Con bondad de ajuste nos referimos a cuán bien explica nuestro

modelo la variabilidad de la ver. dep.
Una medida simple es la estimación del parámetro de dispersión:
P 2 qP 2
2 ûi ûi
σ̂ = n−k , (mse) ⇒ σ̂ = n−k
A menor valor mejor ajuste.

Sin embargo, este indicador depende de la unidad de medida y no
hay un valor de referencia.
Es mejor usar otras medidas alternativas.
65 / 78
MCO
Bondad de Ajuste
Hay dos medidas de bondad ampliamente utilizadas:
SCE SCR
1 Coef. de Determinación: R 2 = SCT =1− SCT ,
2 SCR/(N−k)
1 Coef. de Determinación corregido: R = 1 − SCT/(N−1)
donde: P
0
SCR = ûi2 = û û,
0
SCT = y y − ny 2
0 0
SCE = SCT − SCR = β̂ X y − ny 2 .
66 / 78
MCO
Bondad de Ajuste
Log-verosimilitud estimada: `b = − n2 ln (2π) − n2 ln σ

e2 − n2 ,

e2 = SCR/n el parámetro de dispersión obtenido por

siendo σ
MV.
A mayor valor de la log-verosimilitud mejor ajuste.
Criterio de Información de Akaike: AIC = −2`b + 2k

Criterio de Información de Schwarz: BIC = −2`b + kln (n)
A menor valor de los criterios de información mejor ajuste.
67 / 78
Conceptos Generales
Hipótesis Nula: afirmación que deseamos contrastar y que se

mantiene como válida mientras no se encuentre evidencia en
su contra (H0 ).
Hipótesis Alternativa: A favor de la que se rechaza la hipótesis
nula (H1 ).
Estadı́stico de contraste: variable aleatoria cuya distribución se
conoce bajo H0 .
Nivel de significancia (α) y una región de rechazo.
68 / 78
Tamaño y Potencia
¿Como actúa el contraste?:
Decisi ón ⇒ No rechazar H0 Rechazar H0

H0 verdadera no hay error error tipo I
H1 verdadera error tipo II no hay error
La probabilidad de cometer error tipo I:
Pr (rechazar H0 |H0 verdadera) = α
La probabilidad de cometer error tipo II:
Pr (no rechazar H0 |H1 verdadera) = β
Generalmente, se utiliza la potencia del test:
Pr (rechazar H0 |H1 verdadera) = 1 − β
69 / 78
Pasos Secuenciales Test Individual

1 Definir Hipótesis:
H0 : βj = β0 , H1 : βj 6= β0
2 Definir Estadı́stico de Contraste:
β̂j −β0
t0 = σ̂β̂
j
3 Calcular Estadı́stico con datos muestrales.

4 Fijar nivel de significancia y regiones de rechazo o no de H0 :
70 / 78
Pasos Secuenciales Test Individual
5to y último paso:
Si t̂0 ∈ Rc ⇒ Rechazar H0
Si t̂0 ∈
/ Rc ⇒ No Rechazar H0 .
Otro criterio con similar conclusión es utilizar el p-valor:

Si p − valor = Pr t̂0 < ε ⇒ Rechazar H0

Si p − valor = Pr t̂0 ≥ ε ⇒ No Rechazar H0
Ver Stata: ejercicio 1.

Ver Matlab: 1.9 empirical size y 1.10 empirical power con α = 0,05.
71 / 78
Pasos Secuenciales Test Conjunto

Para más de una hipótesis utilizamos un conjunto de restricciones en forma
matricial: Rβ = c, donde R es una matriz de constantes, c es un vector
columna de constantes.
1 Definir Hipótesis: H0 : Rβ = c, H1 : Rβ 6= c
2 Definir Estadı́stico de Contraste:
0 0 −1 0 −1

(R β̂−Rβ ) R X X R (R β̂−Rβ )
F = r σ̂ 2
donde r es el nº de restricciones.
3 Calcular Estadı́stico con datos muestrales: F̂ .
4 Fijar nivel de significancia y regiones de rechazo o no de H0 :
72 / 78
Pasos Secuenciales
5to y último paso:
Si F̂0 ∈ Rc ⇒ Rechazar H0
Si F̂0 ∈
/ Rc ⇒ No Rechazar H0 .
Otro criterio con similar conclusión es utilizar el p-valor:

Si p − valor = Pr F̂0 < ε ⇒ Rechazar H0

Si p − valor = Pr F̂0 ≥ ε ⇒ No Rechazar H0
73 / 78
Casos Particulares de Restricciones Conjuntas
1 Si H0 : β2 = 0, . . . , βk = 0
SCE R2
(k−1) (k−1)
El contraste es: FAV = SCR = 1−R 2
∼ F (k − 1, n − k)
(n−k) (n−k)
2 Si H0 : βj0 = 0
El contraste es F = (tn−k )2 ∼ F (1, n − k)
3 Para un subconjunto s, H0 : βk−s+1 = 0, . . . , βk = 0

SCRr −SCR
El contraste es F = s
SCR ∼ F (s, n − k)
(n−k)
74 / 78
Tests de Hipótesis basados en MV

Formalmente, los siguientes tests se basan en la siguiente propiedad
h i
n /2 θe − θ ∼ N 0, lim (I (θ)/n)−1
1
N→∞
es decir, la diferencia entre los parámetros estimados y poblacionales converge

en distribución a una distribución Normal con vector de media 0 y varianza
igual a la inversa de la matriz información. Sean las hipótesis función de los
parámetros θ: H0 : g (θ) = 0, H1 : g (θ) 6= 0 , siendo g (θ) un vector q × 1
Test de Wald
0
h 0 i−1
W = gθ Gθ Vθ Gθ gθ ∼ χ2q
∂
donde Gθ = ∂θ g (θ) y Vθ es la estimación de la matriz de varianzas
asintóticas
Test de Razón de Verosimilitud
LR = 2 [`H1 − `H0 ] ∼ χ2q
Tests Multiplicador de Lagrange
0
LM = `H0 I (θH0 )−1 `H0 ∼ χ2q
Asintóticamente equivalentes pero en muestras finitas: W ≥ LR ≥ LM.
75 / 78
Tests de Hipótesis basados en MV
76 / 78
Validación del Modelo
Normalidad: Jarque-Bera
h 2 i
g (g2 −3)2
JB = (n − k) 61 + 24
∼ χ22 , siendo g1 el coef. de asimetrı́a y g2 el
coef. de curtosis.
Multicolinealidad: Número de Condición

0 q
NC X X = ωωMAX
MIN
, siendo ωMAX y ωMIN son autovalores de la matriz
0
X X . Si NC > 30 : problemas graves de multicolinealidad.
77 / 78
Validación del Modelo
Heterocedasticidad
Breusch-Pagan: BP = 21 SCE ∼ χ2q , siendo SE la suma explicada de

2
la regresión auxiliar con var. dep. ûi /σe 2 contra la constante más q
variables explicativas.
2
White: W = nRAux ∼ χ2q , siendo RAux
2
el coef. de determinación de
2
la reg. auxiliar con var. dep. ûi contra productos cuadrados e
interacciones de q variables explicativas más una constante.
Ver Stata: 1.3 chequeo.do
78 / 78

Revision PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Revision PDF

Cargado por

Copyright:

Formatos disponibles

Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Tópicos de Econometrı́a Avanzada

IELDE - Universidad Nacional de Salta (Argentina)

Universidad Nacional de Salta

Programa del Curso

1. Revisión conceptos básicos.

Programa del Curso

“... econometrı́a no significa lo mismo que estadı́stica aplicada a la

La unificación de los tres puntos es poderosa y esta unificación es

Unidad de Observación y Análisis

Existen conceptos claves que deben ser considerados y entendidos

Naturaleza de los Datos

F generalmente depende del tiempo:

Procesos Generadores Alternativos

El proceso generador de datos puede ser ampliado de tal forma que

Medidas de Tendencia Central

Media muestral (1er momento muestral):

2do momento centrado muestral:

Desviación estándar muestral:

Variable Aleatoria Discreta

Una variable y es llamada aleatoria si su resultado no puede ser

Dado un conjunto de valores discretos que puede asumir y ∈ {v1 , v2 , . . .},

la cual es no-decreciente y cumple lim F (v ) = 0 y lim F (v ) = 1.

Variable Aleatoria Continua

La incertidumbre de una variable aleatoria continua se describe por

Dada una función de densidad de y , f (y ), la probabilidad de que y

Momentos de mayor orden pueden obtenerse:

Variables Aleatorias Conjuntas

Con variables continuas, la correspondiente función de densidad

Funciones de densidad marginal

Las distribuciones marginales son:

Las esperanza o medias poblaciones vienen dadas por:

cov (x, y ) = E [(x − µx ) (y − µy )]

El coeficiente de correlación se define con:

La distribución condicional discreta de y dado x se define como

entonces se dice que las variables son independientes.

La distribución más ampliamente utilizada en econometrı́a es la

La distribución de un vector de n variables normales,

y ∼ χ2 (n) , n = grados de libertad

Supongamos que tenemos una muestra de n observaciones de

donde g es una función conocida, ui es una perturbación aleatoria

Si existe una solución única de yi para cada (xi , ui ). La ecuación

yi = f (xi |π) + ui = E [yi |xi ] + ui ,

Función Expectativa condicional

Hemos establecido que el valor esperado de y es función de una o

Ver Stata: 1.2 condicionales

Función Expectativa Condicional del Error

E (u|x) = E [(y − m (x)) |x]

No implica que la distribución de u sea independiente de x!

Orden causal. Relación entre Variables

Un punto controversial es el punto 3: el ordenamiento causal de las

Considerando una representación general, la distribución conjunta

F (Z |θ) = f (y |x, θ1 ) × f (x, θ2 ) ,

Se dice que x es débilmente exógena para un parámetro λ si se

Se dice que x es fuertemente exógena para un parámetro λ si se

La exogeneidad es una propiedad de las variables aleatorias

Un modelo simple puede ser considerado:

y1i = αy2i + βxi + ui

Los datos observacionales pueden provenir de:

Datos de experimentos sociales

Análogo a datos experimentales con un proceso similar al siguiente:

Datos de experimentos naturales

Los datos son recolectados cuando un subconjunto de la población