Está en la página 1de 78

Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Tópicos de Econometrı́a Avanzada


1. Revisión

Marcos Herrera1
1 CONICET

IELDE - Universidad Nacional de Salta (Argentina)

Universidad Nacional de Salta


1er Cuatrimestre de 2014 (Salta, Argentina)

1 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Esquema de la Presentación

1 Conceptos Principales
2 Descriptiva
3 Variables Aleatorias
4 Modelo
5 Sobre los Datos
6 MLG
Supuestos
MCO
7 Tests de Hipótesis

2 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Programa del Curso

1. Revisión conceptos básicos.


(19, 26 y 31 de Marzo, 7 de Abril)
Modelo lineal general. Modelos causales y no causales.
Contraste de Hipótesis. Estructuras de Datos microeconómicos.
2. Evaluación y Tratamiento
(9, 14, 16 y 21 de Abril)
Variables Instrumentales.
Propensity Scoring, Matching, D-D.
3. Modelo de Var. dependiente no continua
(23, 28 y 30 de Abril, 5 de Mayo)
Modelo Binario y Multinomial.
Tobit y Modelos de Selección.

3 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Programa del Curso

4. Econometrı́a Espacial
(7, 12, 14 y 19 de Mayo)
Dependencia y Heterogeneidad Espacial.
Tipologı́a. Contrastes de Autocorrelación Espacial.
5. Modelos Jerárquicos
(21, 26 y 28 de Mayo, 2 de Junio)
Estimación Multinivel.
Estimación de Ecuaciones Generalizadas.
6. Datos de Panel
(4, 9, 11 y 16 de Junio)
Modelos Dinámicos.
Modelos Espaciales.

4 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Evaluación

Graduados:
1 Entrega de trabajos prácticos individuales (aprobados).
2 Trabajo Final (no más de 2 alumnos): Documento de trabajo
(no más de 25 pag.) con la siguiente estructura tentativa:
Introducción
Revisión de la literatura
Metodologı́a
Datos y Análisis descriptivo
Resultados
Referencias bibliográficas
Alumnos:
1 Cumplir con los puntos 1 y 2 de graduados.
2 Clases: 80 % de asistencia.

5 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Econometrı́a
Ragnar Frisch (1933):

“... econometrı́a no significa lo mismo que estadı́stica aplicada a la


economı́a.
No es idéntica a la llamada teorı́a económica general, aunque una
considerable porción de esta teorı́a tiene un carácter definitivamente
cuantitativo.
... no debe ser tomada como sinónimo de la aplicación de las
matemáticas a la economı́a.
La experiencia ha demostrado que cada uno de estos puntos de vista
(estadı́stica, teorı́a económica, y matemáticas) son condiciones
necesarias, pero no suficientes en si mismas, para un real entendimiento
de las relaciones cuantitativas en la vida económica moderna.

La unificación de los tres puntos es poderosa y esta unificación es


lo que constituye a la ECONOMETRÍA.”
6 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Unidad de Observación y Análisis

Existen conceptos claves que deben ser considerados y entendidos


desde el inicio:
Unidad de Observación: es el objeto básico de estudio en
una investigación. Ejemplos de esto son personas, familias,
comunidades, provincias, etc. Es el objeto sobre el que se
efectúa la medición.
Unidad de Análisis: es el nivel común para el cuál los datos
de las variables son reducidos y analizados. Es el nivel sobre el
que se realizan las inferencias.
Una variable es simplemente una función de valores reales
definida para cada unidad (ya sea, de análisis o de
observación).

7 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Naturaleza de los Datos

Datos observacionales:
Datos censales.
Encuestas: presenciales, en puntos de compra, por internet, etc.
Observacional: datos recolectados por muestreo sin controlar
las caracterı́sticas de los mismos (St ).
St es una muestra de tamaño n de una función de distribución
poblacional F (Zt |θt ), donde Zt es un conjunto de variables de
interés y θt es un vector de parámetros, obtenida en un
periodo o intervalo temporal t.

8 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Proceso Generador

F generalmente depende del tiempo:


Si las caracterı́sticas poblacionales son constantes, podemos
escribir θt = θ (población estacionaria).
Algunas poblaciones se modifican entre periodos, es posible
que la función de distribución conjunta no sea estable.
En estadı́stica es habitual encontrar el concepto de
superpoblación para hacer referencia al conjunto de posibles
poblaciones en cada periodo.
En econometrı́a, denominamos a este conjunto como proceso
generador de datos (PGD).

9 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Procesos Generadores Alternativos

El proceso generador de datos puede ser ampliado de tal forma que


contenga todas las estructuras que veremos en el curso:
PGD espacial: F (Zi ) , i ∈ R, R representa a regiones (campo
aleatorio).
PGD temporal: F (Zt ) , t ∈ T , T representa periodos
temporales.
PGD espacio-temporal: F (Zi,t ) , i ∈ R, t ∈ T (también
definirse bajo N).
PGD jerárquico: F (Zi,j ) , i ∈ N, j ∈ J. J representa
conglomerados o estratos.
Los datos observados se consideran realizaciones de algún tipo de
PGD.

10 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Medidas de Tendencia Central

Media muestral (1er momento muestral):


n
1X
y= yi
n
i=1

Mediana muestral:

y(n+1)/2  impar
ymed = 1

2 yn/2 + y(n/2+1) par
donde se han ordenado los valores tal que yi ≤ yi+1 , ∀i.

11 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Medidas de dispersión

2do momento centrado muestral:


n
1X
m2 = (yi − y )2
n
i=1

Varianza muestral:
n
1 X
s2 = (yi − y )2
n−1
i=1

Desviación estándar muestral:


v
u n
u 1 X
sy = t (yi − y )2
n−1
i=1

12 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Medidas de distribución

Medida de Asimetrı́a:

A = m3 /s 3
Medida de Curtosis:

K = m4 /s 4
n
donde mr es el momento centrado de orden r : mr = 1P
n (yi − y )r .
i=1
Si la distribución es próxima a la normal, los valores de estas
medidas serán: A ∼ =0yK ∼ = 3.

13 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Medidas de Asociación
Covarianza muestral:
n
1 X
sxy = (xi − x) (yi − y )
n − 1 i=1
Correlación muestral:
sxy
rxy =
.
sx sy
En el caso de más de dos variables, se suele presentar la matriz de
varianzas-covarianzas:

s12 ···
 
s12 s1p
 s21 s22 ··· s2p 
Var − Cov = 
 
.. .. .. .. 
 . . . . 
sp1 sp2 ··· sp2
q
La matriz de correlación es la similar con cada elemento como rjk = sjk / sj2 sk2 .
Ver Stata: 1.1 descriptiva
14 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Variable Aleatoria Discreta

Una variable y es llamada aleatoria si su resultado no puede ser


predicho con certeza (probabilidad igual a 1).
La incertidumbre de dicho resultado se describe por medio de una
distribución de probabilidad de dicha variable:

Dado un conjunto de valores discretos que puede asumir y ∈ {v1 , v2 , . . .},


la distribución de y viene dada por el conjunto de probabilidades

pi = P (y = vi ) ,
P
tal que pi ≥ 0 y pi = 1.
i
Adicionalmente, puede definirse la función de distribución acumulada:
X
F (v ) = P [y ≤ v ] = pi ,
i,vi ≤v

la cual es no-decreciente y cumple lim F (v ) = 0 y lim F (v ) = 1.


v →−∞ v →+∞

15 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Variable Aleatoria Continua

La incertidumbre de una variable aleatoria continua se describe por


medio de la función de densidad de dicha variable:

Dada una función de densidad de y , f (y ), la probabilidad de que y


asuma un valor dentro de A viene dada por
Z
P (y ∈ A) = f (y )dy ,
A
+∞
R
tal que f (y ) es positiva y f (y ) dy = 1
−∞
Adicionalmente, puede definirse la función de distribución acumulada:

F (v ) = P [y ≤ v ] .
dF (v ) Rb
tal que f (v ) = dv
, y P (a < y ≤ b) = F (b) − F (a) = f (v ) dv .
a

16 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Momentos poblacionales
Media Poblacional
X
µ = E [y ] = yi pi
i
+∞
Z
= yf (y ) dy
−∞

Varianza Poblacional
h i X
σ 2 = E (y − µ)2 = (yi − µ)2 pi
i
+∞
Z
= (y − µ)2 f (y ) dy
−∞

Momentos de mayor orden pueden obtenerse:


+∞
Z
r
µr = E [(y − µ) ] = (y − µ)r f (y ) dy
−∞
17 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Variables Aleatorias Conjuntas


Con dos o más variables discretas, la incertidumbre se define sobre
pares de resultados (x, y ) tal que:

pij = P [x = vi , y = wj ]
La función de distribución acumulada conjunta es:
X
F [v , w ] = P [x ≤ v , y ≤ w ] = pij
(i,j);vi ≤v ,wj ≤w

Con variables continuas, la correspondiente función de densidad


conjunta es:
∂ 2 F (v )
f (v , w ) =
∂v ∂w
+∞
tal que f (v , w ) ≥ 0 y
R
f (v , w ) dvdw = 1
−∞
18 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Funciones de densidad marginal

Las distribuciones marginales son:


Z
fx (v ) = f (v , w ) dw
Z
fy (w ) = f (v , w ) dv

Las esperanza o medias poblaciones vienen dadas por:


Z
µx = vfx (v ) dv
Z
µy = wfy (w ) dw

19 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Covarianza y Correlación
Para variables continuas la covarianza se define como:

cov (x, y ) = E [(x − µx ) (y − µy )]


ZZ
= (v − µx ) (w − µy ) f (v , w ) dvdw

= E (xy ) − E (x) E (y )

El coeficiente de correlación se define con:

cov (x, y )
ρxy =
σx σy
Dos variables no están correlacionadas si ρxy = 0, que implica:

E (xy ) = E (x) E (y )
20 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Distribución condicional

La distribución condicional discreta de y dado x se define como


(asumiendo pi > 0):

P [x = vi , y = wj ] pij
P [y = wj |x = vi ] = =
P [x = vi ] pi
Para el caso de variables continuas:

f (v , w )
fy |x=v (w ) =
fx (v )
Por lo tanto, la media condicional de y dado x viene dada por
Z
E [y |x] = wfy |x=v (w ) dw

21 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Independencia
Para variables discretas, si y solo si para todo (vi , wj ):

P [y = wj |x = vi ] = P [x = vi ] P [y = wi ]

entonces se dice que las variables son independientes.


Para el caso de variables continuas, dos variables serán
independientes si y solo si, para todo (v , w ):

f (v , w ) = f (v ) f (w )
Bajo independencia:
la distribución conjunta se obtiene por multiplicación de las
marginales.
la media y varianza condicional son iguales a los momentos no
condicionados.
Las variables independientes siempre tienen correlación 0, pero la
inversa no es cierta.
22 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Algunas Distribuciones
El caso más simple es una variable discreta que asume dos valores,
0 y 1, tal que
Distribución Bernoulli:
f (y ) = p y (1 − p)1−y , y = {0, 1}
tal que:

p si y = 1
f (y , p) =
1 − p si y = 0
Los momentos de esta distribución son:

E (y ) = p
Var (y ) = p (1 − p)

23 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Algunas Distribuciones
Si tenemos n variables i.i.d, con distribución Bernoulli, entonces:
X
y= yi ∼ B (n, p)
i

Distribución Binomial
n!
f (y ) = p y (1 − p)n−y
y ! (n − y )!
donde y = {0, 1, . . . , n}
Los momentos de esta distribución son:

E (y ) = np
Var (y ) = np (1 − p)

24 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Algunas Distribuciones

La distribución más ampliamente utilizada en econometrı́a es la


Normal (una de las razones es el TCL).
Dada una variable continua y = {−∞, +∞}, la función de
densidad viene representada por:
Distribución Normal
1 1 2
f (y ) = √ e − 2σ2 (y −µ)
σ 2π
Esta distribución se puede caracterizar por dos parámetros: µ y σ 2 ,
tal que se resume como y ∼ N µ, σ 2 .
Es habitual la estandarización:
y −µ
∼ N (0, 1)
σ2

25 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Algunas Distribuciones

La distribución de un vector de n variables normales,


 0
y = y1 y2 · · · yn posee una distribución conjunta
representada por:
Distribución Normal Multivariada
0 P−1
1 − 1 (y−µ) (y−µ)
f (y) = n/2 P 1/2 e 2σ2
(2π) (det ( ))
P
donde det ( ) es el determinante de la matriz de
varianza-covarianza (matriz positiva y simétrica) de dimensión
(n × n). P
La distribución multivariada se resume como y ∼ N (µ, ).

26 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Algunas Distribuciones
Otras distribuciones útiles son:
Chi-cuadrado
Si y = yi2 , tal yi ∼ i.i.d.N (0, 1) entonces:
P
i

y ∼ χ2 (n) , n = grados de libertad


t de Student
Si y1 ∼ N (0, 1)y y2 ∼ χ2 (r ) entonces:
y
p 1 ∼ t (r )
y2/r

F de Snedecor
Si y1 ∼ χ2 (r1 ) y y2 ∼ χ2 (r2 ) entonces:
y1/r1
∼ F (r1 , r2 )
y2/r2

27 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Conceptos

Supongamos que tenemos una muestra de n observaciones de


un conjunto de variables yi , xi ,i = 1, ..., n.
Consideramos que la muestra es el resultado aleatorio de un
PGD con distribución de probabilidad conjunta {Fθ ; θ ∈ Θ}.
Los parámetros, θ, son valores numéricos desconocidos
pertenecientes a un espacio paramétrico Θ.
Un estadı́stico es una función que depende de la muestra:
g (y1 , . . . , yn ).
Un estimador es un estadı́stico que es usado para aproximar el
valor del parámetro θ y se denota como θ.
b
El resultado numérico del estimador se denomina estimación.

28 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Modelo Estructural
Dado un conjunto de datos observados, establecemos un modelo
estructural (Cowles Commision) como:
1 Un
 conjunto
 de variables Z particionadas en forma conveniente:
y x ;
2 Una distribución de probabilidad conjunta de Z , F (Z , θ);
3 Un ordenamiento a priori de Z de acuerdo a un modelo causal
hipotético y un conjunto de restricciones del modelo.
4 Especificación de la forma funcional del modelo (paramétrica, no
paramétrica o semiparamétrica).
Un modelo estructural (en forma implı́cita) puede resumirse como:

g (yi , xi , ui |θ) = 0

donde g es una función conocida, ui es una perturbación aleatoria


y θ representa al conjunto de parámetros estructurales.
29 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Forma Reducida

Si existe una solución única de yi para cada (xi , ui ). La ecuación


puede escribirse en forma explı́cita:

yi = g (xi , ui |π) .
Esta es la forma reducida del modelo estructural, donde π is un
vector de parámetros que son funciones de θ.
Si yi = f (xi , ui |π) tiene una forma funcional conocida y es
aditivamente separable en xi y ui , entonces:

yi = f (xi |π) + ui = E [yi |xi ] + ui ,


luego, y como función de x es una predicción natural para y dado
x.

30 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Función Expectativa condicional

Hemos establecido que el valor esperado de y es función de una o


más variables x:

E (y |x1 , x2 , . . . , xk ) = m (x1 , x2 , . . . , xk ) .
m (.) es llamada función de expectativa condicional, siendo función
de las variables explicativas observadas.
Si las variables son continuas, entonces:
Z
m (x) = E (y |x) = yfy |x (y |x) dy

Ver Stata: 1.2 condicionales

31 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Función Expectativa Condicional del Error


Ahora, podemos definir u como la diferencia entre y y la función
de expectativa condicional:

u = y − m (x)
Por construcción, esto genera la fórmula:

y = m(x) + u
Se cumple que E (u|x) = 0, que es llamada restricción de media
condicional o independencia promedio:

E (u|x) = E [(y − m (x)) |x]


= E (y |x) − E [m (x) |x] = m (x) − m (x)

No implica que la distribución de u sea independiente de x!


32 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Orden causal. Relación entre Variables

Un punto controversial es el punto 3: el ordenamiento causal de las


variables.
¿Qué variable es la causal y cuál el efecto?
Esto se relaciona con:
¿Cuáles son las variables externamente determinadas y cuáles
son las internamente determinadas?
Por lo general, denotaremos y a la(s) variable(s) internamente
determinadas y x a las externamente determinadas.
Podemos decir que y es la variable dependiente y x las
explicativas.
Se suele usar como sinónimos: “dependiente”=“endógena” y
“explicativas”=“exógenas”, pero los términos no son
equivalentes.
33 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Exogeneidad

Considerando una representación general, la distribución conjunta



de Z y el espacio paramétrico particionado en θ = θ1 θ2 .
Factorizando la distribución conjunta:

F (Z , θ) = f (y |x, θ) × f (x, θ) .
Un caso especial ocurre cuando:

F (Z |θ) = f (y |x, θ1 ) × f (x, θ2 ) ,


siendo θ1 y θ2 funcionalmente independientes.
Luego, decimos que x es exógena con respecto a θ1 . En otros
términos, el conocimiento de f (x, θ2 ) no es requerido para hacer
inferencia respecto a θ1 .

34 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Exogeneidad Débil

Se dice que x es débilmente exógena para un parámetro λ si se


cumplen dos condiciones.
1 λ solo depende de θ1 (λ = h (θ1 )), por lo que solo la
distribución condicional es de interés.
2 Los parámetros θ1 y θ2 son de libre variación, es decir, los
parámetros de la distribución conjunta no están sujetos a
restricciones cruzadas.

35 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Independencia Condicional

Supongamos
 que particionamos
 las variables en
Z = y x1 x2 . Luego, x1 e y son condicionalmente
independientes dada x2 si:

f (y |x1 , x2 ) = f (y |x2 ) .
Esta independencia condicional es más fuerte que la habitual que
es en términos de esperanza:

E (y |x1 , x2 ) = E (y |x2 ) .
Esta condición puede ser interpretada como no-causalidad de
Granger en un entorno temporal.

36 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Exogeneidad Fuerte

Se dice que x es fuertemente exógena para un parámetro λ si se


cumplen dos condiciones.
1 Es débilmente exógeno para λ.
2 Se cumple la independencia condicional (no causalidad de
Granger).
También conocida como exogeneidad estricta.

37 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Exogeneizando Variables

La exogeneidad es una propiedad de las variables aleatorias


relativas a los parámetros de interés.
Una variable puede ser exógena en un modelo pero no en otro.
No tiene validez universal.
Estrategias:
Cowles Commission: exogeneidad a priori.
En corte transversal: variable que puede ser intervenida.
Existe una tendencia relacionar variable exógena con variable
causal.

38 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Modelo uniecuacional

Un modelo simple puede ser considerado:

y1i = αy2i + βxi + ui


donde y1 e y2 son variables endógenas y x son variables exógenas.
En general, puede reexpresarse como:

yi = xi β + ui
donde en el vector xi se encuentra comprendida la variable
endógena y la exógena.

39 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Datos observacionales

Los datos observacionales pueden provenir de:


Censos: representación de todas las unidades poblacionales.
Muestras simples: poco frecuentes. Las observaciones
muestreadas son igualmente probables.
Muestreo multietápico: en este caso, las unidades muestreadas
poseen diferente representatividad en la muestra.
Estratos: subpoblaciones no-traslapadas (provincias).
PSU: subconjunto no traslapado del estrato (ciudad).
SSU: sub-unidades del PSU (barrio).
USU: unidades de muestreo final que son elegidas para la
entrevista (familia).
Las encuestas de muestreos complejos proporcionan el factor de
expansión (la inversa de la probabilidad de elección).

40 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Datos de experimentos sociales

Análogo a datos experimentales con un proceso similar al siguiente:

41 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Datos de experimentos naturales

Los datos son recolectados cuando un subconjunto de la población


experimenta un cambio exógeno en una determinada variable.
Por ejemplo:
Cambio impositivo en una provincia o estado de forma no
esperada.
Desastre natural que afecta a una única región.
Estas circunstancias permiten capturar el cambio en las variables
explicativas y medir su impacto sobre la variable endógena.
Los grupos surgen de forma “natural”.

42 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Sesgo muestral

Si se aplica el muestreo aleatorio simple, la distribución de


probabilidad de los datos es la misma que la de la población.
Generalmente, la práctica se desvı́a del muestreo aleatorio
simple (por costo-beneficio) a ciertas particiones de la
población que pueden generar sesgo muestral.

43 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Sesgo de selección muestral

Ocurre cuando una parte de la población objetivo es excluida del


muestreo.
Puede ser:
No aleatoria: seleccionamos de forma intencionada la muestra.
Incorrecta definición de la población objetivo (basada en
información no actual).
Muestra por autoselección (voluntad de los participantes).
El efecto que tiene este problema es que los resultados obtenidos
no pueden generalizarse a toda la población.

44 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Problema de No-respuesta

Este problema es usualmente pasado por alto.


La no-respuesta puede deberse a que el individuo no conoce la
respuesta (considerado aleatorio).
La no-respuesta puede provenir de un rechazo sistemático a
ofrecer esa información.
En el segundo caso, la no-respuesta contiene información que
permitirı́a ajustar en cuestionario o corregir el resultado final del
estudio.

45 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Datos faltantes

Las encuestas contienen numerosas preguntas y no todas son


respondidas.
Si estamos interesados en estudiar un conjunto de variables y una
de ellas faltante tiene faltantes:
el vector completo de las variables de ese individuo será
excluido del estudio.
Esto genera que la muestra se reduzca y puede ser importante en
la cantidad de observaciones excluidas.
Además, este problema puede sesgar los resultados del estudio.

46 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Error de medición

Este problema está siempre presente en las encuestas:


Puede originarse por diferentes causas:
Respuesta incorrecta.
Reporte malintencionado (encuestas polı́ticas).
Interpretación incorrecta de las preguntas.
Error en el procesamiento de datos.

47 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Desgaste muestral

Este problema está presente en datos de panel en donde la persona


es encuestada varias veces.
Podemos tener varios casos:
Respuesta total (participación completa).
No participación en los primeros periodos y luego
participación.
Participación en los primeros periodos y no participación
posterior (desgaste muestral).
Este último caso puede ser considerado como un caso especial de
selección muestral.

48 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Estructura de los Datos

Corte transversal

id x1 x2 x3
1 2 0 2,5
2 4,6 1 1,5
.. .. .. ..
. . . .
n 6,8 0 2,0

No hay referencia temporal.

49 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Estructura de los Datos

Datos de Panel

id tiempo x1 x2 x3
1 1 2 0 2,5
id x1t1 x1t2 x2t1 x2t2 x3t1 x3t2
1 2 4,6 0 3,1
1 2 4,6 0 0 2,5 3,1
2 1 2,8 1 5,7
2 2,8 2,3 1 1 5,7 9,2
2 2 2,3 1 9,2 .. .. .. .. .. .. ..
.. .. .. .. .. . . . . . . .
. . . . .
n 6,8 3,2 1 1 5,2 2,0
n 1 6,8 1 5,2
n 2 3,2 1 2,0

Formato Largo Formato Ancho

50 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Algunos consejos con los datos

Cuestiones Prácticas del Manejo de Base de Datos.


Limpiar la base de datos:
Borrar las observaciones que tengan datos faltantes en las
variables de interés.
Borrar las datos de no-respuesta. (luego puede hacerse un
análisis si estos datos contienen información útil).
Cuidado con los datos faltantes
Suelen tabularse como 9, 99, 999 o en valores negativos.
Chequear en cada variable.
Grandes bases de datos implican mayor probabilidad de cometer
errores en el manejo de la base.
Presentar estadı́sticos descriptivos y gráficos ayuda a detectar
errores.
51 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Supuestos

Modelo Lineal General

Asumamos que hay solo una variable dependiente y , la cual puede


ser explicada por medio de las variables x1 , x2 , ..., xk .
Consideramos que la relación entre las mismas es una función
lineal del vector de parámetros β :

yi = β1 x1i + β2 x2i + ... + βk xki + ui

o, usando notación vectorial:

yi = xi β + ui

x0i β es la parte sistemática.


ui es la parte no-sistemática o aleatoria.

52 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Supuestos

Modelo Lineal General

Las n observaciones pueden ser escritas en forma matricial como

y = Xβ + u,
0
donde y = y1 y2 · · · yn es n × 1 y
0
X = x1 x2 · · · xn .
 
1 x21 x31 ··· xk1
 1
 x22 x32 ··· xk2 

X= 1
 x23 x33 ··· xk3 

 .. .. .. .. .. 
 . . . . . 
1 x2n x3n ··· xkn

53 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Supuestos

Supuestos Parte Sistemática


1 Exogeneidad Estricta: X es una matriz de constantes fija, tal que

F (X, u) = f (X) f (u)


f (u|X) = f (u)

Adicionalmente, la matriz satisface:


1 0
lim X X = QX
n→∞ n

donde QX es una matriz definida positiva.


2 Matriz X con rango completo: no hay multicolinealidad perfecta.

r (X) = k
3 Estabilidad del vector de parámetros β: un único modelo explica
toda la muestra
54 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Supuestos

Supuestos Parte Aleatoria


1 Esperanza nula:
E (ui |X) = E (ui ) = 0, ∀i
E (u|X) = 0
2 Perturbaciones esféricas:
1 Homocedasticidad

var(ui ) = E ui2 = σ 2 , ∀i


2 No autocorrelación

cov(ui , uj ) = E (ui uj ) = 0, ∀i 6= j
0
h i
Matricialmente: V (u) = E (u − E u) (u − E u) = σ 2 In
3 Perturbaciones Normalmente Distribuidas:
u ∼ N (0, σ 2 In )
55 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Estimador MCO

Estimador MCO minimiza el valor de la suma de los residuos al


cuadrado:

β̂ = arg min S(β)

donde

n
X
S(β) = (yi − xi β)2
i=1
= (y − Xβ)0 (y − Xβ)
= y0 y − 2β 0 X0 y + β 0 X0 Xβ

56 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Estimador MCO
La derivada parcial de S(β) respecto a β es igual:
∂S(β)
= −2X0 y + 2X0 Xβ̂ = 0
∂β 0
De la condición surge un sistema de k ecuaciones (sistema de ecuaciones
normales):
X0 Xβ̂ = X0 y

 ˆ
··· ··· β1
  
1 1 1 1 x21 xk1
 x21 x22 ··· x2n  1 x22 ··· xk2   β̂2 
X0 Xβ̂ =
   
.. .. .. .. .. .. .. ..  .
  ..
  
 . . . .  . . . . 
xk1 xk2 ··· xkn 1 x2n ··· xkn β̂k

···
  
1 1 1 y1
 x21 x22 ··· x2n  y2 
X0 y = 
  
.. .. .. ..  .. 
 . . . .  . 
xk1 xk2 ··· xkn yn
57 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Estimador MCO

El resultado de la minimización de S(β) es:

β̂ = (X0 X)−1 X0 y.
Luego, puede obtenerse una estimación de la expectativa
condicional de y (predicciones):

ŷ = Xβ̂
y una estimación de los errores o perturbaciones (residuos):

û = y − Xβ̂ = y − ŷ

Ver Matlab: 1.3 mco manual, 1.4 estimacion mco

58 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Propiedades Algebraicas de MCO

P
1 La suma de los residuos es nula: ûi = 0.
i
2 La regresión pasa los puntos medios de las variables
explicativas: y = xβ̂
3 Los residuos no se correlacionan con las variables explicativas:
0
cov (X, û) = X û = 0
La estimación de la varianza σ 2 o parámetro de dispersión es:
P 2
ûi 0
û û
σ̂ 2 = i =
n−k n−k

59 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Propiedades Finitas de β̂

 
1 Insesgadez: E β̂ = β
Normalidad: β̂ ∼ N β, (X 0 X )−1 σ 2

2

3 ELIO: Alcanza la mı́nima varianza de los estimadores


insesgados lineales.
4 Eficiencia: Alcanza la mı́nima varianza entre los estimadores
insesgados.

Ver Matlab: 1.5 insesgado, 1.6 sesgado, 1.7 elio

60 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Propiedades Finitas de σ̂ 2

Asumiendo que
 0 −1 0
û = y − X β̂ = y − X X X X y
  0 −1 
= In − X X X X 0 y = My

0 0 0
u Mu
û û = u Mu ⇒ σ2
∼ χ2n−k
Insesgadez: E σ̂ 2 = σ 2
No ELIO, ni eficiente

61 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Propiedades Asintóticas de β̂
 
1 Insesgadez asintótica: lim E β̂n = β
n→∞
2 Consistencia: Dos condiciones suficientes (1) insesgadez asintótica y (2)
varianza converge a cero.

  σ 2 X 0 X −1
lim V β̂ = lim ( )
n→∞ n→∞ n n
= 0 × Q −1
p
β̂ → β o plim β̂ = β
3 Normalidad Asintótica (TCL, convergencia en distribución)

β̂ − β (X 0 X )−1 X 0 u
=
 0 −1 0
√   X X X u
n β̂n − β = √
n n
√  
d
 
n β̂n − β0 → N 0, σ 2 QX−1
No se asume normalidad, solo i.i.d de las perturbaciones
Ver Matlab: 1.8 asintótica. (LGN y TCL) 62 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Intervalo de estimación de β̂

Hemos establecido que:


  0 −1 
2
β̂j ∼ N βj , σ X X
jj

y por lo tanto:

β̂j − βj
q ∼ N [0, 1]
−1
σ 2 (X 0 X )jj
Además, hemos establecido:
0
û û
∼ χ2n−k
σ2

63 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Intervalo de estimación de β̂

Teniendo en cuenta los resultados anteriores:

β̂ −βj
r j
−1
σ 2 (X 0 X )jj
β̂j − βj
r 0
= q ∼ tn−k
−1
û û
σ2
σ̂ (X 0 X )jj
n−k

Fijando
h un nivel de confianza,
i (1 − α), tenemos que
β̂j −βj
Pr −tα/2 < seˆ j < tα/2 = 1 − α
y entonces:
β̂j ± tα/2 se
ˆ j (j = 1, . . . , k)

64 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Bondad de Ajuste

Con bondad de ajuste nos referimos a cuán bien explica nuestro


modelo la variabilidad de la ver. dep.
Una medida simple es la estimación del parámetro de dispersión:
P 2 qP 2
2 ûi ûi
σ̂ = n−k , (mse) ⇒ σ̂ = n−k

A menor valor mejor ajuste.


Sin embargo, este indicador depende de la unidad de medida y no
hay un valor de referencia.
Es mejor usar otras medidas alternativas.

65 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Bondad de Ajuste

Hay dos medidas de bondad ampliamente utilizadas:

SCE SCR
1 Coef. de Determinación: R 2 = SCT =1− SCT ,

2 SCR/(N−k)
1 Coef. de Determinación corregido: R = 1 − SCT/(N−1)

donde: P
0
SCR = ûi2 = û û,
0
SCT = y y − ny 2
0 0
SCE = SCT − SCR = β̂ X y − ny 2 .

66 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

MCO

Bondad de Ajuste

Log-verosimilitud estimada: `b = − n2 ln (2π) − n2 ln σ


e2 − n2 ,


e2 = SCR/n el parámetro de dispersión obtenido por


siendo σ
MV.
A mayor valor de la log-verosimilitud mejor ajuste.

Criterio de Información de Akaike: AIC = −2`b + 2k


Criterio de Información de Schwarz: BIC = −2`b + kln (n)
A menor valor de los criterios de información mejor ajuste.

67 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Conceptos Generales

Hipótesis Nula: afirmación que deseamos contrastar y que se


mantiene como válida mientras no se encuentre evidencia en
su contra (H0 ).
Hipótesis Alternativa: A favor de la que se rechaza la hipótesis
nula (H1 ).
Estadı́stico de contraste: variable aleatoria cuya distribución se
conoce bajo H0 .
Nivel de significancia (α) y una región de rechazo.

68 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Tamaño y Potencia
¿Como actúa el contraste?:

Decisi ón ⇒ No rechazar H0 Rechazar H0


H0 verdadera no hay error error tipo I
H1 verdadera error tipo II no hay error

La probabilidad de cometer error tipo I:

Pr (rechazar H0 |H0 verdadera) = α

La probabilidad de cometer error tipo II:

Pr (no rechazar H0 |H1 verdadera) = β

Generalmente, se utiliza la potencia del test:

Pr (rechazar H0 |H1 verdadera) = 1 − β

69 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Pasos Secuenciales Test Individual


1 Definir Hipótesis:
H0 : βj = β0 , H1 : βj 6= β0
2 Definir Estadı́stico de Contraste:
β̂j −β0
t0 = σ̂β̂
j

3 Calcular Estadı́stico con datos muestrales.


4 Fijar nivel de significancia y regiones de rechazo o no de H0 :

70 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Pasos Secuenciales Test Individual

5to y último paso:

Si t̂0 ∈ Rc ⇒ Rechazar H0
Si t̂0 ∈
/ Rc ⇒ No Rechazar H0 .

Otro criterio con similar conclusión es utilizar el p-valor:



Si p − valor = Pr t̂0 < ε ⇒ Rechazar H0

Si p − valor = Pr t̂0 ≥ ε ⇒ No Rechazar H0

Ver Stata: ejercicio 1.


Ver Matlab: 1.9 empirical size y 1.10 empirical power con α = 0,05.

71 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Pasos Secuenciales Test Conjunto


Para más de una hipótesis utilizamos un conjunto de restricciones en forma
matricial: Rβ = c, donde R es una matriz de constantes, c es un vector
columna de constantes.
1 Definir Hipótesis: H0 : Rβ = c, H1 : Rβ 6= c
2 Definir Estadı́stico de Contraste:
0 0 −1 0 −1
  
(R β̂−Rβ ) R X X R (R β̂−Rβ )
F = r σ̂ 2
donde r es el nº de restricciones.
3 Calcular Estadı́stico con datos muestrales: F̂ .
4 Fijar nivel de significancia y regiones de rechazo o no de H0 :

72 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Pasos Secuenciales

5to y último paso:

Si F̂0 ∈ Rc ⇒ Rechazar H0
Si F̂0 ∈
/ Rc ⇒ No Rechazar H0 .

Otro criterio con similar conclusión es utilizar el p-valor:


 
Si p − valor = Pr F̂0 < ε ⇒ Rechazar H0
 
Si p − valor = Pr F̂0 ≥ ε ⇒ No Rechazar H0

73 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Casos Particulares de Restricciones Conjuntas

1 Si H0 : β2 = 0, . . . , βk = 0
SCE R2
(k−1) (k−1)
El contraste es: FAV = SCR = 1−R 2
∼ F (k − 1, n − k)
(n−k) (n−k)
2 Si H0 : βj0 = 0

El contraste es F = (tn−k )2 ∼ F (1, n − k)

3 Para un subconjunto s, H0 : βk−s+1 = 0, . . . , βk = 0


SCRr −SCR
El contraste es F = s
SCR ∼ F (s, n − k)
(n−k)

74 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Tests de Hipótesis basados en MV


Formalmente, los siguientes tests se basan en la siguiente propiedad
  h i
n /2 θe − θ ∼ N 0, lim (I (θ)/n)−1
1

N→∞

es decir, la diferencia entre los parámetros estimados y poblacionales converge


en distribución a una distribución Normal con vector de media 0 y varianza
igual a la inversa de la matriz información. Sean las hipótesis función de los
parámetros θ: H0 : g (θ) = 0, H1 : g (θ) 6= 0 , siendo g (θ) un vector q × 1
Test de Wald
0
h 0 i−1
W = gθ Gθ Vθ Gθ gθ ∼ χ2q

donde Gθ = ∂θ g (θ) y Vθ es la estimación de la matriz de varianzas
asintóticas
Test de Razón de Verosimilitud
LR = 2 [`H1 − `H0 ] ∼ χ2q
Tests Multiplicador de Lagrange
0
LM = `H0 I (θH0 )−1 `H0 ∼ χ2q
Asintóticamente equivalentes pero en muestras finitas: W ≥ LR ≥ LM.
75 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Tests de Hipótesis basados en MV

76 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Validación del Modelo

Normalidad: Jarque-Bera
h 2 i
g (g2 −3)2
JB = (n − k) 61 + 24
∼ χ22 , siendo g1 el coef. de asimetrı́a y g2 el
coef. de curtosis.

Multicolinealidad: Número de Condición


 0  q
NC X X = ωωMAX
MIN
, siendo ωMAX y ωMIN son autovalores de la matriz
0
X X . Si NC > 30 : problemas graves de multicolinealidad.

77 / 78
Programa Conceptos Principales Descriptiva Variables Aleatorias Modelo Sobre los Datos MLG Tests de Hipótesis

Validación del Modelo

Heterocedasticidad

Breusch-Pagan: BP = 21 SCE ∼ χ2q , siendo  SE la suma explicada de


2
la regresión auxiliar con var. dep. ûi /σe 2 contra la constante más q
variables explicativas.

2
White: W = nRAux ∼ χ2q , siendo RAux
2
el coef. de determinación de
2
la reg. auxiliar con var. dep. ûi contra productos cuadrados e
interacciones de q variables explicativas más una constante.

Ver Stata: 1.3 chequeo.do

78 / 78

También podría gustarte