Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis Econométrico
1
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Análisis de Regresió
Regresión
La regresión es la técnica estadística más extendida y
se utiliza para estimar las relaciones entre variables
independientes (explicatorias) y la variable dependiente.
2
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
3
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Scatterplot
60
40
chil_labor
c
20
0
4
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
∑ (x i − x )( yi − y )
cov( x, y ) = i
n −1
Para cuantificar la asociación lineal entre dos variables se
utiliza el coeficiente de correlación
r=
∑ ( x − x )( y − y ) − 1 ≤ r ≤ +1
∑ ( x − x )∑ ( y − y 2 2
)
5
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
β=
cov( x, y )
=
∑ ( x − x )( y − y ) α = y − bx
var( x) ∑ (x − x) 2
6
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
H 0 : β1 = 0
H1 : β1 ≠ 0
Predicciones:
yˆ = αˆ + βˆx
Los valores
L l predichos
di h se calculan
l l substituyendo
b tit d los
l parámetros
á t
estimados en la ecuación de la recta de regresión
7
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
explained variation ∑ i
( ˆ
y − y ) 2
R= = i
total variation ∑ i
(
i
y − y ) 2
8
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
N N N N
∑(X
i =1
i2 − X 2 ) X i 2 ∑ ( X i1 − X 1 ) X 1i −∑ ( X i 2 − X 2 ) X i1 ∑ ( X i1 − X 1 ) X 2i
i =1 i =1 i =1
9
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Ejemplo y=α+β1 X1+β2X2+ε; Trabajo infantil= α+β1 gdp+β2 gastos salud+ comercio +ε
------------------------------------------------------------------------------
chil_laborj | Coef.k Std. Err.l tm P>|t|m [95% Conf. Interval]n
-------------+----------------------------------------------------------------
gdp | -.0065468 .0032733 -2.00 0.067 -.0136184 .0005248
h lth | -1.791425
health 1 791425 1.666642
1 666642 -1.07
1 07 0
0.302
302 -5.391986
5 391986 1
1.809136
809136
trade | .4884833 .285445 1.71 0.111 -.128183 1.10515
_cons | 27.30993 5.63761 4.84 0.000 15.13062 39.48925
------------------------------------------------------------------------------
11
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
a: Es la fuente de la varianza: modelada (Model), residual y total. La varianza total se divide en la varianza explicada
por las variables independientes (Modelada) y la varianza que las variables independientes no logran explicar
(Residual). Nótese que la Suma de los Cuadrados (Sums of Squares ) del Modelo y del Residual es igual a la
Varianza Total.
b: Son las Sumas de los Cuadrados asociadas a cada una de las tres fuentes de varianza (total, modelada y
residual). Pueden calcularse de diversos modos. Conceptualmente, estas fórmulas pueden expresarse como:
SStotal La variabilidad total alrededor de la media S(Y-Ybar)2
SSResidual LaL suma d de llos cuadrados
d d d dell error d
de lla predicción
di ió S(Y - Ypredicted)2.
Y di d)2
SSModel La mejora de la predicción derivada de la utilización de la predicción de Y en lugar de la
simple media de Y. Asi, este valor es la suma de las diferencias entre
los valores predichos de Y y la media de Y, S(Ypredicted - Ybar)2. Otra forma de interpretarlo es pensar que
SSModel= SSTotal - SSResidual.
SSResidual Nótese que SSTotal = SSModel + SSResidualSSResidual. Nótese que SSModel /
SSTotal es igual a 0.47, el valor de R-cuadrado (R-squared). Esto se debe a que R-cuadrado es la proporción
de la varianza total que viene explicada por las variables independientes, y por lo tanto puede calcularse como
SSModel / SSTotal.
c: Son
S losl grados
d d de lib
libertad
t d (GL) asociados
i d a cada d una d de llas ffuentes
t d de varianza.
i L
La varianza
i ttotal
t l titiene N
N-1
1
grados de libertad. En este caso existen N=17 observaciones, por lo tanto los GL Totales son 16. Los grados de
libertad del Modelo corresponden al número de parámetros menos 1 (K -1). Podría pensarse que esto sería 3-1
(puesto que existen 3 variables independientes en el modelo), pero la constante se incluye automáticamente en el
modelo (a no ser que se omita de forma explícita)
explícita). Al incluir la constante
constante, existen 4 parámetros
parámetros, por lo tanto
tanto, los
grados de libertad del Modelo son 4-1=3. Los grados de libertad del Residuo son los GL Totales menos los GL del
Modelo, 16-3=13.
12
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
d: Es
d E la
l MMedia
di dde llos C
Cuadrados
d d (M (Mean S
Squares),
) es decir,
d i lla S
Suma dde llos C
Cuadrados
d d (S (Sum off S
Squares ) di
dividida
idid
por los Grados de Libertad. Para el Modelo sería 1297/3=432. Para el Residuo, 1430/13=110. Se calculan para
calcular el F-ratio: se divide el Cuadrado de la Media del Modelo (Mean Square Model ) entre el Cuadrado de la
Media del Residuo (Mean Square residual). Se uliliza para contrastar la significancia de los parámetros del modelo.
f: El F-valor es el Cuadrado de la Media del Modelo (Mean Square Model ) dividida por el Cuadrado de la Media del
Residuo (Mean Square Residual), en este caso el F-valor=3.93. El p-valor asociado a este F-valor es muy bajo
(0.03). Estos valores se utilizan para responder a la pregunta: “¿Las variables independientes predicen
correctamente la variable dependiente?”. El p-valor se compara con un nivel de alpha (suele usarse un alpha=0.05).
Si el p-valor es inferior a alpha se concluye que “Las variables independientes predicen correctamente la variable
dependiente ” Si el p
dependiente. p-valor
valor es superior a alpha,
alpha se concluye que las variables independientes no están
significativamente relacionadas con la variable dependiente, es decir que las variables independientes no predicen
correctamente la variable dependiente.
g: El R-cuadrado
R cuadrado es la proporción de la variabilidad de la variable dependiente (trabajo infantil) que puede predecirse
con las variables independientes (gdp, gastos en salud y comercio). El valor indica que alrededor del 50% de la
variabilidad del trabajo infantil es explicada por las variables gdp, salud y comercio.
13
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
h: Es el R-cuadrado Ajustado (Adjusted R-square). Al incluir nuevos parámetros en el modelo, cada uno de ellos
explicaría algo de la variabilidad de la variable dependiente debido simplemente a la casualidad. Por lo tanto la
inclusión de nuevos parámetros al modelo aumentará la habilidad de los parámetros para predecir la variable
dependiente, pero una parte de esta mejora se deberá únicamente a la casualidad en esa muestra particular. El R-
cuadrado Ajustado ofrece un valor más confiable para estimar el R-cuadrado de la población. El valor del R-
cuadrado es aproximadamente 0.5, mientras que el R-cuadrado Ajustado = 0.35. El R-cuadrado Ajustado se calcula
tal que: 1 - ( (1-R-sq)(N-1 / N - k - 1) ). De esta fórmula se deriva que si el número de observaciones es pequeño y el
número de parámetros es elevado,
elevado la diferencia entre el RR-cuadrado
cuadrado Ajustado y el R
R-cuadrado
cuadrado es amplia (ya que el
ratio (N-1 / N - k - 1) será muy inferior a 1). Si en cambio, el número de observaciones es grande comparado con el
número de parámetros, el valor del R-cuadrado Ajustado será parecido al valor del R-cuadrado Ajustado, ya que el
ratio (N-1)/(N-k-1) estará próximo a 1.
i: La raiz de la Media de la Suma de cuadrados es la desviación típica del error, y es la raiz cuadrada de la Media de
Cuadrados Residual (o Error)
j: Esta columna muestra la variable dependiente (trabajo infantil) y más abajo las variables independientes (gdp,
gastos en salud y comercio). La última variable (_cons), representa la constante del modelo, también es el valor de la
recta de regresión en el punto en el que esta cruza el eje Y.
k: Son los valores de la ecuación para predecir la variable dependiente a través de las variables independientes
independientes.
Estas estimaciones muestran la relación entre la variable dependiente y las independientes. Indican el incremento
del trabajo infantil que se produce por el incremento en una unidad de las variables independientes. Nota: Si una de
las variables independientes no es significativa, su coeficiente no será significativamente diferente de 0, lo que
deberá tenerse en cuenta a la hora de interpretar el coeficiente. (observar las columnas del p-valor y t-valor para
contrastar
t t la l significancia
i ifi i de
d llos coeficientes).
fi i t )
gdp- El coeficiente (parámetro estimado) es -0.065. Por lo tanto, el aumento en una unidad del producto
interior bruto provoca la disminución del trabajo infantil en 0.065 unidades.
14
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
ll: Son
S los
l errores títípicos
i asociados
i d a llos coeficientes.
fi i t L
Los errores tí
típicos
i se utilizan
tili para ddeterminar
t i sii llos
parámetros son o no significativamente diferentes de 0. Dividiendo los parámetros estimados por el error típico se
obtiene el t-valor (observar la columna con el p-valor y t-valor ). Los errores típicos se utilizan también para construir
los intervalos de confianza del parámetro (últimas dos columnas de la tabla 2).
m: Estas columnas proporcionan el t-valor y el p-valor bilateral (de dos colas) para contrastar la hipótesis nula (el
coeficiente o parámetro es igual a 0). Si se utiliza un contraste bilateral, entonces debe compararse cada p-valor con
el valor seleccionado de alpha. Los coeficientes con un p-valor inferior a alpha son significativos. Por ejemplo, si se
elige un alpha de 00.05,
05 los coeficientes con un valor inferior o igual a 00.05
05 serán estadísticamente significativos (es
decir que se rechaza la hipótesis nula y por lo tanto los coeficientes son significativamente diferentes de 0). Si se
utiliza un contraste unilateral ( es decir que se predice que el parámetro se distribuye en una determinada dirección),
se debe dividir el p-valor entre 2, y comparar este resultado con el valor elegido de alpha. Con un contraste bilateral
y un valor de alpha
p de 0.05 se rechaza la hipótesis
p nula p
para los coficientes del g
gdp
p y de los g
gastos en salud. La
constante es significativamente diferente de 0 para un alpha de 0.05 (aunque una constante significativa es de poca
importancia).
n: Son los intervalos de confianza de los coeficientes al 95%. Son muyy útiles p
puesto q
que muestran cuan alto o cuan
bajo podría ser el valor poblacional del parámetro. El intervalo de confianza permite observar cuanto podría variar la
estimación del coeficiente.
15
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Cuando
C d se realiza
li una regresiónió lilineall se asume que relación
l ió entre lla variable
i bl respuesta y llos
parámetros es lineal. Si este supuesto no se cumple, la regresión lineal intentará ajustar a una recta
datos que no se distribuyen de tal forma.
Multicolinearidad: Este problema se produce cuando existe una elevada correlación entre las
variables explicativas. La presencia de multicolinearidad en un modelo se debe a la presencia de
coeficientes inestables. La Variación del Factor de Expansión ayuda al investigador a detectar la
multicolinearidad:
VIF = 1 /(1 − R 2 )
Si xj está fuertemente correlacionada con el resto de variables x, la VFE será alto. Esto aumentaría la
varianza de bj lo que haría difícil la obtención de t-ratios
t ratios significativos.
significativos
16
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
-20 -10 0 10 20
Residuals
17
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
30
20
duals
10
Resid
0
-10
-10 0 10 20 30
Fitted values
18
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Cada uno de estos modelos p puede ser analizado dentro del marco g
general
de modelos probabilísticos.
19
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Los modelos Probit y Logit son una extensión de los principios de los
Modelos Lineales Generales (ej: regresiones), pero tratan de forma más
adecuada la presencia de variables dependientes dicotómicas
dicotómicas.
20
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Modelo para explicar una variable binaria (0/1): participación en la fuerza laboral
Y=1 si trabaja
j
Y=0 si no trabaja
Formalmente:
Pr ob(Y = 1) = F ( x, β )
Pr ob(Y = 0) = 1 − F ( x, β )
Donde :
21
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
22
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
P
Para ell modelo
d l logit
l i se especifica:
ifi
e β ′x
Pr obb(Y = 1) = β ′x
1+ e
La estimación
L ti ió de
d ambos
b modelos
d l se b basa en ell método
ét d dde máxima
á i verosimilitud.
i ilit d El
modelo con una probabilidad de suceso F(β’x) y observaciones independientes lleva
a la siguiente función de verosimilitud:
23
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
24
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
b) Es el número de observaciones que se utiliza en el análisis. Este número puede ser inferior
al número total de observaciones de la base de datos si existen valores omitidos (“missing
values”) en las variables incluidas en el análisis . Si existe algún valor omitido en una de las
variables de la regresión
regresión, se excluye la totalidad de la observación del análisis.
análisis
25
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
e) Es el pseudo R-cuadrado
R cuadrado del modelo logit, pero no es equivalente al R-cuadrado
R cuadrado de la
regresión de MCO.
g) Son los coeficientes, es decir los valores predichos de la variable dependiente. Se expresan
en unidades log-odds.
g(p p)
log(p/1-p)=b0+b1*x1+b2*x2…..
La estimación muestra el aumento en el incremento del log-odds predicho (cuando empleo=1)
que sería predicho con el aumento en 1 unidad, manteniendo el resto de variables constante.
h) Los errores típicos se utilizan para contrastar si los parámetros difieren estadísticamente de
0. Dividiendo el parámetro entre el error típico, se obtiene el z-valor. P>z son los p-valores
relativos.
26
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
28
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
29
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
30
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Para
P construir
t i ell modelo
d l llog d
de verosimilitud
i ilit d sea:
qi1 = 2 yi1 − 1 and qi 2 = 2 yi 2 − 1. qi1 = 1 if yi1 = 1 and qi1 = −1 if yi1 = 0, j = 1,2
Sea
zij = β 'j x ij and wij = qij zij , j = 1,2
and ρ i* = qi1qi 2 ρ
L probabilidades
Las b bilid d que entran
t en lla ffunción
ió de
d verosimilitud
i ilit d son
31
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
32
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Pr ob(Y1 = yi1 , Y2 = yi 2 )
Y considerando el modelo, Pr ob[ y1 = 1, y2 = 1 | x1 , x2 ] = Φ 2 ( β1' x1 , β 2' x2 , ρ )
Se derivan la totalidad de los efectos marginales
P11 = Φ2 (β x , β x , ρ)'
1 1
'
2 2 P10 = Φ2 (β x ,−β x , ρ)
'
1 1
'
2 2
33
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
y = Pr(employ=0,attend=0)
P ( l 0 tt d 0) ( (predict,
di t p00)
00) = .06970771
06970771
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
age | -.1941151 .00712 -27.28 0.000 -.208062 -.180168 10.5481
age2 | .0082628 .00033 24.76 0.000 .007609 .008917 116.384
female*| .0064337 .00289 2.23 0.026 .000778 .01209 .489834
h d
heduc | -.0416734
0416734 .00213
00213 -19.56
19 56 0
0.000
000 -.045849
045849 -.037498
037498 2
2.11352
11352
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
34
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
35
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
β 'j xi
e
Prob(Y = j ) = j
for j = 1,2,..., j
1+ ∑ e β k' xi
k =1
1
Prob(Y = 0) = j
1+ ∑ e β k' xi
k =1
36
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
⎡ Pij ⎤
ln ⎢ ⎥ = β 'j xi
⎣ Pi 0 ⎦
⎡ Pij ⎤
ln ⎢ ⎥ = xi' ( β j − β k )
⎣ Pik ⎦
37
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
L ffunción
La ió log
l dde verosimilitud
i ilit d se define
d fi ttall que:
n J
ln L = ∑∑ dij ln Prob(Yi = j )
i =1 j = 0
38
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
40
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
y* = β ' x + ε we observe :
y = 0 if y* ≤ 0
y = 1 if 0 < y* ≤ µ1
y = 2 if µ1 < y* ≤ µ 2
.
.
y = j if µ j-1 ≤ y*
41
TALLER INTERNACIONAL “CREANDO CAPACIDAD
NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS
SOBRE TRABAJO INFANTIL
Most serious illness Coef. Std. Err. z P>z [95% Conf. Interval]
_cut1
_ 1.9707 0.3328 ((Ancillary
y parameters))
p
_cut2 3.0902 0.3340
_cut3 4.0758 0.3376
_cut4 5.0242 0.3833
_cut5
t5 5 2014
5.2014 0 4181
0.4181
43