Está en la página 1de 37

Ejercicios adicionales

1. Suponga que desea analizar el impacto del consumo de bebidas alcohólicas en los
accidentes de tráfico con víctimas mortales, para lo que estima la siguiente regresión
transversal empleando datos de los 48 estados USA (N=48),

Yˆi = - 3.36 - 0.002 X 1i + 0.17 X 2 i - 0.31X 3i + 0.011X 1i ·X 4 i , R 2 = 0.499


(-0.025) (0.092) (-0.24) (0.0027)

siendo,

Y= número de muertos en accidente por milla recorrida en el estado i


X1 = consumo per cápita de cerveza en el estado i
X2 = velocidad media en autopista en el estado i
X3 = dummy que toma el valor 1 si el estado tiene un programa de revisión de los elementos
de seguridad del vehículo
X4 = Altitud media en las áreas metropolitanas (se supone que a más altitud mayor
probabilidad de accidentes porque la altitud influye en el consumo de oxígeno del cerebro)

a) Comente los resultados de la estimación y diga si observa algún signo de problemas.

b) Explique claramente qué es lo que mide la variable de interacción X1i X4i. Diseñe y lleve
a cabo un test adecuado para contrastar su significatividad estadística

c) Cuando el investigador decide incluir X4i como variable individual (no solo en el
término de interacción), obtiene,

Yˆi = - 2.36 - 0.024 X 1i + 0.14 X 2 i - 0.24 X 3i - 0.35 X 4i + 0.023 X 1i ·X 4i , R 2 = 0.501


(-0.03) (0.091) ( -0.25) ( -0.33) (0.012)
¿Es preferible esta ecuación o la primera? Justifique su respuesta

d) Cuál sería la conclusión de este trabajo en relación con i) el consumo de cerveza, b) la


altitud a la que se conduce.

1
Solución

a) Sorprende el hecho de que el consumo de cerveza no sea significativo, lo que podría


deberse a algún problema de omisión de variables, aunque también pudiera ser que el
término de interacción hubiera absorbido completamente este efecto.

b) Esta variable es una medida de si el impacto del consumo de cerveza hace crecer el
número de víctimas cuando la altitud aumenta. Su significatividad estadística se
contrastaría de la forma habitual. En este caso el ratio t vale aproximadamente 4.07, por
lo que es significativa al 1%.

c) La nueva variable no es estadísticamente significativa y el coeficiente de determinación


corregido solo mejora marginalmente y esta inclusión tampoco corrige el problema del
consumo, de manera que, a no ser que haya fuertes razones teóricas para incluir la altura
como una variable separada, nos quedaríamos que la primera especificación.

d) Aunque por separado ninguna de ellas parece ejercer un efecto significativo en el


número de víctimas, el término de interacción es estadísticamente significativo y tiene
el signo apropiado en las dos estimaciones ensayadas. Concluiríamos que la
investigación aporta evidencia de una influencia conjunta sobre el número de muertos.

2. Conteste a las siguientes cuestiones:

(a) En el contexto de las variables explicativas en un modelo de regresión, explique la


diferencia entre variable instrumental y variable proxy

(b) Un investigador supone que el gasto anual en servicios de salud per cápita, H, está
relacionado con la renta agregada per cápita, Y según la ecuación

logH = b1+b2logY+u

donde u es una perturbación sujeta a los supuestos habituales. Dispone de una


muestra de datos referidos a un conjunto de países desarrollados, pero los datos de Y
no son muy fiables. La relación entre el logaritmo del producto estimado publicado Z,
y el real, es,
logZ = logY+w

donde w es una cantidad aleatoria. Los datos de gasto sufren el mismo problema,
siendo la relación entre el logaritmo del gasto publicado K, y el real,

logK = logH+r

2
donde r es igualmente una cantidad aleatoria. El modelo en términos de variables
observables es por tanto,
logK =b1+b2logZ+u+r-b2w

Asumimos que w y r están ambas idéntica e independientemente distribuidas con


medias nulas y que no están relacionadas con Y o H ni entre ellas.

i. Explicar matemáticamente el impacto esperado de r en el estimador


MCO de b2
ii. Explicar matemáticamente el impacto esperado de w en el estimador
MCO de b2
(c) El investigador cree que Y es proporcional a E, el consumo anual per cápita de
electricidad según Y = lEv, donde el factor aleatorio v tiene una distribución
logarítmico normal de forma que logv está distribuida de forma normal con media
cero y varianza constante. Asumimos que E está correctamente medida.

i. Explicar las ventajas e inconvenientes de emplear E como proxy de Y en la


ecuación logK =b1+b2logZ+u+r-b2w regresando logK sobre logE en lugar de
logZ
ii. Explicar matemáticamente el efecto de usar logE como instrumento de logZ
en la misma ecuación.
iii. Un colega sugiere ajustar Y = lEv, regresar logZ sobre logE y emplear los
valores estimados de logZ como instrumento en logK =b1+b2logZ+u+r-b2w.
Discutir si este procedimiento puede mejorar los resultados.

Solución

a) Una proxy es una variable observable que está relacionada pero no es idéntica a la variable
exógena a la que sustituye en un modelo de regresión. Puede deberse a que no haya datos
sobre la verdadera variable exógena o a otras circunstancias …
b) i. es un ejemplo de variable endógena medida con error: el estimador sigue siendo insesgado
aunque tendrá mayor varianza (teoría estándar)
ii. Ahora el error de medida afecta a la exógena: sesgo (teoría estándar)

c) i. Tendríamos,
log H = b1 + b 2 log l Ev + u
= b1 + b 2 log l + b 2 log E + u + b 2 log v
Aun tendríamos que emplear K en lugar de H, pero el estimador beta2 sería ahora insesgado.
Una potencial desventaja es que la varianza podría ser grande si lo es var(logv).

3
ii. El empleo de E como instrumento proporcionaría estimadores consistentes. El estimador
VI es,

bVI =
å ( E - E )( K
i i i - Ki )
=
å ( E - E )( Z
i i i - Zi )

å ( E - E ) éë( b
i i 1 + b 2 Z i + ui + ri - b 2 wi ) - ( b1 + b 2 Z i + ui + ri - b 2 wi ) ùû
=
å ( E - E )( Z
i i i - Zi )

b2 +
å ( E - E ) éë( u + r - b w ) - ( u + r - b w )ùû
i i i i 2 i i i 2 i

å ( E - E )( Z - Z )
i i i i

Y tomando límites probabilísticos se obtiene plim b2 = b2

iii. Si la relación ajustada es,

ˆ Z = a1 + a2 log E
log
log Z es una función lineal de log E y por tanto proporcionará el mismo estimador cuando se
emplee como instrumento

3. Con objeto de estudiar la efectividad de un programa de reinserción laboral, se ha


empleado una muestra de 100 individuos que perdieron su empleo y se han estimados
los modelos (errores estándar robustos entre paréntesis),

Modelo logit Modelo probit


C 3.772 2.257
(1.88) (1.08)
PROG 1.363 0.755
(0.54) (0.31)
EST 0.166 0.097
(0.08) (.045)
EDAD -0.164 -0.095
(0.039) (0.022)
E_CIVIL 1.058 0.588
(0.55) (0.31)
Mac Fadden R2 0.378 0.377
SCR 13.59 13.63

La variable dependiente Y toma el valor 1 si el individuo ha encontrado trabajo en los 12


meses siguientes, PROG toma el valor 1 si el individuo participó en el programa, EST mide
los años de estudio, EDAD la edad en años y E_CIVIL es una variable binaria que toma el
valor 1 si el sujeto es casado(a).

4
a) ¿Cómo contrastaría la hipótesis de que la probabilidad de encontrar trabajo es igual en
ambos grupos (participantes y no participantes en el programa)?
b) A la vista de los resultados, ¿diría que el programa ha tenido éxito? Justifique su
respuesta
c) Obtenga la probabilidad de encontrar trabajo para todos los individuos y para los
mayores de 50 años.
d) Compare la probabilidad de encontrar trabajo de casados y solteros en ambos modelos
suponiendo que el estudios y edad de variables están en sus valores medios (11 y 46
aproximadamente).

Solución

a) Contrastando la significatividad estadística de dicha variable, es decir H0: b1=0, contra


una alternativa unilateral.

b) En los modelos anteriores, el valor del estadístico de contraste es respectivamente


2.52 y 2.44 respectivamente, por lo que se acepta la significatividad de la variable
PROG, concluyendo que el programa ha tenido éxito

c) En el modelo logit la probabilidad de encontrar trabajo será en cada caso,

1
Pr(Y = 1) =
1 + exp[-(3.772 + 1.363 X 1 + 0.166 X 2 - 0.164 X 3 + 1.058 X 4 )

1
Pr(Y = 1) = , X 3 = EDAD - 50
1 + exp[-(4.428 + 1.363 X 1 + 0.166 X 2 - 0.164 X 3 + 1.058 X 4 )
Análogamente para el probit,

Pr(Y=1) = f(2.257+0.755X1+0.097X2-0.095X3+0.588X4)

Pr(Y=1) = f(-2.493+0.755X1+0.097X2-0.095X3+0.588X4)

d) En el logit se tiene,

Casados que han participado en el programa, 0.69


Casados que no han participado en el programa, 0.36
Solteros que han participado en el programa, 0.44
Solteros que no han participado en el programa, 0.16

Para el probit,

5
Casados que han participado en el programa, f(0.487)
Casados que no han participado en el programa, f(-0.268)
Solteros que han participado en el programa, f(-0.101)
Solteros que no han participado en el programa, f(-0.856)

Necesitaríamos las tablas de la Normal para calcular la probabilidad exacta, pero


puede comprobarse que da resultados muy parecidos (0.69, 0.38, 0.46 y 0.19
respectivamente)

4. Con una muestra correspondiente a 10 empresas diferentes durante un periodo de 20


años (1935-1954), se estima la ecuación de inversión,

Iit = b1 + b2 X1it + b3 X 2it + e it

siendo I el volumen de inversión real de la empresa, X1 el valor real de la empresa y X2 el


valor real del stock de capital. Se dispone además de los siguientes datos,

æ 200 216336.2 55203.43 ö æ 29191.65 ö


ç ÷ ç ÷
( X'X) = ç 5.78*10 98204248 ÷ , X ' Y = ç 80189966 ÷ ,
8

ç 33279142 ÷ø ç 16667497 ÷
è è ø

æ .010151 -1.88*10-6 -1.13*10-5 ö


ç ÷
( X'X) -1 = ç 3.82*10-9 -8.15*10-9 ÷ , Y'Y = 13620706
ç 7.28*10-8 ÷ø
è

a) Obtenga una estimación aproximada del modelo con datos fusionados e introduzca el
resultado, junto con los errores estándar y el coeficiente de determinación, en la tabla
siguiente,

Variable dependiente: Iit


Datos EF 1 EF 2 EA 1 EA 2
Fusionados
Cte -58.74 -80.16 -57.83 -74.91
(19.61) (22.71) (36.97) (23.21)
X1 0.11 0.12 0.11 0.11
(0.017) (0.019) (0.018) (0.021)
X2 0.21 0.36 0.31 0.35
(0.03) (0.054) (0.031) (0.054)
SCR 1755850 523478.1 452147.1 548904.1 479718.2
R2 0.944 0.952 0.769 0.798
ai - Sí Sí Sí Sí
bt - No Sí No Sí

6
En la tabla anterior EF significa Efectos Fijos y EA Efectos Aleatorios y SCR es la Suma
Cuadrática de los Residuos.

b) ¿Qué significado tienen los términos ai y bt?


c) Fijándose en los modelos EF 1 y EF 2, contraste si el término bt es estadísticamente
significativo. ¿Y entre EA 1 y EA 2? Indique claramente en cada caso la hipótesis nula,
la distribución del estadístico de contraste y sus grados de libertad.
d) Suponga que, comparando los modelos EF 2 y EA 2, el test de Hausman arrojase un
valor de 3.34. Interprete adecuadamente este resultado.
e) A la vista de los resultados anteriores, diga si considera razonable suponer que la
importancia del stock de capital es tres veces superior (aproximadamente) a la del valor
real de la empresa.

Solución

a)

Variable dependiente: Iit


Datos EF 1 EF 2 EA 1 EA 2
Fusionados
Cte -42.71 -58.74 -80.16 -57.83 -74.91
(10.04) (19.61) (22.71) (36.97) (23.21)
X1 0.11 0.11 0.12 0.11 0.11
(.0077) (0.017) (0.019) (0.018) (0.021)
X2 0.23 0.21 0.36 0.31 0.35
(0.0377) (0.03) (0.054) (0.031) (0.054)
SCR 1755850 523478.1 452147.1 548904.1 479718.2
2
R 0.81 0.944 0.952 0.769 0.798
ai - Sí Sí Sí Sí
bt - No Sí No Sí

b) Miden respectivamente, los efectos fijos transversales (heterogeneidad no observada)


y temporales.

c) En cada caso la hipótesis nula sería que todos los coeficientes que recogen los efectos
temporales, son nulos, contra la alternativa de que al menos uno de ellos no lo sea.
Llevaríamos a cabo el contraste con un test F,

7
(0.952 - 0.944) /19
F19,169 = = 1.48
(1 - 0.952) /169
(0.798 - 0.769) /19
F19,169 = = 1.28
(1 - 0.798) /169

Un valor muy bajo con el que no podríamos rechazar la hipótesis nula: los efectos
temporales no son significativos.

d) Como sabemos, este test sirve para contrastar si debemos estimar un modelo de efectos
fijos o uno de efectos aleatorios. La hipótesis nula es que el modelo de efectos aleatorios
es apropiado y el test se distribuye como una Ji cuadrada con dos grados de libertad en
este caso. Si el valor del estadístico empírico es mayor que el tabulado para el nivel de
significatividad elegido, se rechaza el modelo de efectos aleatorios a favor del de efectos
fijos. Aún si disponer de las tablas, el valor en este caso es bajo, lo que parece apuntar
a que el modelo de efectos aleatorios es apropiado.

e) Habría que contrastar dicha hipótesis, aunque dados los valores obtenidos, todo parece
indicar que no sería posible rechazarla.

5. Para estimar los efectos de la educación en los salarios, se ha empleado un panel de


595 observaciones transversales durante los año 1976-1982. Se han utilizado las
siguientes variables explicativas,

Expe = Experiencia laboral en años


Wks = semanas trabajadas
Occ = 1 si es un trabajador manual, 0 si no
Ind = 1 si trabaja en la industria manufacturera, 0 si no
South = 1 si el individuo reside en el sur, 0 si no
SMSA = 1 si el individuo reside en un área metropolitana, 0 si no
MS = 1 si el individuo está casado, 0 si no
Union = 1si el individuo pertenece a un sindicato, 0 si no
Ed = años de educación
Fem = 1 si el individuo es del sexo femenino, 0 si no
Blk = 1 si el individuo es negro, 0 si no

En la tabla siguiente se presentan los resultados de estimar cuatro modelos diferentes. En


todos ellos el salario está expresado en logaritmos.

8
Dependent Variable: Log(WAGE)
Periods included: 7
Cross-sections included: 595
Total panel (balanced) observations: 4165
Agrupados EF temporales EF transversales EA transversales

Variable Coeficient Std. Error Coeficient Std. Error Coeficient Std. Error Coeficient Std. Error

C 5.251124 0.071287 5.374770 0.0623 2.828600 0.033150 4.263670 0.074552


EXPE 0.040105 0.002159 0.031492 0.0019 0.113200 0.001000 0.082054 0.002173
EXPE^2 -0.000673 4.74E-05 -0.000553 0.0000 -0.000420 1.90E-05 -0.000808 4.79E-05
WKS 0.004216 0.001081 0.003858 0.0009 0.000840 0.000440 0.001035 0.000590
OCC -0.140009 0.014657 -0.136068 0.0128 -0.021480 0.005960 -0.050066 0.012701
IND 0.046789 0.011794 0.053650 0.0103 0.019210 0.004760 0.003744 0.013170
SOUTH -0.055637 0.012527 -0.060337 0.0109 -0.001860 0.005060 -0.016618 0.020238
SMSA 0.151667 0.012069 0.165329 0.0105 -0.042470 0.005040 -0.013823 0.015253
MS 0.048449 0.020569 0.081435 0.0180 -0.029730 0.008310 -0.074628 0.017552
UNION 0.092627 0.012800 0.084666 0.0112 0.032780 0.005170 0.063223 0.013023
ED 0.056704 0.002613 0.053884 0.0023 0.144380 0.001210 0.099659 0.004385
FEM -0.367785 0.025097 -0.352311 0.0219 -0.130030 0.010240 -0.339210 0.039141
BLK -0.166938 0.022042 -0.160583 0.0192 -0.275070 0.008910 -0.210280 0.044242

R-cuadrado 0.428613 0.566382 0.907242 0.390017


R-cuadrado ajustado 0.426962 0.564499 0.906542 0.388254
Durbin Watson stat 0.335432 0.378281 1.667326 0.886929
(Suma residual)2 506.7657 384.5784 82.26732 164.7903
Hausman test 2984.970

Conteste a las siguientes cuestiones,

a) En base al modelo con datos agrupados, exprese las hipótesis nula y alternativa más
adecuadas para contrastar la significatividad de la educación y señale la conclusión.
Un año más de educación, ¿en cuánto incrementa el salario/hora?
b) El segundo modelo incorpora efectos fijos temporales. Plantee y calcule un contraste
estadístico para determinar si dichos efectos son estadísticamente significativos.
c) Observando los resultados de los dos primeros modelos, indique si hay diferencias
significativas en el efecto de la educación, justificando su respuesta.
d) Los modelos 3 y 4 incorporan efectos transversales. Indique apoyándose en criterios
estadísticos, si está justificando el empleo del modelo de efectos aleatorios
e) A la vista de todos los resultados, elija el modelo que le parece más apropiado y
exprese la función de salarios para una mujer negra y un hombre blanco que presentan
los mismos valores para el resto de las variables.
f) Justifique si la raza y el sexo son un hándicap por lo que al salario se refiere

9
Solución

a) En este caso es más apropiado un contraste unilateral. Las hipótesis son respectivamente
H0:b = 0, H1: b > 0. En este caso, el estadístico de contraste es,

0.0567/0.0026 = 21.8

Dado que este valor es mayor que el crítico en tablas para cualquier nivel razonable de
significatividad, se rechaza la hipótesis nula: la educación es significativa.

Un año más de educación significa un salario 100·0.0567=5.67% mayor.

b) Consiste simplemente en contrastar si los efectos temporales globalmente considerados, son


significativos. El estadístico de contraste puede construirse tanto con las SCR como con los
respectivos R2. Empleando las primeras,

( SCRR - SCRNR ) / nº restricciones (506.76 - 384.58) / 6 20.36


= = = 218.96
SCRNR / n - k - 1 384.58 / 4146 0.093

El valor crítico al 5% de una F7, ¥ es muy inferior, de manera que rechazamos la hipótesis nula
(los efectos temporales son significativos).

c) En términos cuantitativos la influencia de la educación es muy similar (en el primer modelo,


no se podría por ejemplo, rechazar la hipótesis de que el valor del parámetro es 0.0538, y
viceversa)

d) El valor del test de Hausman, que se distribuye como una c2 con k g.l., indica claramente que
la hipótesis nula debe ser rechazada. Por tanto es preferible el modelo con efectos fijos.
Otros factores que lo harían preferible son: mejor R2 (menor SCR), estadístico DW, o menores
e.e.

e) Hemos visto que los efectos fijos temporales son significativos y, cuando hemos incorporado
efectos transversales, el modelo EF es mejor que el EA. Por otra parte comparando el EF con
efectos temporales y transversales con el EF que solo incorpora efectos temporales,
observamos que aquel tiene un R2 muy superior (una SCR muy inferior). Por todo ello, el
modelo preferido es el tercero.

Empleando el modelo 3,

Mujer negra: ŷ =2.828+0.113exp+…+0.144ed-0.13fem-0.275blk =2.698+0.113exp+…


Hombre blanco: ŷ =2.828+0.113exp+…+0.144ed-0fem-0.275blk = 2.828+0.113exp+…

f) Empleando este modelo, vemos que tanto raza como sexo presentan coeficientes negativos
y estadísticamente significativos, por lo que podemos concluir que, en efecto, son
circunstancias que influyen negativamente.

10
6. Los impuestos sobre las bebidas alcohólicas son uno de los instrumentos para luchar contra
los accidentes de tráfico. En la tabla siguiente se presentan los resultados de una
investigación de este tipo llevada a cabo con datos de los 48 estados norteamericanos para
el periodo 1982-1988. En concreto se estimaron las siguientes seis ecuaciones (errores
estándar entre paréntesis),

Variable dependiente: tasa de mortalidad (muertes por 10000)


1 2 3 4 5 6
X 0.36 -0.66 -0.64 -0.45 -0.69 -0.46
(0.05) (0.29) (0.36) (0.30) (0.35) (0.31)
Z2 (19) 0.028 -0.010
(0.07) (0.083)
Z3 (20) -0.018 -0.076
(0.05) (0.068)
Z1 (18) 0.032 -0.100
(0.051) (0.056)
Z -0.002
(0.021)
W1 0.038 0.085 0.039
(0.103) (0.112) (0.102)
W2 0.008 0.017 0.009
(0.007) (0.011) (0.007)
W3 -0.063 -0.063
(0.013) (0.013)
W4 1.82 1.79
(0.63) (0.63)
EF ind. No Sí Sí Sí Sí Sí
EF tem. No No Sí Sí Sí Sí
R2 0.091 0.889 0.891 0.926 0.893 0.926

siendo las variables explicativas,

X = impuesto a la cerveza (impuesto corregido de inflación por caja de cerveza)


Z1 = edad mínima para beber, 18 años
Z2 = edad mínima para beber, 19 años
Z3 = edad mínima para beber, 20 años
Z4 = edad mínima para beber
W1 = Condena de cárcel o servicios comunitarios
W2 = Media de millas por conductor del vehículo
W3 = Tasa de paro
W4 = Logaritmo de la renta real per cápita
EF ind. = Efectos fijos individuales
EF tem. = Efectos fijos temporales

Conteste a las siguientes cuestiones,

11
a) Explique si tiene sentido que en la primera regresión el signo del impuesto sea positivo. ¿Por
qué cree que puede haberse obtenido este resultado?

b) ¿En qué se diferencia la regresión (1) de la (2)? Justifique si hay evidencia estadística a favor
de una u otra.

c) El estado de Nueva Jersey con 8,1 millones de personas, incrementa el impuesto por caja de
cerveza en 1 dólar. Diga cuál es el efecto sobre el número de accidentes empleando la
ecuación (2) y la (4). ¿Diría que la medida ha sido efectiva?

d) Haga una valoración estadística del papel de los efectos temporales y señale si su inclusión
está o no justificada.

e) Supongamos que el estado de Nueva Jersey, donde hay que tener 20 años para conducir,
rebaja esa edad hasta los 18. Empleando los resultados de la regresión (4), diga cuál es el
efecto esperado de dicha medida.

f) Construya un intervalo de confianza del 95% para el valor del coeficiente del impuesto,
empleando de nuevo la regresión (4)

g) Suponga que la renta se incrementa en un 1% ¿Cuál es el efecto esperado sobre la variable


dependiente? ¿Le parece que esto tiene sentido? ¿Por qué?

h) Una autoridad nacional tiene interés en conocer si la tasa de paro tiene efectos diferentes en
los estados del este y del oeste del país. Proponga un procedimiento para poder contrastar
esta hipótesis (no son necesarios resultados numéricos concretos).

Solución

a) Obviamente no tiene sentido. Con toda probabilidad estamos ante un problema de variables
omitidas …

b) La ecuación (2) tiene en cuenta la heterogeneidad no observada a través del efecto fijo
individual. Hay una fuerte evidencia estadística a favor de esta segunda ecuación: el signo de
la variable impuesto ha cambiado, la variable es significativa y la SCE es mucho mayor.

c) El resultado sería una disminución de la tasa de -0.66 y -0.45 respectivamente, lo que implica
una disminución de 534 personas en el primer caso y 364 en el segundo. Dado el escaso
coste de la medida, diríamos que sí ha sido efectiva

d) Solo puede hacerse comparando las ecuaciones (2) y (3). No parece que la mejora del ajuste
(0.889 por 0.891) sea significativa, lo que podemos comprobar con el contraste,

(0.891 - 0.889) / 6 3.33*10-4


F6,282 = = = 0.86
(1 - 0.891) /(336 - 55) 3.86*10-4

No está justificada.

12
e) Razonando sobre la ecuación (4), el número de muertes aumentaría en,
(0.018+0.032)*810=40.50

f) -0.45±1.96*0.3=(-1.038, 0.138)

g) La variable dependiente se incrementaría en aproximadamente un 1.8 muertos por cada


10000 habitantes (0.0189%). Puede argumentarse que con más renta aumentará el tráfico y,
por tanto, los accidentes.

h) Introducir una dummy; ver la magnitud de los efectos fijos en los estados del este y los del
oeste

7. Uno de los problemas que tiene nuestra economía es el bajo nivel de productividad en
comparación con los países de la OCDE. Entre las causas que se manejan para justificar este
hecho, está la singularidad de nuestro mercado laboral que, desde la reforma de 1984, ha
hecho uso cada vez con mayor frecuencia de la contratación a tiempo parcial, creando una
dualidad entre trabadores con contrato indefinido y trabajadores con contrato a tiempo
parcial. La vía por la que esta circunstancia puede haber influido en la productividad, es la
hipótesis según la cual los trabajadores con contratos a tiempo parcial reciben muchos menos
cursos de formación, y la formación del trabador es una variable directamente relacionada con
la productividad.

Con objeto de obtener evidencias que corroboren esta hipótesis, se han estimado las siguientes
regresiones,

(1) (2) (3) (4)


Contrato temporal -0.1636 -0.0923 -0.0795 -0.0795
(0.0223) (0.0265) (0.0284) (0.0306)
Antigüedad - 0.0053 0.0049 0.0035
(0.0014) (0.0015) (0.0016)
Edad - 0.0132 0.0179 0.0150
(0.0071) (0.0084) (0.0088)
Edad2/100 - -0.0002 -0.0002 -0.0002
(0.0001) (0.0001) (0.0001)
Mujer - -0.0359 -0.0376 -0.0117
(0.0205) (0.0219) (0.0270)
Nivel educativo medio - 0.1279 0.1359 0.0947
(0.0286) (0.0305) (0.0329)
Nivel educativo alto - 0.2731 0.2550 0.1578
(0.0227) (0.0258) (0.0328)
Nivel educativo los padres No No Sí Sí
Estado civil No No Sí Sí
Inmigrante No No Sí Sí
Motivación No No Sí Sí

13
Dummies por sector y No No No Sí
ocupación
N 2258 2258 2258 2258
Pseudo – R2 0.015 0.065 0.074 0.102
Logaritmo de verosimilitud -283.22 -201.13 -179.25 -152.54

Los cuatro modelos estimados son modelos probit en los que la variable dependiente es la probabilidad
de recibir formación en la empresa. La variable “Contrato temporal” es asimismo una variable binaria
que toma el valor 1 si el trabajador tiene contrato temporal y 0 en caso contrario. El resto son variables
de control que se explican por sí mismas.

En base a los resultados anteriores, conteste, si es posible, a las siguientes cuestiones,

a) ¿Cómo debe interpretarse el valor del Pseudo-R2? Por ejemplo, ¿qué quiere decir que Pseudo-
R2 = 0.102 en la última ecuación?
b) A la vista de los resultados anteriores, ¿diría que el hecho de ser mujer influye en la
probabilidad de recibir formación? ¿En cuánto se modificaría esta probabilidad respecto de un
varón con las mismas características?
c) ¿Cómo afecta la edad del trabajador a la probabilidad de recibir cursos de formación? Escriba
en cada caso las ecuaciones a las que responde dicha variación
d) ¿Cómo podría contrastar la hipótesis de que el nivel educativo de los padres, el estado civil, la
condición de inmigrante y la motivación del trabajador, no son globalmente significativas? Si
es posible con los datos de la tabla anterior, lleve a cabo dicho contraste.
e) Respecto al motivo inicial de la investigación, escriba cuál sería su conclusión general y porqué.

Solución

a) Significa que la inclusión de las variables explicativas hacer aumentar la función de


versosimilitud en 0.102 unidades.

b) En todos los modelos que incluyen una dummy por sexo (modelos 2, 3 y 4), el coeficiente es
negativo. Sin embargo son solo marginalmente significativos en los modelos 2 y 3. En el
modelo 4, que podemos considerar el más completo, el coeficiente no es significativo. En
consecuencia, aunque no se puede ofrecer una conclusión taxativa, no parece que el sexo
influya en la probabilidad de recibir formación.

c) Excepto en el modelo 1, donde no se contempla la edad, en todos los casos responde a una
función no lineal: la edad afecta positivamente pero cada vez menos. Por ejemplo, para el
modelo 3 la influencia de la edad viene dada por la ecuación 0.0179X-2·10-04·(X2/100)

d) Comparando los modelos 2 y 3. El estadístico de contraste, basado en 11.3.4, sería


2[-179.25-(-201.13)] = 43.76 y se distribuye como una Chi cuadrada con 4 g.l. Dado que al 5%
el valor crítico es 9.49, rechazaríamos la hipótesis nula.

14
e) En todos los modelos el coeficiente de la variable Contrato temporal es negativo y
estadísticamente significativo. Por lo tanto la evidencia empírica parece apoyar la hipótesis de
que el abuso de la contratación temporal tiene un efecto negativo en la productividad, vía
menos formación de los trabajadores.

8. Queremos investigar la probabilidad de que, en concesión de un crédito, haya problemas de


discriminación por el color de la piel. Para ello estimamos en primera instancia los siguientes
modelos, en los que la variable dependiente Aprobado, es una variable binaria que toma el
valor 1 si es crédito es concedido y la variable explicativa, Blanco, es una binaria que toma el
valor 1 si el individuo es blanco y 0 si es de cualquier otro color,

MLP Logit Probit


Constante 0.708 0.885 0.547
(0.018) (0.125) (0.075)
Blanco 0.201 1.409 0.784
(0.020) (0.151) (0.087)
R2/ Pseudo-R2 0.049 0.053 0.053
N 1989 1989 1989

En base a dichas estimaciones,

a) Calcule la probabilidad de que un solicitante negro consiga un crédito con cada uno de los
tres modelos
b) ¿Diría que hay discriminación en razón de la etnia del solicitante? ¿Por qué o por qué no?
¿Qué fiabilidad otorgaría a esta conclusión y por qué?

A continuación se añaden las siguientes variables explicativas a los modelos anteriores: ratio
(en porcentaje) valor de la vivienda/renta total (X1), ratio (en porcentaje) otras
obligaciones/renta total (X2), ratio importe solicitado/pago (X3), binaria paro, 1 si parado (X4),
binaria sexo, 1 si mujer (X5), binaria estado civil, 1 si casado (X6), número de personas
dependientes (X7), binaria que toma el valor 1 si el individuo tiene más de 12 años de
escolarización (X8), binaria igual a 1 si hay avalista(s) (X9), binaria igual a 1 si ha estado de baja
menos de 10 días (X10), binaria igual a 1 si alguna vez ha incumplido pagos (X11), binaria igual a
1 si se ha retrasado en 1 ó 2 pagos en otras obligaciones (X12), binaria igual a 1 si se ha retrasado
en más de dos pagos (X13), y una binaria que mide el estado de salud del solicitantes, igual a 1
si es malo (X14).

Los resultados se muestran a continuación (los errores estándar aparecen ahora a la derecha
de cada estimador),

15
MLP Logit Probit
Coef. e.e Coef. e.e Coef. e.e
Constante 0.936731 0.052735 3.801710 0.594707 2.062327 0.313176
Blanco 0.128820 0.019732 0.937764 0.172904 0.520253 0.096959
X1 0.001833 0.001263 0.013263 0.012880 0.007876 0.006962
X2 -0.00543 0.001102 -0.05303 0.011280 -0.02769 0.006049
X3 -0.14730 0.037516 -1.90495 0.460442 -1.01196 0.237240
X4 -0.00729 0.003198 -0.06657 0.032809 -0.03668 0.017481
X5 -0.00414 0.018864 -0.06638 0.206429 -0.03700 0.109927
X6 0.045824 0.016308 0.503282 0.177998 0.265747 0.094252
X7 -0.00682 0.006701 -0.09073 0.073334 -0.04957 0.039057
X8 0.001753 0.016650 0.041229 0.178404 0.014650 0.095842
X9 0.009772 0.041139 0.132059 0.446094 0.086071 0.245751
X10 0.133027 0.019263 1.066577 0.171212 0.585281 0.095971
X11 -0.24192 0.028227 -1.34066 0.217366 -0.77874 0.126320
X12 -0.05725 0.050012 -0.30988 0.463520 -0.18762 0.253113
X13 -0.11372 0.066984 -0.89467 0.568581 -0.49435 0.326556
X14 -0.03144 0.014031 -0.34982 0.153725 -0.20106 0.081493
R2/Pseudo-R2 0.165 0.186 0.186
N 1989 1989 1989

c) Diga si hay algún coeficiente con signo distinto al esperado


d) ¿Cómo deben interpretarse los estadísticos de ajuste de cada uno de los tres modelos?
e) En relación con la hipotética discriminación por el color de la piel, ¿en qué cambian estos
resultados con respecto a los del modelo simple? ¿Observa evidencias que permitan
afirmar que hay discriminación por razón de sexo?
f) Compare los coeficientes de la variable Blanco en cada uno de estos tres modelos
anteriores. Dado que son significativamente diferentes, ¿puede concluirse que el efecto
sobre la probabilidad de éxito es diferente en cada modelo? Justifique su respuesta.

Solución

a) Serían respectivamente,
MLP: Pr(Y=1) = 0.708
!
Logit: Pr(Y=1) = !"#$% (().++,) = 0.708
Probit: Pr(Y=1) = f(0.547) = 0.709

Es decir, muy parecidas.


La diferencia entre un blanco y un negro es también análoga,

MLP Logit Probit


Blanco 0.909 0.908 0.908
Negro 0.708 0.708 0.709
Diferencia 0.201 0.200 0.201

16
b) Diríamos que sí pues en todos los casos la dummy blanco es positiva (aumenta la
probabilidad de éxito) y es estadísticamente significativa. No puede otorgársele mucha
fiabilidad habida cuenta de que hay muchas circunstancias que influyen en la concesión
de un crédito, que no han sido tenidas en cuenta.

c) En principio el signo de todos los coeficientes es acorde a lo esperado con la excepción de


X5 (sexo), donde no cabe esperar un signo u otro (si bien en nuestro caso el coeficiente no
es estadísticamente distinto de cero)

d) El correspondiente al MLP es el coeficiente de determinación estándar, de manera que


(multiplicado por 100) da el porcentaje de variación de la variable dependiente, explicado
por las variables independientes. En los modelos Logit y Probit, el Pseudo-R2 proporciona
el incremento de la función de verosimilitud cuando se añaden las 15 variables explicativas
consideradas.

e) El coeficiente sigue siendo positivo y estadísticamente significativo, pero ahora su impacto


en la probabilidad de éxito es diferente. Por ejemplo, en el MLP el hecho de ser blanco
solo aumenta la probabilidad de éxito en 0.13 unidades (antes 0.201). El cálculo es más
tedioso para los modelos Logit y Probit, pero puede obtenerse igualmente que

No se observa que es sexo del solicitante sea un factor determinante dado que, como ya
se ha señalado, en ninguno de los tres modelos es estadísticamente distinto de cero.

f) Aunque son cuantitativamente diferentes, ello no implica necesariamente que su impacto


en la probabilidad de éxito lo sea. Empleando los coeficientes correctores mencionados
en el texto, podemos efectuar esta comparación de forma aproximada. Por ejemplo,
0.625*0.93 = 0.58, no muy alejado de 0.52, de manera que los modelos Logit y Probit dan
resultados parecidos en este sentido. Estos los coeficientes parecen mayores que los del
MLP (0.52/2.5 =0.208 > 0.129), de manera que sí podemos considerar que este modelo
proporciona un resultado diferente para el impacto étnico.

9. Un departamento del Ministerio de Interior está estudiando los determinantes de los


delitos en el país y dispone de datos de 42 regiones policiales en un periodo de 22 años.
Pretende estimar la siguiente regresión,

ln(Yit)=ai+ft+b1X1it+b2X2it +b3ln(X3it)+uit

siendo Y la tasa de delitos per cápita, X1 la tasa de paro masculina, X2 la proporción de jóvenes
en la población y X3 es la probabilidad de que un delito acabe en una medida punitiva (se mide
como el cociente entre el número de condenas y el número de delitos registrados).

a) Señale las ventajas de utilizar datos de panel en este contexto ¿Qué se supone que miden
los términos a y f?

17
b) La estimación de un modelo de efectos fijos, utilizando errores estándar robustos a la
heterocedasticidad y la autocorrelación, ofrece el siguiente resultado (se han omitido los
resultados de los coeficientes de ai y ft),

ln(Yit)= 0.063X1,it + 3.739X2,it – 0.588ln(X3,it) ; R 2 = 0.904


(0.109) (0.179) (0.024)

Comente los resultados explicando lo que significa cada uno de los coeficientes en
términos cuantitativos.
c) Con objeto de contrastar la significatividad de ai (también estimado en b) aunque no se
haya ofrecido el resultado), se estima una regresión que excluye ai resultando que el
coeficiente de determinación del nuevo modelo es R2 = 0.59.
Explique lo que significa este resultado en términos estadísticos y en términos prácticos.
d) En la ecuación estimada en el apartado c) resulta asimismo que el estimador de la
variable X1 registra ahora un valor de 1.34 con un error estándar de 0.234 mientras que
los coeficientes de las otras dos variables, apenas registran cambios. Explique cómo
interpreta este resultado.

Solución

a) Las ventajas son las propias de utilizar modelos de panel: nos permiten recoger el efecto de
variables omitidas que no cambian en el tiempo (parámetro ai), o el efecto del tiempo
(parámetro ft)
b) Los tres coeficientes tienen los signos esperados: más paro y mayor proporción de jóvenes,
implica un mayor índice de delitos, mientras que si aumenta la probabilidad de acabar
condenado, disminuyen los delitos por habitante. Sin embargo la tasa de paro no es
estadísticamente significativa.
Un aumento de un punto en la tasa de paro, hace que el índice de delitos crezca un
100·0.063=6,3%. Análogamente, si la proporción de jóvenes crece un punto, el índice de delitos
crece un 374%. Sin embargo en el caso de X3i, el coeficiente es directamente una elasticidad: si
la probabilidad de acabar condenado crece un 1%, el índice de delitos cae un 0.588%.
c) La drástica reducción del coeficiente de determinación significa que los efectos fijos son
significativos, lo que habría que contrastar formalmente con un test tipo F,

(0.904 - 0.59) / 41
F41,858 = = 68.45
(1 - 0.904) / (924 - 66)
Al ser el valor del estadístico mayor que el valor crítico a cualquier nivel de significatividad
razonable, se rechazaría la hipótesis nula (que los efectos fijos individuales son conjuntamente
nulos).

d) Quiere decir que en un modelo de datos fusionados, el paro sería significativo pero, dada
conclusión obtenida en c), ello sería un resultado espurio en el sentido de que se habría
obtenido como resultado de excluir variables relevantes de la regresión.

18
10. Para estudiar los determinantes de que la población lea periódicos serios o se incline
más por la lectura de diarios sensacionalistas, se dispone de una muestra de 50
individuos con las variables,

S, años de educación
E, edad del lector
R, el salario hora del lector

La variable dependiente Y, es una dummy que toma el valor 1 si el individuo lee periódicos
serios y 0 si lee periódicos sensacionalistas.

Se estiman los siguientes modelos (errores estándar entre paréntesis),

Pr(Yi = 1) = -0.041 + 0.104Si + 0.0028Ei + 0.0102 Ri


(0.137) (0.026) (0.005) (0.0055)
(1)
n = 50, R 2 = 0.379

-1
Pr(Yi = 1) = éë1 + exp[- ( -3.05 + 0.569 Si + 0.022 Ei + 0.052 Ri )]ùû
(1.05) (0.186) (0.032) (0.027) (2)
n = 50 pseudo R 2 = 0.31, log verosimilitud = -23.33

-1
Pr(Yi = 1) = éë1 + exp[- ( -0.65 )]ùû
(0.15) (3)
n = 50 log verosimilitud = -34.65

Se pide,

a) Explique el significado de los modelos (1) y (2) y sus principales diferencias ¿Eliminaría
alguna variable?
b) A juzgar por los valores de los diferentes estimadores en los modelos (1) y (2), ¿diría
que la influencia de las variables explicativas en la probabilidad de éxito es muy
diferente según el modelo empleado? Justifique su respuesta.
c) Utilizando los resultados del modelo (1) ¿en cuánto aumenta la probabilidad de éxito
un año más de educación? ¿Y si hubiese empleado el modelo (2)?
d) Utilizando de nuevo los dos primeros modelos, calcule la probabilidad de que un
individuo de 30 años, con 10 años de educación y una renta de 15 €/hora, lea un diario
serio. ¿Y si el salario fuese de 5€ hora?
e) Contraste la significatividad global de ambos modelos

19
Solución

a) El modelo (1) es un modelo lineal de probabilidad, mientras que el (2) es un modelo


logit, no lineal. Las diferencias más importantes son que en el MLP los valores de
probabilidad pueden ser mayores que 1 o menores que 0, mientras que en el logit la
probabilidad está acotada entre 0 y 1. Además en el MLP el aumento de probabilidad
debido a un cambio unitario en X es constante, mientras que en el logit no lo es. La edad
del lector no es significativa en ninguno de los dos modelos, por lo que podría
eliminarse.

b) Los signos son los mismos, es decir educación, edad y renta, influyen positivamente a
favor de la lectura de periódicos “serios” en ambos modelos. La magnitud sí parece
diferente, incluso aplicando la regla de la nota a pie de página 5 (p. 371 Primera Edición)

c) En el modelo (1) aumentará en lo que indica su coeficiente, es decir 0.104, sin embargo
en el modelo (2) no se puede saber sin conocer los valores del resto de las variables ya
que al ser un modelo no lineal, ello influye en el resultado final.

d) Para el modelo lineal de probabilidad obtendríamos un valor de 1.236, mientras que en


el logit la probabilidad calculada, sería de 0.983, es decir que con estos valores, ambos
modelos pronostican una probabilidad prácticamente unitaria de que el individuo lea
periódicos serios. Si el salario fuese 5$, los resultados serían 1.134 y 0.972
respectivamente.

e) La significatividad global en el primer modelo, calculada con una F sería,

0.379 / 3
F3,46 = = 9.358
(1 - 0.379) / 46
Mayor que el valor crítico en tablas al 5%, por lo que el modelo es globalmente
significativo a ese nivel (también lo es al 1%, pero no se dispone de ese dato en el
examen).

En el caso del logit, usaríamos la expresión (11.3.4), para obtener,

L = 2[-23.33-(-34.65)] = 22.64

Que se distribuye como una c2 con 3 g.l. El valor crítico en tablas al 1%, es 11.3, por
lo que el modelo es globalmente significativo a ese nivel.
11. Para estudiar si la pena de muerte tiene un efecto disuasorio sobre la criminalidad en USA, se
dispone de datos sobre la tasa de asesinatos por cada 100000 habitantes (mrdrte), el
número de ejecuciones de la pena máxima (exec) y la tasa de paro (unem), todos ellos
separados por estados (51 en total) y correspondientes a los años 1988, 1990 y 1993.

Se plantea el modelo general,

20
mrdrteit = ai + qt + b1exec1it + b2unem2it + e it

a) Diga de qué modelo se trata indicando lo que mide cada uno de los parámetros
b) ¿Cuál debería ser el signo esperado de b1 si se pretende justificar el empleo de la pena de
muerte? ¿Y el signo de b2?
c) La estimación por MCO fusionados empleado solo los años 1990 y 1993 y una dummy
temporal para 1993, arroja el siguiente resultado (errores estándar entre paréntesis),

ˆ
mrdrte = -5.28 + 0.13execit + 2.53b 2unemit - 2.07 D93t , n = 102, R 2 = 0.10
it

(4.43) (0.26) (0.78) (2.14)

¿Considera que la pena de muerte tiene algún efecto sobre el índice de criminalidad?
¿Considera que dicho índice se está reduciendo? Justifique sus respuestas
d) El resultado de la estimación del mismo modelo en diferencias proporciona,

Dmrdrteit = 0.413 - 0.104Dexec1it - 0.167Dunem2it , n = 51, R 2 = 0.11


(0.209) (0.043) (0.159)
Compare estos resultados con los del apartado anterior, indicando a qué pueden deberse
que los resultados sean diferentes. Si se produce una ejecución más en el año 1990 ¿qué
sucederá con la tasa de crímenes?
e) En la tabla siguiente se ofrecen las estimaciones de los modelos de efectos fijos (FE) y
aleatorios (RE) (errores estándar entre paréntesis),

cte exec unem R2 Hausman test


FE 6.92 -0.14 0.22 0.90
(2.74) (0.08) (0.045)
4.87
RE 5.78 -0.05 0.39 0.05
(2.19) (0.07) (0.41)

(i) Contraste la significatividad de la variable exec usando un test unilateral al 5%. Si


hubiese 10 ejecuciones más, ¿cuál sería el efecto exacto sobre la variable
dependiente?
(ii) Valore si es más adecuado el modelo EF o el EA

Solución

a) Es un modelo de panel de efectos fijos temporales y transversales. El parámetro ai mide la


heterogeneidad no observada entre estados y qt mide la influencia del paso del tiempo.

21
b) En principio el signo esperado debería ser negativo: más ejecuciones de la pena máxima,
menor índice de criminalidad. El paro sin embargo debería tener a priori una influencia
positiva: más paro más criminalidad.
c) No: el coeficiente correspondiente a las ejecuciones no es significativamente distinto de cero,
de manera que no habría evidencia en este sentido. Por otra parte, aunque la dummy temporal
es negativa, lo que en principio podría indicar una disminución de la tasa de criminalidad,
tampoco es distinta de cero, por lo que no se estaría reduciendo el índice.
d) Ahora las ejecuciones sí son significativas (no el desempleo). La diferencia fundamental está
en que el modelo en diferencias recoge la influencia de la heterogeneidad no observada.
e) (i) Para el modelo de efectos fijos, el ratio t arroja un valor de -0.14/0.08 = -1.75. En un
contraste unilateral (H1: b1 <0), el valor crítico al 5% es aproximadamente -1.67, por lo que la
variable exec es estadísticamente significativa.

Si se producen 10 ejecuciones más, la tasa de criminalidad caerá 10·0.14=1.04 puntos por


100000 habitantes. Por ejemplo, en un Estado como Michigan, con una población aproximada
de 10.000.000 de habitantes, habría 104 crímenes menos.

Con el modelo de efectos aleatorios, exec no es estadísticamente significativa.

(ii) El estadístico de contraste tendrá en este caso una distribución Chi cuadrada con 2 g.l. El
valor crítico en tablas al 5% es 5.99. Como el estadístico empírico arroja un valor menor, no
se rechaza la hipótesis nula, es decir es preferible el modelo de efectos aleatorios.

12. En los siguientes gráficos y tablas se ofrece información sobre la cotización diaria de dos
criptomonedas, bitcoin (BTC) y ethereum (ETH), ambas en logaritmos, en los años 2016 y 2017
(730 observaciones),
LBTC LETH
10 7

6
9
5

8 4

7
2

1
6
0

5 -1
I II III IV I II III IV I II III IV I II III IV
2016 2017 2016 2017

Cotización diaria de bitcoin (logaritmos) Cotización diaria de ethereum (logaritmos)

Se han calculado las siguientes regresiones, donde t es el tiempo y ut los residuos de la regresión de
cointegración entre BTC y ETH,

ˆ = 0.025 - 0.0048ln BTC + 0.000037t


D ln BTCt t -1

(0.023) (0.0042) (0.00002)

22
ˆ = 0.015 - 0.0055ln ETH + 0.000035t
D ln ETH t t -1

(0.058) (0.0036) (0.000029)

Duˆt = 0.0001 - 0.0077ut -1


(0.0018) (0.0047)

Conteste razonadamente a las siguientes cuestiones,

a) A la vista de la información gráfica y numérica, valore la estacionaridad de ambas series.

b) Contraste las siguientes hipótesis

i. Las series tienen una raíz unitaria


ii. Las series tienen una tendencia determinista
iii. Las series están cointegradas

Indique claramente en cada caso las hipótesis nula y alternativa así como el nivel de significatividad
empleado, el resultado numérico del estadístico de contraste y la conclusión final.

c) Los correlogramas de la primera diferencia de ambas variables, son,

DBTC DETH
u FAT FAP FAT FAP
1 0.024 0.024 0.035 0.035
2 -0.029 -0.030 0.010 0.009
3 -0.010 -0.009 0.060 0.059
4 -0.022 -0.022 -0.001 -0.005
5 0.008 0.009 -0.024 -0.025
6 0.037 0.035 -0.005 -0.007
7 -0.026 -0.027 0.002 0.004
8 0.011 0.014 0.016 0.019
9 0.006 0.004 0.010 0.010
10 0.024 0.025 0.011 0.009
11 0.038 0.036 0.043 0.040
12 0.037 0.037 0.035 0.031
13 -0.028 -0.025 0.014 0.011
14 -0.013 -0.010 0.025 0.020
15 0.019 0.020 0.065 0.061
16 0.021 0.018 0.023 0.019
17 0.006 0.003 0.073 0.071
18 0.020 0.020 -0.013 -0.024
19 0.062 0.066 0.101 0.101
20 0.023 0.019 0.058 0.047

i. ¿Cuál puede haber sido el proceso generador de las series ln(BTC) y ln(ETH)?
ii. Si el valor del bitcoin para la última observación de la muestra fue de ln(pt)=9.56 €, ¿cuál es la
mejor predicción para el primer día de 2018?

Solución

23
a) Los gráficos de las series no dejan lugar a dudas: ninguna de las dos series originales, es
estacionaria. Por otra parte la primera diferencian de las series muestra un correlograma que
se corresponde con un proceso de ruido blanco
b) Los contrastes pedidos serían,
(i) H0: d = 0, H1: d < 0.
El estadístico de contraste para el bitcoin arroja un resultado de -0.0048/0.0042=-1.14 y
en el caso del ethereum, -0.0055/0.0036=-1.53. El valor crítico en tablas para un nivel
de significatividad del 5%, es -3.41. Por tanto la hipótesis nula no puede ser rechazada,
concluyendo que ambas series tienen una raíz unitaria.
(ii) A juzgar por el ratio t la serie BTC parece tener una tendencia creciente pero hay que ser
precavido pues desconocemos la distribución de dicho ratio.
(iii) La cointegración implicaría que la serie de los residuos ut es estacionaria. Llevando a cabo
un contraste de raíz unitaria sobre la tercera ecuación, encontramos que -0.77/0.47 =
-1.64, y por tanto no se puede rechazar la hipótesis nula de raíz unitaria en ut: las series
no estarían cointegradas.

c) A la luz de la información de los correlogramas concluimos que,

(i) Ambas series pueden haber sido generadas por un proceso de camino aleatorio,
dado que su diferencia es un proceso puramente aleatorio.
(ii) Si DYt = et, de acuerdo con el resultado anterior, se sigue que E(Yt+1|Yt) =Yt y por tanto
el valor esperado para (el logaritmo) de la cotización de bitcoin en enero de 2018
será precisamente 9.56 €.

13. El 28 de enero de 1986, el transbordador espacial Challenger se desintegró pocos segundos


después del despegue provocando la muerte de sus siete tripulantes y condicionando
seriamente el programa espacial norteamericano. Un informe sobre los incidentes
registrados en el transbordador, relacionó el número de fallos en unas piezas clave (juntas
toroidales), con la temperatura en el lugar de lanzamiento. Suponga que en un análisis
preliminar, obtiene el siguiente gráfico que muestra temperatura (grados Fahrenheit) y
número de incidentes en la juntas toroidales,

24
4

INCIDENTES 2

0
40 50 60 70 80

TEMPERATURA

a) ¿Se observa alguna relación entre la temperatura y el número de fallos en las piezas
examinadas? Si ajustase una regresión lineal, ¿considera que la pendiente sería positiva o
negativa? ¿Sería significativamente distinta de cero? Señale qué tipo de problemas, aparte
del reducido tamaño muestral, presentaría un procedimiento como este
b) Analizando un mayor número de lanzamientos del transbordador, decide ajustar, con los
datos obtenidos, un modelo lineal de probabilidad, donde la variable Y toma el valor 1 si
hubo evidencia de algún fallo en las juntas toroidales y cero en caso contrario. Obtiene el
siguiente resultado,

∑Y = 1) = 2.858 - 0.037 X , R 2 = 0.325, EER = 0.390


Pr(
(0.496) (0.007)

donde X es la temperatura y entre paréntesis, se muestran los errores estándar robustos


(EER es el error estándar de la regresión)

Interprete esta estimación. ¿Considera que hay razones para utilizar los errores estándar
robustos? La temperatura, el día 28 de enero de 1986, cuando el Challenguer explotó a los
pocos segundos del despegue, era de 31 grados Fahrenheit. ¿Cuál es la predicción del
modelo para este valor? ¿Para qué temperaturas se obtiene pronósticos de cero (o menor)?
¿Y uno (o mayor)?
c) Para obviar los problemas del MLP, estima un logit, obteniendo,

∑Y = 1) = 15.297 - 0.237 X , pseudo - R 2 = 0.297


Pr(
(7.329) (0.107)

25
¿Qué significado tiene en este modelo el coeficiente de pendiente? Calcule el efecto
esperado sobre la probabilidad de éxito de una caída de la temperatura de 80° a 70° y de 60°
a 50°. ¿Por qué no se obtiene el mismo resultado? ¿Cómo interpreta el valor del pseudo R2?
d) La estimación de un probit es,

∑Y = 1) = 8.900 - 0.137 X , pseudo - R 2 = 0.297


Pr(
(3.983) (0.058)

¿Cree que estos resultados son coherentes con los del modelo logit? Calcule el efecto esperado
sobre la probabilidad de éxito de una caída de la temperatura de 80° a 70° y de 60° a 50°

e) Calcule la variación de la probabilidad de éxito derivada de una caída de 80° a 40° empleando
los modelos logit y probit anteriores. Empleando este cálculo y los de los apartados c) y d)
anteriores, dibuje un gráfico aproximado que relacione la probabilidad de éxito en ordenadas,
con la temperatura en abscisas.

Solución

a) No parece observarse una relación clara entre ambas variables y el ajuste de una regresión
lineal no registraría una tendencia clara,

3
INCIDENTES

0
52 56 60 64 68 72 76

TEMP

Aparte del tamaño muestral, esta regresión tendría los problemas de la escasa variabilidad de
la variable incidentes o la hipotética existencia de variables omitidas.

b) La probabilidad de éxito, es decir de que haya un incidente, depende negativamente de la


temperatura: la pendiente es negativa y significativa. Si la temperatura aumenta 10 grados, la
probabilidad de un incidente se reduce en 0.37 puntos.

26
Sí, estaría indicado emplear errores estándar robustos dado que en el MLP los errores son
heterocedásticos.

Con una temperatura de 31 grados se tendría,

Pr(Y=1) =2.858-31*0.037=1.711

Para temperaturas mayores de 77.24 grados, la probabilidad de incidente sería menor que 0
y para temperaturas menores de 50.22, la probabilidad de éxito sería mayor que 1.

c) En un modelo logit, el significado de la pendiente es diferente: lo único que cabe deducir es


que la temperatura influye negativamente en la probabilidad de éxito, pero no se puede
afirmar a priori cuanto variará esa probabilidad por cada grado de variación de la
temperatura.

La probabilidad de éxito para las distintas temperaturas, son,

∑Y = 1| X = 50) = 1
Pr( = 0.9691
1 + exp(-3.447)

∑Y = 1| X = 60) = 1
Pr( = 0.7459
1 + exp(-1.077)

∑Y = 1 | X = 70) = 1
Pr( = 0.2153
1 + exp(1.293)

∑Y = 1 | X = 80) = 1
Pr( = 0.025
1 + exp(3.663)

Por tanto, si la temperatura pasa de 60 grados a 50, la probabilidad de incidente aumenta en


0.22 puntos aproximadamente. La misma variación entre 80 y 70 grados, incrementa la
probabilidad en 0.19 puntos.

d) Los resultados del probit son completamente coherentes con los del logit. El coeficiente es
negativo y aunque su magnitud no es directamente comparable, si aplicamos la corrección
aproximada, 0.137*1.6 =0.219, muy parecida a la del logit.
Los resultados para las respectivas probabilidades, son muy parecidos. Por ejemplo, para 50
y 60 grados,

27
∑Y = 1 | X = 50) = F(8.9 - 0.137 * 50) = F(2.05) = 1 - 0.0202 = 0.9798
Pr(
∑Y = 1 | X = 60) = F(8.9 - 0.137 * 60) = F(68) = 1 - 0.2483 = 0.7517
Pr(

Con una diferencia idéntica de 0.22 puntos.

e) Para 40 grados la probabilidad de éxito es 0.997 y por lo tanto pasar de 40 a 80 grados,


disminuye la probabilidad de incidente en 0.997-0.02=0.972 puntos.

El gráfico aproximado sería,

1.0

0.8
Incidente

0.6

0.4

0.2

0.0
35 40 45 50 55 60 65 70 75 80 85

Temperatura

14. Para un conjunto de 162 granjeros dedicados a la producción de leche se dispone de datos,
correspondientes al periodo 1993-1998, de las siguientes variables,

Y (Leche): producción de leche en litros por año


X1 (Vacas): número de cabezas de ganado
X2 (Tierra): extensión de la finca (fija para cada empresario)
X3 (Pienso): kg de pienso por año

Las tablas siguientes proporcionan la estimación de distintos modelos de panel, siendo log(Y) en
todos los casos la variable dependiente:

Tabla 1: Estimación por MCO fusionados.

28
variable Coefficient Std. Error t-Statistics
C 6,976457 0,040584 171,9009
LOG(X1) 0,600228 0,023564 25,4915
LOG(X2) 0,020668 0,01412 1,463763
LOG(X3) 0,455605 0,013712 33,22704
R-squared (R2) 0,956152 Mean dep. var. 11,71364
Adjusted R-squared 0,956017 S.D. dep. var. 0,607083
S.E. of regression 0,127319 Sum squared resid 15,69139
F-statistics 7036,159 Durbin-Watson stat 0,573676

Tabla 2: Estimación de efectos fijos

variable Coefficient Std. Error t-Statistics


LOG(X1) 0,674705 0,032031 21,06433
LOG(X3) 0,396393 0,014944 26,52504
Efectos fijos …..
R-squared (R2) 0,986294 Mean dep. var. 11,71364
Adjusted R-squared 0,983529 S.D. dep. var. 0,607083
S.E. of regression 0,077914 Sum squared resid 4,905013
F-statistics 58142,43 Durbin-Watson stat 1,717733

Tabla 3: Estimación de efectos aleatorios.

variable Coefficient Std. Error t-Statistics


C 7,086916 0,057206 123,8852
LOG(X1) 0,657466 0,027075 24,2835
LOG(X2) 0,020818 0,023718 0,877749
LOG(X3) 0,410013 0,01363 30,0817
R-squared 0,983509 Mean dep. var. 11,71364
Adjusted R-squared 0,983458 S.D. dep. var. 0,607083
S.E. of regression 0,07808 Sum squared resid 5,901458
Durbin-Watson stat 1,445803

a) Explique la razón por la que la variable tierra no se ha incluido en la estimación de la tabla 2


b) Contraste la hipótesis de que la variable tierra no es significativa. Indique qué modelo usa y
porqué para llevar a cabo este contraste.
c) Compare las estimaciones de las tablas 1 y 2. ¿Cuáles son las diferencias más relevantes
entre ambas? ¿Cuál de los dos modelos le parece más restrictivo? Explique cómo podría
contrastar esas restricciones y, de ser posible con los datos proporcionados, lleve a cabo
dicho test.
d) Compare ahora las estimaciones de las tablas 2 y 3. ¿Cuáles son las diferencias? ¿Cuál de los
dos modelos le parece más restrictivo? Explique cómo podría contrastar esas restricciones y,
de ser posible con los datos proporcionados, lleve a cabo dicho test.

29
Solución

a) La variable tierra es invariante en el tiempo y por lo tanto no puede incluirse como una
variable explicativa adicional al estar su efecto recogido en el término de efecto fijo.
b) Por el motivo señalado en el modelo anterior, este contraste solo podría ser llevado a cabo
en el modelo de datos fusionados o en el de efectos aleatorios. En dichos modelos el ratio t
es 1.46 y 0.88, en ambos casos insuficiente para rechazar la hipótesis nula ni siquiera al 10%:
la variable no es estadísticamente significativa.
c) Una primera diferencia es que el ajuste mejora al pasar el valor de coeficiente de
determinación de 0.96 a 0.99. Ello implica que los efectos fijos son significativos (puede
comprobarse con un test F). Dado que el modelo de datos fusionados excluye estos efectos,
probablemente proporciona estimadores sesgados. En el caso de la variable X1 (número de
cabezas de ganado), el modelo de datos fusionados subestima el verdadero valor del
parámetro y en el caso del pienso, lo sobrestima.
El modelo de datos fusionados es más restricitivo ya que obliga a que la constante sea única
para todas las entidades, mientras que en el modelo EF se permite que esta varía. La forma
de contrastarlo es con el test F mencionado.
d) El este caso el modelo de efectos aleatorios es más restrictivo ya que impone que los efectos
fijos no estén correlacionados con las variables explicativas. Para contrastar cuál de los dos
es preferible podemos emplear el test de Hausman:

H = ( bˆFE - bˆRE ) ' W( bˆFE - bˆRE )

El problema en este caso, es que el modelo de efectos aleatorios incluye una variable
explicativa más, por lo que para llevar a cabo la comparación deberíamos estimar un modelo
EA con las mismas variables que el EF.

15. La figura muestra la evolución de los tipos de cambio diario euro/dólar y libra/dólar en los 5
años del periodo 2003-2007 (1826 observaciones),

30
1.0

0.9

0.8

0.7

0.6

0.5

0.4
I II III IV I II III IV I II III IV I II III IV I II III IV
2003 2004 2005 2006 2007

Euro Libra estrlina

a) Valore gráficamente si las series tiene apariencia de estacionaridad


b) Explique con detalle cómo podría contrastar la hipótesis de raíz unitaria (se pide una
explicación teórica, no que lleve a cabo el contraste)
c) Suponga que la serie de tipo de cambio de la libra ha sido generada por el siguiente proceso,
X t = 1.05 X t -1 - 0.05 X t - 2 + e t

Diga de qué tipo de proceso se trata y analice su estacionaridad


d) La tabla siguiente muestra algunos resultados relativos a las series anteriores (D es el
operador diferencia y eˆ los residuos de estimados de la regresión del euro sobre la libra),
t

Euro DEuro Libra DLibra eˆt


ADF test -1.74 -17.01 -1.59 -20.51 -3.20

A la vista de los mismos indique el orden de integración de los dos tipos de cambio y si
ambos están cointegrados, explicando claramente en qué basa sus afirmaciones. En términos
prácticos, ¿qué implicaría el hecho de que los tipos de cambio estuvieran cointegrados?
e) Considere la estimación (errores estándar entre paréntesis),


Deurot = 0.078 + 1.22Dlibrat - 0.02(eurot -1 - 1.399librat -1 )
(0.059) (0.026) (0.003)

A partir de este resultado,

(i) Valore la cointegración a partir del resultado anterior, señalando en su caso el vector
de cointegración y la velocidad de ajuste al equilibrio. En concreto, de acuerdo con la
estimación anterior ¿cuántos días tardaría en corregirse un hipotético desequilibrio?
(ii) Explique cómo debe interpretarse el coeficiente de Dlibrat.

31
Solución

a) Ninguna de las series es estacionaria dado que ambas tienen una clara tendencia decreciente
b) Aunque en teoría podríamos emplear la regresión Yt = a+bYt-1+ut para contrastar la hipótesis
nula H0: b =1 contra la alternativa H1: b < 1, el problema es que, bajo la hipótesis nula, la
regresión anterior es una regresión espuria. Por ello se recurre a procedimientos como el
contraste ADF (descripción en el manual). Dado el trazado de la serie, lo más apropiado sería
utilizar una ecuación con constante y sin tendencia.
c) Es un proceso AR(2). Para ver si es estacionario comprobamos si las raíces del polinomio de
retardos 1-1.05B+0.05B2, caen fuera del círculo unidad,

1.05 ± 1.052 - 0.2 1.05 ± 0.95


B= =
2·0.05 0.1
cuyas raíces son 20 y 1. El proceso tiene una raíz unitaria y por lo tanto no sería estacionario.
d) En primer lugar utilizamos el test ADF para contrastar si las series originales del tipo de
cambio de euro y libra, tienen una raíz unitaria. Utilizando la ecuación con constante y sin
tendencia y un nivel del 5%, no se puede rechazar la hipótesis nula cualquiera que sea la
ecuación que empleemos (el mismo resultado se obtendría usando otra ecuación u otro nivel
de significación). Concluimos que ambas tienen una raíz unitaria. Sin embargo, siguiendo el
mismo procedimiento para las series diferenciadas, concluiríamos que las primeras
diferencias son estacionarias. Por lo tanto las series originales son I(1).
Finalmente, para saber si las variables están cointegradas, compararíamos el valor -3.20 con
el crítico en tablas. Usando una ecuación con constante y sin tendencia, el valor parece más
negativo que el crítico a un nivel de significatividad del 5% y por tanto las series estarían
cointegradas. Sin embargo, al no disponer de las tablas adecuadas (ver p. 731, punto 3 de la
sección 20.3), esta conclusión no sería definitiva. De darse, la cointegración implicaría que los
tipos de cambio euro/dólar y libra/dólar mantienen una relación de equilibrio estable a largo
plazo.
e) (i) Dado que el término de corrección de error es significativo, podemos concluir que las
series están cointegradas. Sin embargo, el ajuste al equilibrio es bastante lento y exigiría
unos 50 días.
(iii) El coeficiente de la primera diferencia de la libra, mide la relación a corto plazo entre
ambos tipos de cambio.

16. Para determinar la probabilidad de que una madre con hijos a cargo viva sola, se estiman los
dos siguientes modelos logit. Los datos corresponden a una muestra de 1960, con 6051
mujeres blancas (estimación 1) y 1294 no blancas (estimación 2),

32
(1) Blanco (2) No blanco
Regression model Logit Logit
Constante 1.459 –2.874
(0.685) (1.423)
Edad –0.275 0.084
(0.037) (0.068)
Edad al cuadrado 0.00463 0.00021
(0.00044) (0.00081)
Educación –0.171 –0.127
(0.026) (0.038)
Granjero –0.687 –0.498
(0.173) (0.346)
Sur 0.376 –0.520
(0.098) (0.180)
Renta familiar 0.0018 0.0011
(0.00019) (0.00024)
composición familiar 4.123 2.751
(0.294) (0.345)
Pseudo-R2 0.266 0.189
% predichos
82.0 83.4
correctamente
Log. verosimilitud -124.08 -127.31
R2 Mc Fadden 0.098

La variable dependiente toma el valor 1 si la madre vive sola. Edad son los años de edad, educación,
los años de educación, renta familiar es la renta medida en miles de dólares, composición familiar es
el número de miembros menores de 18 años dividido entre el total de miembros de la familia;
Granjero y sur son dummies que toman el valor 1 si la familia vive en una granja o vive en el sur,
respectivamente. Entre paréntesis figuran los errores estándar.

En la tabla siguiente se muestran las medias de las variables,

Variable (1) Blancos (2) No blancos


Edad 46.1 42.9
Edad al cuadrado 2,263.5 1,965.6
Educación 12.6 10.4
Granjero 0.03 0.02
Sur 0.3 0.5
Renta Familiar 2,336.4 1,507.3
Composición familiar 0.2 0.3

Se pide,

a) Interprete los resultados de la estimación. ¿Tienen los coeficientes los signos esperados?
¿Por qué piensa que se ha incluido la edad al cuadrado?

33
b) Calcular la diferencia en la probabilidad de éxito para blancos y no blancos empleando los
valores medios de las variables.
c) ¿Cuál sería el efecto en la probabilidad de éxito para una mujer no blanca, si los valores de
educación y composición familiar cambiaran de sus valores medios a los valores medios de
las mujeres blancas? (suponemos que el resto de las variables permanecen inalteradas en los
valores medios de las no blancas)
d) Explique cómo calcularía el R2 de Mc Fadden para la segunda regresión y, si es posible,
obtenga el valor de dicho estadístico.

Solución

a) Como sabemos, los coeficientes obtenidos en la estimación de los modelos logit no son
fáciles de interpretar más allá de su dirección en la que las variables explicativas actúan. No
puede decirse que haya una expectativa clara en relación con los signos esperados. Se
aprecian diferencias significativas en los dos grupos de mujeres, dado que solo la educación y
la composición familiar, influyen en la misma dirección en los dos grupos. El resto de las
variables muestran signos contrarios y/ o diferencias en cuanto a la magnitud y la
significatividad estadística.

La edad al cuadrado se ha incluido para recoger la posibilidad de que la influencia de esta


variable, no sea necesariamente siempre en la misma dirección. Así en el caso de las mujeres
blancas, la probabilidad de éxito disminuye con la edad hasta los 30 años aproximadamente,
aumentando después (en el caso de las mujeres negras, la edad no es significativa).

b) Pr(Y=1|blancos)=0.9 y Pr(Y=1|negros)=0.88,

Blancos No blancos
cte 1.4590 1.0000 1.4590 -2.8740 1.0000 -2.874
edad -0.2750 46.1000 -12.6775 0.0840 42.9000 3.6036
2
edad 0.0046 2263.5000 10.4800 0.0002 1965.6000 0.412776
educ -0.1710 12.6000 -2.1546 -0.1270 10.4000 -1.3208
granjero -0.6870 0.0300 -0.0206 -0.4980 0.0200 -0.00996
sur 0.3760 0.3000 0.1128 -0.5200 0.5000 -0.26
renta 0.0018 2336.4000 4.2055 0.0011 1507.3000 1.65803
composición 4.1230 0.2000 0.8246 2.7510 0.3000 0.8253
2.2292 2.034946

0.1076 0.13068754
0.90284252 0.88441764

34
c) Ya hemos visto en el apartado anterior, que la probabilidad para una mujer negra es de 0.88
en los valores medios de los negros. Si la educación y la composición familiar cambiasen para
tomar los valores delos blancos, la nueva probabilidad no cambiaría mucho. El efecto
negativo debido a la educación se compensa con el positivo de la composición familiar,

-2.874 1 -2.874
0.084 42.9 3.6036
0.0002 1965.6 0.39312
-0.171 10.4 -1.7784
-0.498 0.02 -0.00996
-0.52 0.5 -0.26
0.0011 1507.3 1.65803
4.123 0.3 1.2369

1.96929
0.87753483

LNR
2
d) El estadístico responde a la expresión RMF = 1- . Para obtener L0 podemos emplear los
L0
datos de los blancos,
æ -124.08 ö
0.098 = 1 - ç ÷
è L0 ø
L æ -127.31 ö
2
De donde L0 = -137.56 y por tanto RMF = 1 - NR = 1 - ç ÷ = 0.0745
L0 è -137.56 ø

17. Se quiere estudiar si en la decisión de suscribir o no un plan privado de pensiones (Y),


tiene alguna influencia el hecho de participar en un plan de pensiones gubernamental
(X), para lo que se estima la ecuación,

Ŷi = -0.198 + 0.054 X i + 0.009renta - 0.00002renta 2 - 0.0016edad + 0.0001edad 2


(0.068) (0.01) (.0005) (.000004) (.0033) (.00003)
[0.065] [0.01] [.0004] [.000004] [.0032] [.00004]

R 2 = 0.18

X e Y son ambas variables binarias que toman el valor 1 si el individuo dispone del
correspondiente plan de pensiones y 0 en caso contrario; renta es la renta del sujeto medida en

35
miles de euros y edad los años del individuo, que oscilan entre 25 y 64 años. Entre paréntesis
figuran los errores estándar y entre corchetes, los errores estándar robustos.

a) Interprete el efecto de X sobre la posibilidad de suscribir un plan privado y diga si, a


su juicio, es razonable dicho efecto.
b) Contraste la significatividad estadística de X empleando un test unilateral. Especifique
claramente las hipótesis nula y alternativa y justifique si debe emplear los errores
estándar o los errores estándar robustos.
c) El investigador dispone de una variable binaria adicional Z = 1 si el individuo reúne
las condiciones para ser candidato al plan de pensiones gubernamental y 0 en caso
contrario, con la que estima,

X̂ i = 0.059 + 0.001renta - 0.000002renta 2 - 0.005edad + 0.00005edad 2 + 0.6888Z i


(0.049) (.003) (.0000029) (.0024) (.00003) (.006)
[0.046] [.0003] [.000003] [.0022] [.000025] [.008]

R 2 = 0.59
Explique detalladamente qué uso podría darse a Z y porqué. Explique también qué
significa esta segunda estimación.

d) La ecuación estimada por VI arroja el siguiente resultado,

Ŷi = -0.207 + 0.021X i + 0.009renta - 0.00002renta 2 - 0.0011edad + 0.00009edad 2


(0.069) (0.012) (.0005) (.000004) (.0033) (.000038)
[0.065] [0.013] [.0005] [.000006] [.0032] [.000038]

R 2 = 0.17
Compare este resultado con el anterior

e) La estimación de un modelo probit proporciona,

Ŷi = -2.98 + 0.182 X i + 0.033renta - 0.0001renta 2 - 0.022edad + 0.00011edad 2


(0.272) (0.034) (.0019) (.000015) (.0133) (.00014)
[0.274] [0.033] [.0018] [.000014] [.0128] [.00016]

Pseudo R 2 = 0.16

¿Puede decirse que el efecto sobre la probabilidad de éxito de poseer un plan


gubernamental ha disminuido? Justifique su respuesta.

36
En particular, calcule, si es posible, el efecto de tener un plan gubernamental sobre la
probabilidad de suscribir un plan privado usando tanto el MLP como el modelo probit.

Solución

a) La probabilidad de suscribir un plan privado aumenta en 0.054 puntos si el individuo


goza de un plan gubernamental. No parece muy intuitivo aunque no es completamente
falto de razón
b) La hipótesis nula es H0: b = 0, mientras que la alternativa unilateral dependerá de
nuestros conocimientos previos de la cuestión. Supongamos que lo que cabe esperar es
que la probabilidad de éxito aumente. Entonces la alternativa será H1: b <0 y el
resultado del test,

0.054
t= = 5.4
0.01

Rechazamos pues la hipótesis nula y la variable es significativa.

Es mejor emplear errores estándar robustos dado que el modelo lineal de


probabilidad es heterocedástico.

c) Z podría emplearse como instrumento de X en el caso de que hubiese sospechas de


endogeneidad. La ecuación (2) es la ecuación de la forma reducida.
d) La estimación por variables instrumentales empleando Z como instrumento,
proporciona un efecto mucho menor y solo marginalmente significativo, para el hecho
de disponer de un plan de pensiones gubernamental.
e) Sin más información es difícil hacer esta comparación, dado que las magnitudes de los
coeficientes no son comparables

37

También podría gustarte