Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Suponga que desea analizar el impacto del consumo de bebidas alcohólicas en los
accidentes de tráfico con víctimas mortales, para lo que estima la siguiente regresión
transversal empleando datos de los 48 estados USA (N=48),
siendo,
b) Explique claramente qué es lo que mide la variable de interacción X1i X4i. Diseñe y lleve
a cabo un test adecuado para contrastar su significatividad estadística
c) Cuando el investigador decide incluir X4i como variable individual (no solo en el
término de interacción), obtiene,
1
Solución
b) Esta variable es una medida de si el impacto del consumo de cerveza hace crecer el
número de víctimas cuando la altitud aumenta. Su significatividad estadística se
contrastaría de la forma habitual. En este caso el ratio t vale aproximadamente 4.07, por
lo que es significativa al 1%.
(b) Un investigador supone que el gasto anual en servicios de salud per cápita, H, está
relacionado con la renta agregada per cápita, Y según la ecuación
logH = b1+b2logY+u
donde w es una cantidad aleatoria. Los datos de gasto sufren el mismo problema,
siendo la relación entre el logaritmo del gasto publicado K, y el real,
logK = logH+r
2
donde r es igualmente una cantidad aleatoria. El modelo en términos de variables
observables es por tanto,
logK =b1+b2logZ+u+r-b2w
Solución
a) Una proxy es una variable observable que está relacionada pero no es idéntica a la variable
exógena a la que sustituye en un modelo de regresión. Puede deberse a que no haya datos
sobre la verdadera variable exógena o a otras circunstancias …
b) i. es un ejemplo de variable endógena medida con error: el estimador sigue siendo insesgado
aunque tendrá mayor varianza (teoría estándar)
ii. Ahora el error de medida afecta a la exógena: sesgo (teoría estándar)
c) i. Tendríamos,
log H = b1 + b 2 log l Ev + u
= b1 + b 2 log l + b 2 log E + u + b 2 log v
Aun tendríamos que emplear K en lugar de H, pero el estimador beta2 sería ahora insesgado.
Una potencial desventaja es que la varianza podría ser grande si lo es var(logv).
3
ii. El empleo de E como instrumento proporcionaría estimadores consistentes. El estimador
VI es,
bVI =
å ( E - E )( K
i i i - Ki )
=
å ( E - E )( Z
i i i - Zi )
å ( E - E ) éë( b
i i 1 + b 2 Z i + ui + ri - b 2 wi ) - ( b1 + b 2 Z i + ui + ri - b 2 wi ) ùû
=
å ( E - E )( Z
i i i - Zi )
b2 +
å ( E - E ) éë( u + r - b w ) - ( u + r - b w )ùû
i i i i 2 i i i 2 i
å ( E - E )( Z - Z )
i i i i
ˆ Z = a1 + a2 log E
log
log Z es una función lineal de log E y por tanto proporcionará el mismo estimador cuando se
emplee como instrumento
4
a) ¿Cómo contrastaría la hipótesis de que la probabilidad de encontrar trabajo es igual en
ambos grupos (participantes y no participantes en el programa)?
b) A la vista de los resultados, ¿diría que el programa ha tenido éxito? Justifique su
respuesta
c) Obtenga la probabilidad de encontrar trabajo para todos los individuos y para los
mayores de 50 años.
d) Compare la probabilidad de encontrar trabajo de casados y solteros en ambos modelos
suponiendo que el estudios y edad de variables están en sus valores medios (11 y 46
aproximadamente).
Solución
1
Pr(Y = 1) =
1 + exp[-(3.772 + 1.363 X 1 + 0.166 X 2 - 0.164 X 3 + 1.058 X 4 )
1
Pr(Y = 1) = , X 3 = EDAD - 50
1 + exp[-(4.428 + 1.363 X 1 + 0.166 X 2 - 0.164 X 3 + 1.058 X 4 )
Análogamente para el probit,
Pr(Y=1) = f(2.257+0.755X1+0.097X2-0.095X3+0.588X4)
Pr(Y=1) = f(-2.493+0.755X1+0.097X2-0.095X3+0.588X4)
d) En el logit se tiene,
Para el probit,
5
Casados que han participado en el programa, f(0.487)
Casados que no han participado en el programa, f(-0.268)
Solteros que han participado en el programa, f(-0.101)
Solteros que no han participado en el programa, f(-0.856)
ç 33279142 ÷ø ç 16667497 ÷
è è ø
a) Obtenga una estimación aproximada del modelo con datos fusionados e introduzca el
resultado, junto con los errores estándar y el coeficiente de determinación, en la tabla
siguiente,
6
En la tabla anterior EF significa Efectos Fijos y EA Efectos Aleatorios y SCR es la Suma
Cuadrática de los Residuos.
Solución
a)
c) En cada caso la hipótesis nula sería que todos los coeficientes que recogen los efectos
temporales, son nulos, contra la alternativa de que al menos uno de ellos no lo sea.
Llevaríamos a cabo el contraste con un test F,
7
(0.952 - 0.944) /19
F19,169 = = 1.48
(1 - 0.952) /169
(0.798 - 0.769) /19
F19,169 = = 1.28
(1 - 0.798) /169
Un valor muy bajo con el que no podríamos rechazar la hipótesis nula: los efectos
temporales no son significativos.
d) Como sabemos, este test sirve para contrastar si debemos estimar un modelo de efectos
fijos o uno de efectos aleatorios. La hipótesis nula es que el modelo de efectos aleatorios
es apropiado y el test se distribuye como una Ji cuadrada con dos grados de libertad en
este caso. Si el valor del estadístico empírico es mayor que el tabulado para el nivel de
significatividad elegido, se rechaza el modelo de efectos aleatorios a favor del de efectos
fijos. Aún si disponer de las tablas, el valor en este caso es bajo, lo que parece apuntar
a que el modelo de efectos aleatorios es apropiado.
e) Habría que contrastar dicha hipótesis, aunque dados los valores obtenidos, todo parece
indicar que no sería posible rechazarla.
8
Dependent Variable: Log(WAGE)
Periods included: 7
Cross-sections included: 595
Total panel (balanced) observations: 4165
Agrupados EF temporales EF transversales EA transversales
Variable Coeficient Std. Error Coeficient Std. Error Coeficient Std. Error Coeficient Std. Error
a) En base al modelo con datos agrupados, exprese las hipótesis nula y alternativa más
adecuadas para contrastar la significatividad de la educación y señale la conclusión.
Un año más de educación, ¿en cuánto incrementa el salario/hora?
b) El segundo modelo incorpora efectos fijos temporales. Plantee y calcule un contraste
estadístico para determinar si dichos efectos son estadísticamente significativos.
c) Observando los resultados de los dos primeros modelos, indique si hay diferencias
significativas en el efecto de la educación, justificando su respuesta.
d) Los modelos 3 y 4 incorporan efectos transversales. Indique apoyándose en criterios
estadísticos, si está justificando el empleo del modelo de efectos aleatorios
e) A la vista de todos los resultados, elija el modelo que le parece más apropiado y
exprese la función de salarios para una mujer negra y un hombre blanco que presentan
los mismos valores para el resto de las variables.
f) Justifique si la raza y el sexo son un hándicap por lo que al salario se refiere
9
Solución
a) En este caso es más apropiado un contraste unilateral. Las hipótesis son respectivamente
H0:b = 0, H1: b > 0. En este caso, el estadístico de contraste es,
0.0567/0.0026 = 21.8
Dado que este valor es mayor que el crítico en tablas para cualquier nivel razonable de
significatividad, se rechaza la hipótesis nula: la educación es significativa.
El valor crítico al 5% de una F7, ¥ es muy inferior, de manera que rechazamos la hipótesis nula
(los efectos temporales son significativos).
d) El valor del test de Hausman, que se distribuye como una c2 con k g.l., indica claramente que
la hipótesis nula debe ser rechazada. Por tanto es preferible el modelo con efectos fijos.
Otros factores que lo harían preferible son: mejor R2 (menor SCR), estadístico DW, o menores
e.e.
e) Hemos visto que los efectos fijos temporales son significativos y, cuando hemos incorporado
efectos transversales, el modelo EF es mejor que el EA. Por otra parte comparando el EF con
efectos temporales y transversales con el EF que solo incorpora efectos temporales,
observamos que aquel tiene un R2 muy superior (una SCR muy inferior). Por todo ello, el
modelo preferido es el tercero.
Empleando el modelo 3,
f) Empleando este modelo, vemos que tanto raza como sexo presentan coeficientes negativos
y estadísticamente significativos, por lo que podemos concluir que, en efecto, son
circunstancias que influyen negativamente.
10
6. Los impuestos sobre las bebidas alcohólicas son uno de los instrumentos para luchar contra
los accidentes de tráfico. En la tabla siguiente se presentan los resultados de una
investigación de este tipo llevada a cabo con datos de los 48 estados norteamericanos para
el periodo 1982-1988. En concreto se estimaron las siguientes seis ecuaciones (errores
estándar entre paréntesis),
11
a) Explique si tiene sentido que en la primera regresión el signo del impuesto sea positivo. ¿Por
qué cree que puede haberse obtenido este resultado?
b) ¿En qué se diferencia la regresión (1) de la (2)? Justifique si hay evidencia estadística a favor
de una u otra.
c) El estado de Nueva Jersey con 8,1 millones de personas, incrementa el impuesto por caja de
cerveza en 1 dólar. Diga cuál es el efecto sobre el número de accidentes empleando la
ecuación (2) y la (4). ¿Diría que la medida ha sido efectiva?
d) Haga una valoración estadística del papel de los efectos temporales y señale si su inclusión
está o no justificada.
e) Supongamos que el estado de Nueva Jersey, donde hay que tener 20 años para conducir,
rebaja esa edad hasta los 18. Empleando los resultados de la regresión (4), diga cuál es el
efecto esperado de dicha medida.
f) Construya un intervalo de confianza del 95% para el valor del coeficiente del impuesto,
empleando de nuevo la regresión (4)
h) Una autoridad nacional tiene interés en conocer si la tasa de paro tiene efectos diferentes en
los estados del este y del oeste del país. Proponga un procedimiento para poder contrastar
esta hipótesis (no son necesarios resultados numéricos concretos).
Solución
a) Obviamente no tiene sentido. Con toda probabilidad estamos ante un problema de variables
omitidas …
b) La ecuación (2) tiene en cuenta la heterogeneidad no observada a través del efecto fijo
individual. Hay una fuerte evidencia estadística a favor de esta segunda ecuación: el signo de
la variable impuesto ha cambiado, la variable es significativa y la SCE es mucho mayor.
c) El resultado sería una disminución de la tasa de -0.66 y -0.45 respectivamente, lo que implica
una disminución de 534 personas en el primer caso y 364 en el segundo. Dado el escaso
coste de la medida, diríamos que sí ha sido efectiva
d) Solo puede hacerse comparando las ecuaciones (2) y (3). No parece que la mejora del ajuste
(0.889 por 0.891) sea significativa, lo que podemos comprobar con el contraste,
No está justificada.
12
e) Razonando sobre la ecuación (4), el número de muertes aumentaría en,
(0.018+0.032)*810=40.50
f) -0.45±1.96*0.3=(-1.038, 0.138)
h) Introducir una dummy; ver la magnitud de los efectos fijos en los estados del este y los del
oeste
7. Uno de los problemas que tiene nuestra economía es el bajo nivel de productividad en
comparación con los países de la OCDE. Entre las causas que se manejan para justificar este
hecho, está la singularidad de nuestro mercado laboral que, desde la reforma de 1984, ha
hecho uso cada vez con mayor frecuencia de la contratación a tiempo parcial, creando una
dualidad entre trabadores con contrato indefinido y trabajadores con contrato a tiempo
parcial. La vía por la que esta circunstancia puede haber influido en la productividad, es la
hipótesis según la cual los trabajadores con contratos a tiempo parcial reciben muchos menos
cursos de formación, y la formación del trabador es una variable directamente relacionada con
la productividad.
Con objeto de obtener evidencias que corroboren esta hipótesis, se han estimado las siguientes
regresiones,
13
Dummies por sector y No No No Sí
ocupación
N 2258 2258 2258 2258
Pseudo – R2 0.015 0.065 0.074 0.102
Logaritmo de verosimilitud -283.22 -201.13 -179.25 -152.54
Los cuatro modelos estimados son modelos probit en los que la variable dependiente es la probabilidad
de recibir formación en la empresa. La variable “Contrato temporal” es asimismo una variable binaria
que toma el valor 1 si el trabajador tiene contrato temporal y 0 en caso contrario. El resto son variables
de control que se explican por sí mismas.
a) ¿Cómo debe interpretarse el valor del Pseudo-R2? Por ejemplo, ¿qué quiere decir que Pseudo-
R2 = 0.102 en la última ecuación?
b) A la vista de los resultados anteriores, ¿diría que el hecho de ser mujer influye en la
probabilidad de recibir formación? ¿En cuánto se modificaría esta probabilidad respecto de un
varón con las mismas características?
c) ¿Cómo afecta la edad del trabajador a la probabilidad de recibir cursos de formación? Escriba
en cada caso las ecuaciones a las que responde dicha variación
d) ¿Cómo podría contrastar la hipótesis de que el nivel educativo de los padres, el estado civil, la
condición de inmigrante y la motivación del trabajador, no son globalmente significativas? Si
es posible con los datos de la tabla anterior, lleve a cabo dicho contraste.
e) Respecto al motivo inicial de la investigación, escriba cuál sería su conclusión general y porqué.
Solución
b) En todos los modelos que incluyen una dummy por sexo (modelos 2, 3 y 4), el coeficiente es
negativo. Sin embargo son solo marginalmente significativos en los modelos 2 y 3. En el
modelo 4, que podemos considerar el más completo, el coeficiente no es significativo. En
consecuencia, aunque no se puede ofrecer una conclusión taxativa, no parece que el sexo
influya en la probabilidad de recibir formación.
c) Excepto en el modelo 1, donde no se contempla la edad, en todos los casos responde a una
función no lineal: la edad afecta positivamente pero cada vez menos. Por ejemplo, para el
modelo 3 la influencia de la edad viene dada por la ecuación 0.0179X-2·10-04·(X2/100)
14
e) En todos los modelos el coeficiente de la variable Contrato temporal es negativo y
estadísticamente significativo. Por lo tanto la evidencia empírica parece apoyar la hipótesis de
que el abuso de la contratación temporal tiene un efecto negativo en la productividad, vía
menos formación de los trabajadores.
a) Calcule la probabilidad de que un solicitante negro consiga un crédito con cada uno de los
tres modelos
b) ¿Diría que hay discriminación en razón de la etnia del solicitante? ¿Por qué o por qué no?
¿Qué fiabilidad otorgaría a esta conclusión y por qué?
A continuación se añaden las siguientes variables explicativas a los modelos anteriores: ratio
(en porcentaje) valor de la vivienda/renta total (X1), ratio (en porcentaje) otras
obligaciones/renta total (X2), ratio importe solicitado/pago (X3), binaria paro, 1 si parado (X4),
binaria sexo, 1 si mujer (X5), binaria estado civil, 1 si casado (X6), número de personas
dependientes (X7), binaria que toma el valor 1 si el individuo tiene más de 12 años de
escolarización (X8), binaria igual a 1 si hay avalista(s) (X9), binaria igual a 1 si ha estado de baja
menos de 10 días (X10), binaria igual a 1 si alguna vez ha incumplido pagos (X11), binaria igual a
1 si se ha retrasado en 1 ó 2 pagos en otras obligaciones (X12), binaria igual a 1 si se ha retrasado
en más de dos pagos (X13), y una binaria que mide el estado de salud del solicitantes, igual a 1
si es malo (X14).
Los resultados se muestran a continuación (los errores estándar aparecen ahora a la derecha
de cada estimador),
15
MLP Logit Probit
Coef. e.e Coef. e.e Coef. e.e
Constante 0.936731 0.052735 3.801710 0.594707 2.062327 0.313176
Blanco 0.128820 0.019732 0.937764 0.172904 0.520253 0.096959
X1 0.001833 0.001263 0.013263 0.012880 0.007876 0.006962
X2 -0.00543 0.001102 -0.05303 0.011280 -0.02769 0.006049
X3 -0.14730 0.037516 -1.90495 0.460442 -1.01196 0.237240
X4 -0.00729 0.003198 -0.06657 0.032809 -0.03668 0.017481
X5 -0.00414 0.018864 -0.06638 0.206429 -0.03700 0.109927
X6 0.045824 0.016308 0.503282 0.177998 0.265747 0.094252
X7 -0.00682 0.006701 -0.09073 0.073334 -0.04957 0.039057
X8 0.001753 0.016650 0.041229 0.178404 0.014650 0.095842
X9 0.009772 0.041139 0.132059 0.446094 0.086071 0.245751
X10 0.133027 0.019263 1.066577 0.171212 0.585281 0.095971
X11 -0.24192 0.028227 -1.34066 0.217366 -0.77874 0.126320
X12 -0.05725 0.050012 -0.30988 0.463520 -0.18762 0.253113
X13 -0.11372 0.066984 -0.89467 0.568581 -0.49435 0.326556
X14 -0.03144 0.014031 -0.34982 0.153725 -0.20106 0.081493
R2/Pseudo-R2 0.165 0.186 0.186
N 1989 1989 1989
Solución
a) Serían respectivamente,
MLP: Pr(Y=1) = 0.708
!
Logit: Pr(Y=1) = !"#$% (().++,) = 0.708
Probit: Pr(Y=1) = f(0.547) = 0.709
16
b) Diríamos que sí pues en todos los casos la dummy blanco es positiva (aumenta la
probabilidad de éxito) y es estadísticamente significativa. No puede otorgársele mucha
fiabilidad habida cuenta de que hay muchas circunstancias que influyen en la concesión
de un crédito, que no han sido tenidas en cuenta.
No se observa que es sexo del solicitante sea un factor determinante dado que, como ya
se ha señalado, en ninguno de los tres modelos es estadísticamente distinto de cero.
ln(Yit)=ai+ft+b1X1it+b2X2it +b3ln(X3it)+uit
siendo Y la tasa de delitos per cápita, X1 la tasa de paro masculina, X2 la proporción de jóvenes
en la población y X3 es la probabilidad de que un delito acabe en una medida punitiva (se mide
como el cociente entre el número de condenas y el número de delitos registrados).
a) Señale las ventajas de utilizar datos de panel en este contexto ¿Qué se supone que miden
los términos a y f?
17
b) La estimación de un modelo de efectos fijos, utilizando errores estándar robustos a la
heterocedasticidad y la autocorrelación, ofrece el siguiente resultado (se han omitido los
resultados de los coeficientes de ai y ft),
Comente los resultados explicando lo que significa cada uno de los coeficientes en
términos cuantitativos.
c) Con objeto de contrastar la significatividad de ai (también estimado en b) aunque no se
haya ofrecido el resultado), se estima una regresión que excluye ai resultando que el
coeficiente de determinación del nuevo modelo es R2 = 0.59.
Explique lo que significa este resultado en términos estadísticos y en términos prácticos.
d) En la ecuación estimada en el apartado c) resulta asimismo que el estimador de la
variable X1 registra ahora un valor de 1.34 con un error estándar de 0.234 mientras que
los coeficientes de las otras dos variables, apenas registran cambios. Explique cómo
interpreta este resultado.
Solución
a) Las ventajas son las propias de utilizar modelos de panel: nos permiten recoger el efecto de
variables omitidas que no cambian en el tiempo (parámetro ai), o el efecto del tiempo
(parámetro ft)
b) Los tres coeficientes tienen los signos esperados: más paro y mayor proporción de jóvenes,
implica un mayor índice de delitos, mientras que si aumenta la probabilidad de acabar
condenado, disminuyen los delitos por habitante. Sin embargo la tasa de paro no es
estadísticamente significativa.
Un aumento de un punto en la tasa de paro, hace que el índice de delitos crezca un
100·0.063=6,3%. Análogamente, si la proporción de jóvenes crece un punto, el índice de delitos
crece un 374%. Sin embargo en el caso de X3i, el coeficiente es directamente una elasticidad: si
la probabilidad de acabar condenado crece un 1%, el índice de delitos cae un 0.588%.
c) La drástica reducción del coeficiente de determinación significa que los efectos fijos son
significativos, lo que habría que contrastar formalmente con un test tipo F,
(0.904 - 0.59) / 41
F41,858 = = 68.45
(1 - 0.904) / (924 - 66)
Al ser el valor del estadístico mayor que el valor crítico a cualquier nivel de significatividad
razonable, se rechazaría la hipótesis nula (que los efectos fijos individuales son conjuntamente
nulos).
d) Quiere decir que en un modelo de datos fusionados, el paro sería significativo pero, dada
conclusión obtenida en c), ello sería un resultado espurio en el sentido de que se habría
obtenido como resultado de excluir variables relevantes de la regresión.
18
10. Para estudiar los determinantes de que la población lea periódicos serios o se incline
más por la lectura de diarios sensacionalistas, se dispone de una muestra de 50
individuos con las variables,
S, años de educación
E, edad del lector
R, el salario hora del lector
La variable dependiente Y, es una dummy que toma el valor 1 si el individuo lee periódicos
serios y 0 si lee periódicos sensacionalistas.
-1
Pr(Yi = 1) = éë1 + exp[- ( -3.05 + 0.569 Si + 0.022 Ei + 0.052 Ri )]ùû
(1.05) (0.186) (0.032) (0.027) (2)
n = 50 pseudo R 2 = 0.31, log verosimilitud = -23.33
-1
Pr(Yi = 1) = éë1 + exp[- ( -0.65 )]ùû
(0.15) (3)
n = 50 log verosimilitud = -34.65
Se pide,
a) Explique el significado de los modelos (1) y (2) y sus principales diferencias ¿Eliminaría
alguna variable?
b) A juzgar por los valores de los diferentes estimadores en los modelos (1) y (2), ¿diría
que la influencia de las variables explicativas en la probabilidad de éxito es muy
diferente según el modelo empleado? Justifique su respuesta.
c) Utilizando los resultados del modelo (1) ¿en cuánto aumenta la probabilidad de éxito
un año más de educación? ¿Y si hubiese empleado el modelo (2)?
d) Utilizando de nuevo los dos primeros modelos, calcule la probabilidad de que un
individuo de 30 años, con 10 años de educación y una renta de 15 €/hora, lea un diario
serio. ¿Y si el salario fuese de 5€ hora?
e) Contraste la significatividad global de ambos modelos
19
Solución
b) Los signos son los mismos, es decir educación, edad y renta, influyen positivamente a
favor de la lectura de periódicos “serios” en ambos modelos. La magnitud sí parece
diferente, incluso aplicando la regla de la nota a pie de página 5 (p. 371 Primera Edición)
…
c) En el modelo (1) aumentará en lo que indica su coeficiente, es decir 0.104, sin embargo
en el modelo (2) no se puede saber sin conocer los valores del resto de las variables ya
que al ser un modelo no lineal, ello influye en el resultado final.
0.379 / 3
F3,46 = = 9.358
(1 - 0.379) / 46
Mayor que el valor crítico en tablas al 5%, por lo que el modelo es globalmente
significativo a ese nivel (también lo es al 1%, pero no se dispone de ese dato en el
examen).
L = 2[-23.33-(-34.65)] = 22.64
Que se distribuye como una c2 con 3 g.l. El valor crítico en tablas al 1%, es 11.3, por
lo que el modelo es globalmente significativo a ese nivel.
11. Para estudiar si la pena de muerte tiene un efecto disuasorio sobre la criminalidad en USA, se
dispone de datos sobre la tasa de asesinatos por cada 100000 habitantes (mrdrte), el
número de ejecuciones de la pena máxima (exec) y la tasa de paro (unem), todos ellos
separados por estados (51 en total) y correspondientes a los años 1988, 1990 y 1993.
20
mrdrteit = ai + qt + b1exec1it + b2unem2it + e it
a) Diga de qué modelo se trata indicando lo que mide cada uno de los parámetros
b) ¿Cuál debería ser el signo esperado de b1 si se pretende justificar el empleo de la pena de
muerte? ¿Y el signo de b2?
c) La estimación por MCO fusionados empleado solo los años 1990 y 1993 y una dummy
temporal para 1993, arroja el siguiente resultado (errores estándar entre paréntesis),
ˆ
mrdrte = -5.28 + 0.13execit + 2.53b 2unemit - 2.07 D93t , n = 102, R 2 = 0.10
it
¿Considera que la pena de muerte tiene algún efecto sobre el índice de criminalidad?
¿Considera que dicho índice se está reduciendo? Justifique sus respuestas
d) El resultado de la estimación del mismo modelo en diferencias proporciona,
Solución
21
b) En principio el signo esperado debería ser negativo: más ejecuciones de la pena máxima,
menor índice de criminalidad. El paro sin embargo debería tener a priori una influencia
positiva: más paro más criminalidad.
c) No: el coeficiente correspondiente a las ejecuciones no es significativamente distinto de cero,
de manera que no habría evidencia en este sentido. Por otra parte, aunque la dummy temporal
es negativa, lo que en principio podría indicar una disminución de la tasa de criminalidad,
tampoco es distinta de cero, por lo que no se estaría reduciendo el índice.
d) Ahora las ejecuciones sí son significativas (no el desempleo). La diferencia fundamental está
en que el modelo en diferencias recoge la influencia de la heterogeneidad no observada.
e) (i) Para el modelo de efectos fijos, el ratio t arroja un valor de -0.14/0.08 = -1.75. En un
contraste unilateral (H1: b1 <0), el valor crítico al 5% es aproximadamente -1.67, por lo que la
variable exec es estadísticamente significativa.
(ii) El estadístico de contraste tendrá en este caso una distribución Chi cuadrada con 2 g.l. El
valor crítico en tablas al 5% es 5.99. Como el estadístico empírico arroja un valor menor, no
se rechaza la hipótesis nula, es decir es preferible el modelo de efectos aleatorios.
12. En los siguientes gráficos y tablas se ofrece información sobre la cotización diaria de dos
criptomonedas, bitcoin (BTC) y ethereum (ETH), ambas en logaritmos, en los años 2016 y 2017
(730 observaciones),
LBTC LETH
10 7
6
9
5
8 4
7
2
1
6
0
5 -1
I II III IV I II III IV I II III IV I II III IV
2016 2017 2016 2017
Se han calculado las siguientes regresiones, donde t es el tiempo y ut los residuos de la regresión de
cointegración entre BTC y ETH,
22
ˆ = 0.015 - 0.0055ln ETH + 0.000035t
D ln ETH t t -1
Indique claramente en cada caso las hipótesis nula y alternativa así como el nivel de significatividad
empleado, el resultado numérico del estadístico de contraste y la conclusión final.
DBTC DETH
u FAT FAP FAT FAP
1 0.024 0.024 0.035 0.035
2 -0.029 -0.030 0.010 0.009
3 -0.010 -0.009 0.060 0.059
4 -0.022 -0.022 -0.001 -0.005
5 0.008 0.009 -0.024 -0.025
6 0.037 0.035 -0.005 -0.007
7 -0.026 -0.027 0.002 0.004
8 0.011 0.014 0.016 0.019
9 0.006 0.004 0.010 0.010
10 0.024 0.025 0.011 0.009
11 0.038 0.036 0.043 0.040
12 0.037 0.037 0.035 0.031
13 -0.028 -0.025 0.014 0.011
14 -0.013 -0.010 0.025 0.020
15 0.019 0.020 0.065 0.061
16 0.021 0.018 0.023 0.019
17 0.006 0.003 0.073 0.071
18 0.020 0.020 -0.013 -0.024
19 0.062 0.066 0.101 0.101
20 0.023 0.019 0.058 0.047
i. ¿Cuál puede haber sido el proceso generador de las series ln(BTC) y ln(ETH)?
ii. Si el valor del bitcoin para la última observación de la muestra fue de ln(pt)=9.56 €, ¿cuál es la
mejor predicción para el primer día de 2018?
Solución
23
a) Los gráficos de las series no dejan lugar a dudas: ninguna de las dos series originales, es
estacionaria. Por otra parte la primera diferencian de las series muestra un correlograma que
se corresponde con un proceso de ruido blanco
b) Los contrastes pedidos serían,
(i) H0: d = 0, H1: d < 0.
El estadístico de contraste para el bitcoin arroja un resultado de -0.0048/0.0042=-1.14 y
en el caso del ethereum, -0.0055/0.0036=-1.53. El valor crítico en tablas para un nivel
de significatividad del 5%, es -3.41. Por tanto la hipótesis nula no puede ser rechazada,
concluyendo que ambas series tienen una raíz unitaria.
(ii) A juzgar por el ratio t la serie BTC parece tener una tendencia creciente pero hay que ser
precavido pues desconocemos la distribución de dicho ratio.
(iii) La cointegración implicaría que la serie de los residuos ut es estacionaria. Llevando a cabo
un contraste de raíz unitaria sobre la tercera ecuación, encontramos que -0.77/0.47 =
-1.64, y por tanto no se puede rechazar la hipótesis nula de raíz unitaria en ut: las series
no estarían cointegradas.
(i) Ambas series pueden haber sido generadas por un proceso de camino aleatorio,
dado que su diferencia es un proceso puramente aleatorio.
(ii) Si DYt = et, de acuerdo con el resultado anterior, se sigue que E(Yt+1|Yt) =Yt y por tanto
el valor esperado para (el logaritmo) de la cotización de bitcoin en enero de 2018
será precisamente 9.56 €.
24
4
INCIDENTES 2
0
40 50 60 70 80
TEMPERATURA
a) ¿Se observa alguna relación entre la temperatura y el número de fallos en las piezas
examinadas? Si ajustase una regresión lineal, ¿considera que la pendiente sería positiva o
negativa? ¿Sería significativamente distinta de cero? Señale qué tipo de problemas, aparte
del reducido tamaño muestral, presentaría un procedimiento como este
b) Analizando un mayor número de lanzamientos del transbordador, decide ajustar, con los
datos obtenidos, un modelo lineal de probabilidad, donde la variable Y toma el valor 1 si
hubo evidencia de algún fallo en las juntas toroidales y cero en caso contrario. Obtiene el
siguiente resultado,
Interprete esta estimación. ¿Considera que hay razones para utilizar los errores estándar
robustos? La temperatura, el día 28 de enero de 1986, cuando el Challenguer explotó a los
pocos segundos del despegue, era de 31 grados Fahrenheit. ¿Cuál es la predicción del
modelo para este valor? ¿Para qué temperaturas se obtiene pronósticos de cero (o menor)?
¿Y uno (o mayor)?
c) Para obviar los problemas del MLP, estima un logit, obteniendo,
25
¿Qué significado tiene en este modelo el coeficiente de pendiente? Calcule el efecto
esperado sobre la probabilidad de éxito de una caída de la temperatura de 80° a 70° y de 60°
a 50°. ¿Por qué no se obtiene el mismo resultado? ¿Cómo interpreta el valor del pseudo R2?
d) La estimación de un probit es,
¿Cree que estos resultados son coherentes con los del modelo logit? Calcule el efecto esperado
sobre la probabilidad de éxito de una caída de la temperatura de 80° a 70° y de 60° a 50°
e) Calcule la variación de la probabilidad de éxito derivada de una caída de 80° a 40° empleando
los modelos logit y probit anteriores. Empleando este cálculo y los de los apartados c) y d)
anteriores, dibuje un gráfico aproximado que relacione la probabilidad de éxito en ordenadas,
con la temperatura en abscisas.
Solución
a) No parece observarse una relación clara entre ambas variables y el ajuste de una regresión
lineal no registraría una tendencia clara,
3
INCIDENTES
0
52 56 60 64 68 72 76
TEMP
Aparte del tamaño muestral, esta regresión tendría los problemas de la escasa variabilidad de
la variable incidentes o la hipotética existencia de variables omitidas.
26
Sí, estaría indicado emplear errores estándar robustos dado que en el MLP los errores son
heterocedásticos.
Pr(Y=1) =2.858-31*0.037=1.711
Para temperaturas mayores de 77.24 grados, la probabilidad de incidente sería menor que 0
y para temperaturas menores de 50.22, la probabilidad de éxito sería mayor que 1.
∑Y = 1| X = 50) = 1
Pr( = 0.9691
1 + exp(-3.447)
∑Y = 1| X = 60) = 1
Pr( = 0.7459
1 + exp(-1.077)
∑Y = 1 | X = 70) = 1
Pr( = 0.2153
1 + exp(1.293)
∑Y = 1 | X = 80) = 1
Pr( = 0.025
1 + exp(3.663)
d) Los resultados del probit son completamente coherentes con los del logit. El coeficiente es
negativo y aunque su magnitud no es directamente comparable, si aplicamos la corrección
aproximada, 0.137*1.6 =0.219, muy parecida a la del logit.
Los resultados para las respectivas probabilidades, son muy parecidos. Por ejemplo, para 50
y 60 grados,
27
∑Y = 1 | X = 50) = F(8.9 - 0.137 * 50) = F(2.05) = 1 - 0.0202 = 0.9798
Pr(
∑Y = 1 | X = 60) = F(8.9 - 0.137 * 60) = F(68) = 1 - 0.2483 = 0.7517
Pr(
1.0
0.8
Incidente
0.6
0.4
0.2
0.0
35 40 45 50 55 60 65 70 75 80 85
Temperatura
14. Para un conjunto de 162 granjeros dedicados a la producción de leche se dispone de datos,
correspondientes al periodo 1993-1998, de las siguientes variables,
Las tablas siguientes proporcionan la estimación de distintos modelos de panel, siendo log(Y) en
todos los casos la variable dependiente:
28
variable Coefficient Std. Error t-Statistics
C 6,976457 0,040584 171,9009
LOG(X1) 0,600228 0,023564 25,4915
LOG(X2) 0,020668 0,01412 1,463763
LOG(X3) 0,455605 0,013712 33,22704
R-squared (R2) 0,956152 Mean dep. var. 11,71364
Adjusted R-squared 0,956017 S.D. dep. var. 0,607083
S.E. of regression 0,127319 Sum squared resid 15,69139
F-statistics 7036,159 Durbin-Watson stat 0,573676
29
Solución
a) La variable tierra es invariante en el tiempo y por lo tanto no puede incluirse como una
variable explicativa adicional al estar su efecto recogido en el término de efecto fijo.
b) Por el motivo señalado en el modelo anterior, este contraste solo podría ser llevado a cabo
en el modelo de datos fusionados o en el de efectos aleatorios. En dichos modelos el ratio t
es 1.46 y 0.88, en ambos casos insuficiente para rechazar la hipótesis nula ni siquiera al 10%:
la variable no es estadísticamente significativa.
c) Una primera diferencia es que el ajuste mejora al pasar el valor de coeficiente de
determinación de 0.96 a 0.99. Ello implica que los efectos fijos son significativos (puede
comprobarse con un test F). Dado que el modelo de datos fusionados excluye estos efectos,
probablemente proporciona estimadores sesgados. En el caso de la variable X1 (número de
cabezas de ganado), el modelo de datos fusionados subestima el verdadero valor del
parámetro y en el caso del pienso, lo sobrestima.
El modelo de datos fusionados es más restricitivo ya que obliga a que la constante sea única
para todas las entidades, mientras que en el modelo EF se permite que esta varía. La forma
de contrastarlo es con el test F mencionado.
d) El este caso el modelo de efectos aleatorios es más restrictivo ya que impone que los efectos
fijos no estén correlacionados con las variables explicativas. Para contrastar cuál de los dos
es preferible podemos emplear el test de Hausman:
El problema en este caso, es que el modelo de efectos aleatorios incluye una variable
explicativa más, por lo que para llevar a cabo la comparación deberíamos estimar un modelo
EA con las mismas variables que el EF.
15. La figura muestra la evolución de los tipos de cambio diario euro/dólar y libra/dólar en los 5
años del periodo 2003-2007 (1826 observaciones),
30
1.0
0.9
0.8
0.7
0.6
0.5
0.4
I II III IV I II III IV I II III IV I II III IV I II III IV
2003 2004 2005 2006 2007
A la vista de los mismos indique el orden de integración de los dos tipos de cambio y si
ambos están cointegrados, explicando claramente en qué basa sus afirmaciones. En términos
prácticos, ¿qué implicaría el hecho de que los tipos de cambio estuvieran cointegrados?
e) Considere la estimación (errores estándar entre paréntesis),
∑
Deurot = 0.078 + 1.22Dlibrat - 0.02(eurot -1 - 1.399librat -1 )
(0.059) (0.026) (0.003)
(i) Valore la cointegración a partir del resultado anterior, señalando en su caso el vector
de cointegración y la velocidad de ajuste al equilibrio. En concreto, de acuerdo con la
estimación anterior ¿cuántos días tardaría en corregirse un hipotético desequilibrio?
(ii) Explique cómo debe interpretarse el coeficiente de Dlibrat.
31
Solución
a) Ninguna de las series es estacionaria dado que ambas tienen una clara tendencia decreciente
b) Aunque en teoría podríamos emplear la regresión Yt = a+bYt-1+ut para contrastar la hipótesis
nula H0: b =1 contra la alternativa H1: b < 1, el problema es que, bajo la hipótesis nula, la
regresión anterior es una regresión espuria. Por ello se recurre a procedimientos como el
contraste ADF (descripción en el manual). Dado el trazado de la serie, lo más apropiado sería
utilizar una ecuación con constante y sin tendencia.
c) Es un proceso AR(2). Para ver si es estacionario comprobamos si las raíces del polinomio de
retardos 1-1.05B+0.05B2, caen fuera del círculo unidad,
16. Para determinar la probabilidad de que una madre con hijos a cargo viva sola, se estiman los
dos siguientes modelos logit. Los datos corresponden a una muestra de 1960, con 6051
mujeres blancas (estimación 1) y 1294 no blancas (estimación 2),
32
(1) Blanco (2) No blanco
Regression model Logit Logit
Constante 1.459 –2.874
(0.685) (1.423)
Edad –0.275 0.084
(0.037) (0.068)
Edad al cuadrado 0.00463 0.00021
(0.00044) (0.00081)
Educación –0.171 –0.127
(0.026) (0.038)
Granjero –0.687 –0.498
(0.173) (0.346)
Sur 0.376 –0.520
(0.098) (0.180)
Renta familiar 0.0018 0.0011
(0.00019) (0.00024)
composición familiar 4.123 2.751
(0.294) (0.345)
Pseudo-R2 0.266 0.189
% predichos
82.0 83.4
correctamente
Log. verosimilitud -124.08 -127.31
R2 Mc Fadden 0.098
La variable dependiente toma el valor 1 si la madre vive sola. Edad son los años de edad, educación,
los años de educación, renta familiar es la renta medida en miles de dólares, composición familiar es
el número de miembros menores de 18 años dividido entre el total de miembros de la familia;
Granjero y sur son dummies que toman el valor 1 si la familia vive en una granja o vive en el sur,
respectivamente. Entre paréntesis figuran los errores estándar.
Se pide,
a) Interprete los resultados de la estimación. ¿Tienen los coeficientes los signos esperados?
¿Por qué piensa que se ha incluido la edad al cuadrado?
33
b) Calcular la diferencia en la probabilidad de éxito para blancos y no blancos empleando los
valores medios de las variables.
c) ¿Cuál sería el efecto en la probabilidad de éxito para una mujer no blanca, si los valores de
educación y composición familiar cambiaran de sus valores medios a los valores medios de
las mujeres blancas? (suponemos que el resto de las variables permanecen inalteradas en los
valores medios de las no blancas)
d) Explique cómo calcularía el R2 de Mc Fadden para la segunda regresión y, si es posible,
obtenga el valor de dicho estadístico.
Solución
a) Como sabemos, los coeficientes obtenidos en la estimación de los modelos logit no son
fáciles de interpretar más allá de su dirección en la que las variables explicativas actúan. No
puede decirse que haya una expectativa clara en relación con los signos esperados. Se
aprecian diferencias significativas en los dos grupos de mujeres, dado que solo la educación y
la composición familiar, influyen en la misma dirección en los dos grupos. El resto de las
variables muestran signos contrarios y/ o diferencias en cuanto a la magnitud y la
significatividad estadística.
b) Pr(Y=1|blancos)=0.9 y Pr(Y=1|negros)=0.88,
Blancos No blancos
cte 1.4590 1.0000 1.4590 -2.8740 1.0000 -2.874
edad -0.2750 46.1000 -12.6775 0.0840 42.9000 3.6036
2
edad 0.0046 2263.5000 10.4800 0.0002 1965.6000 0.412776
educ -0.1710 12.6000 -2.1546 -0.1270 10.4000 -1.3208
granjero -0.6870 0.0300 -0.0206 -0.4980 0.0200 -0.00996
sur 0.3760 0.3000 0.1128 -0.5200 0.5000 -0.26
renta 0.0018 2336.4000 4.2055 0.0011 1507.3000 1.65803
composición 4.1230 0.2000 0.8246 2.7510 0.3000 0.8253
2.2292 2.034946
0.1076 0.13068754
0.90284252 0.88441764
34
c) Ya hemos visto en el apartado anterior, que la probabilidad para una mujer negra es de 0.88
en los valores medios de los negros. Si la educación y la composición familiar cambiasen para
tomar los valores delos blancos, la nueva probabilidad no cambiaría mucho. El efecto
negativo debido a la educación se compensa con el positivo de la composición familiar,
-2.874 1 -2.874
0.084 42.9 3.6036
0.0002 1965.6 0.39312
-0.171 10.4 -1.7784
-0.498 0.02 -0.00996
-0.52 0.5 -0.26
0.0011 1507.3 1.65803
4.123 0.3 1.2369
1.96929
0.87753483
LNR
2
d) El estadístico responde a la expresión RMF = 1- . Para obtener L0 podemos emplear los
L0
datos de los blancos,
æ -124.08 ö
0.098 = 1 - ç ÷
è L0 ø
L æ -127.31 ö
2
De donde L0 = -137.56 y por tanto RMF = 1 - NR = 1 - ç ÷ = 0.0745
L0 è -137.56 ø
R 2 = 0.18
X e Y son ambas variables binarias que toman el valor 1 si el individuo dispone del
correspondiente plan de pensiones y 0 en caso contrario; renta es la renta del sujeto medida en
35
miles de euros y edad los años del individuo, que oscilan entre 25 y 64 años. Entre paréntesis
figuran los errores estándar y entre corchetes, los errores estándar robustos.
R 2 = 0.59
Explique detalladamente qué uso podría darse a Z y porqué. Explique también qué
significa esta segunda estimación.
R 2 = 0.17
Compare este resultado con el anterior
Pseudo R 2 = 0.16
36
En particular, calcule, si es posible, el efecto de tener un plan gubernamental sobre la
probabilidad de suscribir un plan privado usando tanto el MLP como el modelo probit.
Solución
0.054
t= = 5.4
0.01
37