Está en la página 1de 20

NOTAS ECONOMETRÍA 2

Es útil después de mirar la correlación entre dos variables, observar el diagrama de dispersión para
concluir si algunas relaciones entre las variables son, por ejemplo, más bien cuadráticas en vez de
lineales, luego debo usar la variable explicativa al cuadrado. También es importante hacer la
estadística básica.

Letra universal para organizar texto de programación: Courier New


La idea de los criterios de información para decidir modelos es que el modelo con el menor criterio es
el que se elige, porque este valor significa la suma de los errores, luego, quiero el menor error.
Para comparar dos modelos por correlación estos deben ser rigurosamente parecidos.
Una prueba para los modelos es hacer pruebas de hipótesis para las variables a ver si sus betas son
significativos así y siempre así:
H 0 : β n=0

H 1 : βn ≠ 0

El estadístico de prueba es:

β^ n
t=
σ ^β
n

En Gretl el estadístico de prueba ya está dado cuando calculo el modelo (“Estadístico t”). Asimismo,
me ofrece el programa la probabilidad de que haya equivocación al rechazar la hipótesis nula, la cual
es que el beta real no es significativo o no hay evidencia de ello. Esta última probabilidad también la
da el modelo (“valor p”). La idea es que el valor P sea lo más pequeño posible, es decir, que sea menor
que el alfa que yo elijo (normalmente 5%, pero también puede ser otro menor), porque ello significa
que tengo pocas probabilidades de equivocarme al rechazar la hipótesis nula, luego acepto la hipótesis
alternativa, la cual dice que esa variable sí es significativa. Ahora bien, si el valor P es mayor que mi
alfa, yo NO rechazo la hipótesis nula porque ello significa que tengo muchas probabilidades de
equivocarme al decir que no es significativa beta.
En conclusión, sí el valor P es menor al alfa escogido (valor de significancia) rechazo la hipótesis
nula y me quedo con que sí es significativo el beta (hipótesis alternativa).
Y si el valor P es mayor al alfa, acepto la hipótesis nula y descarto la variable en estudio porque
tengo muchas probabilidades de equivocarme al elegir esa variable. Entonces aseguro que la
variable o más bien su beta real no es significativo para el modelo.
En Gretl entre más estrellitas o asteriscos tenga la variable del modelo más confiable es porque el P
valor es muy pequeño.
En Gretl
IMPORTANTE DE STATA:
 Las tres primeras letras de cada comando sirven también como apodo para
reemplazar el nombre completo del comando y se pueden poner en la ventana de
abajo. Por ejemplo Summarize=Sum
 Si yo le pongo “i.” antes que una variable cualitativa, esta me coloca
explícitamente en una regresión lineal cuales son los coeficientes o efectos de
cada categoría con respecto a una categoría de referencia. Por ejemplo, con la
variable “educación”, si uso “i.educación” me mostrará cual es el efecto de ser
bachiller con respecto a la educación básica, cual es el efecto de ser universitario
con respecto a la educación básica, etc.
 “Tab” es un apodo del comando para mostrar la tabla de frecuencias de un
conjunto de datos. Escribo en la ventana de comandos “Tab” y en frente el
nombre de la variable. Puedo poner dos variables si quiero cruzar sus resultados.
 “Gen” de “generate” sirve para crear una nueva variable.
 Con “ssc install bcuse” instalo muchas bases de datos
 Para hacer el test de homocedasticidad de breuch-pagan uso “hettest”
 Para hacer el test de homocedasticidad de White uso “imtest, white”. Solo con
“imtest” me dará otro resultado.
 La prevención de White para heterocedasticidad es ponerle al final de la
regresión “robust”
 export excel using "cami" para guardar archivos de Excel en la carpeta de stata
 la prueba de autocoreelación Durbin-Watson se calcula así: “estat dwatson”
 la prueba de autocoreelación Breuch- Godfrey se calcula así: “estat bgodfrey”
 Para hacerle entender a Stata que es una base de datos corresponde a una serie
de tiempo se usa el código “tsset (variable que explica el tiempo)”. Al frente de
“tsset” se pone por ejemplo la variable “Años”.
 Para crear una variable de tiempo utilizo “Gen t=_n”.
 Para crear una variable de diferencia en el tiempo (Xt - Xt-1) uso por ejemplo
para las variables “lpollo” y “lppollo”: “gen dlpollo=D.lpollo” y “gen
dlppollo=D.lppollo”. Este es el método de autocorrelación de diferencias o
variaciones de las variables.
 Para el método de Prais-Winsten: “prais lpollo ling lppollo”
 Para el método de Cochrane-Orcut: “prais lpollo ling lppollo, corc”
 Para el método de Newey-West: “newey lpollo ling lppollo, lag(1)”. Aquí debo
escoger el retardo o rezago de acuerdo a los datos.
 Este comando sirve para generar el error del último modelo ejecutado: “predict
error, resid”
 “drop” seguido de una variable sirve para borrarla
 “swilk error2” sirve para hacer el test de distribución normal, en este caso de los
errores llamados “error2”
 “kdensity error2, normal” sirve para graficar la distribución de una variable con
respecto a la distribución normal, en este caso para la variable “error2”
 “br” seguido de una variable sirve para mirar la variable
 “vif” es un comando que se pone después de correr la regresión, para tener pista
de la colinealidad con el factor de inflación de la varianza.
 “ovtest” sirve para hacer la Ramsey test de omisión de variable.
 “twoway (scatter error2 faminc)” para hacer gráficos de dispersión entre la
variable “error2” (eje Y) y “faminc” (eje X).
 “clear all” para borrar todo.
 “predict yhat, xb” sirve para que me de los valores de Y pronóstico (nombrado
como “yhat”). Este comando formará una nueva columna en la tabla de datos
(“br”) con los Y pronosticados.
 “blogit casosexitosos casosposibles X” es la manera de hacer una regresión para
el modelo Logit mediante el método de Máxima Verosimilitud. “casosexitosos” y
“casosposibles” hacen parte de la misma variable probabilidad luego, ambas
conforman la Y o variable dependiente; “X” corresponde a la variable
independiente. Esto se usa cuando quiero predecir la probabilidad de que ocurra
un evento.
 Cuando le pongo a las regresiones de “logit” al final “, or” me ofrece los odds del
modelo.
 Se utiliza el comando “estat classificatio” después de ejecutar una regresión logit
para saber que porcentaje de los datos fueron correctamente clasificados como 1
y 0.
 “mfx” para saber en el modelo logit como afecta directamente cada X a Y
 “margins, at (gpa=4 tuce=3 psi=0)” pendiente
 “cls” sirve para limpiar la consola
 “margins, atmeans” para saber los resúmenes de cada variable explicativa
 “, or” después de la regresión sirve para tener los odds
 En “tab x, nolabel” la parte “nolabel” sirve para quitarle las etiquetas a las
variables cualitativas y ver el numero que las representa: 0,1,2,3…
 “xtline Y” sirve para graficar Y
 “tsset empresa time” sirve para conocer información de datos panel donde
“empresa” son los individuos y “time” una variable de tiempo
 “xtreg Y X1 X2, fe” modelo de efectos fijos para Y que depende de X1 y X2.
 “i.X1#c.X2” sirve para introducir una interacción entre dos variables siendo X1
cualitativa y X2 continua. Se interpreta como que un aumento en una unidad de
X2 teniendo la característica de 1 (y no cero) para X1, como aumenta el Y.

La idea de las regresiones es que los estimadores (betas) cumplan con:


 Insesgadez: se parezcan lo más posible a los betas reales
 Eficiencia: la variabilidad es mínima
 Consistencia: a medida que aumentan las observaciones o datos de la muestra el estimador se
parece más al beta real
Colinealidad: que la relación entre las variables explicativas sea fuerte. Dos variables tienen
Colinealidad perfecta si son iguales. Stata por lo menos omite una de las variables. También se puede
definir como el caso en el que dos variables explicativas explican exactamente lo mismo de la variable
endógena o Y.
Cuando hay Colinealidad o multicolinealidad (muchas variables tienen linealidad) solo se
pueden eliminar variables cuando hay colinealidad perfecta o solo en algunos casos de
correlación muy fuerte porque arroja resultados sin ningún sentido. SIEMPRE hay
colinealidad, es utópico pensar que no exista.
Normalmente la colinealidad es producto de una falla del investigador que incluye variables
muy parecidas o que repiten mucha información. Otras veces es porque se tienen muchas
variables y que además sean binarias. Algunas veces cuando se tienen series de datos sucede
que, al evolucionar todas las variables de una manera similar, aparentan tener colinealidad.
MELI: Mejor Estimador Lineal Insesgada
ANALIZAR LA COLINEALIDAD:
o Un primer paso es mirar la matriz de correlación. Al ver que la correlación entre las
variables explicativas tienen mayor correlación que con la variable explicada, ya es un
aviso muy importante que podría decirme que podría eliminarse quizás esa variable.
o Otra prueba es mirar que tanto sentido tienen los coeficientes de sensibilidad o los
betas.
o Otra prueba es mirar si tienen sentido los valores P, pues estos a veces sugieren que hay
que rechazar una variable al decir que hay un valor P muy alto, es decir, que hay altas
probabilidades de caer en un error al calificar a la variable explicativa de que poco
explica la Y, cuando NO hay que rechazarla porque por teoría y por lógica debe ir en el
modelo.
o Por otro lado, si ninguna de mis variables es confiable y tengo un R^2 muy grande,
es signo de colinealidad.
o En Gretl, por ejemplo, dentro del modelo puedo mirar en el menú “Análisis” el indicador
de inflación de varianza que dice que tanto aumenta la varianza a causa de la
colinealidad entre las variables explicativas. Si el valor es mayor que 10 ya es una razón
para preocuparse.
o Hay que analizar las regresiones auxiliares que son regresiones de la variable explicada
con respecto a solo cada una de las explicativas por aparte. A veces en las regresiones
auxiliares las variables son confiables (valor P pequeño) mientras en la regresión
completa son poco confiables. Estas incongruencias pueden indicar colinealidad.

Ninguna de estas razones por sí solas es suficiente para decidir sí hay que replantear las
variables explicativas. Hay que mirar varias razones y es una decisión bastante subjetiva. Pues
no hay manera de hacer una prueba de hipótesis. Luego entonces tengo que evaluar los
criterios de evaluación con el de Akaike y el R-cuadrado (SOLO SE PUEDE COMPARAR
CUANDO LA VARIABLE DEPENDIENTE SEA EXACTAMENTE IGUAL).

Cuando tanto la variable explicada como la explicativa son logaritmos el coeficiente hallado será una
elasticidad, entonces se interpretará como un porcentaje. Por ejemplo, si el beta me da 0.77 para X1,
yo digo un cambio del 1% de X1 genera un aumento del 0.77% en Y.
La incorrecta especificación se refiere a que no tengo las variables correctas o que no tienen una
base teórica.

Soluciones de colinealidad:
 Cuando hay problemas de colinealidad, una de las soluciones es hacer transformaciones. Una
por ejemplo es no usar directamente las variables sino las desviaciones de todas con respecto a
sus medias (centrar variables).
 También se pueden combinar variables creando nuevas variables. Hay otros métodos como el
de Análisis de Correspondencias Múltiples, el cual es para variables cualitativas.
 Otra solución es cambiar las variables si tengo varias que explican más o menos lo mismo o
eliminarlas.

HOMOCEDASTICIDAD Y HETEROCEDASTICIDAD:
 Cuando es heterocedástico es porque para un grupo de los datos, en sus errores hay una
dispersión pequeña mientras para otro grupo de datos hay una mayor dispersión. Por ejemplo
al comparar el consumo con el ingreso, para los pobres el consumo es más o menos igual
porque se tienen que gastar todo (lo poco que tienen), mientras para los ricos hay posibilidad
de decisión, algunos tienen la preferencia de gastar más y otros menos. Gráficamente puede
mostrar un embudo los datos con heterocedasticidad.
 Cuando es homocedástica la distribución es porque de manera uniforme todos los datos tienen
errores con una misma dispersión.

o Ahora bien, la heterocedasticidad suele tener como causa la heterogeneidad de la


muestra. También se ve afectado por datos atípicos (u outliers).
o Otra causa de la heterocedasticidad es la incorrecta especificación del modelo. Es decir,
cuando yo incluyo en el error una variable que debería estar incluida explícitamente en
el modelo, puede que esa varianza de la variable quede contenida en el error, agravando
la variabilidad de esta última, haciendo que haya heterocedasticidad.
o Una causa de la heterocedasticidad puede ser también que mientras se recogen los datos
a medida que se avanza se adquiere mayor experiencia y se disminuye la varianza.
o Los problemas de heterocedasticidad son más frecuentes en los datos de corte
transversal. También son frecuentes en las series de tiempo MUY VOLÁTILES. Los
datos que hay que medirlos muy seguido, pueden ser muy volátiles.
Cuando se dice que el modelo es MELI, la M de mejor se refiere a que tiene poca varianza. Pero si hay
heterocedasticidad es porque la varianza es alta, luego ya no es MELI el modelo.

 Para captar la heterocedasticidad gráficamente, cruzo los errores al cuadrado con cualquier
variable menos la dependiente, por ejemplo con el valor pronosticado o con cualquier otra
variable explicativa. Observo entonces si hay una tendencia o no, si no la hay, si hay una
pendiente cero, entonces hay homocedasticidad, de lo contrario es heterocedástico.
 La idea es entonces que la varianza de los errores no tenga ninguna relación con ninguna de las
variables. Puedo por ejemplo primero mirar sí hay relación entre la varianza con el Y
pronóstico (tendencia o correlación), si la hay, entonces analizo con cada una de las variables
explicativas, para ver cuál de ellas es la que muestra relación con la varianza (tendencia),
también haciendo una regresión entre la varianza y las variables explicativas, pero si no me da
coeficientes significativos con ninguna variable, significa que hay homocedasticidad pues los
errores tienen la misma dispersión.
 Todos los test usan como hipótesis nula que los residuos son homocedásticos. Luego entonces
si el P-valor es pequeño rechazo la hipótesis nula y digo que hay heterocedasticidad.
 IMPORTANTE: EL TEST DE BREUCH-PAGAN REQUIERE QUE LOS ERRORES
TENGAN NORMALIDAD, ES DECIR, TENGAN UNA DISTRIBUCIÓN NORMAL,
EN CAMBIO CON EL TEST DE WHITE NO IMPORTA. Para saber si hay una
distribución normal miro un test de distribución con la hipótesis nula de que si hay normalidad
y la hipótesis alternativa de que NO hay una distribución normal. Entonces si el P-valor es
mayor al 5% no puedo rechazar la hipótesis nula y entonces sí hay una distribución normal y
puedo usar breuch-pagan además de White.
 Para prevenir heterocedasticidad cuando hago la regresión incluyo la prevención
de White.
o HETEROCEDASTICIDAD: LA VARIANZA DE LOS ESTIMADORES NO ES LA
MÍNIMA.
LEER CAPÍTULO 11 DE GUJARATI.

 SIEMPRE QUE VOY A USAR VARIABLES CUALITATIVAS DEBO HACERLES UN PROCESO


ESPECIAL AL MENOS EN STATA Y GRETL.

Autocorrelación:
 La idea es que no haya autocorrelación.
 La autocorrelación es la correlación de un residuo con otro a través del tiempo. Por ello, este
supuesto es solo para SERIES DE TIEMPO.
 Se espera entonces que la covarianza del producto de los errores del modelo en el tiempo t y en
el tiempo t-1 sea cero.
 Entre las causas puede estar un sesgo o problema de especificación (se omitieron variables
importantes). Por ejemplo, incluir una variable explicativa regazada (en un tiempo t-n) o la
misma variable dependiente rezagada.
 Otra causa muy importante es la incercia de los datos o dependencia de los datos históricos.
Ella genera no estacionariedad, lo cual significa que la media, la varianza y la covarianza en
los primeros momentos de la variable cambia con el tiempo.
 Otro problema surge cuando de manera inadecuada de tratan de manipular la variable para
completar los datos ausentes.
 Una manera de ver si hay autocorrelación es que en la gráfica de los errores en el tiempo t con
respecto a los errores del tiempo t-1 haya una tendencia o relación que salta a la vista, no
necesariamente lineal, cualquier relación.
 Asimismo no puede haber relación o tendencia alguna en la gráfica de los errores contra el
tiempo.
 La correlación entre los errores a través del tiempo solo se mueve entre -1, 0 y 1. −1 ≤ ρ≤ 1
 Los test que se hacen son el de Durbin Watson y el de Breuch-Godfrey. Allí la hipótesis nula
es que NO hay autocorrelación. Es decir, lo bueno es que sea alto el valor-p para no rechazar
H0. Lo que analizan los test es que en la ecuación de regresión entre los errores en el tiempo:
U t =ρ U t −1+ ε t el coeficiente ρ sea cero. ρ solo puede estar entre -1, 0 y 1.
 Específicamente en el test de D-W cuando el valor de Durbin-Watson me da
cercana a 2 significa que no hay autocorrelación.
 Para que el modelo Durbin-Watson sirva debe haber un intercepto, solo sirve con un modelo
AR (1) y no puede incluir en el modelo la variable dependiente rezagada como explicativa.
 El test de Breuch-Godfrey permite usar AR (p), no solo AR (1) y permite incluir como
explicativa la variable dependiente. Permite usar modelo más complejos.
 Cuando se concluye AR (1) se habla de que hay autocorrelación con la variable rezagada solo en
uno de los periodos anteriores.
 Una de las posibles consecuencias de la autocorrelación es que los modelos sean espurios, es
decir, que tengan un R cuadrado inflado o mentiroso.
 Cuando el Durbin-Watson está por debajo de 2 significa que hay una correlación negativa y
cuando está por arriba es porque la correlación es positiva.

 En Gretl automáticamente se detecta que tengo series de tiempo, en contrastes voy al teste de
Breuch-Pagan.
SOLUCIONES PARA LA AUTOCORRELACIÓN
o La primera solución es incluir en el modelo la variable de tiempo.
o Otra solución es mirar el cambio de una variable en vez de la variable original (con
respecto al tiempo t-1). Entonces pongo la variación de la variable como explicativa y la
variación de la variable dependiente. Entonces comparo solo diferencias o variaciones
con respecto a más variaciones o diferencias. Aquí se pierden muchos datos.
o Para la tercera solución, se usa el modelo de cuasidiferencia:
 Aquí hay tres posibilidades: 1) el Cochrane-Orcut, en el que se pierden varios
datos, 2) el Prais-Winsten, en el que pierden menos datos. Este último es el mejor
método.
o Otra manera es reestimar las variaciones estándar, es decir, robustecerlas. Para ello hay
que usar un tamaño de muestra grande. En Gretl se coloca en la regresión un chulito en
la opción Desviaciones típicas robustas. Este método es el de Newey-West.

La correlación es una medida de relación lineal.


Cuando hay datos faltantes hay que aplicar a veces métodos de imputación de datos.
SUPUESTOS DE LOS ERRORES DE CUALQIER MODELO REGRESIVO:
1) Media cero
2) varianza constante y
3) los errores son independientes unos de otros.
Cuando estos supuestos son así se habla de error tipo ruido blanco.

MUY, SUPREMA, ESPECTACULAR, CONSIDERABLE, ESPECIAL,


SIGNIFICATIVAMENTE, IMPORTANTE:
 SÍ LA PRUEBAS DE HIPÓTESIS DE QUE LA VARIABLE EXPICATIVA ES
SIGNIFICTIVA DICE QUE SE RECHAZA LA PRUEBA DE HIPÓTESIS, ES
DECIR, SI ES SIGNIFICATIVA LA VARIABLE, Y LAS PRUEBAS DE HIPÓTESIS
DE LOS SUPUESTOS DE QUE ES UN BUEN MODELO (AUTOCORELACIÓN,
HOMOCEDASTICIDAD, BAJA COLINEALIDAD, ETC) ENTONCES SE DICE
QUE SÍ HAY RELACIÓN ENTRE LAS VARIABLES EXPLICADA Y
EXPLICATIVA Y PUNTO, INDEPENDIENTEMENTE DEL R-CUADRADO.
 Lo que analiza el modelo clásico de regresión lineal, es el promedio de una
variable dependiente con respecto a variable explicativas.
MODELOS DE REGRESIÓN DE
RESPUESTA LIMITADA
Primer caso: variable de respuesta cualitativa dicotómica
Cuando la variable dependiente es cualitativa, especialmente dicotómica no se puede usar modelos
clásicos de regresión lineal. En estas regresiones para cualitativas se espera predecir la
probabilidad de que sea una respuesta o la otra, por ejemplo, de que vote o no.
Ejemplo: de variable cualitativa dependiente
 Trabajar
 No trabajar
Este ejemplo tiene como explicativas:

o El salario de reserva es el que espera recibir

También se pueden analizar también categorías que combinan variables cualitativas. Por ejemplo que
prefiera tanto queso como pan, solo queso y no pan, solo pan y no queso o ninguno de las dos.
Lo que se usa entonces es el Modelo de Regresión Probabilístico. Puede ser de varios tipos:

1. Modelo de regresión probabilístico lineal (MPL)


Este modelo es muy simple y no es muy utilizado. Es el mismo modelo clásico de regresión lineal, lo
único que cambia es la interpretación. Entonces no se debería usar este modelo.

Analiza la esperanza condicional de Y o probabilidad de –Y– que suceda un evento o el otro –éxito o
fracaso– como una función lineal de las variables explicativas. Así que para E=esperanza condicional:

Para ello necesito establecer las probabilidades de éxito y fracaso o de que ocurra o no el evento,
siguiendo la distribución de probabilidad de Bernoulli:
Probabilidad de éxito(Y i=1)=P

Probabilidad de fracaso (Y i=0)=1−P

IMPORTANTE
 Como el Y pronóstico es una probabilidad, una condición de este modelo es que 0 ≤ Y^ ≤ 1
PROBLEMAS CON ESTE MODELO
 Los residuos también siguen una distribución de Bernoulli, mas no normal.
o Los errores solo pueden ser:

 La varianza de los errores no es constante, por tanto son heterocedásticos.


 El R cuadrado no es adecuado, entonces hay que reemplazarlo por otros índices similares como
el coeficiente entre la cantidad de estimaciones correctas sobre el total de estimaciones que
debía hacer.
 A veces el valor de probabilidad P puede caer por fuera del intervalo desde 0 hasta 1. Para este
problema realmente no hay una solución, hay que cambiar el modelo.
Para este modelo, el beta mide el cambio en la probabilidad de Y con respecto al cambio en X.
Así pues:

Para saber la varianza de un beta estimado (los betas estimados tienen varianza porque
corresponden teóricamente a una de los tantos betas que se pueden estimar para cada una de las
diferentes muestras posibles)
Varianza de Y/suma de los cuadrados de las desviaciones estándar de la variable X
En reemplazo del modelo MPL, el cual tiene demasiados problemas están los modelos LOGIT Y
PROBIT. Ambos modelos tienen la restricción de que Y o la imagen de X siempre estará entre 0 y 1 y
tiene una forma en la que los valores se acumulan alrededor de valores determinados de X como lo
son o y 1:
2. Modelo Logit (logístico)
Parte también de la ecuación básica de que la probabilidad Y es igual a una función de X más un
error U.
Y =F ( X ) +U
1
P= p ( Y =1∨X )= −( B1 +B2 X )
1+ e
Z=B 1+ B2 X

1 Z
−Z
∗e
1+e
P= p ( Y =1∨X )= Z
e
Z
e
P= p ( Y =1∨X )= Z
e +1
Ahora bien, para la probabilidad de no tener éxito, es decir, que no sea 1 sino 0, o sea la
probabilidad de 1-p:
Z
e
1−P= p (Y =0∨X )=1− Z
e +1
1
1−P= p (Y =0∨X )= Z
e +1
Ahora bien, un método para hallar una ecuación lineal es usando la razón entre la probabilidad de
éxito y de no éxito:
Z Z
e e
Z Z
P e +1 e +1 z
= = =e
1−P 1 1
Z Z
e +1 e +1
P z
=e
1−P

ln ( 1−P
P
)=ln ( e )
z

ln (
1−P )
P
=Z

ln (
1−P )
P
=B + B X=L=Logit
1 2

L=B1 + B2 X+ U

En Stata me calcula la regresión de este modelo con el comando blogit (para máxima verosimilitud) y
glogit (para MCO). Para blogit la variable dependiente no puedo expresarla directamente como un
solo valor, puesto que la variable dependiente al ser una probabilidad consiste en una razón entre los
casos favorables sobre posibles para edad categoría o grupo. Así pues, en Stata para expresar la
variable dependiente debo poner la variable casos posibles (n) seguida de la variable casos probables
(N) o el total de los datos en cada grupo determinado. Ambas variables se deben haber tomado de la
muestra.
Ejemplificando y siendo “casos” el número de muestras con síntomas de la enfermedad H, “mineros”
el total de muestras analizadas y “exp” los años que llevan trabajando los mineros, quedaría entonces
así la regresión en Stata:
blogit casos mineros exp
nota: los coeficientes originales de Logit no me expresan la magnitud en que
afecta las X a la Y.
- Para interpretar los coeficientes β de la ecuación L o ln ( 1−P
P
) debo tomar en cuenta los
antilogaritmos u odds (e β ), restarle uno (si da negativo no está mal, sino que afecta
negativamente la variable) y multiplicarlo por 100 para saber el porcentaje en el que la X que
acompaña al β que estamos analizando afecta a Y (variable dependiente), por ejemplo:
Y =−0.05+0.087 X +U
0.087
e =1.1
1.1−1=0.1
0.1∗100=10 %
Entonces X afecta en un 10% a Y

Odds: es el antilogaritmo de los coeficientes hallados con la regresión Logit.


 Para saber los odds utilizo el comando “, or” al final del comando de la regresión Logit.
Cuando el antilogaritmo da un número tan grande se suele decir que la X o variable
independiente aumenta en odd veces la variable dependiente. Suponiendo que beta es 3.5
y Euler elevado a 3.5 es igual a 33. Se dice que el aumento en una unidad de la variable X
conduce a un aumento de Y en 33 veces.

Ahora bien, para los casos en los que tenemos una variable que determinamos como dependiente (Y),
la cual solo está conformada por valores de 0 y 1, además de que cada dato no tiene casos posibles y
exitosos, se utiliza la función “logit”. Es decir, en los casos en que los datos no están agrupados.
 “estat classification” sirve para conocer la capacidad del modelo para asignar los individuos a
cada grupo.
Sensitividad: se refiere al porcentaje de aquellos datos de Y=1 que fueron correctamente
clasificados: se pronosticó que corresponden a uno.
Especificidad: se refiere al porcentaje de aquellos datos Y=0 que fueron correctamente clasificados:
se pronosticó que corresponden a cero.

 Es muy útil utilizar la opción “mfx” para conocer los coeficientes de cómo afecta directamente
cada X a Y.
 “margins, atmeans” sirve para saber el promedio de todas las variables

¿Como interpretar los coeficientes de la regresión?


Al utilizar “mfx” después de haber ejecutado la regresión Logit, obtengo la magnitud en que afecta el
cambio en una unidad de X (1 o 1%) a la variable Y. Sin embargo, no es el cambio en cualquier punto
del dominio de X, sino que se refiere al cambio en una unidad DESPUÉS del promedio de X. La
manera para hallar el promedio de todas las variables explicativas es mediante el comando “margins,
atmeans”; también se puede utilizar el comando “sum” para saber el promedio de cada variable por
separado.

Nota: si en una variable categórica, una de las categorías es significativa, la variable


completa sirve.
3. Probit
Ecuación:
2
−z
1
√2 π
∫ exp 2
dz

Entonces la ecuación de probabilidad, para y=1 y 0, quedaría tal que


2
−z
1
y=
√2 π
∫ exp 2
dz+U

¿Cómo interpretar loa resultados?


Para interpretar los coeficientes hay que evaluar un valor i cualquiera de la variable X en la ecuación
pronóstico, el resultado que me da es un Z, este lo miro en la tabla y finalmente lo multiplico por el
beta que estoy analizando para saber cuál es el efecto marginal de este o el coeficiente con el que,
efectivamente, la variable X afecta a Y. Este proceso es el que hace el comando “mfx” en Stata.
 Sin embargo, funciona muy similar al Logit.

Nota: hoy en día se utilizan ambos modelos (Logit y Probit) y el


que tenga mejor poder de clasificación es el modelo que se utiliza.

Segundo caso: variable cualitativa con cualidades


múltiples sin un orden
Se utilizan los modelos Probit o Logit multivariables.
1. Modelo Logit multivariante
Y =f ( x )+ U
Esta vez no se compara la posibilidad de éxito contra la de fracaso, sino cada una de las posibilidades
se analizan con respecto a una probabilidad de comparación. Si sumo todas las probabilidades con
respecto a la de comparación me debe dar 1:
P 1 P3 Pn
+ +…+ =1
P 2 P2 P2

Como lo que se analiza es la probabilidad de una cualidad con respecto a las otras, Stata nos arrojará
m−1 ecuaciones, siendo m el total de categorías.
En Stata se hace un modelo de Logit para multivariable con “mlogit”. Para elegir la
categoría base sobre la cual se compara uso “, baseoutcome (1)” en frente del comando
del modelo mlogit para elegir la categoría 1 como la base. También puedo ponerle “,
baseoutcome (3)” por ejemplo para que la categoría base sea 3.
Es muy útil comparar las probabilidades de que ocurra cada uno de los m eventos para diferentes
valores posibles de las variables explicativas en Stata así: margins, at (age=60 male=1 nonwhite=1)

Tercer caso: variables de respuesta cualitativa con


cualidades múltiples ordinales (con un orden)
En este caso no hay m ecuaciones sino una sola.

El “estat classification” lo que hace es que los valores pronosticados de las probabilidades (valores
entre 0 y 1) los clasifica como 0 o 1 dependiendo si están por debajo de 0,5 (para lo cual decide 0) o
iguales o mayores a 0,5 (para lo cual decide 1).
Comando en Stata: “ologit” y “oprobit”
Importante: se considera significativa una variable cuando el intervalo de confianza tiene ambos
extremos negativos o ambos positivos, en otras palabras, que el cero no está dentro del
intervalo.

- Al evaluar un valor de X en el modelo logit obtengo un z que despejo poniendo en el exponente


de Euler y restándole 1. Luego multiplico por cualquier beta esa probabilidad despejada y me
da el efecto marginal a partir de ese valor X.

Cuarto caso: variables con censura (dentro de un rango


limitado) o modelo tobit
Se refiere a los modelos que toman en cuenta bases de datos donde la medición tiene limites,
haciendo que los datos por fuera de un umbral no sean bien medidos, sino que sean registrados con el
umbral. Por ejemplo, hay un velocímetro que no mide más de 200 km/h, este va a determinar una
velocidad de 210 km/h como si fuera de 200 así como con cualquier otro valor por encima de 200.
Para estos casos sirve este modelo.
Este modelo es útil para evitar el sesgo que conlleva incluir el cero en algunas bases de datos.
El comando “tobit” y al final del modelo poner “, ll(n)” para un límite inferior n y “, lu(n)” para un
límite superior n. También pueden tener ambos limites: “, ll(n) lu(n)”.
IMPORTANTE: los coeficientes del modelo tobit se interpretan como en una regresión
lineal, es decir, son los mismos efectos marginales.
Efectos marginales de los modelos logit y probit

Es importante tener en cuenta que en el MLP el efecto marginal siempre será el mismo
para cada variación en una unidad de X. Mientras que en Logit y probit el efecto
marginal es un poco diferente para cada cambio en X porque no es lineal. Ahora bien,
en ambos casos, el efecto marginal sobre la probabilidad es un aumento en puntos
porcentuales, es decir que, con un cambio en X de una unidad, a Y se le sumará el
efecto, por ejemplo se le sumará 0.05 si ese es el efecto marginal promedio. la
diferencia es que en el caso de Logit el efecto marginal promedio se hace con el cambio
desde un valor de referencia, normalmente es el cambio en una unidad desde el
promedio de la variable X en análisis.
Datos panel
Análisis de mismos individuos en diferentes puntos del tiempo, es decir, a través del tiempo.
Allí siempre hay heterocedasticidad pero no siempre autocorrelación.
La idea es que las variables sean completamente exógenas, es decir, que no dependan de ninguna cosa
que esté dentro del modelo. Esto se le llama problema de endogeneidad. Con los datos panel no
ocurre este problema.
Un corte transversal es el conjunto de datos de todos los individuos para todas la covariables para el
periodo 1, otro corte transversal son todos estos datos para el periodo 2. De esta manera forman una
serie de datos de corte transversal. Estos son los datos panel.
Unos datos que no son panel pueden convertirse en datos panel.
Debe procurarse que los individuos en análisis sean iguales para cada periodo, si los individuos son
totalmente diferentes entonces no son datos panel. A veces la muestra puede cambiar porque los
individuos pueden ya no estar disponibles generando un sesgo de atrición, pero si la mayoría se
mantiene, siguen siendo datos panel.
Las encuestas longitudinales corresponden a datos panel.
En Colombia no hay una encuesta de datos panel, pues es costosa.
Los datos panel controlan la heterogeneidad de los datos así estén explícitos en el modelo o dentro del
error.
Los datos panel sirve para evaluar la evolución de variables como la pobreza y la duración de esa
evolución. También sirven para ver efectos de las medidas políticas ejecutadas.
La mayor desventaja es el alto costo.

 En los datos panel deben obligatoriamente la mayoría de los individuos deben permanecer en
la muestra a través del periodo de estudio. Por su parte, cuando los individuos no son los
mismos a través del tiempo se habla de datos pseudopanel.
Datos pseudopanel
Estos datos se analizan como una regresión normal. Sin embargo, estas bases tendrán más riqueza de
datos y menor dispersión. Por otro lado, en estas regresiones es muy útil incluir la variable tiempo
para ver el comportamiento de la variable dependiente a través del tiempo, además de que con
interacciones de la variable tiempo con otras covariables, se puede ver la evolución del efecto de cada
covariable en el tiempo sobre la variable explicada.

Modelo DID (difference in differences) para situaciones coyunturales


Sirve para analizar el resultado o el efecto de programas que buscan un cambio en cierta población
como políticas.
Por ejemplo, estoy interesado en saber el impacto sobre la productividad de los trabajadores de una
capacitación siendo 1 si asiste y 0 si no asiste a la capacitación. Siendo la productividad la variable que
se trata de explicar, una covariable sería el grupo (si asistió o no), otra covariable sería el antes y el
después llamada T (para ver el efecto a través del tiempo) y otra, la más importante, sería la
interacción entre grupo y T, la cual permite conocer el efecto de haber recibido o no la capacitación
también teniendo en cuenta el cambio en el tiempo. Se llama diferencia en diferencia el modelo,
porque la idea es restarle a la diferencia entre el promedio en la producción de quienes, si asistieron y
quienes no, la diferencia entre el promedio de la producción antes y después de la capacitación. Para
wa=productividad de quienes asistieron y wn=productividad de quienes no asistieron, así como
wo=productividad antes de la capacitación y w1=productividad después de la capacitación:
( Wa−Wn )−(W 0−W 1)

A los individuos que si asistieron también se les llama grupo de tratamiento mientras
que a quienes no disfrutan del programa se les llama también grupo de control.

Cuando se hacen los modelos DID hay que hacer uso de las tres covariables mencionadas. Una
relacionada con la situación coyuntural que supuestamente cambiará la dependiente, otra relacionada
con el tiempo o el antes y después y una de la interacción entre ambas, es decir, cual es el efecto, al
tiempo, de pertenecer a un grupo u otro y hacerlo antes o después de la situación coyuntural.
 Para que tenga sentido este modelo, tanto el grupo de tratamiento como el grupo de control
deben tener la misma tendencia a través del tiempo. En el ejemplo anterior ambos grupos
deben tender a aumentar a través del tiempo independientemente de la capacitación, entonces
lo que se analiza es si la variación de la variable independiente es un poco más brusca en
determinado periodo a causa de la situación coyuntural.
 IMPORTANTE: si la covariable de interacción no es significativa, entonces se
concluye que la situación coyuntural no tuvo un efecto significativo sobre la
variación a través del tiempo de la variable significativa.

Modelos para datos panel en general


Solucionan el problema de heterogeneidad individual no observable, es decir, las variables
explicativas que no puedo medir. Estas variables que no puedo medir no cambian en el tiempo. Y el
efecto del tiempo no cambia entre individuos.
Para resolver el problema la mejor alternativa es demostrar que las variables que no puedo medir no
se relacionan con las covariables o que son aleatorios.

Otra alternativa es mirar la diferencia entre un periodo y otro, porque como el termino de error no
cambia con el tiempo, se elimina. El problema es que las variables que sí podemos medir y son
constantes en el tiempo también se eliminan. Este modelo se usa cuando los datos nos ofrecen el
cambio en el tiempo de las variables y permite ver el cambio en las variables para dos periodos:
Sin embargo, es mucho mejor usar los modelos de efectos fijos y aleatorios

Modelo de efectos fijos


Y ¿ = ( α + μi ) + β X ¿ + v ¿

Aquí, se reconoce que la correlación entre μi y X ¿ es diferente de cero.

Lo que se hace es calcular al promedio de cada individuo a través del tiempo. Como μi es el mismo a
través del tiempo, el promedio va a ser el mismo μi :
Y i . =μi + β X i. +v i .

Finalmente, resto la ecuación de los promedios de la original:


Y ¿ = ( α + μi ) + β X ¿ + v ¿

−Y i . =μi + β X i . +v i .

−−−−−−−−−−−−−−¿
Y ¿ −Y i . =α + β ( X ¿ −X i . )+(v ¿ −v i . )

Se analiza en este modelo (Y ¿ −Y i .) la relación entre el valor que toma el individuo en cada periodo a
través del tiempo con respecto al promedio de este mismo individuo en el tiempo. Por ejemplo, cual
fue el crecimiento en cada año de un país con respecto a cual fue el crecimiento en promedio de todo
el periodo estudiado.
Al modelo de efectos fijos se le llama “within” porque se trata de la relación de los individuos entre sí,
y no la relación con el tiempo. Arroja resultados eficientes incluso habiendo relación entre el termino
μi (heterogeneidad no observable) y las covariables.

*es importante resaltar que μn siempre ha estado dentro del error,


pero ahora se saca del error porque se puede eliminar ese
problema.
*también se resalta que el modelo de efectos fijos parte del
supuesto de que la heterogeneidad no observable incluye
variables que son CONSTANTES en el tiempo.
Después de hacer el modelo de efectos fijos se puede hacer una prueba de hipótesis de si hay
diferencias entre los individuos no observables (H1) o si no son significativas (H0). Habiendo un P
valor pequeño, el cual está dado en Stata en el modelo de efectos fijos, se rechaza la hipótesis nula y se
considera que si hay diferencias considerables entre las variables no observables de los individuos, de
tal manera que los datos no fueron tomados de manera totalmente aleatoria, luego, si vale la pena
usar el modelo de efectos fijos.
Se hace una prueba de Chow, la cual utiliza el valor estandarizado F.
En Stata para hacer un modelo de efectos fijos primero hay que usar el comando “tsset empresa time”
por ejemplo, para decirle a Stata que son datos panel: que la variable que identifica a los individuos
(empresa) va a través del tiempo (time).
Ahora bien, para hacer la regresión se usa “xtreg” en vez de solo “reg” y al final se le agrega “, fe” para
decirle que es de efectos fijos.

 Para Stata “u” es μ y “e” es v.


Correlaciones intercalases:
2
σ μ
Rho= 2 2
σ μ +σ v

Sirve para conocer que tanta importancia tiene la heterogeneidad no observable con respecto a todo el
error: la suma de la heterogeneidad y el término de error idiosincrático.
Efectivamente, en Stata, cuando las variables no cambian en el tiempo para datos panel, se eliminan o
se omiten en las regresiones, porque va a haber colinealidad de la variable en el tiempo con el
promedio de sí misma.

Modelo de efectos fijos con dicotómicas


a

También podría gustarte