Documentos de Académico
Documentos de Profesional
Documentos de Cultura
¿Qué determinó que un cliente comprara o no un cierto producto? ¿Qué hizo que
una empresa quebrara? ¿Fue útil el medicamento para curar una enfermedad? ¿Por qué
volvió cometer un delito el delincuente? Este tipo de preguntas se abordan con métodos
de variable dependiente categorial.
Si β̂2 < 0 significa que a mayor edad menor es la probabilidad de que compra= 1.
Esta información podría orientar al supermercado respecto al tipo de publicidad que
podría realizar y ganar compradores en el segmento etario superior, por ejemplo.
Si utilizamos MCO para estimar esta regresión estaremos utilizando el llamado
modelo de probabilidad lineal (MPL). Su nombre deriva de que ŷ = E[y|X] = X β̂ .
\ = 1,25 − 60 1
Esto implica que, por ejemplo, si estimamos compra × edad, entonces
1
para una persona de 30 años de edad se tiene compra = 1,25 − 60 × 30 = 0,75.
\
¿Qué significa ŷ = E[y|x = 30] = 0,75? Significa que 3 de cada 4 personas con 30
años compran el producto (y = 1) y 1 de cada 4 no lo compra (y = 0), ya que, por
ejemplo E[y|x = 30] = 1+1+1+0
4 = 0,75. Así, en general,
Es decir, cada pendiente estimada nos indica cuál es el efecto marginal sobre la
probabilidad de que la variable dependiente tome el valor uno. En nuestro ejemplo, cada
1
año de vida disminuye la probabilidad de comprar el producto en 60 × 100 %.
En nuestro ejemplo, ¿cuál es entonces la probabilidad de compra para una persona
de 90 años? ¡Menos que cero es la respuesta! ¿Y cuál es la probabilidad de que una niña
de 6 años compre el producto? ¡Más de uno! Como vemos, el modelo de probabilidad
tiene claramente una debilidad, puesto que fácilmente se obtienen resultados absurdos
con probabilidades negativas o mayores que uno para valores dados de X 0 .
¿De qué manera puede solucionarse el problema? Un forma de hacerlo es estimar
una especificación no lineal que acote el rango de valores posibles de P a 0 ≤ P ≤ 1
para todo valor contenido en X.
¿Qué forma específica debe tomar la función F(·)? Las dos especificaciones más
comunes para F(Xβ + u) son la función de probabilidad logística y la función de
probabilidad normal, mediante las cuales se obtienen los modelos logit y probit res-
pectivamente.
Modelos logit y probit Corresponden a las siguientes especificaciones para F(·) en
(7.2):
1. Distribución logística −→ modelo logit
F(Xβ ) = Λ(z) = 1+e1 −z
2. Distribución normal −→ modelo probit
R z −u2 /2
F(Xβ ) = Φ(z) = √12π −∞ e du
1
P(y = 1|X) = F(Xβ ) = −Xβ
1+e
P(y = 1|X) F(Xβ )
ln = ln = Xβ
1 − P(y = 1|X) 1 − F(Xβ )
7.2 Estimación por máxima verosimilitud 3
y estimar mediante MCO. Sin embargo, los software econométricos suelen utilizar
el método máxima verosimilitud para estimar regresiones logísticas.
θB
f (y, X, θ)
θA
y1
x1 y3 y2
x3
x2 x
En términos generales (es decir, cualquiera sea el problema lineal o no lineal que
se quiera resolver), el estimador de máxima verosimilitud se obtiene a partir de tres pasos:
y∗i = Xi β + ui , E[ui ] = 0, ∀i = 1, . . . , n.
En nuestro ejemplo de compra = {1, 0} la variable latente podría ser el gusto por el
producto. Si el gusto es suficientemente alto (digamos superior al nivel arbitrario a = 0)
entonces el consumidor lo compra. Así, la variable observable yi se ve determinada por
1 si y∗i > 0
yi = , i = 1, . . . , n
0 si y∗i ≤ 0
Podríamos cambiar a = 0 por otro valor, pero esto no alteraría los resultados.
1. Primero hay que establecer una forma funcional para la densidad de probabilidad.
Siendo F(·) la función de probabilidad,
GRETL: |logit
La sintaxis para estimar modelos logit y probit es simple:
logit y const x1 x2 x3
probit y const x1 x2 x3
Predicho
0 1
Observado 0 437 14
1 127 23
La tabla 7.1 presenta los resultados de una regresión logística (un modelo logit).
La variable dependiente toma el valor uno si la persona fue infiel con su pareja durante
el último año, cero en caso contrario. Las variables exlicativas son la edad, el grado de
felicidad marital, el grado de religiosidad, el nivel de educación y el sexo. La primera
columna numérica presenta el valor de los coeficientes estimados (β̂ ). Recuerde que
ahora y = F(Xβ + u), por lo que ya no se cumple ∂∂Xŷi j = β̂ j , sino
∂ ŷ ∂ P̂[yi = 1]
= = f (Xi β )β j (7.5)
∂ Xi j ∂ Xi j
ser calculada sujeto a un valor particular de X. Los dos cálculos más comunes son
(i) calcular las medias de X y evaluar (7.5) o (ii) evaluar (7.5) en cada valor de X y
calcular el promedio. En la tabla, para una persona con un grado de religiosidad medio,
la probabilidad de haber sido infiel disminuye en 4,87 % si aumenta en uno el grado de
religiosidad.
Aunque no lo discutiremos en detalle acá, podemos mencionar que la desviación
estándar de estimadores de MV típicamente se calcula en base al Hessiano empírico,
una matriz relacionada con el gradiente de la función de log verosimilitud respecto de
los parámetros estimados.1
Esta se utiliza en la columna ‘z’de la tabla, donde se muestran los valores β̂ j /ŝ, cuya
interpretación es análoga a la del valor t presentado en el MCRL, con la diferencia
que la significancia asociada será la de la distribución normal estándar en lugar de la
distribución t.
Note que la tabla presenta el ‘R2 de McFadden’, también conocido como pseudo-R2 .
Su cálculo se basa en la función de log-verosimilitud:
1 Interesados en el cálculo exacto pueden consultar Heij et al., 1999, Econometric Theory and Methods.
Predicho
0 1
Observado 0 438 13
1 132 18
8 Capítulo 7. Categorías como variable dependiente
Si la regresión solo con una constante tiene la misma verosimilitud que la regresión
con todas sus variables explicativas, el pseudo R2 es cero, pero a medida que la regresión
con variables explicativas tiene mayor verosimilitud el pseudo R2 se acerca a su valor
máximo de uno.
Otra métrica de bondad de ajuste es porcentaje de casos ‘correctamente predichos’.
Como típicamente ŷ 6= 0, 1, el cálculo del porcentaje se trata tan solo de una aproxima-
ción: si ŷ ≥ 0,5 cuenta como uno, si ŷ < 0,5 cuenta como cero.
¿Qué cambia cuando estimamos un modelo probit en lugar de un logit? No mucho
en lo que respecta los resultados relevantes. En la tabla 7.2 se presentan los resultados de
la misma regresión. Los coeficientes de β̂ son notoriamente distintos, pero pendientes,
significancias y bondad de ajuste son muy similares.
yi = 1 si y∗i ≤ a1 ,
yi = 2 si a1 < y∗i ≤ a2 ,
yi = 3 si y∗i > a2 ,
mientras la variable latente depende de X y con un error que podemos asumir que está
normalmente distribuido:
y∗i = Xi β + ui , ui ∼ N(0, σ 2 )
Más abajo se presentan para una persona con las misma características la magnitud
del efecto marginal que tiene un aumento en los años de educación sobre la probabilidad
de caer en alguna de las categorías. Como vemos, un año más de educación disminuiría
la probabilidad de que una persona sea muy religiosa y aumenta la probabilidad de que
la persona sea poco religiosa en cuantías que no presentan gran diferencias dependiendo
de la función de distribución subyacente.
GRETL: Modelos de respuesta ordenada
Las tablas 7.3 y 7.4 se obtuvieron respectivamente mediante probit religiosidad educ edad y
logit religiosidad educ edad respectivamente (incluir una constante no cambiaría los resulta-
dos). Las probabilidades y los efectos marginales requieren de cálculo manual. Por ejemplo:
Grado de religiosidad
1 2 3 4 5
Probabilidad si educ = 12 y edad = 32
Probit 0.061 0.247 0.216 0.344 0.133
Logit 0.063 0.24 0.216 0.35 0.131
Efecto marg. de educ si educ = 12 y edad = 32
Probit 0.004 0.007 0.001 -0.005 -0.006
Logit 0.003 0.008 0.002 -0.007 -0.006
7.4 Probabilidad multinomial 13
donde dil denota una dummy que toma el valor unitario cuando el individuo i se encuentra
en la categoría l.
Existen múltiples variantes de modelos multinomiales que no se discutirán acá y
que sirven para casos particulares de la estructura de la matriz X o de la función de
distribución. Entre ellas está el probit multinomial, el logit condicional, el logit anidado
y el logit mixto.
14 Capítulo 7. Categorías como variable dependiente
open keane.gdt
smpl (year=87) --restrict
logit status const educ exper expersq black --multinomial
También es posible tener censura con un único límite, ya sea uno superior o uno
inferior.
La figura 7.3 muestra el fe-
nómeno y la implicancia que tie- Figura 7.3: Datos censurados
ne la censura sobre la estimación
MCO. 12
Real
Un modelo diseñado para evi- Censurado
10 Real
tar el sesgo por censura es el mo- Censurado
delo tobit. El marco de análisis
8
es similar al planteado para deri-
var el modelo probit de respuesta 6
y
Este es el marco de análisis del modelo Heckit de selección de muestra, al cual solo falta
incluir un ingrediente adicional: tanto la variable latente y∗ que subyace en (7.11) como
la variable latente z∗ que subyace en (7.12) tienen una distribución normal conjunta con
correlación ρ:
7.6 Análisis de duración/sobrevivencia 17
∗ 2
yi Xi β ut σ ρσ
= + ∼ NID 0,
z∗i Zi γ νi ρσ 1
El estimador de Heckit existe en dos formatos. Uno estima todo el sistema conjun-
tamente mediante máxima verosimilitud. El otro efectúa primero una estimación de λ ,
valor que es imputado a la regresión como si se tratara de una variable omitida para
solucionar el sesgo de selección muestral.
GRETL: Modelo Heckit
Sea ytrun la variable dependiente truncada que es una función de x1 y x2 mientras la variable visible
depende de Z1 y z2 y es la dummy que toma el valor 1 cuando la variable dependiente no se encuentra
truncada. La estimación se puede efectuar de dos formas: