7 Categorías Dependientes (Actualización Modelo Multinomial) PDF

Capítulo 7
Categorías como variable dependiente
¿Qué determinó que un cliente comprara o no un cierto producto? ¿Qué hizo que
una empresa quebrara? ¿Fue útil el medicamento para curar una enfermedad? ¿Por qué
volvió cometer un delito el delincuente? Este tipo de preguntas se abordan con métodos
de variable dependiente categorial.
7.1 Modelos de respuesta binaria

Partamos con modelos en que la variable dependiente es una dummy. Por ejemplo:
¿Compró un cliente el producto? Sí (y = 1), No (y = 0).
¿Sanó el paciente tras el tratamiento? Sí (y = 1), No (y = 0).
¿Quebró la empresa? Sí (y = 1), No (y = 0).
¿Qué respondió el entrevistado a la pregunta? Sí (y = 1), No (y = 0).
Suponga una cartera de clientes de un supermercado podría separarse entre aquellos
que compran un producto en particular (compra= 1) y aquellos que no lo compran
(compra= 0). Si en la base de datos sobre clientes se cuenta con información sobre
edad, sexo y gasto mensual en otras productos, podríamos estimar el modelo
compra = β1 + β2 edad + β3 sexo + β4 gasto + u
Si β̂2 < 0 significa que a mayor edad menor es la probabilidad de que compra= 1.
Esta información podría orientar al supermercado respecto al tipo de publicidad que
podría realizar y ganar compradores en el segmento etario superior, por ejemplo.
Si utilizamos MCO para estimar esta regresión estaremos utilizando el llamado
modelo de probabilidad lineal (MPL). Su nombre deriva de que ŷ = E[y|X] = X β̂ .
\ = 1,25 − 60 1
Esto implica que, por ejemplo, si estimamos compra × edad, entonces
1
para una persona de 30 años de edad se tiene compra = 1,25 − 60 × 30 = 0,75.
\
¿Qué significa ŷ = E[y|x = 30] = 0,75? Significa que 3 de cada 4 personas con 30
años compran el producto (y = 1) y 1 de cada 4 no lo compra (y = 0), ya que, por
ejemplo E[y|x = 30] = 1+1+1+0
4 = 0,75. Así, en general,
Fórmula: Modelo de probabilidad lineal
ŷ = Ê[y|X] = P̂(y = 1|X) = X β̂MCO (7.1)

2 Capítulo 7. Categorías como variable dependiente
Es decir, cada pendiente estimada nos indica cuál es el efecto marginal sobre la
probabilidad de que la variable dependiente tome el valor uno. En nuestro ejemplo, cada
1
año de vida disminuye la probabilidad de comprar el producto en 60 × 100 %.
En nuestro ejemplo, ¿cuál es entonces la probabilidad de compra para una persona
de 90 años? ¡Menos que cero es la respuesta! ¿Y cuál es la probabilidad de que una niña
de 6 años compre el producto? ¡Más de uno! Como vemos, el modelo de probabilidad
tiene claramente una debilidad, puesto que fácilmente se obtienen resultados absurdos
con probabilidades negativas o mayores que uno para valores dados de X 0 .
¿De qué manera puede solucionarse el problema? Un forma de hacerlo es estimar
una especificación no lineal que acote el rango de valores posibles de P a 0 ≤ P ≤ 1
para todo valor contenido en X.
Fórmula: Modelo de probabilidad no lineal
P(y = 1|X) = F (Xβ ) , F(−∞) = 0, F(∞) = 1, F 0 (·) > 0 (7.2)
¿Qué forma específica debe tomar la función F(·)? Las dos especificaciones más
comunes para F(Xβ + u) son la función de probabilidad logística y la función de
probabilidad normal, mediante las cuales se obtienen los modelos logit y probit res-
pectivamente.
Modelos logit y probit Corresponden a las siguientes especificaciones para F(·) en
(7.2):
1. Distribución logística −→ modelo logit
F(Xβ ) = Λ(z) = 1+e1 −z
2. Distribución normal −→ modelo probit
R z −u2 /2
F(Xβ ) = Φ(z) = √12π −∞ e du
Note que la relación entre los

Figura 7.1: Distribuciones Logit y Probit parámetros a estimar (β ) y la va-
riable dependiente ya no es lineal.
Por ende el modelo de probabi-
lidad no lineal (7.2) no es siem-
pre estimable vía MCO. Regre-
siones no lineales en los paráme-
tros suelen ser estimadas median-
te el método de máxima verosimi-
litud que se explica en el siguien-
te apartado.
No obstante, el modelo Logit
sí puede ser fácilmente estimado vía MCO tras una transformación. Note que podemos
reescribir
1
P(y = 1|X) = F(Xβ ) = −Xβ
1+e
P(y = 1|X) F(Xβ )
ln = ln = Xβ
1 − P(y = 1|X) 1 − F(Xβ )
7.2 Estimación por máxima verosimilitud 3
y estimar mediante MCO. Sin embargo, los software econométricos suelen utilizar
el método máxima verosimilitud para estimar regresiones logísticas.
7.2 Estimación por máxima verosimilitud

7.2.1 La idea
Suponga que tiene un conjunto de datos, que sabe que estos se relacionan me-
diante una relación lineal y ∼ N(Xβ , σ 2 I), pero que desconoce los parámetros θ =
{β1 , . . . , βk , σ }. ¿Cuál de todas las posibles combinaciones de parámetros en θ es la que
mejor se ajusta a los datos observados?
Ya conocemos la solución al problema en base al método de mínimos cuadrados
ordinarios. Para entender el método de máxima verosimilitud resulta práctico revisar la
figura 7.2. En los ejes y y x se presentan las observaciones. Para tres de ellas se presenta
en el eje vertical la densidad de probabilidad en función de dos elecciones distintas
de θ . ¿Cuál considera mejor, θA o θB ? Si se fija, las distancias verticales—es decir las
probabilidades fi (yi , xi , θ )—son mayores con θA . Esa es justamente la idea detrás del
método de máxima verosimilitud: encontrar el conjunto de parámetros θ que maximice
la probabilidad de ocurrencia de las observaciones dado un cierto θ .
Figura 7.2: Verosimilitud bajo dos conjuntos de parámetros θA y θB
θB
f (y, X, θ)
θA
y1
x1 y3 y2
x3
x2 x
En términos generales (es decir, cualquiera sea el problema lineal o no lineal que
se quiera resolver), el estimador de máxima verosimilitud se obtiene a partir de tres pasos:
1. Se supone que el proceso generador de datos se distribuye de acuerdo a distribu-

ción en particular. Es decir, se plantea que se conoce cuál es la forma funcional
de la densidad de probabilidad f (y(X)), pero no se conocen los parámetros de ella.
Ejemplo: Se propone y ∼ N(Xβ , Iσ 2 ), pero se desconoce θ = [β , σ ]0 .

2. Se determina la función de verosimilitud, dada por
L (θ |y(X)) = P(observar y(X)|θ )
Si se tienen observaciones independientes, entonces

n
L (θ |y(X)) = ∏ f (yi (Xi ) | θ )
i=1
3. Se buscan los parámetros que maximizan la probabilidad de ocurrencia de la mues-
tra. Es decir, se busca estimador de máxima verosimilitud (maximum likelihood
estimator, MLE) θMV que maximiza la función de verosimilitud.
θ̂MV = arg max L (θ |y(X))
θ
En el ejemplo de la figura, el parámetro θA ajusta a los ŷi (xi ) observados mejor
que θB . Es decir L (θ1 |y(X)) > L (θ2 |y(X)).
Por conveniencia matemática, usualmente se trabaja con la función de log-
verosimilitud, `(·)
θ̂MV = arg max ln (L (θ |y(X)))
θ
= arg max `(θ |y(X))
θ
La existencia de un único máximo global no siempre está garantizada, como
tampoco se garantiza que un máximo local coincida con el máximo global. En
el mejor de los casos se cumplen estas dos propiedades y el estimador de θ se
obtiene mediante:
∂ `(θ , y, X) ∂ 2 `(θ , y, X)
=0 <0
∂θ ∂θ2
En la práctica existen dos formas de obtener θMV :
a) En caso de existir una solución analítica el sistema se puede resolver de
forma algebraica. Este será el caso de modelos lineales en los parámetros.
b) En la mayoría de la aplicaciones es necesaria una maximización numérica.
Software estadísticos utilizan algoritmos como el de Newton-Raphson.
7.2.2 Aplicación al modelo de probabilidad no lineal

Para derivar el estimador MV del modelo logit o probit comenzamos por definir una
variable latente y∗ (es decir, no observable), la cual es determinada por el proceso
generador de datos
y∗i = Xi β + ui , E[ui ] = 0, ∀i = 1, . . . , n.
En nuestro ejemplo de compra = {1, 0} la variable latente podría ser el gusto por el
producto. Si el gusto es suficientemente alto (digamos superior al nivel arbitrario a = 0)
entonces el consumidor lo compra. Así, la variable observable yi se ve determinada por
1 si y∗i > 0

yi = , i = 1, . . . , n
0 si y∗i ≤ 0
Podríamos cambiar a = 0 por otro valor, pero esto no alteraría los resultados.
¿Cómo obtenemos el estimador máximo verosímil de β ? Apliquemos el algoritmo

presentado anteriormente:
1. Primero hay que establecer una forma funcional para la densidad de probabilidad.
Siendo F(·) la función de probabilidad,
P[yi = 1] = P[y∗i > 0] = P[Xi β + ui > 0]

= P[ui > −Xi β ] = P[ui ≤ Xi β ] (por simetría)
= F(Xi β )
P[yi = 0] = P[y∗i ≤ 0] = 1 − F(Xi β ), i = 1...,n
Podemos elegir la especificación logit, F(Xi0 β ) = Λ(z), o probit, F(Xi0 β ) = Φ(z)

en este contexto.
2. Luego se determina la función de verosimilitud, dada por
L (θ |y(X)) = P(observar y(X)|θ )
Si se tienen observaciones independientes, entonces

n
L (θ |y(X)) = ∏ f (yi (Xi ) | θ )
i=1
La forma práctica de representar la función de verosimilitud en este caso es
n 1−yi
L (θ |y(X) = ∏ F(xi0 β )yi 1 − F(xi0 β )

i=1
Note que cuando yi = 1 entonces 1 − F(Xi0 β ) = 0 y que cuando yi = 0 entonces

F(Xi0 β ) = 0.
3. Por último, se buscan los parámetros que maximizan la probabilidad de ocurrencia
de la muestra:
θ̂MV = arg max L (θ |y(X))
θ
O bien:
θ̂MV = arg max ln (L (θ |y(X))) (7.3)

θ
= arg max `(θ |y(X))
θ
n
= arg max ∑ yi log F(xi0 β ) + (1 − yi ) log 1 − F(xi0 β )

θ i=1
Maximizando con respecto a β obtenemos el siguiente problema:

n
∂` yi fi (1 − yi ) fi
0= =∑ − xi (7.4)
∂ β i=1 Fi Fi
n
yi − Fi
0= ∑ fi xi
i=1 Fi (1 − Fi )
donde Fi = F(xi0 β ), fi = f (xi0 β ) y f (·) es la densidad de probabilidad de F. En

la práctica, la solución de este último término se realiza mediante algoritmos
numéricos como el de Newton-Raphson.
GRETL: |logit
La sintaxis para estimar modelos logit y probit es simple:
logit y const x1 x2 x3
probit y const x1 x2 x3
7.2.3 Interpretación de resultados
Tabla 7.1: Infidelidad en una regresión logística
LOGIT: Logit, usando las observaciones 1-601

Variable dependiente: fueinfiel
Desviaciones típicas basadas en el Hessiano
Coeficiente Desv. Típica z pendiente

-----------------------------------------------------------------
const 0.965434 0.835699 1.155
edad 0.00643624 0.0112357 0.5728 0.00114275
felicidad -0.509599 0.0887609 -5.741 -0.0904794
religiosidad -0.274564 0.0874347 -3.140 -0.0487488
educ 0.0242650 0.0446452 0.5435 0.00430825
hombre 0.186794 0.216497 0.8628 0.0332425
Media de la vble. dep. 0.249584 D.T. de la vble. dep. 0.433133

R-cuadrado de McFadden 0.073212 R-cuadrado corregido 0.055444
Log-verosimilitud -312.9656 Criterio de Akaike 637.9313
Criterio de Schwarz 664.3228 Crit. de Hannan-Quinn 648.2042
Número de casos ’correctamente predichos’ = 460 (76.5%)

f(beta’x) en la media de las variables independientes = 0.178
Contraste de razón de verosimilitudes: Chi-cuadrado(5) = 49.4457 [0.0000]
Predicho
0 1
Observado 0 437 14
1 127 23
La tabla 7.1 presenta los resultados de una regresión logística (un modelo logit).
La variable dependiente toma el valor uno si la persona fue infiel con su pareja durante
el último año, cero en caso contrario. Las variables exlicativas son la edad, el grado de
felicidad marital, el grado de religiosidad, el nivel de educación y el sexo. La primera
columna numérica presenta el valor de los coeficientes estimados (β̂ ). Recuerde que
ahora y = F(Xβ + u), por lo que ya no se cumple ∂∂Xŷi j = β̂ j , sino
∂ ŷ ∂ P̂[yi = 1]
= = f (Xi β )β j (7.5)
∂ Xi j ∂ Xi j
Este valor (el efecto marginal o pendiente) se presenta en la última columna de

la tabla. Como la pendiente va a ser distinta dependiendo del valor de X β̂ , esta debe
ser calculada sujeto a un valor particular de X. Los dos cálculos más comunes son
(i) calcular las medias de X y evaluar (7.5) o (ii) evaluar (7.5) en cada valor de X y
calcular el promedio. En la tabla, para una persona con un grado de religiosidad medio,
la probabilidad de haber sido infiel disminuye en 4,87 % si aumenta en uno el grado de
religiosidad.
Aunque no lo discutiremos en detalle acá, podemos mencionar que la desviación
estándar de estimadores de MV típicamente se calcula en base al Hessiano empírico,
una matriz relacionada con el gradiente de la función de log verosimilitud respecto de
los parámetros estimados.1
Esta se utiliza en la columna ‘z’de la tabla, donde se muestran los valores β̂ j /ŝ, cuya
interpretación es análoga a la del valor t presentado en el MCRL, con la diferencia
que la significancia asociada será la de la distribución normal estándar en lugar de la
distribución t.
Note que la tabla presenta el ‘R2 de McFadden’, también conocido como pseudo-R2 .
Su cálculo se basa en la función de log-verosimilitud:
1 Interesados en el cálculo exacto pueden consultar Heij et al., 1999, Econometric Theory and Methods.
Tabla 7.2: Resultados de modelo Probit
PROBIT: Probit, usando las observaciones 1-601

Variable dependiente: fueinfiel
Coeficiente Desv. Típica z pendiente

-----------------------------------------------------------------
const 0.537439 0.487060 1.103
edad 0.00385683 0.00656499 0.5875 0.00118338
felicidad -0.302119 0.0522896 -5.778 -0.0926982
religiosidad -0.157815 0.0505280 -3.123 -0.0484219
educ 0.0148420 0.0262739 0.5649 0.00455393
hombre 0.110106 0.126071 0.8734 0.0338401

R-cuadrado de McFadden 0.073079 R-cuadrado corregido 0.055311

f(beta’x) en la media de las variables independientes = 0.307
Predicho
0 1
Observado 0 438 13
1 132 18
Fórmula: Pseudo R-cuadrado

`solo const.
Pseudo R2 = 1 − (7.6)
`completo
Si la regresión solo con una constante tiene la misma verosimilitud que la regresión
con todas sus variables explicativas, el pseudo R2 es cero, pero a medida que la regresión
con variables explicativas tiene mayor verosimilitud el pseudo R2 se acerca a su valor
máximo de uno.
Otra métrica de bondad de ajuste es porcentaje de casos ‘correctamente predichos’.
Como típicamente ŷ 6= 0, 1, el cálculo del porcentaje se trata tan solo de una aproxima-
ción: si ŷ ≥ 0,5 cuenta como uno, si ŷ < 0,5 cuenta como cero.
¿Qué cambia cuando estimamos un modelo probit en lugar de un logit? No mucho
en lo que respecta los resultados relevantes. En la tabla 7.2 se presentan los resultados de
la misma regresión. Los coeficientes de β̂ son notoriamente distintos, pero pendientes,
significancias y bondad de ajuste son muy similares.
7.3 Modelos de respuesta ordenada

En una encuesta podría aparecer una pregunta sobre el nivel de satisfacción de un
cliente. Por ejemplo, con las opciones, malo, bueno y excelente. Cada una de estas
opciones es una categoría, pero sabemos que son ordenadas: malo <bueno <excelente.
Una forma de codificarlas en orden es malo = 1, bueno = 2, excelente = 3. Es decir
y ∈ {1, 2, 3}. Usted podría pensar que eso basta para correr una regresión de la forma
yi = xi0 β + ui , pero esto sería incorrecto, puesto que nada garantiza que el nivel de
satisfacción del cliente que respondió excelente sea exactamente el doble del que tuvo
cuando respondió bueno. Más bien podemos pensar en la satisfacción como una variable
latente (y∗ ), la cual, al alcanzar cierto nivel hace que el entrevistado responda excelente
en lugar de bueno. Es decir, la variable observada (y) será determinada de acuerdo a,
yi = 1 si y∗i ≤ a1 ,
yi = 2 si a1 < y∗i ≤ a2 ,
yi = 3 si y∗i > a2 ,
mientras la variable latente depende de X y con un error que podemos asumir que está
normalmente distribuido:
y∗i = Xi β + ui , ui ∼ N(0, σ 2 )
Un individuo i podría responder cualquier categoría, pero el nivel de Xi determina

cuál es la más probable. La probabilidad de que elija la primera es
pi1 = P(yi = 1) = P(y∗i = Xi β ≤ a1 )

= P(y∗i − Xi β = ui ≤ a1 − Xi β )
= F(a1 − Xi β ) = Φ(a1 − Xi β )
7.3 Modelos de respuesta ordenada 9
donde F(·) es la función de probabilidad acumulada de la distribución normal. De forma

análoga, la probabilidad de que elija la última es
pi3 = P(yi = 3) = P(y∗i = Xi β > a2 )

= P(y∗i − Xi β = ui > a2 − Xi β )
= 1 − F(a2 − Xi β ) = F(Xi β − a2 ) = Φ(Xi β − a2 )
Por último, la segunda categoría tiene probabilidad de
pi2 = P(yi = 2) = P(a1 < y∗i ≤ a2 )

= P(a1 − Xi β < ui ≤ a2 − Xi β )
= 1 − pi1 − pi3
= 1 − Φ(a1 − Xi β ) − Φ(Xi β − a2 )
= Φ(a2 − Xi β ) − Φ(a1 − Xi β )
Así, la log verosimilitud estaría dada por
`(β , a1 , a2 ) = ∑ ln (Φ(a1 − Xiβ )) + ∑ ln (Φ(a2 − Xiβ ) − Φ(a1 − Xiβ ))

yi =1 yi =2
+ ∑ ln (Φ(Xiβ − a2)) (7.7)
yi =3
En términos más generales, si tuviéramos J categorías y una distribución de probabi-

lidad tanto normal como logística, la probabilidad de que la observación i corresponda a
la categoría j es
pi j = P(yi = j) = P(a ≤ y∗i < a j ) = F(a j − Xi β ) − F(a j−1 − Xi β ) (7.8)
salvo para los casos esquina que ya se explicaron anteriormente. La log-verosimilitud se

calcularía de forma análoga a (7.7).
En la tablas 7.3 y 7.4 se presentan estimaciones de un probit ordenado y un logit
ordenado análogo. La variable dependiente es religiosidad, la cual toma valores discretos
de 1 (antirreligioso) hasta 5 (muy religioso). Las variables explicativas son los años
de educación y la edad, la primera con un efecto negativo y la segunda con un efecto
negativo sobre la religiosidad. Los valores cut1 a cut4 corresponden a los 4 valores de
corte que separan a las 5 categorías de religiosidad.
Si bien los valores t y las significancias son similares, los coeficientes son bastante
distintos. No obstante, al tratarse de un modelo no lineal, la interpretación de los
coeficientes estimados no corresponde al efecto marginal, sino a métricas que necesitan
ser reescaladas para darles una interpretación práctica y comparable. El efecto marginal—
es decir, el impacto que tiene un cambio marginal de la variable explicativa xr sobre la
probabilidad de selección de la categoría j—es:
∂ pi j 0
= F (a j−1 − Xi β ) − F 0 (a j − Xi β ) βr

∂ xr i
La tabla 7.5 muestra primero las probabilidades de que una persona con 12 años de
educación y 32 años de edad se encuentre en alguna de las 5 categorías de religiosidad
según (7.8). Las diferencias son sutiles entre un modelo y el otro.
Más abajo se presentan para una persona con las misma características la magnitud
del efecto marginal que tiene un aumento en los años de educación sobre la probabilidad
de caer en alguna de las categorías. Como vemos, un año más de educación disminuiría
la probabilidad de que una persona sea muy religiosa y aumenta la probabilidad de que
la persona sea poco religiosa en cuantías que no presentan gran diferencias dependiendo
de la función de distribución subyacente.
GRETL: Modelos de respuesta ordenada
Las tablas 7.3 y 7.4 se obtuvieron respectivamente mediante probit religiosidad educ edad y
logit religiosidad educ edad respectivamente (incluir una constante no cambiaría los resulta-
dos). Las probabilidades y los efectos marginales requieren de cálculo manual. Por ejemplo:
probit religiosidad const educ edad

k = $ncoeff
J = 5
matrix b = $coeff[1:k-J+1] # betas salvo cuts
matrix X = {12, 32} # se fijan educ y edad

scalar Xb = X*b # ajuste de variable latente y*
loop for j=1..J-1
a$j = $coeff[cut$j] # obtenemos cortes
endloop
/* Probabilidad de que con dicho X se esté en

alguna de las categorías */
matrix Prob = zeros(1,J)
loop for j=2..J
a$j_1 = $coeff[k-J+1+$j-1] # corte a_{j-1}
endloop
loop for j=1..J
if $j = 1
Prob[$j] = cdf(N,a$j-Xb)
elif $j = J
Prob[$j] = 1- cdf(N,a$j_1-Xb) #cdf(N,Xb-a$j_1)
else
Prob[$j] = cdf(N,a$j-Xb) - cdf(N,a$j_1-Xb)
endif
endloop
# Efecto marginal de agregar un año de educación

matrix EfMarg = zeros(1,J)
loop for j=1..J
if $j = 1
EfMarg[$j] = (-pdf(N,a$j-Xb))*$coeff(educ)
elif $j = J
EfMarg[$j] = (pdf(N,a$j_1-Xb))*$coeff(educ)
else
EfMarg[$j] = (pdf(N,a$j_1-Xb) - pdf(N,a$j-Xb))*$coeff(educ)
endif
endloop
7.3 Modelos de respuesta ordenada 11
Tabla 7.3: Resultados de un probit ordenado
Probit ordenado, usando las observaciones 1-601

Variable dependiente: religiosidad
Coeficiente Desv. Típica z Valor p

----------------------------------------------------------
educ -0.0295830 0.0180782 -1.636 0.1018
edad 0.0237679 0.00473174 5.023 5.09e-07 ***
cut1 -1.14217 0.319183 -3.578 0.0003 ***

cut2 -0.0970812 0.314279 -0.3089 0.7574
cut3 0.464234 0.314197 1.478 0.1395
cut4 1.51828 0.319506 4.752 2.01e-06 ***


Tabla 7.4: Resultados de un logit ordenado
Logit ordenado, usando las observaciones 1-601

Variable dependiente: religiosidad

----------------------------------------------------------
educ -0.0509709 0.0310112 -1.644 0.1003
edad 0.0422261 0.00833763 5.065 4.09e-07 ***
cut1 -1.95796 0.558450 -3.506 0.0005 ***

cut2 -0.0916602 0.544987 -0.1682 0.8664
cut3 0.815998 0.545552 1.496 0.1347
cut4 2.63125 0.559023 4.707 2.52e-06 ***


Tabla 7.5: Comparación de Logit y Probit ordenados
Grado de religiosidad
1 2 3 4 5
Probabilidad si educ = 12 y edad = 32
Probit 0.061 0.247 0.216 0.344 0.133
Logit 0.063 0.24 0.216 0.35 0.131
Efecto marg. de educ si educ = 12 y edad = 32
Probit 0.004 0.007 0.001 -0.005 -0.006
Logit 0.003 0.008 0.002 -0.007 -0.006
7.4 Probabilidad multinomial 13
7.4 Probabilidad multinomial

En ocasiones la variable dependiente tiene categorías sin ningún orden. Por ejemplo
una persona podría comprar productos de la marca A, B o C (y = A, B,C) o elegir al can-
didato A, B, C o D (y = A, B,C, D). Entre otras variantes, el modelo logit multinomial
se diseñó para estudiar este tipo de variable dependiente.
Para entenderlo, volvamos por un momento al logit bivariado. Despejando Xi β̂ de
la función logística, este puede ser expresado como

P̂(yi = 1|Xi ) P̂(yi = 1|Xi )
ln = ln = Xi β̂ .
1 − P̂(yi = 1|Xi ) P̂(yi = 0|Xi )

i =1)
Note que la expresión ln P̂(y P̂(y =0)
, denominada log odds-ratio o logaritmo de la razón
i
de oportunidad relativa, toma valores positivos cuando P̂(yi = 1) > 0,5 y negativos
cuando P̂(yi = 1) < 0,5.
Sigamos ahora con el modelo logit multivariado. Asumamos que la variable depen-
diente puede tomar los valores l = 1, . . . , L. En dicho caso podemos expresar al modelo
como

P̂(yi = l|Xi )
ln = Xi β̂l , l = 2, . . . , L. (7.9)
P̂(yi = 1|Xi )
Note que tenemos L − 1 vectores de coeficientes estimados β̂l . La interpretación de
estos tiene relación con cuánto aumenta la probabilidad de ocurrencia de la categoría l
respecto con la probabilidad de ocurrencia de la categoría 1.
Una aplicación del modelo se presenta en la tabla 7.6. La variable dependiente es
el estado ocupacional (status), la cual toma los valores “estudiando” (status = 1), “ni
estudiando ni trabajando” (status = 2) o “trabajando” (status = 3). Como variables
explicativas se encuentran los años de educación (educ ), la experiencia laboral de
forma cuadrática ((exper y expersq) y si la persona es afrodescendiente (black = 1,0).
La interpretación de los coeficientes no es de acuedo a (7.9). Note que los resultado no
presentan β̂ para el caso de status = 1.
El cálculo para obtener los coeficientes puede ser planteado en base a la probabilidad
de observar una categoría en particular como función de las variables explicativas:
exp(Xi βl )
pi j = P(yi = l|Xi ) = L
(7.10)
∑h=1 exp(Xi βh )
La función de log-verosimilitud correspondiente es
n L
` = ∑ ∑ dil ln P(yi = l|Xi )
i=1 l=1
donde dil denota una dummy que toma el valor unitario cuando el individuo i se encuentra
en la categoría l.
Existen múltiples variantes de modelos multinomiales que no se discutirán acá y
que sirven para casos particulares de la estructura de la matriz X o de la función de
distribución. Entre ellas está el probit multinomial, el logit condicional, el logit anidado
y el logit mixto.
Tabla 7.6: Logit multinomial
Logit Multinomial, usando las observaciones 1-1738 (n = 1717)

Variable dependiente: status

-----------------------------------------------------------
status = 2
const 10.2779 1.13334 9.069 1.20e-019 ***
educ -0.673631 0.0698999 -9.637 5.57e-022 ***
exper -0.106215 0.173282 -0.6130 0.5399
expersq -0.0125152 0.0252291 -0.4961 0.6199
black 0.813017 0.302723 2.686 0.0072 ***
status = 3
const 5.54380 1.08641 5.103 3.35e-07 ***
educ -0.314657 0.0651096 -4.833 1.35e-06 ***
exper 0.848737 0.156986 5.406 6.43e-08 ***
expersq -0.0773003 0.0229217 -3.372 0.0007 ***
black 0.311361 0.281534 1.106 0.2687


GRETL: Logit multinomial

El ejemplo de la tabla 7.6 se obtiene con
open keane.gdt
smpl (year=87) --restrict
logit status const educ exper expersq black --multinomial
7.5 Respuestas censuradas y truncadas

Suponga que se está estudiando la cantidad de personas que asisten diariamente a
una sala de teatro en función de variables explicativas como la cantidad de publicidad
para la obra presentada, el prestigio del director, etc. Si la sala de teatro tiene una
capacidad máxima de 800 personas, entonces la variable dependiente nunca tendrá
valores superiores al límite máximo de 800. Igualmente, la cantidad mínima nunca podrá
ser inferior a cero, independientemente de qué tan desprestigiado sea el director o que
tan deficiente sea la publicidad. En casos como este (con un nivel máximo, mínimo o
ambos) hablamos de una variable dependiente censurada. El caso más típico
de censura es aquel donde la variable dependiente toma el valor cero muchas veces pero
nunca valores negativos. Esto se da, por ejemplo, cuando se estudia el consumo de un
producto, pues habrá clientes que consumen cantidades positivas y otros que consumen
cero.
7.5 Respuestas censuradas y truncadas 15
Censura Se observa la variable dependiente, pero con un valor


max si Xi β + ui > ymax
y

yi = Xi β + u si ymin < Xi β + ui ≤ ymax

 min
y si Xi β + ui ≤ ymin
También es posible tener censura con un único límite, ya sea uno superior o uno
inferior.
La figura 7.3 muestra el fe-
nómeno y la implicancia que tie- Figura 7.3: Datos censurados
ne la censura sobre la estimación
MCO. 12
Real
Un modelo diseñado para evi- Censurado
10 Real
tar el sesgo por censura es el mo- Censurado
delo tobit. El marco de análisis
8
es similar al planteado para deri-
var el modelo probit de respuesta 6
y
binaria. Definimos una variable

latente 4
y∗i = Xi β +ui , ui ∼ N(0, σ 2 ) 2
y una respuesta yi en función del 0

valor de y∗i (que acá desarrollare- 0 2 4 6 8 10
mos con censura en el mínimo, x
pero que podríamos desarrollar análogamente para un máximo o ambos):

(
y∗ si y∗i > ymin
yi = imin
y si y∗i ≤ ymin .
En este caso la log verosimilitud a maximizar sería
`(β , σ |y, X) = ∑min ln P[yi = ymin|Xi] + ∑min ln E[yi|Xi]
yi =y yi >y
Acá el término P[yi = ymin |Xi ] estará dado por

P[yi = ymin |Xi ] = P[y∗i ≤ ymin ] = P[Xi β + ui ≤ ymin ]
Xβi − ymin Xi β − ymin

ui
=P ≤− =Φ −
σ σ σ
y el término E[yi |Xi ] estará dado simplemente por la densidad de probabilidad que tiene
yi ∼ N(Xi β , σ 2 ),
1 (y −X β )2
− i i
E[yi |Xi ] = √ e 2σ 2
σ 2π
La maximización numérica de `(β , σ |y, X) respecto a β y σ nos entrega los estimadores
maximoverosímiles del modelo de Tobit. De forma análoga podemos plantear censura
en un máximo o censura en mínimo y máximo para obtener los estimadores respectivos.
GRETL: Modelo Tobit

Sean 3 y 8 los límites en que se censura la variable dependiente, la estimación es:
tobit ycens const x --llimit=3 --rlimit=8
Otra distorsión común en las

Figura 7.4: Datos truncados bases de datos es el trunca-
miento. Esta se da cuando algu-
20 nos datos se encuentran ausen-
Todos
Truncados tes debido a alguna razón, como
15 MCO todos
MCO trunc.
por ejemplo que personas sin su-
ficiente tiempo libre no tengan
10
ganas de responder una encuesta
5 particular. Otro ejemplo es que en
y
lugar de observar un valor de con-

0 sumo cero para los clientes desin-
teresados en un producto (censu-
-5
ra) ni si quiera se observa quienes
-10
no consumen el producto (trunca-
0 2 4 6 8 10 miento).
x La idea se representa en la fi-
gura 7.4. En ella se ilustra como
datos con un cierto nivel de x se encuentran truncados (ausentes) por selección de
muestra.
Truncamiento : Existen valores ausentes de la variable de interés.
Corregir por truncamiento por selección de muestra es prácticamente imposible si no
se cuenta con información sobre las observaciones ausentes. Pero si pese a no observar
la variable dependiente para ciertos i sí se observan otras características entonces es
posible efectuar una corrección al sesgo de muestra.
Considere el siguiente caso. Tenemos un conjunto de n0 + n1 observaciones. Para n0
observaciones el dato de yi está ausente y la dummy D toma el valor cero. Para las n1
observaciones restantes sí observamos yi y la dummy D toma el valor uno. Es decir:
(
Xβ + u , si D = 1
y= (7.11)
no observado , si D = 0
Además, para todas las n0 + n1 observaciones también se tiene un conjunto de variables

contenidas en la matriz Z, las cuales se asocian sistemáticamente con el valor de D—es
decir, sirven como predictores de la selección de muestra. En particular supondremos
que se relacionan de acuerdo al siguiente probit:
P(D = 1|Z) = Φ(Zγ). (7.12)
Este es el marco de análisis del modelo Heckit de selección de muestra, al cual solo falta
incluir un ingrediente adicional: tanto la variable latente y∗ que subyace en (7.11) como
la variable latente z∗ que subyace en (7.12) tienen una distribución normal conjunta con
correlación ρ:
7.6 Análisis de duración/sobrevivencia 17
∗ 2
yi Xi β ut σ ρσ
= + ∼ NID 0,
z∗i Zi γ νi ρσ 1
Aunque la demostración es un tanto compleja, es posible demostrar que en este caso
E[y|X, D = 1] = Xβ + E[u|X, D = 1] = Xβ + ρσu λ (Zγ)
El estimador de Heckit existe en dos formatos. Uno estima todo el sistema conjun-
tamente mediante máxima verosimilitud. El otro efectúa primero una estimación de λ ,
valor que es imputado a la regresión como si se tratara de una variable omitida para
solucionar el sesgo de selección muestral.
GRETL: Modelo Heckit
Sea ytrun la variable dependiente truncada que es una función de x1 y x2 mientras la variable visible
depende de Z1 y z2 y es la dummy que toma el valor 1 cuando la variable dependiente no se encuentra
truncada. La estimación se puede efectuar de dos formas:
heckit ytrun const x1 x2 ; visible const z1 z2

heckit ytrun const x1 x2 ; visible const z1 z2 --two-step
7.6 Análisis de duración/sobrevivencia

PENDIENE (no se verá este semestre)

7 Categorías Dependientes (Actualización Modelo Multinomial) PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

7 Categorías Dependientes (Actualización Modelo Multinomial) PDF

Cargado por

Copyright:

Formatos disponibles

Capítulo 7

Categorías como variable dependiente

7.1 Modelos de respuesta binaria

compra = β1 + β2 edad + β3 sexo + β4 gasto + u

Fórmula: Modelo de probabilidad lineal

ŷ = Ê[y|X] = P̂(y = 1|X) = X β̂MCO (7.1)

Fórmula: Modelo de probabilidad no lineal

P(y = 1|X) = F (Xβ ) , F(−∞) = 0, F(∞) = 1, F 0 (·) > 0 (7.2)

Note que la relación entre los

7.2 Estimación por máxima verosimilitud

Figura 7.2: Verosimilitud bajo dos conjuntos de parámetros θA y θB

1. Se supone que el proceso generador de datos se distribuye de acuerdo a distribu-

Ejemplo: Se propone y ∼ N(Xβ , Iσ 2 ), pero se desconoce θ = [β , σ ]0 .

Si se tienen observaciones independientes, entonces

7.2.2 Aplicación al modelo de probabilidad no lineal

¿Cómo obtenemos el estimador máximo verosímil de β ? Apliquemos el algoritmo

P[yi = 1] = P[y∗i > 0] = P[Xi β + ui > 0]

Podemos elegir la especificación logit, F(Xi0 β ) = Λ(z), o probit, F(Xi0 β ) = Φ(z)

Si se tienen observaciones independientes, entonces

Note que cuando yi = 1 entonces 1 − F(Xi0 β ) = 0 y que cuando yi = 0 entonces

θ̂MV = arg max ln (L (θ |y(X))) (7.3)

Maximizando con respecto a β obtenemos el siguiente problema:

donde Fi = F(xi0 β ), fi = f (xi0 β ) y f (·) es la densidad de probabilidad de F. En

7.2.3 Interpretación de resultados

Tabla 7.1: Infidelidad en una regresión logística

LOGIT: Logit, usando las observaciones 1-601

Coeficiente Desv. Típica z pendiente

Media de la vble. dep. 0.249584 D.T. de la vble. dep. 0.433133

Número de casos ’correctamente predichos’ = 460 (76.5%)

Este valor (el efecto marginal o pendiente) se presenta en la última columna de

Tabla 7.2: Resultados de modelo Probit

PROBIT: Probit, usando las observaciones 1-601

Coeficiente Desv. Típica z pendiente

Media de la vble. dep. 0.249584 D.T. de la vble. dep. 0.433133

Número de casos ’correctamente predichos’ = 456 (75.9%)

Fórmula: Pseudo R-cuadrado

7.3 Modelos de respuesta ordenada

Un individuo i podría responder cualquier categoría, pero el nivel de Xi determina

pi1 = P(yi = 1) = P(y∗i = Xi β ≤ a1 )

donde F(·) es la función de probabilidad acumulada de la distribución normal. De forma

pi3 = P(yi = 3) = P(y∗i = Xi β > a2 )

Por último, la segunda categoría tiene probabilidad de

pi2 = P(yi = 2) = P(a1 < y∗i ≤ a2 )

Así, la log verosimilitud estaría dada por

`(β , a1 , a2 ) = ∑ ln (Φ(a1 − Xiβ )) + ∑ ln (Φ(a2 − Xiβ ) − Φ(a1 − Xiβ ))

En términos más generales, si tuviéramos J categorías y una distribución de probabi-

pi j = P(yi = j) = P(a ≤ y∗i < a j ) = F(a j − Xi β ) − F(a j−1 − Xi β ) (7.8)

salvo para los casos esquina que ya se explicaron anteriormente. La log-verosimilitud se

probit religiosidad const educ edad

matrix X = {12, 32} # se fijan educ y edad

/* Probabilidad de que con dicho X se esté en

# Efecto marginal de agregar un año de educación

Tabla 7.3: Resultados de un probit ordenado

Probit ordenado, usando las observaciones 1-601

Coeficiente Desv. Típica z Valor p

cut1 -1.14217 0.319183 -3.578 0.0003 ***

Media de la vble. dep. 3.116473 D.T. de la vble. dep. 1.167509

Número de casos ’correctamente predichos’ = 212 (35.3%)

Tabla 7.4: Resultados de un logit ordenado

Logit ordenado, usando las observaciones 1-601

Coeficiente Desv. Típica z Valor p

cut1 -1.95796 0.558450 -3.506 0.0005 ***

Media de la vble. dep. 3.116473 D.T. de la vble. dep. 1.167509