Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Yi = β1 + β2 X i + u i si LD > 0
(15.11.1)
=0 en otro caso
donde LD lado derecho. Nota: Se pueden agregar fácilmente otras variables X al modelo.
¿Es posible estimar la regresión (15.11.1) sólo con n1 observaciones y dejar de lado sin más
la preocupación por las n2 observaciones restantes? La respuesta es no, pues las estimaciones por
MCO de los parámetros obtenidos del subconjunto de n1 observaciones estarán sesgadas y serán
inconsistentes; es decir, estarán sesgadas pero de manera asintótica.37
Para ver esto, considere la figura 15.7. Como muestra esta figura, si no se observa Y (debido
a la censura), todas esas observaciones ( n2), denotadas por cruces, quedarán sobre el eje ho-
rizontal. Si se observa Y, las observaciones ( n1) (señaladas con puntos) quedarán en el plano
X-Y. La intuición indica que si estimamos una regresión basada sólo en las n1 observaciones, los
coeficientes resultantes del intercepto y de la pendiente estarán limitados a ser diferentes de
los que obtendríamos si se tomaran en cuenta todas las (n1 + n2) observaciones.
¿Cómo estimar entonces los modelos de regresión tobit (o censurados), como (15.11.1)? El
mecanismo real implica al método de máxima verosimilitud, que, por su complejidad, escapa al
alcance de este libro. Pero el lector puede obtener más información respecto del método MV en
la bibliografía.38
36
Una muestra censurada debe diferenciarse de una muestra truncada, en la cual la información sobre
las regresoras sólo está disponible si se observa la variable regresada. No analizaremos este tema aquí, pero
el lector puede consultar William H. Greene, Econometric Analysis, Prentice Hall, 4a. ed., Englewood Cliffs,
Nueva Jersey, cap. 19. Para un análisis intuitivo, véase Peter Kennedy, A Guide to Econometrics, The MIT Press,
Cambridge, Massachusetts, 4a. ed., 1998, capítulo 16.
37
El sesgo surge porque si sólo se consideran las ni observaciones y se omiten las demás, no hay garantía de
que E (ui ) será necesariamente igual a cero. Y sin E (ui ) = 0 no podemos garantizar que los estimadores de
MCO serán insesgados. Este sesgo se ve fácilmente en el análisis del apéndice 3A, ecuaciones (4) y (5).
38
Véase Greene, op. cit. Hay un análisis un poco menos técnico en Richard Breen, Regression Models: Censo-
res, Sampled Selected or Truncated Data, Sage, Newbury Park, California, 1996.
Gasto en vivienda
× × × × × × X
Ingreso
James Heckman propuso un método alterno y más sencillo que el MV.39 Consiste en un
cálculo de dos pasos. En el primero estimamos la probabilidad de que un consumidor tenga una
casa propia, con base en el modelo probit. En el siguiente paso estimamos el modelo (15.11.1)
añadiéndole una variable (llamada razón inversa de Mills o razón de riesgo), la cual se deriva
a partir de la estimación probit. Para conocer el mecanismo real, consulte el artículo de Hack-
man. El procedimiento Hackman proporciona estimaciones consistentes de los parámetros de
(15.11.1), pero no tan eficientes como las estimaciones de MV. Como los programas estadísticos
más modernos cuenta con rutinas de MV, serían preferibles en vez del proceso Hackman de dos
pasos.
39
J.J. Heckman, “Simple Selection Bias as a Specification Error”, Econometrica, vol. 47, pp. 153-161.
40
Ray Fair, “A Theory of Extramarital Affaires”, Journal of Political Economy, vol. 86, 1978, pp. 45-61. Para el
artículo y los datos, consulte http://fairmodel.econ.yale.edu/rayfair/pdf/1978DAT.ZIP.
41
En 1969, Psychology Today publicó un cuestionario con 101 preguntas sobre el sexo y pidió a sus lectores
que enviaran por correo las respuestas. En el número correspondiente a julio de 1970 se analizaron los resul-
tados de la encuesta con base en 2 000 respuestas que se recopilaron de forma electrónica. Ray Fair extrajo
la muestra de 601 casos de estas respuestas.
De las 601 respuestas, 451 individuos no tuvieron relaciones extramaritales y 150 tuvieron una
o más.
En términos de la figura 15.7, si graficamos el número de relaciones en el eje vertical y, por
ejemplo, la escolaridad en el horizontal, habrá 451 observaciones a lo largo del eje horizontal.
Por tanto, tenemos una muestra censurada, así que resulta apropiado un modelo tobit.
La tabla 15.18 proporciona las estimaciones del modelo anterior obtenidas mediante los pro-
cedimientos MCO (inapropiado) y MV (apropiado). Como se observa, el método de MCO in-
cluye 451 individuos que no tuvieron relaciones y 150 que tuvieron una o más. El método MV
toma esto en cuenta de manera explícita, pero los MCO no; he aquí la diferencia entre las dos es-
timaciones. Por razones ya vistas, debemos confiar en las estimaciones MV y no en las de MCO.
Los coeficientes en ambos modelos pueden interpretarse como cualesquiera otros coeficientes de
regresión. El coeficiente negativo de Z8 (felicidad marital) significa que mientras más feliz se es,
menor es la incidencia de relaciones extramaritales, hallazgo que quizá no sorprenda.
A propósito, observe que si nos interesa la probabilidad de las relaciones extramaritales y no
su número, podemos utilizar el modelo probit, con Y 0 para los individuos que no tuvieron
relaciones de ese tipo y Y 1 para los que sí las tuvieron, cuyos resultados se muestran en la
tabla 15.19. Si ya saben elaborar modelos probit, los lectores deben ser capaces de interpretar los
resultados probit de dicha tabla.
TABLA 15.19
Variable dependiente: YSTAR
Método: Logit binario MV
Muestra: 1-601
Observaciones incluidas: 601
Convergencia lograda después de 5 iteraciones
Del mismo modo que elegimos la distribución de Bernoulli para el modelo de decisiones del
tipo sí/no en el modelo lineal de probabilidad, la distribución de probabilidades específicamente
adecuada para los datos de cuenta es la distribución de probabilidades de Poisson. La fdp de la
distribución de Poisson está dada por:42
μY e−μ
f (Yi ) = Y = 0, 1, 2, . . . (15.12.1)
Y!
E(Y ) = μ (15.12.2)
var (Y ) = μ (15.12.3)
Yi = E(Yi ) + u i = μi + u i (15.12.4)
42
Consulte cualquier libro usual de estadística para los detalles de esta distribución.
donde las Y están independientemente distribuidas como variables aleatorias Poisson, con una
media μi para cada individuo expresada como
μi E(Yi ) β1 + β2 X 2i + β3 X 3i + · · · + βk X ki (15.12.5)
donde las X son algunas variables que afectarían el valor de la media. Por ejemplo, si la variable
de cuenta es el número de visitas al Museo Metropolitano de Nueva York en un año determinado,
esta cifra dependerá de variables como el ingreso del consumidor, el precio de entrada, la distan-
cia al museo y las tarifas de estacionamiento.
Para propósitos de cálculo, expresamos el modelo como
μY e−μ
Yi + ui (15.12.6)
Y!
en donde μ está sustituida por (15.12.5). Como se aprecia fácilmente, el modelo de regresión
resultante será no lineal en los parámetros, por lo que requiere una estimación de regresión no
lineal, que analizamos en el capítulo anterior. Consideremos un ejemplo concreto para ver cómo
funciona esto.
EJEMPLO 15.8 Estos datos se recopilaron por Neter et al.43 Los datos se refieren a 100 individuos de 65 años
Un ejemplo ilus- de edad o mayores. El objetivo del estudio fue registrar el número de caídas ( Y ) sufridas por
estos individuos según el sexo (X2 0 si es mujer y 1 si es hombre), índice de equilibrio (X3) e
trativo: estudio índice de fortaleza (X4). Mientras mayor sea el índice de equilibrio, más estable será el sujeto;
geriátrico sobre la y mientras mayor sea el índice de fortaleza, más fuerte será el individuo. Para averiguar si la
frecuencia de caí- escolaridad, o la escolaridad más los ejercicios aeróbicos, influyen en el número de caídas, los
das autores introdujeron la variable adicional (X1), llamada variable de intervención, la cual X1 0 si
sólo interviene la escolaridad, y X1 1 si se trata de la escolaridad más los ejercicios aeróbicos.
Los sujetos se asignaron de manera aleatoria a los dos métodos de intervención.
Con EViews 6 obtuvimos los resultados de la tabla 15.20.
Nota: EXP( ) significa e (la base del logaritmo natural) elevado a la expresión entre paréntesis.
43
John Meter, Michael H. Kutner, Christopher J. Nachtsheim y William Wasserman, Applied Regression
Models, Irwin, 3a. ed., Chicago, 1996. Los datos provienen del disco de datos incluido en el libro y se
refieren al ejercicio 14.28.
EJEMPLO 15.8 Interpretación de los resultados. Tenga en cuenta que lo que obtuvimos en la tabla 15.20 es
(continuación) el valor medio estimado para el i-ésimo individuo, μ̂ i ; es decir, lo que estimamos es:
Para encontrar el valor medio real del i-ésimo sujeto necesitamos colocar los valores de las distin-
tas variables X de ese sujeto. Por ejemplo, el sujeto 99 tuvo estos valores: Y 4, X1 0, X2 1,
X3 50 y X4 56. Al colocar dichos valores en (15.12.7), obtenemos μ̂99 3.3538 como valor
medio estimado del sujeto 99. El valor real Y de este individuo fue 4.
Ahora bien, si deseamos saber la probabilidad de que un sujeto similar al 99 sufra menos de
cinco caídas al año, se obtiene mediante:
P (Y < 5) = P (Y = 0) + P (Y = 1) + P (Y = 2) + P (Y = 3) + P (Y = 4)
(3.3538)0 e−3.3538 (3.3538)1 e−3.3538 (3.3538)2 e−3.3538
= + +
0! 1! 2!
(3.3538)3 e −3.3538 (3.3538)4 e −3.3538
+ +
3! 4!
= 0.7491
Asimismo, calculamos el efecto marginal o parcial que una regresora tiene en el valor medio
de Y de la siguiente manera. En términos de este ejemplo, suponga que deseamos averiguar el
efecto de un incremento de una unidad en el índice de fortaleza (X4) sobre la media Y. Como
μ = e C 0 +C 1 X 1i +C 2 X 2i +C 3 X 3i +C 4 X 4i (15.12.8)
deseamos conocer ∂μ/∂X4. Con la regla de la cadena del cálculo, demostramos fácilmente que
lo anterior es igual a
∂μ
= C 4 e C 0 +C 1 X 1i +C 2 X 2i +C 3 X 3i +C 4 X 4i = C 4 μ (15.12.9)
∂X 4
Es decir, la tasa de cambio del valor medio respecto de la regresora es igual al coeficiente de esa
regresora multiplicado por el valor medio. Por supuesto, el valor medio μ depende de los valores
tomados por todas las regresoras en el modelo. Esto es similar a los modelos probit y logit ya
analizados, en los que la contribución marginal de una variable también dependía de los valores
tomados por todas las variables del modelo.
De regreso a la importancia estadística de los coeficientes individuales, observamos que el
intercepto y la variable X2 son estadísticamente significativas en lo individual. Pero note que los
errores estándar dados en la tabla son asintóticos y, por tanto, los valores t deben interpretarse
de manera asintótica. Como ya mencionamos, por lo general los resultados de todos los proce-
dimientos iterativos de estimación no lineales sólo tienen validez en muestras grandes.
Para concluir el análisis del modelo de regresión de Poisson, vale la pena mencionar que el
modelo hace supuestos restrictivos, como el que la media y la varianza del proceso de Poisson
son iguales y que la probabilidad de una ocurrencia es constante en cualquier punto en el
tiempo.
Modelos de duración
Considere preguntas como las siguientes: 1) ¿qué determina la duración de los intervalos de des-
empleo?, 2) ¿qué determina la vida de un foco?, 3) ¿qué factores determinan la duración de una
huelga?, 4) ¿qué determina el tiempo de sobrevivencia de un paciente VIH positivo?
Materias como las anteriores son el tema de los modelos de duración, popularmente conocidos
como análisis de supervivencia o análisis de datos del tiempo a un suceso. En cada ejemplo
citado, la variable clave es la longitud del tiempo o la longitud del intervalo, cuyo modelo es una
variable aleatoria. Una vez más, las matemáticas implican las FDP y las FDA de distribuciones
de probabilidades apropiadas. Aunque los detalles técnicos pueden resultar tediosos, hay libros
accesibles sobre la materia.45 El software estadístico como STATA y LIMDEP estima con faci-
44
Tim Futing Liao, op. cit.
45
Véase, por ejemplo, David W. Hosmer, Jr., y Stanley Lemeshow, Applied Survival Analysis, John Wiley &
Sons, Nueva York, 1999.
lidad tales modelos de duración. Estos paquetes cuentan con ejemplos resueltos para ayudar al
investigador con tales modelos.
Resumen y 1. Los modelos de regresión con respuesta cualitativa se refieren a modelos en los que la varia-
ble de respuesta, o regresada, no es cuantitativa ni en escala de intervalo.
conclusiones
2. El modelo de regresión con respuesta cualitativa más sencillo posible es el modelo binario en
el que la regresada es del tipo sí/no o presencia/ausencia.
3. El modelo de regresión binario más sencillo posible es el modelo lineal de probabilidad
(MLP), en el que se hace la regresión sobre la variable de respuesta binaria con la metodo-
logía de MCO estándar. En este caso, la simplicidad quizá no sea una virtud, pues el MLP
experimenta diversos problemas de estimación. Aunque se superen algunos de dichos pro-
blemas de estimación, la debilidad fundamental del MLP es que supone que la probabilidad
de que algo suceda se incrementa de manera lineal en función del nivel de la regresora; este
supuesto tan restrictivo se evita con los modelos probit y logit.
4. En el modelo logit, la variable dependiente es el logaritmo de la razón de probabilidades, la
cual es una función lineal de las regresoras. La función de probabilidades del modelo logit es
la distribución logística. Si se contara con los datos de manera agrupada, se utilizarían MCO
para calcular los parámetros del modelo logit, siempre y cuando se tome en cuenta de manera
explícita la naturaleza heteroscedástica del término de error. Si se dispone de los datos en el
nivel individual o micro, se requerirían los procedimientos de estimación no lineales en los
parámetros.
5. Si elegimos la distribución normal como la distribución de probabilidades apropiada, se
emplea el modelo probit, aunque es matemáticamente más difícil porque requiere integrales.
Pero para propósitos prácticos, los resultados de los modelos logit y probit son similares. En
la práctica, la elección depende de la facilidad de cálculo, lo cual no representa un problema
grave en vista del complejo software estadístico que hay ahora.
6. Si la variable de respuesta es del tipo de cuenta, el modelo más frecuente en el trabajo
aplicado es el de regresión de Poisson, que se basa en la distribución de probabilidades de
Poisson.
7. Un modelo estrechamente relacionado con el modelo probit es el tobit, también conocido
como modelo de regresión censurado. En dicho modelo, la variable de respuesta se observa
sólo si se cumple(n) cierta(s) condición(es). Así, la pregunta de qué cantidad se gasta en un
automóvil resulta significativa sólo si, para empezar, se decide adquirir un automóvil. Sin
embargo, Maddala observa que el modelo tobit es “aplicable sólo en esos casos en donde la
variable latente [es decir, la variable básica que subyace en un fenómeno] puede, en princi-
pio, adoptar valores negativos, y los valores nulos observados son una consecuencia de la
censura y la no observabilidad”.46
8. Existen varias extensiones del modelo de regresión con respuesta binaria, como los modelos
probit y logit ordenados, así como los probit y logit nominales. La filosofía de estos modelos
es la misma que la de los modelos logit y probit más sencillos, a pesar de que las matemáticas
se complican un poco.
9. Por último, mencionamos brevemente los llamados modelos de duración, en los que la dura-
ción de un fenómeno, como el desempleo o la enfermedad, depende de diversos factores. En
tales modelos, la longitud o el intervalo de duración se convierten en una variable de interés
para la investigación.
46
G.S. Maddala, Introduction to Econometrics, 2a. ed., Macmillan, Nueva York, 1992, p. 342.