Está en la página 1de 98

Centro de Investigación y

Desarrollo (CIDE)

LOS MODELOS
LOGIT Y PROBIT EN
LA INVESTIGACIÓN
SOCIAL
El caso de la Pobreza del Perú
en el año 2001

Lima, Agosto 2002


Centro de Investigación y Desarrollo

DIRECCIÓN Y SUPERVISIÓN

Econ. Mirlena Villacorta Olazabal


Directora Técnica del CIDE

Documento Elaborado por:

Franck G. Pucutay Vásquez

Preparado : Centro de Investigación y Desarrollo del Instituto Nacional de


Estadística e Informática (INEI)
Impreso : Talleres de la Oficina Técnica de Administración del INEI
Diagramación : Centro de Edición de la Oficina Técnica de Difusión del INEI
Tiraje : 200 Ejemplares
Domicilio : Av. General Garzón 658, Jesús María. Lima - Perú
Orden de Impresión : Nº -OTA-INEI
Depósito Legal Nº : 150113-2002-4014

2 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Presentación
El INEI pone a disposición la investigación metodológica: "LOS MODELOS
LOGIT Y PROBIT EN LA INVESTIGACIÓN SOCIAL El caso de la
pobreza del Perú en el año 2001", que por su nivel de especialización
está dirigida principalmente a los miembros de la comunidad académica,
profesionales de las oficinas de estadística y los investigadores interesados
en mantener la actualidad de sus procedimientos estadísticos.

Esta investigación metodológica tiene por finalidad, generar instrumentos


y procedimientos que permitirán validar, mejorar y actualizar los procesos
estadísticos. Se caracteriza por ser innovadora en su campo de aplicación,
por contener un rigor científico en su desarrollo integral, por la validez
de sus procesos, por la vigencia y actualidad de sus metodologías aplicadas.

En esa misma dirección, la investigación presentada desarrolla la


metodología asociada a los modelos de probabilidad con variable
dependiente discreta dicotómica (modelo logit y probit), en función del
fenómeno de pobreza en los jefes de hogar del Perú para el año 2001.
Contribuyendo a la implementación de los enfoques asociados a estos
modelos, según la viabilidad permitida por los factores de naturaleza
cualitativa, cuantitativa y su aporte en la probabilidad de ser pobre del
jefe de hogar.

Este estudio al igual que otros de carácter metodológico, ha sido elaborado


por profesionales del Centro de Investigación y Desarrollo (CIDE), en el
marco del desarrollo y promoción de investigaciones estadísticas y
socioeconómicas que permitan elevar la calidad de la información del
INEI y el SEN.

El INEI espera como resultado de esta investigación, incorporarse en el


circuito de la producción del conocimiento y elevar los estándares de
calidad de sus procesos, sentando con ello las bases de la investigación
metodológica en la institución.

Lima, Agosto 2002

Gilberto Moncada Vigo


Jefe del INEI

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 3


Centro de Investigación y Desarrollo

4 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

INDICE
Presentación .................................................................................................. 3

Prólogo ........................................................................................................ 7

I. INTRODUCCIÓN ................................................................................... 9

II. FUNDAMENTACION DEL PROBLEMA .......................................... 11


2.1. Formulación del problema ........................................................................... 13

III.OBJETIVOS DE LA INVESTIGACIÓN .............................................. 15


3.1. Objetivo general .............................................................................................. 15
3.2. Objetivos específicos ...................................................................................... 15

IV. MARCO TEÓRICO ............................................................................... 17


4.1. Breve formulación del caso de la Pobreza del Perú. ............................... 17
4.1.1. ¿Qué es la pobreza? .............................................................................. 17
4.1.2. Enfoques y métodos para su medición ............................................. 17
4.2. Los modelos logit y probit con variable dependiente
dicotómica (VDD). ........................................................................................ 20
4.2.1. Modelos con variable dependiente dicotómica (vdd). .................... 20
4.2.2. Formulación del modelo logit y el modelo probit con (vdd) . .... 22
4.2.3. Caracterización de los modelos logit y probit aplicados
al caso de la pobreza del Perú. ............................................................ 24

V. HIPÓTESIS .......................................................................................... 33

VI. METODOS ........................................................................................... 35


6.1. Tratamiento de errores en la adecuación de ambos modelos. ............... 35
6.1.1. Métodos de estimación ........................................................................ 35

VII. LA ENCUESTA NACIONAL DE HOGARES - 2001


IV TRIMESTRE ................................................................................. 39
7.1. Características de la muestra ........................................................................ 41
7.2. Factores de relevancia para la explicación de la pobreza
extraídos de la ENAHO IV trimestre 2001. ............................................ 43

VIII. CRITERIOS DE FORMULACIÓN DE LOS MODELOS


LOGIT Y PROBIT CON VDD APLICADOS AL CASO DE
LA POBREZA DEL PERÚ. .............................................................. 49
8.1. Estudio a nivel descriptivo y exploratorio de algunas variables
cualitativas y cuantitativas que inciden en la pobreza del Perú. .......... 49
8.2. Formulación y adecuación de los modelos Logit y Probit con VDD,
en función de las variables o factores explicativos
más significativos. ......................................................................................... 58

IX. CONCLUSIONES ................................................................................. 79

X. RECOMENDACIONES ...................................................................... 81

XI. BIBLIOGRAFÍA .................................................................................... 83

XII. ANEXOS .............................................................................................. 85


Anexo 1 Informe metodológico ............................................................................ 87
Anexo 2. Indices de ecuaciones, cuadros y gráficos ............................................. 95

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 5


Centro de Investigación y Desarrollo

6 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Prólogo

Desde las aulas universitarias y siendo Aunque este documento es


conocedor de la difícil tarea que significa metodológico por naturaleza, está
la promoción y desarrollo de la labor orientado hacia las aplicaciones. A lo largo
científica en una realidad caracterizada del estudio, se ha mantenido al mínimo
por la escasez de recursos y las las demostraciones teórico-matemáticas
restricciones presupuestarias, saludo este y se ha puesto énfasis en el desarrollo de
esfuerzo del Centro de Investigación y un entendimiento claro de los resultados
Desarrollo (CIDE) orientado no sólo a teóricos usuales en los estudios sociales
elevar la calidad de la información con este tipo de modelos, el cual está
generado por el Sistema Estadístico plasmado en los objetivos planteados en
Nacional sino también a la producción el documento. De otro lado, se hace una
científica y metodológica en nuestro breve pero precisa formulación de la
medio. En este sentido, la presente pobreza en el Perú cuyo análisis se basa
publicación: "Los Modelos Logit y Probit en las variables provenientes de La
en la Investigación Social: El Caso de la Encuesta Nacional de Hogares-2001 IV
Pobreza del Perú en el Año 2001" Trimestre (ENAHO). De ahí que, se
satisface una necesidad no sólo para los incluye un capítulo que describe la
consumidores potenciales de definición de dichas variables para luego
investigaciones sociales o eventuales interactuar sistemáticamente en la
investigadores sino también para el formulación del problema y análisis con
público interesado y universitario el enfoque de los Modelos Logit y Probit.
familiarizado con los elementos de la
estadística.

Luis Huamanchumo de la Cuba


Escuela Profesional de Ingeniería
Estadística-UNI

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 7


Centro de Investigación y Desarrollo

8 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

I. INTRODUCCION

La investigación metodológica juega un o por un enfoque de observaciones


papel fundamental en el desarrollo de los individuales en la utilización de los
estándares de calidad de las oficinas modelos logit y probit.
estadísticas más renombradas del mundo,
con el objetivo de generar información Entonces diríamos que los factores de
relevante para la producción del naturaleza cuantitativa como el ingreso per
conocimiento científico y por ende la toma cápita mensual del hogar, expresado a
de decisiones. Pero ello implica la través de sus deciles de ingresos, o los
utilización y exploración de técnicas años de estudios, etc; generan un modelo
vigentes e idóneas para el análisis de su correctamente ajustado a la probabilidad
información sin la cual no podrían de ser pobre de los jefes de hogar con el
mejorarse los procesos que implican su enfoque de proporciones muestrales del
producción. modelo probit.

Muchos de los campos en los cuales se O que los factores explicativos de la


desarrollan estas investigaciones abordan pobreza del Perú en el año 2001 de
diferentes aspectos tanto de la naturaleza cualitativa y cuantitativa
problemática social y económica. Aquí exclusivos del jefe de hogar como el nivel
podemos decir que la Pobreza es uno de de educación, el tipo de colegio donde
esos temas tan apasionantes y a la vez muy estudió, la categoría ocupacional, el
discutidos sobre el cual se desarrollan una tamaño de la firma donde labora, la
gran diversidad de metodologías y tenencia de otro empleo, el estado civil,
explicaciones, sin ser estas concluyentes su edad, su indicador de experiencia
y menos aún aceptadas por todos. Desde laboral; en combinación con los factores
el punto de vista estadístico, una de naturaleza cualitativa y cuantitativa
explicación a este fenómeno es exclusivos del hogar como la cantidad de
ampliamente beneficiada por la utilización miembros del hogar, la cantidad de
de los modelos de elección discreta miembros pertenecientes a la PET, el
dicotómica-modelos logit y probit, para ingreso per cápita mensual, el acceso a
obtener la cuantificación del aporte de sus activos públicos de agua y desagüe, si el
factores significativos en el análisis de la hogar dedica un espacio físico de este a
pobreza. generación de ingresos, no permiten
generar modelos correctamente ajustados
En esa misma línea se plantea en qué a la probabilidad de ser pobre del jefe de
medida una explicación sobre la pobreza hogar siguiendo el enfoque de
de los jefes de hogar del Perú en el año observaciones individuales en los modelos
2001, se vería beneficiada por la adopción logit y probit.
de un enfoque de proporciones muestrales

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 9


Centro de Investigación y Desarrollo

Para tal efecto, lo que se pretende es de los modelos logit y probit aplicados al
estudiar la relación entre los factores caso de la pobreza en el Perú, partiendo
determinantes de naturaleza social, de un análisis descriptivo-exploratorio de
económica, demográfica de la pobreza algunas variables significativas como la
del Perú y los enfoques de utilización de educación, el estado civil, región natural
los modelos logit y los modelos probit. de residencia, los años de estudios, etc;
para luego hacer una formulación y
Analizar el grado de afectación de los desarrollo metodológico de los modelos
factores de naturaleza cuantitativa sobre en función a sus enfoques y factores más
el enfoque de proporciones muestrales. significativos, terminando con una
Comparar una estimación del modelo logit explicación de los resultados obtenidos.
con una estimación del modelo probit en Los siguientes capítulos hacen referencia
un enfoque de casos individuales, para a las conclusiones, recomendaciones y
cuantificar el aporte de los factores anexos.
explicativos de la pobreza en los jefes de
hogar. No quisiera terminar esta breve
introducción sin mostrar mi
Luego de esta suscinta introducción, el agradecimiento al Instituto Nacional de
segundo capítulo de esta investigación Estadística e Informática por permitirme
desarrolla la fundamentación del problema colaborar a través del desarrollo de esta
y su sistematización; en el tercero se investigación en avanzar más hacia el
formulan los objetivos de esta, mientras fortalecimiento de la cultura estadística en
que en el cuarto capítulo mostramos el el país, y además, sentar las bases de la
marco teórico asociado a la pobreza, cómo investigación metodológica en el Perú.
esta viene definida y los métodos para su
medición. Además en este se muestran De la misma manera, las gracias infinitas a
la formulación teórica de los modelos logit la señora Directora Técnica del Centro de
y probit con variable dependiente discreta- Investigación y Desarrollo, Mirlena
dicotómica, su caracterización, similitudes Villacorta, por sus valorables aportes en el
y diferencias, enfoques de utilización y los desarrollo de esta investigación, su
efectos marginales asociados a cada uno compresión y constante apoyo, y porque
de los modelos. En el quinto capítulo se me muestra que cada día es posible
muestran las hipótesis formuladas para esta construir desde la inteligencia y la
investigación, mientras que en el sexto creatividad.
indicamos los métodos de estimación a
partir de los enfoques utilizados. Así mismo, quiero expresar mi gratitud y
reconocimiento a Luis Huamanchumo,
En el séptimo capítulo se muestra de auditor de esta investigación
manera general la Encuesta Nacional de metodológica, por sus importantísimas
Hogares, sus objetivos y características apreciaciones y por su compromiso con la
específicas, así como los factores labor de investigación estadística, desde
relevantes para la explicación de la pobreza ya reciba las gracias infinitas. Para terminar
de los jefes de hogar tomados en la las gracias a Dios, a mi Familia y a mis
ENAHO-IV trimestre 2001. El octavo seres queridos.
capítulo muestra los criterios de aplicación

10 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

II. FUNDAMENTACION DEL PROBLEMA

La pobreza es un fenómeno siempre La pobreza se origina en la incapacidad


presente, en mayor o menor medida, en de la economía peruana para generar
todas las sociedades, razón por la cual ha suficientes empleos productivos. De los
sido objeto de estudio y se han buscado 140 mil jóvenes que se integran cada año
las herramientas de política para a la fuerza laboral urbana, menos de un
enfrentarla. Existen muchas definiciones tercio obtiene un empleo adecuado y casi
respecto a lo que debe entenderse por el 40% está desempleado o trabajando
pobreza y ninguna de ellas es precisa ni en algo que no implica capacitación
aceptada por todos, sin embargo, en alguna ni ofrece perspectivas de progreso
general todas las definiciones apuntan a futuro.
la situación en que se encuentran las
personas que no disponen de los medios Dada la complejidad del fenómeno,
(de "producción", activos fijos, existen distintas metodologías para
intelectuales, sociales, culturales, medirlo, tales como el método de la línea
financieros y demás que permitan generar de pobreza, el método de las NBIs, el
fuentes permanentes de ingresos) método integrado, entre otros. No
suficientes para satisfacer sus necesidades obstante, tan importante como tener una
básicas definidas como tales para un grupo cuantificación rigurosa de los niveles de
social específico y en un tiempo pobreza y las tendencias en su evolución
determinado, y que permitan su desarrollo temporal y espacial, es analizar las
personal y reflejen el estilo de vida de la relaciones entre ellas y sus factores
formación social en su conjunto. Entre explicativos que podrían albergar opciones
estas necesidades figuran la alimentación, de política para solucionarla, tales como
salud, vivienda, educación básica, acceso la educación.
a servicios esenciales de información,
recreación, cultura, vestido, calzado,
transporte y comunicaciones, participación Debido a lo expuesto líneas antes, se están
e identidad en y con la comunidad, entre realizando estudios e investigaciones
otras. avanzadas, pero aún incipientes en el
aspecto metodológico, sobre el rol de
El Perú es uno de los países más pobres factores como la posesión de activos
de América del Sur. Una breve mirada a privados, la distribución del ingreso, el
cualquier listado que pretenda ordenar los acceso a activos públicos, en su explicación
países en función de su bienestar lo del fenómeno de la pobreza, o mejor
demuestra. Casi la cuarta parte de los dicho sobre la adquisición de tal condición.
peruanos carecen de recursos para Investigaciones que estén orientadas y
alimentarse adecuadamente, es decir, permitan un mejor diseño e
viven en condiciones de pobreza extrema. implementación de las políticas públicas y

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 11


Centro de Investigación y Desarrollo

sociales. En tal sentido queremos afirmar En muchas de las investigaciones de


que el desarrollo que se viene dando en índole social y demográfica, la naturaleza
el mundo en muchos aspectos del del fenómeno a indagar, en este caso la
conocimiento, entre ellos en los campos condición ser jefe de hogar pobre o jefe
de la economía y la estadística, permiten de hogar no pobre y sus factores
explicar fenómenos a través del desarrollo determinantes de naturaleza social,
y análisis de enfoques cualitativos. económica y demográfica, podrían
determinar un tipo de enfoque
Con la selección del enfoque y la (proporciones muestrales u observaciones
formulación de modelos donde la variable individuales) a seguir dentro de lo que se
dependiente cualitativa es discreta constituyen los modelos con variable
dicotómica (2 niveles), para efectos de esta dependiente dicotómica y por lo tanto
investigación, ser jefe de hogar pobre o utilizar los modelos logit o probit en la
jefe de hogar no pobre; y expresada a explicación de este fenómeno.
través de variables o características sociales
y demográficas que pueden poseer los Desde la perspectiva estadística con que
individuos (el estado civil, experiencia se enfoca al fenómeno de pobreza, se
educacional, categoría ocupacional, puede evidenciar que no es aún clara la
acceso a activos públicos, etc) y el hogar idea de optar por alguno de los dos
(cantidad de miembros, ingreso per cápita modelos (el modelo Logit o el modelo
mensual), podemos colaborar aún más con Probit) siguiendo el enfoque de
explicaciones razonables a este vasto observaciones o casos individuales, pero
fenómeno de LA POBREZA, constituido que este último, permitiría saltar las
en el Perú actualmente por más de la limitaciones que posee el enfoque de
mitad de su población. proporciones muestrales o de clasificación
de casos u observaciones en función a sus
Actualmente, en nuestro país pueden factores determinantes de índole social,
estarse aplicando inadecuadamente demográfico, económico, etc.
modelos con estas características, debido
a la falta de un proceso de análisis En tal sentido nos vemos en la necesidad
adecuado que determine su correcta de proponer una metodología de análisis
utilización y que puede responder a un y utilización de los modelos logit y probit
desconocimiento y una falta de con variable dependiente dicotómica,
apoderamiento de las metodologías valiéndonos para ello de una explicación
adecuadas para su implementación y de la pobreza en los jefes de hogar del
como consecuencia directa una correcta Perú para el año 2001, cuantificando el
explicación de los fenómenos bajo estudio, aporte de sus factores determinantes entre
en donde la pobreza no se encontraría ellos el nivel de educación, los años de
sola, sino también otras manifestaciones estudios, la experiencia laboral, la
sociales como la situación laboral, la condición ocupacional, el acceso a activos
educación, o en el campo de la medicina públicos, etc; y como esta posibilita la
para el caso de enfermedades como la viabilidad de los enfoques de utilización
diabetes, etc. de dichos modelos y un mejor
acercamiento a su explicación.

12 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Para esto se analizará la información • ¿En qué medida los factores


recogida por La Encuesta Nacional de determinantes de índole cuantitativo
Hogares (ENAHO) - IV TRIMESTRE como el ingreso percápita mensual, los
Condiciones de Vida Y Pobreza, realizada años de estudios, la experiencia
por el Instituto Nacional de Estadística e laboral, la cantidad de miembros en el
Informática en el año de 2001. hogar, etc, influyen sobre un enfoque
de proporciones muestrales del
2.1 Formulación del Problema modelo probit y la pobreza de los jefes
de hogar del Perú?.
¿En qué medida una explicación de la
pobreza en los jefes de hogar del Perú se • ¿Resulta más eficaz una estimación del
vería beneficiada por la adopción de un modelo logit que una estimación del
enfoque de proporciones muestrales o por modelo probit en un enfoque de
un enfoque de observaciones individuales? observaciones individuales para
cuantificar el aporte de los factores
Sistematización del Problema explicativos de la pobreza en los jefes
de hogar?.
• ¿Cómo la pobreza en los jefes de
hogar del Perú a través de sus factores • ¿Qué similitudes y diferencias pueden
determinantes de naturaleza social, ser encontradas en ambos modelos y
económica y demográfica hacen cómo pueden verse estos reflejados y
factible el enfoque de proporciones contrastados desde el caso de la
muestrales o el enfoque de pobreza en el Perú- año 2001?
observaciones individuales en los
modelos logit y probit?.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 13


Centro de Investigación y Desarrollo

14 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

III. OBJETIVOS DE LA INVESTIGACION

3.1 Objetivo General sobre el enfoque de proporciones


muestrales del modelo probit y la
Determinar en qué medida una explicación pobreza en los jefes de hogar.
sobre la pobreza en los jefes de hogar del
Perú para el año 2001 es beneficiada • Comparar una estimación del modelo
siguiendo un enfoque de proporciones logit con una estimación del modelo
muestrales o un enfoque de observaciones probit en un enfoque de casos
individuales. individuales, para cuantificar el aporte
de los factores explicativos de la
3.2 Objetivos Específicos
pobreza en los jefes de hogar.
• Estudiar la relación entre los factores
determinantes de naturaleza social, • Analizar las similitudes y diferencias
económica, demográfica de la pobreza que puedan ser encontradas en ambos
en los jefes de hogar y los enfoques modelos y como pueden verse estos
de utilización de los modelos logit y reflejados y contrastados desde el caso
los modelos probit. de la pobreza en los jefes de hogar
• Analizar el grado de afectación de los del Perú.
factores de naturaleza cuantitativa

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 15


Centro de Investigación y Desarrollo

16 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

IV. MARCO TEORICO

4.1 BREVE FORMULACIÓN DEL nuestros hoy en día en pleno tercer


CASO DE LA POBREZA EN EL PERÚ milenio.

4.1.1 ¿Qué es la pobreza? 4.1.2 Enfoques y métodos para la


medición de la pobreza
La pobreza es una condición en la cual
una o más personas tienen un nivel de Existen 3 grandes enfoques para medir la
bienestar inferior al mínimo socialmente pobreza. El primero es el enfoque de la
aceptado. En una primera aproximación, pobreza absoluta, que toma en cuenta el
la pobreza se asocia a la incapacidad de costo de una canasta mínima esencial de
las personas para satisfacer sus necesidades bienes y servicios y considera como pobres
básicas de alimentación. Luego se a todos aquellos cuyo consumo o ingreso
considera un concepto más amplio que está por debajo de este valor.
incluye la salud, las condiciones de
vivienda, educación, empleo, ingresos, El enfoque de pobreza relativa considera
gastos y aspectos más extensos como la al grupo de personas cuyo ingreso se
identidad, los derechos humanos, la encuentra por debajo de un determinado
participación popular, entre otros1. nivel. Por ejemplo, en algunos países se
considera como pobres a todos aquellos
En general, todas las definiciones apuntan que tienen remuneraciones inferiores a la
a la situación en que se encuentran las mitad del ingreso promedio (Criterio
personas que no disponen de los medios aplicado en sociedades que han logrado
("de producción", activos físicos, erradicar la pobreza absoluta)
intelectuales, sociales, culturales,
financieros y demás) que permitan su El enfoque de la exclusión social, de
desarrollo personal y reflejen el estilo de absoluta vigencia en Europa, presta
vida de la formación social en su conjunto. atención a las personas que no pueden
El concepto de pobreza es evidentemente acceder a determinados servicios como
relativo y cambiante. Basta considerar las por ejemplo el empleo, la educación
diferencias de aquello que define a un superior, la vivienda propia, el empleo y
pobre en Suiza respecto de los satisfactores otros.
considerados relevantes en el Perú, así
como las características de la pobreza del Ahora dentro de lo correspondiente a los
siglo XIX en plena revolución industrial métodos de medición, solo nos
versus la que presentan países como los centraremos en el método de línea de

1/ INEI. Metodologías Estadísticas, Año 1-N°02 Metodología para la medición de la pobreza en el Perú.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 17


Centro de Investigación y Desarrollo

pobreza. Una explicación al por qué de su Pobreza Absoluta:


elección se dará a continuación. Consumo Hogar < Costo Canasta Básica
Consumo (LPA)
EL METODO DE LA LÍNEA DE
POBREZA-LP Pobreza Extrema:
Comprende a las personas cuyos hogares
Este método centra su atención en la tienen ingresos o consumos per cápita
dimensión económica de la pobreza y inferiores al valor de una canasta mínima
utiliza el ingreso o el gasto como medidas de alimentos.
del bienestar. Al determinar los niveles de Línea de Pobreza Extrema (LPE): Es el costo
pobreza, se compara el valor per cápita de una canasta mínima de alimentos.
de ingreso o gasto en el hogar con el valor
de una canasta mínima denominada línea Pobreza Extrema:
de pobreza. Consumo Hogar < Costo Canasta Básica
Alimenticia (LPE)
Cuando se utiliza el método de línea de
pobreza por el consumo, se incorpora el Después de mostrar, a modo general,
valor de todos los bienes y servicios que algunos enfoques y a grosso modo
consume el hogar, indistintamente de la métodos de medición de pobreza, que si
forma de adquisición o consecución. La bien es cierto no es uno de los objetivos
utilización del gasto de consumo tiene la explícitos de esta investigación medirla,
ventaja de que es el mejor indicador para pretendemos con ello guiar al lector hacia
medir el bienestar porque se refiere a lo la concepción y formulación de una
que realmente consume un hogar y no a variable que permita clasificar a un
lo que potencialmente puede consumir individuo de acuerdo a su nivel de
cuando se mide por el ingreso. Otro pobreza, en otras palabras, si este posee
aspecto favorable es que el consumo es o no la condición de pobreza.
una variable más estable que el ingreso,
lo que permite una mejor condición de la Según Sen (1992) la medición de pobreza
tendencia del nivel de pobreza. requiere realizar dos ejercicios distintos
pero interrelacionados: la identificación de
Así como existen enfoques y métodos para los pobres por un lado y la agregación por
medir la pobreza, existen definiciones que otro. Este último es el usado para obtener
nos permitirán centrar aún mejor la idea indicadores resumen del nivel(incidencia)
de nivel de pobreza que puede tener una de la pobreza. Para el caso de esta
persona y/o un hogar en particular. investigación solo realizaremos en alguna
medida el primer ejercicio.
Pobreza Absoluta:
Comprende a las personas cuyos hogares Esto quiere decir que necesitaríamos de
tienen ingresos o consumo per cápita un método de identificación para construir
inferiores al costo de una canasta total de lo que será la variable dependiente de las
bienes y servicios mínimos esenciales. estimaciones y es allí donde entra a tallar
Línea de Pobreza Absoluta (LPA): Es el el MÉTODO DE LÍNEA DE POBREZA(LP),
costo de una canasta mínima de definido anteriormente. Con lo cual se
bienes(incluido los alimentos) y servicios. define específicamente los valores que

18 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

podría tomar la variable en estudio: igual Si a = 2, arroja un indicador de severidad


a 1 si es un hogar pobre y 0 si es un hogar de la pobreza y que puede ser interpretado
no pobre, y como vamos a trabajar a nivel como la suma de dos componentes: la
de individuos, tomamos, 1 si fuese un Jefe brecha de pobreza y la desigualdad entre
de Hogar(JH) que pertenece a un hogar los pobres.
pobre y 0 si fuese un JH que no pertenece
a un hogar pobre. De acuerdo con lo anterior es posible
asignar a cada hogar un valor de intensidad
Obviamente, al trabajar con esta variable y de severidad de pobreza dado por los
dependiente no se podrá conocer la supuestos acerca del parámetro a de
intensidad de la pobreza2. Esta limitación dichas medidas. Esta forma de proceder
puede ser resuelta mediante el uso de las requiere de métodos de estimación
medidas FGT(Foster et al., 1984), que diferentes3, que no es motivo de estudio
surgen de la siguiente expresión: en este trabajo.
α
zi − yi
FGT α = H * ∑ (
1
) ECUACIÓN IV.1 LOS ACTIVOS DE LOS POBRES EN EL
N zi
PERÚ4

Donde: Yi es el ingreso de la i-ésima Tanto la distribución del ingreso como los


familia u hogar, Zi es la línea de pobreza niveles de pobreza han registrado
de ese hogar y a el parámetro de aversión importantes modificaciones a lo largo de
a la pobreza. las últimas cuatro décadas en el Perú. Más
allá de las diferencias metodológicas
Entonces, si a = 0 obtenemos, el asociadas al cálculo de estos indicadores,
porcentaje de pobres . la evidencia sugiere que en los últimos 40
años se habría reducido la dispersión en la
Si a = 1,obtenemos lo concerniente a distribución del ingreso. Asimismo, se
Brecha de Pobreza. habría producido una importante reducción
en los niveles de pobreza.

zi − yi
1

FGT 1 = H * ∑ (
1 De otro lado, un análisis de la distribución
)
N zi de activos durante los últimos 10 años
revela en general una continuación de las
Este es el denominado poverty gap de tendencias de largo plazo. El nivel
profundidad o intensidad de la pobreza. educativo medio sigue aumentando y la
A diferencia del anterior, esta medida desigualdad en el acceso a educación es
muestra la brecha existente entre el cada vez más baja. En cambio, en el caso
ingreso de los hogares pobres y la línea de los servicios públicos, si bien el acceso
de pobreza.

2/ En términos de Sen (Sen, 1976), ante la necesidad de obtener una medida agregada de la pobreza, H, ocurre que no se
satisfacen los axiomas de monotonicidad y transferencia. El primero establece que toda medida de pobreza bien conformada
debe reflejar las variaciones del ingreso de los hogares situados por debajo de la LP. El segundo, que la medida de pobreza
debe ser sensible a las transferencias de ingresos entre pobres y no pobres.
3/ Paz, Jorge. La pobreza en Argentina: una comparación entre regiones disímiles. Unas, 2001.
4/ Escobal, Javier; Saavedra, Jaime; Torero, Máximo. Los Activos de los pobres en el Perú. GRADE. 1998.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 19


Centro de Investigación y Desarrollo

medio ha ido aumentando, los niveles de indicador proxy de experiencia laboral y


desigualdad siguen siendo muy elevados. su edad como aquellos que pueden
Asimismo, el acceso al crédito es muy determinar su condición. En la misma línea,
diferenciado según los quintiles de gasto, factores correspondientes al hogar son la
mientras que el ahorro y los bienes cantidad de miembros en el hogar, ingreso
financieros durables, que son activos que per cápita mensual, la cantidad de personas
pueden fungir como colaterales, están en edad de trabajar, serían aquellos que
entre los activos peor distribuidos. determinan una mayor probabilidad de ser
Asimismo, reducciones en el tamaño de pobre.
la familia tienen un impacto positivo y
significativo sobre los activos privados. En
ese sentido, la concepción que un mayor 4.2. LOS MODELOS LOGIT Y PROBIT
tamaño de la familia implica un aumento CON VARIABLE DEPENDIENTE
de los recursos productivos de la familia, DICOTÓMICA (VDD)
y por lo tanto un mayor bienestar, no
encuentra sustento teórico. 4.2.1. Modelos con Variable
Dependiente Dicotómica (VDD).
Debido a la multidimensionalidad de la
pobreza, su análisis a través de los jefes En muchas situaciones, el fenómeno que
de hogar en función a sus factores de queremos estudiar no es continuo, sino
índole cualitativo y cuantitativo, en el discreto. Por ejemplo, cuando queremos
primer caso reflejado a través de posesión modelar la participación del mercado de
de activos privados como su nivel de trabajo, la condición de pobreza de un Jefe
educación, su condición ocupacional y de Hogar, la decisión sobre si se hace una
tamaño de la empresa donde trabaja, si compra o no. En el caso de la condición
posee algún otro empleo, y la influencia de pobreza existen estudios que sugieren
de aquellos factores inseparables de su que factores como la educación, la edad,
hogar y también de naturaleza cualitativa, el número de hijos y ciertas características
como el acceso a activos públicos como económicas, sociales, demográficas, etc;
agua y desagüe dentro de la vivienda, si que podrían ser relevantes para explicar si
algún lugar dentro de la vivienda es un individuo Jefe de Hogar está más
destinada para obtener ingresos juega un afecto a adquirir la condición de pobreza.
papel fundamental. Pero, obviamente, algo falta si se aplica
en este caso el mismo tipo de modelo de
Dentro de factores de naturaleza cualitativa regresión que utilizábamos para analizar
también resulta importante considerar la el consumo o los costes de producción, o
región y área natural de procedencia del algún otro fenómeno de naturaleza
jefe de hogar como factor preponderante cuantitativa.
para su condición de pobreza.
Vamos a analizar algunos modelos
Con respecto a los factores de naturaleza conocidos como modelos de respuesta
cuantitativa propios del jefe de hogar son cualitativa (RC), y lo que podemos
considerados los años de estudios, su mencionar es que tienen en común que

20 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

su variable dependiente es discreta, es En ninguno de estos casos parece posible,


decir puede tomar valores como "no" o en principio, utilizar el análisis de regresión
"sí" que pueden ser codificados como "0" clásico. Sin embargo, en todos ellos es
ó "1"; o quizás más valores "0", "1", "2" posible construir modelos que enlacen el
según sus categorías, para representar los resultado o la decisión a tomar a través de
resultados cualitativos respectivos. su aporte en la probabilidad de la
realización del fenómeno bajo estudio; con
Pero reflejemos esto en ejemplos un conjunto de factores, con la misma
concretos, el tipo de variable dependiente filosofía que en regresión. Entonces lo que
y el fenómeno en estudio: se hace es analizar cada uno de estos
modelos dentro de un marco general de
• Participación en el mercado de LOS MODELOS DE PROBABILIDAD.
trabajo: Donde 0 es "no" y 1 significa
"sí", donde la participación es Var. Pr(Ocurre suceso j) = Pr(Y=j) =
Dependiente nominal dicotómica, y se F(efectos relevantes: parámetros)
representa con 0 y 1 por comodidad.
Resulta conveniente agrupar estos
• Opinión sobre cierto tipo de modelos en dos grandes clases: aquellos
legislación: Donde que siguen un enfoque binomial, es
0 sería "totalmente opuesto" decir, si el resultado o fenómeno depende
1 para "opuesto" de la elección o la situación en dos
2 para "indiferente" alternativas. Para ello podemos mencionar
3 para " a favor" al respecto; que si tenemos a cada uno
4 para "totalmente a favor" de N individuos, casos u objetos que
Aquí vemos que se ordenan las pueden ser clasificados
respuestas no en función a su valor independientemente en 1 de 2 categorías
cuantitativo, sino por una cuestión de complementarias, ejemplo de ello puede
grado en la respuesta, en donde la ser cara o sello de un lanzamiento de
OPINIÓN es Var. Dependiente monedas, pacientes curados o no curados,
Ordinal. personas por sobre o debajo de un nivel
de ingreso, etc. En este caso se tiene que
• Área de trabajo escogida por un cada individuo tiene la misma probabilidad
individuo: Donde 0 es representar al p de estar en una de las dos categorías,
vendedor, 1 para ingeniero, 2 para por ejemplo si el Jefe de Hogar es pobre
abogado, 3 para político, y así (0 £ p £ 1); y la prob. 1-p de encontrarse
sucesivamente, y es de allí que en la otra categoría complementaria, es
podemos mencionar que AREA DE decir, si el Jefe de Hogar no es pobre.
TRABAJO es Var. Dependiente
nominal politómica5. Entonces la probabilidad de que X de los
N individuos sean pobres es:

5/ Variable nominal politómica, es aquella que en sus categorías no denota ningún tipo de ordenamiento ni grado específico,
otro ejemplo de ello lo constituye el estado civil (soltero, casado, viudo, conviviente, etc).

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 21


Centro de Investigación y Desarrollo

Donde x=0,1,2,3...N. 4.2.2. Formulación del modelo logit


y el modelo probit con variable
  N
P[ X = x] =   px (1− p)N −x dependiente dicotómica (VDD)
x
ECUACIÓN IV.2 Empezaremos esta formulación a partir de
la suposición de un modelo de
Así como existen en los modelos el probabilidad de condición de pobreza para
enfoque binomial, existe asimismo el Jefes de Hogar (JH), donde:
enfoque multinomial, que es aquel que
depende de una elección o resultado de Y=1 El JH se encuentra en condición de
más de 2 alternativas y que pueden pobreza
reflejarse en algunos de los ejemplos Y=0 El JH no se encuentra en condición
mencionados líneas antes y que resultan de pobreza.
en algunos aspectos novedosos pero que
son, en su mayor parte, extensiones de Vamos a suponer que un vector de
los casos binomiales. variables explicativas o conjunto de
factores que expliquen este fenómeno
Queremos dejar en claro aquí que en esta venga dada por:
investigación el enfoque que seguirá el
modelo será de tipo binomial, porque X= Nivel de Educación, Analfabetismo,
plantear uno de tipo multinomial Dominio Geográfico, Experiencia,
implicaría, que los diversos niveles de Estado Civil, Categoría Ocupacional,
condición de pobreza (no pobre, pobre y etc.
pobreza extrema), se encontrarían a un
mismo nivel de selección, vale decir, que Podemos imaginar que la primera idea
en el caso de pobreza absoluta y pobreza intuitiva que gira alrededor del fenómeno
extrema tendrían que considerarse como de la condición de pobreza es que esta
grupos excluyentes uno del otro, lo cual podría ser explicada a través del conjunto
no se da en este caso, pues la pobreza de factores mencionados, y cuánto es que
extrema es una condición mucho más estos contribuyen individual y en forma
precaria en todo aspecto que la pobreza conjunta a dicho fenómeno.
absoluta . Es este entonces nuestro punto
de partida para poder determinar y Entonces, autores como Green plantean
cuantificar el aporte de las variables o la siguiente idea:
factores que inciden sobre la probabilidad
que un jefe de hogar se encuentre en Sea:
condición de pobreza. En tal sentido los La probabilidad de que el Jefe de Hogar
modelos que más se adecuan en esta línea sea pobre:
son el modelo logit con variable
dependiente discreta dicotómica (a partir
P [Y = 1] = F ( X , β )
de ahora, VDD) y el modelo probit con
VDD. ECUACIÓN IV.3

22 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Y la probabilidad de que el Jefe de Hogar Y= b´X + e


no sea pobre: Modelo de Probabilidad Lineal. ECUACIÓN IV.5

P[Y = 0] = 1 − F ( X , β )
Pero este modelo de probabilidad lineal
presenta algunos incovenientes:
Donde el vector de parámetros(b) refleja
el aporte o impacto que X (vector de var. (i) e presenta heterocedasticidad que
explicativas) tiene como parte de la función depende de b, esto es si:
de distribución acumulada sobre la
probabilidad. Por ejemplo uno de los Y= 0 -> b´X + e=0 -> e= -b´X ,
factores que podría interesarnos sería ver donde p(y=0)= 1-F
el efecto que el nivel de educación tiene
sobre la probabilidad de ser pobre. Y= 1 -> b´X + e=1 -> e= 1-b´X,
donde p(y=1)= F
A partir de este punto la incógnita cae
sobre el lado derecho de dicha ecuación Entonces tendríamos que
y sobre cómo plantear un modelo V(e) = (-b´X) (1-b´X)
adecuado para este. ECUACIÓN IV.6

Una solución a ello puede darse en un (ii) El incoveniente más serio es que no
modelo de regresión lineal. se puede asegurar que las predicciones
F ( X , β ) = β ´X parezcan verdaderas probabilidades. No
ECUACIÓN IV.4 se puede restringir b´X al intervalo
Tenemos que: [0,1], lo cual origina tanto varianzas
negativas como probabilidades
E(Y / X ) = 0*Pr(Yy = 0) + 1*Pr( y = 1) imposibles.
E (Y / X ) = F ( X , β )
Entonces para un vector de regresores
A partir de lo anterior podemos construir:
dado, esperaríamos que [Gráfico IV.1]:
Y = y = E[y/x] + [y-E[y/x]]
= F(x,b) + e

Gráfico IV.1

Limβ ´x−>+∞ Pr(Y = 1) = 1

Limβ ´x−>−∞ Pr(Y = 1) = 0


b´X

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 23


Centro de Investigación y Desarrollo

Analizando el gráfico anterior, vemos que individuales: Ii=b´x , que determina


para los requisitos especificados la decisión tomada para cada individuo
anteriomente, en principio bastaría trabajar o la condición que este posee frente a
con una Función de Distribución un fenómeno dado. Es decir, el
Acumulada definida sobre la recta real, en individuo toma la decisión o se
tal sentido las funciones idóneas para tal encuentra en el estado Yi=1 si el valor
efecto vienen a ser la Normal y la Logística. de su indicador es superior a un cierto
valor crítico I*, y la decisión contraria
Es natural ahora preguntarse ¿Cuál de las o se encuentre en el otro estado si
dos debe usarse?, la respuesta a esa Yi=0. Es decir, el indicador Ii refleja el
pregunta y otras que se han empezado a sentimiento del decisor frente a la
formar, van a ir siendo resueltas en la opción indicada Yi=1, de modo que
medida de lo posible en la secciones si su predisposición, indicada por Ii es
siguientes. suficientemente grande (mayor que
Ii*), escoge dicha opción, y si no,
Supongamos ahora que en vez de utilizar elegirá la opción alternativa.
la función lineal de probabilidad de X para
caracterizar esta condición, utilizamos una Por ser desconocido, consideramos el
función monótona [F(b´x )] creciente del valor crítico I* del indicador para cada
producto b´x, es decir, variables explicativas individuo como una variable aleatoria.
y aportes. Esta formulación es más general Entonces de acuerdo con esta
que la del modelo lineal de probabilidad interpretación, la probabilidad de que
y, en consecuencia, el procedimiento de el individuo i-ésimo elija o posea la
estimación de los parámetros así como la condición Yi=1 viene dada por:
forma en que dichos valores deben
interpretarse, es ahora diferente. Pi = P(Yi = 1) = P(Ii* ≤ Ii ) = F (β´x)
ECUACIÓN IV.7
- Al usar esta transformación, podemos
ver que basta tomar una función real F
Donde F es la distribución de
acotada entre 0 y 1 para que el
probabilidad de la variable aleatoria I*.
problema que se originaba sobre el
rango de las probabilidades
desaparezca. En efecto, ahora vemos 4.2.3. Caracterización de los modelos
que P = F(b´x) está siempre entre 0 y logit y probit aplicados al caso
1, con independencia de los valores de la pobreza en el Perú.
que toman los factores explicativos y
sus efectos marginales. Es por ello que 4.2.3.1. El Modelo Logit
las funciones de distribución de
variables aleatorias son candidatos Supongamos el siguiente ejemplo, se tiene
importantes a ser elegidas para estas que Y (1 = jefe de hogar pobre, 0 = jefe
transformaciones. de hogar no pobre) en función al ingreso
familiar X(S/.) para un conjunto de familias.
- Suponga que existe un indicador que Se tiene la siguiente representación de la
depende de las características condición de pobreza:

24 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Por consiguiente, se puede escribir


1
Pi = E( y = 1/ Xi) =
1+ e−( β 1+β 2 X ) Pi 1 + eZi
ECUACIÓN = − Zi
= eZi
IV.8 1 − Pi 1 + e ECUACIÓN IV.11
Para facilidad de la exposición, se escribe
[ECUACIÓN IV.8] como:
Ahora Pi / (1-Pi) es sencillamente la razón
de probabilidades (´Odds Ratio´) a favor
1
Pi = E( y = 1/ Xi) = −( β 1+β 2 X )
de ser jefe de hogar pobre- la razón de la
1+ e probabilidad de que un jefe de hogar sea
donde Z i = (β 1 + β 2X ) pobre a la probabilidad de que no sea
ECUACIÓN IV.9 pobre. Así, si Pi = 0.8, significa que las
probabilidades son 4 a 1 a favor de que el
La [ECUACIÓN IV.9] representa lo que jefe de hogar sea pobre.
se conoce como función de distribución
logística (acumulativa). Es fácil verificar que Ahora, si se toma el logaritmo natural de
a medida que Zi se encuentra dentro de [ECUACIÓN IV.11], se obtiene un
un rango de - ∞ a + ∞ , Pi se encuentra resultado muy interesante, a saber,
dentro de un rango 0 a 1 y que Pi no está
 Pi 
linealmente relacionado con Zi (es decir Li = ln   = Zi = β 1 + β 2 X
con Xi), satisfaciendo así requerimientos  1 − Pi 
que son considerados. Pero parece que al ECUACIÓN IV.12
satisfacer estos requerimientos se ha
creado un problema de estimación porque es decir, Li, el logaritmo de la razón de
Pi es no lineal no solamente con X sino probabilidades no es solamente lineal en
también en los β , como puede verse Xi, sino también (desde el punto de vista
claramente a partir de la [ECUACIÓN de estimación) lineal en los parámetros, L
IV.8]. Esto significa que no se puede utilizar es llamado Logit y de aquí el nombre
el procedimiento familiar MCO para modelo LOGIT para modelos como la
estimar los parámetros. Pero este problema [ECUACIÓN IV.12].
es más aparente que real porque la
Obsérvense estas características del
[ECUACIÓN IV.8] es intrínsecamente
modelo Logit:
lineal, lo cual puede verse de la siguiente
manera. (a) A medida que P va de 0 a 1 (es decir,
a medida que Z varía de -∞ a +∞ , el
Si Pi, la probabilidad de ser jefe de hogar
Logit L va de - ∞ a + ∞ ). Es decir,
pobre, está dada por la [ECUACIÓN IV.9]
aunque las probabilidades (por
entonces (1 - Pi), la probabilidad de jefe
necesidad) se encuentran entre 0 y 1,
de hogar no pobre.
los Logit no están limitados en esa
forma.
1
1 − Pi = (b) Aunque L es lineal en X, las
1 + e Zi ECUACIÓN IV.10 probabilidades en sí mismas no lo son.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 25


Centro de Investigación y Desarrollo

Esta propiedad hace contraste con el De modo que:


modelo de MPL, en donde las
probabilidades aumentan linealmente
β ´x = Φ −1 ( P )
con X.

La probabilidad correspondiente a un
(c) La interpretación del modelo Logit es
vector X de factores que contribuyen a
el siguiente: β 2 , la pendiente, mide explicar un fenómeno, como el de la
el cambio en L ocasionado por un pobreza es ahora:
cambio unitario en X, es decir, dice
como el logaritmo de las β ´x
1 − t2
probabilidades a favor de ser jefe de
hogar pobre cambia a medida que el
P =
2π ∫
−∞
e 2
dt
ingreso cambia en una unidad, por
ejemplo de S/. 100. El intercepto β1 ECUACIÓN IV.14

es el valor del logaritmo de las


Como se ha podido apreciar
probabilidades a favor de ser jefe de
anteriormente, para explicar el
hogar pobre si el ingreso es cero.
comportamiento de una variable
dependiente dicotómica, es preciso utilizar
(d) Dado un nivel determinado de
una FDA seleccionada apropiadamente. El
ingresos, por ejemplo, X, si realmente
modelo Logit utiliza la función distribución
se desea estimar la probabilidad misma
logística acumulativa. Pero esta no es la
de ser jefe de hogar pobre, y no las
única FDA que se puede utilizar. En
probabilidades a favor de ser jefe de
algunas aplicaciones, la FDA normal se ha
hogar pobre , esto puede hacerse
encontrado útil. El modelo de Estimación
directamente a partir de la
que surge de una FDA normal es
[ECUACIÓN IV.8], una vez que se
comúnmente conocido como el modelo
disponga de las estimaciones de β 1 y β 2. Probit, aunque algunas veces también es
conocido como el modelo normit. En
(e) Mientras que el MLP supone que Pi principio, se puede sustituir la FDA normal
está linealmente relacionado con Xi, por la FDA logística y proceder de acuerdo
el modelo Logit supone que el al modelo Logit. Pero en lugar de seguir
logaritmo de la razón de probabilidades este camino se presentará el modelo probit
está relacionado linealmente con X. basado en la teoría de utilidad o de la
perspectiva de selección racional con base
4.2.3.2. EL MODELO PROBIT en el comportamiento, según el modelo
desarrollado por McFadden.
Si se elige como función F la función de
distribución f de una variable normal (0,1), Para motivar el modelo Probit supóngase
se tiene: el ejemplo de condición de pobreza, la
posesión del i-ésimo jefe de hogar de la
P = E( y / x) = P(Y =1/ x) = P[I* ≤ I ] =Φ(β´x) condición de pobreza o de no poseerla,
ECUACIÓN IV.13 medida a través de un índice imperfecto

26 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

de conveniencia Ii que está determinado la cual depende nuestra variable


por una o varias variables explicativas, por observable.
ejemplo, el ingreso Xi, de tal manera que
entre mayor sea el valor del índice, mayor Dado el supuesto de normalidad, la
será la probabilidad de que el jefe de hogar probabilidad de que Ii* sea menor o igual
sea pobre. Se expresa el índice Ii, como: que Ii, puede ser calculada a partir de la
FDA normal estándar como:
Ii = β 1 + β 2 Xi
ECUACIÓN IV.15
Pi = Pr(Y = 1) = Pr( Ii* ≤ Ii) = F ( Ii) =

¿Cómo se relaciona el Ii, índice imperfecto 1 I −2t


i
2
1
β 1+ β 2 Xi −t 2

de conveniencia con la condición =


2π −∞

e dt =
2π −∞

e 2 dt
específica de ser pobre? Sea Y=1 si es
jefe de hogar pobre y Y=0 si no es. Ahora
bien, es razonable suponer que para cada ECUACION IV.16

individuo hay un nivel crítico o umbral


del índice, que se puede denominar Ii*, donde t es una variable normal
tal que si Ii excede a Ii*, el jefe de hogar estandarizada, es decir, t® N(0,1).
es pobre, de lo contrario no lo es. El nivel
crítico Ii*, al igual que Ii, no es observable, Puesto que Pi representa la probabilidad
y se supone que está distribuido de que ocurra un evento, en este caso la
normalmente con la misma media y probabilidad de poseer la condición de
varianza, y por lo tanto es posible no pobreza, ésta se mide por el área de la
solamente estimar los parámetros del curva normal estándar de -¥ a Ii, como se
índice, sino también obtener alguna muestra en la figura siguiente [GRAFICO
información sobre el índice imperfecto de IV.2]:

Gráfico IV.2

Pi Pr( Ii * ≤ Ii ) Pi

I i = F −1 ( P i )
Ii = β 1 + β 2 X

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 27


Centro de Investigación y Desarrollo

Ahora, para obtener información sobre Ii, obtendría el valor de Ii, dado el valor de
el índice de utilidad, lo mismo que para Pi, es decir, evaluar la probabilidad en la
los coeficientes estimados se toma la inversa de la FDA Normal.
inversa de [ECUACIÓN IV.7] para obtener:

4.2.3.3. Similitudes y diferencias en


Ii = F −1 ( Pi) = β 1 + β 2 Xi ambos modelos
ECUACIÓN IV.17

Podemos ver que la distribución logística :


Donde F −1 es la inversa de la FDA es similar a la distribución normal, excepto
normal. El significado de todo esto puede por sus colas, (la distribución Logística se
aclararse con la figura anterior [GRÁFICO parece más a la distribución t con siete
IV.2], donde en la figura del lado izquierdo grados de libertad).
se obtiene (de la ordenada) la probabilidad
(acumulada) de ser jefe de hogar pobre Analicemos la siguiente gráfica [GRÁFICO
dado Ii* menor o igual que Ii, mientras IV.3], que compara ambas funciones de
que en la parte derecha (de la abcisa) se distribución.

Gráfico IV.3

-20 -10 0 10 20

La FDA Normal es aquella gráfica • La PRIMERA REGIÓN, la inferior


alrededor(______) de la recta real más izquierda, muestra que para el
gruesa y la recta de segmentos (--------) fenómeno en estudio Y=1, por
viene a ser la FDA Logística y el eje vertical ejemplo: si el Jefe de Hogar es pobre,
se desplaza entre 0 y 1. las estimaciones del modelo Logit
producirían mayores contribuciones
De aquí podemos empezar a analizar cada para la probabilidad de ser pobre en
una de las 3 regiones formadas: función a sus factores explicativos, que
el modelo probit.

28 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

• La SEGUNDA REGIÓN, la central, Por sencillez de cálculo pueden existir


muestra que las 2 distribuciones razones prácticas para preferir una u otra
generan estimaciones similares, es más distribución; pero desde el punto de vista
autores como Amemiya dan un teórico resulta difícil justificar esta elección.
intervalo de variación para dichas Amemiya (1981) analiza varios aspectos
estimaciones similares < -1.2, 1.2 >. relacionados con esta cuestión pero, en
términos generales, puede decirse que
• La TERCERA REGIÓN, la superior este problema no se ha resuelto aún.
derecha, muestra que el modelo probit
generaría mejores estimaciones de los Los efectos marginales en ambos
aportes de las variables en la modelos
probabilidad de ser pobre que el
Hay que considerar que el modelo de
modelo Logit.
probabilidad es un modelo de regresión:
Debemos hacer énfasis en que ambos
E[y/x] = 0*[1-F(b´X)] + 1*[F(b´X)]
modelos presentan muchas similitudes
= [F(b´X)]
con respecto a su representación de
probabilidad, visiblemente apreciable en
Y que sea cual fuere la distribución que
la gráfica anterior, y con respecto a sus
se utilice, es importante observar que los
estimaciones en la mayoría de aplicaciones
parámetros (b´X) del modelo, como los
parece que se llega a los mismos resultados
de cualquier modelo de regresión no
partiendo de una aplicación u otra.
lineal, no son necesariamente los efectos
marginales comunes analizados.
Es de conocimiento que cabe esperar que
los 2 modelos originen predicciones o ∂E[ y / x]  dF(β´x) 
aportes diferentes en los factores si la =  β = f (β´x)β
∂x  d (β´x) 
muestra contiene:
ECUACIÓN IV.18

• Pocas respuestas afirmativas (Y=1), es


Donde f(.) es la función de densidad
decir, pocas observaciones para JH
asociada a la Función de distribución F(.).
(Jefe de Hogar) en condición de
pobreza; y del mismo modo, pocas
Para la distribución normal:
respuestas para (Y=0), vale decir,
pocas observaciones para JH en status ∂E [ y / x ]
de no pobreza = φ ( β ´x ) β
∂x
ECUACIÓN IV.19
• Gran variación en una variable
independiente de importancia,
Siendo f(b´x) la función densidad normal
especialmente si se cumple lo
estándar.
mencionado en el párrafo anterior, por
ejemplo: presentar una variación
Para el caso de la distribución logística:
considerable con respecto a los niveles
de educación de los JH de la población d Λ [ β ´x ] e β ´x
en estudio. =
d ( β ´x ) (1 + e β ´ x ) 2
ECUACIÓN IV.20

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 29


Centro de Investigación y Desarrollo

Lo que es sumamente práctico. Así en el Los modelos de variable dependiente


modelo logit. discreta aparecen con frecuencia como
modelos con función índice, es decir,
∂E[ y / x] interpretamos el resultado de una elección
= Λ ( β ´x)[1 − Λ ( β ´x)]β discreta como un reflejo de una regresión
∂x subyacente. Pero el significado de esto lo
ECUACIÓN IV.21
entenderemos a través de un ejemplo:

Para interpretar el modelo estimado, Supongamos que tenemos que tomar una
resulta útil calcular estos efectos decisión para hacer una compra
marginales en varios valores de x: por importante.
ejemplo en las medias de los regresores
o en otros puntos que puedan resultar de Teoría: Consumidor hace cálculo Beneficio
interés. marginal - Coste marginal : Obtener una
utilidad y tomar una decisión..

Gráfico IV.4

BENEFICIO REALIZA COMPRA


DECISIÓN COMPRA
IMPORTANTE UTILIDAD
EMPLEA DINERO
COSTE OTRA COSA

Podemos apreciar que el beneficio Donde b´X, recibe el nombre de función


marginal es evindentemente no observable índice.
(no tangible), modelizamos la diferencia
entre beneficio y coste con una variable Cabe recalcar que se deben considerar
no observable y cumple. algunos aspectos en la construcción de (*):

y* = β ´x + ε • Primero: La hipótesis de varianza


ECUACIÓN IV.22
unitaria es una normalización que no
Suponemos que la distribución de juega ningún papel importante.
ε  → N (0,1) ó Logística, entonces, no Supongamos que la varianza de ε es
se observa el beneficio neto de la compra, en realidad σ 2 y multipliquemos
sólo si esta se hace o no. entonces los coeficientes por σ .
Y=1 si Y*>0 (*) Nuestros datos observados no varían:
Y=0 si Y*£0 y es 0 ó 1, dependiendo únicamente

30 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

del signo de y*, no de la escala en observando la respuesta de ni individuos,


que se midan los datos. todos ellos con la misma xi. La variable
dependiente observada será la proporción
• Segundo: La hipótesis de que el (Pi) de los ni individuos ij para los cuales
umbral es 0, tampoco juega ningún yij = 1. Una observación es por tanto [ ni,
papel si el modelo contiene término Pi, xi], i = 1,...,N. Los datos electorales
constante6. constituyen un ejemplo típico8. En el caso
de datos dados en forma agrupada, pueden
La probabilidad del suceso Y=1, jefe de analizarse la relación entre Pi y xi no sólo
hogar pobre, se puede ver como sigue: utilizando los estimadores de máxima
verosimilitud, sino también métodos de
Pr( y*〉 0) = Pr( β ´ x + ε 〉 0) = regresión. La proporción observada Pi, es
un estimador de la cantidad poblacional
Pr(ε 〉 − β ´x) = 1 − F (− β ´x) π i = F ( β ´xi ) . Si consideramos esta
igualdad como un sencillo problema de
Si la distribución es simétrica7, como lo muestreo en una población Bernoulli,
son la normal y la logística. utilizando los resultados básicos de
estadística obtenemos que:
Pr( y *〉 0) = Pr(ε 〈 β ´ x ) = F ( β ´ x )
Pi = F ( β ´xi ) + ε i = π i + ε i , siendo
De este modo se habría obtenido un
modelo estructural para la probabilidad y π i (1 − π i )
como esta depende de la FDA Normal o
E (ε i ) = 0 , Var (ε i ) =
ni
Logística.
Este formato de regresión heterocedástica
sugiere que los parámetros podrían
Análisis de datos a través de estimarse utilizando una regresión de
proporciones muestrales mínimos cuadrados ponderados no
lineales. Para no detallar más podemos
Cuando se analizan respuestas binarias, los decir que este análisis y su estimación
datos vendrán dados de una de las dos correspondiente será abordada en las
formas siguientes: o bien, tal y como se secciones posteriores de esta
ha considerado hasta ahora, de forma investigación. Lo que podemos mencionar
individual (es decir, cada observación está por ahora es que en la práctica surgen dos
formada por la respuesta del individuo y complicaciones con respecto a los errores
un vector de regresores asociados a él en este enfoque. Primero, cuando la
[Yi, Xi ]), O bien de forma agrupada (es proporción se calcula utilizando una
decir, los datos consisten en proporciones muestra de gran tamaño, la varianza del
o recuentos de observaciones). Los datos estimador puede llegar a ser sumamente
en forma agrupada se obtienen pequeña. Ello originará que en la regresión

6/ Ha no ser que haya poderosas razones, los modelos binomiales deben incluir constante (Green)
7/ En distribuciones simétricas se tiene que: 1 - F(b´X) = F(-b´X)
8/ Los estudios iniciales sobre modelos probit se desarrollaron en laboratorios. Cada observación consistía en n individuos que
i
recibían una cierta dosis x , la proporción P respondían al tratamiento. Véase Finney (1971) y Cox (1970).
i i

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 31


Centro de Investigación y Desarrollo

de mínimo chi-cuadrado los errores utiliza consiste en sumar o restar un valor


estándar sean inverosímilmente pequeños constante pequeño, por ejemplo, 0.001,
y los estadísticos t enormemente grandes. al valor observado cuando éste sea 0 ó 1.
Por desgracia, todo esto es consecuencia
de la estructura del modelo. A los mismos De lo anteriormente expresado, en esta
resultados se llega si se estima por máxima investigación se tratará de desarrollar una
verosimilitud con datos de proporciones. metodología que permita cuantificar el
aporte de los factores asociados a la
Segundo, es imposible obtener tanto el pobreza con su correspondiente
estimador de máxima verosimilitud como probabilidad de ser pobre para el jefe de
algún otro relacionado, si una de las dos hogar en los modelos Logit y Probit con
proporciones es 0 ó 1. Se han sugerido variable dependiente dicotómica,
varias posibles soluciones específicas para utlizando criterios de enfoque a nivel
este caso, la que con más frecuencia se teórico y práctico.

32 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

V. HIPOTESIS DE INVESTIGACIÓN

• Los factores de naturaleza cuantitativa donde labora, la tenencia de otro


como el ingreso per cápita mensual del empleo, el estado civil, su edad, su
hogar expresado a través de sus déciles indicador de experiencia laboral; en
de ingreso, los años de estudios del combinación con los factores de
jefe hogar, etc, generan un modelo naturaleza cualitativa y cuantitativa
correctamente ajustado a la exclusivos del hogar como el indicador
probabilidad de ser pobre de los jefes de si el hogar dedica un espacio del
de hogar expresado a través de su hogar a generación de ingresos, la
estadístico de bondad de ajuste cantidad de miembros en el hogar, la
pearson c2 dejando de lado las cantidad de miembros pertenecientes
limitaciones del tamaño de muestra, a la PET, el ingreso per cápita mensual,
en el enfoque de proporciones el acceso a activos públicos de agua y
muestrales del modelo probit. desagüe, no permiten generar modelos
correctamente ajustados a la
• Los factores explicativos de la pobreza probabilidad de ser pobre del jefe de
en los jefes de hogar de naturaleza hogar siguiendo el enfoque de
cualitativa y cuantitativa exclusivos de observaciones individuales o no
estos como el nivel de educación, el clasificación en los modelos logit y
tipo de colegio de estudio, la categoría probit.
ocupacional, el tamaño de la firma

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 33


Centro de Investigación y Desarrollo

34 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

VI. METODOS

6.1 Tratamiento de Errores en la Las condiciones de primer orden del


adecuación de ambos modelos, problema de maximización requieren que
análisis de factores explicativos
observables y no observables ∂ ln L n
 y if i − fi 
∂β
= ∑F + (1 − y i )
(1 − F i ) 
xi = 0
i =1  i

Casi todos los modelos de elección binaria, ECUACIÓN VI.3


excepto el modelo de probabilidad lineal,
se estiman habitualmente por el método En la ecuación anterior y en lo que sigue,
de máxima verosimilitud. Cada se utilizará el subíndice i para indicar que
observación se considera como realización la función se evalúa en b´X, es decir, en
individual de una variable aleatoria con el conjunto de factores explicativos al
distribución Bernoulli (es decir, binomial fenómeno. Al seleccionar una forma
con n=1). La probabilidad conjunta o concreta para Fi se obtiene un modelo
función de verosimilitud, de un modelo empírico.
con probabilidad de éxito F( b´X) y
observaciones independientes es: A menos que se utilice el modelo de
probabilidad lineal, las ecuaciones
Pr(Y1 = y1, Y2 = y2, ..., Yn = yn) =
contenidas en la fórmula anterior serán no
Pr(Y1 =1, Y 2 = 0, ..., Yi =1, .., Yn = 0) lineales y habrán de resolverse de modo
= ∏[1− F(β´xi)]∏F(β´xi) iterativo.
yi=0 yi=1

ECUACIÓN VI.1
6.1.1 Los métodos de estimación
Podemos reescribir la fórmula anterior según enfoques
como:
MODELO PROBIT
n
L= ∏ [ F ( β ´ x )]
i =1
yi
[1 − F ( β ´ x )]1 − y i Estimación de mínimos cuadrados con
enfoque de proporciones muestrales
ECUACIÓN VI.2

Esta es la función de verosimilitud para una El modelo original relaciona las frecuencias
muestra de n observaciones. observadas pi, con las probabilidades (Pi)
que resultan de las clasificaciones de los
n
factores explicativas, por ejemplo el
ln L = ∑[ yi ln F (β´xi) + (1− yi)ln(1−F (β´xi))] 9
i =1
ingreso per cápita mensual, por medio de:

9/ Como vimos hace un momento en distribuciones simétricas 1-F(b´x)=F(-b´x). Definiendo q=2y-1, entonces lnL=SlnF(qb´x).

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 35


Centro de Investigación y Desarrollo

pi = ( Pi + ui ) Estimación de máxima verosímilitud


para observaciones individuales
por lo que
Φ −1 ( pi ) = Φ −1 ( Pi + ui ) El procedimiento de estimación MV es
preciso cuando no es posible agrupar las
De aquí esta expresión pude aproximarse observaciones según los valores del vector
por: Xi. En tal situación, carece de sentido hablar
de proporciones muestrales. En dichos
1
Φ −1 ( pi ) → Xi `β + ui casos, la estimación por MV evita los
f ( Xi `β ) problemas ya citados acerca de la
estimación MCG del modelo lineal de
El modelo probit puede por tanto probabilidad. Por otra parte el estimador
estimarse de modo aproximado por una de MV es eficiente, y se calcula sobre el
regresión de los llamados "probits" modelo original, sin necesidad de ninguna
muestrales Φ −1 ( pi ) sobre el vector Xi. aproximación.

En el caso del MODELO PROBIT, la


Se trata de calcular las frecuencias
función de verosimilitud sería:
muestrales pi, obtener los valores Φ −1 ( pi )
a partir de la tablas de la distribución N(0,1) Reemplazando [Ecuación iv.9] en
y estimar la regresión descrita. [Ecuación vi.1]

N
Ahora bien, los residuos tienen
L = ∏ [Φ ( β ´x)] yi [1 − Φ( β ´x)]1− yi
heterocedasticidad, puesto que: 1

ui Pi (1 − Pi ) Nótese que para cada individuo i el


var( ,` ) = ,
f ( Xi β ) ni[ f ( Xi `β )]2 término correspondiente en la función de
ECUACIÓN VI.4 verosimilitud es simplemente Φ ( β ´x ) o
1 − Φ ( β ´x ) , dependiendo de si Y=1,
Por lo que habrá que utilizar mínimos
cuadrados generalizados. jefe de hogar pobre, ó Y=0, jefe de hogar
no pobre.
, ,
β = ( X `Σ −1 X ) −1 X `Σ −1π
Por tanto la función logaritmo de la
verosimilitud se obtiene del logaritmo de
Con una matriz Σ diagonal, con la expresión anterior, y tomando sus
elementos genéricos dados por [Ecuación
derivadas con respecto al vector β se
vi.4] donde π es el vector de probits
tienen las k condiciones necesarias de
muestrales. Como la matriz Σ es
optimalidad:
desconocida, hay que estimarla, para lo
que se podría utilizar: a) las frecuencias
N
φi N
−φ i
observadas pi, o bien b) las predicciones
∑Y Φ i x i + ∑ (1 − Y i )
1 − Φi
xi = 0 k
Pi obtenidas a partir de un modelo de 1 i 1

probabilidad lineal previamente estimado. ECUACIÓN VI.5


ó

36 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

de I(b) y S(b) antes obtenidas puede verse


N
Yi −Φ(β´x)
S(β ) = ∑ φ(β´x)xi = 0 fácilmente que si se hace el cambio de
1 Φ(β´x)[1−Φ(β´x)] variables:
ECUACIÓN VI.6 xijφ ( β ´x)
xij * =
Φ( β ´x)(1− Φ( β ´x)) ,
donde S(b) denota el vector gradiente de
la función de verosimilitud. Si derivamos j=1,2,....,K ECUACIÓN VI.9
de nuevo en la expresión anterior con
respecto al vector b, se obtiene la matriz que forma, para cada observación i, un
Hessiana, y tomando esperanza en esta y vector de dimensión k, e:
cambiando de signo se obtiene finalmente
la matriz de información, I(b): yi − Φ ( β ´x )
yi =
*

Φ ( β ´ x )(1 − Φ ( β ´ x ))
N
[φ ( β ´ x )] 2
I (β ) = ∑1 Φ ( β ´ x )[1 − Φ ( β ´ x )]
x i x i´ ECUACIÓN VI.10

ECUACIÓN VI.7 entonces la corrección a introducir en el



Conviene hacer hincapié en que en las estimador β n − 1 coincide con los
expresiones anteriores N denota el
número total de observaciones, por lo que coeficientes estimados por mínimos cuadrados
prescindiendo de clasificaciones, hay que ordinarios en una regresión que utilizase yi*
considerar un sumando para cada como variable a explicar, y xi* como vector
observación muestral. En particular, en de variables explicativas, utilizando los

estos problemas es más sencillo utilizar el β n − 1 para calcular xij * y yi*.
método del scoring10, razón por la que
hemos calculado directamente la matriz
MODELO LOGIT
de información a partir de la matriz de
Estimación de máxima verosímilitud
derivadas segundas de la función de
para observaciones individuales.
verosimilitud con respecto al vector b. La
inversa de la matriz de información será La función de verosimilitud muestral es:
además la matriz de covarianzas del Reemplazando [ECUACION IV.4] en
estimador de MV del vector b. El [ECUACION VI.1]
procedimiento de estimación de MV
utilizaría: L = ∏Y i =1
F ( β ´ x ) ∏ [1 − F ( β ´ x ) ] =
Yi = 0

N
[φ ( β ´ x )] 2
I (β ) = ∑
N

Φ ( β ´ x )[1 − Φ ( β ´ x )]
x i x i´ ( ∑ Y i ( β ´ x ))
1 e 1

ECUACIÓN VI.8 N

∏ 1
[1 + e β ´ x ]

que proporciona la corrección que hay que o, lo que es lo mismo:


introducir en el estimador del vector b en
cada iteración. Al sustituir las expresiones ln L = ∑1 Yi ( β ' x) − ∑1 ln(1 + e β ´ x ) =∑
N N

10/ Especialmente diseñado para el caso en que se pretende obtener el EMV, este algoritmo se basa en la propiedad de que
la esperanza matemática de la matriz hessiana de la función de verosimilitud (es decir, la matriz de información cambiada
de signo). Así se ha sugerido como aproximación, sustituir la matriz de derivadas segundas por la matriz de información,
∧ ∧ ∧ ∧
teniéndose el llamado algoritmo de "scoring" θ n = θ n − 1 + [ I (θ n − 1)]−1 ∇ ln L (θ n − 1)

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 37


Centro de Investigación y Desarrollo

∑ i i´) β −
∑1 ln(1 + eβ ´x )
N N
(Yx ∧ ∧
x i * = x i P I (1 − P i )
1

ECUACIÓN VI.11
ECUACIÓN VI.14
z´= ∑1 Yx
N
y denotando por i i´ un vector

fila 1 x k se tiene:
(Y i − P i )
Yi = *
∧ ∧
P i (1 − P i )
ln L = z´β − ∑1 ln[1 + e β ´x
N
]
ECUACIÓN VI.15
y

∂ ln L β´x
y el cambio a introducir en el vector β
= z − ∑1
N e xi 0
S(β ) = = 0k
∂β 1 eβ´x
+ viene dado por los coeficientes estimados
ECUACIÓN VI.12 por mínimos cuadrados ordinarios en una
regresión Yi* sobre el vector xi*.
y este sistema de k ecuaciones no lineales
debería, en principio, resolverse por El algoritmo se itera hasta conseguir su
procedimientos numéricos, para obtener convergencia, y se utiliza la inversa de la
el vector de estimaciones b. La matriz de matriz de información evaluada en el
información es: último estimador obtenido como
estimación de la matriz de covarianzas de
eβ ´x xx
i i´
I (β ) = ∑1 = ∑1 xP
i i (1 − Pi ) xi´ b. Por otra parte, los métodos de inferencia
N N

1 + eβ ´x que consideran esta matriz de covarianzas


ECUACIÓN VI.13 son válidos, ya que el estimador máximo
verosímil resultante tiene distribución
Para estimar el valor b por el algoritmo del normal asintótica. Las probabilidades de
"scoring" se comienza de un estimador bo que un individuo con características Xi
y se actualiza por medio de: escoja la acción o se situe dentro del
estado que hemos catalogado como Yi=1,
β 1 = β 0 + [ I ( β 0)]−1 S ( β 0) (estar en condición de pobreza) se estiman
mediante la expresión:
En realidad, la matriz S(b) puede escribirse ∧
e β ´x
también: Pi =
1 + e β ´x
S ( β ) = ∑ 1 Y ix i − ∑ 1 = ∑ 1 (Yi − P i ) x i
N N xi N

1 + e − β ´x Luego de mostrar como la teoría estadística


1 de ambos modelos propone su desarrollo,
donde Pi = , por lo que el es aquí donde empezamos el trabajo de
1 + e− β ´ xi estudio empírico del fenómeno de
algoritmo puede describirse como sigue: pobreza en su conjunto. Las variables a
∧ considerar fueron recopiladas de un
1. A partir de un estimador inicial β 0 , seguimiento de investigaciones las cuales
∧ ∧
existen en abundancia acerca del tema
calcular Pi (1 − Pi ) . de la pobreza11.
2. Transformar las variables:

11/ La metodología desarrollada para la inclusión de variables se encuentra en el anexo metodológico al final de esta
investigación.

38 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

VII. LA ENCUESTA NACIONAL DE HOGARES

La Encuesta Nacional de Hogares En el marco de los nuevos lineamientos


(ENAHO), es un programa continuo de de política de gestión para identificar la
encuestas, que inició el Instituto Nacional demanda real de información y en
de Estadística e Informática (INEI) a través coordinación con los usuarios el INEI ha
de la Dirección Nacional de Censos y identificado la necesidad de contar
Encuestas el año 1995. principalmente con indicadores de empleo
y condiciones de vida que permitan
A partir del año 1997, el INEI ha puesto cumplir con su principal misión.
en ejecución el Programa de
Mejoramiento de Encuestas y de la OBJETIVOS
Medición de las Condiciones de Vida
(MECOVI), bajo el auspicio financiero y Objetivos Generales:
técnico del Banco Interamericano de
Desarrollo (BID), Banco Mundial (BM) y la La encuesta del cuarto trimestre del 2001
Comisión Económica para América Latina tiene los objetivos generales siguientes:
y el Caribe (CEPAL), con el propósito
central de fortalecer y mejorar el Sistema i. Generar indicadores anuales, que
de Encuestas de Hogares, constituido por permitan conocer la evolución de la
un conjunto de encuestas que se vienen pobreza, el bienestar y las condiciones
realizando trimestralmente, y que de vida de los hogares.
representan una de las principales fuentes
de información para el análisis, evaluación ii. Efectuar diagnósticos (anuales) sobre
y seguimiento de la realidad demográfica, las condiciones de vida y pobreza de
social y económica de la población la población.
peruana.
iii. Medir el alcance de los programas
El Empleo y el Ingreso son módulos de sociales en la mejora de las condiciones
seguimiento en todos los trimestres, pues de vida de la población.
son considerados los pilares para explicar
los cambios en las condiciones de vida. iv. Servir de fuente de información a
instituciones públicas y privadas, así
En el segundo y cuarto trimestre se como a investigadores.
efectúan las Encuestas Panel con el fin de
estudiar los cambios en las características v. Permitir la comparabilidad con
de la población en el tiempo. investigaciones similares en relación a
las variables investigadas.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 39


Centro de Investigación y Desarrollo

Objetivos Específicos programas sociales según diferentes


estratos socio-económicos.
Los objetivos específicos de la ENAHO
2001 del cuarto trimestre son los ix. Obtener información sobre morbilidad
siguientes: y acceso a los servicios de salud.

i. Determinar el grado de acceso a x. Evaluar el grado de conocimiento y


servicios básicos de la vivienda y del utilización de los Programas Sociales y
hogar y de los programas sociales Proyectos de Inversión Social.
orientados a la vivienda según
diferentes estratos socio-económicos. xi. Caracterizar a los hogares en pobreza
extrema, pobres y no pobres en
ii. Obtener indicadores de riesgo de función a variables demográficas,
salud debido al hacinamiento y las educativas, otras sociales y económicas
condiciones sanitarias de los hogares y el grado de acceso a los servicios
según diferentes estratos socio-
económicos.
TEMAS A INVESTIGAR
iii. Caracterizar las estructuras
demográficas, según diferentes estratos - Módulo de Vivienda
socio-económicos, con el fin de medir - Características de los miembros del
la evolución y el impacto demográfico hogar
de los programas sociales. - Módulo básico de Educación
- Módulo básico de Salud
iv. Determinar el nivel educativo según - Módulo básico de empleo
diferentes estratos socio-económicos. - Sistema de Pensiones
- Uso de Computadora e Internet en el
v. Determinar el grado de acceso a la Trabajo
educación y el alcance de los - Ingresos del sector formal e informal
programas sociales, según diferentes - Gastos
estratos socio-económicos. - Módulo básico de Programa Social
- Módulo Comunal para Informantes
vi. Caracterizar los niveles de empleo, Calificados
según diferentes estratos socio- - Módulo de Opinión
económicos.
CARACTERISTICAS
vii. Determinar la estructura del ingreso de
los hogares, teniendo en cuenta los La Investigación se desarrollará sobre la
ingresos provenientes de los propios base de una muestra de hogares siendo
hogares y el efecto redistributivo de los niveles de inferencia del diseño
los programas sociales. muestral: Nacional, Urbano Nacional, Rural
Nacional, Resto Costa, Sierra, Selva y el
viii.Cuantificar el gasto de consumo de los Area Metropolitana de Lima y Callao.
hogares diferenciando el aporte de los

40 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Los cuestionarios a emplearse serán los población en el tiempo, se ha considerado


mismos del Cuarto Trimestre de 2000, que en la ENAHO 2001 Cuarto Trimestre
además de un módulo de opinión. se trabaje con una muestra del tipo Panel
y una muestra No Panel.
Los informantes serán todos los residentes
habituales de 12 años y más de edad que La muestra panel estará conformada por
conforman el hogar entrevistado. los hogares entrevistados en la ENAHO
2000 - Cuarto Trimestre. En el caso de la
La Unidad de Investigación: es el hogar, muestra no panel, esta será totalmente
el cual está constituido por: 1) los nueva.
integrantes del hogar familiar, 2) los
trabajadores del hogar con cama adentro, Muestra panel: El principal objetivo del
reciban o no pago por sus servicios, 3) los uso de una muestra panel en una encuesta,
integrantes de una pensión familiar que es realizar un seguimiento de las unidades
tienen como máximo 9 pensionistas, y 4) de investigación, en este caso los hogares
las personas que no son miembros del y los miembros que habitan en ella en un
hogar familiar pero que estuvieron determinado período. Asimismo, esta
presentes en el hogar los últimos 30 días. muestra permite obtener estimaciones de
las características socio-demográficas de
No serán investigados: 1) los integrantes la población para diferentes áreas, estratos
de una pensión familiar que tiene de 10 a o dominios de interés, para
más pensionistas, y 2) los trabajadores del posteriormente realizar comparaciones de
hogar con cama afuera. las unidades investigadas con referencia a
la anterior investigación.

7.1. CARACTERISTICAS DE LA Muestra no panel: A través de la muestra


MUESTRA No Panel, se puede obtener estimaciones
de las características socio-demográficas
Población y Cobertura de la población de estudio para diferentes
áreas, estratos o dominios de interés.
El universo cubierto por la muestra de la
Además, esta muestra incluye las nuevas
ENAHO es todo el territorio nacional. Es
unidades estadísticas que se incrementan
decir, la población está definida como el
en el marco inicial de selección.
conjunto de todas las viviendas particulares
y sus ocupantes residentes del área urbana
Metodología de Estimación
y rural del país.
La metodología de estimación para
Se excluye del estudio a la población procesar los datos de la ENAHO, involucra
residente en viviendas tipo colectivas el uso de un peso o factor de expansión
como hospitales, cuarteles, comisarías, para cada registro que será multiplicado
hoteles, centros de reclusión, etc. por todos los datos que conforman el
registro correspondiente.
Niveles de Inferencia de Resultados
El factor final para cada registro tiene dos
A efectos de permitir el estudio de los
componentes:
cambios en las características de la

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 41


Centro de Investigación y Desarrollo

El factor básico de muestreo y los factores - El coeficiente de variación (CV)


de ajuste por la no entrevista. - El intervalo con 95 por ciento de
confianza
El factor básico de expansión para cada - El efecto del diseño (DEFT)
hogar muestral es determinado por el - El número de observaciones sobre el
diseño de la muestra. Equivale al inverso cual se basa la estimación
de su probabilidad final de selección, el
mismo que es el producto de las El algoritmo usado por el CENVAR se basa
probabilidades de selección en cada etapa. en el método de los estimadores de la
varianza de los conglomerados últimos.
El diseño de la muestra de la ENAHO,
involucra hasta 3 etapas de muestreo Cuestionarios
donde las unidades son seleccionadas con
probabilidades proporcionales al tamaño Se emplearán 6 tipos de cuestionarios:
(ppt) excepto la última etapa. En la última
etapa se seleccionará un número de ENAHO 01. Cuestionario individual para
viviendas para cada conglomerado ser llenado con información del jefe del
teniendo en cuenta un intervalo de hogar y con entrevista directa a los
selección. informantes individuales. Comprende las
características de la vivienda, del hogar y
Errores de Muestreo de los miembros del hogar, Gastos del
Hogar, Programas Sociales y Otras
Trimestralmente, en la Encuesta Nacional Transacciones.
de Hogares se calculan los errores de
muestreo de las estimaciones de las ENAHO 01A. Cuestionario individual para
principales variables investigadas en la ser llenado con información del jefe del
encuesta. hogar y con entrevista directa a los
informantes individuales, investiga las
El paquete estadístico utilizado en la características de Educación, Salud, Empleo
ENAHO para el cálculo de las varianzas es e Ingreso, Sistema de Pensiones y Uso
el CENVAR (Sistema de Cálculo de de Computadora e Internet en el Centro
Varianzas), el cual provee los estimadores de Trabajo.
de variabilidad muestral para parámetros
poblacionales, como: totales, medias , ENAHO 01B. Cuestionario individual que
razones y proporciones para los diferentes es llenado por entrevista directa con
dominios de estimación. información del Jefe del hogar, en este
Módulo de Opinión se investiga Nivel de
Para cada parámetro especificado y Vida/Situaciones Adversas, Participación
dominio de estimación, CENVAR produce ciudadana, Percepción sobre la
un cuadro de salida con los indicadores comunidad, Seguridad y Violencia,
siguientes: ETNIA/RAZA y Educación de los Padres.

- El valor estimado del parámetro ENAHO 02. Cuestionario individual que


(estimación puntual) es llenado por entrevista directa con cada
- El error estándar productor agropecuario que conduce una

42 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

unidad agropecuaria. Se investiga los Conocer el grado de educación más alto


ingresos del productor agropecuario, el aprobado por cada persona dentro del
régimen de tenencia de las tierras, la nivel educativo que alcanzó.
posesión de títulos de propiedad, el destino Escala Ordinal
de la producción y crianza, los gastos
realizados en la actividad agropecuaria y Base de datos: Educación (CAP. 300)
el crédito agropecuario. Codificación: 1 Sin nivel, 2 Inicial, 3
Primaria incompleta, 4 Primaria completa,
ENAHO 03. Cuestionario aplicado a 5 Secundaria incompleta, 6 Secundaria
informantes calificados del área rural o completa, 7 Sup. No Univ. Incompleta, 8
áreas periféricas de las ciudades, investiga Sup. No Univ. Completa, 9 Sup. Univ.
acerca del acceso a servicios y programas Incompl., 10 Sup. Univ. Completa, 11
sociales, así como a los organismos que Post-grado Universitario, 99 Missing value
financian dichos programas.
La variable nivel educativo que aprobó
ENAHO 04. Ingreso del Trabajador (p301) fue recodificada en la variable
Independiente (Sector Informal). adnivedu-Nivel Educativo aprobado.
Escala ordinal.
Codificación: 1 Sin nivel, 2 Primaria, 3
7.2. Factores de relevancia para la Secundaria, 4 Sup. No Univ., 5 Sup. Univ.
explicación de la pobreza 6 Post- Grado Univ.
extraídos de la ENAHO IV
trimestre 2001 Se creó la variable aest-Años de Estudios
totales. Para su construcción se consideró
Variable dependiente las variables p301 y p301b(años de estudios
que aprobó). Como es evidente,
[CONDICIÓN DE POBREZA] dependiendo del grado aprobado y los
pobreza Pobreza años que aprobó, se generan la cantidad
Escala Nominal Categórica total de años estudiados. Ejem: Si es un
jefe de hogar que llegó solo a secundaria
Codificación: 1 Pobre Extremo, 2 Pobre incompleta (3 años aprobados), entonces
No extremo, 3 No Pobre los años de estudios totales (aest = 6
Base de datos: Sumaria (primaria completa) + 3 (secundaria
incompleta)).
Esta variable es recodificada en una nueva
variable Epobre [CENTRO DE ESTUDIOS]
Escala Nominal Dicotómica p301d Centro de Estudios
Codificación: 0 No Pobre, 1 Pobre Determinar si el colegio de procedencia
donde se estudio es de régimen estatal o
Variables independientes particular.
Características Sociodemográficas del Escala nominal
Jefe de Hogar Base de datos: Educación (CAP. 300)
Codificación: 1 Estatal, 2 No estatal, 9
[NIVEL DE EDUCACIÓN] Missing value
p301 Nivel educativo que aprobó

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 43


Centro de Investigación y Desarrollo

[EDAD] [ESTRATO]
p208a Edad en años estrato Estrato Geográfico
Determinar el período transcurrido entre Determinar la cantidad de viviendas
la fecha de nacimiento de la persona y el albergadas en cada estrato geográfico.
día de la entrevista. Escala Nominal Categórica
Variable cuantitativa Base de Datos: Identificador presente en
Base de Datos: Características de los todas las bases de datos
miembros del hogar (CAP. 200) Codificación: 1 Mayor de 100,000
viviendas, 2 De 20,001 a 100,000
[GÉNERO] viviendas, 3 De 10,001 a 20,000
p207 Sexo viviendas, 4 De 4,001 a 10,000 viviendas,
Determinar el sexo de los entrevistados. 5 De 401 a 4,000 viviendas, 6 Menos de
Identificados como hombre o mujer. 400 viviendas, 7 AER compuestos, 8 AER
Escala Nominal Dicotómica simples.
Base de Datos: Características de los
miembros del hogar (CAP. 200) [AREA]
Codificación: 1 Hombre, 2 Mujer urb_ru Área urbano-rural
Esta variable resulta de recodificar la
[ESTADO CIVIL] variable estrato cuyas 5 primeras categorías
p209 Estado conyugal proceden a conformar el área urbana y las
Investigar sobre la naturaleza de la categorías de 6 a la 8 conformarían el área
participación de la población en materia rural.
de comportamiento conyugal en especial Escala Nominal Dicotómica
durante el período de madurez. Codificaciòn: 1 Área Urbana, 2 Área Rural
Escala Nominal Categórica
Base de Datos: Características de los [DOMINIO URBANO RURAL]
miembros del hogar (CAP. 200) domur_ru Grandes dominios por área
Codificación: 1 Conviviente, 2 Casado(a), urb o ru.
3 Viudo(a), 4 Divorciado(a) ,5 Separado(a), Esta variable resulta del cruce de las
6 Soltero(a) variables gdomini (Costa, Sierra, etc) y área
(urbano, rural).
[DOMINIO GEOGRÁFICO] Escala Nominal categórica
dominio Dominio Geográfico Codificación: 11 Costa Urbana, 12 Costa
Escala Nominal Categórica Rural, 21 Sierra Urbana, 22 Sierra Rural,
Base de Datos: Identificador presente en 31 Selva Urbana, 32 Selva Rural, 41 Lima
todas las bases de datos Urbana
Codificación: 1 Costa Norte , 2 Costa
Centro, 3 Costa Sur, 4 Sierra Norte, 5 Sierra Características de la inserción
Centro, 6 Sierra Sur, 7 Selva, 8 Lima ocupacional del JH
Metropolitana
[EXPERIENCIA LABORAL]
[GRANDES DOMINIOS ]
exper1 Indicador proxy de exper.
gdomini Grandes Dominios Geog.
laboral
Escala Nominal Categórica
Este indicador resulta de restar a la edad
Codificación: 1 Costa , 2 Sierra, 3 Selva, 4
del jefe de hogar los años de estudios,
Lima Metropolitana

44 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

aunque no considera si el jefe de hogar Codificación: 1 menos de 100 personas,


ha trabajado y estudiado a la vez, se 2 De 100 a 499 personas, 3 De 500 y màs
aproxima en buena medida a la personas.
experiencia laboral del jefe de hogar. Se
resta "6" al final del indicador, pues es a la [TRABAJO ADICIONAL]
edad en que debería empezar el colegio. p514 Ocupación secundaria
Variable cuantitativa Determinar el número de ocupados que
Por ejemplo, un jefe de hogar con 45 años tienen actividad secundaria, que
y secundaria completa, tendrá: desarrollan simultáneamente con la
Exper1 = p208a - aest - 6 = 45 - (6+5) - actividad principal en la semana de
6 = 28 años de experiencia laboral referencia, ya sea en forma dependiente
o independiente.
[CATEGORÍA OCUPACIONAL] Escala Nominal Dicotómica
p507 Cargo en Centro Ocupacional. Base de datos: Empleo e Ingresos (Cap.
Conocer la relación del trabajador con su 500)
empleo, es decir, la forma que tienen los Codificación: 1 Si , 2 No
trabajadores de insertarse en el mercado
laboral. Una primera distinción básica es Características del hogar
si se trabaja en forma dependiente o
independiente, ya que en ambos casos son [NUCLEOS EN EL HOGAR]
muy diferentes las relaciones económicas nuchoga Cant. de núcleos en hogar
y laborales involucradas. Determinar el número de núcleos
Escala Nominal Categórica presentes en cada hogar para intentar
captar a cuántos hogares se alberga fuera
Base de datos: Empleo e Ingresos (Cap. del propio hogar del jefe de hogar, dentro
500) de la misma vivienda.
Codificación: 1 Empleador o patrono, 2 Variable cuantitativa
Trabajador independiente, 3 Empleado, 4
Obrero, 5 Trabajador Familiar no Base de datos: Generada a partir de
remunerado, 6 Trabajador del Hoga, 7 características de los miembros del hogar
Otro. (cap.200)

[TAMAÑO DE LA FIRMA] [HIJOS EN EL HOGAR]


p512a Tamaño de la empresa hijxhog Cant. de hijos del jh
Disponer de información sobre el volumen Determinar la cantidad de hijos presentes
de la fuerza de trabajo según el tamaño en el hogar.
del establecimiento, el mismo que Variable cuantitativa
conjuntamente con otras características, Base de datos: Generada a partir de
son útiles para determinar el volumen de características de los miembros del hogar
la población del sector informal. (cap.200)
Escala Ordinal
Base de datos: Empleo e Ingresos (Cap. [MIEMBROS EN EL HOGAR]
500) mieperhog Cant. de miembros en hogar
Determinar la cantidad de miembros
pertenecientes al hogar, se excluyen a las

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 45


Centro de Investigación y Desarrollo

trabajadoras del hogar que no Base de datos: Características de la


permanecen más de 30 días en el hogar. vivienda y el hogar. (cap. 100)
Variable Cuantitativa Codificación: 1 Electricidad, 2 kerosene
Base de Datos: Sumaria (mechero/lamparin), 3 Petróleo/gas
(lampara), 4 Vela, 5 Generador, 6 Otro.
[PERCEPTORES EN HOGAR]
percephog Cant. de preceptores en [ACCESO AGUA]
hogar. p110 Abastecimiento agua en hogar
Determinar la cantidad de preceptores Conocer la cantidad de personas y lugares
dentro de cada hogar. donde se carece de este líquido vital, lo
Variable Cuantitativa que será de utilidad para la ejecución de
Base de Datos: Sumaria programas de saneamiento.
Escala Nominal Categórica
[INGRESO NETO TRIMESTRAL] Base de datos: Características de la
inghog2d Ingreso neto trimestral vivienda y el hogar. (cap. 100)
Trimestralizar la información de ingresos, Codificación: 1 Red pública, dentro de la
llevándola a un mismo período de vivienda, 2 Red pública, fuera de la
investigación. vivienda, 3 Pilón de uso público, 4 Camión
Variable Cuantitativa -cisterna u otro similar, 5 Pozo, 6 Río,
Base de Datos: Sumaria acequia, manantial o similar, 7 otro.

[INGRESO PER CÁPITA M] [ACCESO A RED SANITARIA]


ingperho Ingreso per cápita mens. p111 El servicio higiénico esta
del hogar conectado
Determinar el ingreso per cápita mensual Conocer si el hogar dispone o no de
de los hogares. servicio higiénico, su ubicación y forma
Variable Cuantitativa de eliminación de los residuos humanos.
Base de datos: Generada a partir de Permitirá tener una apreciación más
Sumaria. general respecto a la calidad de vida de
los habitantes; y es un componente
[ACCESO LUZ] elemental en la determinación del
p112 Tipo de alumbrado en su hogar bienestar social. Además permitirá
Determinar si el hogar dispone o no de conocer las posibilidades de contaminación
alumbrado eléctrico. Asimismo se en la comunidad en general y las causas
conocerá la cantidad de hogares que que producen la hepatitis y la tifoidea.
carecen de servicio y permitirá establecer Escala Nominal Categórica
la relación que existe entre padecimientos Base de datos: Características de la
respiratorios y algunas formas de alumbrado vivienda y el hogar. (cap. 100)
como el uso de kerosene y vela. Codificación: 1 Red pública dentro de la
Asimismo, las deficiencias en al agudeza vivienda, 2 red pública fuera de la vivienda,
visual, también pueden estar en relación 3 pozo séptico, 4 pozo ciego o negro/
al uso de alumbrado no eléctrico. letrina, 5 río, acequia o canal, 6 no tiene
Escala Nominal Categórica

46 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Si se desea obtener más información sobre que la categoría empleador o patrono es


otras variables de medición de condiciones la categoría base.
de vida y pobreza, se puede consultar
"Variables investigadas en la ENAHO-2001 • DINDEP = 1
IV TRIMESTRE .INEI - MECOVI" Si JH es trabajador independiente y 0
en o.c.
• DEMPLEADO = 1
VARIABLES INDICADORAS Si JH es empleado y 0 en o.c.
• DOBRERO = 1
Se generaron variables indicadoras para Si JH es obrero y 0 en otro caso
trabajar sobre los modelos de probabilidad • DOTRO = 1
del jefe de hogar y poder captar el efecto Si JH se encuentra en otra situación
de las categorías de las variables en escalas ocupacional
nominales sobre sus categorías base . El
mismo proceder se efectuó para las
variables en escalas ordinales. Se generan variables indicadoras para
dominio en área urbana y rural.
En tal sentido el nivel educativo agrupado
fue dividido en 5 indicadoras, donde la • DCORU = 1
categoría que está fuera de riesgo es el Si JH habita en Costa urbana y 0 en
Post-Grado Univ. otro caso
• DSIEUR = 1
• DSINNIV = 1 Si JH habita en Sierra urbana y 0 en
Si JH no tiene nivel educativo y 0 en otro caso
otro caso • DSELUR = 1
• DPRIM = 1 Si JH habita en Selva urbana y 0 en
Si JH tiene primaria y 0 en otro caso otro caso
• DSECUND = 1
Si JH tiene secundaria y 0 en otro caso
• DSUPNU = 1 La variable en escala ordinal Tamaño de la
Si JH tiene educ. sup no univ. y 0 en firma genera dos variables indicadoras,
otro caso tomando como categoría base el tamaño
• DSUPUN = 1 de la firma de 500 y más personas.
Si JH tiene educ. sup. Univer. y 0 en
otro caso • DME100 = 1
Si JH trabaja empresa con menos de
Variable indicadora de colegio estatal. 100 personas y 0 o.c.
• DME499 = 1
• DCOLEGIO = 1 Si JH trabaja empresa con 100 a 499
Si JH a estudiado en colegio estatal y 0 personas y 0 o.c.
en otro caso

La variable categoría ocupacional generaría Variable indicadora de si el JH tiene ejerce


4 variables categóricas, donde se considera una actividad secundaria

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 47


Centro de Investigación y Desarrollo

• DOEMP = 1 • DSHNO = 1
Si JH tiene otro trabajo y 0 en otro caso Si hogar no tiene SS.HH. dentro de
hogar y 0 en o.c.

De igual manera el estado civil generaría


5 variables indicadoras, donde tomaríamos Para el caso de abastecimiento de agua
como categoría base cuando el jefe de dentro de la vivienda a través de red
hogar es soltero. pública, generamos la variable indicadora.

• DCONVI = 1 • DAGUDV = 1
Si JH es conviviente y 0 en otro caso Si abastecimiento de agua es través de
• DCASAD = 1 red pública dentro de vivienda
Si JH es casado y 0 en o.c.
• DVIUDO = 1
Si JH es viudo y 0 en o.c. Variable indicadora que defina si el
• DDIVOR = 1 alumbrado público en la vivienda es través
Si JH es divorciado y 0 en o.c. de kerosene.
• DSEPAR = 1
Si JH es separado y 0 en o.c. • P1122 = 1
Si el tipo de alumbrado en la vivienda
Generamos variables indicadoras cuando es a través de kerosene
el hogar tiene conexión de servicios
higiénicos a red pública dentro de
vivienda. Variable indicadora que define si se utiliza
espacio de la vivienda que destine ingresos
• DSHDV = 1 para el hogar.
Si SS.HH. hogar - conectados a red
pública dentro de vivienda y 0 en o.c. • P115 = 1
Si se utiliza espacio en la vivienda que
De la misma manera, se generan una destine ingresos al hogar.
variable indicadora cuando el hogar no
tiene ss.hh. dentro del hogar.

48 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

VIII. CRITERIOS DE APLICACIÓN DE LOS MODELOS


LOGIT Y PROBIT CON VDD APLICADOS
AL CASO DE LA POBREZA EN EL PERÚ

8.1 Estudio a nivel descriptivo y la edad y el indicador proxy de experiencia


exploratorio de variables laboral , que no considera aquel caso en
cualitativas y cuantitativas que el que el Jefe del Hogar, ha estudiado y
incidan en la pobreza en el Perú12 trabajado, sino solo aquel tiempo en el
cual el Jefe de Hogar solo trabaja.
Empezaremos esta parte de nuestra
investigación describiendo aquellas Uno de los objetivos que perseguimos y
variables que nos brindan posibles que esta implícito dentro de esta
explicaciones de la pobreza en un marco investigación es dejar en claro que
general y de los individuos Jefe de Hogar estamos trabajando con variables a
en este caso en particular. Entre ellas se diferentes escalas, mencionadas como
encuentran aquellas de carácter ejemplos líneas antes, y que dependiendo
sociodemográfico como el género, la de estas escalas determinarán la
edad, el estado civil, el nivel de educación, implementación y ejecución de las
el alfabetismo (variables de naturaleza metodologías que sirvan de herramientas
cualitativa), medidas en algunos casos en para una explicación de la pobreza en el
escala nominal - dicotómica como el sexo Perú en particular.
del jefe de hogar (Hombre-Mujer) y en
otros casos nominal - politómica como el
estado civil (Soltero-Casado-Conviviente- EDUCACIÓN
etc).
Una de las características de la pobreza es
En otro tipo de escalas se encuentran que esta se encuentra asociada a niveles
aquellas que denotan un orden ascendente bajos de educación alcanzados por el Jefe
en sus categorías como lo es el nivel de de Hogar. Podemos ver [Cuadro VIII.1]
educación (Sin Nivel- Educación Primaria- como dentro de aquellos Jefes de Hogar
etc.) alcanzado por el Jefe de Hogar. sin nivel educativo y nivel educativo
primario, el 72.5% y el 61.3% se
Además encontramos variables de encuentran en condición de pobreza,
naturaleza cuantitativa como lo constituyen respectivamente.

Cuadro VIII.1 Perfil del Jefe de Hogar según Nivel Educativo y Estado pobreza
a
Niv el Educativo Agrupado
sin nivel primaria secundaria sup. no univ. universitaria post univers. Total
estado pobreza pobre 72.5% 61.3% 40.0% 19.3% 8.2% .2% 46.8%
no pobre 27.5% 38.7% 60.0% 80.7% 91.8% 99.8% 53.2%
Total 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
a. Porcentage de columnas

12/ Debemos de recordar que si bien el objetivo de nuestra investigación gira en torno a los modelos logit y probit, vemos que no
podemos ser ajenos a aquellos previos fundamentales de análisis descriptivo para poder seguir avanzando sobre niveles de análisis
más complejos, como lo podrían constituir el análisis multivariado y los modelos de probabilidad con enfoques binomial.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 49


Centro de Investigación y Desarrollo

En el caso de los que tienen nivel educativo En función del comportamiento entre el
secundaria, se aprecia que el estado de estado de pobreza y el nivel educativo del
pobreza se encuentra repartido para sus jefe de hogar nos toca ahora analizar el
dos categorías, con 40% para el caso de grado de relación que estas tienen, y
jefes de hogar pobres y con 60% para el definir más aún este comportamiento a
caso de no pobreza. Un panorama nivel poblacional. Analizando el cuadro
diferente y en sentido opuesto se da en que muestra el Test Chi-Square [CUADRO
los niveles superiores donde en el caso VIII.2] podemos ver que la hipótesis de
de jefes de hogar con nivel educativo nulidad que supone independiente el
superior no universitario el 80.7% se nivel educativo y la condición de pobreza
encuentran en estado de no pobreza. En del jefe de hogar es rechazada para un
una tendencia creciente mucho mayor y valor de c2 = 859730.5 y un nivel de
estado de no pobreza se encuentran significancia (p-valor =0.000), por lo tanto
aquellos jefes de hogar que tiene niveles a medida que el jefe de hogar va
como el universitario y el post-grado, con adquiriendo un mayor nivel de educación,
91.8% y 99.8% para la primera y segunda éste obtiene mas capacidades para ir
respectivamente. abandonando la condición de pobreza,
más aún si tiene niveles de educación
superiores.

Cuadro VIII.2 Chi-Square Test


Asymp. Si g.
Value df (2-sided)
Pearson Chi-Square 859730.5 5 .000
Likelihood Ratio 954693.3 5 .000
Linear-by-Linear
842469.1 1 .000
Assoc iation
N of Valid Cas es 5834837

Una respuesta a la pregunta de ¿cual es el dan la idea de la asociación que debe darse
grado de asociación? Se puede apreciar entre el nivel socioeconómico y el nivel
en el cuadro [CUADRO VIII.3] Symmetric educativo, hablando de la población en su
Measures donde los Coeficientes de conjunto. Debemos de tomar en cuenta
correlación de Spearman (0.375), Gamma que estamos aislando en alguna medida el
(0.567) y Kendall´s tau-c (0.409) denotan fenómeno de pobreza y poniéndolo solo
un fuerte grado de asociación, pues nos en términos del nivel educativo.

Cuadro VIII.3 Symmetric Measures

Value Ap prox. Sig .


Ordinal by Kendall's tau- b . 346 .000
Ordinal Kendall's tau- c . 409 .000
Gamma . 567 .000
Sp ear man Cor relation . 375 .000
N of Valid Cases 5834837

50 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Gráfico VIII.1
Perfil del Nivel Educativo según estado de pobreza del jefe del hogar

100 Pob re
90 N o Pob re
80
70
PORCENTAJE

60
50
40
30
20
10
0
S in Nivel Prim aria Secundaria Superior No Univ ers itaria Pos t -Grado
Universitaria

NIVEL EDUCATIVO

ESTADO CIVIL - SEXO DEL JEFE DE civil conviviente, en igual sentido se


HOGAR encuentra los jefe de hogar casados que
vienen a estar constituidos en un 97.7%
A continuación analizaremos el por los hombres. La figura cambia para las
comportamiento y la relación existente otras categorías de estado civil, donde para
entre el sexo del jefe de hogar y el estado el estado civil viuda, divorciada, separada
civil que posee. Se puede apreciar y soltera, las mujeres constituyen el
[CUADRO VIII.4] que dentro de la 76.36%, el 70.86%, el 84.13% y el 50.48,
condición de pobreza, los jefes de hogar para cada categoría y en ese orden
hombres constituyen el 96.4% del estado respectivamente.

Cuadro VIII.4
Perfil de jefe de hogar según género y estado civil o conyugal en estado de pobreza
a
estado Cual es su estado civil o conyugal
pobreza Conviviente Casado Viudo Divorciado Separado Soltero Total
pobre Sexo Hombre 96.4% 97.7% 23.6% 29.1% 15.9% 49.5% 81.2%
Mujer 3.6% 2.3% 76.4% 70.9% 84.1% 50.5% 18.8%
Total 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
a. Porcentage en columnas

Resultado de la incorporación de los permite rechazar la hipótesis que formula


efectos de diseño vemos [CUADRO la independencia de ambas variables, es
VIII.5] que según el Chi-Square Tets, decir, que existe relación significativa entre
obtenemos el coeficiente Pearson c² (5) el estado civil y el sexo del jefe de hogar
= 1685365 y un p-valor=0.000, nos en condición de pobreza.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 51


Centro de Investigación y Desarrollo

Cuadro VIII.5 Chi-Square Test

A symp . Sig.
estado pobreza V alue df (2 -sided)
pobre P ear son Chi-Square 1685365 5 .000
Likelihood Ratio 1478553 5 .000
N of Va lid Case s 2764186

El grado de asociación del cual estamos condición de pareja (casado-conviviente),


hablando lo podemos observar en el cuadro como sería en el caso de los jefes de hogar
siguiente Symetric Measures [CUADRO hombres. En aquellas situaciones en las
VIII.6], donde coeficientes como el de que la mujer tiene que responder como
contingencia (CC) con un valor de 0.615 jefe de hogar y "no tendría pareja" (Viuda-
, el Phi = 0.781 y el Cramer´s V=.781 Divorciada-Soltera-etc.), podría motivar un
denotan un alto grado de asociación13, lo mayor riesgo para la adquisición de la
cual nos muestra que la pobreza afecta condición de pobreza.
en todos los estados civiles sean estos en

Cuadro VIII.6 Symmetric Measures

estado
pobreza Value Approx. Sig.
pobre Nom Phi .781 .000
by Cramer's V .781 .000
Nom Contingency Coefficient .615 .000
N of Valid Cases 2764186

Al analizar las mismas variables para los constituyen el 94.1% y el 97.2% dentro
jefes de hogar no pobres, podemos de cada categoría respectivamente. Para
observar [CUADRO VIII.7] un los jefes de hogar en los estados civiles
comportamiento parecido al de los jefes viudo, divorciado y separado, las mujeres
de hogar en estado de pobreza. Es decir, constituyen el 67.8%, el 60.2% y el
para los jefes de hogar con estado civil de 67.8% de cada categoría y en ese orden
convivencia y casado, los hombres respectivamente.

Cuadro VIII.7
Perfil de jefe de hogar según género y estado civil o conyugal en estado de no pobreza
a
estado Cual es su estado civil o conyugal
pobreza Conviviente Casado Viudo Divorciado Separado Soltero Total
no Sexo Hombre 94.1% 97.2% 32.2% 39.8% 32.2% 62.1% 78.2%
pobre Mujer 5.9% 2.8% 67.8% 60.2% 67.8% 37.9% 21.8%
Total 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
a. Porcentage de Columnas

13/ Debemos de considerar que si bien estos coeficientes nos confirman los grados de asociación de variables estos poseen
limitaciones como el caso del coeficiente de contingencia, que a pesar que nos puede expresar que un valor de cero
confirma la no asociación de variables, no posee la propiedad en el caso extremo de un grado de asociación total, es decir,
igual a 1. Para más detalle consultar Siegel , Sidney.

52 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Se confirma la relación significativa y con resultados en el mismo sentido debido


diferente de cero existente entre el sexo al tamaño de la población. A través de su
y el estado civil del jefe de hogar, esto en significancia (0.000) que permite rechazar
el Chi-Square Test [CUADRO VIII.8], a la hipótesis que sostiene la independencia
través de los coeficientes de Pearson c² del sexo y el estado civil del jefe de hogar
(5)=1356731, el c² de la razón de dentro de cada categoría de pobreza.
verosimilitud (likelihood ratio)= 1327980

Cuadro VIII.8 Chi-Square Test


Asymp. Sig.
estado pobreza Value df (2-sided)
no pobre Pears on Ch i-Squar e 1356731 5 .000
Likelihood R atio 1327980 5 .000
N of Valid Cases 3144673

De lo explicado anteriormente, resulta capta a los hogares con jefes de hogar


interesante ver que a pesar que exista una mujeres sin pareja, ahora en el año 2001
relación entre el sexo del jefe de hogar y ya ha captado a los jefes de hogar con
su correspondiente estado civil, la pobreza pareja, ya sea formal o informal.
de los jefes de hogar del Perú ya no solo

Cuadro VIII.9 Symmetric Measures

e sta do p obrez a Va lue Ap pro x. Sig .


n o pob re No m by Ph i .6 57 .0 00
No m Cra m er's V .6 57 .0 00
Co n tin ge n cy
Co e fficien t .5 49 .0 00
N o f V alid Ca se s
31 44 6 73

Gráfico VIII.2
Perfil del Jefe de Hogar según Género y Estado Civil
condición de no pobreza

Mujer
100
Hombre
80
PORCENTAJE

60

40

20

0
CONV IVIE NT E CAS ADO VIUDO DIVOR CIADO SE PAR ADO S OL T E R O

ESTADO CIVIL

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 53


Centro de Investigación y Desarrollo

Gráfico VIII.3
Perfil del Jefe de Hogar según Género y Estado Civil
condición de pobreza

Mujer
100
Hombre
80
PORCENTAJE

60

40

20

0
CONV IVIE NT E CAS ADO VIU DO DIVOR CIADO SE PAR ADO S OLT E R O

ESTADO CIVIL

AREAS DE RESIDENCIA - REGIÓN jefes de hogar del área urbana constituye


NATURAL el 84.3% para la región de la costa. En
La pobreza en nuestros días ha un nivel porcentual menor pero igual de
conquistado todos los ámbitos del vasto considerable, la región de la sierra está
territorio peruano, lo cual sumado a constituida en un 75.9% por jefes de
condiciones de focalización mal llevadas hogar del área rural. Si bien para el área
en la década pasada permitió que aquellos rural en la región selvática los jefes de
que se encontraban en estado de pobreza hogar pobres son alrededor del 58% , no
no fueran quienes recibieran la ayuda y los es tan evidente la diferencia como en el
medios adecuados paleativos para subsisitir. resto de regiones, debido a que en el área
urbana se encuentra un 42.1% en estado
En el año 2001, podemos ver [CUADRO de pobreza.
VIII.10] que en condición de pobreza los

Cuadro VIII.10
Perfil de jefe de hogar según Area y Región Natural en estado de pobreza

a
estado regiones naturales
pobreza costa sierra selva Total
pobre Urbano_Rural urbano 84.3% 24.1% 42.1% 47.4%
rural 15.7% 75.9% 57.9% 52.6%
Total 100.0% 100.0% 100.0% 100.0%
a. Porcentage de Columnas

54 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Resulta dramático evidenciar cómo la que se encuentran en la sierra rural del


condición de pobreza afecta en mayor Perú, a pesar de que se sostenga en
medida a aquellos que menos acceso algunas investigaciones que la brecha de
tienen en cuanto a activos públicos de acceso a estos activos se ha ido reduciendo
infraestructura, educación, salud, etc; que en los últimos años.
son justamente aquellos jefes de hogar

Gráfico VIII.4
Perfil del Jefe de Hogar según Área y Región
Natural de residencia - Condición de pobreza

90 U rb an o
80 R ur al
70
PORCENTAJE

60

50

40

30

20

10

C OS TA SI E R R A S E LV A

REGION NATURAL

La relación entre estas variables es del jefe de hogar [CUADRO VIII.11],


significativa a un nivel de confianza del ambos en escala nominal para la condición
95%. Esto como sabemos podemos de pobreza, al haber obtenido valores del
deducirlo del rechazo de la hipótesis que coeficiente de Pearson c²(2) = 819652.7
supone la independencia del área (urbano y un p-valor = 0.000, esto con una
o rural) y la región natural de residencia significancia (a) de 5%.

Cuadro VIII.11 Chi-Square Test

Asy mp. Sig.


estado pobreza01 Value df (2-s ided)
pobre Pearson Chi-Square 819652.7 2 .000
Likelihood Ratio 879899.6 2 .000
N of Valid Cases 2764184

El grado de asociación que se encuentra Cramer´s V = 0.545, y el ya conocido


en estas variables se puede apreciar en el coeficiente de contingencia (CC)=0 .478,
cuadro [CUADRO VIII.12] Symmetric que a pesar estos últimos de mostrar un
Measures, el cual nos muestra los alto grado de relación entre 2 variables
coeficientes de asociación Phi=0.545, medidas en una escala simple como es la

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 55


Centro de Investigación y Desarrollo

nominal, puede mostrarnos cómo va posee el jefe de hogar y cómo esta entrará
determinando en alguna medida su a tallar dentro la probabilidad que el
influencia en la condición de pobreza que individuo obtenga dicha condición.

Cuadro VIII.12 Symmetric Measures

e stad o
p obr eza V alu e App rox. S ig.
p obr e Nom b y P hi .545 .000
Nom Crame r's V .545 .000
Con tinge n cy
Coe fficient .478 .000

N of V ali d Cases
2764 1 84

ANÁLISIS CUANTITATIVO estado de pobreza el promedio de años


de estudios se encuentra alrededor de 5,
Si bien hemos mostrado relaciones con pequeño en comparación a que los jefes
variables importantes que en principio nos de hogar en condición de no pobreza
muestran panoramas independientes de tienen en promedio alrededor de 10 años
la pobreza y el efecto que sobre la de estudios.
condición del jefe de hogar ejercen estas
variables de naturaleza cualitativa, Dada la heterogeneidad y dispersión de
extrayéndolas del fenómeno las poblaciones en estudio, el tomar como
multidimensional en su conjunto, valor del promedio de años de estudios
podemos también detenernos por los valores obtenidos, resulta erróneo. En
instantes dado que no es objetivo de esta tal sentido deberemos optar por la
investigación analizar como cierto tipo de mediana como mejor medida de ajuste a
activo de capital humano se comportan esta variable. Se puede apreciar que en
dentro de las distintas condiciones de promedio, el jefe de hogar pobre estaría
pobreza, entre ellos, años de estudios del alcanzando el grado de primaria (6 años),
jefe de hogar. diferencia sustantiva con respecto a los
años alcanzados por el jefe de hogar no
AÑOS DE ESTUDIOS DEL JEFE DE pobre que podría estar alcanzando al
HOGAR completar el nivel de secundaria con los
11 años en promedio de estudio que este
Uno de los indicadores que muchos tendría. No debemos además olvidar que
consideran de suma importancia al analizar estamos considerando su conducta desde
la pobreza, es el de los años de estudios la idea de un corte transversal hecho en
del jefe de hogar. Para el año 2001 el tiempo y deben ser consideradas sus
podemos observar [CUADRO VIII.13] que implicancias respectivas, en caso se
el activo de capital humano referente a decidiese, probarla con alguna otra variable
los años de estudios del jefe de hogar es y analizar su comportamiento.
bajo, basta solo con observar que para el

56 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Cuadro VIII.13
Cuadro de años de estudio del Jefe de Hogar según Condición de Pobreza

Estado Pobreza Statistic Std. Error


Años de pobre Promedio 5.36 2.60E-03
estudios JH Promedio sin 5% VE 5.17
Mediana 6.00
Desviacion Std. 4.30
Asimetría .345 .001
Kurtosis -.870 .003
no pobre Promedio 9.29 2.80E-03
Promedio sin 5% VE 9.38
Mediana 11.00
Desviacion Std. 4.93
Asimetría -.298 .001
Kurtosis -.842 .003

Más allá de que la desigualdad existente diferencia de medias es distinta de cero


entre los dos grupos sea evidente, es (3.92), debido a un t = - 1026.487 y una
interesante confirmar cómo a través de la significancia de 0.000, lo cual
prueba de diferencia de medias estadísticamente hablando nos permite
confirmamos tal. El [CUADRO VIII.14] nos rechazar la idea de igualdad de medias al
muestra en primer lugar el estadístico de nivel poblacional.
Levene14, el cual nos permite rechazar la
idea de igualdad de poblaciones pobre y Probada esta diferencia de medias nos toca
no pobre. Como ya probamos la diferencia ahora mostrar cómo la diferencia en años
existente entre los años de estudios de de estudios se hace cada vez más notoria
jefes de hogar pobres y no pobres, con el a medida que el jefe de hogar se
test de equivalencia de medias encuentra en pobreza extrema, pobreza
rechazamos tal hipótesis, primero tomando no extrema y no pobreza, la cual será
la fila de varianzas diferentes, que ya ha mostrada por única vez, dado que no es
sido probada y luego podemos ver que la fin primordial de esta investigación.

Cuadro VIII.14
Prueba de Levene para igualdad de varianzas y diferencia de medias
en los años de estudios del JH

Levene's Test for


Equality of Variances t-test for Equality of Means

Mean Std. Error


F Sig. t df Sig. (2-tailed) Difference Difference
Años de Asumiendo
57766.511 .000 -1017.677 5834834 .000 -3.92 3.86E-03
estudios varianzas iguales
jh Sin asumir
-1026.487 5834386 .000 -3.92 3.82E-03
varianzas iguales

14/ Sabemos que el estadístico de Levene es resistente a la ausencia de normalidad de una distribución analizada, en tal sentido
se propone como más idóneo para medir la homogeneidad de las varianzas.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 57


Centro de Investigación y Desarrollo

Una prueba a la afirmación anterior, la brecha diferenciadora y por ende el acceso


podemos confirmar con la tendencia al capital humano importantísimo en la
creciente de la diferencia en los años de época actual se hace cada vez más grande
estudios del jefe de hogar a los diversos porque resulta evidente que haber pérdido
niveles de pobreza que este posee. un año de estudios en la década pasada
Además de confirmada la diferencia en no es igual que perder un año en la
los promedios de años de estudios, la actualidad.

Gráfico VIII.5
Tendencia del Promedio de años de estudio del jh
según estado de pobreza
10
IC 95% - Años de estudios jh

3
N = 1178530 1553196 3103109

P o b re E xtre m o P o b re No E xtre m o No P o b re

POBREZA
Cases weighted by FACTOR

8.2 Formulación y adecuación de los criterio eminentemente práctico. Se


modelos Logit y Probit con VDD, sostiene que el ANÁLISIS PROBIT15 está
en función de sus enfoques y las estrechamente ligado a la regresión
logística. Es que si usamos la
variables o factores explicativos
transformación logit estaríamos calculando
más significativos esencialmente la regresión antes
mencionada. En general, el análisis probit
Como ya vimos en capítulos anteriores, la con enfoque de proporciones muestrales
diferenciación teórica de ambos modelos sería más apropiado para diseño de
aún no ha sido descubierta en su total experimentos, en función a que su
cabalidad, se mencionó que Amemiya procedimiento mide la relación entre la
(1981) intenta hacer aproximaciones hacia potencia de un estímulo y la proporción
la resolución de este problema pero en de casos que presentan una respuesta a
general no se obtuvieron resultados ese estímulo.
concretos.
Se materializa esta idea a través de un
Si bien tenemos la necesidad de mostrar
ejemplo, querer saber qué tan efectivo
esta diferenciación, partimos ahora de un

15/ SPSS para Windows, Realease 10.0.7 (2000)

58 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

es un nuevo pesticida para liquidar que si bien se pueden obtener el cruce


insectos, ¿cual sería la concentración letal de ellas, no esta regido a parámetros de
efectiva a usar? Uno podría diseñar un medición exacta y continua, pues la
experimento en el cual se exponen pobreza es un fenómeno de escala
muestras de insectos a diferentes multidimensional. Sería interesante poder
concentraciones del insecticida, es decir, saber si la mezcla de escalas determinan
tener el número de insectos expuestos en un nivel de medición que me permitiese
dicha concentración y entonces determinar acceder a la probabilidad exacta de ser
el número de insectos muertos bajo tal pobre.
efecto. Aplicando un análisis probit a estos
datos, uno puede determinar la potencia A parte de la condición de que las
de la relación entre la muerte de los observaciones deben ser independientes.
insectos y la dosis de pesticida adecuado Si tenemos un gran cantidad de estas para
y determinar cuál es el grado de las variables independientes, la Chi-
concentración apropiado del insecticida cuadrado (c²) y los estadísticos de bondad
que me permitiría estar seguro de matar de ajuste pueden no ser válidos.
al 95% de los insectos expuestos.
Retomando la diferenciación de ambos
Como resulta evidente, se está realizando modelos, podemos mencionar que la
un enfoque cuantitativo, confirmado esto regresión logística con enfoque de casos
además en la línea seguida por autores individuales es más apropiada para estudios
como Green o Gujarati al formular sus observacionales. Usada también para
modelos de probabilidad. Pero como situaciones en las cuales uno quiere ser
puede apreciar se limita al hecho de capaz de predecir la presencia o ausencia
inclusión de pocas variables, más aún de una característica o resultado basado
siendo estas de índole cuantitativo y en valores de un conjunto de variables
porque necesariamente tendría que predictoras. Los coeficientes del modelo
obtener la frecuencia de observaciones logit pueden ser usados para estimar Odds
que implican en primer lugar a las variables Ratios (`Razón de probabilidades`) para
independientes, vale decir por ejemplo cada una de las variables independientes
cantidad de jefes de hogar dentro de los en el modelo. La regresión logística y por
deciles de ingreso, luego determinar la ende el modelo logit, es aplicable a un
cantidad de jefes de hogar pobres dentro rango mayor de situaciones de
de cada décil, para poder saber la tasa de investigación. Adicionalmente, como en
respuesta a ese nivel de ingreso dentro otras formas de regresión, la
de la variable dependiente (la condición multicolinealidad de las variables
de pobreza). Si se decidiera incluir más independientes si no es manejable puede
variables independientes se tiene que generar estimadores sesgados o inflar el
tomar en cuenta que debemos obtener error estándar.
las frecuencias que resultan del cruce de
estas. Imaginarse tan solo el cruce los
8.2.1 Metodologías de estimación de
diversos valores del ingreso per cápita con
el estado civil, la cantidad de miembros los modelos de probabilidad
de la familia y con los tipos de accesos a
activos públicos como la luz, agua, entre MODELO DE PROBABILIDAD DE LA
otros, empiezan a figurar la inviabilidad de POBREZA EN EL JEFE DE HOGAR
esta aplicación.
A continuación mostramos la metodología
Aquí es donde se producirán limitaciones de estimación del modelo de probabilidad
en la aplicación de este enfoque debido a del jefe de hogar pobre del Perú, para el

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 59


Centro de Investigación y Desarrollo

año 2001, tomada una muestra aleatoria edad, su indicador de experiencia laboral,
de alrededor del 50% (8233) de los jefes indicador de condición ocupacional,
de hogar de la encuesta nacional de tamaño de la firma, otro empleo; y
hogares según los factores considerados características asociadas al hogar como el
de importancia en la condición de pobreza ingreso per cápita mensual, la cantidad de
de éste y obtenidos según la información miembros, y el indicador PET del hogar,
de la ENAHO 2001 -IV TRIMESTRE, además si la conexión de agua y servicios
Condiciones de Vida y Pobreza. es a través de red pública dentro de la
vivienda. Las variables (sinnivel, costa
Enfoque de Observaciones urbana, costa rural, sierra urbana, sierra
Individuales rural, selva urbana, selva rural, obrero,
menos100pe, otroemple, conviviente,
Coeficientes para el modelo logit sehigdviv, y las cuatro últimas variables)
son indicadoras, codificadas con 0 y 1. El
El [CUADRO VIII.15] contiene los valor de 1 para OBRERO indica que el jefe
coeficientes estimados (bajo la columna de hogar tiene condición ocupacional de
encabezada por B) y los estadísticos obrero, el valor de 1 para MENOS100PE
asociados al modelo que predice la indica que el tamaño de la firma en la que
probabilidad de ser pobre del jefe de trabaja es de menos de 100 personas, el
hogar del Perú en el año 2001 en función valor de 1 para OTROEMPLE indica que
a características individuales del jefe de el jefe de hogar posee actividad
hogar como el no tener nivel educativo, secundaria por la que percibe ingresos.

Cuadro VIII.15 Variables en la ecuación

95.0% C.I.for EXP(B)


B S.E. Wald df Sig. Exp(B) Lower Upper
SINNIVEL .911 .231 15.548 1 .000 2.488 1.582 3.913
EDAD -.072 .011 41.221 1 .000 .931 .910 .951
COSTA URBANA -1.189 .167 50.439 1 .000 .304 .219 .423
SIERRA URBAN .570 .098 33.642 1 .000 1.768 1.459 2.144
SELVA URBANA .899 .121 55.483 1 .000 2.458 1.940 3.114
SELVA RURAL -.807 .125 41.844 1 .000 .446 .349 .570
INDEXPLABO .070 .010 49.495 1 .000 1.072 1.051 1.093
COLEGESTA .584 .189 9.540 1 .002 1.793 1.238 2.598
OBRERO .451 .092 23.940 1 .000 1.570 1.311 1.881
MENOS100PE .324 .095 11.606 1 .001 1.383 1.148 1.666
OTROEMPLE -.226 .085 7.090 1 .008 .798 .675 .942
INPERCAM -.011 .000 876.865 1 .000 .989 .988 .990
MIEPERHO .517 .031 283.825 1 .000 1.677 1.579 1.781
PETHOGAR -.313 .040 60.764 1 .000 .731 .676 .791
CONVIVIENTE .269 .080 11.274 1 .001 1.308 1.118 1.530
SEHIGDVIV -.388 .093 17.414 1 .000 .678 .565 .814
NOSERVHIGIE .270 .089 9.281 1 .002 1.310 1.101 1.558
AGUAVIV -.168 .082 4.137 1 .042 .846 .719 .994
ALUMKEROSE .627 .092 46.847 1 .000 1.873 1.565 2.241
EMPVIVINGRE .288 .083 11.916 1 .001 1.334 1.133 1.571
Constant .761 .379 4.035 1 .045 2.141

60 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Dados estos coeficientes, la ecuación para Entonces la probabilidad de ser pobre del
la probabilidad de ser pobre del jefe de jefe de hogar es:
hogar se puede escribir como sigue:
Pr(Jefe de hogar pobre) = 0.65847
Pr(Jefe de Hogar Pobre) = ECUACIÓN VIII.4

1
Pi = Basados en este estimado, podemos
1 + e − Zi ECUACIÓN VIII.1 predecir que el jefe de hogar con estas
características es pobre. En general, si la
Donde: probabilidad estimada del evento es
menor a 0.5, podemos decir que el
Zi = 0.761 + 0.911(sinnivel) - evento no va a ocurrir. Si la probabilidad
0.072(edad) - 1.189(costa urbana) + es mejor que 0.5, podemos decir que el
0.570(sierra urbana) + 0.899(selva evento va a ocurrir y por lo tanto como en
urbana) - 0.807(selva rural) + el ejemplo, que el jefe de hogar es pobre.
0.07(indexplabo) + 0.584(colegesta) +
0.451(obrero) + 0.324(menos100pe) -
0.226(otroemple) -0.011(inpercam) + Prueba de hipótesis sobre los
0.517(mieperhog) - 0.313(pethogar) + coeficientes
0.269(conviviente) -0.388(sehigdviv) +
0.270(noservhigie) - 0.168(aguaviv) + Para tamaños de muestra grande, la prueba
0.627(alumkerose) + 0.288(empvivingre). de que un coeficiente es 0 es basada en
el estadístico de Wald, el cual tiene una
ECUACIÓN VIII.2 distribución chi-cuadrado. Cuando una
variable tiene un grado de libertad, el
Aplicando esto a un jefe de hogar sin nivel estadístico de Wald es el cuadrado del ratio
de educación con 60 años de edad de del coeficiente entre su error estándar. Para
Lima con un indicador de experiencia variables categóricas, el estadístico de
laboral de 54 años, desocupado, con un Wald tiene sus grados de libertad
ingreso per cápita mensual de s/.143.00, equivalentes a uno menos el número de
con 4 miembros en su hogar, con 3 categorías.
personas en la PET , que no es conviviente,
que no use el kerosene como tipo de Por ejemplo, en el [CUADRO VIII.15] el
alumbrado en su hogar, que posee coeficiente de sin nivel de educación es
conexión a red pública dentro de la 0.911 y su error estándar es 0.231 (en el
vivienda tanto de agua como de cuadro la columna llamada S.E.). El
alcantarillado y no emplea parte de la estadístico de Wald es (0.911/0.231)2 ó
vivienda para ingresos dentro del hogar. 15.548. El nivel de significancia para el
estadístico de Wald es mostrada en la
Zi = 0.761 + 0.911(1) - columna Sig. En nuestro caso todas las
0.072(60)...........-0.388(1) + 0.270(0) - variables obtenidas en el modelo resultan
0.168(1) + 0.627(0) + 0.288(0) ser significativamente diferentes de cero,
para un nivel de significancia de 0.05.
ECUACIÓN VIII.3

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 61


Centro de Investigación y Desarrollo

Otra manera ver de este análisis, es a través Interpretación de los coeficientes


de la prueba asociada a su efecto:
Para entender la interpretación de los
Ho : b (SINNIV) = 0, lo cual quiere decir coeficientes de esta regresión,
que el efecto de no tener educación es consideramos un reordenamiento de la
irrelevante, pero obteniendo un valor para ecuación para el modelo logístico. Este
el estadísitico Wald de 15.548 y una puede ser escrito como un
significancia de 0.000, rechazábamos esa reordenamiento en términos de las
hipótesis nula afirmando que tal efecto es razones (´Odds´) de ocurrencia de un
significativamente distinto de cero y por evento. (Las Odds (´razón de
tal razón relevante para la probabilidad de probabilidades´) de ocurrencia de un
ser pobre del jefe de hogar. evento es definido como el ratio de la
probabilidad de que ocurra un evento
De la misma manera podemos afirmar, por sobre la probabilidad de que no ocurra un
ejemplo, con respecto a la significancia evento. Por ejemplo, la odds de obtener
de la cantidad de miembros en el hogar, cara en un lanzamiento de una moneda
obteniendo un valor de 283.825 para el sería 0.5/0.5 = 1. Similarmente, la odds
estadístico de Wald, que se obtiene de de obtener un corazón en una repartición
elevar al cuadrado la división del de cartas será 0.25/0.75 = 1/3. No debe
coeficiente entre su respectivo Error confundirse este significado técnico de la
Estándar de estimación, demás está odds con su uso informal de un simple
mencionar la relevancia de esta variable y promedio de probabilidad)
confirmar el efecto positivo (0.517) que
juega dentro de la probabilidad de ser Escribimos el modelo logístico en términos
pobre del jefe de hogar. del logaritmo de las odds, llamada como
sabemos logit:
Desafortunadamente, el estadístico de
Wald posee una propiedad indeseable.
Pr( jhpobre)
Cuando el valor absoluto del coeficiente log( ) = β 0 + β 1 X 1 + ...... + β pXp
de regresión llega a ser demasiado grande,
Pr( jhnopobre)
el error estándar también lo es. Esto ECUACIÓN VIII.5
produce que el estadístico de Wald, sea
muy pequeño, por tal motivo no De la ecuación anterior, el coeficiente
estaríamos rechazando la hipótesis nula de logístico puede ser interpretado como un
que el coeficiente es 0, cuando en realidad cambio en el log odds asociado con un
sí deberíamos. De allí que cuando cambio unitario en la variable
tenemos un coeficiente grande, uno no independiente. Por ejemplo, del
debería de confiar en el estadístico de [CUADRO VIII.15] podemos ver que el
Wald para prueba de hipótesis. En vez de coeficiente para sinnivel es 0.911. Esto nos
ello, se debería construir un modelo con indica que cuando el jefe de hogar no
la variable y otro sin variable y basar la posee nivel educativo y los valores de las
prueba de hipótesis en el cambio del log otras variables independientes se
de la función verosimilitud. (Hauck & mantienen constantes, el log odds (razón
Donner, 1977). de probabilidades) se incrementa en un
0.911.

62 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

La ecuación de regresión puede ser escrita hogar, es decir, que su Odds se reduce o
en términos de los odds como: cambia negativamente en 100(0.846-
1)%= 15.4%, y como mencionamos
anteriormente la probabilidad de ser jefe
Pr ob( jhpobre)
= de hogar pobre sería menor con respecto
Pr ob( jhnopobre) a la probabilidad de ser no pobre.

e β 0+ β 1 X 1+......+ β pXp = e β 0e β 1X 1...e β pXp Otra de las variables que resulta de interés,
es la del número de miembros del hogar,
ECUACIÓN VIII.6 donde se puede apreciar que dicha variable
aumenta positivamente el logit de la
En e radica el poder de Bi, que es el factor probabilidad de ser pobre con respecto a
por el cual la razón de probabilidades no serlo en 0.517. Es decir, que la Odds
(´Odds´) cambia cuando la i-ésima (´razón de probabilidades´) a favor de ser
variable independiente se incrementa en pobre cambia posivitivamente en
una unidad. Si Bi positivo, este factor va a 100(1.677-1)%= 67.7% al producirse el
ser mayor que 1, lo cual significa que la aumento de 1 persona en la cantidad de
Odds se incrementa; si Bi es negativo, el miembros del hogar.
factor va a ser menor que uno, lo cual
significa que la Odds decrece. Cuando Bi
es 0, el factor equivale a 1, lo cual significa Determinación de la bondad de ajuste
que la odds no cambia. del modelo

En ese sentido resultó interesante ver Existen varios caminos para determinar de
como al ser obrero es 1.6 veces más un modo u otro la calidad de ajuste del
probable ser pobre que no serlo, es decir, modelo a los datos.
la Odds a favor de ser jefe de hogar pobre
cambia positivamente en 100 (1.570 - 1)% Tabla de clasificación
=57% al tener condición ocupacional de Un camino para determinar que tan bien
obrero. De la misma manera pudimos dar nuestro modelo ajusta los datos es
una lectura parecida, pero con los criterios comparar nuestras predicciones con los
adecuados del caso, al afirmar que el tener resultados observados. El [CUADRO
abastecimiento de agua dentro de la VIII.16] muestra la tabla de clasificación
vivienda a través de red pública le reduce para el modelo obtenido.
la probabilidad de ser pobre al jefe de

Cuadro VIII.16 Tabla de Clasificación a

Predicted

Estado pobreza Percentage


Observed no pobre pobre Correct
Estado pobreza no pobre 3400 701 82.9
pobre 519 3550 87.2
Overall Percentage
85.1

a. El punto de corte es .50

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 63


Centro de Investigación y Desarrollo

Del cuadro anterior vemos que 3400 jefes Otro camino de acceso a la bondad de
de hogar no pobres fueron correctamente ajuste del modelo es examinar que tan
clasificados por el modelo como jefes de bien los resultados de la muestra actual
hogar en estado de no pobreza. nos dan los parámetros
Similarmente, 3550 jefes de hogar pobres estimados. La probabilidad de los resultados
fueron correctamente clasificados en observados, dados los parámetros
estado de pobreza. Los elementos fuera estimados, es conocida como la
de la diagonal de la tabla nos dicen cuántos verosimilitud (´likelihood´). Como la
jefes de hogar fueron incorrectamente verosimilitud es un número pequeño
clasificados. Un total de 1220 jefes de menor que uno, se usa generalmente -2
hogar fueron mal clasificados- 701 jefes veces el logaritmo de la verosimilitud (-
de hogar no pobres y 519 jefes de hogar 2LL) como una medida para verificar que
pobres. De los jefes de hogar no pobres tan bien el modelo estimado ajusta los
el 82.9% fueron correctamente datos. Un buen modelo es aquel que tiene
clasificados. De los jefes de hogar pobres una alta verosimilitud obtenida de los
el 87.2% fueron correctamente resultados observados. Lo cual se traduciría
clasificados. Del total, el 85.1% de los en un pequeño valor para -2LL. (Si un
8170 jefes de hogar tomados para ser modelo ajusta perfectamente, la
analizados fueron correctamente verosimilitud es 1, y -2 veces el log
clasificados. likelihood es 0).

Bondad de ajuste del modelo Ahora, para el modelo logit y de regresión


logística de los jefes de hogar, un modelo
Observando que tan bien clasifica el con solo la constante nos da un -2LL igual
modelo los casos observados es uno de a 11325.9 como se muestra en el
los caminos para determinar la potencia [CUADRO VIII.17].
del modelo logit y la regresión logística.

Cuadro VIII.17 Historia de Iteración a,b,c

Coefficients
Iteración -2 Log likelihood Constant
Step 0 1 11325.900 -.008
a. Constante es incluida en el modelo.
b. Inicial -2 Log Likelihood(-2LL): 11325.900
c. Estimación terminada en iteración N° 1 porque
log-likelihood decrece en menos de .01%.

Bondad de ajuste con todas las es 5683.192, el cual es menor que el -


variables 2LL para el modelo solo con la constante.
La bondad de ajuste puede apreciarse
El [CUADRO VIII.18] nos muestra la además en los estadísticos R2 de Cox &
bondad de ajuste para el modelo con todas Snell (0.499) y de Nagelkerke (0.665), que
las variables independientes [CUADRO nos explican el porcentaje de variación
VIII.15]. Para este modelo el valor de -2LL explicada por el modelo.

64 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Cuadro VIII.18 Model Summary

-2 Log Cox & Snell Nagelkerke


Step likelihood R Square R Square
20 5683.192 .499 .665

Existen otros estadísticos [CUADRO la constante, es 0. De allí que podemos


VIII.19] que nos permiten abordar el ajuste afirmar que este modelo es mejor y
del modelo. Ellos son llamados X2 para el mantener L = b´X. La misma manera de
modelo, el bloque y el paso de iteración. proceder se realiza para una comparación
Para el caso de los jefes de hogar, la X2 entre diversos modelos que incluyen una
del modelo es la diferencia entre -2LL para cantidad diversa de factores explicativos.
el modelo solo con la constante y -2LL Este estadístico es comparable a la prueba
para el modelo con todas las variables F para la regresión clásica. Los grados de
independientes. Es decir, se prueba la libertad para c² modelo son la diferencia
hipótesis nula que sostiene que el modelo entre el número de parámetros de los dos
con solo la constante es mejor que el modelos.
modelo con todos los factores incluidos,
es decir: Con respecto a la c² del paso (Step), se
refiere al cambio en -2LL para este último
c²(20 g.l.) = -2 (LnL(solo con cte.) - paso en la construcción del modelo.
LnL(con factores covariantes)) = 11325.9 Probaría la hipótesis nula que el efecto de
- 5683.192 = 5642.707, la cual frente a este paso no es significativamente
un c²(20 g.l., 5%)=31.41, rechaza la diferente de 0, lo cual es rechazado de
hipótesis nula de que el efecto de todas acuerdo a su significancia de 0.042
las variables explicativas incluidas, excepto

Cuadro VIII.19 Omnibus Test of Model Coefficients

Chi-sq uare df Sig.


Step 20 Step 4.126 1 .042
Block 5642 .707 20 .000
Model 5642 .707 20 .000

Con respecto a la c² del bloque sería el independientes [CUADRO VIII.15], por


cambio en -2LL entre los sucesivos bloques tal motivo la c² del modelo y del bloque
en la construcción del modelo. Prueba la tienen los mismos valores. Si se consideran
hipótesis nula que los coeficientes para el secuencialmente otros modelos a parte de
conjunto de variables adicionadas en el estos dos, usando los métodos de
último paso son 0. En el caso de los jefes selección de variables Fordward o
de hogar, consideramos solo dos modelos: Backward, las c² para el modelo y para el
el modelo solo con la constante y el bloque van a ser diferentes.
modelo con todas las variables

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 65


Centro de Investigación y Desarrollo

Métodos de diagnóstico Para cada observación, la deviance es


calculada como:
Cuando se construye un modelo
estadístico, es importante examinar la -2*log (probabilidad calculada para el
calidad de los resultados obtenidos. En grupo observado)
regresión lineal, observamos una variedad ECUACIÓN VIII.8
de residuales, medidas de influencia e
indicadores de colinealidad. Existen La deviance es calculada tomando la raíz
herramientas valiosas, para identificar cuadrada del estadístico anterior y
puntos donde el modelo no puede ajustar adicionándole un signo negativo si el
bien, puntos que ejercen fuerte influencia evento no ocurre para dicha observación.
sobre los coeficientes estimados, y Por ejemplo, la deviance para un jefe de
variables que son altamente relacionadas hogar no pobre y una probabilidad
unas con otras. En regresión logística y el calculada de 0.45 de ser no pobre es
modelo logit existen diagnósticos
comparables que deberían ser usados para
Deviance = − −2 log(0.45) = −0.833
detectar problemas.
ECUACIÓN VIII.9
El residual es la diferencia entre la
probabilidad observada del evento y la Valores grandes para la deviance indican
probabilidad predicha del evento basado que el modelo no ajusta bien la
en el modelo. Por ejemplo, si predecimos observación. Para tamaños de muestra
que la probabilidad de ser pobre es 0.75 grande, la deviance es aproximadamente
para un jefe de hogar pobre, su residual una distribución normal.
es 1 -0.75 = 0.25.
El Studentized residual para cada
El residual estandarizado (standardized observación es el cambio en la deviance
residual) es el residual dividido por un del modelo si el caso es excluido.
estimado de su desviación estándar. En este Discrepancias entre la deviance y el
caso será: studentized residual pueden identificar
casos inusuales. Una gráfica de
probabilidad normal de los studentized
residuali residuals puede ser muy útil.
Zi =
Pi (1 − P i )
ECUACIÓN VIII.7 El logit residual es el residual para el
modelo si la predicción esta en la escala
Para cada observación, el residual logit.
estandarizado puede además ser
considerado una componente del residuali
estadístico de bondad de ajuste c². Si el Logitresidi =
Pi (1 − Pi )
tamaño de muestra es grande, el residual
ECUACIÓN VIII.10
estandarizado debería aproximarse a una
distribución normal, con media 0 y
El leverage en la regresión logística es en
desviación estándar de 1.
muchos aspectos análogo al leverage en

66 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

la regresión de mínimos cuadrados. Los Donde B 1 es el valor del coeficiente


valores de leverage son siempre usados cuando todas las observaciones son
para detectar observaciones que tienen incluidas en el modelo y B1(i) es el valor
gran impacto en los valores predecidos. A del coeficiente cuando la i-ésima
diferencia de la regresión lineal, los valores observación es retirada. Valores grandes
leverage en esta regresión dependen de de cambio identifican observaciones que
las puntuaciones de la variable deben ser examinadas.
dependiente y del diseño de la matriz. Los
valores de los leverage están restringidos
entre 0 y 1. Su valor promedio es p/n, Diagnósticos de gráficas
donde p es el número de parámetros
estimados en el modelo, incluyendo la Todos los estadísticos descritos hasta ahora
constante, y n es el tamaño de la muestra. pueden ser grabados para este análisis en
la matriz de casos/variables. Cuando se
La Cook´s distance es la medida de la considere conveniente, se pueden
influencia de una observación. Nos dice obtener gráficas de probabilidad normal
cuánto afecta no solo en el residual para usando el procedimiento de exploración
esta observación, sino también sobre el y gráficas de diágnóstico usando
residual del resto de observaciones procedimientos gráficos.
restantes cuando se elimina dicho caso.
La Cook´s distance (D) depende de su El [GRÁFICO VIII.6] muestra la gráfica de
residual estandarizado, así como de su probabilidad normal Q-Q y la gráfica Q-
leverage. Esta definido como: Q de desviaciones respecto a la normal.
En el caso de la gráfica izquierda Q-Q
(Quantiles reales y teóricos de una
Z i * hi
Di = distribución normal) de probabilidad
(1 − hi ) 2 normal, los valores correspondientes a una
distribución normal teórica vienen
ECUACIÓN VIII.11
representados por la recta y los puntos son
los valores de la deviance de los jefes de
Donde Zi es su residual estandarizado y hi
hogar. Como vemos estos puntos, en su
es su leverage.
mayoría, están próximos a la recta, lo cual
indica que el ajuste es aceptable. Confirma
Otra medida de diagnóstico útil es el
esto la suposición hecha con respecto a
cambio en los coeficientes del modelo
los tamaños de muestra grande. Para el
cuando una observación es retirada del
caso de aquellos valores de deviance muy
modelo, o DFBeta. Se puede calcular el
superiores a 2, el modelo no ajusta muy
cambio en cada coeficiente, incluyendo
bien dichas observaciones, pero se debe
la constante. Un ejemplo sería el cambio
considerar que estos corresponden
en el primer coeficiente cuando el caso i
probabilidades de mala clasificación de los
es borrado
jefes de hogar, en tal sentido, se puede
optar por su eliminación o por el análisis
DfBeta( B1( i ) ) = B1 − B1( i ) de los estadísticos de Cook´s y DfBetas
ECUACIÓN VIII.12 para ver la influencia de dichas
observaciones.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 67


Centro de Investigación y Desarrollo

Con respecto a la gráfica Q-Q del lado apreciar con respecto a la mayoría de
derecho de desviaciones de la normal, observaciones sus desviaciones fluctúan
recoge las deviances de los jefes de hogar alrededor de "0", lo que confirma la idea
respecto de la recta. Si la muestra procede de distribución normal para tamaños de
de una población normal, los puntos deben muestra grandes por parte de las
fluctuar alrededor de "0" y no seguir un deviances.
patrón determinado. Como se pude

Gráfico VIII.6
Gráfica Normal Q-Q para Deviance Gráfica Q-Q Desviaciones de
4
la Normal Valores Deviance
Valores Esperados D. Normal

3.0

2.5
2
Desv. de D. Normal
2.0

1.5
0

1.0

.5
-2

0.0

-.5
-4
-4 -2 0 2 4 6
-4 -2 0 2 4 6

Valores Observados Valores Observados

Una gráfica de los residuales estandarizados del rango de variación permitido.


para cada observación se muestra en la Hablamos específicamente para aquellos
[GRÁFICA VIII.7], allí podemos ver como casos donde sus residuales toman valores
los residuales toman valores grandes fuera superiores a 3.

Gráfico VIII.7
Gráfica de Residuales Estandarizados
6

4
Residual Standard

-2

-4
0 2000 4000 6000 8000 10000

Observaciones

68 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

En la [GRÁFICA VIII.8] se muestra que ser estricto, el mayor valor diferenciador


no existen en general casos que tengan que se encontró para el leverage se
un valor de leverage muy diferenciador encuentra alrededor de 0.02, lo que no
unos de otros, cumpliéndose en primer nos llevaría a afirmar que dicho caso tiene
lugar el rango de variación sobre el cual un gran impacto sobre los valores
varía, 0 y 1. En segundo lugar, si se quiere predichos.

Gráfico VIII.8
Gráfica de Leverage por Observación
.0 3
Valores Leverage

.0 2

.0 1

0 .0 0
0 2000 4000 6000 8000 10000

Observaciones

En la [GRÁFICA VIII.9] se muestra que de la costa urbana, mujer de 50 años, en


existen algunos casos que tienen sustancial estado de pobreza no extrema, trabajadora
impacto en la estimación del coeficiente independiente con solo actividad principal.
de la variable indicadora sin nivel educativo Podemos ver que estos dos casos son
( casos 4656 y 7198), los valores para inusuales de acuerdo a las relaciones
Dfbeta sinnivel de estas observaciones se obtenidas en el [CUADRO VIII.15].
encuentran alrededor de -0.04 - valores
extremos. Examinando la data se revela Si retirásemos el caso 4656 del análisis, el
que el primer caso (4656), más próximo a coeficiente de la variable sinnivel de
-0.06, es un jefe de hogar sin nivel de educación cambiaría de 0.911 a -0.04731,
educación, de la selva rural, hombre de con lo cual se vería perjudicado, y se
41 años, conviviente pero en estado de convertiría en un mal predictor o variable
no pobreza, que trabaja solo en su explicativa. Lo mismo sucede si
actividad principal. En el caso de la segunda retirásemos el caso 7198, con lo cual el
observación (7198), valor más próximo a coeficiente variaría de 0.911 a -0.03660,
-0.04, es un jefe de hogar con primaria, con los efectos del caso ya conocidos.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 69


Centro de Investigación y Desarrollo

Gráfico VIII.9
Gráfica de DfBeta SINNIVEL por Observación
.04

.02
DFBETA SINNIV

0.00

-.02

-.04

-.06
0 2000 4000 6000 8000 10000

Observaciones

Enfoque de proporciones muestrales muestrales dentro de este análisis.


Supongamos que se desea estimar la
Modelo probit condición de pobreza del individuo en
En primer lugar intentaremos ejemplificar función a sus deciles de ingreso, en tal
a qué nos referimos con la idea de tasas sentido correspondería obtener la
de respuesta o de proporciones siguiente información [CUADRO VIII.20]

Cuadro VIII.20

Deciles de Jefes de hogar Jefes de hogar pobres


Ingreso en deciles (Ni) en deciles (ni)
Decil I 1789 1737
Decil II 1811 1711
Decil III 1782 1554
Decil IV 1705 1211
Decil V 1702 855
Decil VI 1730 531
Decil VII 1623 264
Decil VIII 1582 154
Decil IX 1498 89
Decil X 1293 21

Como aquí se tiene las probabilidades (Pi) observaciones que deben entrar en el
o proporciones muestrales de ser jefe de análisis, estimamos un modelo de
hogar pobre según decil de ingreso probabilidad de ser pobre del jefe de
(ninperca), obviando las limitaciones que hogar en función al décil de ingreso.
la técnica posee en cuanto al tamaño de

70 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

PROBIT ANALYSIS

MODEL Information
ONLY Normal Sigmoid is requested.

Parameter estimates converged after 11 iterations.


Optimal solution found.

Parameter Estimates (PROBIT model: (PROBIT(p)) = Intercept + BX):


Regression Coeff. Standard Error Coeff./S.E.

NINPERCA -.00678 .00013 -53.42949

Intercept S.Error Intercept/S.E. EPOBRE

.72278 .00094 767.70752 pobre


.75554 .00057 1322.62124 no pobre

Pearson Goodness-of-Fit Chi Square = 9392340.38 DF = 16512 P = .000


Parallelism Test Chi Square = 9300657.30 DF = 1 P = .000

Dado que el nivel de significancia de la Se puede apreciar [CUADRO VIII.21] que


bondad de ajuste del estadístico Pearson- el modelo parece no ajustar
c² es pequeño, empiezan a evidenciarse correctamente las probabilidades
razones para dudar del modelo. observadas de los jefes de hogar en
función a su décil de ingreso.

Cuadro VIII.21 Frecuencias Observadas y Esperadas

EPOBRE NINPERCA Number of Observed Expected Residual Prob


Subjects Responses Responses
0 6.00 1730.0 531.0 1319.386 -788.386 .76265
0 8.00 1582.0 154.0 1199.852 -1045.852 .75844
0 3.00 1782.0 1554.0 1370.164 183.836 .76889
0 6.00 1730.0 531.0 1319.386 -788.386 .76265
0 5.00 1702.0 855.0 1301.590 -446.590 .76474
0 9.00 1498.0 89.0 1132.967 -1043.967 .75632
0 3.00 1782.0 1554.0 1370.164 183.836 .76889
0 6.00 1730.0 531.0 1319.386 -788.386 .76265
0 5.00 1702.0 855.0 1301.590 -446.590 .76474
0 4.00 1705.0 1211.0 1307.430 -96.430 .76682

En ese sentido tendríamos que la (PROBIT(p)) = Intercept + BX


ecuación con respecto a la condición de (PROBIT(p)) = .72278 -.00678*
pobreza: NINPERCA

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 71


Centro de Investigación y Desarrollo

El resultado obtenido debe ser tomado cápita, la probabilidades de ser pobre


con cuidado en el sentido del cambio que asociadas al jefe de hogar y su
se produciría sobre el probit de la transformación probit disminuyen.
probabilidad de ser pobre. Ésta debe ser
transformada para llegar a la cantidad sobre No debemos olvidar algunas de las
la cual variaría en la distribución normal consideraciones que hicimos al empezar
(Un aumento hacia los deciles más ricos este análisis donde se sostuvo que algunos
reduce el valor de la transformación probit de los estimadores pueden resultar no
alrededor de un 0.6%). útiles cuando manejamos tamaños de
muestra bastante grandes, en este sentido
Resulta interesante mostrar como existe resultaría importante el modelo logit con
una relación en algún sentido lineal , observaciones individuales para este tipo
presente entre las transformaciones probit de condicionamientos, además si no se
(Z) en la distribución normal y las hubiese procedido a agrupar la muestra
probabilidades de la variable respuesta, es por niveles o valores del estímulo (deciles
decir, la frecuencia relativa con respecto de ingreso), se podría haber aplicado este
del jefe de hogar pobre en el decil último, y haber obtenido las
correspondiente, podemos ver [GRÁFICO cuantificaciones de aportes en la
VIII.10] la relación inversa en el estado probabilidad de que un jefe de hogar sea
de pobreza de las transformaciones probit clasificado como pobre o no, en función a
y el decil de ingreso, es decir, como a su nivel de educación, la cantidad de hijos
medida que se da un aumento de los que este tiene, si este accede a luz eléctrica
déciles, por ende del nivel de ingreso per dentro de su hogar, etc.

Gráfico VIII.10
Tasa de Respuesta
3
TRAMSFORMACIONES PROBIT

-1

es tado pobrez a
-2
no pobre

-3 pobre
0 2 4 6 8 10 12

DECILES DE INGRESO

72 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

ANÁLISIS DEL MODELO SOBRE LA para medir la validez y confiabilidad de la


PROBABILIDAD DE POBREZA EN EL estimación realizada en la metodología.
JEFE DE HOGAR DEL PERÚ PARA EL
AÑO 2001 La probabilidad de ser un jefe de hogar
pobre para el año 2001 [CUADRO VIII.22]
EL MODELO LOGIT (Observaciones vendría a estar fuertemente ligada a la
individuales) ausencia de activos de capital humano
Con respecto al cuadro siguiente, se van como el de no tener nivel de educación
a analizar 3 modelos, el modelo nº 1, que alguno, contribuyendo este a elevar el logit
no incorpora los efectos de diseño de la de su probabilidad de ser pobre en un
muestra, con el objetivo de mostrar en 94.7% (MODELO Nº 1), creciendo hasta
que medida varían la inferencia a nivel un 114.8% (MODELO Nº 2) y
poblacional comparada con los modelos reduciéndose hasta un 78.5% (MODELO
que sí incorporan los factores de expansión, N° 3). Resulta interesantísimo y no puede
en este caso los modelos nº 2 y nº 3, en ser dejado de lado por su significancia,
el caso del modelo nº 2, se expande la ver que ser un jefe de hogar que ha
muestra tomada para construir la recibido su educación en colegio estatal
metodología (muestra aleatoria de 8233 aumenta el logit de su probabilidad
hogares) y en el caso del modelo nº3 se alrededor de un 60%, manteniendo el
toma el resto de la muestra (8282 hogares) efecto de las demás variables constantes

Cuadro VIII.22
Incidencia en la probabilidad de ser pobre a nivel nacional

M O D E LO N ° 1 M O D E LO N ° 2 M O D E LO N ° 3
E P O B RE C o e f. P> z C oe f. P > |t | C oe f. P > | t|

S IN N IV E L 0 .9 47 0.0 00 1.1 4 8 0 .0 00 0.7 8 5 0 .0 01


E DA D -0 .0 7 0.0 00 - 0.0 8 3 0 .0 00 - 0.0 6 8 0 .0 00
A .R U R A L -0 .9 96 0.0 00
S IE R R A 0 .8 52 0.0 00
SEL VA 0 .5 73 0.0 00
C O S T A U RB - 0.3 5 8 0 .0 04 - 0.3 9 2 0 .0 01
C O S T A R UR - 1.3 8 8 0 .0 00 - 1.4 5 6 0 .0 00
S IE R R A U R B 0.2 3 2 0 .0 94
S IE R R A R U R - 0.1 7 2 0 .2 77 - 0.5 7 1 0 .0 00
SEL VA R U R - 0.9 9 1 0 .0 00 - 1.1 1 3 0 .0 00
IN D E X P L A B 0 .0 69 0.0 00 0.0 7 9 0 .0 00 0.0 7 0 0 .0 00
CO L EG E S T A 0 .6 01 0.0 00 0.8 0 2 0 .0 00 0.5 0 2 0 .0 09
O BR E R O 0 .4 44 0.0 00 0.3 8 6 0 .0 01 0.4 8 5 0 .0 00
M E NO S 1 0 0 P E 0 .3 51 0.0 00 0.3 3 3 0 .0 11 0.2 3 8 0 .0 26
O TR O E M P L -0 .2 23 0.0 1 - 0.2 7 9 0 .0 19
IN P E R C A M -0 .0 11 0.0 00 - 0.0 0 9 0 .0 00 - 0.0 1 1 0 .0 00
M IE P E R H O 0 .5 15 0.0 00 0.5 3 9 0 .0 00 0.4 8 2 0 .0 00
P ET HO G AR -0 .3 18 0.0 00 - 0.3 2 2 0 .0 00 - 0.2 5 0 0 .0 00
C O N V I V IE N 0 .2 67 0.0 00 0.3 2 0 0 .0 02 0.1 1 6 0 .2 43
S E H IG D V I V -0 .4 16 0.0 00 - 0.3 6 9 0 .0 03 - 0.5 1 5 0 .0 00
NO S E HIG 0 .2 86 0.0 00 0.3 1 7 0 .0 10 0.2 2 3 0 .0 48
AG U AV IV -0 .1 39 0.0 00 - 0.2 3 5 0 .0 23
A LU M K E R O 0 .5 93 0.0 00 0.6 6 6 0 .0 00 0.6 3 9 0 .0 00
E M P V IV I -0 .2 84 0.0 00 - 0.1 4 3 0 .1 89
CO N S T 1 .2 36 0.0 00 1.1 2 7 0 .0 08 1.3 9 4 0 .0 00

O bs e rv a c i on e s 81 70 O bs e rv a c io n e s 8 1 70 O bs e rv a c io n e s 8 20 2
LR c h i-s q u a r e 5 6 0 4.5 Ta m . P o b la c 29 249 40 Ta m . P o b la c 2 9 09 8 95
P ro b > c h i 2 0.0 00 F( 2 1 , 2 5 9 3) 3 8 .40 0 F( 1 7 , 2 6 0 7 ) 49 .5 30
S e u do R a j us t 0.4 90 P ro b > F 0 .0 00 P ro b > F 0 .0 00
CC 8 4 .01 0 CC 84 .1 CC 84 .6
S ig n if ic a n c i a : 5 %

Fu e n te : E N AH O I V TR I M . 2 0 0 1 E la b o ra c ió n :C ID E

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 73


Centro de Investigación y Desarrollo

para el primer modelo; en el caso de los tercero, el incremento es de alrededor de


modelos 2 y 3 , aumentan alrededor de un 22%; distinto el panorama y más aún
un 80% y un 50% respectivamente. de seguro en su condición, cuando este
Como ya se habrá podido percibir, el posee conexión a red pública de
poseer coeficientes positivos sobre el alcantarillado dentro de su vivienda,
modelo logit de probabilidad beneficia en reduciendo así su logit en un 41.6%.
términos absolutos a la probabilidad de ser (MODELO Nº 1), hasta un 36.9%
pobre comparada con su complementaria (MODELO Nº 2) y hasta un 51.5%
en una razón de probabilidades. (MODELO N° 3), con lo cual se sigue
ratificando a la condición de inaccesibilidad
En el aspecto de la situación ocupacional a servicios públicos como un factor muy
en que se encuentra el jefe de hogar, importante dentro de la condición de
podemos mencionar que estar en pobreza que puede poseer el jefe de
condición de obrero aumenta el logit de hogar.
su probabilidad de ser pobre entre un 39%
y un 49% en los 2 últimos modelos Observando la parte estadística el primer
respectivamente. Una situación muy modelo presenta estimaciones seudo - R²
distinta poseería el jefe de hogar que del 50% y un porcentaje de clasificación
tendría otra ocupación, donde el efecto de 84.01%. En el caso de los modelos 2 y
en el logit de su probabilidad de ser pobre 3, al incluir los factores de expansión
desciende entre un 22% y un 27% en los tratamos con tamaños de población de
2 primeros modelos, manteniendo alrededor de 2`924,940 y 2`909,895
constante el efecto del resto de variables, hogares, para el primero y segundo
mientras que en el tercero resultaría no respectivamente; el porcentaje de correcta
significativo. clasificación para estos modelos fluctúa
entre un 84.1 (modelo nº2) y un 84.6
La idea de una reducción del tamaño de (modelo nº3).
la familia para reducir su probabilidad de
ser pobre es sustentada aquí, en función Debemos hacer hincapié en un aspecto
del hecho de que un aumento de que puede generar discusión en el sentido
miembros en el hogar estaría teórico estadístico estricto. En el primer
contribuyendo entre un 52% y un 54% modelo existen influencias negativas en
en los 2 primeros modelos y en un 48% la probabilidad, es decir, que si el jefe de
en el tercer modelo, a elevar el logit de hogar pertenece al área rural su
su probabilidad, siempre que se mantenga probabilidad de ser pobre decrece en un
el efecto del resto de variables constantes. 99.6%, mientras que si este pertenece a
las regiones naturales de la sierra y de la
Con respecto a activos públicos a los que selva sus probabilidades aumentan
podría acceder el hogar, la no tenencia de alrededor de un 85% y un 57%. Este
acceso a servicios higiénicos en su resultado es producido por la
vivienda, aparte de detectar una condición multicolinealidad existente en la relación
precaria, provoca un incremento en su entre región natural y área de residencia
logit de probabilidad de alrededor de un del jefe de hogar, cuya relación fue probada
29% y 32% en el primer y segundo en la parte de análisis descriptivo
modelo respectivamente, en el caso del [CUADRO VIII.10], Una de las medidas

74 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

tomadas para contrarrestar este efecto fue validez y confiabilidad con el resto de casos
el de retirar esas variables y colocar otras (8282 hogares), y aplicando en cada uno
indicadoras que representan a las regiones de ellos los factores de ponderación
naturales y el área de residencia del jefe correspondientes.
de hogar, vale decir costa urbana. sierra
rural, etc, por mencionar algunos Siguiendo el enfoque de estimación
ejemplos; lo que sucede allí con las máximo-verosímil, procedimos a estimar
probabilidades de ser pobre es que estas el modelo de probabilidad de un jefe de
se reducirían, es decir, que las otras hogar pobre apoyados en la suposición que
regiones tienen comportamientos la distribución de los errores sigue una
diferenciadores con respecto a ingresos y distribución normal debido a la gran
gastos, sueldos, salarios, condiciones de cantidad de observaciones manejadas.
acceso muy por debajo de los que se Podemos observar [CUADRO VIII.23],
presentan en Lima. En tal sentido, las que no tener nivel de educación alguno
características diferenciadoras más tiene un efecto positivo sobre la
especificas de cada región determinan probabilidad de ser un jefe de hogar
aplicaciones de modelos inherentes a cada pobre, aumentando el probit alrededor de
una. un 53% y un 68% en los 2 primeros
modelos y en un 42.3% en el tercero.
Dadas las características de esta
investigación metodológica, no se ha Planteamos aquí la misma idea de
profundizado aún más en la generación discusión del modelo logit, acerca de la
de tales modelos, pues los objetivos multicolinealidad con respecto al área y
buscados están más orientados hacia la regiones naturales de residencia, sobre qué
parte de diferenciación de enfoques y medida asumir, para el caso del modelo
métodos de estimación de los modelos n°1 sin aplicación de factores de expansión.
logit y probit, y más específicamente hacia
el enfoque de proporciones individuales La dimensión regional es importante, es
en estos dos últimos modelos estimados. decir, el hecho de vivir en zonas urbanas
como rurales de la costa sierra y selva
EL MODELO PROBIT (modelos n° 2 y n° 3), controlando por el
resto de variables (algunas de las cuales
De la misma manera que en el modelo tratan de enfocarse en la capacidad de
logit, realizamos la estimación de 3 consumo y de generación de ingresos del
modelos, donde en el primer caso no se hogar), estarían reduciendo la probabilidad
emplean los efectos de diseño de ser pobre, pues los ingresos por trabajo
provenientes de la encuesta compleja que serían superiores a los de las otras regiones
es la ENAHO. En el caso de los modelos y el monto de la canasta básica en zonas
n° 2 y n° 3, como se mencionó líneas rurales es tremendamente menor que en
antes, en el primero se trabaja con la zonas urbanas y sobre todo comparadas
muestra aleatoria con la que se construyó con la categoría base que sería Lima. Ello
la metodología (8233 hogares) y que estaría explicando por qué el solo hecho
constituye el 50% del total de de vivir en la costa rural, luego de controlar
observaciones, para que luego dicha el efecto por el resto de variables
estimación sea evaluada en cuanto a indicadas, reduce el probit de la

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 75


Centro de Investigación y Desarrollo

Cuadro VIII.23
Incidencia en la probabilidad de ser pobre a nivel nacional

M O DE L O N ª 1 M O DE L O N ª 2 M O D E LO N ª 3
E P O B RE C o e f. P> z C o e f. P > |t | C oef . P > | t|

S IN N IV E L 0 .5 3 4 0 .0 0 0 0 .6 8 3 0 .0 0 0 0 .4 2 3 0 .0 0 2
E DA D -0 .0 4 5 0 .0 0 0 - 0.05 0 0 .0 0 0 - 0.04 8 0 .0 0 0
A .R U R A L -0 .5 4 0 0 .0 0 0
S IE R R A 0 .5 0 0 0 .0 0 0
SEL VA 0 .3 0 7 0 .0 0 0
CO ST A U RB - 0.23 2 0 .0 0 1 - 0.23 3 0 .0 0 0
CO ST A R UR - 0.83 0 0 .0 0 0 - 0.80 5 0 .0 0 0
S IE R R A U R B

S IE R R A R U R - 0.11 1 0 .1 7 5 - 0.22 4 0 .0 1 3
SEL VA R U R - 0.60 2 0 .0 0 0 - 0.61 6 0 .0 0 0
IN D E X P L A B 0 .0 4 3 0 .0 0 0 0 .0 4 8 0 .0 0 0 0 .0 4 8 0 .0 0 0
CO L E G E S T A 0 .3 3 3 0 .0 0 1 0 .4 6 9 0 .0 0 0 0 .2 8 4 0 .0 1 0
O BR E R O 0 .2 0 6 0 .0 0 0 0 .1 7 8 0 .0 0 8 0 .2 5 0 0 .0 0 0
M E NO S 1 00 P E 0 .2 4 3 0 .0 0 0 0 .2 2 2 0 .0 0 3 0 .1 6 8 0 .0 0 4
O TR O E M P L -0 .1 2 2 0 .0 1 0 - 0.15 6 0 .0 2 6
IN P E R C A M -0 .0 0 5 0 .0 0 0 - 0.00 4 0 .0 0 0 - 0.00 5 0 .0 0 0
M IE P E R H O 0 .3 0 4 0 .0 0 0 0 .3 0 9 0 .0 0 0 0 .3 0 4 0 .0 0 0
P ET HO G AR -0 .2 0 0 0 .0 0 0 - 0.19 5 0 .0 0 0 - 0.18 0 0 .0 0 0
C O N V I V IE N 0 .1 5 1 0 .0 0 1 0 .1 8 7 0 .0 0 2 0 .0 9 1 0 .1 2 1
S E H IG D V I V -0 .2 8 4 0 .0 0 0 - 0.28 2 0 .0 0 0 - 0.32 8 0 .0 0 0
NO SE HIG 0 .1 6 8 0 .0 0 1 0 .1 8 4 0 .0 0 9 0 .1 3 9 0 .0 3 1
AG U AV IV -0 .0 7 3 0 .1 1 7 - 0.10 7 0 .0 8 0
A LU M K E R O 0 .3 5 7 0 .0 0 0 0 .3 8 2 0 .0 0 0 0 .3 8 9 0 .0 0 0
E M P V IV I -0 .1 8 1 0 .0 0 0 - 0.07 9 0 .2 1 8
CO N S T 0 .5 9 2 0 .0 0 2 0 .5 9 5 0 .0 1 2 0 .5 9 0 0 .0 0 8

O bs e rv a c i on e s 8 170 O b s e rv a c i on e s 8 170 O b s e r v a c io n e s 820 2


L R c h i- s q u a r e 5 4 7 0 .3 T a m . P o b la c 29 249 40 T a m . P o bl a c 2 90 989 5
P ro b > c h i 2 0 .0 0 0 F( 20 , 25 94) 4 5 .3 8 0 F ( 1 7, 2607) 6 3 .9 4 0
S eu do R a jus t 0 .4 8 3 P ro b > F 0 .0 0 0 Pro b > F 0 .0 0 0
CC 8 4 .0 CC 8 3 .4 CC 8 4 .3
S ig n if ic a n c i a : 5 %

F u e n te : E N A H O I V T R I M . 2 0 0 1 E l a b o ra c i ó n :C ID E

probabilidad en un 83% en el segundo dentro de la vivienda un espacio para


modelo y en un 80.5% en el caso del obtener ingresos, reduce el probit de su
tercero. probabilidad entre un 18.1% (modelo n°1,
sin considerar factor de expansión) y
En el caso de la sierra rural se reduciría el 11.7% (modelo n° 2, considerando
probit de la probabilidad en un 11% y factores de expansión), pero que en el caso
22.4% en el segundo y tercer modelo del tercer modelo resulta siendo no
respectivamente, comparadas siempre con significativo. Además se mantiene la idea
la categoría base que es Lima. Donde se de que otro empleo para obtener ingresos,
están apreciando brechas bastante notorias reduce su probit de probabilidad en una
es en la selva rural, que comparadas con pequeña medida, alrededor de un 12.2%
Lima se estaría reduciendo el probit de su (modelo n° 1) y 15.6% (modelo n° 2).
probabilidad en 60.2% (modelo n° 2) y Nuevamente en el caso del tercer modelo
61.6% (modelo n°3). resultaría no significativa.

Algunos resultados obtenidos en el mismo Queda definitivamente claro que el acceso


sentido que en el modelo Logit a activos públicos beneficia al jefe de hogar
anteriormente estimado recibirían igual y al hogar en su conjunto en una reducción
interpretación, como el hecho de destinar de su probabilidad de ser pobre,

76 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

reduciéndola en 28.2% (MODELO N° 2) normal de los errores, podría primar como


y hasta 32.8% (MODELO N° 3) cuando criterio para la elección del modelo probit
se tiene acceso a servicios de alcantarillado según este enfoque.
dentro de vivienda, y un 10.7%
(MODELO N° 2) cuando se tiene Desde el punto de vista práctico, la
abastecimiento de agua dentro de la elección del modelo logit y de la
vivienda del hogar, siendo no significativa correspondiente regresión logística
esta variable en el caso del modelo n° 3. habilitaría una mayor cantidad de
herramientas de control de la bondad de
Según lo anteriormente mostrado, la ajuste del modelo estimado y por ende
elección por alguno de los dos modelos una mejor validación de éste, en tal sentido
conforme al enfoque de estimación de se propondría como el más idóneo, para
observaciones individuales no es el cálculo del modelo de probabilidad del
diferenciable. Sobre todo si recalcamos la jefe de hogar pobre del Perú, en el año
idea que la gran cantidad de observaciones 2001.
tratadas sesgan la idea de la distribución

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 77


Centro de Investigación y Desarrollo

78 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

IX. CONCLUSIONES

El presenta trabajo de investigación aborda cualitativa, los cuales no hacen posible


los modelos logit y probit aplicados en la la viabilidad de este enfoque según los
investigación social para el caso de la indicadores existentes, resultaría
pobreza en el Perú, durante el año 2001, contraproducente y por tal motivo el
desde la formulación de la condición de modelo probit con variable
la pobreza en el Perú y algunos activos dependiente dicotómica con enfoque
pertenecientes a los jefes de hogar y al de proporciones muestrales no es el
hogar que pertenece bajo esta condición. más adecuado para la estimación de la
Para luego sentar las bases (enfoque probabilidad de ser pobre del jefe de
teórico) sobre los cuales se construyó los hogar en función a sus factores
modelos y se adaptaron a este caso en determinantes.
particular; de allí que se puede concluir,
desde el punto de vista práctico, que 2. Con respecto a la hipótesis que
aspectos como el acceso a activos públicos sostiene que los factores explicativos
benefician al desarrollo de activos privados de la pobreza de los jefes de hogar
de los jefes de hogar a través de un del Perú de naturaleza cualitativa y
decrecimiento en su probabilidad de ser cuantitativa exclusivos del jefe de
pobre. Demás esta confirmar el aumento hogar como el nivel de educación, el
en una gran medida sobre la probabilidad tipo de colegio de estudio, la categoría
de ser pobre cuando el jefe de hogar no ocupacional, el tamaño de la firma
tiene nivel de educación alguno, etc. donde labora, la tenencia de otro
empleo, el estado civil, su edad, su
1. Con respecto a la hipótesis que indicador de experiencia laboral; en
sostiene que los factores de naturaleza combinación con los factores de
cuantitativa como el ingreso per cápita, naturaleza cualitativa y cuantitativa
a través de sus deciles de ingreso, etc; exclusivos del hogar como el indicador
ajustarían correctamente un modelo de si el hogar dedica un espacio del
para la probabilidad de pobreza en el hogar a generación de ingresos, la
jefe de hogar del Perú se rechazaría, cantidad de miembros en el hogar, la
en primer lugar, porque expresado a cantidad de miembros pertenecientes
través del estadístico de bondad de a la PET, el ingreso per cápita mensual,
ajuste Pearson X² mostraría dudas el acceso a activos públicos de agua y
acerca de las probabilidades generadas, desagüe, etc, no generan modelos
y por ende no se convertiría en el más correctamente ajustados sería
idóneo sobre el cual trabajar. En rechazada porque, en primer lugar, las
segundo lugar, dada la naturaleza del probabilidades de correcta clasificación
fenómeno de la pobreza en estudio, para los modelos estimados se
excluirla de sus factores de naturaleza encuentran alrededor del 84% en el

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 79


Centro de Investigación y Desarrollo

modelo logit y en el modelo probit, obtenidas, en el caso del modelo logit,


ambos con enfoque de observaciones y de sus respectivos efectos en la
individuales. En segundo lugar, la transformación probit, en el caso del
obtención de efectos significativos en modelo del mismo nombre, viabilizan
los factores de naturaleza cualitativa y una explicación del fenómeno de la
cuantitativa mencionados líneas antes pobreza en función a los determinantes
y exclusivos al jefe y al hogar, a través antes mencionados.
de las estimaciones de sus respectivos
estadísticos de Wald y significancias

80 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

X. RECOMENDACIONES

• Si se estuviese interesado en el análisis herramientas de validación de la


probit con variable dependiente bondad de ajuste del modelo y no
dicotómica desde el enfoque de dejaría de lado su función
proporciones para el estudio de la discriminadora, beneficiosa en este
pobreza bajo ciertos factores como el caso en el que la variable dependiente
nivel de educación, el área de posee solo dos categorías.
procedencia, acceso a ciertos tipos de
activos públicos deberían en primer • Si bien no ha sido empíricamente
lugar reducirse las cantidades de mostrado en esta investigación, sugiero
observaciones a estudiar para no afectar la inclusión de una mayor cantidad de
a los estimadores, y en segundo lugar, variables de naturaleza cuantitativa en
tratar de generar variables-estímulos modelos probit con enfoque de
(cruce de variables explicativas) que observaciones individuales, pues son
puedan seguir un enfoque cuasi- variables más idóneas a ser sometidas
cuantitativo, de tal manera de que se a pruebas de normalidad y análisis más
pueda determinar la medida de cambio complejos; además porque su
exacto en la obtención de la condición participación en bloques nos permitiría
de pobreza. En tal sentido y dada la obtener cambios exactos a los cuales
limitación de este enfoque, se puede responderían los jefes de hogar
pasar al estudio de niveles más pobres. No deben dejar de
avanzados, como los modelos probit considerarse las variables de naturaleza
con variable dependiente ordinal o cualitativa, pues son fundamentales
modelos con enfoques multinomiales. para la explicación de fenómenos
sociales y podrían plantearse
• Si además de intentar obtener aportes indicadores más idóneos para captar los
de variables explicativas, está cambios de naturaleza cualitativa de los
intentando predecir un modelo de individuos, y no solo expresarse en
clasificación idóneo a sus criterios, el presencia o ausencia de factores de
modelo logit ampliamente difundido riesgo.
aporta una mayor variedad de

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 81


Centro de Investigación y Desarrollo

82 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

XI. BIBILIOGRAFÍA

- “CATEGORICAL DATA ANALYSIS”, - “ANÁLISIS ECONOMÉTRICO”.


Agresti, Alan. Green, William H.
Florida, Wiley, 1990. Prentice Hall. 1998.

- “ESTADÍSTICA MULTIVARIANTE EN - “ECONOMETRÍA”,


LAS CIENCIAS DE LA VIDA”. Gujarati, Damodár N.
Carrasco, José Luis; Hernán, Miguel Colombia, McGraw-HILL, 1997
Angel.
CIBEST. España, Editorial Ciencia, 1993. - “METODOLOGÍA DE LA
INVESTIGACIÓN”.
- “MÁS ALLÁ DE LA FOCALIZACIÓN, Hernández, Roberto; Fernández,
RIESGOS DE LA LUCHA CONTRA LA Carlos; Baptista, Pilar.
POBREZA EN EL PERڔ México. McGraw Hill, 1994.
Chacaltana J., Juan.
PERÚ, Consorcio de Investigación - “MÉTODOS MULTIVARIADOS
Económica y Social, 2001. APLICADOS AL ANÁLISIS DE
DATOS”.
- “IMPACTO DE LOS SERVICIOS Johnson,
PÚBLICOS DE SALUD SOBRE LA México, ITP, 2000.
PRODUCTIVIDAD Y LA POBREZA”,
Cortez Valdivia, Rafael. - “ESTUDIO SOBRE DETERMINANTES
Lima, INEI, 2000. DEL ACCESO A LOS SERVICIOS DE
SALUD EN EL PERڔ,
- “BIOESTADÍSTICA”. Lama More, Antonio.
Díaz, Gabriela; Gunther, Bruno. Lima, INEI, 2000.
Chile, Mediterráneo, 1994.
- “LIMITED-DEPENDENT AND
- “LOS ACTIVOS DE LOS POBRES EN QUALITATIVE VARIABLES IN
EL PERڔ. ECONOMETRICS”.
Escobal, Javier; Saavedra, Jaime; Maddala G. S.
Torero, Máximo. New York, Cambridge University Press,
Lima, GRADE. 1998. 1996.

- “EL ANÁLISIS DE DATOS EN - “SPSS ADVANCE STATISTICS”,


MÉTODO DE SELECCIÓN Majira J. Norusis.
DICOTÓMICA DE LA VARIABLE Chicago, SPSS Inc, 1994
CONTINGENTE”,
Fasciolo, Graciela.
Mendoza, 1997.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 83


Centro de Investigación y Desarrollo

- “METODOLOGÍA, GUÍA PARA - “LA POBREZA EN ARGENTINA: UNA


ELABORAR DISEÑOS DE COMPARACIÓN ENTRE REGIONES
INVESTIGACIÓN EN CIENCIAS DISÍMILES, BUENOS AIRES, 2DA
ECONÓMICAS, CONTABLES Y REUNIÓN ANUAL SOBRE POBREZA
ADMINISTRATIVAS”, Y DISTRIBUCIÓN DEL INGRESO-
Méndez Alvarez, Carlos. LACEA/BID/BM/“
Colombia, Editorial McGraw - Paz, Jorge A.
HILL.,1995. Universidad Torcuato Ditella, 2001.

- “MULTIVARIATE ANALYSIS: - “POBREZA Y ECONOMÍA SOCIAL -


SOCIOLOGY 203”, ANÁLISIS DE UNA ENCUESTA ENNIV-
Department of Sociology, University of 1997.LA EDUCACIÓN Y LA
California, Riverside. PROBABILIDAD DE SER POBRE EN EL
PERÚ DE HOY, LA APLICACIÓN DE
- “EVALUACIÓN DE LOS PROGRAMAS UN MODELO PROBIT DE MÁXIMA
DE COMPLEMENTACIÓN VEROSIMILITUD”,
ALIMENTARIA, GASTO EN Shack Yalta, Nelson Eduardo.
ALIMENTOS Y CONDICIONES DE Perú, DESA, 1999.
VIDA EN EL PERÚ EN EL PERÍODO
1998-1999”, - “ANÁLISIS ESTADÍSTICO CON SPSS
Navarro Levano, José Carlos. PARA WINDOWS”.
Lima, INEI, 2001. Visauta Vinacua, B.
España, Mc Graw Hill, 1998.
- “EL RETO 2001, COMPETIR Y CREAR
EMPLEO”,
Ortiz de Zevallos, Felipe y
Kuczynski, Pedro Pablo.
Lima, El Comercio, 2001.

84 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

XII. Anexos

ANEXO 1. Informe metodológico

ANEXO 2. Indices de ecuaciones, cuadros y gráficos

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 85


Centro de Investigación y Desarrollo

86 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

ANEXO 1
INFORME METODOLÓGICO

Fuentes de información utilizada. viviendas colectivas (hoteles, cárceles,


asilos, etc).
Para cumplir con los objetivos de la
investigación se tomó en consideración la MARCO DE LA MUESTRA: La muestra es
información de la ENCUESTA NACIONAL probabilística, de áreas, estratificada,
DE HOGARES 2001 - IV TRIMESTRE, aquí multietápica e independiente en cada
mencionamos algunas de sus departamento.
características, que son de importancia
relevante para nuestra investigación y que La muestra es probabilística porque las
nos permitiron comprobar algunas ideas unidades han sido seleccionadas mediante
referentes a los factores determinantes de métodos al azar, lo cual permite efectuar
la pobreza en el Perú, y como estos inferencias a la población en base a la teoría
beneficiarían o afectarían, los criterios de de probabilidades.
utilización de modelos logit y probit. Para
dicho propósito se analizarán variables La muestra es de áreas, porque la
relacionadas con el Jefe de Hogar, en sus probabilidad de la población de ser
aspectos sociodemográficos y de inserción seleccionada, está asociada a áreas
ocupacional. geográficas.

Como sabemos, el fenómeno de la La muestra es estratificada, porque


pobreza no afecta solo a los jefes de hogar previamente a la selección, la población
, esta trae consigo una afectación al se ha dividido en estratos, con el objeto
conjunto familiar, por lo tanto usar solo de mejorar su representatividad.
como unidad de análisis al individuo y no
considerar al hogar, puede llevar a En la primera y segunda etapa se utiliza la
significativos sesgos sobrestimados al selección sistemática con probabilidad
respecto, pero que constituye un punto proporcional al tamaño (PPT) de viviendas.
de partida fundamental en razón al
comportamiento de la sociedad y En la última etapa (selección de las
específicamente de la familia peruana, y viviendas) la selección es sistemática simple
del rol que este juega dentro y sobre el con arranque aleatorio.
desarrollo de su hogar, además de tener
en cuenta que estamos desarrollando una COBERTURA GEOGRAFICA:
investigación que devela una metodología Nacional, Urbana y Rural (24
sobre los modelos mencionados departamentos y la Provincia Constitucional
anteriormente. del Callao).

POBLACIÓN OBJETIVO: Fueron las TAMAÑO DE MUESTRA: El tamaño


viviendas particulares y sus residentes total de la muestra en el ámbito nacional
habituales (miembros permanentes del es de 18,863 viviendas particulares, dentro
hogar), excluyéndose a los residentes en de los cuales tomamos a 16515 Jefes de
Hogar y sus respectivos hogares.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 87


Centro de Investigación y Desarrollo

METODOLOGÍA PARA LA INCLUSIÓN independiente. Sobre el se estudiará la


DE VARIABLES EN LA ESTIMACIÓN DE adición o no de las demás variables, con
MODELO LOGIT DE POBREZA un nivel de significación tanto de entrada
del 0.05 y de salida 0.10. En [CUADRO
En primer lugar se emplea un modelo
A.1] de historia de iteración obtenemos
semiautomático de selección de variables
un -2 Log likelihood = 11325.900
(Forward Stepwise Wald).
resultante de su función de verosimilitud
Block 0: Beginning Block y un valor para la constante de -0.008.
En el paso 0 se cuenta con un modelo
configurado solo por el término

Cuadro A.1 Iteration History a,b,c

Coefficien
-2 Log ts
Iteration likelihood Constant
Step 0 1 11325.900 -.008
a. Constant is included in the model.
b. Initial -2 Log Likelihood: 11325.900
c. Estimation terminated at iteration number 1 because
log-likelihood decreased by less than .010 percent.

A partir de aquí se debe comparar el valor este caso, que rechaza o no dicha
que se obtenga en -2 Log likelihood en hipótesis.
los modelos con las nuevas variables
incluídas, de tal manera, que contrastemos El modelo con la constante posee una tabla
la hipótesis nula de que el modelo sin de clasificación del 50.2%, esto quiere
covariables (factores de riesgo de pobreza), decirnos que solo la constante, ya esta
es tan bueno como el modelo que las clasificando como pobres a 5 de cada 10,
contiene. La importancia del modelo y del apreciable en el [CUADRO A.2]. Pero el
conjunto de variables significativas es valor asignado al coeficiente de la
validado posteriormente con el test de constante es de -0.008, el cual no posee
coeficientes del modelo (Ómnibus Test for efecto significativo alguno, pues su
Model Coefficients), [CUADRO A.6] en significancia es de 0.723 [CUADRO A.3].

Cuadro A.2 Classification Table a,b

Predicted

estado pobreza01 Percentage


Observed no pobre pobre Correct
Step 0 estado pobreza01 no pobre 4101 0 100.0
pobre 4069 0 .0
Overall Percentage 50.2
a. Constant is included in the model.
b. The cut value is .500

88 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

También viene acompañado de su error probabilidades´), que será fundamental en


estándar y el c² de Wald, que prueba en la determinación de la cantidad de veces
este caso la significancia individual que en que un jefe de hogar puede ser más pobre
esta caso particular no se da; además de con respecto a no serlo respecto de la
mostrar el Odds Ratio (´Razón de presencia o no de un factor.

Cuadro A.3 Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step 0 Constant -.008 .022 .125 1 .723 .992

Antes de terminar este paso y proceder al consideración su score, en este nuestro


siguiente, observemos [CUADRO A.4], se caso, sería DSHDV CON P =0.000, es
realiza un análisis de las variables todavía decir la variable indicadora sobre
fuera de la ecuación a través de su p-valor abastecimiento de red de alcantarillado
o significancia, que indica la importancia dentro de la vivienda.
relativa que cada una de ellas tendría en
caso de entrar al modelo descrito. Se Así finaliza el paso 0 del Forward Stepwise
seleccionará, entre las variables aquella de Wald que se ha limitado a estudiar el
cuya significancia se encuentre bajo el modelo de partida.
nivel 0.05, tomando también en

Cuadro A.4 Variables not in the Equation a

Score df Sig.
Step Variables DSINNIV 188.492 1 .000
0 P208A 55.014 1 .000
DCOURB 223.726 1 .000
DCORU .152 1 .697
DSIEUR 15.617 1 .000
DSIERU 836.127 1 .000
DSELUR .371 1 .542
DSELRU 50.785 1 .000
DLIUR 446.997 1 .000
EXPER1 8.833 1 .003
DCOLEGIO .075 1 .785
DOBRERO 31.997 1 .000
DME100 528.833 1 .000
DOEMP 21.192 1 .000
INPERCAM 860.534 1 .000
MIEPERHO 819.967 1 .000
PETHOGAR 33.780 1 .000
DCONVI 180.384 1 .000
DSHDV 1307.200 1 .000
DSHNO 674.480 1 .000
DAGUDV 669.772 1 .000
P1122 1114.157 1 .000
P115 57.575 1 .000
a. Residual Chi-Squares are not computed because of redundancies.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 89


Centro de Investigación y Desarrollo

Block 1: Method = Forward Stepwise función de máxima versosimilitud, menor


(Wald) con respecto al modelo solo con constante
(11325.900), además tenemos un Cox &
PASO 1: Variable ingresada DSHDV Snell-R² de 0.153 y un valor de Nagelker
0.203 que nos indica el grado de
Al ingresar la variable indicadora sobre variabilidad explicada por el modelo, en
abastecimiento de alcantarillado dentro de esta caso demasiado baja, y que por ese
la vivienda, vemos que obtenemos un - lado podemos seguir intentando buscar un
2Log likelihood = 9973.258, ver modelo más ideoneo.
[CUADRO A.5], obtenido este de la

Cuadro A.5 Model Summary


-2 Log Cox & Snell Nagelkerke
Step likelihood R Square R Square
1 9973.258 .153 .203
20 5683.192 .499 .665

Se observa en el [CUADRO A.6] siguiente modelo con la constante y DSHDV (tipo


(Test Omnibus) o prueba de los de acceso a alcantarillado), esto en función
coeficientes del modelo, que arroja de la chi-square obtenida que es de
efectos significativos sobre el ingreso de 1352.641 es mayor comparada con aquella
dicha variable y por lo tanto rechazamos chi-square (1 g.l., 5%)=3.84, en tal
la hipótesis nula de que el modelo sólo sentido el modelo obtenido hasta ese
con la constante es igual de bueno que el momento es el más adecuado.

Cuadro A.6 Omnibus Test of Model Coefficients

Chi-square df Sig.
Step 1 Step 1352.641 1 .000
Block 1352.641 1 .000
Model 1352.641 1 .000
Step 20 Step 4.126 1 .042
Block 5642.707 20 .000
Model 5642.707 20 .000

El modelo estimado sería: Ln (p/1-p)= ß0 pública de alcantarillado dentro de la


+ ß1*DSHDV = 0.668 - 1.753*DSHDV, vivienda produce un efecto negativo sobre
apreciable en el [CUADRO A.9], donde el logit de la probabilidad de ser pobre.
ya apreciamos que el tener conexión a red

Cuadro A.7 Hosmer and Lemeshow Test

Step Chi-square df Sig.


2 21.938 8 .005
20 525.158 8 .000

90 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

Si bien el Test de Hosmer y Lemershow independiente 0.688 y el coeficiente del


[CUADRO A.7] deberían ser atentididos acceso a red pública de alcantarillado
en el siguiente paso que incluye una dentro de la vivienda -1.753 formulan el
nueva variable, este no será tratado en modelo de probabilidad de pobreza
virtud de que el resto de procedimientos [CUADRO A.9], el cual por alguna de las
son similares en cada iteración, por eso razones de índole estadística y empírica
solo nos detendremos aquí a afirmar que se queda corto al intentar brindar
frente a un valor de chi-squeare de 21.938 explicaciones del fenómeno en su
y una significación 0.005 esta última se va conjunto y proceder al análisis de los
reduciendo a medida que se van siguientes pasos de iteración.
aumentando más variables en el modelo.
La comparación se hace respecto a una De la misma manera que en el paso 0, se
chi-square (8 g.l., 5%)=15.51 obtenido analizan las variables que están fuera del
de tabla de aquí el test rechaza la hipótesis modelo en este paso (1), antes de
de nulidad. proceder al siguiente [CUADRO A.10],
viendo su significancia (p-valor < 0.005),
Volviendo al paso 1 encontramos que este para su ingreso al modelo y además su
modelo ya tiene un porcentaje de score, en tal sentido algunas de las
clasificación general del 69.5% obtenido candidatas a ingresar serán MIEPERHO (
de su tabla [CUADRO A.8], de aquí mismo 0.000, 962.249), INPERCAM (0.000,
la subclasificación hecha para la condición 561.907), P1122 (0.000, 393.466), pero
de pobreza de los jefes de hogar pobres como es evidente de la ingresante en el
obtiene un 79.8% de subclasificación. siguiente paso será el total de miembros
en el hogar (MIEPERHO).
Con respecto a los estimadores de los
coeficientes tenemos que el término

Cuadro A.8 Classification Table a

Predicted

estado pobreza01 Percentage


Observed no pobre pobre Correct
Step 1 estado pobreza01 no pobre 2436 1665 59.4
pobre 823 3246 79.8
Overall Percentage 69.5
Step 20 estado pobreza01 no pobre 3400 701 82.9
pobre 519 3550 87.2
Overall Percentage 85.1
a. The cut value is .500

El mismo análisis se realiza en cada uno PASO 20: Variable ingresada DAGUDV
de los siguientes pasos de iteración, en La variable ingresante en este paso, ver
tal sentido, para ser una lectura más [CUADRO A.9], es si el tipo de
dinámica se presenta el primer paso de abastecimiento de agua en la vivienda es
iteración y el último donde se detiene la a través de red pública. Las hipótesis acerca
estimación del modelo. de la validación de un adecuado modelo

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 91


Centro de Investigación y Desarrollo

frente a uno que no contiene factores explicaciones de este fenómeno


significativos es fácil de verificar en el Test multidimensional, esto desde el punto de
Ómnibus, ver [CUADRO A.7], y que vista empírico y porque además debemos
permite aceptar este último como mejor de dejar en claro que si bien nos
modelo frente a aquel que solo contiene aproximamos en una buena medida a la
el término constante. realidad con la herramienta estadística esta
no resulta ser determinante y menos
Confirmada la idea anterior se puede reemplazante de esta.
redondear esta, es decir, confirmar el
hecho de que nos encontramos frente a Segundo, que desde el punto de vista
un modelo con un desajuste menor, estadístico, ninguna de las variables
además de obtener un grado de restantes tiene una significación adecuada
clasificación general de alrededor del 85%, para ingresar al modelo [CUADRO A.10],
ver [CUADRO A.8] . en tal sentido, la estimación es detenida,
y se empiezan a realizar los análisis
Este será el último paso ha realizarse en la mostrados en capítulos anteriores en el
estimación del modelo de probabilidad de mismo sentido de haber ingresado la
ser jefe de hogar pobre. Primero dejando primera variable, pues este ha sido un
en claro que no es el único y definitivo proceso continuo durante toda la iteración.
sobre el cual trabajar para estructurar

MODELOS EN CADA PASO DE ITERACIÓN

Cuadro A.9 Variables in the Equation


95.0% C.I.for EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
Step
a
DSHDV -1.753 .050 1212.252 1 .000 .173 .157 .191
1 Constant .668 .030 490.482 1 .000 1.950
Step
t
DSINNIV .911 .231 15.548 1 .000 2.488 1.582 3.913
20 P208A -.072 .011 41.221 1 .000 .931 .910 .951
DCORU -1.189 .167 50.439 1 .000 .304 .219 .423
DSIEUR .570 .098 33.642 1 .000 1.768 1.459 2.144
DSELUR .899 .121 55.483 1 .000 2.458 1.940 3.114
DSELRU -.807 .125 41.844 1 .000 .446 .349 .570
EXPER1 .070 .010 49.495 1 .000 1.072 1.051 1.093
DCOLEGIO .584 .189 9.540 1 .002 1.793 1.238 2.598
DOBRERO .451 .092 23.940 1 .000 1.570 1.311 1.881
DME100 .324 .095 11.606 1 .001 1.383 1.148 1.666
DOEMP -.226 .085 7.090 1 .008 .798 .675 .942
INPERCAM -.011 .000 876.865 1 .000 .989 .988 .990
MIEPERHO .517 .031 283.825 1 .000 1.677 1.579 1.781
PETHOGAR -.313 .040 60.764 1 .000 .731 .676 .791
DCONVI .269 .080 11.274 1 .001 1.308 1.118 1.530
DSHDV -.388 .093 17.414 1 .000 .678 .565 .814
DSHNO .270 .089 9.281 1 .002 1.310 1.101 1.558
DAGUDV -.168 .082 4.137 1 .042 .846 .719 .994
P1122 .627 .092 46.847 1 .000 1.873 1.565 2.241
P115 .288 .083 11.916 1 .001 1.334 1.133 1.571
Constant .761 .379 4.035 1 .045 2.141
a. Variable(s) entered on step 1: DSHDV.
t. Variable(s) entered on step 20: DAGUDV.

92 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

VARIABLES EXCLUIDAS EN CADA PASO DE ITERACIÓN

Cuadro A.10 Variables not in the Equation

Score df Sig.
Step Variables DSINNIV 69.683 1 .000
1 P208A 13.868 1 .000
DCOURB 29.125 1 .000
DCORU 39.325 1 .000
DSIEUR .985 1 .321
DSIERU 259.136 1 .000
DSELUR .699 1 .403
DSELRU 1.023 1 .312
DLIUR 125.821 1 .000
EXPER1 8.835 1 .003
DCOLEGIO .090 1 .764
DOBRERO 13.894 1 .000
DME100 206.545 1 .000
DOEMP 3.052 1 .081
INPERCAM 561.907 1 .000
MIEPERHO 962.249 1 .000
PETHOGAR 158.062 1 .000
DCONVI 79.704 1 .000
DSHNO 107.207 1 .000
DAGUDV 33.928 1 .000
P1122 393.466 1 .000
P115 16.562 1 .000
Step Variables DCOURB 1.150 1 .283
20 DSIERU .005 1 .942
DLIUR 1.496 1 .221
a. Residual Chi-Squares are not computed because of redundancies.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 93


Centro de Investigación y Desarrollo

94 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

ANEXO 2
INDICES DE ECUACIONES, CUADROS Y GRAFICOS

INDICE DE ECUACIONES

CAPÍTULO IV

ECUACIÓN IV.1 Indicadores de Pobreza (Foster-Greer-Thordecke)


ECUACIÓN IV.2 Función de Distribución Binomial
ECUACIÓN IV.3 Probabilidad de ser pobre del jefe de hogar en función a una FDA.
ECUACIÓN IV.4 Modelo de regresión lineal asociado a una FDA
ECUACIÓN IV.5 Modelo de probabilidad lineal
ECUACIÓN IV.6 Heterocedasticidad del modelo lineal de probabilidad.
ECUACIÓN IV.7 Probabilidad de poseer una condición o presencia de fenómeno
asociada a una FDA
ECUACIÓN IV.8 Probabilidad asociada a la Función de Distribución Logística
ECUACIÓN IV.9 Transformación de la probabilidad de FDA Logística
ECUACIÓN IV.10 Probabilidad del evento complementario, Y=0, o ausencia de la
condición o fenómeno.
ECUACIÓN IV.11 Razón de Probabilidades (`Odds ratio´)
ECUACIÓN IV.12 Modelo Logit. Logaritmo de la razón de probabilidades en función
a factores explicativos y sus aportes.
ECUACIÓN IV.13 Probabilidad asociada a la FDA Normal.
ECUACIÓN IV.14 Probabilidad del evento en función a una FDA normal y su
representación matemática.
ECUACIÓN IV.15 Índice imperfecto de conveniencia
ECUACIÓN IV.16 Probabilidad asociada al índice imperfecto de conveniencia y una
FDA Normal.
ECUACIÓN IV.17 Linealidad del modelo probit
ECUACIÓN IV.18 Efectos marginales asociados a una FDA.
ECUACIÓN IV.19 Efectos marginales para la Función de Distribución Normal
ECUACIÓN IV.20 Derivadas parciales respecto de los coeficientes de los factores en
la FDA Logística.
ECUACIÓN IV.21 Efecto marginal para la FDA Logística
ECUACIÓN IV.22 Diferencia de beneficio-coste con una var. Observable

CAPÍTULO VI

ECUACIÓN VI.1 Probabilidad conjunta de un modelo de probabilidad .


ECUACIÓN VI.2 Reformulación de la función de verosimilitud.
ECUACIÓN VI.3 Condiciones de primer orden del problema de maximización.

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 95


Centro de Investigación y Desarrollo

ECUACIÓN VI.4 Heterocedasticidad de los errores en el enfoque de proporciones


muestrales
ECUACIÓN VI.5 Condiciones necesarias de optimalidad de los coeficientes b
ECUACIÓN VI.6 Vector gradiente de la función de verosimilitud
ECUACIÓN VI.7 Matriz de información en función de la matriz Hessiana.
ECUACIÓN VI.8 Método Scoring para estimación de Máxima Verosimilitud.
ECUACIÓN VI.9 Transformación de la variable dependiente Xij en el modelo probit
ECUACIÓN VI.10 Transformación de la variable dependiente Yi en el modelo probit.
ECUACIÓN VI.11 Logaritmo de la verosimilitud de "n" observaciones en el modelo
logit
ECUACIÓN VI.12 Vector gradiente de la verosimilitud en el modelo logit
ECUACIÓN VI.13 Matriz de información del modelo logit.
ECUACIÓN VI.14 Transformación de la variable dependiente Xi en el modelo logit.
ECUACIÓN VI.15 Transformación de la variable dependiente Yi en el modelo logit

CAPÍTULO VIII

ECUACIÓN VIII.1 Probabilidad del jefe de hogar pobre con FDA Logística.
ECUACIÓN VIII.2 Estimación del modelo Logit de probabilidad en función de sus
factores explicativos.
ECUACIÓN VIII.3 Análisis de un caso particular de jefe de hogar para el modelo
logit.
ECUACIÓN VIII.4 Probabilidad asociada al jefe de hogar con un caso específico.
ECUACIÓN VIII.5 Logit de la probabilidad de ser pobre frente a no ser pobre de
acuerdo a sus factores explicativos.
ECUACIÓN VIII.6 Ecuación de regresión en términos de Odds Ratios (´Razones de
probabilidad`)
ECUACIÓN VIII.7 Residual estandarizado
ECUACIÓN VIII.8 Deviance de observaciones en presencia de pobreza.
ECUACIÓN VIII.9 Deviance de observaciones en ausencia de pobreza.
ECUACIÓN VIII.10 Logit residual del modelo de prob. de los jefes de hogar.
ECUACIÓN VIII.11 Medida de influencia de cada observación.
ECUACIÓN VIII.12 Cambio en el primer coeficiente al retirar la observación "i".

INDICE DE CUADROS

CAPÍTULO VIII

CUADRO VIII.1 Perfil del jefe de hogar según nivel educativo y estado de pobreza
CUADRO VIII.2 Test Chi-cuadrado (X2) de independencia entre el nivel educativo
y el estado de pobreza.
CUADRO VIII.3 Cuadro de medidas simétricas sobre el grado de relación entre el
nivel educativo y el estado de pobreza.

96 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL


Centro de Investigación y Desarrollo

CUADRO VIII.4 Perfil del jefe de hogar según género y estado civil en condición
de pobreza.
CUADRO VIII.5 Test Chi-cuadrado (X2) de independencia entre el género y el
estado civil en condición de pobreza del jefe de hogar.
CUADRO VIII.6 Cuadro de medidas simétricas sobre el grado de relación entre el
género y el estado civil del jefe de hogar pobre.
CUADRO VIII.7 Perfil del jefe de hogar según género y estado civil en condición
de no pobreza.
CUADRO VIII.8 Test Chi-cuadrado (X2) de independencia entre el género y el
estado civil en condición de no pobreza del jefe de hogar.
CUADRO VIII.9 Cuadro de medidas simétricas sobre el grado de relación entre el
género y el estado civil del jefe de hogar no pobre.
CUADRO VIII.10 Perfil del jefe de hogar según área y región natural en estado de
pobreza
CUADRO VIII.11 Test Chi-cuadrado (X2) de independencia entre el área y la región
natural en condición de no pobreza del jefe de hogar.
CUADRO VIII.12 Cuadro de medidas simétricas sobre el grado de relación entre el
área y la región natural en estado de pobreza del jefe de hogar.
CUADRO VIII.13 Cuadro de los años de estudios del jefe de hogar según condición
de pobreza
CUADRO VIII.14 Prueba de Levene para la igualdad de varianzas y diferencia de
medias en los años de estudios por condición de pobreza.
CUADRO VIII.15 Cuadro de factores explicativos de la pobreza de los jefes de hogar
en el modelo logit con enfoque de observaciones individuales.
CUADRO VIII.16 Tabla de correcta clasificación de Jefes de hogar.
CUADRO VIII.17 Historia de Iteraciones
CUADRO VIII.18 Cuadro de estadísticos de bondad de ajuste del modelo
CUADRO VIII.19 Cuadro de evaluación de los coeficientes del modelo.
CUADRO VIII.20 Frecuencia de jefes de hogar según deciles de ingreso y jefes de
hogar pobres en cada decil de ingreso para el modelo probit con
enfoque de proporciones muestrales.
CUADRO VIII.21 Frecuencias observadas y esperadas de los jefes de hogar en base
a modelo probit estimado.
CUADRO VIII.22 Incidencia en la probabilidad de ser pobre a nivel nacional del jefe
de hogar según el modelo logit con enfoque de observaciones
individuales.
CUADRO VIII.23 Incidencia en la probabilidad de ser pobre a nivel nacional del jefe
de hogar según el modelo probit con enfoque de observaciones
individuales.

ANEXO

CUADRO A.1 Historia de iteración en el paso 0.


CUADRO A.2 Tabla de clasificación en el paso 0.
CUADRO A.3 Cuadro de variables incluidas en el paso 0 (solo cte.)

LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 97


Centro de Investigación y Desarrollo

CUADRO A.4 Cuadro de variables excluidas en el paso 0.


CUADRO A.5 Cuadro de resumen de modelos en los 1 y 20.
CUADRO A.6 Cuadro de evaluación de los coeficientes de los modelos generados
en el paso 1 y el paso 20.
CUADRO A.7 Cuadro de prueba de Hosmer y Lemershow en las iteraciones o
pasos 1 y 20.
CUADRO A.8 Tablas de correcta clasificación de los modelos generados en los
pasos 1 y 20.
CUADRO A.9 Cuadro de variables incluidas en cada paso de iteración.
CUADRO A.10 Cuadro de variables excluidas en cada paso de iteración.

INDICE DE GRÁFICOS

CAPÍTULO IV

GRÁFICO IV.1 Gráfica de los límites de probabilidad asociado a la presencia del


evento.
GRÁFICO IV.2 Gráfica de región asociada a su probabilidad y en función al índice
imperfecto o de utilidad.
GRÁFICO IV.3 Gráfica de comparación de la FDA Logística y Normal.
GRÁFICO IV.4 Decisión de compra en base al consumidor

CAPÍTULO VIII

GRÁFICO VIII.1 Gráfica del perfil del nivel educativo según estado de pobreza del
jefe de hogar
GRÁFICO VIII.2 Gráfica del perfil del jefe de hogar según género y estado civil en
condición de no pobreza.
GRÁFICO VIII.3 Gráfica del perfil del jefe de hogar según género y estado civil en
condición de pobreza.
GRÁFICO VIII.4 Gráfica del perfil del jefe de hogar según área y región natural en
condición de pobreza.
GRÁFICO VIII.5 Gráfica de la tendencia del promedio de años de estudios del jefe
de hogar según estado de pobreza.
GRÁFICO VIII.6 Gráfica de distribución normal y desviaciones respecto de la
distribución normal de las Deviances obtenidas para cada JH.
GRÁFICO VIII.7 Gráfica de residuales estandarizados según observaciones.
GRÁFICO VIII.8 Gráfica de Leverages obtenidos según observaciones.
GRÁFICO VIII.9 Gráfica de la influencia de observaciones sobre el coeficiente del
indicador sinnivel (sin nivel de educaión).
GRÁFICO VIII.10 Gráfica de transformaciones probit según deciles de ingreso

98 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL