Está en la página 1de 13

Universidad Nacional de

San Agustín
INGENIERÍA INDUSTRIAL
FACULTAD DE INGENERÍA DE
PRODUCCIÓN Y SERVICIOS

MODELO LOGIT Y PROBIT

DOCENTE:

DOC. JOSE CARDENAS

ALUMNOS:

Apaza Rodríguez Eddy


Cornejo Mamani Mayra
Elguera Pumacayo Ruben
Huanqui Yucra Sheyla
Puma Apfdata Daniela

Arequipa - Perú
GRUPO: A

2019
INDICE
OBJETIVO ............................................................................................................................................. 3
INTRODUCCIÓN .................................................................................................................................. 3
a) FORMULACIÓN DEL MODELO PROBIT.......................................................................... 4
Modelo de Variables Latentes .......................................................................................................... 5
Gráfico Nº 3 ......................................................................................................................................... 6
b) ESTIMACIÓN DE MÁXIMA VEROSIMILITUD DEL MODELO PROBIT ................... 7
c) PRUEBA DE HIPÓTESIS PARA LOS PAR ÁMETROS ESTIMADOS .............................. 8
BIBLIOGRAFÍA .................................................................................................................................. 13
OBJETIVO
- En el presente trabajo su objetivo principal es investigar y el entendimiento del modelo

Logit – Probit para la aplicación laboral.

INTRODUCCIÓN

Los modelos de análisis Multinivel constituyen la metodología de análisis más adecuada para
explicar dato jerarquizados, lo que la convierte en una herramienta imprescindible para la
investigación. Además de mejorar la calidad de los resultados respecto a sus estimaciones,
posibilita realizar análisis novedosos, como estimar la aportación de cada nivel de análisis o las
interacciones entre variables de distintos niveles.

Entre los niveles más representativos del análisis multinivel están el Logit y el Probit, utilizados
para describir la relación existente entre la variable respuesta de tipo dicotómica y una o más
variables explicativas. A través de sus estimaciones puntuales e intervalares de los parámetros
se calcularon medidas de significancia y parsimonia del modelo.

El modelo Logit fue introducido por Joseph Berkson en 1944, este fue quien sugirió este
nombre, el nombre fue traído como una analogía muy similar al modelo Probit desarrollado por
Chester Ittner Blis en 1934.

MODELO PROBIT
En estadística, un modelo probit es un tipo de regresión donde la variable dependiente puede
tomar solo dos valores, por ejemplo, casados o no casados. La palabra es un acrónimo, viene de
probabilidad + unit (unidad). El propósito del modelo es estimar la probabilidad de que una
observación con características particulares caerá en una categoría específica; Además,
clasificando las observaciones basadas en sus probabilidades predichas es un tipo de modelo de
clasificación binario.
Un modelo probit es una especificación popular para un modelo de respuesta ordinal o binario.
Como tal, trata el mismo conjunto de problemas que la regresión logística utilizando técnicas
similares. El modelo probit, que emplea una función de enlace probit, se suele estimar utilizando
el procedimiento estándar de máxima verosimilitud, que se denomina una regresión probit.
Los modelos Probit fueron presentados por Chester Bliss en 1934; Ronald Fisher propuso un
método rápido para calcular las estimaciones de máxima verosimilitud para ellos como apéndice
del trabajo de Bliss en 1935.

a) FORMULACIÓN DEL MODELO PROBIT


En el MPL, suponemos que la probabilidad de respuesta es lineal en el conjunto de parámetros
â; para evitar las limitaciones del MPL, se considera una clase especial de modelos de
respuesta binaria de la forma:

P( y =1| x)= F(â 0 + â1 x1 + â2 x2+...+ân xn )=F (â’x) (3.1)

Donde F es una función que asume valores que se hallan estrictamente entre cero y uno
0<F(â’x)<1, para todos los números reales. Esto asegura que todas las probabilidades de
respuestas estimadas se hallen estrictamente entre cero y uno.
En este capítulo se analizará el modelo Probit el cual será la base para el problema planteado
al inicio de trabajo. Donde F es la función de distribución acumulada normal estándar, que se
expresa como una integral:

La función F en (3.2) es creciente. F(t) 0 cuando t - y F(t) 1 cuando t . La función Probit


se presenta en la gráfica Nº 2.




Modelo de Variables Latentes

Los Modelos de Respuesta Binaria (MRB) pueden ser desarrollados usando una variable
latente la cual satisface las suposiciones del modelo lineal clásico. En los MRB se supone que
hay una variable no observada y * que toma valores continuos tal que para aquellos valores
mayores a un valor “a”, y = 1 y para aquellas valores de y * menores que “a”, y =0 . En otras
palabras, los MRB aparecen con frecuencia como modelos con función índice la cual es el
resultado de una elección discreta en base a una regresión subyacente.

Siguiendo con nuestro problema planteado en el capítulo I, es decir, la decisión del trabajador
secundario de participar en el mercado laboral, el individuo hace un cálculo entre la cantidad
de consumo y “ocio” que pueden comprar dadas las restricciones impuestas por el ingreso
familiar disponible, el ingreso no laboral y laboral, y con el beneficio que podría generar otra
decisión. Puesto que la cantidad de consumo evidentemente no es observable, ajustamos la
diferencia entre el consumo y el beneficio de otra decisión con una variable no observable y*
que cumple

y * = â’x + å (3.3)

Supongamos que la distribución del error å es normal con media cero y varianza uno.

No observamos el beneficio neto de decidir participar en la oferta laboral, sólo si ésta se hace
o no. Por lo tanto, nuestra observación es
y =1 si y * > a
y =0 si y * a

Con esta formulación, â’ x recibe el nombre de función índice, donde a es el umbral o punto
de corte.

La conexión entre la variable latente y * y la observada y es mostrada en la figura Nº 3 para


el modelo 3.3. En la figura y * está en el eje vertical, con un umbral ô=0 indicado por la línea
horizontal punteada. La distribución de y * muestra una curva acampanada, cuando y * es
mayor que ô, indicado por la región sombreada, se observa y =1.

Como vemos el modelo no puede ser estimado con MCO, por ello usamos la estimación por
Máxima Verosimilitud que requiere conocer la distribución de los errores. Para el modelo
Probit asumimos que el error sigue una distribución normal con media 0 y varianza 1, la
hipótesis de que el umbral es cero puede facilitar los cálculos, sin embargo, puede tomar
cualquier valor.

Gráfico Nº 3
La distribución de y* dado x en la Distribución de Respuesta Binaria
La probabilidad del suceso y=1 es:

Prob ( y = 1) = Prob ( y * > 0)


= Prob (â’x + å > 0)
= Prob (å > - â’x )

Si la distribución es simétrica, como la distribución normal,

Prob ( y = 1) =Prob ( y * > 0)


= Prob (å < â’x )
= F (â’x)

De este modo se obtiene un modelo estructural para la probabilidad.

b) ESTIMACIÓN DE MÁXIMA VEROSIMILITUD DEL MODELO PROBIT

Todos los modelos de elección binaria, excepto el modelo de probabilidad lineal, se estiman
habitualmente por el método de Máxima Verosimilitud. Cada observación se considera
como realización individual de una variable aleatoria con distribución Bernoulli (es decir
binomial con n=1). La probabilidad conjunta, o función de verosimilitud, de un modelo con
probabilid ad de éxito F(â’x) y observaciones independientes es

Podemos re escribir esta fórmula como

Esta es la función de verosimilitud para una muestra de “n” observaciones. Tomando


logaritmos obtenemos:
Las condiciones de primer orden del problema de maximización requieren que

A menos que se utilice el modelo de probabilidad lineal, las ecuaciones contenidas en (3.7)
serán no lineales y habrán de resolverse con métodos numéricos. Para los MRB, los
estimadores de máximo verosimilitud son obtenidos igualando la primera derivada (o
gradiente) a 0 y haciendo uso del álgebra. Sin embargo, en los modelos no lineales es raramente
posible encontrar la solución usando álgebra. En consecuencia, se usa los métodos numéricos
para encontrar estimadores que maximicen la función de verosimilitud. Los métodos numéricos
empiezan con un supuesto de los valores e iterando para mejorar la suposición.

Uno de los métodos más utilizados es el conocido método del tanteo. El método de tanteo
(Scoring) usa la información de la matriz de información, las estimaciones Probit se obtienen
como resultado de varias etapas:

c) PRUEBA DE HIPÓTESIS PARA LOS PAR ÁMETROS ESTIMADOS

En los modelos lineales se utilizan generalmente las pruebas t, F y Ji cuadrado para probar
diversidad de hipótesis, pero como nos encontramos en un mundo menos cómodo, es decir
el de los modelos no lineales donde se necesitan otros métodos para probar hipótesis con los
que se puedan evaluar estos modelos.

De manera general se puede mencionar las conocidas pruebas de verosimilitud y de Wald que
permite lograr este propósito. Lo interesante de observar es que asintóticamente (muestras
grandes) las dos pruebas son equivalentes en cuanto a que la estadística de prueba asociada
con cada una de estas pruebas sigue la distribución ji-cuadrado.
MODELO LOGIT

El modelo logit permite obtener estimaciones de la probabilidad de un suceso, identificar los

factores de riesgo que determinan dichas probabilidades, así como la influencia o peso relativo

que éstos tienen sobre las mismas.

Este modelo es empleado cuando se desea comparar un grupo de variables independientes

con una variable dependiente no métrica (dicotómica), por lo que su posible respuesta es 0

(Fracaso, Ausencia de …) o 1 (Éxito, Presencia de …), por este motivo no se puede usar un

modelo lineal.

Este tipo de modelo arroja como resultado un índice, cuyos determinantes son conocidos, el

cual permite efectuar ordenaciones, las cuales, al realizarse, posibilitan, con algún método de

estratificación, generar clasificaciones en las que se le asocia a cada elemento una calificación.

Existen muchos criterios para llevar a cabo la asociación índice - calificación, muchos de ellos

con base en índices de muestreo, donde el criterio es puramente estadístico. Otros criterios

podrían considerarse como subjetivos.

Para el caso más sencillo, el de una única variable explicativa, se trata de encontrar la relación

que existe entre la variable explicativa y la endógena. Las posibilidades que se plantean son:

Que la función que relaciona ambas variables sea una función lineal, caso en el cual se tiene,

lo que se ha denominado, el modelo lineal de probabilidad. Este asume que la relación entre las

variables explicativas y la variable explicada tiene un comportamiento lineal, suposición que

en muchos casos no se da, dando esta situación origen a los modelos de regresión no lineales,

dentro de los cuales se encuentran ubicados los modelos Probit y Logit.

La modelización Logit es similar a la regresión tradicional salvo que utiliza como función de

estimación la función logística en vez de la lineal. Con la modelización Logit, el resultado del

modelo es la estimación de la probabilidad de que un nuevo individuo pertenezca a un grupo o


a otro, mientras que, por otro lado, al tratarse de un análisis de regresión, también permite

identificar las variables más importantes que explican las diferencias entre grupos.

La modelización Logit es similar a la regresión tradicional salvo que utiliza como función de

estimación la función logística en vez de la lineal. Con la modelización Logit, el resultado del

modelo es la estimación de la probabilidad de que un nuevo individuo pertenezca a un grupo o

a otro, mientras que, por otro lado, al tratarse de un análisis de regresión, también permite

identificar las variables más importantes que explican las diferencias entre grupos.

Existen distintos tipos de modelos Logit en función de las características que presenten las

alternativas que definen a la variable endógena. Esta variable permite medir el número de

grupos existentes en el análisis, los modelos Logit se pueden clasificar así:

 Logit dicotómico: Se utiliza cuando el número de alternativas son dos y excluyentes entre

sí.

 Logit de respuesta múltiple: Se utiliza cuando el número de alternativas a modelizar es

superior a dos.

 Logit con datos no ordenados: Se utiliza cuando las alternativas que presenta la variable

endógena no indican ningún orden

 Logit multinomial: Se utiliza cuando los regresores del modelo hacen referencia a las

observaciones muéstrales, por lo que varían entre observaciones, pero no entre alternativas.

 Logit condicional: Se utiliza cuando los regresores del modelo hacen referencia a las

alternativas, por lo que sus valores varían entre alternativas pudiendo hacerlo o no entre

observaciones.

 Logit con datos ordenados: Se utiliza cuando las alternativas de la variable endógena

representan un orden entre ellas.

El modelo Logit dicotómico:


Presenta las siguientes características principales:

Variable endógena binaria: Identifica la pertenencia del individuo a una de dos posibles

categorías, identificando con el número 1 si el individuo pertenece a la característica de interés

cuya probabilidad se estimará en el modelo. Se identifica con 0 al elemento que no posee la

característica de interés, cuya probabilidad también se estima con el modelo.

Variables exógenas: Son las variables que permiten discriminar entre los grupos y que

determinan la pertenencia de un elemento a un grupo u otro. Pueden estar medidas en escala

nominal, ordinal, de intervalo o de razón.

Resultado del análisis: El resultado del análisis es un vector de parámetros con valores

numéricos, que son los coeficientes para cada uno de las variables explicativas que hacen parte

definitiva del modelo. La importancia radica en que a cada valor del vector de parámetros le

corresponde una variable explicativa, al tenerse en cuenta todas en conjunto y dar valores a

cada una de las variables independientes contenidas en el modelo definitivo, se obtiene el valor

de la probabilidad de que un individuo posea la característica de interés estudiada en el modelo.

Modelo logit de respuesta múltiple:

Cuando la variable endógena a modelizar es una variable discreta con varias alternativas

posibles de respuesta, nos encontramos ante los modelos de respuesta múltiple. Estos modelos

se clasifican en dos grandes grupos según las alternativas que presenta la variable endógena así:

cuando se puedan ordenar (modelos con datos ordenados) o no se puedan ordenar (modelos con

datos no ordenados).

Logit multinomial

En este tipo de modelos las alternativas de la variable respuesta indican la pertenencia de las

observaciones a un determinado grupo sin incorporar información ordinal.

Logit ordinal
En este tipo de modelos las alternativas de la variable respuesta permiten establecer un orden

entre las distintas observaciones.

Explicación:

Sea la variable respuesta Y, la cual sólo puede tomar los valores Y=1 (presencia de la

característica de interés) con probabilidad de ocurrencia igual a π y Y=0 (ausencia de la

característica de interés) con probabilidad 1-π. Además, sea la covariable (variable predictiva o

variable independiente) X, la cual puede ser categórica o continua.

Si la variable Y es el resultado de un experimento de Bernoulli, esto es, las observaciones son

independientes, entonces la variable aleatoria tiene distribución de Bernoulli con:

𝑬 (𝒀 / 𝑿 = 𝒙) = π (Esperanza condicional de Y dado X=x), y

𝑽 (𝒀 / 𝑿 = 𝒙) = π (𝟏 −π) (Varianza condicional de Y dado X=x).

Por lo tanto, la probabilidad de que Y = 1 es igual a la 𝑬 (𝒀 / 𝑿 = 𝒙) = π y puede ser calculada

a partir de una distribución de probabilidad que tiene la forma de la curva sigmoidea, en

particular esta curva puede ser la logística,

Donde 𝜼 = 𝜷𝟎 + 𝜷𝟏𝑿 es el predictor lineal y la función de enlace canónico es:

Su representación como un modelo lineal generalizado, será:

La utilidad del modelo se basa en que muchas veces, el perfil de variables predictivas puede

estar formado por características cualitativas y cuantitativas; y se pretende hacer participar a

todas en una sola ecuación conjunta que explique como la probabilidad de alcanzar una
respuesta depende de todas y cada una de las variables predictivas.

BIBLIOGRAFÍA

- Llano (2006) El modelo LOGIT una alternativa para medir probabilidad de permanencia
estudiantil. Publicado por la Facultad de Administración de la Universidad Nacional de
Colombia. Recuperado el 20 de enero del 2020 desde:
http://www.bdigital.unal.edu.co/1038/1/laurarosallanodiaz.2006.pdf.

- Enchautegui, M. (2008) Módulo de estudio sobre Modelos Probit y Logit. Publicado por
Departamento de Economía de la Universidad de Puerto Rico Recinto de Río Piedras.
Recuperado el 20 de enero del 2020 desde: http://economia.uprrp. edu/
notas%20de%20clase%207.pdf