Está en la página 1de 24

Probit

Datos no agrupados
Función de distribución acumulada Área=Pr(𝑍 ≤ 𝑧)

La tabla da la distribución normal estándar da la probabilidad acumulada de − ∞ al valor de z indicado. Así para z = 0, la
probabilidad dada en la tabla es para P(Z ≤ 0) = 0.5, y para z = − 1.96 la probabilidad es P(Z ≤ − 1.96) = 0.025
Funciones de probabilidad (Gujarati)

(*) Ver Gujarati, 5ta. Edición (https://fvela.files.wordpress.com/2012/10/econometria-damodar-n-gujarati-5ta-ed.pdf)


Probit
• La regresión Probit se utiliza para determinar la probabilidad de un
evento, el cual se captura en formato binario, es decir, 0 o 1, o en
formato de respuesta múltiple
• Ejemplo: Se busca determinar si un cliente comprará determinado producto o
no.
• Para evaluar ello, se ejecutaría una regresión probit en los datos y la variable
dependiente sería una variable binaria (1 = Sí compra; 0 = No compra), o una
múltiple .
• En términos de representación gráfica:
• La regresión lineal proporciona un gráfico lineal como salida, una vez que los
valores se trazan en el gráfico.
• La regresión probit proporciona una línea en forma de S
Modelo Probit
• Probit modela la probabilidad de Y = 1 usando la función de distribuciónacumulada de una
distribuciónnormal estándar:Φ(z ), evaluada en 𝑧 = 𝛽1 + 𝛽2 𝑋.

• El modelo Probit puede ser expresado como:


Pr(𝑌 = 1|𝑋 ) = Φ(𝛽1 + 𝛽2 𝑋)
Donde:
- Φ(.) es la función de densidad normal acumulada
- 𝑧 = 𝛽1 + 𝛽2 𝑋 , es el z−valor o z−índex de un modelo probit.

• Ejemplo: S i 𝛽1 = −2 ; 𝛽2 = 3 ; 𝑋 = 0.4

 Pr(𝑌 = 1|𝑋 = 0.4) = Φ[−2 + 3(0.4)] = Φ[−0.8]


Pr(Y = 1|X =0.4) = á́rea bajo la función de densidad a la izquierda de z = −0.8
P(Z ≤ − 0.8) = 0.2119
Probit
• La aproximación al problema es similar al Logit pero bajo una relación no lineal
distinta (aunque muy similar) entre 𝑋𝑖 y 𝑃𝑖, sustentada en la distribución normal
acumulada
• Se supone que la elección 1 ó 0 en la variable dicotómica (por ejemplo poseer o
no una casa) depende de un índice 𝐼𝑖 (denominado variable latente)
• El índice 𝐼𝑖 está determinado por una o varias variables explicativas (Por ejemplo
ingresos, ahorros, riqueza, etc.)
• Cuanto mayor sea el índice mayor la probabilidad de que ocurra “1” (por ejemplo,
mayor la probabilidad de tener una casa)

𝐼𝑖 = 𝛽1 + 𝛽2 𝑋𝑖
Probit
• Se supone un umbral crítico 𝐼𝑖∗ a partir del cuál, si 𝐼𝑖 supera a I* entonces se materializa
el valor 1 (por ejemplo, una familia posee una casa, o si es el caso de si trabaja o no,
tiene trabajo, o si es el caso de si sale de vacaciones o no, sale de vacaciones).
• El umbral 𝐼𝑖∗, al igual que 𝐼𝑖, no es observable
• Pero, asumiendo que está distribuido normalmente con la misma media y varianza es
posible estimar los parámetros del índice y también alguna información sobre el I*.

𝑃𝑖 = 𝑃(𝑌𝑖 = 1|𝑋𝑖) = 𝑃(𝐼𝑖∗ ≤ 𝐼𝑖) = 𝑃(𝑍𝑖 ≤ 𝛽1 + 𝛽2 𝑋) = 𝐹(𝛽1 + 𝛽2 𝑋 )

Donde
Z es una variable estándar normal, Z ~ N(0, s2)
F es la función de distribución normal acumulada
OBS GPA TUCE PSI GRADE LETTER

Probit (Gujarati) 1
2
3
2.66
2.89
3.28
20
22
24
0
0
0
0
0
0
C
B
B
4 2.92 12 0 0 B
5 4 21 0 1 A
Datos sobre el efecto de un sistema personalizado de 6 2.86 17 0 0 B
7 2.76 17 0 0 B
instrucción (PSI) en las calificaciones del curso 8 2.87 21 0 0 B
9 3.03 25 0 0 C
- GRADE: Calificación final obtenida por un estudiante en un curso 10 3.92 29 0 1 A
11 2.63 20 0 0 C
intermedio de microeconomía (Variable endógena “Y”) 12 3.32 23 0 0 B
o GRADE = 1 si la calificación es obtenida es A 13
14
3.57
3.26
23
25
0
0
0
1
B
A
o GRADE = 0 si la calificación es obtenida es diferente de A 15 3.53 26 0 0 B
16 2.74 19 0 0 B
- LETTER = Calificación obtenida (A, B, C) 17 2.75 25 0 0 C
18 2.83 19 0 0 C
Variables exógenas: 19 3.12 23 1 0 B
20 3.16 25 1 1 A
- GPA: Promedio de notas de entrada 21 2.06 22 1 0 C
22 3.62 28 1 1 A
- TUCE: Puntuación en un examen de principio del curso para 23 2.89 14 1 0 C
evaluar los conocimientos de macroeconomía de los alumnos 24
25
3.51
3.54
26
24
1
1
0
1
B
A
- PSI: Aplicación del sistema personal de instrucción; donde: 26
27
2.83
3.39
27
17
1
1
1
1
A
A
o PSI = 1 si se utiliza el nuevo método 28 2.67 24 1 0 B
29 3.65 21 1 1 A
o PSI = 0 si no se utiliza el nuevo método 30 4 23 1 1 A
31 3.1 21 1 0 C
(*) Ver Gujarati, 5ta. Edición (https://fvela.files.wordpress.com/2012/10/econometria-damodar-n-gujarati-5ta-ed.pdf) 32 2.39 19 1 1 A
Probit (Gujarati)
• Cargamos los datos en Eviews y efectuamos la regresión Probit
𝐼𝑖 = 𝛽1 + 𝛽2 𝐺𝑃𝐴𝑖 + 𝛽3 𝑇𝑈𝐶𝐸𝑖 + 𝛽4 𝑃𝑆𝐼𝑖 + 𝑢𝑖

(*) Ver Gujarati, 5ta. Edición (https://fvela.files.wordpress.com/2012/10/econometria-damodar-n-gujarati-5ta-ed.pdf)


Probit (Gujarati)
• Como se emplea el método de máxima
verosimilitud, los errores estándar
estimados son asintóticos.
• En vez del estadístico t para evaluar la
importancia estadística de un coeficiente,
se emplea el estadístico (normal
estandarizado) Z, por lo que las inferencias
se basan en la tabla normal
• (si el tamaño de la muestra es
razonablemente grande, la distribución t
converge a la distribución normal).
• La medida convencional de la bondad de
ajuste, 𝑅2 , no es significativa en la
regresión binaria.
• Se evalúan pseudo 𝑅2

(*) Ver Gujarati, 5ta. Edición (https://fvela.files.wordpress.com/2012/10/econometria-damodar-n-gujarati-5ta-ed.pdf)


Probit (Gujarati)
• Se evalúan pseudo 𝑅2

a) “𝑅2 McFadden”: Aunque el índice R2 es


un concepto más familiar por el MCO, no
se comporta bien en la estimación de
modelos logísticos.

• En el “𝑅2 McFadden” sus valores tienden


a ser considerablemente más bajos que
los del índice 𝑅2 .
• Por ejemplo, los valores de 0.2 a 0.4
representan un ajuste EXCELENTE.

(*) Ver Gujarati, 5ta. Edición (https://fvela.files.wordpress.com/2012/10/econometria-damodar-n-gujarati-5ta-ed.pdf)


Probit (Gujarati)
• Se evalúan pseudo 𝑅2
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖𝑜𝑛𝑒𝑠 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎𝑠
b) Cuenta 𝑅2 =
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠

• Como la endógena en el modelo Probit


toma el valor de 1 o de 0, si la probabilidad
pronosticada es mayor que 0.5, se clasifica
como si fuese 1, pero si es menor que 0.5,
se considera 0.
• Una predicción se considera correcta si el
valor del error estimado 𝑢𝑖 es:
−0.5 ≤ 𝑢𝑖 ≤ 0.5
• De esa forma se obtiene el número de
predicciones correctas y se calcula Cuenta
𝑅2

(*) Ver Gujarati, 5ta. Edición (https://fvela.files.wordpress.com/2012/10/econometria-damodar-n-gujarati-5ta-ed.pdf)


Probit (Gujarati)
• Se evalúan pseudo 𝑅2
2 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖𝑜𝑛𝑒𝑠 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎𝑠
b) Cuenta 𝑅 =
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠

• Procedimiento en Eviews: En los resultados de la regresión:


• Se genera la serie error (𝑢ො 𝑖 ):
Proc/Make residual series
• Se genera Y estimado (𝑌෠𝑖 )
Forecast
• Se verifica que −0.5 ≤ 𝑢𝑖 ≤ 0.5
• Si −0.5 ≤ 𝑢𝑖 ≤ 0.5:  𝑌෠𝑖 es una predicción correcta: 26 correctas
• Si −0.5 > 𝑢𝑖 > 0.5 :  𝑌෠𝑖 No es una predicción correcta: 6 erradas
• Porcentaje de error: (6/32)*100=18.75%
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖𝑜𝑛𝑒𝑠 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎𝑠 26
• Cuenta 𝑅2 = = = 0.8125
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 32

(*) Ver Gujarati, 5ta. Edición (https://fvela.files.wordpress.com/2012/10/econometria-damodar-n-gujarati-5ta-ed.pdf)


Probit (Gujarati)
• Porcentaje de error
• En los resultados de la regresión Probit:
• View/Expectation-prediction evaluation

(*) Ver Gujarati, 5ta. Edición (https://fvela.files.wordpress.com/2012/10/econometria-damodar-n-gujarati-5ta-ed.pdf)


Probit (Gujarati)
• No obstante lo anterior, el 𝑅2 (la
bondad del ajuste) tiene importancia
secundaria.
• Lo que mas importa son los signos
esperados de los coeficientes de la
regresión.
• A fin de probar la hipótesis nula
respecto de que todos los coeficientes
de pendiente son simultáneamente
iguales a cero, el equivalente de la
prueba F en el modelo de regresión
lineal es el estadístico de la razón de
verosimilitud (RV).

Gujarati, Econometría 5ta edición (2010)


Probit (Gujarati)
Lectura de resultados
• No se evalúa la significancia
individual de la variables
• Se evalúa la significancia conjunta, es
decir la razón de verosimilitud, el
cual en este caso es
estadísticamente significativa al 10%,
5% y 1%

Gujarati, Econometría 5ta edición (2010)


Probit (Gujarati)
• Cada coeficiente de las variables en MV
son coeficientes de pendiente parcial y
miden el cambio en el Probit estimado
correspondiente a una unidad de
cambio del valor de la endógena dada
(con las demás regresoras constantes).
• El coeficiente del GPA igual a 1.625810
significa que, mientras las demás variables
se mantengan constantes, si el GPA se
incrementa en una unidad, en promedio el
Probit estimado aumenta casi 1.63
unidades, lo cual indica una relación
positiva entre ambos.
• Todos los demás regresores tienen un
efecto positivo en el Probit, a pesar de que
en términos estadísticos el efecto de TUCE
no es importante.

Gujarati, Econometría 5ta edición (2010)


Probit (Gujarati)
El modelo probit

Estimation Command:
BINARY(D=N) GRADE C GPA TUCE PSI

Estimation Equation:
I_GRADE = C(1) + C(2)*GPA + C(3)*TUCE + C(4)*PSI

Forecasting Equation:
GRADE = 1-@CNORM(-(C(1) + C(2)*GPA + C(3)*TUCE +
C(4)*PSI))

Substituted Coefficients:
GRADE = 1-@CNORM(-(-7.45231964775 +
1.62581003939*GPA + 0.0517289454991*TUCE +
1.42633234192*PSI))

Gujarati, Econometría 5ta edición (2010)


Comparaciones Logit y Probit

Los resultados logit y


probit sólo difieren en
escala.
Los coeficientes logit son
aproximadamente 1.8
veces los que se
obtienen en el probit

Probit Probit*1.8 Logit


-7.45232 -13.414176 -13.02135
1.62581 2.926458 2.826113
0.051729 0.0931122 0.095158
1.426332 2.5673976 2.378688

Gujarati, Econometría 5ta edición (2010)


Comparaciones Logit y Probit
Calculando el efecto marginal
El efecto marginal (EM) se define como:
𝑑𝑌
= 𝛽𝑖 ∗ 𝑓(𝐼𝑖 )
𝑑𝑋
• Donde:
• 𝑓(𝐼𝑖 ) es función de densidad, con respecto a 𝐼𝑖
• 𝛽𝑖 es el coeficiente de la variable explicativa que estamos calculando

La función f() necesita de la probabilidad 𝑃𝑖 de la función 𝐼𝑖


𝑃𝑖 = 𝑓(𝐼𝑖 )
Calcularemos 𝐼𝑖 con:
𝐼𝑖 = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + … + 𝛽𝑘 𝑋𝐾 + 𝑢𝑖

• Como los valores de 𝑋𝑖 no son únicos sino son diferentes para cada observación, entonces
calcularemos los promedios de cada 𝑋𝑖 : Promedios de GPA, TUCE y PSI
Calculando el efecto marginal
• Calculando promedios (en comandos Eviews):
scalar prom_gpa=@mean(gpa)
scalar prom_tuce=@mean(tuce)
scalar prom_psi=@mean(psi)

• Calculando 𝐼𝑖 (en comando Eviews):


scalar I=C(1) + C(2)*prom_gpa + C(3)*prom_tuce + C(4)*prom_psi
Calculando el efecto marginal
• Calculando la probabilidad de la variable dependiente: 𝑃𝑖 = 𝑓(𝐼𝑖 )
scalar P=@cnorm(I)

La probabilidad que alguien del grupo de evaluación, por influencia de las explicativas (tomando
como referencia sus promedios), saque A es de 26.58%

• Calculando la función de densidad 𝑓(𝐼𝑖 )


scalar f=@dnorm(P)

• Calculando el efecto marginal (EM) de las explicativas


𝑑𝑌
= 𝛽𝑖 ∗ 𝑓(𝐼𝑖 )
𝑑𝑋
scalar EM=C(Xi)*F
Calculando el efecto marginal
Calculando el efecto margina EM de la explicativa GPA:
scalar EM_gpa=C(2)*F
• El promedio de notas de entrada tiene un efecto sobre la probabilidad de
obtener un A, que se estima 62.61%
Calculando el efecto margina EM de la explicativa TUCE
scalar EM_tuce=C(3)*F
• La puntuación en un examen de principio del curso para evaluar los
conocimientos de macroeconomía de los alumnos tiene un efecto sobre la
probabilidad de obtener un A, que se estima 1.99%
Calculando el efecto margina EM de la explicativa PSI
scalar EM_psi=C(4)*F
• La aplicación del sistema personal de instrucción tiene un efecto
sobre la probabilidad de obtener un A, que se estima 54.92

También podría gustarte