V. Regresión Logística y Regresión de Poisson

ESCUELA DE ESTADISTICA
MODELOS DE REGRESIN
APLICADOS
CAPITULO V REGRESIN
LOGSTICA Y REGRESIN DE
POISSON
Presentado por Gilbert Brenes Camacho
2014
Contenidos
Introduccin a Modelos Lineales

Generalizados
Modelo Lineal Binomial y Regresin
Logstica
Modelo de Poisson
OBJETIVO GENERAL
Comprender en qu casos se
prefiere utilizar un modelo logstico
o un modelo de Poisson
Analizar las medidas de Bondad de
Ajuste para Modelos Lineales
Generalizados (GLM)
INTRODUCCIN A MODELOS
LINEALES GENERALIZADOS
Modelo Lineal Generalizado
Familia de Modelos de Regresin Lineal, descritos

por Nelder & Wedderburn (1972), basados en
distribuciones de la familia exponencial y que
pueden ser estimados utilizando Estimacin por
Mxima Verosimilitud.
Suponga que x es una variable aleatoria con una

distribucin de probabilidad f(x;), donde es un
parmetro desconocido. Sea x1,x2,,xn una
muestra aleatoria de n observaciones. Entonces, la
funcin de verosimilitud de la muestra es:
L()= f(x1;)*f(x2;)*.*f(x;)
Estimacin por Mxima Verosimilitud
La estimacin por Mxima Verosimilitud busca

encontrar los estimadores ^ tales que L() sea
mximo.
Dado que para maximizar se requiere calcular
derivadas parciales con respecto de ^, se
encuentra ms fcil derivar con respecto del
logaritmo de L(), o sea, LL() la funcin de
log-verosimilitud
LL()= ln[f(x1;)] + ln[f(x2;)] +.+ ln[f(x;)]

Medidas de bondad de ajuste
El valor de LL().
El valor de la deviancia D.
Los residuos de deviancia
BIC
AIC
Seudo-R2
Deviancia D
Sea ^max el conjunto de estimaciones de en

el modelo saturado y ô el conjunto de
estimaciones del modelo observado, entonces
la deviancia D es igual a:
D=-2*[ LL(ô )-LL(^max) ]

Tiene que ser cercano a 0 para que el ajuste sea
bueno, si se aleja mucho no tenemos criterio
para evaluar el desajuste, esta es una ventaja
del p-seudo R2, con n grandes este es pequeo.
El modelo saturado es aquel que tiene un

parmetro por cada observacin en la base de
datos.
Los residuos de deviancia di
Sea yi el valor de la variable dependiente en en
la observacin i, y ^yi el valor predicho del
modelo, el residuo de deviancia di es igual a:
conjunto de estimaciones del modelo
observado, entonces la deviancia D es igual a:
La suma de los di es igual a D. Los residuos de

deviancia tienen una distribucin
aproximadamente normal.
Sin embargo, son ms utilizados para analizar
la existencia de valores extremos
Se analiza los valores extremos como los res
estandarizados
AIC= Criterio de Informacin de Akaike
Sea ô el conjunto de estimaciones del modelo

observado, entonces el AIC:
AIC=-2*LL(ô ) + 2p
donde p es el nmero de parmetros del
modelo observado
Se prefiere un modelo con menor AIC

EL AIC penaliza por la cantidad de variables
que se usen en el modelo.
Esto quiere decir que el AIC se incrementa
cuanto mayor cantidad de variables
independientes se usen.
BIC=Criterio de Informacin Bayesiano

observado, entonces el BIC:
BIC=-2*LL(ô ) + p*ln(n)
donde p es el nmero de parmetros del
modelo observado y n es el tamao de la
muestra
Tambin se prefiere un modelo con menor BIC

EL BIC penaliza por la cantidad de variables
que se usen en el modelo y por el tamao de
muestra.
El BIC penaliza mas que el AIC
Seudo R2
observado y ^nulo el conjunto de estimaciones
del modelo nulo, entonces el seudo R2 es:
Pseudo-R2 =[ LL(^nulo)-LL(ô ) ]/
LL(^nulo)
Trata de reproducir la idea del coeficiente de

determinacin.
En un modelo gaussiano, el seudo R2 es igual al
R 2.
Muy criticado porque no se puede interpretar
como un porcentaje de variabilidad explicada.
Si el P-R2=0.30 //La ll del modelo observado es un 30%
mayor que la del modelo nulo.
Componentes de los GLM
1. El componente sistemtico, que es expresado como una
relacin lineal.
k
El Parmetro =x, lo cual es equivalente a: 1 x1 2 x2 ... k xk
i 1
2. La funcin de enlace (link function) g()= , que especifica la

relacin entre el valor esperado y el vector de covariables x
Es una transformacin para la parte sistemtica(XB)
Por ejemplo, en la regresin lineal mltiple, la funcin de

enlace sencillamente es 1: E(Y|X)=1*
2. El componente aleatorio, que tambin se puede entender como

la especificacin de la distribucin condicional
y|x ~ f(y,),
donde f(.) es un miembro de la familia de distribuciones

exponencial, y es un parmetro adicional de la distribucin
Regresin logstica
En la regresin logstica:
La funcin de enlace es la funcin logito:

ln
1
N es la parte sistemtica, pi es la Propor
La funcin de distribucin de probabilidad es:
Es una Bernoulli
Pi es la probabilidad de xitos: es decir la media de una
variable binaria, proporcin de unos
f yi ; yi 1
1 yi
1
y
1

f yi ; g X ' 1 g X ' 1 y
i i
exp X ' exp X '

yi 1 yi

f yi ; 1 1 exp X '
1 exp X '
Funcin de ll para una observacin, para todos sera la multiplicatoria
Regresin de Poisson
En la regresin Poisson:
La funcin de enlace es la funcin ln:
ln
La funcin de distribucin de probabilidad es:
exp( ) * yi
f yi ;
yi !
f yi ;

exp g 1 X ' * g 1 X ' yi
yi !
exp exp X ' * exp X ' i

y
f yi ;
yi !
Regresin logstica
Regresin logstica
Es el modelo ms usado entre estadsticos y

bioestadsticos para analizar modelos cuya
variable dependiente es binaria.
Tambin existen otros modelos para variables

dependientes binarias:
Probit
Modelo con funcin de enlace log.
Se supone homocedasticidad en el modelo guas xq la variancia no
est en funcin de la media, en cambio en la regresin logstica y
poisson la variancia si depende de la media, por lo que no se
verifica la homocesdas
Sup: linealidad en la parte sistemtica, no colinealidad perfecta, no
autocorrelacin, buscamos un megfono en el grfico de predi
Caractersticas de la regresin logstica
El valor esperado E(Yi |Xi)=i es:
exp X i '
E (Yi | X i ) i
1 exp X i '
El coeficiente de regresin k exponenciado se interpreta como

un OR:
+ 1
1 + 1
OR = exp =

1
Diagnsticos para modelos de regresin logstica
Aparte de LL(), BIC y AIC, en la regresin
logstica se pueden usar los siguientes pruebas
de bondad de ajuste:
Prueba de deviancia
Prueba de Hosmer y Lemeshow
Tabla de clasificacin:
Si el objetivo del modelo es el predecir casos en una u
otra categora, o sea, clasificar.
Prueba de Deviancia
Suponga que las observaciones son

independientes y el tamao de muestra n es
grande, entonces:
El estadstico D (deviancia) tiene una

distribucin chi-cuadrado con n-p grados de
libertad.
La hiptesis nula es que el modelo se ajusta bien

a los datos.
Prueba de Hosmer y Lemeshow
En tamaos de muestra muy grandes con variables

independientes continuas, es relativamente frecuente rechazar la
hiptesis nula de la prueba de Deviancia.
Alternativa: Prueba de Hosmer y Lemeshow:
Estime un modelo y calcule los deciles a los valores predichos.
Con esos deciles, cree 10 categoras
Plantee una tabla de contingencia de las 10 categoras vs. la variable
dependiente.
Las frecuencias esperadas son equivalentes a la suma de los î para
las categoras de respuesta=1 y ni menos la suma de estos para la
categora 0.
Utilice el estadstico de prueba, que se distribuye como una chi-
cuadrado con k-categoras menos 2 grados de libertad:
( filas. x .col )
Oi E i 2
2
X HL i 1 Ei
Error estndar de los coeficientes
de una regresin logstica.
Defina como G la matriz de derivadas parciales de

segundo orden de la funcin de log-verosimilitud:
G = [gij]
pxp
Donde:
La matriz G es conocida como la matriz Hessiana.

Error estndar de los coeficientes
de una regresin logstica.
El error estndar de ^, s2(^) sera:
Esto implicara que para hacer una prueba de hiptesis

donde H0: k=M, se puede usar la siguiente frmula
estandarizada:
No se puede usar una t( porque esta surge del cociente de

una normal y una chi, aqu tenemos una Bernoulli)
Esta es la denominada prueba de Wald
Intervalos de confianza para los
coeficientes de regresin.
Siguiendo con la misma lgica de la prueba de Wald, un

intervalo de confianza para la estimacin ^k sera:
Sin embargo, dado que el coeficiente exponeciado es un

Odds Ratio, el Intervalo de Confianza para el Odds Ratio
sera:
Prueba de Razn de
Verosimilitudes LRT
La hiptesis nula H0: k=0 se puede evaluar con una prueba de

razn de verosimilitudes.
Supongamos que M1 es el modelo que incluye la variable Xk y
M2 es el modelo que no incluye la variable Xk.
Entonces, el estadstico:
X2LRT= -2* [ LL(M2) LL(M1) ] ~21gl
Esta prueba tambin se puede usar para contrastar hiptesis

nulas de varios coeficientes en forma simultnea.
Dado H0: q+1== p =0 , esto lo que implica es que M2 no
incluye las variables Xq+1== Xp y por lo tanto tiene q
parmetros y M1 tiene p parmetros.
Entonces, el estadstico:
X2LRT= -2* [ LL(M2) LL(M1) ] ~2p-q gl
La prueba de deviancia es un caso particular de esta
Intervalos de confianza para la
estimacin de la probabilidad
Un valor predicho por una regresin logstica sera:

exp X h '
1 exp X h '
1
( X h )
1 exp X h '
El cuadrado de su error estndar sera:

s 2 X h s 2 X h ' X h ' s 2 X h
Y el intervalo de confianza se hara nuevamente con una

normal.
Regresin de Poisson
Todas las formulas anteriores las puedo utilizar aqu
Regresin de Poisson
Sirve para modelar variables dependientes que son

conteos con distribuciones tpicamente asimtricas.
Su principal supuesto es que:

Supuesto de equidispersin.
E(Yi|Xi) = Var(Yi|Xi)
Los errores estndar de los coeficientes se obtienen

tambin del inverso de la matriz Hessiana . Por esta
razn, las frmulas para los intervalos de confianza
de un modelo Poisson son similares a las de la
regresin logstica.
FIN DE REGRESIN
LOGSTICA Y REGRESIN
DE POISSON

V. Regresión Logística y Regresión de Poisson

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

V. Regresión Logística y Regresión de Poisson

Cargado por

Copyright:

Formatos disponibles

ESCUELA DE ESTADISTICA

Introduccin a Modelos Lineales

Familia de Modelos de Regresin Lineal, descritos

Suponga que x es una variable aleatoria con una

La estimacin por Mxima Verosimilitud busca

LL()= ln[f(x1;)] + ln[f(x2;)] +.+ ln[f(x;)]

Los residuos de deviancia

Sea ^max el conjunto de estimaciones de en

D=-2*[ LL(^o )-LL(^max) ]

El modelo saturado es aquel que tiene un

La suma de los di es igual a D. Los residuos de

Sea ^o el conjunto de estimaciones del modelo

Se prefiere un modelo con menor AIC

Sea ^o el conjunto de estimaciones del modelo

Tambin se prefiere un modelo con menor BIC

Trata de reproducir la idea del coeficiente de

2. La funcin de enlace (link function) g()= , que especifica la

Por ejemplo, en la regresin lineal mltiple, la funcin de

2. El componente aleatorio, que tambin se puede entender como

donde f(.) es un miembro de la familia de distribuciones

exp X ' exp X '

exp exp X ' * exp X ' i

Es el modelo ms usado entre estadsticos y

Tambin existen otros modelos para variables

El coeficiente de regresin k exponenciado se interpreta como

Prueba de Hosmer y Lemeshow

Suponga que las observaciones son

El estadstico D (deviancia) tiene una

La hiptesis nula es que el modelo se ajusta bien

En tamaos de muestra muy grandes con variables

Defina como G la matriz de derivadas parciales de

La matriz G es conocida como la matriz Hessiana.

El error estndar de ^, s2(^) sera:

Esto implicara que para hacer una prueba de hiptesis

No se puede usar una t( porque esta surge del cociente de

Siguiendo con la misma lgica de la prueba de Wald, un

Sin embargo, dado que el coeficiente exponeciado es un

La hiptesis nula H0: k=0 se puede evaluar con una prueba de

Esta prueba tambin se puede usar para contrastar hiptesis

Un valor predicho por una regresin logstica sera:

El cuadrado de su error estndar sera:

Y el intervalo de confianza se hara nuevamente con una

Sirve para modelar variables dependientes que son

Su principal supuesto es que:

Los errores estndar de los coeficientes se obtienen

También podría gustarte