Notas 4 PDF

Modelo Lineal Generalizado
Introducci
on
Comenzaremos con un ejemplo que nos servira para ilustrar el analisis de datos
binarios.
Nuestro interes se centra en relacionar una estructura estocastica en los datos
que siguen una distribuci
on binomial y una estructura sistematica en terminos
de alguna transformaci
on de las variables independientes.
Los siguientes datos tomados de Little (1978) corresponden a 1607 mujeres
casadas y fertiles entrevistadas por la Encuesta de Fertilidad Fiji de 1975, clasi1
MLG Ana M. Bianco FCEyN 2010
ficadas por edad, nivel de educaci

on, deseo de tener mas hijos y el uso de
anticonceptivos.
Edad
Educaci
on M
as Hijos? Uso de Anticonceptivos Total
No
Si
< 25
Baja
Si
53
6
59
No
10
4
14
Alta
Si
212
52
264
No
50
10
60
2529
Baja
Si
60
14
74
No
19
10
29
Alta
Si
155
54
209
No
65
27
92
3039
Baja
Si
112
33
145
No
77
80
157
Alta
Si
118
46
164
No
68
78
146
4049
Baja
Si
35
6
41
No
46
48
94
Alta
Si
8
8
16
No
12
31
43
Total
1100
507
1607
En este ejemplo se considera a Anticoncepci

on como variable dependiente y
a las demas como predictoras. En este caso, todas las predictoras son variables categ
oricas, sin embargo el modelo que presentaremos permite introducir
variables independientes continuas y discretas.
El objetivo es decribir c
omo el uso de metodos anticonceptivos vara segun la
edad , el nivel de educaci
on y el deseo de tener mas hijos.
Por ejemplo, una pregunta que sera interesante responder es si la asociaci
on
entre educaci
on y anticoncepci
on es afectada por el hecho de que mujeres con
un nivel de educaci
on mas elevado prefieren familias mas chicas que las mujeres
con niveles de educaci
on inferior.
Componente Aleatoria
La componente aleatoria del modelo involucra a las respuestas Yi .
Definamos
1 si usa anticonceptivo
Yi =
0
si no
Yi toma los valores 1 y 0 con probabilidad i y 1 i , respectivamente,y por

lo tanto
E(Yi ) = i
V ar (Yi ) = i (1 i ) .
Tanto la media como la varianza dependen de i , por lo tanto cualquier factor
que afecte la esperanza tambien afectara la varianza. Esto sugiere que cualquier
modelo que, como el lineal, asuma homoscedasticidad de las observaciones no
sera adecuado para este problema.
En el ejemplo, de acuerdo con el valor de las variables predictoras, las observaciones pueden ser clasificadas en 16 grupos. Si ni es el numero de observaciones
del grupo i e Yi denota al numero de exitos, tendremos que
Yi Bi (ni , i ) .
En nuestro caso,
Yi = numero de mujeres que usan anticonceptivos en el i esimo grupo.
Luego,
ni k
ni k
i (1 i )
k
E(Yi ) = ni i
V ar (Yi ) = ni i (1 i ) ,
P (Yi = k) =
para k = 0, . . . , ni .
Componente sistem
atica
La componente sistematica del modelo involucra a las covariables xi que participan.
El modelo mas sencillo podra expresar a i como una combinaci
on lineal de las
variables independientes:
i = x0i ,
siendo el vector de parametros a estimar.
Este modelo recibe el nombre de modelo de probabilidad lineal y su estimaci
on puede basarse en mnimos cuadrados ordinarios.
Un problema evidente de este modelo es que las probabilidades i son acotadas,
mientras que las x0i pueden tomar cualquier valor real. Si bien esto podra controlarse imponiendo complicadas restricciones a los coeficientes, esta soluci
on
no resulta muy natural.
Una soluci
on sencilla es transformar la probabilidad mediante una funci
on que
mapee el intervalo (0, 1) sobre la recta real y luego modelar esta transformaci
on
como una funci
on lineal de las variables independientes.
Una manera posible es mediante los odds definidos como
,
=
1

0.1 0.11
0.2 0.25
0.5 1
0.6 4
0.9 9
De manera que odds menores que 1 estan asociados a probabilidades menores
que 0.5 y odds mayores que 1 estan asociados a probabilidades mayores que
0.5.
Sin embargo, esta transformaci

on s
olo mapea sobre los reales positivos. Para
extenderla a los negativos introduciremos el log:
= + x + x + ... + x = x =
logit() = log
o
1 1
2 2
p p
1
La funci
on logit es estrictamente creciente y tiene inversa:
e
= logit1() =
.
1 + e
En el ejemplo tenemos: 507 mujeres usan anticonceptivos entre las 1607, por
507
=0.316. Luego, los odds se calculan
lo que estimamos la probabilidad como 1607
como
507
507/1607
=
= 0.461
1100/1607 1100
Entonces, aproximadamente por cada mujer que usa anticonceptivos hay dos
que no los usan. El logit(0.461) = -0.775.
Log-log
-4
-2
-4
-3
-1
-2
-2
Probit
Logistica
-1
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Figura 1: Funciones de enlace o link
0.0
0.2
0.4
0.6
0.8
1.0
10
Modelo de Regresi
on Logstica
Sean Y1, . . . , Yn v.a. independientes tales que
Yi Bi (ni , i ) .
(1)
Esto define la componente aleatoria.

Supongamos ademas que la probabilidad i es una funci
on de los predictores:
logit(i ) = x0i ,
(2)
donde las xi son las covariables.

Esto define la componente sistematica del modelo.
El modelo definido por (1) y por (2) es un modelo lineal generalizado con
respuesta binomial y funci
on de enlace logit.
11
Los coeficientes tienen una interpretaci

on similar a la que tienen en el modelo
lineal, pero debemos tener en cuenta que el miembro de la derecha es un logit
y no una media.
Los j representan entonces el cambio en el logit de la probabilidad asociada
cuando hay un cambio de una unidad en el jesimo predictor y se matienen
constantes todas las demas variables.
Como
e xi
0
i =
x0i
1
x0i
1+e
1+e
la relaci
on con i es no lineal, luego no es tan sencillo como en el modelo lineal
expresar el cambio en i al cambiar un predictor.
Cuando el predictor es continuo, podemos hacer una aproximaci
on tomando
derivadas con respecto a la jesima coordenada de xi , obteniendo
12
i
= j i (1 i ) .
xi j
Luego, el efecto del jesimo predictor depende del coeficiente j y de la probabilidad i .
Una vez establecido el modelo que queremos ajustar haremos las diferentes
etapas de inferencia habituales:
estimar los parametros
hallar intervalos de confianza para los mismos
evaluar la bondad del ajuste
realizar algun test que involucre a los parametros
Tambien tendremos que evaluar la influencia de las observaciones en la determinaci
on de los valores estimados.
13
Modelo Lineal Generalizado
En el Modelo Lineal Generalizado (GLM) tenemos variables de respuesta asociadas a covariables.
Mientras en el Modelo Lineal combinamos aditividad de los efectos de las

covariables con normalidad de las respuestas y homoscedasticidad, en el GLM
estas tres cosas no se satisfacen necesariamente.
Los GLM permiten incluir respuestas no normales, como binomial, Poisson o

Gamma, y en la teora clasica la estimaci
on se relaiza mediante el metodo de
maxima verosimilitud.
14
Supongamos que observamos las variables de respuesta Y1, . . . , Yn que son v.a.
independientes relacionadas con las covariables xi 1, xi 2, . . . , xi p , 1 i n.
Genrericamente pensemos en una respuesta Y y covariablesx1, x2, . . . , xp
Componentes del modelo
Podemos pensar que el GLM posee tres componentes:

on
1. Componente Aleatoria: la variable de respuesta Y tiene distribuci
exp
y b()
+ c(y , ) ,
a()
donde es el parametro can

onico, es un parametro nuisance y las funciones a(), b(), y c() son conocidas. Ademas, se cumple que
15
= E(Y ) = b0()
V ar (Y ) = a()b00() .
2. Componente Sistematica: el vector de covariables x0 = (x1, x2, . . . , xp ) que

da origen al predictor lineal
=
j=1
x j j = x 0 .
siendo el vector a estimar

3. Funci
on de enlace o link: relaciona las dos componentes y
g() =
Nota: En algunos casos a() es de la forma a() = , donde w es un peso

w
conocido.
16
Los modelos lineales generalizados permiten dos extensiones:

I. podemos tratar distribuciones que pertenezcan a una familia exponencial.
II. podemos elegir una funci
on de enlace que sea una funci
on mon
otona y
diferenciable.
El Modelo Lineal Generalizado tuvo mucha difusi

on a partir del libro de McCullagh y Nelder (1989). En estos modelos la variable de respuesta Yi sigue una
distribuci
on que pertenece a una familia exponencial con media i que es una
funci
on, por lo general no lineal, de x0i .
17
Ejemplos
1. Normal: Y N(, 2).
1 (y )
1
exp
2
2 2
2
2
2
1 y
y /2
2
= exp
+
log(2
) ,
2
2
f (y , , ) =
2
2
y
por lo tanto = , b() = , = 2 a() = y c(y , ) = 21 + log(2).

2
E(Y ) =
2
En el caso heteroscedastico Y N(, w ), donde w es un peso conocido,

tenemos = 2 y a() = w .
18
2. Caso Binomial: Y Bi (n, p)

Consideremos Yn = proporci
on de exitos.
P(
Y
n ny
(1 p)nny
= y ) = P (Y = ny ) =
p
ny
n
(
)
p
y log
+
log(1
p)
n
1p
= exp
+ log
ny
1/n
p
1
por lo tanto = log

, b() = log(1 + e ) , = n, a() =
y
1
c(y , ) =
.
y
Y
1
e
E
=
=p=
n
1 + e 1 + e
19
3. Caso Poisson: Y P ().
P (Y = y ) = e
y!
= exp (y log log y !)
por lo tanto = log , b() = e , = 1, a() = 1 y c(y , ) = log y !

E(Y ) = = e
20
Funci
on de enlace o link
Esta funci
on relaciona el predictor lineal con la esperanza de la respuesta Y .
A diferencia del modelo lineal clasico, aqu introducimos una funci
on unoauno
continua y diferenciable, g(), tal que
= g() .
Ejemplos de g(t) son la funci
on identidad, el log, la funci
on logstica y la probit.
Como la funci
on g es biyectiva podremos invertirla, obteniendo:
= g 1() = g 1(x0) = h(x0) .
En el caso Binomial, por ejemplo, tenemos que (0, 1) y el link tiene que
mapear sobre la recta real. Suelen usarse 3 links:
1. Logit: = log
e
( 1+e )
2. Probit: = 1()
3. Complemento loglog: = log( log(1 ))
21
Links Can
onicos:
En el caso normal mostramos que si Y N(, 2) el parametro can
onico es
= .
En el caso binomial Y Bi (n, p) en el que consideremos Yn vimos que el
can
onico es = logit(). Estos son los links mas usados en cada caso.
Cuando usamos = el modelo tiene el link can
onico o natural. Es conveniente
usar el link natural, ya que algunas cosas se simplifican, pero la posibilidad de
usarlo dependera de los datos con los que estemos trabajando.
Normal:
Poisson: = log
Binomial: = log 1
Gamma: = 1
22
Funci
on de Verosimilitud para el GLM
Sea Y una v.a. con funci
on de densidad o probabilidad perteneciente a una
familia exponencial dada por:
fY (y , , ) = exp
y b()
+ c(y , ) ,
a()
para algunas funciones conocidas a(), b() y c(y , ). Si es un parametro

conocido, esta es una familia exponencial con par
ametro can
onico o natural
.
Si no es conocido, esta puede ser una familia exponencial en (, ) o no.
es un parametro de dispersi
on o de forma.
La media E(Y ) es s
olo funci
on de y es por lo tanto el parametro de interes;
en general es tratado como un par
ametro nuisance o de ruido. En la
mayora de los casos no sera tratado tal como es tratado . Estimaremos y
haremos inferencia bajo un valor asumido de y si necesita ser estimado, lo
estimaremos y luego sera tomado como un valor fijo y conocido.
23
Esta familia incluye distribuciones simetricas, asimetricas, discretas y continuas,

tales como la distribuci
on Normal, Binomial, Poisson o Gamma.
Momentos de una familia exponencial

Deduciremos el primer y segundo momento de una familia exponencial a partir
del logaritmo de su verosimilitud.
`(, y ) =
y b()
+ c(y , ) .
a()
Su primera derivada o score es:

`(, y ) y b0()
` (, y ) =
,
=
a()
0
mientras que su derivada segunda es:
24
`2(, y ) b00()
=
` (, y ) =
.
2

a()
00
`(, y )
Como E
= 0, entonces
0
y b ()
0
0 = E (` (, y )) = E
a()
y por lo tanto
= E(Y ) = b0() .
Ademas, sabemos que
00
E(` (, y )) = E (` (, y )) ,
entonces
25
b00()
V ar (` (, y )) = E (` (, y )) = E(` (, y )) =
.
a()
0
00
Por otro lado,

0
1
y b ()
V ar (Y )
V ar (` (, y )) = V ar
=
a()
a2()
0
y en consecuencia
V ar (Y ) = a()b00() .
La varianza es el producto de dos funciones: una que depende del parametro
natural, , y otra que depende s
olo del parametro nuisance . V () = b00()
es llamada la funci
on de varianza del modelo.
Resumiendo:
E(Y ) = b0()
V ar (Y ) = a()b00()
26
Estimaci
on de los par
ametros:
M
etodo de NewtonRaphson y Fisherscoring
Supongamos que Y1, . . . , Yn son variables aleatorias que satisfacen los supuestos
de un GLM y que queremos maximizar el loglikelihood `(, y) respecto a
= (1, . . . , p )0. Queremos resolver
`(, y) = 0
j
j = 1, . . . p
En general este es un sistema no lineal. Aun abusando de la notaci

on, a fin de
simplificarla, notaremos:
`0() = `0(, y) = 0 .
Aproximaremos la ecuaci
on linealmente en la vecindad de un punto (t) mediante el algoritmo de NewtonRaphson.
27
Metodo de de NewtonRaphson
Supongamos que queremos resolver
f1(x1, . . . , xn )
f(x) = f(x1, . . . , xn ) =
= 0.
fn (x1, . . . , xn )
Supongamos ademas que es soluci

on y que x0 es un punto pr
oximo a .
Usando una expansi
on de Taylor de primer orden alrededor de x0 tenemos que
donde
0 = f() f(x0) + f(x0)( x0)
f1
xn
...
.
.
.
. . .
f(x0) = . . .
fn
fn
.
.
.
x1
xn
Luego,
f1
x1
.
x=x0
28
= x0 [f(x0)]1f(x0)
El metodo de Newton Raphson es un metodo iterativo con un punto inicial x0
y tal que
xi +1 = xi [f(xi )]1f(xi )
Para el caso que nos interesa resolver serultaria
(t+1)
(t)
00
(t)
` ( )
1 0
` ((t))
(3)
Si `() es cuadratica, entonces `0() es lineal y el algoritmo iterativo convergera en un solo paso a partir de un punto inicial.
En problemas regulares, el loglikelihood se hace aproximadamente cuadratico
a medida que n crece. En estas situaciones el metodo de NR funcionara
29
bien, mientras que en muestras pequenas y con loglikelihoods alejados de

una cuadratica NR podra no converger.
Veamos como quedan los distintos elementos de (3). Por simplicidad estudiaremos la contribuci
on de cada termino Yi al loglikelihood omitiendo los subndices
superfluos. Salvo constantes tenemos que:
y b()
`(, y ) =
a()
`
`
=
j
j
Recordemos que
f (, y ) =
=
=
g() =
y b()
exp
+ c(y , )
a()
E(Y ) = b0() y V ar (Y ) = a()b00()
x0
30
Cuanto vale cada derivada?

`
y b0() y
=
=
a()
a()
1
a()
= 00
=
b () V ar (Y )
= depende de la funci
on de enlace
= xj ,
Luego, resulta
`
Y
=
xj .
j
V ar (Y )
De esta manera, las ecuaciones de maxima verosimilitud quedan:
`
=
j
Yi i
Vi
i =1
n
i
i
xi j = 0
(4)
31
Por ejemplo, si usamos el link natural tenemos que

V = a()b00() = a()b00()
y ademas
= b0() = b0()
= b00() ,
por lo tanto el peso queda constante

1
1
=
.
V a()
Si consideramos la derivada segunda a partir de (4) queda:
n
n
1 i
1 i
2`
=
[Yi i ]
xi j + (Yi i )
xi j .
k j i =1 k
Vi i
k Vi i
i =1
(5)
32
2`
En el metodo de Fisherscoring se propone utilizar E k j en lugar de

2`
k j
con el fin de obtener resultados mas estables.
Podemos hallar esta esperanza recordando que:

2
` `
E
= E
k j
k j

2
2

x x
= E

ij ik
V ar (Y )
2
1
x x
=
ij ik .
V ar (Y )
Si volvemos a la muestra tendremos
i =1
Vi 1
x x
ij ik
i
33
que en forma matricial podemos escribir como:
siendo W = di ag Vi 1
)
i 2
.
i
X0WX
Cuando usamos el link natural queda V

= a1(), que es constante por
lo tanto, en este caso, NewtonRaphson coincide con Fisher scoring.

Finalmente, si V1 = di ag(Vi 1), entonces
1
`
0 1
=XV
(Y ) ,
y si volvemos a (3) usando Fisherscoring queda
34
(t+1)
(t+1)
(t+1)
(t+1)
(t)
+ (X WX)
XV
(Y )
= (X0WX) X0WX (t) + X0V1 (Y )
1 0
(t)
0 1
0
= (X WX) X WX + X V
(Y )

1
= (X0WX) X0Wz ,
donde
z=+
(Y )
De esta manera vemos al metodo de Fisherscoring como mnimos cuadrados

pesados iterados (IRWLS) usando pesudoobservaciones z y los pesos W que
se actualizan en cada paso para actualizar el valor de .
35
Recordemos el algoritmo de calculo del estimador:

=
(t)
00
(t)
+ ` ( )
1 0
` ((t))
La contribuci
on de cada termino Yi al loglikelihood es, salvo constantes:
Yi i b(i )
+ c(Yi , )
`i (i , Yi ) =
a()
Su derivada respecto de j
Yi i
`i
=
j
V ar (Yi )
i
i
Las ecuaciones de maxima verosimilitud quedan:
xi j .
36
`
=
j
Yi i
Vi
i =1
n
i
i
xi j = 0 .
(6)
La derivada segunda es:

n
n
2`
1 i
1 i
=
(Yi i )
xi j + (Yi i )
xi j .
k j i =1 k
Vi i
k Vi i
i =1
Metodo de Fisherscoring: usamos

2
i
i
x x
E
=
ij ik .
k j
V ar (Yi ) i
Por lo tanto
37
x x
Vi 1
ij ik .
i
i =1
n i
1 i
=
Vi
xi j xi k .
i
i =1 i
E
=
k j
entonces, en forma matricial

2
E
=
i 0 1 i
V
.
i
Finalmente, si:
(t)
= di ag Vi
(V(t))1 = di ag(Vi 1)
38
resulta
(t+1)
(t+1)
=
(
(t)
(t)
+ XW X
(t)
= XW X
X0(V(t))1
X0W(t)z(t) ,
donde = (t) y = (t) y

z(t) = +
(Y )
(Y )
39
Casos Particulares
Distribuci
on Binomial: regresi
on logstica
(
)
i
Sean Yi Bi (1, i ). Supongamos que log 1i = x0i , con lo cual
e
x0i
1
=
0
0
1 + e xi 1 + e xi
Tenemos las siguientes igualdades:
i =
Li keli hood =
i i (1 i )1yi
i =1
n
i yi
(1 i )
Li keli hood =
i =1 1 i
n
0
0
e xi yi (1 + e xi )1
Li keli hood =
`() =
i =1
n
x0i
i =1
yi
i =1
log(1 + e
x0i
40
`()
=
j
=
y i xi j
e xi
0
1+e
(yi i ) xi j ,
i =1
n
i =1
x0i
xi j
i =1
donde i = E(Yi ) = i .
Derivadas segundas:
x0i
n
`()
e
xi j
=
0
j k
k 1 + e xi
i =1
i =1
i (1 i )xi j xi k
Usemos la notaci
on matricial:
Li keli hood =
i =1
i i (1 i )1yi
41
`0() = X0(y ) ,
`00() = XWX ,
donde
W = di ag(i (1 i )) .
NewtonRaphson resulta:
(t+1)
(t)
(t)
+ XW X
(t)
X y
Tenemos que V ar (Yi ) = i (1 i ). La funci

on de varianza resulta:
V () = (1 ) .
Bajo el modelo logstico
42
por lo tanto
1
i
=
,
i
i (1 i )
W = di ag (i (1 i )) .
y la variable dependiente ajustada es:
yi i
yi i
0
zi = i +
= xi +
.
i (1 i )
i (1 i )

Notas 4 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas 4 PDF

Cargado por

Copyright:

Formatos disponibles

Modelo Lineal Generalizado

MLG Ana M. Bianco FCEyN 2010

ficadas por edad, nivel de educaci

MLG Ana M. Bianco FCEyN 2010

En este ejemplo se considera a Anticoncepci

MLG Ana M. Bianco FCEyN 2010

Yi toma los valores 1 y 0 con probabilidad i y 1 i , respectivamente,y por

MLG Ana M. Bianco FCEyN 2010

MLG Ana M. Bianco FCEyN 2010

MLG Ana M. Bianco FCEyN 2010

MLG Ana M. Bianco FCEyN 2010

Sin embargo, esta transformaci

MLG Ana M. Bianco FCEyN 2010

Figura 1: Funciones de enlace o link

MLG Ana M. Bianco FCEyN 2010

Esto define la componente aleatoria.

donde las xi son las covariables.

MLG Ana M. Bianco FCEyN 2010

Los coeficientes tienen una interpretaci

MLG Ana M. Bianco FCEyN 2010

MLG Ana M. Bianco FCEyN 2010

Modelo Lineal Generalizado

En el Modelo Lineal Generalizado (GLM) tenemos variables de respuesta asociadas a covariables.

Mientras en el Modelo Lineal combinamos aditividad de los efectos de las

Los GLM permiten incluir respuestas no normales, como binomial, Poisson o

MLG Ana M. Bianco FCEyN 2010

Podemos pensar que el GLM posee tres componentes:

donde es el parametro can

MLG Ana M. Bianco FCEyN 2010

2. Componente Sistematica: el vector de covariables x0 = (x1, x2, . . . , xp ) que

siendo el vector a estimar

Nota: En algunos casos a() es de la forma a() = , donde w es un peso

MLG Ana M. Bianco FCEyN 2010

Los modelos lineales generalizados permiten dos extensiones:

El Modelo Lineal Generalizado tuvo mucha difusi

MLG Ana M. Bianco FCEyN 2010

por lo tanto = , b() = , = 2 a() = y c(y , ) = 21 + log(2).

En el caso heteroscedastico Y N(, w ), donde w es un peso conocido,

MLG Ana M. Bianco FCEyN 2010

2. Caso Binomial: Y Bi (n, p)

por lo tanto = log

MLG Ana M. Bianco FCEyN 2010

3. Caso Poisson: Y P ().

por lo tanto = log , b() = e , = 1, a() = 1 y c(y , ) = log y !

MLG Ana M. Bianco FCEyN 2010

MLG Ana M. Bianco FCEyN 2010

MLG Ana M. Bianco FCEyN 2010

para algunas funciones conocidas a(), b() y c(y , ). Si es un parametro

MLG Ana M. Bianco FCEyN 2010

Esta familia incluye distribuciones simetricas, asimetricas, discretas y continuas,

Momentos de una familia exponencial

Su primera derivada o score es:

mientras que su derivada segunda es:

MLG Ana M. Bianco FCEyN 2010

MLG Ana M. Bianco FCEyN 2010

Por otro lado,

MLG Ana M. Bianco FCEyN 2010

En general este es un sistema no lineal. Aun abusando de la notaci

MLG Ana M. Bianco FCEyN 2010

Supongamos ademas que es soluci

0 = f() f(x0) + f(x0)( x0)

MLG Ana M. Bianco FCEyN 2010

MLG Ana M. Bianco FCEyN 2010