Está en la página 1de 42

Modelo Lineal Generalizado

Introducci
on
Comenzaremos con un ejemplo que nos servira para ilustrar el analisis de datos
binarios.
Nuestro interes se centra en relacionar una estructura estocastica en los datos
que siguen una distribuci
on binomial y una estructura sistematica en terminos
de alguna transformaci
on de las variables independientes.
Los siguientes datos tomados de Little (1978) corresponden a 1607 mujeres
casadas y fertiles entrevistadas por la Encuesta de Fertilidad Fiji de 1975, clasi1

MLG Ana M. Bianco FCEyN 2010

ficadas por edad, nivel de educaci


on, deseo de tener mas hijos y el uso de
anticonceptivos.
Edad

Educaci
on M
as Hijos? Uso de Anticonceptivos Total
No
Si
< 25
Baja
Si
53
6
59
No
10
4
14
Alta
Si
212
52
264
No
50
10
60
2529
Baja
Si
60
14
74
No
19
10
29
Alta
Si
155
54
209
No
65
27
92
3039
Baja
Si
112
33
145
No
77
80
157
Alta
Si
118
46
164
No
68
78
146
4049
Baja
Si
35
6
41
No
46
48
94
Alta
Si
8
8
16
No
12
31
43
Total
1100
507
1607

MLG Ana M. Bianco FCEyN 2010

En este ejemplo se considera a Anticoncepci


on como variable dependiente y
a las demas como predictoras. En este caso, todas las predictoras son variables categ
oricas, sin embargo el modelo que presentaremos permite introducir
variables independientes continuas y discretas.
El objetivo es decribir c
omo el uso de metodos anticonceptivos vara segun la
edad , el nivel de educaci
on y el deseo de tener mas hijos.
Por ejemplo, una pregunta que sera interesante responder es si la asociaci
on
entre educaci
on y anticoncepci
on es afectada por el hecho de que mujeres con
un nivel de educaci
on mas elevado prefieren familias mas chicas que las mujeres
con niveles de educaci
on inferior.

MLG Ana M. Bianco FCEyN 2010

Componente Aleatoria
La componente aleatoria del modelo involucra a las respuestas Yi .
Definamos

1 si usa anticonceptivo
Yi =
0
si no

Yi toma los valores 1 y 0 con probabilidad i y 1 i , respectivamente,y por


lo tanto
E(Yi ) = i
V ar (Yi ) = i (1 i ) .
Tanto la media como la varianza dependen de i , por lo tanto cualquier factor
que afecte la esperanza tambien afectara la varianza. Esto sugiere que cualquier
modelo que, como el lineal, asuma homoscedasticidad de las observaciones no
sera adecuado para este problema.

MLG Ana M. Bianco FCEyN 2010

En el ejemplo, de acuerdo con el valor de las variables predictoras, las observaciones pueden ser clasificadas en 16 grupos. Si ni es el numero de observaciones
del grupo i e Yi denota al numero de exitos, tendremos que
Yi Bi (ni , i ) .
En nuestro caso,
Yi = numero de mujeres que usan anticonceptivos en el i esimo grupo.
Luego,

ni k
ni k
i (1 i )
k
E(Yi ) = ni i
V ar (Yi ) = ni i (1 i ) ,

P (Yi = k) =

para k = 0, . . . , ni .

MLG Ana M. Bianco FCEyN 2010

Componente sistem
atica
La componente sistematica del modelo involucra a las covariables xi que participan.
El modelo mas sencillo podra expresar a i como una combinaci
on lineal de las
variables independientes:
i = x0i ,
siendo el vector de parametros a estimar.
Este modelo recibe el nombre de modelo de probabilidad lineal y su estimaci
on puede basarse en mnimos cuadrados ordinarios.
Un problema evidente de este modelo es que las probabilidades i son acotadas,
mientras que las x0i pueden tomar cualquier valor real. Si bien esto podra controlarse imponiendo complicadas restricciones a los coeficientes, esta soluci
on
no resulta muy natural.

MLG Ana M. Bianco FCEyN 2010

Una soluci
on sencilla es transformar la probabilidad mediante una funci
on que
mapee el intervalo (0, 1) sobre la recta real y luego modelar esta transformaci
on
como una funci
on lineal de las variables independientes.
Una manera posible es mediante los odds definidos como

,
=
1

0.1 0.11
0.2 0.25
0.5 1
0.6 4
0.9 9
De manera que odds menores que 1 estan asociados a probabilidades menores
que 0.5 y odds mayores que 1 estan asociados a probabilidades mayores que
0.5.

MLG Ana M. Bianco FCEyN 2010

Sin embargo, esta transformaci


on s
olo mapea sobre los reales positivos. Para
extenderla a los negativos introduciremos el log:

= + x + x + ... + x = x =
logit() = log
o
1 1
2 2
p p
1
La funci
on logit es estrictamente creciente y tiene inversa:

e
= logit1() =
.
1 + e
En el ejemplo tenemos: 507 mujeres usan anticonceptivos entre las 1607, por
507
=0.316. Luego, los odds se calculan
lo que estimamos la probabilidad como 1607
como
507
507/1607
=
= 0.461
1100/1607 1100
Entonces, aproximadamente por cada mujer que usa anticonceptivos hay dos
que no los usan. El logit(0.461) = -0.775.

Log-log

-4

-2

-4

-3

-1

-2

-2

Probit

Logistica

-1

MLG Ana M. Bianco FCEyN 2010

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

Figura 1: Funciones de enlace o link

0.0

0.2

0.4

0.6

0.8

1.0

10

MLG Ana M. Bianco FCEyN 2010

Modelo de Regresi
on Logstica
Sean Y1, . . . , Yn v.a. independientes tales que
Yi Bi (ni , i ) .

(1)

Esto define la componente aleatoria.


Supongamos ademas que la probabilidad i es una funci
on de los predictores:
logit(i ) = x0i ,

(2)

donde las xi son las covariables.


Esto define la componente sistematica del modelo.
El modelo definido por (1) y por (2) es un modelo lineal generalizado con
respuesta binomial y funci
on de enlace logit.

11

MLG Ana M. Bianco FCEyN 2010

Los coeficientes tienen una interpretaci


on similar a la que tienen en el modelo
lineal, pero debemos tener en cuenta que el miembro de la derecha es un logit
y no una media.
Los j representan entonces el cambio en el logit de la probabilidad asociada
cuando hay un cambio de una unidad en el jesimo predictor y se matienen
constantes todas las demas variables.
Como
e xi
0

i =

x0i

1
x0i

1+e
1+e
la relaci
on con i es no lineal, luego no es tan sencillo como en el modelo lineal
expresar el cambio en i al cambiar un predictor.
Cuando el predictor es continuo, podemos hacer una aproximaci
on tomando
derivadas con respecto a la jesima coordenada de xi , obteniendo

12

MLG Ana M. Bianco FCEyN 2010

i
= j i (1 i ) .
xi j
Luego, el efecto del jesimo predictor depende del coeficiente j y de la probabilidad i .
Una vez establecido el modelo que queremos ajustar haremos las diferentes
etapas de inferencia habituales:
estimar los parametros
hallar intervalos de confianza para los mismos
evaluar la bondad del ajuste
realizar algun test que involucre a los parametros
Tambien tendremos que evaluar la influencia de las observaciones en la determinaci
on de los valores estimados.

MLG Ana M. Bianco FCEyN 2010

13

Modelo Lineal Generalizado

En el Modelo Lineal Generalizado (GLM) tenemos variables de respuesta asociadas a covariables.

Mientras en el Modelo Lineal combinamos aditividad de los efectos de las


covariables con normalidad de las respuestas y homoscedasticidad, en el GLM
estas tres cosas no se satisfacen necesariamente.

Los GLM permiten incluir respuestas no normales, como binomial, Poisson o


Gamma, y en la teora clasica la estimaci
on se relaiza mediante el metodo de
maxima verosimilitud.

14

MLG Ana M. Bianco FCEyN 2010

Supongamos que observamos las variables de respuesta Y1, . . . , Yn que son v.a.
independientes relacionadas con las covariables xi 1, xi 2, . . . , xi p , 1 i n.
Genrericamente pensemos en una respuesta Y y covariablesx1, x2, . . . , xp
Componentes del modelo

Podemos pensar que el GLM posee tres componentes:


on
1. Componente Aleatoria: la variable de respuesta Y tiene distribuci

exp

y b()
+ c(y , ) ,
a()

donde es el parametro can


onico, es un parametro nuisance y las funciones a(), b(), y c() son conocidas. Ademas, se cumple que

15

MLG Ana M. Bianco FCEyN 2010

= E(Y ) = b0()

V ar (Y ) = a()b00() .

2. Componente Sistematica: el vector de covariables x0 = (x1, x2, . . . , xp ) que


da origen al predictor lineal
=

j=1

x j j = x 0 .

siendo el vector a estimar


3. Funci
on de enlace o link: relaciona las dos componentes y
g() =

Nota: En algunos casos a() es de la forma a() = , donde w es un peso


w
conocido.

MLG Ana M. Bianco FCEyN 2010

16

Los modelos lineales generalizados permiten dos extensiones:


I. podemos tratar distribuciones que pertenezcan a una familia exponencial.
II. podemos elegir una funci
on de enlace que sea una funci
on mon
otona y
diferenciable.

El Modelo Lineal Generalizado tuvo mucha difusi


on a partir del libro de McCullagh y Nelder (1989). En estos modelos la variable de respuesta Yi sigue una
distribuci
on que pertenece a una familia exponencial con media i que es una
funci
on, por lo general no lineal, de x0i .

17

MLG Ana M. Bianco FCEyN 2010

Ejemplos
1. Normal: Y N(, 2).

1 (y )
1

exp

2
2 2
2

2
2
1 y
y /2
2
= exp

+
log(2
) ,

2
2

f (y , , ) =

2
2
y

por lo tanto = , b() = , = 2 a() = y c(y , ) = 21 + log(2).


2

E(Y ) =
2

En el caso heteroscedastico Y N(, w ), donde w es un peso conocido,


tenemos = 2 y a() = w .

18

MLG Ana M. Bianco FCEyN 2010

2. Caso Binomial: Y Bi (n, p)


Consideremos Yn = proporci
on de exitos.
P(

Y
n ny

(1 p)nny
= y ) = P (Y = ny ) =
p
ny
n
(
)

p
y log
+
log(1

p)

n
1p
= exp
+ log
ny
1/n

p
1

por lo tanto = log


, b() = log(1 + e ) , = n, a() =
y
1

c(y , ) =
.
y

Y
1
e

E
=
=p=
n
1 + e 1 + e

19

MLG Ana M. Bianco FCEyN 2010

3. Caso Poisson: Y P ().

P (Y = y ) = e
y!
= exp (y log log y !)

por lo tanto = log , b() = e , = 1, a() = 1 y c(y , ) = log y !


E(Y ) = = e

20

MLG Ana M. Bianco FCEyN 2010

Funci
on de enlace o link
Esta funci
on relaciona el predictor lineal con la esperanza de la respuesta Y .
A diferencia del modelo lineal clasico, aqu introducimos una funci
on unoauno
continua y diferenciable, g(), tal que
= g() .
Ejemplos de g(t) son la funci
on identidad, el log, la funci
on logstica y la probit.
Como la funci
on g es biyectiva podremos invertirla, obteniendo:
= g 1() = g 1(x0) = h(x0) .
En el caso Binomial, por ejemplo, tenemos que (0, 1) y el link tiene que
mapear sobre la recta real. Suelen usarse 3 links:
1. Logit: = log

e
( 1+e )

2. Probit: = 1()
3. Complemento loglog: = log( log(1 ))

MLG Ana M. Bianco FCEyN 2010

21

Links Can
onicos:
En el caso normal mostramos que si Y N(, 2) el parametro can
onico es
= .
En el caso binomial Y Bi (n, p) en el que consideremos Yn vimos que el
can
onico es = logit(). Estos son los links mas usados en cada caso.
Cuando usamos = el modelo tiene el link can
onico o natural. Es conveniente
usar el link natural, ya que algunas cosas se simplifican, pero la posibilidad de
usarlo dependera de los datos con los que estemos trabajando.
Normal:
Poisson: = log

Binomial: = log 1

Gamma: = 1

22

MLG Ana M. Bianco FCEyN 2010

Funci
on de Verosimilitud para el GLM
Sea Y una v.a. con funci
on de densidad o probabilidad perteneciente a una
familia exponencial dada por:

fY (y , , ) = exp

y b()
+ c(y , ) ,
a()

para algunas funciones conocidas a(), b() y c(y , ). Si es un parametro


conocido, esta es una familia exponencial con par
ametro can
onico o natural
.
Si no es conocido, esta puede ser una familia exponencial en (, ) o no.
es un parametro de dispersi
on o de forma.
La media E(Y ) es s
olo funci
on de y es por lo tanto el parametro de interes;
en general es tratado como un par
ametro nuisance o de ruido. En la
mayora de los casos no sera tratado tal como es tratado . Estimaremos y
haremos inferencia bajo un valor asumido de y si necesita ser estimado, lo
estimaremos y luego sera tomado como un valor fijo y conocido.

23

MLG Ana M. Bianco FCEyN 2010

Esta familia incluye distribuciones simetricas, asimetricas, discretas y continuas,


tales como la distribuci
on Normal, Binomial, Poisson o Gamma.

Momentos de una familia exponencial


Deduciremos el primer y segundo momento de una familia exponencial a partir
del logaritmo de su verosimilitud.
`(, y ) =

y b()
+ c(y , ) .
a()

Su primera derivada o score es:


`(, y ) y b0()
` (, y ) =
,
=

a()
0

mientras que su derivada segunda es:

24

MLG Ana M. Bianco FCEyN 2010

`2(, y ) b00()
=
` (, y ) =
.
2

a()
00

`(, y )
Como E
= 0, entonces

0
y b ()
0

0 = E (` (, y )) = E

a()

y por lo tanto
= E(Y ) = b0() .
Ademas, sabemos que
00

E(` (, y )) = E (` (, y )) ,
entonces

25

MLG Ana M. Bianco FCEyN 2010

b00()
V ar (` (, y )) = E (` (, y )) = E(` (, y )) =
.
a()
0

00

Por otro lado,


0

1
y b ()
V ar (Y )
V ar (` (, y )) = V ar
=
a()
a2()
0

y en consecuencia

V ar (Y ) = a()b00() .
La varianza es el producto de dos funciones: una que depende del parametro
natural, , y otra que depende s
olo del parametro nuisance . V () = b00()
es llamada la funci
on de varianza del modelo.
Resumiendo:
E(Y ) = b0()
V ar (Y ) = a()b00()

26

MLG Ana M. Bianco FCEyN 2010

Estimaci
on de los par
ametros:
M
etodo de NewtonRaphson y Fisherscoring
Supongamos que Y1, . . . , Yn son variables aleatorias que satisfacen los supuestos
de un GLM y que queremos maximizar el loglikelihood `(, y) respecto a
= (1, . . . , p )0. Queremos resolver

`(, y) = 0
j

j = 1, . . . p

En general este es un sistema no lineal. Aun abusando de la notaci


on, a fin de
simplificarla, notaremos:
`0() = `0(, y) = 0 .
Aproximaremos la ecuaci
on linealmente en la vecindad de un punto (t) mediante el algoritmo de NewtonRaphson.

27

MLG Ana M. Bianco FCEyN 2010

Metodo de de NewtonRaphson
Supongamos que queremos resolver
f1(x1, . . . , xn )

f(x) = f(x1, . . . , xn ) =
= 0.

fn (x1, . . . , xn )

Supongamos ademas que es soluci


on y que x0 es un punto pr
oximo a .
Usando una expansi
on de Taylor de primer orden alrededor de x0 tenemos que

donde

0 = f() f(x0) + f(x0)( x0)

f1
xn

...

.
.
.
. . .
f(x0) = . . .
fn
fn
.
.
.
x1
xn

Luego,

f1
x1

.
x=x0

28

MLG Ana M. Bianco FCEyN 2010

= x0 [f(x0)]1f(x0)
El metodo de Newton Raphson es un metodo iterativo con un punto inicial x0
y tal que
xi +1 = xi [f(xi )]1f(xi )
Para el caso que nos interesa resolver serultaria

(t+1)

(t)

00

(t)

` ( )

1 0

` ((t))

(3)

Si `() es cuadratica, entonces `0() es lineal y el algoritmo iterativo convergera en un solo paso a partir de un punto inicial.
En problemas regulares, el loglikelihood se hace aproximadamente cuadratico
a medida que n crece. En estas situaciones el metodo de NR funcionara

29

MLG Ana M. Bianco FCEyN 2010

bien, mientras que en muestras pequenas y con loglikelihoods alejados de


una cuadratica NR podra no converger.
Veamos como quedan los distintos elementos de (3). Por simplicidad estudiaremos la contribuci
on de cada termino Yi al loglikelihood omitiendo los subndices
superfluos. Salvo constantes tenemos que:
y b()
`(, y ) =
a()
`
`
=
j
j
Recordemos que
f (, y ) =
=
=
g() =

y b()
exp
+ c(y , )
a()
E(Y ) = b0() y V ar (Y ) = a()b00()
x0

30

MLG Ana M. Bianco FCEyN 2010

Cuanto vale cada derivada?


`

y b0() y
=
=
a()
a()
1
a()
= 00
=
b () V ar (Y )
= depende de la funci
on de enlace
= xj ,

Luego, resulta

`
Y
=
xj .
j
V ar (Y )
De esta manera, las ecuaciones de maxima verosimilitud quedan:
`
=
j

Yi i
Vi
i =1
n

i
i

xi j = 0

(4)

31

MLG Ana M. Bianco FCEyN 2010

Por ejemplo, si usamos el link natural tenemos que


V = a()b00() = a()b00()
y ademas
= b0() = b0()

= b00() ,

por lo tanto el peso queda constante


1
1
=
.
V a()
Si consideramos la derivada segunda a partir de (4) queda:
n
n

1 i
1 i
2`

=
[Yi i ]
xi j + (Yi i )
xi j .
k j i =1 k
Vi i
k Vi i
i =1

(5)

32

MLG Ana M. Bianco FCEyN 2010

2`

En el metodo de Fisherscoring se propone utilizar E k j en lugar de


2`
k j

con el fin de obtener resultados mas estables.

Podemos hallar esta esperanza recordando que:


2

` `

E
= E

k j
k j


2
2


x x
= E

ij ik
V ar (Y )

2
1

x x
=
ij ik .
V ar (Y )

Si volvemos a la muestra tendremos

i =1

Vi 1

x x

ij ik
i

33

MLG Ana M. Bianco FCEyN 2010

que en forma matricial podemos escribir como:

siendo W = di ag Vi 1

)
i 2
.
i

X0WX

Cuando usamos el link natural queda V


= a1(), que es constante por

lo tanto, en este caso, NewtonRaphson coincide con Fisher scoring.


Finalmente, si V1 = di ag(Vi 1), entonces
1

`
0 1
=XV
(Y ) ,

y si volvemos a (3) usando Fisherscoring queda

34

MLG Ana M. Bianco FCEyN 2010

(t+1)

(t+1)
(t+1)
(t+1)

(t)

+ (X WX)

XV

(Y )

= (X0WX) X0WX (t) + X0V1 (Y )

1 0
(t)
0 1
0

= (X WX) X WX + X V
(Y )

1
= (X0WX) X0Wz ,

donde

z=+
(Y )

De esta manera vemos al metodo de Fisherscoring como mnimos cuadrados


pesados iterados (IRWLS) usando pesudoobservaciones z y los pesos W que
se actualizan en cada paso para actualizar el valor de .

35

MLG Ana M. Bianco FCEyN 2010

Recordemos el algoritmo de calculo del estimador:


=

(t)

00

(t)

+ ` ( )

1 0

` ((t))

La contribuci
on de cada termino Yi al loglikelihood es, salvo constantes:
Yi i b(i )
+ c(Yi , )
`i (i , Yi ) =
a()
Su derivada respecto de j
Yi i
`i
=
j
V ar (Yi )

i
i

Las ecuaciones de maxima verosimilitud quedan:

xi j .

36

MLG Ana M. Bianco FCEyN 2010

`
=
j

Yi i
Vi
i =1
n

i
i

xi j = 0 .

(6)

La derivada segunda es:


n
n
2`

1 i
1 i

=
(Yi i )
xi j + (Yi i )
xi j .
k j i =1 k
Vi i
k Vi i
i =1

Metodo de Fisherscoring: usamos


2

i
i

x x

E
=
ij ik .
k j
V ar (Yi ) i

Por lo tanto

37

MLG Ana M. Bianco FCEyN 2010

x x
Vi 1
ij ik .
i
i =1
n i

1 i
=
Vi
xi j xi k .
i
i =1 i

E
=
k j

entonces, en forma matricial


2

E
=

i 0 1 i
V
.
i

Finalmente, si:

(t)

= di ag Vi

(V(t))1 = di ag(Vi 1)

38

MLG Ana M. Bianco FCEyN 2010

resulta

(t+1)

(t+1)

=
(

(t)

(t)

+ XW X
(t)

= XW X

X0(V(t))1

X0W(t)z(t) ,

donde = (t) y = (t) y


z(t) = +

(Y )

(Y )

39

MLG Ana M. Bianco FCEyN 2010

Casos Particulares
Distribuci
on Binomial: regresi
on logstica
(
)
i
Sean Yi Bi (1, i ). Supongamos que log 1i = x0i , con lo cual
e

x0i

1
=
0
0
1 + e xi 1 + e xi
Tenemos las siguientes igualdades:
i =

Li keli hood =

i i (1 i )1yi

i =1
n

i yi

(1 i )
Li keli hood =
i =1 1 i
n
0
0

e xi yi (1 + e xi )1
Li keli hood =
`() =

i =1
n

x0i
i =1

yi

i =1

log(1 + e

x0i

40

MLG Ana M. Bianco FCEyN 2010

`()
=
j
=

y i xi j

e xi
0

1+e
(yi i ) xi j ,

i =1
n

i =1

x0i

xi j

i =1

donde i = E(Yi ) = i .
Derivadas segundas:

x0i

n
`()
e

xi j
=

0
j k
k 1 + e xi
i =1

i =1

i (1 i )xi j xi k

Usemos la notaci
on matricial:
Li keli hood =

i =1

i i (1 i )1yi

41

MLG Ana M. Bianco FCEyN 2010

`0() = X0(y ) ,
`00() = XWX ,
donde
W = di ag(i (1 i )) .
NewtonRaphson resulta:

(t+1)

(t)

(t)

+ XW X

(t)

X y

Tenemos que V ar (Yi ) = i (1 i ). La funci


on de varianza resulta:
V () = (1 ) .
Bajo el modelo logstico

42

MLG Ana M. Bianco FCEyN 2010

por lo tanto

1
i
=
,
i
i (1 i )

W = di ag (i (1 i )) .
y la variable dependiente ajustada es:
yi i
yi i
0
zi = i +
= xi +
.
i (1 i )
i (1 i )

También podría gustarte