Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Notas 4 PDF
Notas 4 PDF
Introducci
on
Comenzaremos con un ejemplo que nos servira para ilustrar el analisis de datos
binarios.
Nuestro interes se centra en relacionar una estructura estocastica en los datos
que siguen una distribuci
on binomial y una estructura sistematica en terminos
de alguna transformaci
on de las variables independientes.
Los siguientes datos tomados de Little (1978) corresponden a 1607 mujeres
casadas y fertiles entrevistadas por la Encuesta de Fertilidad Fiji de 1975, clasi1
Educaci
on M
as Hijos? Uso de Anticonceptivos Total
No
Si
< 25
Baja
Si
53
6
59
No
10
4
14
Alta
Si
212
52
264
No
50
10
60
2529
Baja
Si
60
14
74
No
19
10
29
Alta
Si
155
54
209
No
65
27
92
3039
Baja
Si
112
33
145
No
77
80
157
Alta
Si
118
46
164
No
68
78
146
4049
Baja
Si
35
6
41
No
46
48
94
Alta
Si
8
8
16
No
12
31
43
Total
1100
507
1607
Componente Aleatoria
La componente aleatoria del modelo involucra a las respuestas Yi .
Definamos
1 si usa anticonceptivo
Yi =
0
si no
En el ejemplo, de acuerdo con el valor de las variables predictoras, las observaciones pueden ser clasificadas en 16 grupos. Si ni es el numero de observaciones
del grupo i e Yi denota al numero de exitos, tendremos que
Yi Bi (ni , i ) .
En nuestro caso,
Yi = numero de mujeres que usan anticonceptivos en el i esimo grupo.
Luego,
ni k
ni k
i (1 i )
k
E(Yi ) = ni i
V ar (Yi ) = ni i (1 i ) ,
P (Yi = k) =
para k = 0, . . . , ni .
Componente sistem
atica
La componente sistematica del modelo involucra a las covariables xi que participan.
El modelo mas sencillo podra expresar a i como una combinaci
on lineal de las
variables independientes:
i = x0i ,
siendo el vector de parametros a estimar.
Este modelo recibe el nombre de modelo de probabilidad lineal y su estimaci
on puede basarse en mnimos cuadrados ordinarios.
Un problema evidente de este modelo es que las probabilidades i son acotadas,
mientras que las x0i pueden tomar cualquier valor real. Si bien esto podra controlarse imponiendo complicadas restricciones a los coeficientes, esta soluci
on
no resulta muy natural.
Una soluci
on sencilla es transformar la probabilidad mediante una funci
on que
mapee el intervalo (0, 1) sobre la recta real y luego modelar esta transformaci
on
como una funci
on lineal de las variables independientes.
Una manera posible es mediante los odds definidos como
,
=
1
0.1 0.11
0.2 0.25
0.5 1
0.6 4
0.9 9
De manera que odds menores que 1 estan asociados a probabilidades menores
que 0.5 y odds mayores que 1 estan asociados a probabilidades mayores que
0.5.
= + x + x + ... + x = x =
logit() = log
o
1 1
2 2
p p
1
La funci
on logit es estrictamente creciente y tiene inversa:
e
= logit1() =
.
1 + e
En el ejemplo tenemos: 507 mujeres usan anticonceptivos entre las 1607, por
507
=0.316. Luego, los odds se calculan
lo que estimamos la probabilidad como 1607
como
507
507/1607
=
= 0.461
1100/1607 1100
Entonces, aproximadamente por cada mujer que usa anticonceptivos hay dos
que no los usan. El logit(0.461) = -0.775.
Log-log
-4
-2
-4
-3
-1
-2
-2
Probit
Logistica
-1
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
10
Modelo de Regresi
on Logstica
Sean Y1, . . . , Yn v.a. independientes tales que
Yi Bi (ni , i ) .
(1)
(2)
11
i =
x0i
1
x0i
1+e
1+e
la relaci
on con i es no lineal, luego no es tan sencillo como en el modelo lineal
expresar el cambio en i al cambiar un predictor.
Cuando el predictor es continuo, podemos hacer una aproximaci
on tomando
derivadas con respecto a la jesima coordenada de xi , obteniendo
12
i
= j i (1 i ) .
xi j
Luego, el efecto del jesimo predictor depende del coeficiente j y de la probabilidad i .
Una vez establecido el modelo que queremos ajustar haremos las diferentes
etapas de inferencia habituales:
estimar los parametros
hallar intervalos de confianza para los mismos
evaluar la bondad del ajuste
realizar algun test que involucre a los parametros
Tambien tendremos que evaluar la influencia de las observaciones en la determinaci
on de los valores estimados.
13
14
Supongamos que observamos las variables de respuesta Y1, . . . , Yn que son v.a.
independientes relacionadas con las covariables xi 1, xi 2, . . . , xi p , 1 i n.
Genrericamente pensemos en una respuesta Y y covariablesx1, x2, . . . , xp
Componentes del modelo
exp
y b()
+ c(y , ) ,
a()
15
= E(Y ) = b0()
V ar (Y ) = a()b00() .
j=1
x j j = x 0 .
16
17
Ejemplos
1. Normal: Y N(, 2).
1 (y )
1
exp
2
2 2
2
2
2
1 y
y /2
2
= exp
+
log(2
) ,
2
2
f (y , , ) =
2
2
y
E(Y ) =
2
18
Y
n ny
(1 p)nny
= y ) = P (Y = ny ) =
p
ny
n
(
)
p
y log
+
log(1
p)
n
1p
= exp
+ log
ny
1/n
p
1
c(y , ) =
.
y
Y
1
e
E
=
=p=
n
1 + e 1 + e
19
P (Y = y ) = e
y!
= exp (y log log y !)
20
Funci
on de enlace o link
Esta funci
on relaciona el predictor lineal con la esperanza de la respuesta Y .
A diferencia del modelo lineal clasico, aqu introducimos una funci
on unoauno
continua y diferenciable, g(), tal que
= g() .
Ejemplos de g(t) son la funci
on identidad, el log, la funci
on logstica y la probit.
Como la funci
on g es biyectiva podremos invertirla, obteniendo:
= g 1() = g 1(x0) = h(x0) .
En el caso Binomial, por ejemplo, tenemos que (0, 1) y el link tiene que
mapear sobre la recta real. Suelen usarse 3 links:
1. Logit: = log
e
( 1+e )
2. Probit: = 1()
3. Complemento loglog: = log( log(1 ))
21
Links Can
onicos:
En el caso normal mostramos que si Y N(, 2) el parametro can
onico es
= .
En el caso binomial Y Bi (n, p) en el que consideremos Yn vimos que el
can
onico es = logit(). Estos son los links mas usados en cada caso.
Cuando usamos = el modelo tiene el link can
onico o natural. Es conveniente
usar el link natural, ya que algunas cosas se simplifican, pero la posibilidad de
usarlo dependera de los datos con los que estemos trabajando.
Normal:
Poisson: = log
Binomial: = log 1
Gamma: = 1
22
Funci
on de Verosimilitud para el GLM
Sea Y una v.a. con funci
on de densidad o probabilidad perteneciente a una
familia exponencial dada por:
fY (y , , ) = exp
y b()
+ c(y , ) ,
a()
23
y b()
+ c(y , ) .
a()
a()
0
24
`2(, y ) b00()
=
` (, y ) =
.
2
a()
00
`(, y )
Como E
= 0, entonces
0
y b ()
0
0 = E (` (, y )) = E
a()
y por lo tanto
= E(Y ) = b0() .
Ademas, sabemos que
00
E(` (, y )) = E (` (, y )) ,
entonces
25
b00()
V ar (` (, y )) = E (` (, y )) = E(` (, y )) =
.
a()
0
00
1
y b ()
V ar (Y )
V ar (` (, y )) = V ar
=
a()
a2()
0
y en consecuencia
V ar (Y ) = a()b00() .
La varianza es el producto de dos funciones: una que depende del parametro
natural, , y otra que depende s
olo del parametro nuisance . V () = b00()
es llamada la funci
on de varianza del modelo.
Resumiendo:
E(Y ) = b0()
V ar (Y ) = a()b00()
26
Estimaci
on de los par
ametros:
M
etodo de NewtonRaphson y Fisherscoring
Supongamos que Y1, . . . , Yn son variables aleatorias que satisfacen los supuestos
de un GLM y que queremos maximizar el loglikelihood `(, y) respecto a
= (1, . . . , p )0. Queremos resolver
`(, y) = 0
j
j = 1, . . . p
27
Metodo de de NewtonRaphson
Supongamos que queremos resolver
f1(x1, . . . , xn )
f(x) = f(x1, . . . , xn ) =
= 0.
fn (x1, . . . , xn )
donde
f1
xn
...
.
.
.
. . .
f(x0) = . . .
fn
fn
.
.
.
x1
xn
Luego,
f1
x1
.
x=x0
28
= x0 [f(x0)]1f(x0)
El metodo de Newton Raphson es un metodo iterativo con un punto inicial x0
y tal que
xi +1 = xi [f(xi )]1f(xi )
Para el caso que nos interesa resolver serultaria
(t+1)
(t)
00
(t)
` ( )
1 0
` ((t))
(3)
Si `() es cuadratica, entonces `0() es lineal y el algoritmo iterativo convergera en un solo paso a partir de un punto inicial.
En problemas regulares, el loglikelihood se hace aproximadamente cuadratico
a medida que n crece. En estas situaciones el metodo de NR funcionara
29
y b()
exp
+ c(y , )
a()
E(Y ) = b0() y V ar (Y ) = a()b00()
x0
30
y b0() y
=
=
a()
a()
1
a()
= 00
=
b () V ar (Y )
= depende de la funci
on de enlace
= xj ,
Luego, resulta
`
Y
=
xj .
j
V ar (Y )
De esta manera, las ecuaciones de maxima verosimilitud quedan:
`
=
j
Yi i
Vi
i =1
n
i
i
xi j = 0
(4)
31
= b00() ,
1 i
1 i
2`
=
[Yi i ]
xi j + (Yi i )
xi j .
k j i =1 k
Vi i
k Vi i
i =1
(5)
32
2`
` `
E
= E
k j
k j
2
2
x x
= E
ij ik
V ar (Y )
2
1
x x
=
ij ik .
V ar (Y )
i =1
Vi 1
x x
ij ik
i
33
siendo W = di ag Vi 1
)
i 2
.
i
X0WX
`
0 1
=XV
(Y ) ,
34
(t+1)
(t+1)
(t+1)
(t+1)
(t)
+ (X WX)
XV
(Y )
1 0
(t)
0 1
0
= (X WX) X WX + X V
(Y )
1
= (X0WX) X0Wz ,
donde
z=+
(Y )
35
(t)
00
(t)
+ ` ( )
1 0
` ((t))
La contribuci
on de cada termino Yi al loglikelihood es, salvo constantes:
Yi i b(i )
+ c(Yi , )
`i (i , Yi ) =
a()
Su derivada respecto de j
Yi i
`i
=
j
V ar (Yi )
i
i
xi j .
36
`
=
j
Yi i
Vi
i =1
n
i
i
xi j = 0 .
(6)
1 i
1 i
=
(Yi i )
xi j + (Yi i )
xi j .
k j i =1 k
Vi i
k Vi i
i =1
i
i
x x
E
=
ij ik .
k j
V ar (Yi ) i
Por lo tanto
37
x x
Vi 1
ij ik .
i
i =1
n i
1 i
=
Vi
xi j xi k .
i
i =1 i
E
=
k j
E
=
i 0 1 i
V
.
i
Finalmente, si:
(t)
= di ag Vi
(V(t))1 = di ag(Vi 1)
38
resulta
(t+1)
(t+1)
=
(
(t)
(t)
+ XW X
(t)
= XW X
X0(V(t))1
X0W(t)z(t) ,
(Y )
(Y )
39
Casos Particulares
Distribuci
on Binomial: regresi
on logstica
(
)
i
Sean Yi Bi (1, i ). Supongamos que log 1i = x0i , con lo cual
e
x0i
1
=
0
0
1 + e xi 1 + e xi
Tenemos las siguientes igualdades:
i =
Li keli hood =
i i (1 i )1yi
i =1
n
i yi
(1 i )
Li keli hood =
i =1 1 i
n
0
0
e xi yi (1 + e xi )1
Li keli hood =
`() =
i =1
n
x0i
i =1
yi
i =1
log(1 + e
x0i
40
`()
=
j
=
y i xi j
e xi
0
1+e
(yi i ) xi j ,
i =1
n
i =1
x0i
xi j
i =1
donde i = E(Yi ) = i .
Derivadas segundas:
x0i
n
`()
e
xi j
=
0
j k
k 1 + e xi
i =1
i =1
i (1 i )xi j xi k
Usemos la notaci
on matricial:
Li keli hood =
i =1
i i (1 i )1yi
41
`0() = X0(y ) ,
`00() = XWX ,
donde
W = di ag(i (1 i )) .
NewtonRaphson resulta:
(t+1)
(t)
(t)
+ XW X
(t)
X y
42
por lo tanto
1
i
=
,
i
i (1 i )
W = di ag (i (1 i )) .
y la variable dependiente ajustada es:
yi i
yi i
0
zi = i +
= xi +
.
i (1 i )
i (1 i )