Está en la página 1de 50

EYP3307 Modelos Lineales Generalizados

Manuel Galea

Departamento de Estadı́stica
Pontificia Universidad Católica de Chile

Primer Semestre 2023

(Departamento de Estadı́stica UC) EYG3307 1 / 50


Programa

Descripción
Este curso extiende la estructura del modelo lineal para permitir variables
respuestas que no se distribuyen en forma Gaussiana.
En los modelos lineales generalizados, la variable respuesta tiene una
distribucion en la familia exponencial y su media se relaciona con
covariables a través de una funcion de enlace y un predictor lineal.
El curso incluye una revision de la teoria asociada a estos modelos,
incluyendo su estimacion e inferencia.
En particular, se estudian modelos para respuestas binarias, categoricas,
respuestas positivas, modelos para datos de conteo, entre otros. La
aplicacion de estos modelos a datos reales se llevara a cabo mediante
laboratorios computacionales.

1
Programa

Objetivos

1 Identificar las restricciones asociadas a los modelos lineales


generalizados. Construir modelos lineales generalizados para
representar y entender fenomenos observados
2 Inferir caracteristicas de una poblacion a partir de los modelos lineales
generalizados
3 Evaluar hipotesis respecto a parametros poblacionales estimados
mediante modelos lineales generalizados
4 Dominar herramientas computacionales para el ajuste y diagnostico
de modelos lineales generalizados

2
Programa

Contenidos

1 Herramientas Basicas: Familia exponencial e inferencia.


2 Modelos Lineales Generalizados: Los componentes del modelo,
medidas de bondad de ajuste, analisis de residuos y algoritmos para el
ajuste de modelos.
3 Modelos para Respuestas Binomiales: Regresion logistica. Seleccion
de modelos, diagnosticos, equivalencias con el analisis de tablas de
contingencia, potencia y tama?o muestral. Enlaces alternativos.
4 Modelos para Respuestas Multinomiales: Regresion logistica para
datos multinomiales, modelos de logit acumulado para respuestas
ordinales, modelo logistico de tasa de continuacion y analisis de
sobrevida discreto.

3
Programa

5 Modelos Log-Lineales: Tablas de contingencia de dos, tres y mas


entradas. Seleccion de modelos y evaluacion.
6 Modelos para Respuestas Positivas: Regresion gamma y exponencial.
7 Modelos para Respuestas Acotadas y Proporciones: Regresion beta.
8 Modelos Lineales Aditivos y Generalizados: Formas de suavizamiento,
modelos aditivos, modelos aditivos generalizados, y algoritmos para su
ajuste.

4
Programa

Metodologı́a
1 Clases expositivas
2 Clases de ejercicios/Laboratorios
Evaluación
1 Interrogación 1: lunes 03 de abril, 20 %
2 Interrogación 2: jueves 11 de mayo, 25 %
3 Interrogación 3: lunes 12 de junio, 25 %
4 Examen: martes 11 de julio, 30 %

5
Programa
Bibliografı́a
1 McCullagh, P., Nelder, J.A. (1989). Generalized linear models. 2nd Ed. Chapman
and Hall/CRC, New York, USA.
2 Agresti, A. (2003). An introduction to categorical data analysis. 2nd ed. John
Wiley and Sons, New York, USA
3 Agresti, A. (2002). Categorical data analysis. John Wiley and Sons, New York,
USA.
4 Christensen, R. (1997). Log-linear models and logistic regression. 2nd Edition.
Springer-Verlag, New York, USA.
5 Dobson, A.J., Barnett, A. 2008. An introduction to generalized linear models. 3rd
ed. Chapman and Hall/CRC, New York, USA.
6 Hastie, T.J., Tibshirani, R.J. (1990). Generalized additive models. Chapman and
Hall/CRC, New York, USA.
7 Le, C. (1998). Applied categorical data analysis. John Wiley and Sons, New York,
USA.
8 Stokes, M.E., Davis, C.S., Koch, G.C. (2000). Categorical data analysis using the
SAS system. 2nd Edition. SAS Publishing, USA.
9 Venables, W.N., Ripley, B.D. (1999). Modern applied statistics with S?PLUS.
Springer-Verlag, New York, USA. 6
Contenido I

1 Introducción
Modelo estadı́stico
Modelo lineal
Modelo lineal generalizado

2 Modelos Lineales Generalizados; GLM


Familia exponencial
Ajuste de un modelo lineal generalizado
Introducción
Modelo estadı́stico

Ya que una observación y es un resultado de un experimento aleatorio,


consideramos a y como el valor, realización, de una variable aleatoria Y .
Su distribución es parcialmente desconocida, depende de parámetros a
estimar. La inferencia estadı́stica nos proporciona métodos para utilizar la
observación y para obtener información acerca de la distribución de y.
Esto significa que el punto de partida del análisis estadı́stico es una clase
de distribuciones de probabilidad, F, parametrizadas por un parámetro θ:

F = {f (y, θ) : θ ∈ Θ}, (1.1)

donde para cada θ fijo, f (y, θ) es una función de densidad de


probabilidad. El conjunto Θ es denominado espacio paramétrico. A la clase
F se le denomina Modelo Estadı́stico Paramétrico o simplemente Modelo
Estadı́stico.

8
Introducción
Modelo estadı́stico

Ejemplo 1.1
Poisson Suponga que y1 , · · · , yn son variables aleatorias iid Poisson con
media λ. La fdp del vector aleatorio y = (y1 , · · · , yn ) es
n
Y exp(−λ)λyi
f (y, λ) =
yi !
i=1

para y1 , · · · , yn = 0, 1, 2, · · · . Luego el modelo estadı́stico es

F = {f (y, λ) : λ ∈ Θ},

con Θ = {λ : λ > 0}.

9
Introducción
Modelo lineal

Sea y una variable aleatoria, denominada variable de respuesta o variable


dependiente; y suponga que deseamos modelar la relación entre esta
variable de respuesta y un conjunto de otras variables (x1 , . . . , xp ),
denominadas regresores, variables explicativas, covariables, predictores o
variables independientes.
En general, modelamos la relación entre y y x1 , . . . , xp con una función
η(x1 , . . . , xp ). Esta relación no es exacta, ya que se ve afectada por el
ruido aleatorio ϵ. En la práctica, generalmente asumimos errores aditivos y
ası́ obtenemos
y = η(x1 , . . . , xp ) + ϵ.
Nuestro objetivo es estimar la función desconocida η.
Introducción
Modelo lineal

En el marco de los modelos de regresión lineales, se hacen los siguientes


supuestos especı́ficos con respecto a la función desconocida η y el ruido ϵ:
1 El componente sistemático η es una combinación lineal de las
covariables,
η(x1 , . . . , xp ) = β1 x1 + . . . + βp xp
Los parámetros β1 , . . . , βp son desconocidos y deben ser estimados. Si
x1 = 1, el parámetro β1 representa el intercepto. Si combinamos las
covariables y los parámetros desconocidos en vectores p
dimensionales, x = (x1 , . . . , xp )T y β = (β1 , . . . , βp )T , entonces
η(x) = xT β.
2 Errores aditivos. Otro supuesto básico del modelo lineal es la
aditividad de los errores, lo que implica,
y = xT β + ϵ.
Introducción
Modelo lineal

Aunque esto parece ser muy restrictivo, esta suposición es razonable para
muchas aplicaciones. Además, los problemas, que al principio no muestran
una estructura de error aditivo, pueden especificarse mediante modelos con
errores aditivos después de una transformación de la variable de respuesta
y.
Para estimar los parámetros β, recopilamos datos

{(yi , xTi ) = (yi , xi1 , . . . , xip )},

i = 1, . . . , n, y para cada observación tenemos que,

yi = β1 xi1 + . . . + βp xip + ϵi = xTi β + ϵi . (1.2)


Introducción
Modelo lineal

Si definimos los vectores


   
y1 ϵ1
y =  ...  y ϵ =  ... 
   

yn ϵn
y la matriz de diseño X,
xT1
   
x11 . . . x1p
 . . . . .   . 
   
X=  . . . . . .
= ,
  
 . . . . .   . 
xn1 . . . xnp xTn
entonces las n ecuaciones en (1.2) se pueden escribir de forma compacta
como,
y = Xβ + ϵ.
Introducción
Modelo lineal

Asumimos que X tiene rango columna completo, es decir, r(X) = p, lo


que implica que las columnas de X son linealmente independientes.
Un requisito necesario es que el número de observaciones n debe ser al
menos igual (o mayor que) el número de coeficientes de regresión, p.
Esta suposición se viola si una de las covariables es una transformación
lineal de otra, por ejemplo, x1 = a + bx2 .
Dentro del modelo de regresión lineal clásico, se hacen las siguientes
suposiciones para el vector ϵ de errores:

14
Introducción
Modelo lineal

1 Experanza de los errores Los errores tienen media cero, es decir,


E(ϵi ) = 0, i = 1, . . . , n,, o en notación matricial E(ϵ) = 0.
2 Varianzas y estructura de correlación de los errores Asumimos una
varianza de error constante σ 2 a través de las observaciones, es decir,
errores homoscedásticos con Var(ϵi ) = σ 2 . Los errores se denominan
heteroscedásticos cuando las varianzas varı́an entre las observaciones,
es decir, Var(ϵi ) = σi2 .
Además de las varianzas homocedásticas, asumimos que los errores no
están correlacionados, lo que significa que Cov(ϵi , ϵj ) = 0 para i ̸= j.
La suposición de errores homocedásticos y no correlacionados
conduce a la matriz de covarianza Var(ϵ) = E(ϵϵT ) = σ 2 I n .
Introducción
Modelo lineal

3 Supuestos sobre las covariables y la matriz de diseño Distinguimos


entre dos situaciones. Por un lado, las variables explicativas x1 , . . . , xp
pueden ser deterministas o no estocásticas, por ejemplo, como es el
caso de diseño de experimentos. En muchos casos, tanto la respuesta
como las covariables son estocásticas (datos observacionales). En este
caso, las observaciones (yi , xTi ), i = 1, . . . , n, pueden entenderse
como realizaciones de un vector aleatorio (y, xT ), y todos los
supuestos del modelo están condicionados a la matriz de diseño,
como, por ejemplo, E(ϵ|X) = 0 (en lugar de E (ϵ) = 0 o
Cov(ϵ|X) = σ 2 I n (en lugar de Cov(ϵ) = σ 2 I). Esto último implica
que ϵi y xi son independientes. La suposición de que los errores y las
covariables estocásticas son independientes se puede relajar, por
ejemplo, permitiendo que Var(ϵi | xi ) dependa de las covariables, es
decir, Var(ϵi |xi ) = σ 2 (xi ). En cualquier caso, asumimos que la
matriz de diseño tiene rango de columna completo.
Introducción
Modelo lineal

4 Errores gaussianos Para construir intervalos de confianza y pruebas de


hipótesis para los coeficientes de regresión, a menudo suponemos una
distribución normal para los errores.
Junto con los supuestos 1 y 2, obtenemos ϵi ∼ N (0, σ 2 ) o en notación
matricial ϵ ∼ Nn (0, σ 2 I n ), una distribución normal multivariada.
Con covariables estocásticas tenemos ϵi |xi ∼ N (0, σ 2 ) y
ϵ|X ∼ Nn (0, σ 2 I n ), lo que implica que ϵi y xi son independientes.
Para simplificar la notación, generalmente suprimimos la dependencia
de los términos en la matriz de diseño X en el caso de covariables
estocásticas.

17
Introducción
Modelo lineal

Desde los supuestos anteriores sigue que,


E(yi ) = E(xTi β + ϵi ) = xTi β = β1 xi1 + . . . + βp xip
Var(yi ) = Var(xTi β + ϵi ) = Var(ϵi ) = σ 2
Cov(yi , yj ) = Cov(ϵi , ϵj ) = 0
En notación matricial tenemos,
E(y) = Xβ y Cov(y) = σ 2 I n .
Si además asumimos errores normalmente distribuidos, tenemos
y ∼ Nn (Xβ, σ 2 I n ).
Note que las covariables solo afectan la media de y. La varianza σ 2 de yi o
la matriz de covarianza σ 2 I n de y es independiente de las covariables; sin
embargo esta suposición puede ser relajada.
18
Introducción
Modelo lineal

Definición 1.1
Modelo Lineal Clásico El modelo

y = Xβ + ϵ,

se denomina modelo de regresión lineal clásico, si se cumplen las siguientes


suposiciones:
1) E(ϵ) = 0
2) Cov(ϵ) = E(ϵϵT ) = σ 2 I n
3) La matriz de diseño X tiene rango completo, r(X) = p. El modelo de
regresión normal clásico se obtiene si adicionalmente,
4) ϵ ∼ Nn (0, σ 2 I n ) se cumple. Para covariables estocásticas, estos
supuestos deben entenderse condicionalmente a X.

19
Introducción
Modelo lineal

Es decir, el modelo estadı́stico correspondiente al modelo de regresión


lineal, puede ser escrito como,

F = {f (y; β, σ 2 ) : β ∈ Rp , σ 2 > 0}, (1.3)

donde f (y; β, σ 2 ) es la fdp de una ∼ Nn (Xβ, σ 2 I n ), dada por,


h 1 in 1
f (y; β, σ 2 ) = √ exp{− 2 Q(β)}
2πσ 2 2σ
n
Y 1 1
= √ exp{− 2 (yi − xTi β)2 },
2πσ 2 2σ
i=1

donde Q(β) = (y − Xβ)T (y − Xβ) = ni=1 (yi − xTi β)2 , y las variables
P
de respuesta y1 , . . . , yn son independientes tales que yi ∼ N (xTi β, σ 2 ),
i = 1, . . . , n.
20
Introducción
Modelo lineal

Ejemplo 1.2

Algunos ejemplos de modelos de regresición


1) Caso de una muestra. Sea y1 , y2 , . . . , yn una muestra aleatoria desde
una ∼ N (µ, σ 2 ). En este caso tenemos y = Xβ + ϵ, con
X T = (1, . . . , 1), e y ∼ Nn (1µ, σ 2 I n ), con µ = β1 , p = 1
2) Caso de dos muestras independientes. Sea y11 , y21 , . . . , yn1 una
muestra aleatoria desde una ∼ N (µ1 , σ 2 ) e y12 , y22 , . . . , ym2 otra
muestra aleatoria independiente desde una ∼ N (µ2 , σ 2 ). Para este
diseño tenemos y = Xβ + ϵ donde,

y T = (y11 , y21 , . . . , yn1 , y12 , y22 , . . . , ym2 )

y
ϵT = (ϵ11 , ϵ21 , . . . , ϵn1 , ϵ12 , ϵ22 , . . . , ϵm2 )
Introducción
Modelo lineal

y la matriz de diseño,  
1 0

 1 0 


 . . 


 . . 


 . . 

1 0
 
X= ,
 
 0 1 
0 1
 
 

. .

 
 
 . . 
 
 . . 
0 1

una matriz (n + m) × 2, y β T = (µ1 , µ2 ).


22
Introducción
Modelo lineal

3) Caso de muestras pareadas. Las mediciones a menudo se registran en


diferentes conjuntos de condiciones experimentales para ver si las
respuestas difieren significativamente entre estos conjuntos. Por
ejemplo, la eficacia de un nuevo medicamento o de una campaña
publicitaria puede determinarse comparando mediciones antes del
tratamiento (medicamento o publicidad) con aquellas después del
tratamiento.
Sea yi1 la respuesta al tratamiento 1, e yi2 la respuesta al tratamiento
2, para la i−ésima unidad experimental. Es decir, (yi1 , yi2 ) son las
medidas registradas para la i−ésima unidad experimental,
i = 1, . . . , n. Por diseño, las diferencias
di = yi1 − yi2 , i = 1, 2, . . . , n
reflejan los efectos de los tratamientos; y si {di }ni=1 es una muestra
aleatoria desde una ∼ N (δ, σd2 ), podemos proceder como el caso 1)
Introducción
Modelo lineal

4) Modelo de regresión simple. En este caso disponemos de un predictor,


y observamos (yi , xi ), i = 1, 2, . . . , n, y el modelo de regresición
simple está dado por

yi = β1 + β2 xi + ϵi ,

i = 1, 2, . . . , n. La matriz de diseño es
 
1 x1
 1 x2 
 
 . . 
X=  . .
,

 
 . . 
1 xn

una matriz n × 2, y β T = (β1 , β2 ).


24
Introducción
Modelo lineal

4) Modelo de regresión simple. En este caso disponemos de un predictor,


y observamos (yi , xi ), i = 1, 2, . . . , n, y el modelo de regresición
simple está dado por

yi = β1 + β2 xi + ϵi ,

i = 1, 2, . . . , n. La matriz de diseño es
 
1 x1
 1 x2 
 
 . . 
X=  . .
,

 
 . . 
1 xn

una matriz n × 2, y β T = (β1 , β2 ).


25
Introducción
Modelo lineal

5) Modelo de regresión cuadrático. En este caso también disponemos de


un predictor, y observamos (yi , xi ), i = 1, 2, . . . , n, y el modelo de
regresión cuadrático está dado por

yi = β1 + β2 xi + β3 x2i + ϵi ,

i = 1, 2, . . . , n. La matriz de diseño es
1 x1 x21
 
 1 x2 x22 
 
 . . . 
X=  ,
 . . . 

 . . . 
1 xn x2n

una matriz n × 3, y β T = (β1 , β2 , β3 ).


Introducción
Modelo lineal

6) Modelo de regresión con varios predictores. En este caso disponemos


de p predictores (x1 , . . . , xp ), y observamos
(yi , xi1 , xi2 , . . . , xip ), i = 1, 2, . . . , n, y el modelo de regresión está
dado por
yi = β1 xi1 + β2 xi2 + . . . + βp xip + ϵi ,
i = 1, 2, . . . , n. La matriz de diseño es
 
x11 . . . x1p
 . . . . . 
 
X= .  . . . . ,

 . . . . . 
xn1 . . . xnp

una matriz n × p, y β T = (β1 , β2 , . . . , βp ).


Introducción
Modelo lineal

Ejercicio 1.1
Discuta si los siguientes modelos de regresión son lineales.
1) yi = β0 + β1 xi + β2 x2i + ϵi
2) yi = β0 + β1 ( x1i ) + ϵi
3) yi = β0 exp(β1 xi ) + ϵi
4) yi = β0 xβi 1 + ϵi , i = 1, 2, . . . , n
Introducción
Modelo lineal generalizado

Hay dos formas principales en las cuales el modelo de regresión clásico


puede ser inadecuado en una situación práctica dada:
(1) la distribución de la variable dependiente puede no ser normal;
(2) la media de la variable dependiente puede ser una función del
predictor lineal, en lugar de solo el predictor lineal en sı́.

Ejemplo 1.3

Un toxicólogo está investigando la eficacia de un nuevo insecticida y aplica


dosis variables de la toxina a grupos de insectos seleccionados. Sea x la
dosis (generalmente medida en unidades logarı́tmicas) y supongamos que
hay k grupos de insectos, con ni en el grupo i(1 = 1, . . . , k). El i−ésimo
grupo de insectos recibe una dosis xi de la toxina, y yi de los insectos en
este grupo todavı́a están vivos después de un perı́odo fijo de tiempo t.
Introducción
Modelo lineal generalizado

Estamos interesados en hacer inferencias sobre la probabilidad πx de que


un insecto al azar sobreviva al instante t, después de recibir una dosis x de
la toxina.
La variable dependiente aquı́ puede ser y, el número de insectos que
sobreviven, o z = y/N, la proporción de insectos que sobreviven a una
dosis dada de toxina. Sin embargo, ajustar un modelo lineal como

zi (= yi /ni ) = α + βxi + ϵi con ϵi iid N (0, σ 2 ) para i = 1, . . . , k,

serı́a inapropiado por una serie de razones.


Primero, y no es una variable aleatoria con distribución normal sino una
variable aleatoria con distribución binomial (una consecuencia de lo cual es
que la varianza de y tampoco será constante).

30
Introducción
Modelo lineal generalizado

Segundo, al graficar la proporción de insectos que sobreviven en cada


grupo contra la dosis administrada a ese grupo generalmente no produce
una lı́nea recta, sino que generalmente exhibe una forma curva
(tı́picamente sigmoidea, porque la mortalidad tiende a aumentar más
abruptamente en el centro del rango de dosis que en los extremos donde la
dosis es demasiado baja por debajo de un umbral para tener mucho efecto
o tan alta por encima de un segundo umbral que la mayorı́a de los insectos
se mueren automáticamente).
Finalmente, ajustar el modelo anterior, una en lı́nea recta, a menudo
conducirı́a a valores predichos de y fuera de su rango permitido (0, 1).
Introducción
Modelo lineal generalizado

Un modelo mucho más apropiado es suponer que la distribución de yi es


binomial con los parámetros ni y πi for i = 1, . . . , k (donde πi denota πx
en x = xi ), la cual no produce valores predichos de zi fuera del rango
(0, 1), y permite el patrón sigmoidal de la proporción de sobrevivientes.
Una forma de lograr ambos objetivos es establecer πi = Φ (α + βxi )
donde Φ(·) es la función de distribución acumulada de la distribución
normal. Ası́, desde la media µ de la distribución binomial con parámetros
n y π es nπ, tenemos el enlace µ = nΦ(η) entre la media de y y el
predictor lineal η = α + βx en este caso.
Además, ya que Φ(·) solo toma valores entre 0 y 1, valores de z predichos
desde este modelo nunca puede estar fuera de su rango permitido.
Introducción
Modelo lineal generalizado

Figura 1: Funciones de enlace comunes utilizadas con la distribución binomial:


logito, probito y log-log complementaria

33
Introducción
Modelo lineal generalizado

Motivados por este tipo de ejemplos, y para superar las limitaciones (1) y
(2) anteriores, Nelder & Wedderburn (1972) propusieron la clase de
modelos lineales generalizados. Estos modelos superan la limitación (1) al
ser aplicables cuando la variable dependiente proviene de cualquier
distribución en una amplia clase de distribuciones conocida como la familia
exponencial.
Esta familia incluye la mayorı́a de las distribuciones comúnmente
encontradas en situaciones prácticas, por lo que los modelos son
ampliamente aplicables.
La limitación (2) se supera directamente permitiendo que una función
general enlace (ligue) la media variable dependiente y el predictor lineal.
Introducción
Modelo lineal generalizado

Definición 1.2
Modelo Lineal Generalizado Sean yi , i = 1, . . . , n variables de respuesta
que satisfacen las siguientes condiciones,
(i) yi son variables aleatorias independientes con densidad f (yi , β, ϕ) que
pertenecen a la familia exponencial, i = 1, . . . , n,
(ii) Las variables explicativas proporcionan un conjunto de predictores
lineales, ηi = β1 xi1 + β2 xi2 + · · · + βp xip para i = 1, . . . , n,
(iii) El enlace entre (i) y (ii) está dado por g(µi ) = ηi , donde µi es la
media de yi para i = 1, . . . , n; g(·) es denominada función de enlace.
En este caso diremos
Qque el modelo estadı́stico
F = {f (y, β, ϕ) = ni=1 f (yi , β, ϕ) : θ ∈ Rp , ϕ > 0} es un Modelo Lineal
Generalizado.

35
GLM
Familia Exponencial

Definición 2.1
Una variable aleatoria y tiene una distribución perteneciente a la familia
exponencial si su función de densidad de probabilidad (o masa) f (y; θ, ϕ)
se puede escribir en forma canónica como,

f (y; θ, ϕ) = exp{[yθ − b(θ)]/a(ϕ) + c(y, ϕ)}, (2.1)

para algunas funciones conocidas a(·), b(·) y c(·) y parámetros θ y ϕ.


Adicionalmente, el rango R de y no debe incluir ninguno de estos
parámetros.

Si ϕ es conocido entonces la familia se denomina familia exponencial lineal


y θ es el parámetro natural, o canónico. Muy a menudo a(ϕ) es de la
forma aϕ para alguna constante a, o ϕ donde ϕ es σ 2 o 1. En tales
circunstancias ϕ se denomina parámetro de escala o dispersión.
36
GLM
Familia Exponencial

Ya que f (y; θ, ϕ) es una densidad, entonces


Z
exp{[yθ − b(θ)]/a(ϕ) + c(y, ϕ)}dy = 1.
R

Diferenciando ambos lados de esta ecuación con respecto a θ nos queda,

[y − b′ (θ)]
Z
exp{[yθ − b(θ)]/a(ϕ) + c(y, ϕ)}dy = 0,
R a(ϕ)

db(θ)
donde b′ (θ) = . Ya que R no depende de θ, podemos intercambiar la

derivada con la integral.

37
GLM
Familia Exponencial

Multiplicando por a(ϕ) y reorganizando los términos obtenemos


Z Z
y exp{[yθ−b(θ)]/a(ϕ)+c(y, ϕ)}dy = b′ (θ) exp{[yθ−b(θ)]/a(ϕ)+c(y, ϕ)}dy.
R R

Por lo tanto, se tiene que,

E(y) = b′ (θ). (2.2)


Diferenciando una segunda vez con respecto a θ produce,
b′′ (θ) [y − b′ (θ)]2
Z Z
− exp{[yθ−b(θ)]/a(ϕ)+c(y, ϕ)}dy+ exp{[yθ−b(θ)]/a(ϕ)+c(y, ϕ)}dy = 0,
a(ϕ) R R a2 (ϕ)

d2 b(θ)
donde b′′ (θ) = .
dθ2

38
GLM
Familia Exponencial

En vista de (2.2) se obtiene,

1 b′′ (θ)
Var(y) = ,
a2 (ϕ) a(ϕ)

es decir,
Var(y) = a(ϕ)b′′ (θ). (2.3)
Sea µ = E(y); o sea µ = b′ (θ). Además, ya que b′′ (θ) depende de µ via
b′ (θ) se puede escribir como V (µ); denominada función de varianza del
modelo.

39
GLM
Familia Exponencial

Ejemplo 2.1
Una variable aleatoria y con distribución normal con media µ y varianza
σ 2 tiene densidad
1
exp −(y − µ)2 /2σ 2

f (y) = p
(2πσ 2 )
 
2
 2 1 2 2 2

= exp yµ − µ /2 /σ − y /σ + log 2πσ ,
2

la cual es de la forma (2.1) para θ = µ, ϕ = σ 2 , a(ϕ) = ϕ, b(θ) = θ2 /2,


y c(y, ϕ) = − 21 y 2 /ϕ + log(2πϕ) . Luego b′ (θ) = θ = µ y b′′ (θ) = 1, de
modo que (2.2) y (2.3) da E(y) = µ y Var(y) = ϕ = σ 2 .

40
GLM
Familia Exponencial

Ejemplo 2.2

Una variable aleatoria y con distribución binomial con parámetros n


(número de ensayos) y π (probabilidad de éxito en cada ensayo) tiene
media µ = nπ y varianza σ 2 = nπ(1 − π). La densidad es
 
n
f (y) = π y (1 − π)n−y
y
 
n
= (π/[1 − π])y (1 − π)n
y
  
n
= exp y log(π/[1 − π]) + n log(1 − π) + log
y

la cual es de la forma (2.1) con θ = log(π/(1 − π)).


GLM
Familia Exponencial

Luego π = eθ / 1 + eθ , a(ϕ) = 1 (de modo que podemos tomar a(ϕ) = ϕ



 
θ
 n
para ϕ = 1), b(θ) = n log 1 + e y c(y, ϕ) = log .
y
neθ neθ
Por lo tanto b′ (θ) = = nπ y b′′ (θ) =
2 = nπ(1 − π),
1 + eθ (1 + eθ )
de modo que (2.2) y (2.3) da E(y) = nπ y Var(y) = nπ(1 − π).

42
GLM
Familia Exponencial

Ejemplo 2.3
Una variable aleatoria y con distribución Poisson con parámetro λ tiene
media µ = λ y varianza σ 2 = λ. La densidad es
λy −λ
f (y) = e
y!
= exp{y log λ − λ − log y!},

la cual es de la forma (2.1) con θ = log λ, a(ϕ) = 1 (y podemos tomar de


nuevo a(ϕ) = ϕpara ϕ = 1), b(θ) = eθ y c(y, ϕ) = − log y!.
Por lo tanto, b′ (θ) = eθ = λ y b′′ (θ) = eθ = λ, de modo que (2.2) y (2.3)
da E(Y ) = λ y Var(Y ) = λ.

43
GLM
Ajuste del modelo

Como ya vimos un GLM tiene las siguientes caracterı́sticas:

(i) yi , i = 1, . . . , n son variables aleatorias independientes con densidad


perteneciente a la familia exponencial,

(ii) Las variables explicativas proporcionan un predictor lineal,


ηi = β1 xi1 + β2 xi2 + · · · + βp xip para i = 1, . . . , n, y

(iii) El enlace entre (i) y (ii) está dado por g(µi ) = ηi , donde µi es la
media de yi para i = 1, . . . , n; g(·) es una función de enlace.
Las dos extensiones del modelo de regresión lineal que caracterizan el GLM
son i) su aplicabilidad a cualquier miembro de la familia exponencial, y ii)
la existencia de una función de enlace para ligar el predictor lineal η con la
media, µ, de la variable de respuesta, y.

44
GLM
Ajuste del modelo

Por supuesto, en la práctica debemos elegir la función de enlace (la que


genere un modelo razonable). Sin embargo, se producen algunas
simplificacines si la función de enlace elegida es la misma que la función
que define el parámetro canónico de la distribución. Esta función de enlace
se denomina enlace canónico. Los enlaces canónicos para algunas
distribuciones comunes son los siguientes,
(i) distribución binomial, enlace logito, g(µ) = log{µ/(n − µ)}
(ii) distribución Poisson, enlace log g(µ) = log µ
(iii) distribución normal, enlace identidad g(µ) = µ
(iv) distribución gamma, enlace reciproco g(µ) = 1/µ
(v) distribución normal inversa, enlace cuadrado inverso g(µ) = 1/µ2
Estas son las funciones de enlace más utilizadas en la práctica.

45
GLM
Ajuste del modelo

Ejemplo 2.4
El modelo sugerido en la segunda parte del Ejemplo 1.3 satisface los
requisitos de un modelo lineal generalizado.
Primero, la distribución binomial es un miembro de la familia exponencial.
En segundo lugar, el predictor lineal es α + βxi , donde xi es la dosis de
toxina aplicada al i−ésimo grupo de insectos.
Tercero, el modelo especificado por el parámetro binomial es
πi = Φ (α + βxi ) .
Ahora si yi es la cantidad de insectos que sobreviven a la i−ésima dosis,
entonces la media de yi es µi = ni πi .

46
GLM
Ajuste del modelo

Por lo tanto, este modelo puede re-expresarse como µi = ni Φ(α + βxi ),


de modo que el predictor lineal α + βxi es igual a Φ−1 (µi /ni ). Luego, la
función de enlace está dada por g(µi ) = Φ−1 (µi /ni ).
Tenga en cuenta que en lugar de modelar la relación sigmoidal entre la
proporción de supervivientes y la dosis mediante la función de distribución
normal acumulativa, podrı́amos haber utilizado la función de distribución
acumulada de cualquier otra variable aleatoria adecuada.
Eligiendo una distribución logı́stica, obtendrı́amos la función de enlace
 µ 
i
g(µi ) = log .
ni − µ i
Re-expresando esta función en términos de πi en vez de µi , tenemos
 π 
i
g(πi ) = log .
1 − πi
47
GLM
Ajuste del modelo

Al mostrar que la distribución binomial era un miembro de la familia


exponencial en el Ejemplo 2.2 encontramos que el parámetro canónico esta
dado por
θ = log(π/(1 − π)),
la cual establece que la función de enlace obtenida de la distribución
logı́stica es, de hecho, el enlace canónico.
Ella se conoce como el enlace logito y es la función de enlace más popular
para dichos datos.
References

Hocking, R.R. (2013). Methods and Applications of Linear Models: Regression


and the Analysis of Variance, 3rd Edition. New York. John Wiley
Nelder, J.A. y Wedderburn, R.W.M. (1972). Generalized linear models. Journal of
the Royal Statistical Society, Series A, 135, 370–384.
Seber, G.A.F. and Lee, A. (2003). Linear Regression Analysis, Second Edition.
New York. John Wiley
Weisberg, S. (2013). Applied Linear Regression, Fourth Edition. New York. John
Wiley

49

También podría gustarte