GMLDiapo 01

EYP3307 Modelos Lineales Generalizados
Manuel Galea
Departamento de Estadı́stica
Pontificia Universidad Católica de Chile
Primer Semestre 2023
(Departamento de Estadı́stica UC) EYG3307 1 / 50

Programa
Descripción
Este curso extiende la estructura del modelo lineal para permitir variables
respuestas que no se distribuyen en forma Gaussiana.
En los modelos lineales generalizados, la variable respuesta tiene una
distribucion en la familia exponencial y su media se relaciona con
covariables a través de una funcion de enlace y un predictor lineal.
El curso incluye una revision de la teoria asociada a estos modelos,
incluyendo su estimacion e inferencia.
En particular, se estudian modelos para respuestas binarias, categoricas,
respuestas positivas, modelos para datos de conteo, entre otros. La
aplicacion de estos modelos a datos reales se llevara a cabo mediante
laboratorios computacionales.
1
Programa
Objetivos
1 Identificar las restricciones asociadas a los modelos lineales

generalizados. Construir modelos lineales generalizados para
representar y entender fenomenos observados
2 Inferir caracteristicas de una poblacion a partir de los modelos lineales
generalizados
3 Evaluar hipotesis respecto a parametros poblacionales estimados
mediante modelos lineales generalizados
4 Dominar herramientas computacionales para el ajuste y diagnostico
de modelos lineales generalizados
2
Programa
Contenidos
1 Herramientas Basicas: Familia exponencial e inferencia.

2 Modelos Lineales Generalizados: Los componentes del modelo,
medidas de bondad de ajuste, analisis de residuos y algoritmos para el
ajuste de modelos.
3 Modelos para Respuestas Binomiales: Regresion logistica. Seleccion
de modelos, diagnosticos, equivalencias con el analisis de tablas de
contingencia, potencia y tama?o muestral. Enlaces alternativos.
4 Modelos para Respuestas Multinomiales: Regresion logistica para
datos multinomiales, modelos de logit acumulado para respuestas
ordinales, modelo logistico de tasa de continuacion y analisis de
sobrevida discreto.
3
Programa
5 Modelos Log-Lineales: Tablas de contingencia de dos, tres y mas

entradas. Seleccion de modelos y evaluacion.
6 Modelos para Respuestas Positivas: Regresion gamma y exponencial.
7 Modelos para Respuestas Acotadas y Proporciones: Regresion beta.
8 Modelos Lineales Aditivos y Generalizados: Formas de suavizamiento,
modelos aditivos, modelos aditivos generalizados, y algoritmos para su
ajuste.
4
Programa
Metodologı́a
1 Clases expositivas
2 Clases de ejercicios/Laboratorios
Evaluación
1 Interrogación 1: lunes 03 de abril, 20 %
2 Interrogación 2: jueves 11 de mayo, 25 %
3 Interrogación 3: lunes 12 de junio, 25 %
4 Examen: martes 11 de julio, 30 %
5
Programa
Bibliografı́a
1 McCullagh, P., Nelder, J.A. (1989). Generalized linear models. 2nd Ed. Chapman
and Hall/CRC, New York, USA.
2 Agresti, A. (2003). An introduction to categorical data analysis. 2nd ed. John
Wiley and Sons, New York, USA
3 Agresti, A. (2002). Categorical data analysis. John Wiley and Sons, New York,
USA.
4 Christensen, R. (1997). Log-linear models and logistic regression. 2nd Edition.
Springer-Verlag, New York, USA.
5 Dobson, A.J., Barnett, A. 2008. An introduction to generalized linear models. 3rd
ed. Chapman and Hall/CRC, New York, USA.
6 Hastie, T.J., Tibshirani, R.J. (1990). Generalized additive models. Chapman and
Hall/CRC, New York, USA.
7 Le, C. (1998). Applied categorical data analysis. John Wiley and Sons, New York,
USA.
8 Stokes, M.E., Davis, C.S., Koch, G.C. (2000). Categorical data analysis using the
SAS system. 2nd Edition. SAS Publishing, USA.
9 Venables, W.N., Ripley, B.D. (1999). Modern applied statistics with S?PLUS.
Springer-Verlag, New York, USA. 6
Contenido I
1 Introducción
Modelo estadı́stico
Modelo lineal
Modelo lineal generalizado
2 Modelos Lineales Generalizados; GLM

Familia exponencial
Ajuste de un modelo lineal generalizado
Introducción
Ya que una observación y es un resultado de un experimento aleatorio,

consideramos a y como el valor, realización, de una variable aleatoria Y .
Su distribución es parcialmente desconocida, depende de parámetros a
estimar. La inferencia estadı́stica nos proporciona métodos para utilizar la
observación y para obtener información acerca de la distribución de y.
Esto significa que el punto de partida del análisis estadı́stico es una clase
de distribuciones de probabilidad, F, parametrizadas por un parámetro θ:
F = {f (y, θ) : θ ∈ Θ}, (1.1)
donde para cada θ fijo, f (y, θ) es una función de densidad de

probabilidad. El conjunto Θ es denominado espacio paramétrico. A la clase
F se le denomina Modelo Estadı́stico Paramétrico o simplemente Modelo
Estadı́stico.
8
Introducción
Ejemplo 1.1
Poisson Suponga que y1 , · · · , yn son variables aleatorias iid Poisson con
media λ. La fdp del vector aleatorio y = (y1 , · · · , yn ) es
n
Y exp(−λ)λyi
f (y, λ) =
yi !
i=1
para y1 , · · · , yn = 0, 1, 2, · · · . Luego el modelo estadı́stico es
F = {f (y, λ) : λ ∈ Θ},
con Θ = {λ : λ > 0}.
9
Introducción
Modelo lineal
Sea y una variable aleatoria, denominada variable de respuesta o variable

dependiente; y suponga que deseamos modelar la relación entre esta
variable de respuesta y un conjunto de otras variables (x1 , . . . , xp ),
denominadas regresores, variables explicativas, covariables, predictores o
variables independientes.
En general, modelamos la relación entre y y x1 , . . . , xp con una función
η(x1 , . . . , xp ). Esta relación no es exacta, ya que se ve afectada por el
ruido aleatorio ϵ. En la práctica, generalmente asumimos errores aditivos y
ası́ obtenemos
y = η(x1 , . . . , xp ) + ϵ.
Nuestro objetivo es estimar la función desconocida η.
Introducción
Modelo lineal
En el marco de los modelos de regresión lineales, se hacen los siguientes

supuestos especı́ficos con respecto a la función desconocida η y el ruido ϵ:
1 El componente sistemático η es una combinación lineal de las
covariables,
η(x1 , . . . , xp ) = β1 x1 + . . . + βp xp
Los parámetros β1 , . . . , βp son desconocidos y deben ser estimados. Si
x1 = 1, el parámetro β1 representa el intercepto. Si combinamos las
covariables y los parámetros desconocidos en vectores p
dimensionales, x = (x1 , . . . , xp )T y β = (β1 , . . . , βp )T , entonces
η(x) = xT β.
2 Errores aditivos. Otro supuesto básico del modelo lineal es la
aditividad de los errores, lo que implica,
y = xT β + ϵ.
Introducción
Modelo lineal
Aunque esto parece ser muy restrictivo, esta suposición es razonable para
muchas aplicaciones. Además, los problemas, que al principio no muestran
una estructura de error aditivo, pueden especificarse mediante modelos con
errores aditivos después de una transformación de la variable de respuesta
y.
Para estimar los parámetros β, recopilamos datos
{(yi , xTi ) = (yi , xi1 , . . . , xip )},
i = 1, . . . , n, y para cada observación tenemos que,
yi = β1 xi1 + . . . + βp xip + ϵi = xTi β + ϵi . (1.2)

Introducción
Modelo lineal
Si definimos los vectores

   
y1 ϵ1
y =  ...  y ϵ =  ... 
   
yn ϵn
y la matriz de diseño X,
xT1
   
x11 . . . x1p
 . . . . .   . 
   
X=  . . . . . .
= ,
  
 . . . . .   . 
xn1 . . . xnp xTn
entonces las n ecuaciones en (1.2) se pueden escribir de forma compacta
como,
y = Xβ + ϵ.
Introducción
Modelo lineal
Asumimos que X tiene rango columna completo, es decir, r(X) = p, lo

que implica que las columnas de X son linealmente independientes.
Un requisito necesario es que el número de observaciones n debe ser al
menos igual (o mayor que) el número de coeficientes de regresión, p.
Esta suposición se viola si una de las covariables es una transformación
lineal de otra, por ejemplo, x1 = a + bx2 .
Dentro del modelo de regresión lineal clásico, se hacen las siguientes
suposiciones para el vector ϵ de errores:
14
Introducción
Modelo lineal
1 Experanza de los errores Los errores tienen media cero, es decir,

E(ϵi ) = 0, i = 1, . . . , n,, o en notación matricial E(ϵ) = 0.
2 Varianzas y estructura de correlación de los errores Asumimos una
varianza de error constante σ 2 a través de las observaciones, es decir,
errores homoscedásticos con Var(ϵi ) = σ 2 . Los errores se denominan
heteroscedásticos cuando las varianzas varı́an entre las observaciones,
es decir, Var(ϵi ) = σi2 .
Además de las varianzas homocedásticas, asumimos que los errores no
están correlacionados, lo que significa que Cov(ϵi , ϵj ) = 0 para i ̸= j.
La suposición de errores homocedásticos y no correlacionados
conduce a la matriz de covarianza Var(ϵ) = E(ϵϵT ) = σ 2 I n .
Introducción
Modelo lineal
3 Supuestos sobre las covariables y la matriz de diseño Distinguimos

entre dos situaciones. Por un lado, las variables explicativas x1 , . . . , xp
pueden ser deterministas o no estocásticas, por ejemplo, como es el
caso de diseño de experimentos. En muchos casos, tanto la respuesta
como las covariables son estocásticas (datos observacionales). En este
caso, las observaciones (yi , xTi ), i = 1, . . . , n, pueden entenderse
como realizaciones de un vector aleatorio (y, xT ), y todos los
supuestos del modelo están condicionados a la matriz de diseño,
como, por ejemplo, E(ϵ|X) = 0 (en lugar de E (ϵ) = 0 o
Cov(ϵ|X) = σ 2 I n (en lugar de Cov(ϵ) = σ 2 I). Esto último implica
que ϵi y xi son independientes. La suposición de que los errores y las
covariables estocásticas son independientes se puede relajar, por
ejemplo, permitiendo que Var(ϵi | xi ) dependa de las covariables, es
decir, Var(ϵi |xi ) = σ 2 (xi ). En cualquier caso, asumimos que la
matriz de diseño tiene rango de columna completo.
Introducción
Modelo lineal
4 Errores gaussianos Para construir intervalos de confianza y pruebas de

hipótesis para los coeficientes de regresión, a menudo suponemos una
distribución normal para los errores.
Junto con los supuestos 1 y 2, obtenemos ϵi ∼ N (0, σ 2 ) o en notación
matricial ϵ ∼ Nn (0, σ 2 I n ), una distribución normal multivariada.
Con covariables estocásticas tenemos ϵi |xi ∼ N (0, σ 2 ) y
ϵ|X ∼ Nn (0, σ 2 I n ), lo que implica que ϵi y xi son independientes.
Para simplificar la notación, generalmente suprimimos la dependencia
de los términos en la matriz de diseño X en el caso de covariables
estocásticas.
17
Introducción
Modelo lineal
Desde los supuestos anteriores sigue que,

E(yi ) = E(xTi β + ϵi ) = xTi β = β1 xi1 + . . . + βp xip
Var(yi ) = Var(xTi β + ϵi ) = Var(ϵi ) = σ 2
Cov(yi , yj ) = Cov(ϵi , ϵj ) = 0
En notación matricial tenemos,
E(y) = Xβ y Cov(y) = σ 2 I n .
Si además asumimos errores normalmente distribuidos, tenemos
y ∼ Nn (Xβ, σ 2 I n ).
Note que las covariables solo afectan la media de y. La varianza σ 2 de yi o
la matriz de covarianza σ 2 I n de y es independiente de las covariables; sin
embargo esta suposición puede ser relajada.
18
Introducción
Modelo lineal
Definición 1.1
Modelo Lineal Clásico El modelo
y = Xβ + ϵ,
se denomina modelo de regresión lineal clásico, si se cumplen las siguientes

suposiciones:
1) E(ϵ) = 0
2) Cov(ϵ) = E(ϵϵT ) = σ 2 I n
3) La matriz de diseño X tiene rango completo, r(X) = p. El modelo de
regresión normal clásico se obtiene si adicionalmente,
4) ϵ ∼ Nn (0, σ 2 I n ) se cumple. Para covariables estocásticas, estos
supuestos deben entenderse condicionalmente a X.
19
Introducción
Modelo lineal
Es decir, el modelo estadı́stico correspondiente al modelo de regresión

lineal, puede ser escrito como,
F = {f (y; β, σ 2 ) : β ∈ Rp , σ 2 > 0}, (1.3)
donde f (y; β, σ 2 ) es la fdp de una ∼ Nn (Xβ, σ 2 I n ), dada por,

h 1 in 1
f (y; β, σ 2 ) = √ exp{− 2 Q(β)}
2πσ 2 2σ
n
Y 1 1
= √ exp{− 2 (yi − xTi β)2 },
2πσ 2 2σ
i=1
donde Q(β) = (y − Xβ)T (y − Xβ) = ni=1 (yi − xTi β)2 , y las variables
P
de respuesta y1 , . . . , yn son independientes tales que yi ∼ N (xTi β, σ 2 ),
i = 1, . . . , n.
20
Introducción
Modelo lineal
Ejemplo 1.2
Algunos ejemplos de modelos de regresición

1) Caso de una muestra. Sea y1 , y2 , . . . , yn una muestra aleatoria desde
una ∼ N (µ, σ 2 ). En este caso tenemos y = Xβ + ϵ, con
X T = (1, . . . , 1), e y ∼ Nn (1µ, σ 2 I n ), con µ = β1 , p = 1
2) Caso de dos muestras independientes. Sea y11 , y21 , . . . , yn1 una
muestra aleatoria desde una ∼ N (µ1 , σ 2 ) e y12 , y22 , . . . , ym2 otra
muestra aleatoria independiente desde una ∼ N (µ2 , σ 2 ). Para este
diseño tenemos y = Xβ + ϵ donde,
y T = (y11 , y21 , . . . , yn1 , y12 , y22 , . . . , ym2 )
y
ϵT = (ϵ11 , ϵ21 , . . . , ϵn1 , ϵ12 , ϵ22 , . . . , ϵm2 )
Introducción
Modelo lineal
y la matriz de diseño,  
1 0

 1 0 


 . . 


 . . 


 . . 

1 0
 
X= ,
 
 0 1 
0 1
 
 

. .

 
 
 . . 
 
 . . 
0 1
una matriz (n + m) × 2, y β T = (µ1 , µ2 ).

22
Introducción
Modelo lineal
3) Caso de muestras pareadas. Las mediciones a menudo se registran en

diferentes conjuntos de condiciones experimentales para ver si las
respuestas difieren significativamente entre estos conjuntos. Por
ejemplo, la eficacia de un nuevo medicamento o de una campaña
publicitaria puede determinarse comparando mediciones antes del
tratamiento (medicamento o publicidad) con aquellas después del
tratamiento.
Sea yi1 la respuesta al tratamiento 1, e yi2 la respuesta al tratamiento
2, para la i−ésima unidad experimental. Es decir, (yi1 , yi2 ) son las
medidas registradas para la i−ésima unidad experimental,
i = 1, . . . , n. Por diseño, las diferencias
di = yi1 − yi2 , i = 1, 2, . . . , n
reflejan los efectos de los tratamientos; y si {di }ni=1 es una muestra
aleatoria desde una ∼ N (δ, σd2 ), podemos proceder como el caso 1)
Introducción
Modelo lineal
4) Modelo de regresión simple. En este caso disponemos de un predictor,

y observamos (yi , xi ), i = 1, 2, . . . , n, y el modelo de regresición
simple está dado por
yi = β1 + β2 xi + ϵi ,
i = 1, 2, . . . , n. La matriz de diseño es
 
1 x1
 1 x2 
 
 . . 
X=  . .
,

 
 . . 
1 xn
una matriz n × 2, y β T = (β1 , β2 ).

24
Introducción
Modelo lineal
4) Modelo de regresión simple. En este caso disponemos de un predictor,

y observamos (yi , xi ), i = 1, 2, . . . , n, y el modelo de regresición
simple está dado por
yi = β1 + β2 xi + ϵi ,
 
1 x1
 1 x2 
 
 . . 
X=  . .
,

 
 . . 
1 xn
una matriz n × 2, y β T = (β1 , β2 ).

25
Introducción
Modelo lineal
5) Modelo de regresión cuadrático. En este caso también disponemos de

un predictor, y observamos (yi , xi ), i = 1, 2, . . . , n, y el modelo de
regresión cuadrático está dado por
yi = β1 + β2 xi + β3 x2i + ϵi ,
1 x1 x21
 
 1 x2 x22 
 
 . . . 
X=  ,
 . . . 

 . . . 
1 xn x2n
una matriz n × 3, y β T = (β1 , β2 , β3 ).

Introducción
Modelo lineal
6) Modelo de regresión con varios predictores. En este caso disponemos

de p predictores (x1 , . . . , xp ), y observamos
(yi , xi1 , xi2 , . . . , xip ), i = 1, 2, . . . , n, y el modelo de regresión está
dado por
yi = β1 xi1 + β2 xi2 + . . . + βp xip + ϵi ,
 
x11 . . . x1p
 . . . . . 
 
X= .  . . . . ,

 . . . . . 
xn1 . . . xnp
una matriz n × p, y β T = (β1 , β2 , . . . , βp ).

Introducción
Modelo lineal
Ejercicio 1.1
Discuta si los siguientes modelos de regresión son lineales.
1) yi = β0 + β1 xi + β2 x2i + ϵi
2) yi = β0 + β1 ( x1i ) + ϵi
3) yi = β0 exp(β1 xi ) + ϵi
4) yi = β0 xβi 1 + ϵi , i = 1, 2, . . . , n
Introducción
Hay dos formas principales en las cuales el modelo de regresión clásico

puede ser inadecuado en una situación práctica dada:
(1) la distribución de la variable dependiente puede no ser normal;
(2) la media de la variable dependiente puede ser una función del
predictor lineal, en lugar de solo el predictor lineal en sı́.
Ejemplo 1.3
Un toxicólogo está investigando la eficacia de un nuevo insecticida y aplica

dosis variables de la toxina a grupos de insectos seleccionados. Sea x la
dosis (generalmente medida en unidades logarı́tmicas) y supongamos que
hay k grupos de insectos, con ni en el grupo i(1 = 1, . . . , k). El i−ésimo
grupo de insectos recibe una dosis xi de la toxina, y yi de los insectos en
este grupo todavı́a están vivos después de un perı́odo fijo de tiempo t.
Introducción
Estamos interesados en hacer inferencias sobre la probabilidad πx de que

un insecto al azar sobreviva al instante t, después de recibir una dosis x de
la toxina.
La variable dependiente aquı́ puede ser y, el número de insectos que
sobreviven, o z = y/N, la proporción de insectos que sobreviven a una
dosis dada de toxina. Sin embargo, ajustar un modelo lineal como
zi (= yi /ni ) = α + βxi + ϵi con ϵi iid N (0, σ 2 ) para i = 1, . . . , k,
serı́a inapropiado por una serie de razones.

Primero, y no es una variable aleatoria con distribución normal sino una
variable aleatoria con distribución binomial (una consecuencia de lo cual es
que la varianza de y tampoco será constante).
30
Introducción
Segundo, al graficar la proporción de insectos que sobreviven en cada

grupo contra la dosis administrada a ese grupo generalmente no produce
una lı́nea recta, sino que generalmente exhibe una forma curva
(tı́picamente sigmoidea, porque la mortalidad tiende a aumentar más
abruptamente en el centro del rango de dosis que en los extremos donde la
dosis es demasiado baja por debajo de un umbral para tener mucho efecto
o tan alta por encima de un segundo umbral que la mayorı́a de los insectos
se mueren automáticamente).
Finalmente, ajustar el modelo anterior, una en lı́nea recta, a menudo
conducirı́a a valores predichos de y fuera de su rango permitido (0, 1).
Introducción
Un modelo mucho más apropiado es suponer que la distribución de yi es

binomial con los parámetros ni y πi for i = 1, . . . , k (donde πi denota πx
en x = xi ), la cual no produce valores predichos de zi fuera del rango
(0, 1), y permite el patrón sigmoidal de la proporción de sobrevivientes.
Una forma de lograr ambos objetivos es establecer πi = Φ (α + βxi )
donde Φ(·) es la función de distribución acumulada de la distribución
normal. Ası́, desde la media µ de la distribución binomial con parámetros
n y π es nπ, tenemos el enlace µ = nΦ(η) entre la media de y y el
predictor lineal η = α + βx en este caso.
Además, ya que Φ(·) solo toma valores entre 0 y 1, valores de z predichos
desde este modelo nunca puede estar fuera de su rango permitido.
Introducción
Figura 1: Funciones de enlace comunes utilizadas con la distribución binomial:

logito, probito y log-log complementaria
33
Introducción
Motivados por este tipo de ejemplos, y para superar las limitaciones (1) y
(2) anteriores, Nelder & Wedderburn (1972) propusieron la clase de
modelos lineales generalizados. Estos modelos superan la limitación (1) al
ser aplicables cuando la variable dependiente proviene de cualquier
distribución en una amplia clase de distribuciones conocida como la familia
exponencial.
Esta familia incluye la mayorı́a de las distribuciones comúnmente
encontradas en situaciones prácticas, por lo que los modelos son
ampliamente aplicables.
La limitación (2) se supera directamente permitiendo que una función
general enlace (ligue) la media variable dependiente y el predictor lineal.
Introducción
Definición 1.2
Modelo Lineal Generalizado Sean yi , i = 1, . . . , n variables de respuesta
que satisfacen las siguientes condiciones,
(i) yi son variables aleatorias independientes con densidad f (yi , β, ϕ) que
pertenecen a la familia exponencial, i = 1, . . . , n,
(ii) Las variables explicativas proporcionan un conjunto de predictores
lineales, ηi = β1 xi1 + β2 xi2 + · · · + βp xip para i = 1, . . . , n,
(iii) El enlace entre (i) y (ii) está dado por g(µi ) = ηi , donde µi es la
media de yi para i = 1, . . . , n; g(·) es denominada función de enlace.
En este caso diremos
Qque el modelo estadı́stico
F = {f (y, β, ϕ) = ni=1 f (yi , β, ϕ) : θ ∈ Rp , ϕ > 0} es un Modelo Lineal
Generalizado.
35
GLM
Familia Exponencial
Definición 2.1
Una variable aleatoria y tiene una distribución perteneciente a la familia
exponencial si su función de densidad de probabilidad (o masa) f (y; θ, ϕ)
se puede escribir en forma canónica como,
f (y; θ, ϕ) = exp{[yθ − b(θ)]/a(ϕ) + c(y, ϕ)}, (2.1)
para algunas funciones conocidas a(·), b(·) y c(·) y parámetros θ y ϕ.

Adicionalmente, el rango R de y no debe incluir ninguno de estos
parámetros.
Si ϕ es conocido entonces la familia se denomina familia exponencial lineal

y θ es el parámetro natural, o canónico. Muy a menudo a(ϕ) es de la
forma aϕ para alguna constante a, o ϕ donde ϕ es σ 2 o 1. En tales
circunstancias ϕ se denomina parámetro de escala o dispersión.
36
GLM
Familia Exponencial
Ya que f (y; θ, ϕ) es una densidad, entonces

Z
exp{[yθ − b(θ)]/a(ϕ) + c(y, ϕ)}dy = 1.
R
Diferenciando ambos lados de esta ecuación con respecto a θ nos queda,
[y − b′ (θ)]
Z
exp{[yθ − b(θ)]/a(ϕ) + c(y, ϕ)}dy = 0,
R a(ϕ)
db(θ)
donde b′ (θ) = . Ya que R no depende de θ, podemos intercambiar la
dθ
derivada con la integral.
37
GLM
Familia Exponencial
Multiplicando por a(ϕ) y reorganizando los términos obtenemos

Z Z
y exp{[yθ−b(θ)]/a(ϕ)+c(y, ϕ)}dy = b′ (θ) exp{[yθ−b(θ)]/a(ϕ)+c(y, ϕ)}dy.
R R
Por lo tanto, se tiene que,
E(y) = b′ (θ). (2.2)

Diferenciando una segunda vez con respecto a θ produce,
b′′ (θ) [y − b′ (θ)]2
Z Z
− exp{[yθ−b(θ)]/a(ϕ)+c(y, ϕ)}dy+ exp{[yθ−b(θ)]/a(ϕ)+c(y, ϕ)}dy = 0,
a(ϕ) R R a2 (ϕ)
d2 b(θ)
donde b′′ (θ) = .
dθ2
38
GLM
Familia Exponencial
En vista de (2.2) se obtiene,
1 b′′ (θ)
Var(y) = ,
a2 (ϕ) a(ϕ)
es decir,
Var(y) = a(ϕ)b′′ (θ). (2.3)
Sea µ = E(y); o sea µ = b′ (θ). Además, ya que b′′ (θ) depende de µ via
b′ (θ) se puede escribir como V (µ); denominada función de varianza del
modelo.
39
GLM
Familia Exponencial
Ejemplo 2.1
Una variable aleatoria y con distribución normal con media µ y varianza
σ 2 tiene densidad
1
exp −(y − µ)2 /2σ 2

f (y) = p
(2πσ 2 )

2
2 1 2 2 2

= exp yµ − µ /2 /σ − y /σ + log 2πσ ,
2
la cual es de la forma (2.1) para θ = µ, ϕ = σ 2 , a(ϕ) = ϕ, b(θ) = θ2 /2,

y c(y, ϕ) = − 21 y 2 /ϕ + log(2πϕ) . Luego b′ (θ) = θ = µ y b′′ (θ) = 1, de
modo que (2.2) y (2.3) da E(y) = µ y Var(y) = ϕ = σ 2 .
40
GLM
Familia Exponencial
Ejemplo 2.2
Una variable aleatoria y con distribución binomial con parámetros n

(número de ensayos) y π (probabilidad de éxito en cada ensayo) tiene
media µ = nπ y varianza σ 2 = nπ(1 − π). La densidad es

n
f (y) = π y (1 − π)n−y
y

n
= (π/[1 − π])y (1 − π)n
y

n
= exp y log(π/[1 − π]) + n log(1 − π) + log
y
la cual es de la forma (2.1) con θ = log(π/(1 − π)).

GLM
Familia Exponencial
Luego π = eθ / 1 + eθ , a(ϕ) = 1 (de modo que podemos tomar a(ϕ) = ϕ

θ
n
para ϕ = 1), b(θ) = n log 1 + e y c(y, ϕ) = log .
y
neθ neθ
Por lo tanto b′ (θ) = = nπ y b′′ (θ) =
2 = nπ(1 − π),
1 + eθ (1 + eθ )
de modo que (2.2) y (2.3) da E(y) = nπ y Var(y) = nπ(1 − π).
42
GLM
Familia Exponencial
Ejemplo 2.3
Una variable aleatoria y con distribución Poisson con parámetro λ tiene
media µ = λ y varianza σ 2 = λ. La densidad es
λy −λ
f (y) = e
y!
= exp{y log λ − λ − log y!},
la cual es de la forma (2.1) con θ = log λ, a(ϕ) = 1 (y podemos tomar de

nuevo a(ϕ) = ϕpara ϕ = 1), b(θ) = eθ y c(y, ϕ) = − log y!.
Por lo tanto, b′ (θ) = eθ = λ y b′′ (θ) = eθ = λ, de modo que (2.2) y (2.3)
da E(Y ) = λ y Var(Y ) = λ.
43
GLM
Ajuste del modelo
Como ya vimos un GLM tiene las siguientes caracterı́sticas:
(i) yi , i = 1, . . . , n son variables aleatorias independientes con densidad

perteneciente a la familia exponencial,
(ii) Las variables explicativas proporcionan un predictor lineal,

ηi = β1 xi1 + β2 xi2 + · · · + βp xip para i = 1, . . . , n, y
(iii) El enlace entre (i) y (ii) está dado por g(µi ) = ηi , donde µi es la
media de yi para i = 1, . . . , n; g(·) es una función de enlace.
Las dos extensiones del modelo de regresión lineal que caracterizan el GLM
son i) su aplicabilidad a cualquier miembro de la familia exponencial, y ii)
la existencia de una función de enlace para ligar el predictor lineal η con la
media, µ, de la variable de respuesta, y.
44
GLM
Ajuste del modelo
Por supuesto, en la práctica debemos elegir la función de enlace (la que

genere un modelo razonable). Sin embargo, se producen algunas
simplificacines si la función de enlace elegida es la misma que la función
que define el parámetro canónico de la distribución. Esta función de enlace
se denomina enlace canónico. Los enlaces canónicos para algunas
distribuciones comunes son los siguientes,
(i) distribución binomial, enlace logito, g(µ) = log{µ/(n − µ)}
(ii) distribución Poisson, enlace log g(µ) = log µ
(iii) distribución normal, enlace identidad g(µ) = µ
(iv) distribución gamma, enlace reciproco g(µ) = 1/µ
(v) distribución normal inversa, enlace cuadrado inverso g(µ) = 1/µ2
Estas son las funciones de enlace más utilizadas en la práctica.
45
GLM
Ajuste del modelo
Ejemplo 2.4
El modelo sugerido en la segunda parte del Ejemplo 1.3 satisface los
requisitos de un modelo lineal generalizado.
Primero, la distribución binomial es un miembro de la familia exponencial.
En segundo lugar, el predictor lineal es α + βxi , donde xi es la dosis de
toxina aplicada al i−ésimo grupo de insectos.
Tercero, el modelo especificado por el parámetro binomial es
πi = Φ (α + βxi ) .
Ahora si yi es la cantidad de insectos que sobreviven a la i−ésima dosis,
entonces la media de yi es µi = ni πi .
46
GLM
Ajuste del modelo
Por lo tanto, este modelo puede re-expresarse como µi = ni Φ(α + βxi ),

de modo que el predictor lineal α + βxi es igual a Φ−1 (µi /ni ). Luego, la
función de enlace está dada por g(µi ) = Φ−1 (µi /ni ).
Tenga en cuenta que en lugar de modelar la relación sigmoidal entre la
proporción de supervivientes y la dosis mediante la función de distribución
normal acumulativa, podrı́amos haber utilizado la función de distribución
acumulada de cualquier otra variable aleatoria adecuada.
Eligiendo una distribución logı́stica, obtendrı́amos la función de enlace
µ
i
g(µi ) = log .
ni − µ i
Re-expresando esta función en términos de πi en vez de µi , tenemos
π
i
g(πi ) = log .
1 − πi
47
GLM
Ajuste del modelo
Al mostrar que la distribución binomial era un miembro de la familia

exponencial en el Ejemplo 2.2 encontramos que el parámetro canónico esta
dado por
θ = log(π/(1 − π)),
la cual establece que la función de enlace obtenida de la distribución
logı́stica es, de hecho, el enlace canónico.
Ella se conoce como el enlace logito y es la función de enlace más popular
para dichos datos.
References
Hocking, R.R. (2013). Methods and Applications of Linear Models: Regression

and the Analysis of Variance, 3rd Edition. New York. John Wiley
Nelder, J.A. y Wedderburn, R.W.M. (1972). Generalized linear models. Journal of
the Royal Statistical Society, Series A, 135, 370–384.
Seber, G.A.F. and Lee, A. (2003). Linear Regression Analysis, Second Edition.
New York. John Wiley
Weisberg, S. (2013). Applied Linear Regression, Fourth Edition. New York. John
Wiley
49

GMLDiapo 01

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

GMLDiapo 01

Cargado por

Copyright:

Formatos disponibles

EYP3307 Modelos Lineales Generalizados

Primer Semestre 2023

(Departamento de Estadı́stica UC) EYG3307 1 / 50

1 Identificar las restricciones asociadas a los modelos lineales

1 Herramientas Basicas: Familia exponencial e inferencia.

5 Modelos Log-Lineales: Tablas de contingencia de dos, tres y mas

2 Modelos Lineales Generalizados; GLM

Ya que una observación y es un resultado de un experimento aleatorio,

F = {f (y, θ) : θ ∈ Θ}, (1.1)

donde para cada θ fijo, f (y, θ) es una función de densidad de

para y1 , · · · , yn = 0, 1, 2, · · · . Luego el modelo estadı́stico es

con Θ = {λ : λ > 0}.

Sea y una variable aleatoria, denominada variable de respuesta o variable

En el marco de los modelos de regresión lineales, se hacen los siguientes

{(yi , xTi ) = (yi , xi1 , . . . , xip )},

i = 1, . . . , n, y para cada observación tenemos que,

yi = β1 xi1 + . . . + βp xip + ϵi = xTi β + ϵi . (1.2)

Si definimos los vectores

Asumimos que X tiene rango columna completo, es decir, r(X) = p, lo

1 Experanza de los errores Los errores tienen media cero, es decir,

3 Supuestos sobre las covariables y la matriz de diseño Distinguimos

4 Errores gaussianos Para construir intervalos de confianza y pruebas de

Desde los supuestos anteriores sigue que,

se denomina modelo de regresión lineal clásico, si se cumplen las siguientes

Es decir, el modelo estadı́stico correspondiente al modelo de regresión

F = {f (y; β, σ 2 ) : β ∈ Rp , σ 2 > 0}, (1.3)

donde f (y; β, σ 2 ) es la fdp de una ∼ Nn (Xβ, σ 2 I n ), dada por,

Algunos ejemplos de modelos de regresición

y T = (y11 , y21 , . . . , yn1 , y12 , y22 , . . . , ym2 )

una matriz (n + m) × 2, y β T = (µ1 , µ2 ).

3) Caso de muestras pareadas. Las mediciones a menudo se registran en

4) Modelo de regresión simple. En este caso disponemos de un predictor,

una matriz n × 2, y β T = (β1 , β2 ).

4) Modelo de regresión simple. En este caso disponemos de un predictor,

una matriz n × 2, y β T = (β1 , β2 ).

5) Modelo de regresión cuadrático. En este caso también disponemos de

una matriz n × 3, y β T = (β1 , β2 , β3 ).

6) Modelo de regresión con varios predictores. En este caso disponemos

una matriz n × p, y β T = (β1 , β2 , . . . , βp ).

Hay dos formas principales en las cuales el modelo de regresión clásico

Un toxicólogo está investigando la eficacia de un nuevo insecticida y aplica

Estamos interesados en hacer inferencias sobre la probabilidad πx de que

zi (= yi /ni ) = α + βxi + ϵi con ϵi iid N (0, σ 2 ) para i = 1, . . . , k,

serı́a inapropiado por una serie de razones.

Segundo, al graficar la proporción de insectos que sobreviven en cada

Un modelo mucho más apropiado es suponer que la distribución de yi es

Figura 1: Funciones de enlace comunes utilizadas con la distribución binomial:

f (y; θ, ϕ) = exp{[yθ − b(θ)]/a(ϕ) + c(y, ϕ)}, (2.1)

para algunas funciones conocidas a(·), b(·) y c(·) y parámetros θ y ϕ.

Si ϕ es conocido entonces la familia se denomina familia exponencial lineal

Ya que f (y; θ, ϕ) es una densidad, entonces

Diferenciando ambos lados de esta ecuación con respecto a θ nos queda,

Multiplicando por a(ϕ) y reorganizando los términos obtenemos

Por lo tanto, se tiene que,

E(y) = b′ (θ). (2.2)

En vista de (2.2) se obtiene,

la cual es de la forma (2.1) para θ = µ, ϕ = σ 2 , a(ϕ) = ϕ, b(θ) = θ2 /2,

Una variable aleatoria y con distribución binomial con parámetros n

la cual es de la forma (2.1) con θ = log(π/(1 − π)).

Luego π = eθ / 1 + eθ , a(ϕ) = 1 (de modo que podemos tomar a(ϕ) = ϕ

la cual es de la forma (2.1) con θ = log λ, a(ϕ) = 1 (y podemos tomar de

Como ya vimos un GLM tiene las siguientes caracterı́sticas: