Modelo Lineal Generalizado PDF

MODELO LINEAL GENERALIZADO
¿Qué son, para qué sirven y porqué se aplican los Modelos

Lineales Generalizados?
Si bien, el Modelo de Regresión Lineal es considerado un caso específico de los

MLG para variables continuas, los MLG, permiten que la variable Y se distribuya de
manera diferente a una distribución normal, lo cual es importante cuando las
variables bajo estudio incluyen datos categóricos. De esta forma, el MLG, se apoya
en una función de enlace (Función Link) que relaciona la variable Independiente (Y)
con los factores y las covariables.
Estos modelos, incluyen:

 La regresión lineal cuando las variables se distribuyen como una normal;
 Modelos logísticos para datos binarios
 Modelos loglineales para datos de recuento
 Modelos log-log complementario para datos de supervivencia censurados por
intervalos.
Se puede predecir el comportamiento de una variable con base en el

comportamiento de otras?
Las técnicas del MLG y del MRL, estiman los parámetros del
modelo que optimiza el ajuste del modelo.
Por un lado, el MRL minimiza la suma de los errores al cuadrado

para obtener estimaciones de máxima verosimilitud de los
parámetros y por otro, los MLG hacen estimaciones con base en la
máxima verosimilitud de los parámetros empleando un algoritmo
iterativo de mínimos cuadrados reponderados.
Los MLG se consideran una extensión de los modelos lineales,

mediante los cuales se pueden analizar distribuciones no
normales de los errores (binomiales, Poisson, gamma, entre otras)
y varianzas no constantes; es decir, son una alternativa para la
transformación de la variable dependiente debido a la falta de
normalidad.
Emplearemos un MLG, cuando la variable dependiente es:
 Un variable de conteo (número de choques, accidentes,

viviendas destruidas, derrames, fugas, etc.)
 Un variable de conteo de casos, expresados como

proporciones (ejemplo; porcentaje de heridos graves en
accidentes, porcentaje de incidentes delictivos, porcentaje
de embarazos ocurridos en adolescentes, etc.)
 Una variable establecida como binaria (ejemplo: vivo o

muerto, hombre mujer, si o no , joven o viejo, etc.)
Casos en los que se aplica el MLG, dado que la Varianza no es
Constante:
El supuesto central del MRL, que establece que la varianza es

constante. Cuando se varía el valor de la media, la varianza se
mantiene constante:
Constante:
Cuando las variables de conteo representan a la variable

dependiente, expresada en números enteros y con un alto número
de casos ceros en los datos, el comportamiento de la varianza
representa un incremento lineal con la media.
Constante:
Cuando la variable explicada se refiere a proporciones de eventos,

la varianza puede comportarse como una U inversa.
Constante:
Cuando la variable dependiente se aproxima a una distribución

Gamma, la varianza se incrementa de una manera no lineal con
respecto a la media.
El Modelo Lineal Generalizado, está conformado por tres
componentes:
Aleatoria: Identifica la variable respuesta y su distribución de

probabilidad.
Sistemática: Especifica las variables explicativas

(independientes o
predictoras) utilizadas en la función predictora lineal.
Función de enlace (link o vínculo): Es una función del valor

esperado de Y, E(Y), como una combinación lineal de las
variables predictoras.
Componente aleatoria
Es una variable aleatoria Y con observaciones independientes

(y1,...,yN).
En algunos casos, las observaciones de Y son binarias,

representadas como éxito y fracaso; indicando al final el número de
éxitos ocurridos en un determinado número fijo de ensayos, y se
modeliza como una distribución binomial.
En otro caso, cuando las observaciones representan un recuento,

se asocia a la variable Y con una distribución de Poisson o una
distribución binomial negativa.
Componente Sistemática
Se refiere a las variables explicativas, que forman parte del modelo

lineal; es decir, las variables xj descritas como
α + β1x1 + ••• +βkxk
La combinación lineal de variables explicativas, también se le conoce

como predictor lineal. En términos matriciales se expresa como un
vector (η1,..., ηN ) tal que
ே
η݅ = ෍ ߚ݆‫݆݅ݔ‬
௜
donde ‫ ݆݅ݔ‬es el valor del j-ésimo predictor en el i-ésimo individuo,
donde i=1,...,N. El término independiente α se obtiene con esta
notación haciendo que todos los ‫ ݆݅ݔ‬sean igual a 1 para todos los i.
Función link
Corresponde al valor esperado de Y como µ=E(Y), entonces la función

link especifica una función g(•) que relaciona µ con el predictor lineal
como
g(µ) = α + β1x1 + ••• +βkxk
De esta forma, la función link g(•) relaciona a las componentes

aleatoria y sistemática. De este modo, para i = 1,...,N,
µi=E(Yi)
ே
η݅ = g(µi) = ෍ ߚ݆‫݆݅ݔ‬
௜
La función g más simple es g(µ) = µ, esto es, la identidad que da lugar
al modelo de regresión lineal clásico
µ=E(Y)= α + β1x1 + ••• +βkxk
Los modelos lineales generalizados apoyan la unificación de una
amplia variedad de métodos estadísticos como la regresión, los
modelos ANOVA y los modelos de datos categóricos.
En realidad se usa el mismo algoritmo para obtener los estimadores de

máxima verosimilitud en todos los casos.
Modelos lineales Generalizados para datos binarios
En los casos en que las respuestas de los individuos, registran

respuesta de tipo sí/no, de modo que se puede definir una variable Y
que toma dos posibles valores 1 (éxito) y 0 (fracaso), es decir
Y∼ Bin(1,ߨ). En este caso
݂ (y|ܲ) = ߨy(1− ܲ)1−y
௉ y
= (1− ܲ) ( )
ଵି௉
௉
= (1− ܲ) exp[y log( )]
ଵି௉
Donde y = 0, 1
El parámetro natural es
௉
ܳ(ܲ) = log = logit (ܲ)
ଵି௉
De tal forma que

E(Y) = P(Y=1) = ܲ(‫)ݔ‬
dependiente de p variables explicativas x = (‫ ݔ‬1,..., ‫ ݔ‬p) y
Var(Y) = ܲ(‫()ݔ‬1− ܲ(‫))ݔ‬
En respuestas binarias, un modelo análogo al de regresión lineal

es:
ܲ(‫ = )ݔ‬α + β ‫ݔ‬
A este modelo se le conoce como modelo de probabilidad lineal, ya
que la probabilidad de éxito cambia linealmente con respecto a x.
En este caso, el parámetro β, representa el cambio en probabilidad por

unidad de x.
A este modelo se le clasifica como un modelo lineal generalizado con

un componente aleatorio binomial y con función de enlace (link)
igual a la identidad.
Este modelo puede presentar problemas, tal que a pesar de que las
probabilidades se registran entre 0 y 1, el modelo puede predecir
valores ܲ(‫ > )ݔ‬1 y ܲ(‫ < )ݔ‬0.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
La regresión logística binaria se caracteriza por disponer de una
variable dependiente cualitativa con dos valores (categorías o
grupos) que configuran la presencia y la ausencia de una determinada
característica.
Por ejemplo, la ciudadanía que en un proceso electoral se abstiene de

votar y la ciudadanía que no se abstiene; los que votaron a favor del
candidato ganador y los que no votaron por él; los consumidores que
compran un producto y los que no; las personas que tras cumplir su
condena por un delito reinciden y las que no reinciden; las personas
que tienen un riesgo contraer una enfermedad y las que no; las que
devolverán un préstamo y las que no; entre otros casos.
En este sentido, la variable dependiente espera ser explicada con
base en una o más variables independientes, las cuales determinan
en qué se diferencian los dos grupos.
En caso de utilizar solamente una variable independiente se aplicará

un análisis de regresión logística simple, mientras que si
consideramos más dos o más variables independientes, entonces el
modelo será de regresión logística múltiple.
Para el caso de la regresión logística, las variables independientes se
denominan como covariables o factores, según sea el caso,
covariables si las variables independientes son continuas y factores si
las variables independientes son discretas.
Como resultado del análisis, en primer lugar, se obtienen unos pesos o

coeficientes que nos miden la importancia de cada variable
independiente para diferenciar los grupos, y en segundo lugar, se
obtienen criterios para pronosticar la clasificación de los individuos o
casos.
En los casos en que la variable dependiente registra valores entre 0 y
1, y se aplicara un análisis de Regresión Lineal, los valores estimados
(predichos) podrían ser menores a 0 o superiores a 1, lo cual sería un
error, ya que caería fuera del rango de valores de la variable
dependiente.
En este caso la regresión logística es la mejor opción para atender

este tipo de casos, empleando una función No Lineal como la función
logística; ya que ésta, se emplea para estimar valores comprendidos
entre un mínimo y un máximo. Así mismo, la regresión logística, se
basa en el método de máxima verosimilitud, que realiza una serie de
iteraciones en fases sucesivas para encontrar el mejor ajuste del
modelo.
La formulación matemática de la curva logística en el caso de la
regresión logística binaria simple es:
݁ ఈାఉ௫
‫ ݎܲ = ݕ‬y = 1|‫= ݔ‬
1 + ݁ ఈାఉ௫
De manera equivalente se tiene:
1
‫ ݎܲ = ݕ‬y = 1|‫= ݔ‬
1 + ݁ ି(ఈାఉ௫)
En este caso, se refiere a la probabilidad de que la variable

dependiente ‫ ݕ‬tome el valor de 1 (característica de interés) con base
en la variable independiente x.
De manera gráfica, la función logística, se representa como una curva
ଵ
sigmoidea del tipo ‫= ݔ ݂ = ݕ‬ ష(ೣ) ଵା௘
1.0
Probabilidad y=1
0.5
0.0
X
La curva logística, cumple con las siguientes propiedades:
 Los valores estimados oscilan entre 0 y 1, 0 < ݂ ‫ < ݔ‬1, lo que

permite interpretarla en términos de probabilidad.
ଵ
 Su límite inferior es el valor 0 : lim =0
௫→ஶ ଵା௘ ష(ೣ)
ଵ
 Su límite superior es el valor 1 : lim =1
௫→ஶ ଵା௘ ష(ೣ)
 Cuando la variable ‫ ݔ‬toma un valor de 0, la función toma un

ଵ ଵ
valor de ½: ݂ 0 = ష(బ) =
ଵା௘ ଶ
Con base en la ecuación de la función logística, se generan valores de
la variable dependiente asociados a la variable independiente, bajo el
mismo criterio de la regresión lineal.
La interpretación es similar, solamente que en este caso los valores de

la variable dependiente estarán en el intervalo (0, 1), permitiendo con
ello interpretar los resultados en términos de probabilidad.
Para generar el modelo de regresión logística binaria, se deben
considerar dos aspectos importantes de la variable Y, que son
excluyente y exhaustivo, dado que se codifican con valores 0 y 1.
En el primer caso, la probabilidad de que ocurra uno de ellos es P y en
el segundo caso, la probabilidad de que no ocurra es 1 meno la
probabilidad de P.
ܲ‫ ݎ‬y = 1 = ܲ
ܲ‫ ݎ‬y = 0 = 1 − ܲ
Seguido de esto, se deben identificar la o las variables que integrarán

el modelo, permitiendo pronosticar la probabilidad de la variable
dependiente.
En un modelo de regresión logística binaria simple, la ecuación
logística se expresa como:
1
ܲ‫ ݎ‬y = 1 = =ܲ
1 + ݁ ି(ఈାఉ௫)
y por consiguiente:
1
ܲ‫ ݎ‬y = 0 = 1 − =1−ܲ
1 + ݁ ି ఈାఉ௫
De manera gráfica se identificará la procedencia de los coeficientes α y
β, donde α representa la posición de la curva sobre el eje horizontal o
de abscisas, y sitúa la curva más hacia la derecha o hacia la izquierda;
y el coeficiente β, representa la pendiente de la curva en su punto de
inflexión, en función de su valor más alto o más bajo tendremos una
pendiente de la curva con mayor o menor inclinación.
1.0
ŷ = ߙ + ߚ‫ݔ‬
݉
Probabilidad y=1
0.5
ߚ = ‫)݉(݃݊ܽݐ‬
0.0
0 1 2 3 4 5
ߙ 6 7 8 9 10
X
Se pueden se pueden presentar una serie de curvas que van a variar en función de
los valores que tomen α y β. De esta forma, la variación de la pendiente en el
modelo, estará asociada a la capacidad de discriminación de la variable y; por lo que
se considera que una variable x adecuada, dependerá del valor de la pendiente de
la curva; es decir, cuando el valor β es alto; si β es cercano a 0, su nivel de
aportación en el modelo se reducirá; el objetivo del análisis de regresión logística
consiste en encontrar las variables con el mayor coeficiente asociado.
1.0
Probabilidad y=1
α = 0, β = 2
α = 0, β = 1
0.5
α = 0, β = 0.5
α = 0, β = 0.3
0.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
X
La interpretación de los coeficientes de la regresión logística difiere
del caso de la regresión lineal.
En este caso, el coeficiente β no es la medida de cuánto variará la

variable dependiente ante una variación en una unidad de x, sino el
cambio producido por una variación de una unidad de x en el
logaritmo neperiano (log) del cociente de probabilidades de los
dos sucesos, lo que se conoce como la denominada
transformación logit.
La transformación logit surge de considerar la relación o el cociente

de probabilidad entre dos sucesos, llamada ventaja o razón (como
traducción de la expresión inglesa odds). La razón de un suceso es el
cociente entre la probabilidad de que éste suceda y la probabilidad de
que no suceda:
X
El odds (razón) de un suceso es el cociente entre la probabilidad de
que éste suceda y la probabilidad de que no suceda:
ࡼ ܲ‫݋ݏ݁ܿݑݏ ݊ݑ ܽݎݎݑܿ݋ ݁ݑݍ ݁݀ ݈ܾܾ݀ܽ݀݅݅ܽ݋ݎ‬

࢕ࢊࢊ࢙ = =
૚ − ࡼ ܲ‫݋ݏ݁ܿݑݏ ݊ݑ ܽݎݎݑܿ݋ ݋ܰ ݁ݑݍ ݁݀ ݈ܾܾ݀ܽ݀݅݅ܽ݋ݎ‬
Por ejemplo:
En el caso de considerar la participación de la población en las
elecciones pasadas, si el 75% de la población votó, la probabilidad es
del 0.75, entonces el 25% se abstuvo; por lo tanto el odds es de 3, o
lo que es igual una razón de 3 a 1.
ࡼ ૙.ૠ૞
૚ିࡼ
= ૙.૛૞
=3
De manera inversa, se transforman la razón a probabilidad.
௢ௗௗ௦ ଴.଻ହ
P= =
௢ௗௗ௦ାଵ
=3
଴.ଶହ
Se debe identificar que de las dos formas, se cuantifica la probabilidad
de que ocurra un suceso, el riesgo relativo resulta del cociente de
probabilidades de un suceso en las dos condiciones de ocurrencia.
Dado que el odss ratio (razón de razones de probabilidad)es el

cociente de dos odds, cuando se presentan dos casos con dos
posibilidades será el cociente de ambos.
Por ejemplo:
En el caso de participación en dos municipios A y B, donde en el
municipio A votó el 80% y en el municipio B votó el 50%, entonces el
odds ratio será igual a 4.
బ.ఴబ
௢ௗௗ௦ ஺ ସ
odds ratio =
௢ௗௗ௦ ஻
= బ.మ
బ.ఱ = =4
ଵ
బ.ఱ
De lo discutido anteriormente donde
1
ܲ‫ ݎ‬y = 1 = =ܲ
1 + ݁ ି(ఈାఉ௫)
y
1
ܲ‫ ݎ‬y = 0 = 1 − =1−ܲ
1+ ݁ ି ఈାఉ௫
Se tiene que
1
ܲ‫ ݎ‬y = 1 1 + ݁ ି(௔ା௕௫) ܲ
= =
ܲ‫ ݎ‬y = 0 1 1+ܲ
1−
1 + ݁ ି ఈାఉ௫
y de manera simplificada se obtiene:

ܲ‫ ݎ‬y = 1 ܲ
= = ݁ ఈାఉ௫
ܲ‫ ݎ‬y = 0 1+ܲ
௉
Gráficamente, tenemos que = ݁ ఈାఉ௫ se comporta como:
ଵା௉
1.0
Razón de Probabilidad ଵା௉
௉
0.5
0.0
0 1 2 3 4 5 6 7 8 9 10
X
௉
Al aplicar una transformación logarítmica a la expresión = ݁ ఈାఉ௫ ,
ଵା௉
se obtiene la transformación logit, la cual apoya la identificación del
௉
modelo en forma lineal y aditiva log = log(݁ ఈାఉ௫ ) = ߙ + ߚ‫ ݔ‬,
ଵା௉
comportándose como:
)
4
ଵା௉
௉
Log(Razón de Probabilidad
0
-4
0 1 2 3 4 5 6 7 8 9 10
X
De lo anterior se desprende que el coeficiente de regresión logística β,
explica el cambio generado en la transformación logit, mediante el
logaritmo de la razón de un suceso (del cociente de probabilidades),
por cada cambio unitario que se produce en la variable
independiente.
Como en el modelo de regresión lineal, realizamos estimaciones de

parámetros poblacionales y éstos están afectados por un error de
estimación. En el modelo de regresión lineal se asume que los
errores estándar de cada coeficiente siguen una distribución normal
de media 0 y varianza constante (supuesto de homoscedasticidad).
En el caso de la regresión logística el error sigue una distribución

binomial, con media y varianza, proporcionales al tamaño muestral
y a Pr(y=1|x).
Los coeficientes de la ecuación de regresión logística y sus
correspondientes errores se obtienen mediante estimaciones de
máxima verosimilitud que maximizan la probabilidad de obtener los
valores de la variable dependiente. Estas estimaciones requieren
seguir algoritmos iterativos como el método iterativo de Newton-
Raphson.
BIBLIOGRAFÍA
• Ang Alkfredo H-S, Teng Wilson H. Probability Concepts in engineering Planning and Design. Volumen I.
Basic Principles. John Wiley & Sons
• Jornadas de Educación Matemática de la Comunidad Valenciana
• Gujarati, Damodar. Econometría , Segunda edición. Editorial Mc Graw Hill. Bogotá, 1990.
• Lomax W. R., Saul A.J. Laboratory Work in Hydraulics. Bolton Institute of Technology. Great Britain 1979.
• Laboratory Work in Hydraulics
• López-Roldán, P.; Fachelli, S. (2015). Análisis de regresión logística. En P. López-Roldán y S.
Fachelli, Metodología de la Investigación Social Cuantitativa. Bellaterra (Cerdanyola del Vallès): Dipòsit
Digital de Documents, Universitat Autònoma de Barcelona. Capítulo III.10. 1ª edición. Edición
digital: http://ddd.uab.cat/record/163570
• Ríus, Barón, Sánchez, & Parras, Tercera Edición, Bioestadística: Métodos y Aplicaciones. Universidad de
Málaga. Publicaciones. España. 1999 (también consulta virtual en:
http://virtual.uptc.edu.co/ova/estadistica/docs/libros/ftp.bioestadistica.uma.es/libro/, y electrónica en:
https://www.bioestadistica.uma.es/baron/bioestadistica.pdf o en
http://fcm.ens.uabc.mx/~chelo/estadistica/doc-pdf/bioestadistica.pdf)

Modelo Lineal Generalizado PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelo Lineal Generalizado PDF

Cargado por

Copyright:

Formatos disponibles

MODELO LINEAL GENERALIZADO

¿Qué son, para qué sirven y porqué se aplican los Modelos

Si bien, el Modelo de Regresión Lineal es considerado un caso específico de los

Estos modelos, incluyen:

Se puede predecir el comportamiento de una variable con base en el

Por un lado, el MRL minimiza la suma de los errores al cuadrado

Los MLG se consideran una extensión de los modelos lineales,

 Un variable de conteo (número de choques, accidentes,

 Un variable de conteo de casos, expresados como

 Una variable establecida como binaria (ejemplo: vivo o

El supuesto central del MRL, que establece que la varianza es

Cuando las variables de conteo representan a la variable

Cuando la variable explicada se refiere a proporciones de eventos,

Cuando la variable dependiente se aproxima a una distribución

Aleatoria: Identifica la variable respuesta y su distribución de

Sistemática: Especifica las variables explicativas

Función de enlace (link o vínculo): Es una función del valor

Es una variable aleatoria Y con observaciones independientes

En algunos casos, las observaciones de Y son binarias,

En otro caso, cuando las observaciones representan un recuento,

Se refiere a las variables explicativas, que forman parte del modelo

α + β1x1 + ••• +βkxk

La combinación lineal de variables explicativas, también se le conoce

Corresponde al valor esperado de Y como µ=E(Y), entonces la función

De esta forma, la función link g(•) relaciona a las componentes

En realidad se usa el mismo algoritmo para obtener los estimadores de

En los casos en que las respuestas de los individuos, registran

De tal forma que

dependiente de p variables explicativas x = (‫ ݔ‬1,..., ‫ ݔ‬p) y

Var(Y) = ܲ(‫()ݔ‬1− ܲ(‫))ݔ‬

En respuestas binarias, un modelo análogo al de regresión lineal

En este caso, el parámetro β, representa el cambio en probabilidad por

A este modelo se le clasifica como un modelo lineal generalizado con

Por ejemplo, la ciudadanía que en un proceso electoral se abstiene de

En caso de utilizar solamente una variable independiente se aplicará

Como resultado del análisis, en primer lugar, se obtienen unos pesos o

En este caso la regresión logística es la mejor opción para atender

En este caso, se refiere a la probabilidad de que la variable

 Los valores estimados oscilan entre 0 y 1, 0 < ݂ ‫ < ݔ‬1, lo que

 Cuando la variable ‫ ݔ‬toma un valor de 0, la función toma un

La interpretación es similar, solamente que en este caso los valores de

Seguido de esto, se deben identificar la o las variables que integrarán

En este caso, el coeficiente β no es la medida de cuánto variará la

La transformación logit surge de considerar la relación o el cociente

ࡼ ܲ‫݋ݏ݁ܿݑݏ ݊ݑ ܽݎݎݑܿ݋ ݁ݑݍ ݁݀ ݈ܾܾ݀ܽ݀݅݅ܽ݋ݎ‬

Dado que el odss ratio (razón de razones de probabilidad)es el

y de manera simplificada se obtiene:

Como en el modelo de regresión lineal, realizamos estimaciones de

En el caso de la regresión logística el error sigue una distribución

También podría gustarte