Está en la página 1de 36

MODELO LINEAL GENERALIZADO

¿Qué son, para qué sirven y porqué se aplican los Modelos


Lineales Generalizados?

Si bien, el Modelo de Regresión Lineal es considerado un caso específico de los


MLG para variables continuas, los MLG, permiten que la variable Y se distribuya de
manera diferente a una distribución normal, lo cual es importante cuando las
variables bajo estudio incluyen datos categóricos. De esta forma, el MLG, se apoya
en una función de enlace (Función Link) que relaciona la variable Independiente (Y)
con los factores y las covariables.

Estos modelos, incluyen:


 La regresión lineal cuando las variables se distribuyen como una normal;
 Modelos logísticos para datos binarios
 Modelos loglineales para datos de recuento
 Modelos log-log complementario para datos de supervivencia censurados por
intervalos.

Se puede predecir el comportamiento de una variable con base en el


comportamiento de otras?
MODELO LINEAL GENERALIZADO
Las técnicas del MLG y del MRL, estiman los parámetros del
modelo que optimiza el ajuste del modelo.

Por un lado, el MRL minimiza la suma de los errores al cuadrado


para obtener estimaciones de máxima verosimilitud de los
parámetros y por otro, los MLG hacen estimaciones con base en la
máxima verosimilitud de los parámetros empleando un algoritmo
iterativo de mínimos cuadrados reponderados.

Los MLG se consideran una extensión de los modelos lineales,


mediante los cuales se pueden analizar distribuciones no
normales de los errores (binomiales, Poisson, gamma, entre otras)
y varianzas no constantes; es decir, son una alternativa para la
transformación de la variable dependiente debido a la falta de
normalidad.
MODELO LINEAL GENERALIZADO
Emplearemos un MLG, cuando la variable dependiente es:

 Un variable de conteo (número de choques, accidentes,


viviendas destruidas, derrames, fugas, etc.)

 Un variable de conteo de casos, expresados como


proporciones (ejemplo; porcentaje de heridos graves en
accidentes, porcentaje de incidentes delictivos, porcentaje
de embarazos ocurridos en adolescentes, etc.)

 Una variable establecida como binaria (ejemplo: vivo o


muerto, hombre mujer, si o no , joven o viejo, etc.)
MODELO LINEAL GENERALIZADO
Casos en los que se aplica el MLG, dado que la Varianza no es
Constante:

El supuesto central del MRL, que establece que la varianza es


constante. Cuando se varía el valor de la media, la varianza se
mantiene constante:
MODELO LINEAL GENERALIZADO
Casos en los que se aplica el MLG, dado que la Varianza no es
Constante:

Cuando las variables de conteo representan a la variable


dependiente, expresada en números enteros y con un alto número
de casos ceros en los datos, el comportamiento de la varianza
representa un incremento lineal con la media.
MODELO LINEAL GENERALIZADO
Casos en los que se aplica el MLG, dado que la Varianza no es
Constante:

Cuando la variable explicada se refiere a proporciones de eventos,


la varianza puede comportarse como una U inversa.
MODELO LINEAL GENERALIZADO
Casos en los que se aplica el MLG, dado que la Varianza no es
Constante:

Cuando la variable dependiente se aproxima a una distribución


Gamma, la varianza se incrementa de una manera no lineal con
respecto a la media.
MODELO LINEAL GENERALIZADO
El Modelo Lineal Generalizado, está conformado por tres
componentes:

Aleatoria: Identifica la variable respuesta y su distribución de


probabilidad.

Sistemática: Especifica las variables explicativas


(independientes o
predictoras) utilizadas en la función predictora lineal.

Función de enlace (link o vínculo): Es una función del valor


esperado de Y, E(Y), como una combinación lineal de las
variables predictoras.
MODELO LINEAL GENERALIZADO
Componente aleatoria

Es una variable aleatoria Y con observaciones independientes


(y1,...,yN).

En algunos casos, las observaciones de Y son binarias,


representadas como éxito y fracaso; indicando al final el número de
éxitos ocurridos en un determinado número fijo de ensayos, y se
modeliza como una distribución binomial.

En otro caso, cuando las observaciones representan un recuento,


se asocia a la variable Y con una distribución de Poisson o una
distribución binomial negativa.
MODELO LINEAL GENERALIZADO
Componente Sistemática

Se refiere a las variables explicativas, que forman parte del modelo


lineal; es decir, las variables xj descritas como

α + β1x1 + ••• +βkxk

La combinación lineal de variables explicativas, también se le conoce


como predictor lineal. En términos matriciales se expresa como un
vector (η1,..., ηN ) tal que

η݅ = ෍ ߚ݆‫݆݅ݔ‬

donde ‫ ݆݅ݔ‬es el valor del j-ésimo predictor en el i-ésimo individuo,
donde i=1,...,N. El término independiente α se obtiene con esta
notación haciendo que todos los ‫ ݆݅ݔ‬sean igual a 1 para todos los i.
MODELO LINEAL GENERALIZADO
Función link

Corresponde al valor esperado de Y como µ=E(Y), entonces la función


link especifica una función g(•) que relaciona µ con el predictor lineal
como
g(µ) = α + β1x1 + ••• +βkxk

De esta forma, la función link g(•) relaciona a las componentes


aleatoria y sistemática. De este modo, para i = 1,...,N,
µi=E(Yi)

η݅ = g(µi) = ෍ ߚ݆‫݆݅ݔ‬

La función g más simple es g(µ) = µ, esto es, la identidad que da lugar
al modelo de regresión lineal clásico
µ=E(Y)= α + β1x1 + ••• +βkxk
MODELO LINEAL GENERALIZADO
Los modelos lineales generalizados apoyan la unificación de una
amplia variedad de métodos estadísticos como la regresión, los
modelos ANOVA y los modelos de datos categóricos.

En realidad se usa el mismo algoritmo para obtener los estimadores de


máxima verosimilitud en todos los casos.
MODELO LINEAL GENERALIZADO
Modelos lineales Generalizados para datos binarios

En los casos en que las respuestas de los individuos, registran


respuesta de tipo sí/no, de modo que se puede definir una variable Y
que toma dos posibles valores 1 (éxito) y 0 (fracaso), es decir
Y∼ Bin(1,ߨ). En este caso
݂ (y|ܲ) = ߨy(1− ܲ)1−y

௉ y
= (1− ܲ) ( )
ଵି௉


= (1− ܲ) exp[y log( )]
ଵି௉
Donde y = 0, 1
MODELO LINEAL GENERALIZADO
El parámetro natural es

ܳ(ܲ) = log = logit (ܲ)
ଵି௉

De tal forma que


E(Y) = P(Y=1) = ܲ(‫)ݔ‬

dependiente de p variables explicativas x = (‫ ݔ‬1,..., ‫ ݔ‬p) y

Var(Y) = ܲ(‫()ݔ‬1− ܲ(‫))ݔ‬

En respuestas binarias, un modelo análogo al de regresión lineal


es:
ܲ(‫ = )ݔ‬α + β ‫ݔ‬
MODELO LINEAL GENERALIZADO
A este modelo se le conoce como modelo de probabilidad lineal, ya
que la probabilidad de éxito cambia linealmente con respecto a x.

En este caso, el parámetro β, representa el cambio en probabilidad por


unidad de x.

A este modelo se le clasifica como un modelo lineal generalizado con


un componente aleatorio binomial y con función de enlace (link)
igual a la identidad.

Este modelo puede presentar problemas, tal que a pesar de que las
probabilidades se registran entre 0 y 1, el modelo puede predecir
valores ܲ(‫ > )ݔ‬1 y ܲ(‫ < )ݔ‬0.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
La regresión logística binaria se caracteriza por disponer de una
variable dependiente cualitativa con dos valores (categorías o
grupos) que configuran la presencia y la ausencia de una determinada
característica.

Por ejemplo, la ciudadanía que en un proceso electoral se abstiene de


votar y la ciudadanía que no se abstiene; los que votaron a favor del
candidato ganador y los que no votaron por él; los consumidores que
compran un producto y los que no; las personas que tras cumplir su
condena por un delito reinciden y las que no reinciden; las personas
que tienen un riesgo contraer una enfermedad y las que no; las que
devolverán un préstamo y las que no; entre otros casos.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
En este sentido, la variable dependiente espera ser explicada con
base en una o más variables independientes, las cuales determinan
en qué se diferencian los dos grupos.

En caso de utilizar solamente una variable independiente se aplicará


un análisis de regresión logística simple, mientras que si
consideramos más dos o más variables independientes, entonces el
modelo será de regresión logística múltiple.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
Para el caso de la regresión logística, las variables independientes se
denominan como covariables o factores, según sea el caso,
covariables si las variables independientes son continuas y factores si
las variables independientes son discretas.

Como resultado del análisis, en primer lugar, se obtienen unos pesos o


coeficientes que nos miden la importancia de cada variable
independiente para diferenciar los grupos, y en segundo lugar, se
obtienen criterios para pronosticar la clasificación de los individuos o
casos.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
En los casos en que la variable dependiente registra valores entre 0 y
1, y se aplicara un análisis de Regresión Lineal, los valores estimados
(predichos) podrían ser menores a 0 o superiores a 1, lo cual sería un
error, ya que caería fuera del rango de valores de la variable
dependiente.

En este caso la regresión logística es la mejor opción para atender


este tipo de casos, empleando una función No Lineal como la función
logística; ya que ésta, se emplea para estimar valores comprendidos
entre un mínimo y un máximo. Así mismo, la regresión logística, se
basa en el método de máxima verosimilitud, que realiza una serie de
iteraciones en fases sucesivas para encontrar el mejor ajuste del
modelo.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
La formulación matemática de la curva logística en el caso de la
regresión logística binaria simple es:
݁ ఈାఉ௫
‫ ݎܲ = ݕ‬y = 1|‫= ݔ‬
1 + ݁ ఈାఉ௫
De manera equivalente se tiene:
1
‫ ݎܲ = ݕ‬y = 1|‫= ݔ‬
1 + ݁ ି(ఈାఉ௫)

En este caso, se refiere a la probabilidad de que la variable


dependiente ‫ ݕ‬tome el valor de 1 (característica de interés) con base
en la variable independiente x.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
De manera gráfica, la función logística, se representa como una curva

sigmoidea del tipo ‫= ݔ ݂ = ݕ‬ ష(ೣ) ଵା௘

1.0
Probabilidad y=1
0.5
0.0

X
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
La curva logística, cumple con las siguientes propiedades:

 Los valores estimados oscilan entre 0 y 1, 0 < ݂ ‫ < ݔ‬1, lo que


permite interpretarla en términos de probabilidad.


 Su límite inferior es el valor 0 : lim =0
௫→ஶ ଵା௘ ష(ೣ)


 Su límite superior es el valor 1 : lim =1
௫→ஶ ଵା௘ ష(ೣ)

 Cuando la variable ‫ ݔ‬toma un valor de 0, la función toma un


ଵ ଵ
valor de ½: ݂ 0 = ష(బ) =
ଵା௘ ଶ
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
Con base en la ecuación de la función logística, se generan valores de
la variable dependiente asociados a la variable independiente, bajo el
mismo criterio de la regresión lineal.

La interpretación es similar, solamente que en este caso los valores de


la variable dependiente estarán en el intervalo (0, 1), permitiendo con
ello interpretar los resultados en términos de probabilidad.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
Para generar el modelo de regresión logística binaria, se deben
considerar dos aspectos importantes de la variable Y, que son
excluyente y exhaustivo, dado que se codifican con valores 0 y 1.
En el primer caso, la probabilidad de que ocurra uno de ellos es P y en
el segundo caso, la probabilidad de que no ocurra es 1 meno la
probabilidad de P.
ܲ‫ ݎ‬y = 1 = ܲ
ܲ‫ ݎ‬y = 0 = 1 − ܲ

Seguido de esto, se deben identificar la o las variables que integrarán


el modelo, permitiendo pronosticar la probabilidad de la variable
dependiente.
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
En un modelo de regresión logística binaria simple, la ecuación
logística se expresa como:
1
ܲ‫ ݎ‬y = 1 = =ܲ
1 + ݁ ି(ఈାఉ௫)
y por consiguiente:
1
ܲ‫ ݎ‬y = 0 = 1 − =1−ܲ
1 + ݁ ି ఈାఉ௫
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
De manera gráfica se identificará la procedencia de los coeficientes α y
β, donde α representa la posición de la curva sobre el eje horizontal o
de abscisas, y sitúa la curva más hacia la derecha o hacia la izquierda;
y el coeficiente β, representa la pendiente de la curva en su punto de
inflexión, en función de su valor más alto o más bajo tendremos una
pendiente de la curva con mayor o menor inclinación.
1.0

ŷ = ߙ + ߚ‫ݔ‬

݉
Probabilidad y=1
0.5

ߚ = ‫)݉(݃݊ܽݐ‬
0.0

0 1 2 3 4 5
ߙ 6 7 8 9 10
X
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
Se pueden se pueden presentar una serie de curvas que van a variar en función de
los valores que tomen α y β. De esta forma, la variación de la pendiente en el
modelo, estará asociada a la capacidad de discriminación de la variable y; por lo que
se considera que una variable x adecuada, dependerá del valor de la pendiente de
la curva; es decir, cuando el valor β es alto; si β es cercano a 0, su nivel de
aportación en el modelo se reducirá; el objetivo del análisis de regresión logística
consiste en encontrar las variables con el mayor coeficiente asociado.
1.0
Probabilidad y=1

α = 0, β = 2
α = 0, β = 1
0.5

α = 0, β = 0.5
α = 0, β = 0.3
0.0

-5 -4 -3 -2 -1 0 1 2 3 4 5
X
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
La interpretación de los coeficientes de la regresión logística difiere
del caso de la regresión lineal.

En este caso, el coeficiente β no es la medida de cuánto variará la


variable dependiente ante una variación en una unidad de x, sino el
cambio producido por una variación de una unidad de x en el
logaritmo neperiano (log) del cociente de probabilidades de los
dos sucesos, lo que se conoce como la denominada
transformación logit.

La transformación logit surge de considerar la relación o el cociente


de probabilidad entre dos sucesos, llamada ventaja o razón (como
traducción de la expresión inglesa odds). La razón de un suceso es el
cociente entre la probabilidad de que éste suceda y la probabilidad de
que no suceda:

X
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
El odds (razón) de un suceso es el cociente entre la probabilidad de
que éste suceda y la probabilidad de que no suceda:

ࡼ ܲ‫݋ݏ݁ܿݑݏ ݊ݑ ܽݎݎݑܿ݋ ݁ݑݍ ݁݀ ݈ܾܾ݀ܽ݀݅݅ܽ݋ݎ‬


࢕ࢊࢊ࢙ = =
૚ − ࡼ ܲ‫݋ݏ݁ܿݑݏ ݊ݑ ܽݎݎݑܿ݋ ݋ܰ ݁ݑݍ ݁݀ ݈ܾܾ݀ܽ݀݅݅ܽ݋ݎ‬

Por ejemplo:
En el caso de considerar la participación de la población en las
elecciones pasadas, si el 75% de la población votó, la probabilidad es
del 0.75, entonces el 25% se abstuvo; por lo tanto el odds es de 3, o
lo que es igual una razón de 3 a 1.
ࡼ ૙.ૠ૞
૚ିࡼ
= ૙.૛૞
=3
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
De manera inversa, se transforman la razón a probabilidad.
௢ௗௗ௦ ଴.଻ହ
P= =
௢ௗௗ௦ାଵ
=3
଴.ଶହ
Se debe identificar que de las dos formas, se cuantifica la probabilidad
de que ocurra un suceso, el riesgo relativo resulta del cociente de
probabilidades de un suceso en las dos condiciones de ocurrencia.

Dado que el odss ratio (razón de razones de probabilidad)es el


cociente de dos odds, cuando se presentan dos casos con dos
posibilidades será el cociente de ambos.

Por ejemplo:
En el caso de participación en dos municipios A y B, donde en el
municipio A votó el 80% y en el municipio B votó el 50%, entonces el
odds ratio será igual a 4.
బ.ఴబ
௢ௗௗ௦ ஺ ସ
odds ratio =
௢ௗௗ௦ ஻
= బ.మ
బ.ఱ = =4

బ.ఱ
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
De lo discutido anteriormente donde
1
ܲ‫ ݎ‬y = 1 = =ܲ
1 + ݁ ି(ఈାఉ௫)
y
1
ܲ‫ ݎ‬y = 0 = 1 − =1−ܲ
1+ ݁ ି ఈାఉ௫
Se tiene que
1
ܲ‫ ݎ‬y = 1 1 + ݁ ି(௔ା௕௫) ܲ
= =
ܲ‫ ݎ‬y = 0 1 1+ܲ
1−
1 + ݁ ି ఈାఉ௫

y de manera simplificada se obtiene:


ܲ‫ ݎ‬y = 1 ܲ
= = ݁ ఈାఉ௫
ܲ‫ ݎ‬y = 0 1+ܲ
REGRESIÓN LOGÍSTICA BINARIA SIMPLE

Gráficamente, tenemos que = ݁ ఈାఉ௫ se comporta como:
ଵା௉

1.0
Razón de Probabilidad ଵା௉

0.5
0.0

0 1 2 3 4 5 6 7 8 9 10
X
REGRESIÓN LOGÍSTICA BINARIA SIMPLE

Al aplicar una transformación logarítmica a la expresión = ݁ ఈାఉ௫ ,
ଵା௉
se obtiene la transformación logit, la cual apoya la identificación del

modelo en forma lineal y aditiva log = log(݁ ఈାఉ௫ ) = ߙ + ߚ‫ ݔ‬,
ଵା௉
comportándose como:
)
4
ଵା௉

Log(Razón de Probabilidad
0
-4

0 1 2 3 4 5 6 7 8 9 10
X
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
De lo anterior se desprende que el coeficiente de regresión logística β,
explica el cambio generado en la transformación logit, mediante el
logaritmo de la razón de un suceso (del cociente de probabilidades),
por cada cambio unitario que se produce en la variable
independiente.

Como en el modelo de regresión lineal, realizamos estimaciones de


parámetros poblacionales y éstos están afectados por un error de
estimación. En el modelo de regresión lineal se asume que los
errores estándar de cada coeficiente siguen una distribución normal
de media 0 y varianza constante (supuesto de homoscedasticidad).

En el caso de la regresión logística el error sigue una distribución


binomial, con media y varianza, proporcionales al tamaño muestral
y a Pr(y=1|x).
REGRESIÓN LOGÍSTICA BINARIA SIMPLE
Los coeficientes de la ecuación de regresión logística y sus
correspondientes errores se obtienen mediante estimaciones de
máxima verosimilitud que maximizan la probabilidad de obtener los
valores de la variable dependiente. Estas estimaciones requieren
seguir algoritmos iterativos como el método iterativo de Newton-
Raphson.
BIBLIOGRAFÍA

• Ang Alkfredo H-S, Teng Wilson H. Probability Concepts in engineering Planning and Design. Volumen I.
Basic Principles. John Wiley & Sons
• Jornadas de Educación Matemática de la Comunidad Valenciana
• Gujarati, Damodar. Econometría , Segunda edición. Editorial Mc Graw Hill. Bogotá, 1990.
• Lomax W. R., Saul A.J. Laboratory Work in Hydraulics. Bolton Institute of Technology. Great Britain 1979.
• Laboratory Work in Hydraulics
• López-Roldán, P.; Fachelli, S. (2015). Análisis de regresión logística. En P. López-Roldán y S.
Fachelli, Metodología de la Investigación Social Cuantitativa. Bellaterra (Cerdanyola del Vallès): Dipòsit
Digital de Documents, Universitat Autònoma de Barcelona. Capítulo III.10. 1ª edición. Edición
digital: http://ddd.uab.cat/record/163570
• Ríus, Barón, Sánchez, & Parras, Tercera Edición, Bioestadística: Métodos y Aplicaciones. Universidad de
Málaga. Publicaciones. España. 1999 (también consulta virtual en:
http://virtual.uptc.edu.co/ova/estadistica/docs/libros/ftp.bioestadistica.uma.es/libro/, y electrónica en:
https://www.bioestadistica.uma.es/baron/bioestadistica.pdf o en
http://fcm.ens.uabc.mx/~chelo/estadistica/doc-pdf/bioestadistica.pdf)

También podría gustarte