Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Adc Unidad IV ML
Adc Unidad IV ML
Campus Universitario
Índice
1. Bosquejo de los modelos lineales generalizados .............................................................................3
1.1. Componentes de los modelos lineales generales ....................................................................3
1.1.1. Componente aleatorio .................................................................................................3
1.1.2. Componente sistemático .............................................................................................4
1.1.3. Función link (o enlace) .................................................................................................4
1.2. Regresión Logística binaria .......................................................................................................5
1.2.1. Regresión Logística binaria simple (una variable explicativa) ......................................5
Modelo Logístico ..........................................................................................................................5
Estimación de los parámetros ......................................................................................................6
Contraste de hipótesis de nulidad del parámetro .......................................................................6
Interpretación de los parámetros ................................................................................................7
1.2.2. Regresión Logística binaria múltiple (más de una variable explicativa).......................7
Modelo Logístico ..........................................................................................................................7
Estimación de los parámetros ......................................................................................................8
Contraste de hipótesis de nulidad del parámetro .......................................................................8
Interpretación de los parámetros ................................................................................................8
1.3. Modelo logit para categorías múltiples ................................................................................ 12
1.4. Modelos loglineales............................................................................................................... 12
1.4.1. Modelo ...................................................................................................................... 12
1.4.2. Consideraciones ........................................................................................................ 13
1.4.3. Ejemplo de aplicación................................................................................................ 13
Bibliografía ............................................................................................................................................ 15
2 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Componente aleatorio
Componente sistemático
La función link (o enlace)
También es posible presentarse como un recuento, por ende 𝑌 podría estar modelado por la
Distribución de Poisson u otra distribución aplicada a estas características.
Y por último, ¿qué pasa si las observaciones de la variable de respuesta son continuas?, en
este caso, podemos asumir para 𝑌 una Distribución Normal.
3 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Donde:
𝜽𝒊 : Es una variante para los valores de 𝑖 que dependen de los valores de las variables
predictoras (𝑋).
Esta función tiene por objetivo enlazar los dos componentes anteriores (aleatorio y
sistemático), en otras palabras, relaciona la variable 𝑌 con la 𝑋 a través del valor esperado
de 𝑌 con el predictor lineal de 𝑋 usando una función 𝑔(. ). Denotamos el valor esperado de
𝑌 como 𝜇 = 𝐸(𝑌), entonces la relación de los dos componentes podemos escribir como
sigue:
𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘
𝜂𝑖 = 𝑔(𝜇𝑖 ) = ∑ 𝛽𝑗 𝑥𝑖𝑗
𝑗
Cuando la función 𝒈(𝝁) = 𝝁, tenemos una función de Regresión Lineal Simple con
𝝁 = 𝑬(𝒀) = 𝜶 + 𝜷𝟏 𝒙𝟏 + ⋯ + 𝜷𝒌 𝒙𝒌 , en este caso decimos que la función link 𝒈 es una
función identidad.
4 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Este es el caso de regresión logística binaria más simple ya que utilizamos como respuesta 𝑌,
una variable dicotómica, y la variable explicativa 𝑋 es una sola. Debemos tener en cuenta
que la 𝑋 puede ser una variable nominal (categórica) o así también puede ser continua.
Modelo Logístico
exp{𝛼 + 𝛽𝑥}
𝜋(𝑥) = 𝑃𝑟(𝑌 = 1|𝑋 = 𝑥) =
1 + exp{𝛼 + 𝛽𝑥}
𝜋(𝑥)
𝑙𝑜𝑔𝑖𝑡(𝜋(𝑥)) = 𝑙𝑜𝑔 = 𝛼 + 𝛽𝑥
1 − 𝜋(𝑥)
5 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Otra forma de estimar los parámetros es a través del Intervalo de Confianza (IC), en este
caso utilizaremos la estimación del parámetro (𝛽̂ ) calculado con la estimación de 𝑴𝑽. El 𝑰𝑪
se calcula de la siguiente manera:
Una de las pruebas más utilizadas para esta situación es el test de Wald, para el coeficiente
o parámetro 𝛽 se verifica que bajo la hipótesis nula 𝐻0 : 𝛽 = 0.
Otra alternativa para contrastar la significancia de los parámetros 𝛽 es a través del programa
𝑹, en este caso, el test de wald es expresado aproximando a una 𝒁 (distribución normal) con
su correspondiente p-valor. La función a utilizar es summary, aplicada a través del modelo
ajustado (glm).
𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0
6 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Por otro lado, la regresión logística binaria también nos permite estudiar la relación
existente entre una o más variables explicativas 𝑋 (𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑝 ) y la 𝑌. Podemos
mencionar que es la forma general de la Regresión logística que ya vimos en el punto
anterior. Su estudio es bastante similar al caso de la binaria simple.
Modelo Logístico
Dado que los individuos presentan los valores de las variables explicativas 𝑋1 = 𝑥1 , 𝑋2 =
𝑥2 , 𝑋3 = 𝑥3 , … , 𝑋𝑝 = 𝑥𝑝 , el modelo logístico establece la relación de estas con la
probabilidad de ocurrencia del suceso deseado como sigue:
1
𝜋(𝑥) = 𝑃𝑟(𝑌 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑝 ) =
1 − exp(−𝛼 − 𝛽1𝑥1 − 𝛽2 𝑥2 − 𝛽3 𝑥3 − ⋯ − 𝛽𝑝 𝑥𝑝 )
7 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Pr(𝑌 = 1|𝑥 )
𝑙𝑜𝑔𝑖𝑡(𝑃𝑟(𝑌 = 1|𝑥)) = 𝑙𝑜𝑔 (1−Pr(𝑌 = 1|𝑥)) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑝 𝑥𝑝 ,
Las estimaciones de los parámetros hacemos de la misma manera que el caso anterior,
utilizamos el método de MV, así también podemos calcular el intervalo de confianza para
cada una de las 𝛽𝑖 a través de las estimaciones calculadas por este método.
El contraste de hipótesis de nulidad del parámetro realizamos en forma separada para cada
una de las 𝛽𝑖 , esto hacemos utilizando el test de wald, así como en la Regresión binaria
simple.
𝐻0 : 𝛽𝑖 = 0
𝐻1 : 𝛽𝑖 ≠ 0
8 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Ejemplo de aplicación:
Solución:
Este es un caso de una Regresión logística binaria. Para resolver el ejercicio, en primer lugar
debemos identificar la variable de respuesta, en este caso, “intoxicados”. Por otro lado, la
variable predictora es la dosis.
En R para poder ajustar un modelo logístico binario, es necesario construir una matriz de
éxitos y fracasos (la primera columna de la matriz representa los éxitos y la segunda los
fracasos). A continuación construimos dicha matriz.
Primeramente vamos construyendo las variables que utilizaremos para nuestra matriz.
> expuestos<-c(20,30,30,25,20)
> intoxicados<-c(2,6,9,10,12)
> dosis<-c(1,2,3,4,5)
> exitos=intoxicados
> fracasos=expuestos-intoxicados
> fracasos
[1] 18 24 21 15 8
Teniendo las variables construidas, procedemos a generar la matriz de éxitos y fracasos con
el comando cbind.
> matriz.exi.fra<-cbind(exitos,fracasos)
> matriz.exi.fra
9 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
exitos fracasos
[1,] 2 18
[2,] 6 24
[3,] 9 21
[4,] 10 15
[5,] 12 8
> Modelo<-glm(matriz.exi.fra~dosis,family=binomial)
> Modelo
Call: glm(formula = matriz.exi.fra ~ dosis, family =
binomial)
Coefficients:
(Intercept) dosis
-2.6814 0.6013
Degrees of Freedom: 4 Total (i.e. Null); 3 Residual
Null Deviance: 14.92
Residual Deviance: 0.2037 AIC: 20.93
Podemos observar, en esta salida, en el bloque Coefficients los valores que toman los
parámetros 𝛼 y 𝛽, son respectivamente (-2.6814; 0.6013). Entonces el modelo de
Regresión logística binaria estaríamos especificando como sigue:
exp{−2.6814 + 0.6013𝑥}
𝜋(𝑥) =
1 + exp{−2.6814 + 0.6013𝑥}
10 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Por otro lado, para obtener más detalles del modelo generado debemos escribir en
summary(Modelo).
> summary(Modelo)
Call:
glm(formula = matriz.exi.fra ~ dosis, family = binomial)
Deviance Residuals:
1 2 3 4 5
-0.15971 0.20055 0.07527 -0.31838 0.17599
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.6814 0.5907 -4.540 5.63e-06 ***
dosis 0.6013 0.1673 3.595 0.000324 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Podemos apreciar que el parámetro asociado a la variable dosis (beta) es significativa ya que
el p-valor correspondiente es menor que 0.05 (esto observamos en la última columna del
bloque Coefficients).
11 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Utilizamos de manera análoga a la anterior una fórmula matemática con ciertos parámetros
cuyas estimaciones son calculadas a través del método de máxima verosimilitud. Por otro
lado, establecemos los test estadísticos adecuados para la significación global del modelo y
el efecto que tiene cada una de las variables explicativas 𝑋𝑖 sobre la variable de respuesta 𝑌.
Calculamos los intervalos de confianza asintóticos para cada uno de los parámetros y
medimos la calidad del ajuste mediante los coeficientes de determinación (pseudo-R2) más
ampliamente utilizados. La calidad en la predicción puede medirse, al igual que en el análisis
discriminante, mediante la tabla de clasificación observados-predichos o mediante
validación externa si se dispone de una muestra alternativa para ese propósito.
Este modelo utiliza el logaritmo natural o más conocido como el logaritmo neperiano (𝑙𝑛)
sobre las frecuencias obtenidas en el cruce de las variables.
1.4.1. Modelo
Para la aplicación del modelo loglineal utilizamos datos expresados como frecuencias, las
mismas son resultantes de un cruce de varias variables categóricas. En este modelo se
cumple que para cada cualquier casilla 𝑖𝑗 el 𝑙𝑛 de la frecuencia es:
𝑓 𝑐𝑓
ln(𝑛𝑖𝑗 ) = 𝜇 + 𝜆𝑖 + 𝜆𝑗𝑐 + 𝜆𝑖𝑗
Donde:
12 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
𝑓
𝜆𝑖 : Es el efecto de la categoría 𝑖 de la variable 𝐹.
𝑐𝑓
𝜆𝑖𝑗 : Es el efecto de la intercepción ⟨𝑖⟩ y ⟨𝑗⟩ de las dos de las variables.
1.4.2. Consideraciones
Ejemplo 1. Los datos siguientes corresponden a dos variables categóricas (sexo y estado
civil) a través de una encuesta realizada a ciertas personas encontradas en una estación de
tren.
𝜇 = 4,0731
𝑓
𝜆1 = 3,859 − 4,0731 = −0,2143
13 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
𝑐𝑓
𝜆11 = 1,0986 − (4,0731 − (0,2143 + 2,2413)) = −0,51189
Ahora bien, análogamente calculamos todos los parámetros 𝜆𝑖𝑗 de la Tabla 3, tal
como se muestra en la Tabla 4.
De esta manera quedan todas las estimaciones para cada casilla 𝑖𝑗.
14 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Bibliografía
Mc CULLAGH, P. 1978. Generalized linear models. New Jersey, US: Chapman and Hall. 1 Vol.
15 www.virtual.facen.una.py