Adc Unidad IV ML

Análisis de Datos en Categorías
Modelos para Datos en

Categorías
Material elaborado por:
Lic. Roberto Damián Díaz González
Campus Universitario
San Lorenzo, Paraguay

Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Índice
1. Bosquejo de los modelos lineales generalizados .............................................................................3
1.1. Componentes de los modelos lineales generales ....................................................................3
1.1.1. Componente aleatorio .................................................................................................3
1.1.2. Componente sistemático .............................................................................................4
1.1.3. Función link (o enlace) .................................................................................................4
1.2. Regresión Logística binaria .......................................................................................................5
1.2.1. Regresión Logística binaria simple (una variable explicativa) ......................................5
Modelo Logístico ..........................................................................................................................5
Estimación de los parámetros ......................................................................................................6
Contraste de hipótesis de nulidad del parámetro .......................................................................6
Interpretación de los parámetros ................................................................................................7
1.2.2. Regresión Logística binaria múltiple (más de una variable explicativa).......................7
Modelo Logístico ..........................................................................................................................7
Estimación de los parámetros ......................................................................................................8
Contraste de hipótesis de nulidad del parámetro .......................................................................8
Interpretación de los parámetros ................................................................................................8
1.3. Modelo logit para categorías múltiples ................................................................................ 12
1.4. Modelos loglineales............................................................................................................... 12
1.4.1. Modelo ...................................................................................................................... 12
1.4.2. Consideraciones ........................................................................................................ 13
1.4.3. Ejemplo de aplicación................................................................................................ 13
Bibliografía ............................................................................................................................................ 15
2 www.virtual.facen.una.py
1. Bosquejo de los modelos lineales generalizados

Imaginemos que estamos deseando describir el impacto que pueden generar algunos
factores en las variables dependientes, consideramos a los factores como 𝑋 y a las
respuestas como 𝑌, con la particularidad de que esta última puede ser más de una. Para
lograr el propósito podemos construir modelos estadísticos a través de los Modelos Lineales
Generalizados (GLM, por sus siglas en inglés).
Los factores 𝑿 pueden ser:

1) Cuantitativos o categóricos 2) Cruzados o anidados 3) Fijos aleatorios.
1.1. Componentes de los modelos lineales generales

Según Ayala Gallego (2009), los modelos lineales generalizados cuentan con los siguientes
componentes:
 Componente aleatorio
 Componente sistemático
 La función link (o enlace)
Describamos función que cumplen cada uno de los componentes:
1.1.1. Componente aleatorio
Este componente identifica las variables de respuestas 𝑌 y su distribución de probabilidad.
El componente aleatorio consiste de una variable aleatoria 𝑌 con observaciones

independientes (𝑦1 , . . . , 𝑦𝑁 ). Estas observaciones pueden presentarse de varias maneras, en
ocasiones son binarias (éxito o fracaso). Si lo escribimos de forma más general, podríamos
decir que cada 𝑌𝑖 indica el número de éxitos en una cantidad específica de ensayos, por lo
que estaría modelado por la Distribución Binomial.
También es posible presentarse como un recuento, por ende 𝑌 podría estar modelado por la
Distribución de Poisson u otra distribución aplicada a estas características.
Y por último, ¿qué pasa si las observaciones de la variable de respuesta son continuas?, en
este caso, podemos asumir para 𝑌 una Distribución Normal.
La variable aleatoria viene de la familia exponencial natural cuya función es la siguiente:
𝒇(𝒚𝒊 ; 𝜽𝒊 ) = 𝒂( 𝜽𝒊 )𝒃( 𝒚𝒊 )𝒆𝒙𝒑{𝒚𝒊 ; 𝑸( 𝜽𝒊 )}
Donde:
𝜽𝒊 : Es una variante para los valores de 𝑖 que dependen de los valores de las variables
predictoras (𝑋).
𝑸( 𝜽𝒊 ): Lo denominamos como el parámetro natural.
1.1.2. Componente sistemático
Al contrario del componente aleatorio, este se encarga de especificar las variables

explicativas, independientes o predictoras. Este componente podemos escribirlo como una
combinación lineal 𝛼 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑗 𝑥𝑗 , donde 𝛼 ese el término independiente y podemos
calcularlo cuando las 𝑥𝑖𝑗 igualamos a 1 para todos los 𝑖, por otro lado, las 𝑥𝑗 son
especificadas en forma de efectos fijos en el modelo. La expresión anterior podemos
denominarla como un predictor lineal ya que se trata de una combinación lineal.
Otra forma de expresar el componente sistemático es a través de un vector (𝜂1 , . . . , 𝜂𝑁 ), de

modo que: 𝜼𝒊 = ∑𝒋 𝜷𝒋 𝒙𝒊𝒋 ,
Donde: 𝑖 = 1, … , 𝑁; 𝑥𝑖𝑗 es el valor 𝑗 − é𝑠𝑖𝑚𝑜 predictor en el 𝑖 − é𝑠𝑖𝑚𝑜 individuo
∑𝑗 𝛽𝑗 𝑥𝑖𝑗 es el predictor lineal
1.1.3. Función link (o enlace)
Esta función tiene por objetivo enlazar los dos componentes anteriores (aleatorio y
sistemático), en otras palabras, relaciona la variable 𝑌 con la 𝑋 a través del valor esperado
de 𝑌 con el predictor lineal de 𝑋 usando una función 𝑔(. ). Denotamos el valor esperado de
𝑌 como 𝜇 = 𝐸(𝑌), entonces la relación de los dos componentes podemos escribir como
sigue:
𝑔(𝜇) = 𝛼 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘
Por otro lado, para 𝑖 = 1, … , 𝑁 tenemos 𝜇𝑖 = 𝐸(𝑌𝑖 ). Entonces, en término de vectores

tenemos
𝜂𝑖 = 𝑔(𝜇𝑖 ) = ∑ 𝛽𝑗 𝑥𝑖𝑗
𝑗
Cuando la función 𝒈(𝝁) = 𝝁, tenemos una función de Regresión Lineal Simple con
𝝁 = 𝑬(𝒀) = 𝜶 + 𝜷𝟏 𝒙𝟏 + ⋯ + 𝜷𝒌 𝒙𝒌 , en este caso decimos que la función link 𝒈 es una
función identidad.
1.2. Regresión Logística binaria

La regresión logística binaria es un
método estadístico cuantitativo
cuyo objetivo es predecir la
probabilidad de ocurrencia para un
suceso de la variable de respuesta
𝑌, esta variable tiene la
particularidad de ser dicotómica,
es decir, toma solamente dos
posibles valores {𝑌 = 0, 𝑌 = 1}. En
Gráfico 1. Comparación de la Regresión Lineal simple con la este caso, podemos decir que 𝑌 =
Regresión Logística Binaria.
Fuente: http://juangabrielgomila.com/derivacion-regresion-logistica/ 1 cuando ocurre un suceso de
interés y 𝑌 = 0 en el otro caso. Por
otro lado, también estudiamos la relación existente entre una o más variables explicativas,
estas variables pueden ser categóricas o continuas, con referencia a esto, podemos utilizar la
Regresión Logística Binaria Simple o la Múltiple.
1.2.1. Regresión Logística binaria simple (una variable explicativa)
Este es el caso de regresión logística binaria más simple ya que utilizamos como respuesta 𝑌,
una variable dicotómica, y la variable explicativa 𝑋 es una sola. Debemos tener en cuenta
que la 𝑋 puede ser una variable nominal (categórica) o así también puede ser continua.
Con estas condiciones se cumple que:
𝜋(𝑥) = 𝑃𝑟(𝑌 = 1|𝑋 = 𝑥) = 1 − 𝑃𝑟(𝑌 = 0|𝑋 = 𝑥)
𝜋(𝑥): es la probabilidad de ocurrencia del suceso de interés.
Modelo Logístico
El modelo logístico establece la relación de la variable explicativa 𝑋 con la probabilidad de

ocurrencia del suceso deseado (𝑌 = 1).
exp{𝛼 + 𝛽𝑥}
𝜋(𝑥) = 𝑃𝑟(𝑌 = 1|𝑋 = 𝑥) =
1 + exp{𝛼 + 𝛽𝑥}
Esta fórmula presentada podemos escribir de manera equivalente según lo siguiente:
𝜋(𝑥)
𝑙𝑜𝑔𝑖𝑡(𝜋(𝑥)) = 𝑙𝑜𝑔 = 𝛼 + 𝛽𝑥
1 − 𝜋(𝑥)
Estimación de los parámetros
Los parámetros 𝛼, 𝛽 podemos estimarlos a partir de un conjunto de datos. El procedimiento

de estimación se basa en el método de Máxima Verosimilitud (MV), cuyas estimaciones se
pueden realizar a través de programas o paquetes estadísticos, entre los cuales podemos
destacar el SPSS, SAS, STATA y R.
La función verosimilitud está representada de la siguiente manera:

𝑛
𝐿(𝑦, 𝛽) = ∑ 𝑦𝑖 ln(𝑝𝑖 ) + (1 − 𝑦𝑖 )ln(1 − 𝑝𝑖 )

𝑖=1
Donde 𝑛 es el número de observaciones y 𝑝𝑖 = 𝑃𝑟(𝑌 = 𝑦𝑖 |𝑥𝑖 ).
Otra forma de estimar los parámetros es a través del Intervalo de Confianza (IC), en este
caso utilizaremos la estimación del parámetro (𝛽̂ ) calculado con la estimación de 𝑴𝑽. El 𝑰𝑪
se calcula de la siguiente manera:
𝛽̂ ∓ 𝑧1−𝛼 √𝑉̂ 𝑎𝑟(𝛽̂ )

2
Contraste de hipótesis de nulidad del parámetro
Cuando estudiando una posible variable explicativa 𝑋 en nuestro modelo logístico es

necesario conocer si dicha variable está siendo determinante en cuanto a su aporte a la
explicación de la variable de respuesta 𝑌, debemos realizar un contraste de hipótesis de
nulidad del parámetro a modo de conocer si es conveniente mantener dicha variable o, en
todo caso, utilizar otra.
Una de las pruebas más utilizadas para esta situación es el test de Wald, para el coeficiente
o parámetro 𝛽 se verifica que bajo la hipótesis nula 𝐻0 : 𝛽 = 0.
Otra alternativa para contrastar la significancia de los parámetros 𝛽 es a través del programa
𝑹, en este caso, el test de wald es expresado aproximando a una 𝒁 (distribución normal) con
su correspondiente p-valor. La función a utilizar es summary, aplicada a través del modelo
ajustado (glm).
El procedimiento que debemos utilizar es el siguiente:
 Hipótesis: especificamos las hipótesis H0 y 𝐻1 ,
𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0
 Decisión: Si la “sig.” del estadístico o p-valor es menor a 0.05, se rechaza 𝐻0 al nivel

de significación del 5%. En caso contrario, se acepta.
Mediante el contraste de hipótesis buscamos establecer cuáles de las variables son

significativas para explicar la probabilidad del suceso (𝒀 = 𝟏)
Interpretación de los parámetros
El parámetro que debemos interpretar es 𝛽, ya que este está asociado a la variable

explicativa.
La interpretación de 𝛽 podemos hacerla de dos maneras distintas, en términos de

probabilidad y en términos de logit, respectivamente:
 Término de probabilidad 𝝅(𝒙): La probabilidad de que ocurra un éxito disminuye o

aumenta cuando el valor de 𝑋 aumenta (en el caso de que 𝑋 sea continua), sin embargo,
cuando 𝑋 es categórica, este suceso ocurre cuando cambiamos de una categoría a otra.
La probabilidad de ocurrencia del éxito disminuye o aumenta, cuando 𝛽 es negativo y
positivo, respectivamente.
 Término de logit: por cada aumento unitario de la variable 𝑋, existe un aumento o

disminución en el logit, si beta es positivo o negativo, respectivamente.
1.2.2. Regresión Logística binaria múltiple (más de una variable

explicativa)
Por otro lado, la regresión logística binaria también nos permite estudiar la relación
existente entre una o más variables explicativas 𝑋 (𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑝 ) y la 𝑌. Podemos
mencionar que es la forma general de la Regresión logística que ya vimos en el punto
anterior. Su estudio es bastante similar al caso de la binaria simple.
A continuación veamos más detalles de su estudio.
Modelo Logístico
Dado que los individuos presentan los valores de las variables explicativas 𝑋1 = 𝑥1 , 𝑋2 =
𝑥2 , 𝑋3 = 𝑥3 , … , 𝑋𝑝 = 𝑥𝑝 , el modelo logístico establece la relación de estas con la
probabilidad de ocurrencia del suceso deseado como sigue:
1
𝜋(𝑥) = 𝑃𝑟(𝑌 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑝 ) =
1 − exp(−𝛼 − 𝛽1𝑥1 − 𝛽2 𝑥2 − 𝛽3 𝑥3 − ⋯ − 𝛽𝑝 𝑥𝑝 )
Esta misma relación podemos presentar de la siguiente forma:
Pr(𝑌 = 1|𝑥 )
𝑙𝑜𝑔𝑖𝑡(𝑃𝑟(𝑌 = 1|𝑥)) = 𝑙𝑜𝑔 (1−Pr(𝑌 = 1|𝑥)) = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯ + 𝛽𝑝 𝑥𝑝 ,
Donde Pr(𝑌 = 1|𝑥) es la probabilidad condicional Pr(𝑌 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑝 ).
Estimación de los parámetros
Las estimaciones de los parámetros hacemos de la misma manera que el caso anterior,
utilizamos el método de MV, así también podemos calcular el intervalo de confianza para
cada una de las 𝛽𝑖 a través de las estimaciones calculadas por este método.
Contraste de hipótesis de nulidad del parámetro
El contraste de hipótesis de nulidad del parámetro realizamos en forma separada para cada
una de las 𝛽𝑖 , esto hacemos utilizando el test de wald, así como en la Regresión binaria
simple.
Seguimos los mismos pasos:
 Hipótesis: especificamos las hipótesis H0 y 𝐻1 ,
𝐻0 : 𝛽𝑖 = 0
𝐻1 : 𝛽𝑖 ≠ 0
 Decisión: Si la “sig.” del estadístico o p-valor es menor a 0.05, se rechaza 𝐻0 al nivel

de significación del 5%. En caso contrario, se acepta.
Interpretación de los parámetros
Para interpretar los parámetros 𝛽𝑖 , es importante que mencionemos la frase “manteniendo

constantes las demás variables”, ya que cada una de las variables 𝑋𝑖 explica de forma
separada a la variable de respuesta 𝑌.
Entonces, la interpretación quedaría de la siguiente manera:
 En término de probabilidad 𝝅(𝒙): La probabilidad de que ocurra un éxito disminuye

o aumenta cuando el valor de 𝑋𝑖 aumenta o cuando cambia de una categoría a otra,
manteniendo constantes a las de más variables.
 En término de logit: por cada aumento unitario de la variable 𝑋𝑖 y manteniendo
constantes las demás variables, existe un aumento o disminución en el logit, si 𝛽𝑖 es
positivo o negativo, respectivamente.
Ejemplo de aplicación:
Los datos siguientes corresponden a ciertas personas que trabajan en condiciones de

exposición a una cierta dosis de droga:
id persona dosis expuestos intoxicados

1 1 20 2
2 2 30 6
3 3 30 9
4 4 25 10
5 5 20 12
Tabla 1. Datos resultantes de trabajadores expuestos a una cierta dosis de droga
Ajustar un modelo de regresión logística binaria a los datos presentados en la tabla de

arriba.
Solución:
Este es un caso de una Regresión logística binaria. Para resolver el ejercicio, en primer lugar
debemos identificar la variable de respuesta, en este caso, “intoxicados”. Por otro lado, la
variable predictora es la dosis.
En R para poder ajustar un modelo logístico binario, es necesario construir una matriz de
éxitos y fracasos (la primera columna de la matriz representa los éxitos y la segunda los
fracasos). A continuación construimos dicha matriz.
Primeramente vamos construyendo las variables que utilizaremos para nuestra matriz.
> expuestos<-c(20,30,30,25,20)
> intoxicados<-c(2,6,9,10,12)
> dosis<-c(1,2,3,4,5)
> exitos=intoxicados
> fracasos=expuestos-intoxicados
> fracasos
[1] 18 24 21 15 8
Teniendo las variables construidas, procedemos a generar la matriz de éxitos y fracasos con
el comando cbind.
> matriz.exi.fra<-cbind(exitos,fracasos)
> matriz.exi.fra
exitos fracasos
[1,] 2 18
[2,] 6 24
[3,] 9 21
[4,] 10 15
[5,] 12 8
Posteriormente, ajustamos el modelo logístico con el comando glm
> Modelo<-glm(matriz.exi.fra~dosis,family=binomial)
Visualizamos el modelo generado escribiendo el nombre que asignamos “Modelo”
> Modelo
Call: glm(formula = matriz.exi.fra ~ dosis, family =
binomial)
Coefficients:
(Intercept) dosis
-2.6814 0.6013
Degrees of Freedom: 4 Total (i.e. Null); 3 Residual
Null Deviance: 14.92
Residual Deviance: 0.2037 AIC: 20.93
Podemos observar, en esta salida, en el bloque Coefficients los valores que toman los
parámetros 𝛼 y 𝛽, son respectivamente (-2.6814; 0.6013). Entonces el modelo de
Regresión logística binaria estaríamos especificando como sigue:
exp{−2.6814 + 0.6013𝑥}
𝜋(𝑥) =
1 + exp{−2.6814 + 0.6013𝑥}
O por otro lado,
𝑙𝑜𝑔𝑖𝑡(𝜋(𝑥)) = −2.6814 + 0.6013𝑥
Interpretación del coeficiente: como 𝛽̂ = 0.6013, podemos decir que la probabilidad de

que una persona se intoxique aumenta cuando se le suministra una mayor cantidad de dosis
de cierta droga, o análogamente, existe un aumento en el logit cuando la cantidad de dosis
de droga es aumentado en una unidad.
El valor de Null Deviance es 14.92, corresponde a un modelo nulo (modelo sin

variable explicativa). Se espera que al incluir la variable explicativa dosis, el valor de Null
Deviance disminuya considerablemente. Esto es lo que precisamente observamos con el
valor de Residual Deviance es muy próximo a cero (0.2037).
Por otro lado, para obtener más detalles del modelo generado debemos escribir en
summary(Modelo).
> summary(Modelo)
Call:
glm(formula = matriz.exi.fra ~ dosis, family = binomial)
Deviance Residuals:
1 2 3 4 5
-0.15971 0.20055 0.07527 -0.31838 0.17599
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.6814 0.5907 -4.540 5.63e-06 ***
dosis 0.6013 0.1673 3.595 0.000324 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 14.92252 on 4 degrees of freedom
Residual deviance: 0.20373 on 3 degrees of freedom
AIC: 20.932
Number of Fisher Scoring iterations: 3
Podemos apreciar que el parámetro asociado a la variable dosis (beta) es significativa ya que
el p-valor correspondiente es menor que 0.05 (esto observamos en la última columna del
bloque Coefficients).
1.3. Modelo logit para categorías múltiples

Hemos visto hasta el momento la Regresión Logística Binaria, tanto la simple como la
múltiple, comentamos la particularidad de la utilización de la variable de respuesta
dicotómica (la ocurrencia o no de un suceso) con una o más variables explicativas. Sin
embargo, existe otra alternativa de la regresión logística y es la multinomial, esta es una
extensión multivariante de la regresión logística binaria clásica, la particularidad de este tipo
de regresión logística es que la variable de respuesta tiene más de dos categorías (𝑌 =
𝑦1 , 𝑦2 , 𝑦3 , … 𝑦𝑐 ), su utilización es bastante limitada ya que el campo de aplicación es muy
escaso.
Utilizamos de manera análoga a la anterior una fórmula matemática con ciertos parámetros
cuyas estimaciones son calculadas a través del método de máxima verosimilitud. Por otro
lado, establecemos los test estadísticos adecuados para la significación global del modelo y
el efecto que tiene cada una de las variables explicativas 𝑋𝑖 sobre la variable de respuesta 𝑌.
Calculamos los intervalos de confianza asintóticos para cada uno de los parámetros y
medimos la calidad del ajuste mediante los coeficientes de determinación (pseudo-R2) más
ampliamente utilizados. La calidad en la predicción puede medirse, al igual que en el análisis
discriminante, mediante la tabla de clasificación observados-predichos o mediante
validación externa si se dispone de una muestra alternativa para ese propósito.
1.4. Modelos loglineales

El modelo loglineal es un método estadístico que utilizamos para interpretar los efectos que
existen entre las categorías de varias variables categóricas sobre las frecuencias observadas,
es decir, mide las relaciones que tienen cada una de las categorías sobre las observaciones,
así como las posibles correlaciones entre estas variables.
Este modelo utiliza el logaritmo natural o más conocido como el logaritmo neperiano (𝑙𝑛)
sobre las frecuencias obtenidas en el cruce de las variables.
1.4.1. Modelo
Para la aplicación del modelo loglineal utilizamos datos expresados como frecuencias, las
mismas son resultantes de un cruce de varias variables categóricas. En este modelo se
cumple que para cada cualquier casilla 𝑖𝑗 el 𝑙𝑛 de la frecuencia es:
𝑓 𝑐𝑓
ln(𝑛𝑖𝑗 ) = 𝜇 + 𝜆𝑖 + 𝜆𝑗𝑐 + 𝜆𝑖𝑗
Donde:
𝜇: Es la media de los logaritmos de todas las celdas de la tabla.
𝑓
𝜆𝑖 : Es el efecto de la categoría 𝑖 de la variable 𝐹.
𝜆𝑗𝑐 : Es el efecto de la categoría 𝑗 de la variable 𝐶.
𝑐𝑓
𝜆𝑖𝑗 : Es el efecto de la intercepción ⟨𝑖⟩ y ⟨𝑗⟩ de las dos de las variables.
1.4.2. Consideraciones
Algunas de las consideraciones sobre el modelo loglineal son las siguientes:
 La suma de los parámetros 𝜆 en cada factor (marginales) es igual a cero.
 Los valores de 𝜆 positivos o negativos corresponden a frecuencias por encima o

debajo de las medias.
1.4.3. Ejemplo de aplicación
Veamos un ejemplo a modo de mejor ilustración:
Ejemplo 1. Los datos siguientes corresponden a dos variables categóricas (sexo y estado
civil) a través de una encuesta realizada a ciertas personas encontradas en una estación de
tren.
Sexo/Estado Civil Separado/a Casado/a Divorciado/a Soltero/a Total
Hombre 3 75 449 50 577
Mujer 13 90 461 52 616
Total 16 165 910 102 1193
Tabla 2. Datos de pasajeros durante los últimos dos meses.
Aplicamos el 𝑙𝑛 a los datos obtenidos y tenemos:
Sexo/Estado Civil Separado/a Casado/a Divorciado/a Soltero/a Media

Hombre 1,099 4,317 6,107 3,912 3,859
Mujer 2,565 4,5 6,133 3,951 4,287
Total 1,832 4,409 6,102 3,932 4,073
Tabla 3. Datos de la tabla 2, transformados a partir del 𝑙𝑛
 De esta manera, el logaritmo natural de la primera casilla es 𝑙𝑛(𝑛11 ) = 1,099
𝜇 = 4,0731
𝑓
𝜆1 = 3,859 − 4,0731 = −0,2143
𝜆1𝑐 = 1,832 − 4,0731 = −2,2413
𝑐𝑓
𝜆11 = 1,0986 − (4,0731 − (0,2143 + 2,2413)) = −0,51189
 Ahora bien, análogamente calculamos todos los parámetros 𝜆𝑖𝑗 de la Tabla 3, tal
como se muestra en la Tabla 4.
Sexo/Estado Civil Separado/a Casado/a Divorciado/a Soltero/a Total

Hombre -0,5189 0,1231 0,2011 0,1947 -0,2143
Mujer 0,5188 -0,1231 -0,2011 -0,1947 0,2143
Total -2,2413 0,3356 2,0471 -0,1415 4,0731
Tabla 4. Todas las estimaciones de 𝜆𝑖𝑗 de los datos de la Tabla 3.
De esta manera quedan todas las estimaciones para cada casilla 𝑖𝑗.
Bibliografía
Mc CULLAGH, P. 1978. Generalized linear models. New Jersey, US: Chapman and Hall. 1 Vol.
Ayala Gallego, G. (2009). [Archivo PDF] Modelos Lineales Generalizados. Universidad de

Valencia. Recuperado de
https://www.uv.es/ayala/docencia/cda/t4_modelos_lineales_generalizados.pdf
Departamento de Estadística de la Universidad San Carlos III de Madrid. (2017). [Archivo

PDF] Introducción a la Regresión Logística. Recuperado de
http://halweb.uc3m.es/esp/Personal/personas/amalonso/esp/bstat-tema9.pdf

Adc Unidad IV ML

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Adc Unidad IV ML

Cargado por

Copyright:

Formatos disponibles

Análisis de Datos en Categorías

Modelos para Datos en

Material elaborado por:

Lic. Roberto Damián Díaz González

San Lorenzo, Paraguay

1. Bosquejo de los modelos lineales generalizados

Los factores 𝑿 pueden ser:

1.1. Componentes de los modelos lineales generales

Describamos función que cumplen cada uno de los componentes:

1.1.1. Componente aleatorio

Este componente identifica las variables de respuestas 𝑌 y su distribución de probabilidad.

El componente aleatorio consiste de una variable aleatoria 𝑌 con observaciones

La variable aleatoria viene de la familia exponencial natural cuya función es la siguiente:

𝒇(𝒚𝒊 ; 𝜽𝒊 ) = 𝒂( 𝜽𝒊 )𝒃( 𝒚𝒊 )𝒆𝒙𝒑{𝒚𝒊 ; 𝑸( 𝜽𝒊 )}

𝑸( 𝜽𝒊 ): Lo denominamos como el parámetro natural.

1.1.2. Componente sistemático

Al contrario del componente aleatorio, este se encarga de especificar las variables

Otra forma de expresar el componente sistemático es a través de un vector (𝜂1 , . . . , 𝜂𝑁 ), de

Donde: 𝑖 = 1, … , 𝑁; 𝑥𝑖𝑗 es el valor 𝑗 − é𝑠𝑖𝑚𝑜 predictor en el 𝑖 − é𝑠𝑖𝑚𝑜 individuo

∑𝑗 𝛽𝑗 𝑥𝑖𝑗 es el predictor lineal

1.1.3. Función link (o enlace)

Por otro lado, para 𝑖 = 1, … , 𝑁 tenemos 𝜇𝑖 = 𝐸(𝑌𝑖 ). Entonces, en término de vectores

1.2. Regresión Logística binaria

1.2.1. Regresión Logística binaria simple (una variable explicativa)

Con estas condiciones se cumple que:

𝜋(𝑥) = 𝑃𝑟(𝑌 = 1|𝑋 = 𝑥) = 1 − 𝑃𝑟(𝑌 = 0|𝑋 = 𝑥)

𝜋(𝑥): es la probabilidad de ocurrencia del suceso de interés.

El modelo logístico establece la relación de la variable explicativa 𝑋 con la probabilidad de

Esta fórmula presentada podemos escribir de manera equivalente según lo siguiente:

Estimación de los parámetros

Los parámetros 𝛼, 𝛽 podemos estimarlos a partir de un conjunto de datos. El procedimiento

La función verosimilitud está representada de la siguiente manera:

𝐿(𝑦, 𝛽) = ∑ 𝑦𝑖 ln(𝑝𝑖 ) + (1 − 𝑦𝑖 )ln(1 − 𝑝𝑖 )

Donde 𝑛 es el número de observaciones y 𝑝𝑖 = 𝑃𝑟(𝑌 = 𝑦𝑖 |𝑥𝑖 ).

𝛽̂ ∓ 𝑧1−𝛼 √𝑉̂ 𝑎𝑟(𝛽̂ )

Contraste de hipótesis de nulidad del parámetro

Cuando estudiando una posible variable explicativa 𝑋 en nuestro modelo logístico es

El procedimiento que debemos utilizar es el siguiente:

 Hipótesis: especificamos las hipótesis H0 y 𝐻1 ,

 Decisión: Si la “sig.” del estadístico o p-valor es menor a 0.05, se rechaza 𝐻0 al nivel

Mediante el contraste de hipótesis buscamos establecer cuáles de las variables son

Interpretación de los parámetros

El parámetro que debemos interpretar es 𝛽, ya que este está asociado a la variable

La interpretación de 𝛽 podemos hacerla de dos maneras distintas, en términos de

 Término de probabilidad 𝝅(𝒙): La probabilidad de que ocurra un éxito disminuye o

 Término de logit: por cada aumento unitario de la variable 𝑋, existe un aumento o

1.2.2. Regresión Logística binaria múltiple (más de una variable

A continuación veamos más detalles de su estudio.

Esta misma relación podemos presentar de la siguiente forma:

Donde Pr(𝑌 = 1|𝑥) es la probabilidad condicional Pr(𝑌 = 1|𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑝 ).

Estimación de los parámetros

Contraste de hipótesis de nulidad del parámetro

Seguimos los mismos pasos:

 Hipótesis: especificamos las hipótesis H0 y 𝐻1 ,

 Decisión: Si la “sig.” del estadístico o p-valor es menor a 0.05, se rechaza 𝐻0 al nivel

Interpretación de los parámetros

Para interpretar los parámetros 𝛽𝑖 , es importante que mencionemos la frase “manteniendo

Entonces, la interpretación quedaría de la siguiente manera:

 En término de probabilidad 𝝅(𝒙): La probabilidad de que ocurra un éxito disminuye

Los datos siguientes corresponden a ciertas personas que trabajan en condiciones de

id persona dosis expuestos intoxicados

Ajustar un modelo de regresión logística binaria a los datos presentados en la tabla de

Posteriormente, ajustamos el modelo logístico con el comando glm