Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estimacion Normal
Estimacion Normal
Ecología
Nombre: Roy Andrés Torres
REGRESIÓN LINEAL
Marco Teórico.
Regresión logística
En estadística, la regresión logística es un tipo de análisis de regresión utilizado para predecir el
resultado de una variable categórica (una variable que puede adoptar un número limitado de
categorías) en función de las variables independientes o predictoras. Es útil para modelar
la probabilidad de un evento ocurriendo como función de otros factores. El análisis de regresión
logística se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en
inglés) que usa como función de enlace la función logit. Las probabilidades que describen el
posible resultado de un único ensayo se modelan, como una función de variables explicativas,
utilizando una función logística.
La regresión logística es usada extensamente en las ciencias médicas y sociales. Otros nombres
para regresión logística usados en varias áreas de aplicación incluyen modelo logístico, modelo
logit, y clasificador de máxima entropía.
La regresión logística analiza datos distribuidos binomialmente de la forma
𝑌𝑖 ~𝐵(𝑝𝑖 , 𝑛𝑖 ), 𝑝𝑎𝑟𝑎 𝑖 = 1, … , 𝑚,
donde los números de ensayos Bernoulli 𝑛𝑖 son conocidos y las probabilidades de éxito 𝑝𝑖 son
desconocidas. El modelo es entonces obtenido a base de lo que cada ensayo (valor de 𝑖) y el
conjunto de variables explicativas/independientes puedan informar acerca de la probabilidad final.
Estas variables explicativas pueden pensarse como un vector 𝑋𝑖 k-dimensional y el modelo toma
entonces la forma
𝑌
𝑝𝑖 = 𝐸 (𝑛𝑖 |𝑋𝑖 ).
𝑖
Los logit de las probabilidades binomiales desconocidas son modeladas como una función lineal
de los 𝑋𝑖 .
𝑝𝑖
𝑙𝑜𝑔𝑖𝑡(𝑝𝑖 ) = ln ( ) = 𝛽0 + 𝛽1 𝑥1,𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘,𝑖 .
1 − 𝑝𝑖
Note que un elemento particular de 𝑋𝑖 puede ser ajustado a 1 para todo 𝑖 obteniéndose
una constante independiente en el modelo. Los parámetros desconocidos 𝛽𝑗 son usualmente
estimados a través de máxima verosimilitud.
La interpretación de los estimados del parámetro 𝛽𝑗 es como los efectos aditivos en el logaritmo
de la razón de momios para una unidad de cambio en la 𝑗 − é𝑠𝑖𝑚𝑎 variable explicativa. En el caso
de una variable explicativa dicotómica, por ejemplo género, 𝑒 𝛽 es la estimación de la razón de
momios (odds ratio) de tener el resultado para, por decir algo, hombres comparados con mujeres.
El modelo tiene una formulación equivalente dada por:
1
𝑝𝑖 =
1 + 𝑒 −(𝛽0+𝛽1 𝑥1,𝑖 +⋯+𝛽𝑘𝑥𝑘,𝑖 )
Esta forma funcional es comúnmente identificada como un "perceptrón" de una capa simple o red
neuronal artificial de una sola capa. Una red neuronal de una sola capa calcula una salida continua
en lugar de una función definida a trozos. La derivada de 𝑝𝑖 con respecto a 𝑋 = 𝑥1 . . . 𝑥𝑘 es
calculada de la forma general:
1
𝑦=
1 + 𝑒 −𝑓(𝑋)
donde 𝑓(𝑋) es una función analítica en X. Con esta elección, la red de capa simple es idéntica al
modelo de regresión logística. Esta función tiene una derivada continua, la cual permite ser usada
en propagación hacia atrás. Esta función también es preferida pues su derivada es fácilmente
calculable:
𝑑𝑓
𝑦 ′ = 𝑦(1 − 𝑦)
𝑑𝑋
Implementación práctica.
La regresión logística unidimensional puede usarse para tratar de correlacionar la probabilidad de
una variable cualitativa binaria (asumiremos que puede tomar los valores reales "0" y "1") con una
variable escalar x. La idea es que la regresión logística aproxime la probabilidad de obtener "0"
(no ocurre cierto suceso) o "1" (ocurre el suceso) con el valor de la variable explicativa 𝑥. En esas
condiciones, la probabilidad aproximada del suceso se aproximará mediante una función
logística del tipo
𝑒 (𝛽0 +𝛽1 𝑥) 1
𝜋(𝑥) = (𝛽 +𝛽 𝑥)
= −(𝛽 +𝛽 𝑥) ,
𝑒 0 1 +1 𝑒 0 1 +1
𝜋(𝑥)
𝑔(𝑥) = 𝑙𝑛 = 𝛽0 + 𝛽1 𝑥,
1 − 𝜋(𝑥)
𝑋1 𝜀1 𝜋(𝑋1 ) 𝑔(𝑋1 )
𝑋2 𝜀2 𝜋(𝑋2 ) 𝑔(𝑋2 )
𝑋𝑛 𝜀𝑛 𝜋(𝑋𝑛 ) 𝑔(𝑋𝑛 )
∑𝑖𝑘=1 𝜀𝑘 𝜋(𝑋 )
0 ≤ 𝜋(𝑋𝑖 ) = ≤ 1, 𝑔(𝑋𝑖 ) = ln (1−𝜋(𝑋𝑖 )) = 𝛽0 + 𝛽1 𝑋𝑖
𝑖 𝑖
En el cálculo de g pueden aparecer problemas al principio del intervalo si 𝜋(𝑋𝑖 ) = 0 para algunos
valores de 𝑗.
Planteamiento del problema.
Para intentar responder a estas preguntas tenemos el conjunto de datos Challenger. El conjunto de
datos contiene información sobre el estado de los cohetes de refuerzo sólidos después de los 23
lanzamientos.
defecto: variable binaria que indican si hubo un incidente con las juntas tóricas de cohetes
sólidos. 1 codifica un incidente y 0 su ausencia. En el análisis, nos centramos en las juntas
tóricas de la junta de campo como los factores más determinantes para el accidente.
temp: temperatura en el día del lanzamiento. Medido en grados Fahrenheit.
Table 1: Conjunto de datos de Challenger.
1 12/04/81 0 66
2 12/11/81 1 70
3 22/03/82 0 69
5 11/11/82 0 68
6 04/04/83 0 67
7 18/06/83 0 72
8 30/08/83 0 73
9 28/11/83 0 70
41-B 03/02/84 1 57
41-C 06/04/84 1 63
41-D 30/08/84 1 70
41-G 05/10/84 0 78
51-A 08/11/84 0 67
51-C 24/01/85 1 53
Table 1: Conjunto de datos de Challenger.
51-D 12/04/85 0 67
51-B 29/04/85 0 75
51-G 17/06/85 0 70
51-F 29/07/85 0 81
51-I 27/08/85 0 76
51-J 03/10/85 0 79
61-A 30/10/85 1 75
61-B 26/11/85 0 76
61-C 12/01/86 1 58
Resultados.
Comencemos el análisis replicando las Figura 1(a) y 1(b) y verificando que la regresión lineal no
es la herramienta adecuada para responder P1 – P3. Para eso, hacemos dos diagramas de dispersión
de defecto (número de incidentes totales en las uniones de campo) versus temp.
Hay un problema fundamental en el uso de la regresión lineal para estos datos: la respuesta no es
continua. Como consecuencia, no hay linealidad y los errores alrededor de la media no son
normales (de hecho, son fuertemente no normales). Verifiquemos esto con los gráficos de
diagnóstico correspondientes:
Aunque la regresión lineal no es la herramienta adecuada para estos datos, es capaz de detectar la diferencia
obvia entre los dos gráficos:
1. La tendencia para los lanzamientos con incidentes es plana, lo que sugiere que no hay
dependencia de la temperatura (Figura 1a). Este fue uno de los argumentos detrás de la decisión
de la NASA de lanzar el cohete a una temperatura de 30.92 grados.
2. Sin embargo, la tendencia para todos los lanzamientos indica una clara dependencia negativa
entre la temperatura y la cantidad de incidentes. (Figura 1a). Piénselo de esta manera: la
temperatura mínima para un lanzamiento sin incidentes jamás registrada fue superior a 64.4 grados,
y el Challenger se lanzó a 30.92 sin conocer claramente los efectos de temperaturas tan bajas.
En lugar de tratar de predecir el número de incidentes, nos concentraremos en modelar la
probabilidad de esperar al menos un incidente dada la temperatura, un enfoque más simple pero
también revelador. En otras palabras, buscamos estimar la siguiente curva:
de defecto y temp. Esta probabilidad no se puede modelar correctamente como una función lineal
como 𝛽0 + 𝛽1 𝑥, ya que inevitablemente caerá afuera [0,1] para algún valor de 𝑥 (algunos tendrán
probabilidades negativas o probabilidades mayores que una). La técnica que resuelve este
problema es la regresión logística. La idea detrás es bastante simple: transformar un modelo lineal
𝛽0 + 𝛽1 𝑥- que tiene como objetivo una respuesta en 𝕹- para que produzca un valor en [0,1]. Esto
se logra mediante la función logística:
𝑒𝑡 1
𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝑡) = 1+𝑒 𝑡 = 1+𝑒 −𝑡 . (1.1)
𝑒 𝛽0 +𝛽1 𝑥
ℙ(𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑡𝑒 = 1|𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 𝑥) = 𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝛽0 + 𝛽1 𝑥) =
1 + 𝑒 −(𝛽0 +𝛽1 𝑥)
con 𝛽0 + 𝛽1 𝑥 desconocidos.
Se generará un código como este:
Conclusión.
El resumen del modelo logístico es notablemente diferente de la regresión lineal, ya que la
metodología detrás es bastante diferente. Sin embargo, tenemos pruebas de la importancia de cada
coeficiente. Aquí obtenemos que la temperatura es significativamente diferente de cero, al menos
a un nivel 𝛼 = 0.05. Por lo tanto, podemos concluir que la temperatura está afectando la
probabilidad de un incidente con las juntas tóricas (respuestas P1).
A la vista de esta curva y el resumen del modelo, podemos concluir que la temperatura estaba
aumentando la probabilidad de un incidente de junta tórica (P2). De hecho, los intervalos de
confianza para los coeficientes muestran un significado de correlación negativa a nivel 𝛼 = 0.05:
exp(coef(reg))
> confint(reg, level = 0.95)
Waiting for profiling to be done...
2.5 % 97.5 %
(Intercept) 3.3305848 34.34215133
temp -0.5154718 -0.06082076
Finalmente, la probabilidad de tener al menos un incidente con las juntas tóricas en el día del
lanzamiento fue 0.9996 según el modelo logístico ajustado (P3). Esto se obtiene fácilmente:
datos <- data.frame(temp = 30.92)
probabilidades <- predict(reg, datos, type = 'response')
> datos
temp
1 30.92
> probabilidades
1
0.999616
Esta extrapolación, junto con las evidencias planteadas por un análisis simple como lo hicimos
nosotros, deberían haber sido argumentos sólidos para posponer el lanzamiento.
Referencias.
Lab notes for Statistics for Social Sciences II: Multivariate Techniques. BSc in International
Studies and BSc in International Studies & Political Science, Carlos III University of Madrid.
Eduardo García Portugués2018-01-20, v12.3 https://bookdown.org/egarpor/SSS2-UC3M/logreg-
examps.html
Presidential Commission on the Space Shuttle Challenger Accident. 1986. Report of the
Presidential Commission on the Space Shuttle Challenger Accident (Vols. 1 & 2). Washington,
DC. http://history.nasa.gov/rogersrep/genindex.htm.
Dalal, Siddhartha R., Edward B. Fowlkes, and Bruce Hoadley. 1989. “Risk Analysis of the Space
Shuttle: Pre-Challenger Prediction of Failure.” Journal of the American Statistical Association 84
(408): 945–57. doi:10.1080/01621459.1989.10478858.