Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ecología
Nombre: Roy Andrés Torres
REGRESIÓN LINEAL BINOMIAL
Introducción
Se va analizar el mediante “el desastre del Challenger” el empleo de la REGRESIÓN LINEAL
BINOMIAL, que es un tipo de análisis de regresión utilizado para predecir el resultado de una
variable categórica (una variable que puede adoptar un número limitado de categorías) en función
de las variables independientes o predictoras, es útil para modelar la probabilidad de un evento
ocurriendo como función de otros factores. El análisis de regresión logística se enmarca en el
conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglés) que usa como función
de enlace la función logit. Las probabilidades que describen el posible resultado de un único
ensayo se modelan como una función de variables explicativas, utilizando una función logística.
Con este análisis estamos interesados en cómo la probabilidad de falla en una junta tórica dada
está relacionada con la temperatura de lanzamiento y calcularemos esa probabilidad cuando la
temperatura es de 31 ° F. Esta probabilidad no se puede modelar correctamente como una función
lineal ya que inevitablemente caerá afuera del intervalo[0,1] deseado. La idea detrás es bastante
simple: transformar un modelo lineal que tiene como objetivo una respuesta en ℝ- para que
produzca un valor en [0,1] esto se logra mediante la función logística. Pretendemos mediante
nuestro análisis, encontrar pruebas que deberían haber sido argumentos sólidos para posponer el
lanzamiento.
Problema.
Lo que resultó en millones de niños en edad escolar que presenciaron el accidente. El accidente
tuvo serias consecuencias para la credibilidad de la NASA y resultó en una interrupción de 32
meses en el programa del transbordador. La Comisión Presidencial Rogers (formada por el
astronauta Neil A. Armstrong y el Premio Nobel Richard P. Feynman, entre otros) fue creada para
investigar el desastre.
La comisión determinó que la desintegración comenzó con la falla de un sello de junta tórica en el
motor del cohete sólido debido a las inusuales temperaturas frías (-0.6 grados Celsius) durante el
lanzamiento. Esta falla produjo una ruptura de la combustión de gas a través del motor de cohete
sólido que comprometió toda la estructura del transbordador, lo que resultó en su desintegración
debido a las fuerzas aerodinámicas extremas. El problema con las juntas tóricas era algo conocido:
la noche antes del lanzamiento, hubo una teleconferencia de tres horas entre los ingenieros de
motores y la administración de la NASA, discutiendo el efecto de la baja temperatura prevista para
el lanzamiento en el rendimiento de la junta tórica. La conclusión, influenciada por la Figura 1(a)
fue: "Los datos de temperatura no son concluyentes para predecir el soplado de la junta tórica
primaria".
1
Figura 1(a): Número de incidentes en las juntas tóricas (juntas archivadas) versus temperaturas. El
panel a incluye solo vuelos con incidentes.
1
NASA. (1986). Ilustración del número de incidentes en las juntas tóricas. [Figura 1(a)]. Recuperado de
https://bookdown.org/egarpor/SSS2-UC3M/logreg-examps.html.
3
La Comisión Rogers observó una falla importante en la Figura 1(a): los vuelos con cero incidentes
fueron excluidos de la trama porque se consideró que estos vuelos no aportaron ninguna
información sobre el efecto de la temperatura (Figura 1(b)). La Comisión Rogers concluyó: Un
análisis cuidadoso del historial de vuelo del rendimiento de la junta tórica habría revelado la
correlación del daño de la junta tórica a baja temperatura”.
2
Figura 2(b): Número de incidentes en las juntas tóricas (juntas archivadas) versus temperaturas. El
panel b incluye todos vuelos (con y sin incidentes).
El conjunto de datos contiene información sobre el estado de los cohetes de refuerzo sólidos
después de los 23 lanzamientos.
Defecto: variable binaria que indican si hubo un incidente con las juntas tóricas de cohetes
sólidos. 1 codifica un incidente y 0 su ausencia. En el análisis, nos centramos en las juntas
tóricas de la junta de campo como los factores más determinantes para el accidente.
Temperatura: temperatura en el día del lanzamiento. Medido en grados Fahrenheit.
2
NASA. (1986). Ilustración de los vuelos con y sin incidentes en las juntas tóricas. [Figura 1(b)]. Recuperado de
https://bookdown.org/egarpor/SSS2-UC3M/logreg-examps.html.
4
3
Table 1: Conjunto de datos de Challenger.
3
NASA, (1986). Challenger dataset. Recuperado de https://history.nasa.gov/rogersrep/genindex.htm.
5
Objetivos.
El propósito de este estudio de caso es cuantificar cuál fue la influencia de la temperatura en la
probabilidad de tener al menos un incidente relacionado con las juntas tóricas. Específicamente,
queremos abordar las siguientes preguntas:
1. P1. ¿La temperatura está asociada con incidentes de junta tórica?
2. P2. ¿De qué manera la temperatura estaba afectando la probabilidad de incidentes de junta
tórica?
3. P3. ¿Cuál fue la probabilidad pronosticada de un incidente en una junta tórica para la
temperatura del día de lanzamiento?
Marco Teórico.
Regresión logística
La regresión logística analiza datos distribuidos binomialmente de la forma
𝑌𝑖 ~𝐵(𝑝𝑖 , 𝑛𝑖 ), 𝑝𝑎𝑟𝑎 𝑖 = 1, … , 𝑚,
donde los números de ensayos Bernoulli 𝑛𝑖 son conocidos y las probabilidades de éxito 𝑝𝑖 son
desconocidas. El modelo es entonces obtenido a base de lo que cada ensayo (valor de 𝑖) y el
conjunto de variables explicativas/independientes puedan informar acerca de la probabilidad final.
Estas variables explicativas pueden pensarse como un vector 𝑋𝑖 k-dimensional y el modelo toma
entonces la forma
𝑌
𝑝𝑖 = 𝐸 (𝑛𝑖 |𝑋𝑖 ).
𝑖
Los logit de las probabilidades binomiales desconocidas son modeladas como una función lineal
de los 𝑋𝑖 .
𝑝𝑖
𝑙𝑜𝑔𝑖𝑡(𝑝𝑖 ) = ln ( ) = 𝛽0 + 𝛽1 𝑥1,𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘,𝑖 .
1 − 𝑝𝑖
Note que un elemento particular de 𝑋𝑖 puede ser ajustado a 1 para todo 𝑖 obteniéndose
una constante independiente en el modelo. Los parámetros desconocidos 𝛽𝑗 son usualmente
estimados a través de máxima verosimilitud.
La interpretación de los estimados del parámetro 𝛽𝑗 es como los efectos aditivos en el logaritmo
de la razón de momios para una unidad de cambio en la 𝑗 − é𝑠𝑖𝑚𝑎 variable explicativa. En el caso
de una variable explicativa dicotómica, por ejemplo género, 𝑒 𝛽 es la estimación de la razón de
momios (odds ratio) de tener el resultado para, por decir algo, hombres comparados con mujeres.
6
1
𝑝𝑖 =
1 + 𝑒 −(𝛽0+𝛽1 𝑥1,𝑖 +⋯+𝛽𝑘𝑥𝑘,𝑖 )
Esta forma funcional es comúnmente identificada como un "perceptrón" de una capa simple o red
neuronal artificial de una sola capa. Una red neuronal de una sola capa calcula una salida continua
en lugar de una función definida a trozos. La derivada de 𝑝𝑖 con respecto a 𝑋 = 𝑥1 … 𝑥𝑘 es
calculada de la forma general:
1
𝑦=
1 + 𝑒 −𝑓(𝑋)
donde 𝑓(𝑋) es una función analítica en X. Con esta elección, la red de capa simple es idéntica al
modelo de regresión logística. Esta función tiene una derivada continua, la cual permite ser usada
en propagación hacia atrás. Esta función también es preferida pues su derivada es fácilmente
calculable:
𝑑𝑓
𝑦 ′ = 𝑦(1 − 𝑦)
𝑑𝑋
Implementación práctica.
La regresión logística unidimensional puede usarse para tratar de correlacionar la probabilidad de
una variable cualitativa binaria (asumiremos que puede tomar los valores reales "0" y "1") con una
variable escalar x. La idea es que la regresión logística aproxime la probabilidad de obtener "0"
(no ocurre cierto suceso) o "1" (ocurre el suceso) con el valor de la variable explicativa 𝑥. En esas
condiciones, la probabilidad aproximada del suceso se aproximará mediante una función
logística del tipo
𝑒 (𝛽0 +𝛽1 𝑥) 1
𝜋(𝑥) = (𝛽 +𝛽 𝑥)
= −(𝛽 +𝛽 𝑥) ,
𝑒 0 1 +1 𝑒 0 1 +1
7
4
Figura 2: Función logística con 𝛽0 + 𝛽1 𝑥 en el eje horizontal y 𝜋(𝑥) en el eje vertical.
que puede reducirse al cálculo de una regresión lineal para la función logit de la probabilidad:
𝜋(𝑥)
𝑔(𝑥) = 𝑙𝑛 = 𝛽0 + 𝛽1 𝑥,
1 − 𝜋(𝑥)
o una regresión exponencial:
𝜋(𝑥)
= 𝑒 (𝛽0 +𝛽1 𝑥) .
1 − 𝜋(𝑥)
El gráfico de la función logística se muestra en la Figura 2, la variable independiente es la
combinación lineal (𝛽0 + 𝛽1 𝑥) y la variable dependiente es la probabilidad estimada 𝜋(𝑥). Si se
realiza la regresión lineal, la forma de la probabilidad estimada puede ser fácilmente recuperada a
partir de los coeficientes calculados:
Para hacer la regresión deben tomarse los valores 𝑋𝑖 de las observaciones ordenados de mayor a
menor y formar la siguiente tabla:
4
Recuperado de https://www.wikiwand.com/es/Regresi%C3%B3n_log%C3%ADstica.
8
∑𝑖𝑘=1 𝜀𝑘 𝜋(𝑋 )
0 ≤ 𝜋(𝑋𝑖 ) = ≤ 1, 𝑔(𝑋𝑖 ) = ln (1−𝜋(𝑋𝑖 )) = 𝛽0 + 𝛽1 𝑋𝑖
𝑖 𝑖
En el cálculo de g pueden aparecer problemas al principio del intervalo si 𝜋(𝑋𝑖 ) = 0 para algunos
valores de 𝑗.
Modelo.
Comencemos el análisis replicando las Figura 1(b) y verificando que la regresión lineal no es la
herramienta adecuada para responder P1 – P3. Para eso, hacemos dos diagramas de dispersión de
Defecto (número de incidentes totales en las uniones de campo) versus Temperatura.
Probabilidad de defecto
Temperatura
Diagrama 1. Dispersión de Defecto versus Temperatura.
9
Hay un problema fundamental en el uso de la regresión lineal para estos datos: la respuesta no es
continua. Como consecuencia, no hay linealidad y los errores alrededor de la media no son
normales (de hecho, son fuertemente no normales).
Aunque la regresión lineal no es la herramienta adecuada para estos datos, es capaz de detectar la
diferencia obvia entre los dos gráficos:
1. La tendencia para los lanzamientos con incidentes es plana, lo que sugiere que no hay
dependencia de la temperatura (Figura 1(a)). Este fue uno de los argumentos detrás de
la decisión de la NASA de lanzar el cohete a una temperatura de 30.92 grados.
2. Sin embargo, la tendencia para todos los lanzamientos indica una clara dependencia
negativa entre la temperatura y la cantidad de incidentes. (Figura 1(b)). Piénselo de
esta manera: la temperatura mínima para un lanzamiento sin incidentes jamás registrada
fue superior a 64.4 grados, y el Challenger se lanzó a 30.92 sin conocer claramente los
efectos de temperaturas tan bajas.
En lugar de tratar de predecir el número de incidentes, nos concentraremos en modelar la
probabilidad de esperar al menos un incidente dada la temperatura, un enfoque más simple pero
también revelador. En otras palabras, buscamos estimar la siguiente curva:
𝑒𝑡 1
𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝑡) = 1+𝑒 𝑡 = 1+𝑒 −𝑡 .
Para modelar la probabilidad de que las juntas tóricas fallen a varias temperaturas, podríamos
aplicar el modelo de regresión logística,
10
𝑒 𝛽0 +𝛽1 𝑥𝑖
ℙ(𝑌𝑖 = 1|𝑥𝑖 ) = = 𝜋𝑖
1 + 𝑒 (𝛽0 +𝛽1 𝑥𝑖 )
𝐻0 :𝛽1 = 0
𝐻𝑎 :𝛽1 ≠ 0
𝑒 𝛽0 +𝛽1 𝑥
ℙ(𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑡𝑒 = 1|𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 𝑥) = 𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝛽0 + 𝛽1 𝑥) =
1 + 𝑒 (𝛽0 +𝛽1 𝑥)
con 𝛽0 + 𝛽1 𝑥 desconocidos.
Denotando por 𝐿((𝑥 (1) , 𝑐 (1) ), … , (𝑥 (𝑁) , 𝑐 (𝑁) ), 𝛽0 , 𝛽1 , … , 𝛽𝑛 ) a la función de verosimilitud asociada
̂0 , 𝛽
a una muestra de tamaño 𝑁, para un modelo de regresión logística con parámetros 𝛽 ̂1 , … , 𝛽
̂𝑛 ,
con una variable clase 𝐶 dicotómica, se tiene que:
𝑁
(𝑗) 1−𝑐 (𝑗)
(𝑗) 𝑐 (𝑗)
= ∏ 𝑃(𝐶 = 1|𝑥 ) (1 − 𝑃(𝐶 = 1|𝑥 ))
𝑗=1
Por otra parte, teniendo en cuenta que 𝑙𝑛(𝑧) es una función creciente estrictamente, y por tanto el
̂0 , 𝛽
valor de los parámetros 𝛽 ̂1 , … , 𝛽
̂𝑛 maximizando
𝑁 𝑁
(𝑗) (𝑗)
= ∑𝑐 𝑙𝑛𝑃(𝐶 = 1|𝑥 ) + ∑(1 − 𝑐 (𝑗) ) ln (1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )) =
𝑗=1 𝑗=1
𝑁 𝑁
= ∑ 𝑐 (𝑗) [𝑙𝑛𝑃(𝐶 = 1|𝑥 (𝑗) ) − ln (1 − 𝑃(𝐶 = 1|𝑥 (𝑗) ))] + ∑ ln (1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )) =
𝑗=1 𝑗=1
𝑁 𝑁
(𝑗)
𝑃(𝐶 = 1|𝑥 (𝑗) )
= ∑𝑐 𝑙𝑛 + ∑ ln (1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )) =
1 − 𝑃(𝐶 = 1|𝑥 (𝑗) )
𝑗=1 𝑗=1
y que
𝑛 (𝑗) )
(𝑗) 𝑒 −(𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 1
(1 − 𝑃(𝐶 = 1|𝑥 )) = =
−(𝛽0 +∑𝑛 (𝑗)
𝑖=1 𝛽𝑖 𝑥𝑖 ) (𝛽0 +∑𝑛 (𝑗)
𝑖=1 𝛽𝑖 𝑥𝑖 )
1+𝑒 1+𝑒
12
Obtenemos
𝑁 𝑛 𝑁
(𝑗) (𝑗) 𝑛 (𝑗) )
∑𝑐 (𝛽0 + ∑ 𝛽𝑖 𝑥𝑖 ) + ∑ ln (1 + 𝑒 (𝛽0+∑𝑖=1 𝛽𝑖 𝑥𝑖 )
𝑗=1 𝑖=1 𝑗=1
̂0 , 𝛽
Los estimadores máximos verosímiles 𝛽 ̂1 , … , 𝛽
̂𝑛 para los parámetros 𝛽0 , 𝛽1 , … , 𝛽𝑛 se van a
obtener al resolver al resolver el siguiente sistema de 𝑛 + 1 ecuaciones e 𝑛 + 1 incógnitas:
𝑁 𝑁 𝑛 (𝑗)
𝜕𝑙𝑛𝐿 𝑒 (𝛽0+∑𝑖=1 𝛽𝑖 𝑥𝑖 )
= ∑ 𝑐 (𝑗) − ∑ 𝑛 (𝑗) = 0
𝜕𝛽0 1 + 𝑒 (𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 )
𝑗=1 𝑗=1
𝑁 𝑁 𝑛 (𝑗)
𝜕𝑙𝑛𝐿 𝑒 (𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 )
= ∑ 𝑐 (𝑗) 𝑥1 (𝑗) − ∑ 𝑥1 (𝑗) 𝑛 (𝑗) = 0
𝜕𝛽1 1 + 𝑒 (𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 )
𝑗=1 𝑗=1
𝑁 𝑁 𝑛 (𝑗)
𝜕𝑙𝑛𝐿 (𝑗) (𝑗) (𝑗) 𝑒 (𝛽0 +∑𝑖=1 𝛽𝑖 𝑥𝑖 )
= ∑ 𝑐 𝑥𝑛 − ∑ 𝑥𝑛 𝑛 (𝑗) = 0
𝜕𝛽𝑛 1 + 𝑒 (𝛽0+∑𝑖=1 𝛽𝑖 𝑥𝑖 )
𝑗=1 𝑗=1
donde
𝛽̂ = (𝛽
̂1 , … , 𝛽
̂𝑛 )
𝑝(1) (1 − 𝑝(1) ) ⋯ 0
𝑾=( ⋮ ⋱ ⋮ )
(𝑁) (𝑁)
0 ⋯ 𝑝 (1 − 𝑝 )
(𝑗) ̂ 𝑣𝑖𝑒𝑗𝑜 )
(𝑗) 𝑒 (𝑥 𝛽
𝑝 = ̂ 𝑛𝑢𝑒𝑣𝑜 )
(𝑗) 𝛽
1 + 𝑒 (𝑥
Los criterios de convergencia del método iterativo utilizado para estimar los parámetros pueden
ser varios, pero en todos ellos la idea subyacente es que bien 𝛽̂ 𝑣𝑖𝑒𝑗𝑜 ≅ 𝛽̂ 𝑛𝑢𝑒𝑣𝑜 o 𝑙𝑛𝐿(𝛽̂ 𝑣𝑖𝑒𝑗𝑜 ) ≅
𝑙𝑛𝐿(𝛽̂ 𝑛𝑢𝑒𝑣𝑜 ) o 𝑝̂ 𝑣𝑖𝑒𝑗𝑜 ≅ 𝑝̂ 𝑛𝑢𝑒𝑣𝑜 .
Resultados.
Utilizamos nuestro programa en R para obtener estimaciones de los coeficientes 𝛽0 y 𝛽1 para los
datos, por lo tanto, el modelo estimado para 𝜋𝑖 viene dado por
𝑒 15.043−0.232𝑥𝑖
ℙ(𝑌𝑖 = 1|𝑥𝑖 ) = = 𝜋𝑖
1 + 𝑒 15.043−0.232𝑥𝑖
Tracemos la curva logística ajustada para ver que efectivamente la probabilidad de incidente y la
temperatura están negativamente correlacionadas:
A la vista de esta curva y el resumen del modelo, podemos concluir que la temperatura estaba
aumentando la probabilidad de un incidente de junta tórica (P2).
De hecho, los intervalos de confianza para los coeficientes muestran un significado de correlación
negativa a nivel 𝛼 = 0.05:
2.5 % 97.5 %
Defecto 3.3305848 34.34215133
Temperatura -0.5154718 -0.06082076
Para demostrar que la regresión logística se ajusta bien a estos datos, aplicamos la prueba de
bondad de ajuste de Hosmer-Lemeshow, utilice las pruebas de bondad de ajuste para determinar
si las probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que
la distribución binomial no predice.
15
Si el valor p para la prueba de bondad de ajuste es menor que el nivel de significancia elegido, las
probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que la
distribución binomial no predice.
p-value = 0.1157
Conclusiones.
𝑒 15.043−0.232.31
ℙ(𝑌𝑖 = 1|𝑥𝑖 ) = = 𝜋𝑖
1 + 𝑒 15.043−0.232.31
Finalmente, la probabilidad de tener al menos un incidente con las juntas tóricas en el día del
lanzamiento fue 0.9996 según el modelo logístico ajustado (P3).
Esta extrapolación, junto con las evidencias planteadas por un análisis simple como lo hicimos
nosotros, deberían haber sido argumentos sólidos para posponer el lanzamiento.
16
Referencias.
Lab notes for Statistics for Social Sciences II: Multivariate Techniques. BSc in International
Studies and BSc in International Studies & Political Science, Carlos III University of Madrid.
Eduardo García Portugués2018-01-20, v12.3 https://bookdown.org/egarpor/SSS2-UC3M/logreg-
examps.html
Presidential Commission on the Space Shuttle Challenger Accident. 1986. Report of the
Presidential Commission on the Space Shuttle Challenger Accident (Vols. 1 & 2). Washington,
DC. http://history.nasa.gov/rogersrep/genindex.htm.
Dalal, Siddhartha R., Edward B. Fowlkes, and Bruce Hoadley. 1989. “Risk Analysis of the Space
Shuttle: Pre-Challenger Prediction of Failure.” Journal of the American Statistical Association 84
(408): 945–57. doi:10.1080/01621459.1989.10478858.
Pedro Larranaga, Iñaki Inza, Abdelmalik Moujahid. Departamento de Ciencias de la Computación
e Inteligencia Artificial. Universidad del País Vasco–Euskal Herriko Unibertsitatea.
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t7logistica.