Estimacion Normal

Universidad Central del Ecuador
Facultad de Ciencias Físicas y Matemática

Ingeniería Matemática
Ecología
Nombre: Roy Andrés Torres
REGRESIÓN LINEAL
Caso de estudio: EL DESASTRE DEL CHALLENGER.

El desastre del Challenger ocurrió el 28 de enero de 1986, cuando el orbitador del transbordador
espacial NASA Challenger se separó y se desintegró a los 73 segundos de su vuelo, lo que provocó
la muerte de sus siete miembros de la tripulación. El accidente conmocionó profundamente a la
sociedad estadounidense, en parte debido a la atención que había recibido la misión debido a la
presencia de Christa McAuliffe, quien habría sido la primera maestra astronauta. Debido a esto, la
televisión de la NASA transmitió en vivo el lanzamiento a las escuelas públicas de EE. UU., Lo
que resultó en millones de niños en edad escolar que presenciaron el accidente. El accidente tuvo
serias consecuencias para la credibilidad de la NASA y resultó en una interrupción de 32 meses
en el programa del transbordador. La Comisión Presidencial Rogers (formada por el astronauta
Neil A. Armstrong y el Premio Nobel Richard P. Feynman, entre otros) fue creada para investigar
el desastre.
Introducción.
La comisión determinó que la desintegración comenzó con la falla de un sello de junta tórica en el
motor del cohete sólido debido a las inusuales temperaturas frías (-0.6 grados Celsius) durante el
lanzamiento. Esta falla produjo una ruptura de la combustión de gas a través del motor de cohete
sólido que comprometió toda la estructura del transbordador, lo que resultó en su desintegración
debido a las fuerzas aerodinámicas extremas. El problema con las juntas tóricas era algo conocido:
la noche antes del lanzamiento, hubo una teleconferencia de tres horas entre los ingenieros de
motores y la administración de la NASA, discutiendo el efecto de la baja temperatura prevista para
el lanzamiento en el rendimiento de la junta tórica. La conclusión, influenciada por la Figura 1 fue:
"Los datos de temperatura no son concluyentes para predecir el soplado de la junta tórica
primaria".
Figura 1: Número de incidentes en las juntas tóricas (juntas archivadas) versus temperaturas. El
panel a incluye solo vuelos con incidentes. El panel b contiene todos los vuelos (con y sin
incidentes)
La Comisión Rogers observó una falla importante en la Figura 1(a): los vuelos con cero incidentes
fueron excluidos de la trama porque se consideró que estos vuelos no aportaron ninguna
información sobre el efecto de la temperatura (Figura 1(b)). La Comisión Rogers concluyó: Un
análisis cuidadoso del historial de vuelo del rendimiento de la junta tórica habría revelado la
correlación del daño de la junta tórica a baja temperatura”.
Objetivos.
El propósito de este estudio de caso es cuantificar cuál fue la influencia de la temperatura en la
probabilidad de tener al menos un incidente relacionado con las juntas tóricas. Específicamente,
queremos abordar las siguientes preguntas:
1. P1. ¿La temperatura está asociada con incidentes de junta tórica?
2. P2. ¿De qué manera la temperatura estaba afectando la probabilidad de incidentes de junta
tórica?
3. P3. ¿Cuál fue la probabilidad pronosticada de un incidente en una junta tórica para la
temperatura del día de lanzamiento?
Marco Teórico.
Regresión logística
En estadística, la regresión logística es un tipo de análisis de regresión utilizado para predecir el
resultado de una variable categórica (una variable que puede adoptar un número limitado de
categorías) en función de las variables independientes o predictoras. Es útil para modelar
la probabilidad de un evento ocurriendo como función de otros factores. El análisis de regresión
logística se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en
inglés) que usa como función de enlace la función logit. Las probabilidades que describen el
posible resultado de un único ensayo se modelan, como una función de variables explicativas,
utilizando una función logística.
La regresión logística es usada extensamente en las ciencias médicas y sociales. Otros nombres
para regresión logística usados en varias áreas de aplicación incluyen modelo logístico, modelo
logit, y clasificador de máxima entropía.
La regresión logística analiza datos distribuidos binomialmente de la forma
𝑌𝑖 ~𝐵(𝑝𝑖 , 𝑛𝑖 ), 𝑝𝑎𝑟𝑎 𝑖 = 1, … , 𝑚,
donde los números de ensayos Bernoulli 𝑛𝑖 son conocidos y las probabilidades de éxito 𝑝𝑖 son
desconocidas. El modelo es entonces obtenido a base de lo que cada ensayo (valor de 𝑖) y el
conjunto de variables explicativas/independientes puedan informar acerca de la probabilidad final.
Estas variables explicativas pueden pensarse como un vector 𝑋𝑖 k-dimensional y el modelo toma
entonces la forma
𝑌
𝑝𝑖 = 𝐸 (𝑛𝑖 |𝑋𝑖 ).
𝑖
Los logit de las probabilidades binomiales desconocidas son modeladas como una función lineal
de los 𝑋𝑖 .
𝑝𝑖
𝑙𝑜𝑔𝑖𝑡(𝑝𝑖 ) = ln ( ) = 𝛽0 + 𝛽1 𝑥1,𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘,𝑖 .
1 − 𝑝𝑖
Note que un elemento particular de 𝑋𝑖 puede ser ajustado a 1 para todo 𝑖 obteniéndose
una constante independiente en el modelo. Los parámetros desconocidos 𝛽𝑗 son usualmente
estimados a través de máxima verosimilitud.
La interpretación de los estimados del parámetro 𝛽𝑗 es como los efectos aditivos en el logaritmo
de la razón de momios para una unidad de cambio en la 𝑗 − é𝑠𝑖𝑚𝑎 variable explicativa. En el caso
de una variable explicativa dicotómica, por ejemplo género, 𝑒 𝛽 es la estimación de la razón de
momios (odds ratio) de tener el resultado para, por decir algo, hombres comparados con mujeres.
El modelo tiene una formulación equivalente dada por:
1
𝑝𝑖 =
1 + 𝑒 −(𝛽0+𝛽1 𝑥1,𝑖 +⋯+𝛽𝑘𝑥𝑘,𝑖 )
Esta forma funcional es comúnmente identificada como un "perceptrón" de una capa simple o red
neuronal artificial de una sola capa. Una red neuronal de una sola capa calcula una salida continua
en lugar de una función definida a trozos. La derivada de 𝑝𝑖 con respecto a 𝑋 = 𝑥1 . . . 𝑥𝑘 es
calculada de la forma general:
1
𝑦=
1 + 𝑒 −𝑓(𝑋)
donde 𝑓(𝑋) es una función analítica en X. Con esta elección, la red de capa simple es idéntica al
modelo de regresión logística. Esta función tiene una derivada continua, la cual permite ser usada
en propagación hacia atrás. Esta función también es preferida pues su derivada es fácilmente
calculable:
𝑑𝑓
𝑦 ′ = 𝑦(1 − 𝑦)
𝑑𝑋
Implementación práctica.
La regresión logística unidimensional puede usarse para tratar de correlacionar la probabilidad de
una variable cualitativa binaria (asumiremos que puede tomar los valores reales "0" y "1") con una
variable escalar x. La idea es que la regresión logística aproxime la probabilidad de obtener "0"
(no ocurre cierto suceso) o "1" (ocurre el suceso) con el valor de la variable explicativa 𝑥. En esas
condiciones, la probabilidad aproximada del suceso se aproximará mediante una función
logística del tipo
𝑒 (𝛽0 +𝛽1 𝑥) 1
𝜋(𝑥) = (𝛽 +𝛽 𝑥)
= −(𝛽 +𝛽 𝑥) ,
𝑒 0 1 +1 𝑒 0 1 +1
Figura 2: Función logística con 𝛽0 + 𝛽1 𝑥 en el eje horizontal y 𝜋(𝑥) en el eje vertical.

que puede reducirse al cálculo de una regresión lineal para la función logit de la probabilidad:
𝜋(𝑥)
𝑔(𝑥) = 𝑙𝑛 = 𝛽0 + 𝛽1 𝑥,
1 − 𝜋(𝑥)
o una regresión exponencial:

𝜋(𝑥)
= 𝑒 (𝛽0 +𝛽1 𝑥) .
1 − 𝜋(𝑥)
El gráfico de la función logística se muestra en la Figura 2, la variable independiente es la

combinación lineal (𝛽0 + 𝛽1 𝑥) y la variable dependiente es la probabilidad estimada 𝜋(𝑥). Si se
realiza la regresión lineal, la forma de la probabilidad estimada puede ser fácilmente recuperada a
partir de los coeficientes calculados:
Para hacer la regresión deben tomarse los valores 𝑋𝑖 de las observaciones ordenados de mayor a
menor y formar la siguiente tabla:
Valores Valor de Probabilidad

Logit
ordenados categoría estimada
𝑋1 𝜀1 𝜋(𝑋1 ) 𝑔(𝑋1 )
𝑋2 𝜀2 𝜋(𝑋2 ) 𝑔(𝑋2 )
... ... ... ...
𝑋𝑛 𝜀𝑛 𝜋(𝑋𝑛 ) 𝑔(𝑋𝑛 )
Donde 𝜀𝑗 es "0" o "1" según el caso y, además:
∑𝑖𝑘=1 𝜀𝑘 𝜋(𝑋 )
0 ≤ 𝜋(𝑋𝑖 ) = ≤ 1, 𝑔(𝑋𝑖 ) = ln (1−𝜋(𝑋𝑖 )) = 𝛽0 + 𝛽1 𝑋𝑖
𝑖 𝑖
En el cálculo de g pueden aparecer problemas al principio del intervalo si 𝜋(𝑋𝑖 ) = 0 para algunos
valores de 𝑗.
Planteamiento del problema.
Para intentar responder a estas preguntas tenemos el conjunto de datos Challenger. El conjunto de
datos contiene información sobre el estado de los cohetes de refuerzo sólidos después de los 23
lanzamientos.
 defecto: variable binaria que indican si hubo un incidente con las juntas tóricas de cohetes
sólidos. 1 codifica un incidente y 0 su ausencia. En el análisis, nos centramos en las juntas
tóricas de la junta de campo como los factores más determinantes para el accidente.
 temp: temperatura en el día del lanzamiento. Medido en grados Fahrenheit.
Table 1: Conjunto de datos de Challenger.
Lanzamiento Fecha Defecto Temperatura
1 12/04/81 0 66
2 12/11/81 1 70
3 22/03/82 0 69
5 11/11/82 0 68
6 04/04/83 0 67
7 18/06/83 0 72
8 30/08/83 0 73
9 28/11/83 0 70
41-B 03/02/84 1 57
41-C 06/04/84 1 63
41-D 30/08/84 1 70
41-G 05/10/84 0 78
51-A 08/11/84 0 67
51-C 24/01/85 1 53
Table 1: Conjunto de datos de Challenger.
Lanzamiento Fecha Defecto Temperatura
51-D 12/04/85 0 67
51-B 29/04/85 0 75
51-G 17/06/85 0 70
51-F 29/07/85 0 81
51-I 27/08/85 0 76
51-J 03/10/85 0 79
61-A 30/10/85 1 75
61-B 26/11/85 0 76
61-C 12/01/86 1 58
Resultados.
Comencemos el análisis replicando las Figura 1(a) y 1(b) y verificando que la regresión lineal no
es la herramienta adecuada para responder P1 – P3. Para eso, hacemos dos diagramas de dispersión
de defecto (número de incidentes totales en las uniones de campo) versus temp.
Hay un problema fundamental en el uso de la regresión lineal para estos datos: la respuesta no es
continua. Como consecuencia, no hay linealidad y los errores alrededor de la media no son
normales (de hecho, son fuertemente no normales). Verifiquemos esto con los gráficos de
diagnóstico correspondientes:
Aunque la regresión lineal no es la herramienta adecuada para estos datos, es capaz de detectar la diferencia
obvia entre los dos gráficos:
1. La tendencia para los lanzamientos con incidentes es plana, lo que sugiere que no hay
dependencia de la temperatura (Figura 1a). Este fue uno de los argumentos detrás de la decisión
de la NASA de lanzar el cohete a una temperatura de 30.92 grados.
2. Sin embargo, la tendencia para todos los lanzamientos indica una clara dependencia negativa
entre la temperatura y la cantidad de incidentes. (Figura 1a). Piénselo de esta manera: la
temperatura mínima para un lanzamiento sin incidentes jamás registrada fue superior a 64.4 grados,
y el Challenger se lanzó a 30.92 sin conocer claramente los efectos de temperaturas tan bajas.
En lugar de tratar de predecir el número de incidentes, nos concentraremos en modelar la
probabilidad de esperar al menos un incidente dada la temperatura, un enfoque más simple pero
también revelador. En otras palabras, buscamos estimar la siguiente curva:
𝑝(𝑥) = ℙ(𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑡𝑒 = 1|𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 𝑥)
de defecto y temp. Esta probabilidad no se puede modelar correctamente como una función lineal
como 𝛽0 + 𝛽1 𝑥, ya que inevitablemente caerá afuera [0,1] para algún valor de 𝑥 (algunos tendrán
probabilidades negativas o probabilidades mayores que una). La técnica que resuelve este
problema es la regresión logística. La idea detrás es bastante simple: transformar un modelo lineal
𝛽0 + 𝛽1 𝑥- que tiene como objetivo una respuesta en 𝕹- para que produzca un valor en [0,1]. Esto
se logra mediante la función logística:
𝑒𝑡 1
𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝑡) = 1+𝑒 𝑡 = 1+𝑒 −𝑡 . (1.1)
El modelo logístico en este caso es
𝑒 𝛽0 +𝛽1 𝑥
ℙ(𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑡𝑒 = 1|𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 𝑥) = 𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝛽0 + 𝛽1 𝑥) =
1 + 𝑒 −(𝛽0 +𝛽1 𝑥)
con 𝛽0 + 𝛽1 𝑥 desconocidos.
Se generará un código como este:
> reg <- glm(defecto ~ temp,family=binomial, data = challenger)

> exp(coef(reg))
(Intercept) temp
3.412315e+06 7.928171e-01
> summary(reg)
Call:
glm(formula = defecto ~ temp, family = binomial, data = challenger)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0611 -0.7613 -0.3783 0.4524 2.2175
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 15.0429 7.3786 2.039 0.0415 *
temp -0.2322 0.1082 -2.145 0.0320 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 28.267 on 22 degrees of freedom
Residual deviance: 20.315 on 21 degrees of freedom
AIC: 24.315
Number of Fisher Scoring iterations: 5
> confint(reg, level = 0.95)

Waiting for profiling to be done...
2.5 % 97.5 %
(Intercept) 3.3305848 34.34215133
temp -0.5154718 -0.06082076
Conclusión.
El resumen del modelo logístico es notablemente diferente de la regresión lineal, ya que la
metodología detrás es bastante diferente. Sin embargo, tenemos pruebas de la importancia de cada
coeficiente. Aquí obtenemos que la temperatura es significativamente diferente de cero, al menos
a un nivel 𝛼 = 0.05. Por lo tanto, podemos concluir que la temperatura está afectando la
probabilidad de un incidente con las juntas tóricas (respuestas P1).
La interpretación precisa de los coeficientes se dará en la siguiente sección. Por ahora, el

coeficiente de temperatura, 𝛽⏞1, puede considerarse la "correlación entre la temperatura y la
probabilidad de tener al menos un incidente". Esta correlación, como lo demuestra el signo de 𝛽⏞1,
es negativo.
Tracemos la curva logística ajustada para ver que efectivamente la probabilidad de incidente y la
temperatura están negativamente correlacionadas:
A la vista de esta curva y el resumen del modelo, podemos concluir que la temperatura estaba
aumentando la probabilidad de un incidente de junta tórica (P2). De hecho, los intervalos de
confianza para los coeficientes muestran un significado de correlación negativa a nivel 𝛼 = 0.05:
exp(coef(reg))
> confint(reg, level = 0.95)
Waiting for profiling to be done...
2.5 % 97.5 %
(Intercept) 3.3305848 34.34215133
temp -0.5154718 -0.06082076
Finalmente, la probabilidad de tener al menos un incidente con las juntas tóricas en el día del
lanzamiento fue 0.9996 según el modelo logístico ajustado (P3). Esto se obtiene fácilmente:
datos <- data.frame(temp = 30.92)
probabilidades <- predict(reg, datos, type = 'response')
> datos
temp
1 30.92
> probabilidades
1
0.999616
Esta extrapolación, junto con las evidencias planteadas por un análisis simple como lo hicimos
nosotros, deberían haber sido argumentos sólidos para posponer el lanzamiento.
Referencias.
 Lab notes for Statistics for Social Sciences II: Multivariate Techniques. BSc in International
Studies and BSc in International Studies & Political Science, Carlos III University of Madrid.
Eduardo García Portugués2018-01-20, v12.3 https://bookdown.org/egarpor/SSS2-UC3M/logreg-
examps.html
 Presidential Commission on the Space Shuttle Challenger Accident. 1986. Report of the
Presidential Commission on the Space Shuttle Challenger Accident (Vols. 1 & 2). Washington,
DC. http://history.nasa.gov/rogersrep/genindex.htm.
 Dalal, Siddhartha R., Edward B. Fowlkes, and Bruce Hoadley. 1989. “Risk Analysis of the Space
Shuttle: Pre-Challenger Prediction of Failure.” Journal of the American Statistical Association 84
(408): 945–57. doi:10.1080/01621459.1989.10478858.

Estimacion Normal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimacion Normal

Cargado por

Copyright:

Formatos disponibles

Universidad Central del Ecuador

Facultad de Ciencias Físicas y Matemática

Caso de estudio: EL DESASTRE DEL CHALLENGER.

Figura 2: Función logística con 𝛽0 + 𝛽1 𝑥 en el eje horizontal y 𝜋(𝑥) en el eje vertical.

o una regresión exponencial:

El gráfico de la función logística se muestra en la Figura 2, la variable independiente es la

Valores Valor de Probabilidad

... ... ... ...

Donde 𝜀𝑗 es "0" o "1" según el caso y, además:

Lanzamiento Fecha Defecto Temperatura

Lanzamiento Fecha Defecto Temperatura

𝑝(𝑥) = ℙ(𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑡𝑒 = 1|𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 𝑥)

El modelo logístico en este caso es

> reg <- glm(defecto ~ temp,family=binomial, data = challenger)

(Dispersion parameter for binomial family taken to be 1)

> confint(reg, level = 0.95)

La interpretación precisa de los coeficientes se dará en la siguiente sección. Por ahora, el

También podría gustarte