Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4/2/2022
19.15. La tabla 15.27 del sitio web del libro de texto presenta datos de 2 000 mujeres en
relación con el trabajo (1 = la mujer trabaja, 0 = no trabaja), edad, estado civil (1 =casada,
0 = otros), número de hijos y nivel de escolaridad (número de años de escolaridad). De
un total de 2 000 mujeres, se registraron 657 que no perciben salario.
rm(list = ls())
library(ggplot2)
library(stats)
library(astsa)
library(readxl)
Table_15_27 <- read_excel("Table 15_27.xls")
str(Table_15_27)
En nuestra base de datos hay muchos valores de los cuales tomaremos los mas
importantes, esto son trabajo, edad, estado civil, número de hijos, nivel de escolaridad,
donde la variable endógena es trabajo y las variables explicativas o exógenas son la
edad, número de hijos, nivel de escolaridad y nuestra variable Dummy va a ser estado
civil, donde si está casada será 1 y si es otro estado civil será 0.
𝒚𝒊 =∝ + 𝒙𝟏 𝜷𝟏 + 𝒙𝟐 𝜷𝟐 + 𝒙𝟑 𝜷𝟑 + 𝑫𝜷𝟒 + 𝜺𝒊
##
## Call:
## lm(formula = trabajo ~ educación + edad + hijos + casada, data = Ta
ble_15_27)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.0703 -0.4142 0.1372 0.3437 0.8060
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.207323 0.054111 -3.831 0.000131 ***
## educación 0.018601 0.003250 5.724 1.20e-08 ***
## edad 0.010255 0.001227 8.358 < 2e-16 ***
## hijos 0.115308 0.006772 17.028 < 2e-16 ***
## casada 0.111112 0.021948 5.063 4.52e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4199 on 1995 degrees of freedom
## Multiple R-squared: 0.2026, Adjusted R-squared: 0.201
## F-statistic: 126.7 on 4 and 1995 DF, p-value: < 2.2e-16
̂ = −0.207323 + 0.018601(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.010255(𝐞𝐝𝐚𝐝)
𝑻𝒓𝒂𝒃𝒂𝒋𝒐
+ 0.115308(𝐡𝐢𝐣𝐨𝐬) + 0.111112(𝐜𝐚𝐬𝐚𝐝𝐚)
Quedando que en cada año de instrucción escolar representa un 1,86% de probabilidad de tener
trabajo, por cada año de edad, se tiene 1.03% de probabilidad de tener trabajo, con cada hijo
que tenga representa un 11.5% de probabilidad de tener empleo y si está casada representa un
1.1.11% de probabilidad de tener trabajo pero con solo tiene un 20% de nivel confianza, por lo
que es un modelo optimo, ahora lo haremos eliminando nuestra variable Dummy de estado civil
donde las mujeres tienen otro tipo de estado civil que no sea casada, nos queda que:
##
## Call:
## lm(formula = trabajo ~ educación + edad + hijos, data = Table_15_27
)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.1291 -0.4146 0.1409 0.3384 0.7644
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.240217 0.054050 -4.444 9.30e-06 ***
## educación 0.022054 0.003197 6.898 7.05e-12 ***
## edad 0.012158 0.001175 10.346 < 2e-16 ***
## hijos 0.111254 0.006765 16.445 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4225 on 1996 degrees of freedom
## Multiple R-squared: 0.1924, Adjusted R-squared: 0.1912
## F-statistic: 158.5 on 3 and 1996 DF, p-value: < 2.2e-16
̂ = −𝟎. 𝟐𝟒𝟎𝟐𝟏𝟕 + 𝟎. 𝟎𝟐𝟐𝟎𝟓𝟒 (educación) + 𝟎. 𝟎𝟏𝟐𝟏𝟓𝟖(edad)
𝑇𝑟𝑎𝑏𝑎𝑗𝑜
+ 𝟎. 𝟏𝟏𝟏𝟐𝟓𝟒(hijos)
Con una confianza del 19.24% se puede afirmar que las mujeres que no están casadas, tienden
a tener una muy ligera ventaja para conseguir empleo ,siendo así el 2.20% de probabilidad de
tener trabajo por cada año de instrucción académica, un 1,22% de probabilidad de empleo por
cada año de edad, pero una leve desventaja a las mujeres casadas en lo que respecta a sus hijos
con el 11.12% de probabilidad de tener trabajo, pero como se puede ver, es un mal modelo, ya
que el nivel de confianza es bajo, para poder considerarlo un modelo optimo.
1,6
observada = predicción Residuos de la regresión (= trabajo observada - estimada)
1
1,4
0,8
1,2 0,6
0,4
1
0,2
trabajo
residuo
0
0,8
-0,2
0,6
-0,4
-0,6
0,4
-0,8
0,2
-1
-1,2
0 0 500 1000 1500 2000
0,2 0,4 0,6 0,8 1 1,2 1,4
Predicción de trabajo
1,5
0,5
-0,5
-1
0 500 1000 1500 2000
Como se puede observar los valores sobrepasan el 1, por lo que se considera una falacia
estadística, es decir que el modelo no es idóneo, y no se ajusta adecuadamente, a continuación,
usaremos los modelos lineales generalizados.
b) Con los mismos datos, estime un modelo logit y obtenga los efectos marginales
de las diferentes variables.
*
Evaluado en la media
Número de casos 'correctamente predichos' = 1473 (73,7%)
f(beta'x) en la media de las variables independientes = 0,470
Contraste de razón de verosimilitudes: Chi-cuadrado(4) = 476,616 [0,0000]
y<-cbind(trabajo)
x<-cbind(educación,edad,hijos,casada)
#Modelo LOGIT
logit <- glm(y~x,family=binomial(link="logit"));logit
##
## Call: glm(formula = y ~ x, family = binomial(link = "logit"))
##
## Coefficients:
## (Intercept) xeducación xedad xhijos xcasada
## -4.15925 0.09825 0.05793 0.76449 0.74178
##
## Degrees of Freedom: 1999 Total (i.e. Null); 1995 Residual
## Null Deviance: 2532
## Residual Deviance: 2056 AIC: 2066
Modelo Logit:
̂ = −4.15925 + 0.09825(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.05793 (𝐞𝐝𝐚𝐝)
𝑇𝑟𝑎𝑏𝑎𝑗𝑜
+ 0.76449(𝐡𝐢𝐣𝐨𝐬) + 0.74178(𝐜𝐚𝐬𝐚𝐝𝐚)
str(logit)
summary(logit)
##
## Call:
## glm(formula = y ~ x, family = binomial(link = "logit"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.6212 -0.9292 0.4614 0.8340 2.0455
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.159247 0.332040 -12.526 < 2e-16 ***
## xeducación 0.098251 0.018652 5.268 1.38e-07 ***
## xedad 0.057930 0.007221 8.022 1.04e-15 ***
## xhijos 0.764488 0.051529 14.836 < 2e-16 ***
## xcasada 0.741777 0.126471 5.865 4.49e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2532.4 on 1999 degrees of freedom
## Residual deviance: 2055.8 on 1995 degrees of freedom
## AIC: 2065.8
##
## Number of Fisher Scoring iterations: 5
0,8
0,6
0,4
0,2
residuo
-0,2
-0,4
-0,6
-0,8
-1
0 500 1000 1500 2000
Como se observa en el modelo ajustado Logit están dentro de los parámetros de 0 y 1 por ende
es un buen modelo, siendo optimo.
predict_logit = predict(logit, type = "response")
summary(predict_logit)
Como podemos ver la predicción se ajusta dentro de 0 y uno por lo que es un buen modelo .
Para verificar hacemos
Pi <- logit$fitted.values
# parametros
Li <- -4.159247 + (educación*0.098251 + edad*0.057930 + hijos*0.764488
+casada*0.741777 )
# Probabilidades de los valores estimados
P_i <- exp(Li)/(1+exp(Li))
tc <- table(Dc,P_ic);tc
## P_ic
## Dc 0 1
## 0 296 361
## 1 166 1177
prop.table(tc)
## P_ic
## Dc 0 1
## 0 0.1480 0.1805
## 1 0.0830 0.5885
## [1] 0.7365
Según nuestro modelo Logit la probabilidad de aciertos es del 73.65% , lo cual es un buen modelo
que se ajusta.
c) Repita b) con el modelo probit.
*
Evaluado en la media
Número de casos 'correctamente predichos' = 1473 (73,7%)
f(beta'x) en la media de las variables independientes = 0,470
Contraste de razón de verosimilitudes: Chi-cuadrado(4) = 478,322 [0,0000]
Contraste de normalidad de los residuos -
Hipótesis nula: [El error tiene distribución Normal]
Estadístico de contraste: Chi-cuadrado(2) = 2,69159
con valor p = 0,260332
#Modelo PROBIT
probit <- glm(y~x,family=binomial(link="probit"));probit
##
## Call: glm(formula = y ~ x, family = binomial(link = "probit"))
##
## Coefficients:
## (Intercept) xeducación xedad xhijos xcasada
## -2.46736 0.05836 0.03472 0.44732 0.43086
##
## Degrees of Freedom: 1999 Total (i.e. Null); 1995 Residual
## Null Deviance: 2532
## Residual Deviance: 2054 AIC: 2064
̂ = −2.46736 + 0.05836(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.03472(𝐞𝐝𝐚𝐝)
𝑇𝑟𝑎𝑏𝑎𝑗𝑜
+ 0.44732(𝐡𝐢𝐣𝐨𝐬) + 0.43086(𝐜𝐚𝐬𝐚𝐝𝐚)
summary(probit)
##
## Call:
## glm(formula = y ~ x, family = binomial(link = "probit"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.7594 -0.9414 0.4552 0.8459 2.0427
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.467365 0.192291 -12.831 < 2e-16 ***
## xeducación 0.058365 0.011018 5.297 1.18e-07 ***
## xedad 0.034721 0.004232 8.204 2.33e-16 ***
## xhijos 0.447325 0.028642 15.618 < 2e-16 ***
## xcasada 0.430857 0.074310 5.798 6.71e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2532.4 on 1999 degrees of freedom
## Residual deviance: 2054.1 on 1995 degrees of freedom
## AIC: 2064.1
##
## Number of Fisher Scoring iterations: 5
Como se observa en el modelo ajustado Probit están dentro de los parámetros de 0 y 1 por ende
es un buen modelo, siendo optimo,con 5 interacciones.
Residuos de la regresión (= trabajo observada - estimada)
2
1,5
0,5
residuo
-0,5
-1
-1,5
-2
-2,5
0 500 1000 1500 2000
Las predicciones nos dan un buen indicador que esta dentro del parámetro 0 y 1 con un mínimo
de 0.12 y un máximo de 0.99 y una media de 0.67 y en lo que respecta a acierto el modelo probit
nos dio de 73.7%
d) ¿Qué modelo elegiría? ¿Por qué?
Los dos modelos son estadísticamente significativos los dos resuelven cumplen, el logit
y el probit ,pero para este caso la regresión logística tiene interpretación más fácil que
el logit, desde mi perspectiva
15.21 Descargue el conjunto de datos Benign, que aparece en la tabla 15.29, del sitio
web del libro de texto. La variable cáncer es dicótoma, donde 1 = tuvo cáncer mamario
y 0 =no tuvo cáncer mamario.* Use las variables edad (= edad del sujeto), HIGD (=grado
más alto de educación terminado), CHK (=0 si el sujeto no se realizó exámenes médicos
con regularidad y = 1 si el sujeto se realizó exámenes médicos con regularidad), AGPI
(=edad cuando se embarazó por primera vez), abortos espontáneos ( = número de
abortos espontáneos) y peso (= peso del sujeto) y ejecute una regresión logística para
concluir si estas variables son estadísticamente útiles para pronosticar si una mujer se
enfermará de cáncer mamario o no.
Modelo MCO:
Como se puede observar en la tabla de Mínimos cuadrados ordinarios, existe solo 3 que
tienen significancia, el resto no la tiene por ende se debe eliminar, para poder realizar
un buen modelo.
2
Intervalo de 95 por ciento
Cancer
predicción
1,5
0,5
-0,5
-1
0 20 40 60 80 100 120 140 160 180
En la predicción hecha con todas las variables, podemos ver que sobrepasa el 0 y 1 , por
lo que es un mal modelo.
attach(Table_15_29)
Todos los datos son numérico, pero en este caso nuestra variable Dummy es CHK,
nuestra variable endógena es Cáncer siendo:
muestra<-cbind(Cancer,Age,HIGD,CHK,AGPI,Miscarriages,Weight)
Como se puede ver en nuestra grafica de correlación, solo existe 2 solo 2 cumplen la
correlación fuerte de significancia.
Volvemos a ingresar solamente las variables significativas
x<-cbind(Age,HIGD,CHK,AGPI,Miscarriages,Weight)
##
## Call:
## lm(formula = Cancer ~ x, data = Table_15_29)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.5472 -0.2692 -0.1210 0.1006 0.9282
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.3302207 0.2951013 1.119 0.26471
## xAge 0.0010001 0.0030984 0.323 0.74726
## xHIGD -0.0114502 0.0133755 -0.856 0.39316
## xCHK -0.2039454 0.0624013 -3.268 0.00131 **
## xAGPI 0.0194480 0.0080021 2.430 0.01612 *
## xMiscarriages 0.0436685 0.0308983 1.413 0.15939
## xWeight -0.0028231 0.0009824 -2.874 0.00457 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3882 on 171 degrees of freedom
## Multiple R-squared: 0.1691, Adjusted R-squared: 0.1399
## F-statistic: 5.799 on 6 and 171 DF, p-value: 1.609e-05
x2<-cbind(CHK,Weight)
##
## Call:
## glm(formula = Cancer ~ x2, family = "binomial", data = Table_15_29)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## x2CHK -1.503344 0.488494 -3.078 0.00209 **
## x2Weight -0.029554 0.009208 -3.210 0.00133 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 189.68 on 177 degrees of freedom
## Residual deviance: 161.44 on 175 degrees of freedom
## AIC: 167.44
##
## Number of Fisher Scoring iterations: 5
̂ = 3.255162 -1.503344(CHG) -0.029554(Weight)
Cancer
## # A tibble: 6 x 3
## Cancer CHK Weight
## <dbl> <dbl> <dbl>
## 1 1 0 118
## 2 0 1 175
## 3 0 1 135
## 4 0 0 125
## 5 0 1 183
## 6 0 1 218
##
## 0 1
## 138 40
summary(datos.modelo$CHK)
summary(datos.modelo$Weight)
library(ggplot2)
ggplot(datos.modelo, aes(x = Weight, y = CHK, color = Cancer)) + geom_
point()
##
## Call:
## glm(formula = Cancer ~ Weight + CHK, family = "binomial", data = da
tos.modelo)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## Weight -0.029554 0.009208 -3.210 0.00133 **
## CHK -1.503344 0.488494 -3.078 0.00209 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 189.68 on 177 degrees of freedom
## Residual deviance: 161.44 on 175 degrees of freedom
## AIC: 167.44
##
## Number of Fisher Scoring iterations: 5
exp(coefficients(modelo.logit))
## 2.5 % 97.5 %
## (Intercept) 0.96660160 5.84891739
## Weight -0.04907875 -0.01281085
## CHK -2.55018116 -0.60594102
##
## Call: glm(formula = Cancer ~ Weight + CHK, family = binomial(link
= "logit"))
##
## Coefficients:
## (Intercept) Weight CHK
## 3.25516 -0.02955 -1.50334
##
## Degrees of Freedom: 177 Total (i.e. Null); 175 Residual
## Null Deviance: 189.7
## Residual Deviance: 161.4 AIC: 167.4
str(logit)
summary(logit)
##
## Call:
## glm(formula = Cancer ~ Weight + CHK, family = binomial(link = "logi
t"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## Weight -0.029554 0.009208 -3.210 0.00133 **
## CHK -1.503344 0.488494 -3.078 0.00209 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 189.68 on 177 degrees of freedom
## Residual deviance: 161.44 on 175 degrees of freedom
## AIC: 167.44
##
## Number of Fisher Scoring iterations: 5
Pi <- logit$fitted.values
## [1] "character"
P_ic <- as.character(round(P_i,0))
tc <- table(Dc,P_ic);tc
## P_ic
## Dc 0 1
## 0 133 5
## 1 35 5
prop.table(tc)
## P_ic
## Dc 0 1
## 0 0.74719101 0.02808989
## 1 0.19662921 0.02808989
## [1] 0.7752809
Como se pueden ver en las gráficas, el peso junto con la falta de ir al doctor por
chequeos de salud puede jugar a favor de ser propenso al cáncer, con 77.52% de
aciertos.
2. Para poner de manifiesto la importancia de los modelos de regresión logística en las
ciencias biosanitarias por ejemplo COVID-19, cada alumn@ buscará en internet tres
referencias de artículos publicados recientemente en revistas de investigación en los que se
aplique el modelo logit de respuesta binaria en las ciencias de la salud y presentará a través
de la plataforma la referencia completa de cada uno (autores, título, revista, volumen, año y
páginas) junto a un resumen del mismo en no más de 100 palabras. El alumn@ debe de
redactar el resumen con sus propias palabras en base a la lectura de cada trabajo sin hacer
una copia o traducción literal del abstract del artículo.
Los datos primarios nos da una idea general de la muestra desde allí poder tomar tratamiento y por
ende reducir al máximo la tasa de mortalidad, para lo cual se toma como base para el modelo de
regresión logística , siendo Edad, Sexo, Tos, Dificultad respiratoria, Dolor de articulaciones y
Diabetes, en base a una variable endógena que es Mortalidad de los pacientes(vivos/muertos),
esto permite saber la eficacia de los médicos en curar personas infectadas por el Covid-19,
siendo la población más vulnerable según la investigación ancianos, enfermedades
preexistentes, y también el sexo, ya que se los hombres mueren mucho más. (: Irma Yupari-
Azabache, 2020)
Como variable endógena es percibe ayuda de organismos públicos o privados, partiendo desde
allí, lo que busca con esta investigación y la importancia del modelo es conocer la problemática
de la sociedad mas pobre del país, y saber en cuanto se esta ayudando el apoyo externo, y las
causas de la misma, basándose en factores primarios ,como sexo, edad, económicos, y con esto
logran tener una correlación que permita discriminar entre las causas mas comunes y por ende
su efectividad en la obtención de alimentos, en el cual las menores de edad resultan los mas
afectados junto con los ancianos (Rina Mazuera-Arias, 2021)
Bibliografía
: Irma Yupari-Azabache, L. B.-A.-A.-S.-D. (2020). Factores de riesgo de mortalidad por covid-19
en pacientes hospitalizados: un modelo de regresión logística. la Revista de la Facultad
de Medicina Humana de la Universidad Ricardo Palma, 21-22.
Rina Mazuera-Arias, N. A.-A.-L. (2021). Seguridad alimentaria, Covid-19 y crisis: una aplicación
del modelo de regresión logística binomial para su estudio. Revista Mexicana de
Ciencias Politicas y Sociales, 66, 452-453.