Está en la página 1de 22

TRABAJO INDIVIDUAL

Jonathan Calvopiña Merchan

4/2/2022

1. Se ha seleccionado del capítulo 15 del pdf “Econometría” 5ed., de


Damodar Gujarati lo siguiente:
Con los datos de estos ejercicios realice en R y GRETL las siguientes actividades de
aprendizaje:
a) Lectura de los datos e identifique justificadamente según el contexto de los
datos la variable endógena, Y, y el resto de variables como exógenas, X.
Determine también interacciones si las hay.
b) Aplique comandos básicos en R o menús de GRETL para: visualización
manipulación sobre variables escogidas en el inciso a).
c) Resuelva los literales indicados en estos ejercicios

19.15. La tabla 15.27 del sitio web del libro de texto presenta datos de 2 000 mujeres en
relación con el trabajo (1 = la mujer trabaja, 0 = no trabaja), edad, estado civil (1 =casada,
0 = otros), número de hijos y nivel de escolaridad (número de años de escolaridad). De
un total de 2 000 mujeres, se registraron 657 que no perciben salario.
rm(list = ls())
library(ggplot2)
library(stats)
library(astsa)
library(readxl)
Table_15_27 <- read_excel("Table 15_27.xls")
str(Table_15_27)

## tibble [2,000 x 15] (S3: tbl_df/tbl/data.frame)


## $ c1 : num [1:2000] -0.436 0.352 1.077 1.021 -0.443 ...
## $ c2 : num [1:2000] -0.0969 0.3005 -1.596 -1.7105 0.3083 ..
.
## $ u : num [1:2000] -0.218 0.176 0.539 0.511 -0.221 ...
## $ v : num [1:2000] -0.3757 0.4612 -0.3762 -0.497 -0.0925 .
..
## $ pais : num [1:2000] 1 2 3 4 5 6 7 8 9 0 ...
## $ edad : num [1:2000] 22 36 28 37 39 33 57 45 39 25 ...
## $ escolar : num [1:2000] 10 10 10 10 10 10 10 16 12 10 ...
## $ casada : num [1:2000] 1 1 1 1 1 1 1 1 1 0 ...
## $ hijos : num [1:2000] 0 0 0 0 1 2 1 0 0 3 ...
## $ select : num [1:2000] 16.8 32.4 19.2 21.3 32 ...
## $ asalariado: num [1:2000] 12.8 20.3 23.1 24.5 16.1 ...
## $ salario : num [1:2000] NA 20.3 NA NA 16.1 ...
## $ lw : num [1:2000] NA 3.01 NA NA 2.78 ...
## $ trabajo : num [1:2000] 0 1 0 0 1 1 1 1 0 1 ...
## $ lwf : num [1:2000] 0 3.01 0 0 2.78 ...
attach(Table_15_27)

En nuestra base de datos hay muchos valores de los cuales tomaremos los mas
importantes, esto son trabajo, edad, estado civil, número de hijos, nivel de escolaridad,
donde la variable endógena es trabajo y las variables explicativas o exógenas son la
edad, número de hijos, nivel de escolaridad y nuestra variable Dummy va a ser estado
civil, donde si está casada será 1 y si es otro estado civil será 0.
𝒚𝒊 =∝ + 𝒙𝟏 𝜷𝟏 + 𝒙𝟐 𝜷𝟐 + 𝒙𝟑 𝜷𝟑 + 𝑫𝜷𝟒 + 𝜺𝒊

a) Con estos datos, estime el modelo lineal de probabilidad (MLP).


Modelo 1: MCO, usando las observaciones 1-2000
Variable dependiente: trabajo

Coeficiente Desv. Típica Estadístico t valor p


const −0,207323 0,0541110 −3,831 0,0001 ***
edad 0,0102552 0,00122694 8,358 <0,0001 ***
educacion 0,0186011 0,00324990 5,724 <0,0001 ***
hijos 0,115308 0,00677151 17,03 <0,0001 ***
casada 0,111112 0,0219477 5,063 <0,0001 ***

Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785


Suma de cuad. residuos 351,7833 D.T. de la regresión 0,419920
R-cuadrado 0,202623 R-cuadrado corregido 0,201024
F(4, 1995) 126,7381 Valor p (de F) 1,65e-96
Log-verosimilitud −1099,990 Criterio de Akaike 2209,980
Criterio de Schwarz 2237,984 Crit. de Hannan-Quinn 2220,263

mpl1<- lm(trabajo~educación+edad+hijos+casada, data =Table_15_27 )


summary(mpl1)

##
## Call:
## lm(formula = trabajo ~ educación + edad + hijos + casada, data = Ta
ble_15_27)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.0703 -0.4142 0.1372 0.3437 0.8060
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.207323 0.054111 -3.831 0.000131 ***
## educación 0.018601 0.003250 5.724 1.20e-08 ***
## edad 0.010255 0.001227 8.358 < 2e-16 ***
## hijos 0.115308 0.006772 17.028 < 2e-16 ***
## casada 0.111112 0.021948 5.063 4.52e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4199 on 1995 degrees of freedom
## Multiple R-squared: 0.2026, Adjusted R-squared: 0.201
## F-statistic: 126.7 on 4 and 1995 DF, p-value: < 2.2e-16
̂ = −0.207323 + 0.018601(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.010255(𝐞𝐝𝐚𝐝)
𝑻𝒓𝒂𝒃𝒂𝒋𝒐
+ 0.115308(𝐡𝐢𝐣𝐨𝐬) + 0.111112(𝐜𝐚𝐬𝐚𝐝𝐚)
Quedando que en cada año de instrucción escolar representa un 1,86% de probabilidad de tener
trabajo, por cada año de edad, se tiene 1.03% de probabilidad de tener trabajo, con cada hijo
que tenga representa un 11.5% de probabilidad de tener empleo y si está casada representa un
1.1.11% de probabilidad de tener trabajo pero con solo tiene un 20% de nivel confianza, por lo
que es un modelo optimo, ahora lo haremos eliminando nuestra variable Dummy de estado civil
donde las mujeres tienen otro tipo de estado civil que no sea casada, nos queda que:

Modelo 4: MCO, usando las observaciones 1-2000


Variable dependiente: trabajo

Coeficiente Desv. Típica Estadístico t valor p


const −0,240217 0,0540499 −4,444 <0,0001 ***
edad 0,0121578 0,00117515 10,35 <0,0001 ***
educacion 0,0220538 0,00319707 6,898 <0,0001 ***
hijos 0,111254 0,00676534 16,44 <0,0001 ***

Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785


Suma de cuad. residuos 356,3026 D.T. de la regresión 0,422502
R-cuadrado 0,192379 R-cuadrado corregido 0,191165
F(3, 1996) 158,4854 Valor p (de F) 3,88e-92
Log-verosimilitud −1112,755 Criterio de Akaike 2233,510
Criterio de Schwarz 2255,914 Crit. de Hannan-Quinn 2241,736

mpl2<- lm(trabajo~educación+edad+hijos, data =Table_15_27 )


summary(mpl2)

##
## Call:
## lm(formula = trabajo ~ educación + edad + hijos, data = Table_15_27
)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.1291 -0.4146 0.1409 0.3384 0.7644
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.240217 0.054050 -4.444 9.30e-06 ***
## educación 0.022054 0.003197 6.898 7.05e-12 ***
## edad 0.012158 0.001175 10.346 < 2e-16 ***
## hijos 0.111254 0.006765 16.445 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4225 on 1996 degrees of freedom
## Multiple R-squared: 0.1924, Adjusted R-squared: 0.1912
## F-statistic: 158.5 on 3 and 1996 DF, p-value: < 2.2e-16
̂ = −𝟎. 𝟐𝟒𝟎𝟐𝟏𝟕 + 𝟎. 𝟎𝟐𝟐𝟎𝟓𝟒 (educación) + 𝟎. 𝟎𝟏𝟐𝟏𝟓𝟖(edad)
𝑇𝑟𝑎𝑏𝑎𝑗𝑜
+ 𝟎. 𝟏𝟏𝟏𝟐𝟓𝟒(hijos)
Con una confianza del 19.24% se puede afirmar que las mujeres que no están casadas, tienden
a tener una muy ligera ventaja para conseguir empleo ,siendo así el 2.20% de probabilidad de
tener trabajo por cada año de instrucción académica, un 1,22% de probabilidad de empleo por
cada año de edad, pero una leve desventaja a las mujeres casadas en lo que respecta a sus hijos
con el 11.12% de probabilidad de tener trabajo, pero como se puede ver, es un mal modelo, ya
que el nivel de confianza es bajo, para poder considerarlo un modelo optimo.
1,6
observada = predicción Residuos de la regresión (= trabajo observada - estimada)
1

1,4
0,8

1,2 0,6

0,4

1
0,2
trabajo

residuo

0
0,8

-0,2

0,6
-0,4

-0,6
0,4

-0,8

0,2
-1

-1,2
0 0 500 1000 1500 2000
0,2 0,4 0,6 0,8 1 1,2 1,4
Predicción de trabajo

plot(mpl$fitted, type = "l", col = "cyan")


abline(h = 0 , col = "red")
abline(h = 1,col = "red")
2,5
Intervalo de 95 por ciento
trabajo
predicción

1,5

0,5

-0,5

-1
0 500 1000 1500 2000

Como se puede observar los valores sobrepasan el 1, por lo que se considera una falacia
estadística, es decir que el modelo no es idóneo, y no se ajusta adecuadamente, a continuación,
usaremos los modelos lineales generalizados.
b) Con los mismos datos, estime un modelo logit y obtenga los efectos marginales
de las diferentes variables.

predict_mlp = predict(mlp, type = "response")


summary(predict_mlp)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 0.1838 0.5305 0.6551 0.6715 0.7987 1.3728
Se puede ver que incluso en la predicción sale de los valores establecidos, con un máximo que
sobrepasa el uno, lo cual es evidente que es un mal modelo.

Modelo 5: Logit, usando las observaciones 1-2000


Variable dependiente: trabajo
Desviaciones típicas QML
Coeficiente Desv. Típica z Pendiente*
const −4,15925 0,327316 −12,71
edad 0,0579303 0,00720364 8,042 0,0115031
educacion 0,0982513 0,0190062 5,169 0,0195096
hijos 0,764488 0,0497460 15,37 0,151803
casada 0,741777 0,127187 5,832 0,154567

Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785


R-cuadrado de 0,188204 R-cuadrado corregido 0,184255
McFadden
Log-verosimilitud −1027,914 Criterio de Akaike 2065,829
Criterio de Schwarz 2093,833 Crit. de Hannan-Quinn 2076,112

*
Evaluado en la media
Número de casos 'correctamente predichos' = 1473 (73,7%)
f(beta'x) en la media de las variables independientes = 0,470
Contraste de razón de verosimilitudes: Chi-cuadrado(4) = 476,616 [0,0000]

y<-cbind(trabajo)

x<-cbind(educación,edad,hijos,casada)

##2.Estimacion del modelo logit:

#Modelo LOGIT
logit <- glm(y~x,family=binomial(link="logit"));logit

##
## Call: glm(formula = y ~ x, family = binomial(link = "logit"))
##
## Coefficients:
## (Intercept) xeducación xedad xhijos xcasada
## -4.15925 0.09825 0.05793 0.76449 0.74178
##
## Degrees of Freedom: 1999 Total (i.e. Null); 1995 Residual
## Null Deviance: 2532
## Residual Deviance: 2056 AIC: 2066

Modelo Logit:
̂ = −4.15925 + 0.09825(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.05793 (𝐞𝐝𝐚𝐝)
𝑇𝑟𝑎𝑏𝑎𝑗𝑜
+ 0.76449(𝐡𝐢𝐣𝐨𝐬) + 0.74178(𝐜𝐚𝐬𝐚𝐝𝐚)
str(logit)

summary(logit)

##
## Call:
## glm(formula = y ~ x, family = binomial(link = "logit"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.6212 -0.9292 0.4614 0.8340 2.0455
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.159247 0.332040 -12.526 < 2e-16 ***
## xeducación 0.098251 0.018652 5.268 1.38e-07 ***
## xedad 0.057930 0.007221 8.022 1.04e-15 ***
## xhijos 0.764488 0.051529 14.836 < 2e-16 ***
## xcasada 0.741777 0.126471 5.865 4.49e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2532.4 on 1999 degrees of freedom
## Residual deviance: 2055.8 on 1995 degrees of freedom
## AIC: 2065.8
##
## Number of Fisher Scoring iterations: 5

plot(logit$fitted, type = "l")


abline(h = 0, col = "red")
abline(h = 1, col = "red")

Residuos de la regresión (= trabajo observada - estimada)


1

0,8

0,6

0,4

0,2
residuo

-0,2

-0,4

-0,6

-0,8

-1
0 500 1000 1500 2000
Como se observa en el modelo ajustado Logit están dentro de los parámetros de 0 y 1 por ende
es un buen modelo, siendo optimo.
predict_logit = predict(logit, type = "response")
summary(predict_logit)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 0.1173 0.5253 0.6968 0.6715 0.8533 0.9952

Como podemos ver la predicción se ajusta dentro de 0 y uno por lo que es un buen modelo .
Para verificar hacemos
Pi <- logit$fitted.values
# parametros
Li <- -4.159247 + (educación*0.098251 + edad*0.057930 + hijos*0.764488
+casada*0.741777 )
# Probabilidades de los valores estimados
P_i <- exp(Li)/(1+exp(Li))

##Estudiar la proporción de aciertos de este modelo


Dc <- as.character(y)

P_ic <- as.character(round(P_i,0))

tc <- table(Dc,P_ic);tc

## P_ic
## Dc 0 1
## 0 296 361
## 1 166 1177

prop.table(tc)

## P_ic
## Dc 0 1
## 0 0.1480 0.1805
## 1 0.0830 0.5885

aciertos <- 0.1480+0.5885; aciertos

## [1] 0.7365

Según nuestro modelo Logit la probabilidad de aciertos es del 73.65% , lo cual es un buen modelo
que se ajusta.
c) Repita b) con el modelo probit.

Modelo 6: Probit, usando las observaciones 1-2000


Variable dependiente: trabajo
Desviaciones típicas QML
Coeficiente Desv. Típica z Pendiente*
const −2,46737 0,191461 −12,89
edad 0,0347211 0,00425307 8,164 0,0117210
educacion 0,0583645 0,0111558 5,232 0,0197024
hijos 0,447325 0,0279747 15,99 0,151006
casada 0,430857 0,0745243 5,781 0,150478

Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785


R-cuadrado de 0,188878 R-cuadrado corregido 0,184929
McFadden
Log-verosimilitud −1027,062 Criterio de Akaike 2064,123
Criterio de Schwarz 2092,128 Crit. de Hannan-Quinn 2074,406

*
Evaluado en la media
Número de casos 'correctamente predichos' = 1473 (73,7%)
f(beta'x) en la media de las variables independientes = 0,470
Contraste de razón de verosimilitudes: Chi-cuadrado(4) = 478,322 [0,0000]
Contraste de normalidad de los residuos -
Hipótesis nula: [El error tiene distribución Normal]
Estadístico de contraste: Chi-cuadrado(2) = 2,69159
con valor p = 0,260332

#Modelo PROBIT
probit <- glm(y~x,family=binomial(link="probit"));probit

##
## Call: glm(formula = y ~ x, family = binomial(link = "probit"))
##
## Coefficients:
## (Intercept) xeducación xedad xhijos xcasada
## -2.46736 0.05836 0.03472 0.44732 0.43086
##
## Degrees of Freedom: 1999 Total (i.e. Null); 1995 Residual
## Null Deviance: 2532
## Residual Deviance: 2054 AIC: 2064
̂ = −2.46736 + 0.05836(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.03472(𝐞𝐝𝐚𝐝)
𝑇𝑟𝑎𝑏𝑎𝑗𝑜
+ 0.44732(𝐡𝐢𝐣𝐨𝐬) + 0.43086(𝐜𝐚𝐬𝐚𝐝𝐚)

summary(probit)

##
## Call:
## glm(formula = y ~ x, family = binomial(link = "probit"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.7594 -0.9414 0.4552 0.8459 2.0427
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.467365 0.192291 -12.831 < 2e-16 ***
## xeducación 0.058365 0.011018 5.297 1.18e-07 ***
## xedad 0.034721 0.004232 8.204 2.33e-16 ***
## xhijos 0.447325 0.028642 15.618 < 2e-16 ***
## xcasada 0.430857 0.074310 5.798 6.71e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2532.4 on 1999 degrees of freedom
## Residual deviance: 2054.1 on 1995 degrees of freedom
## AIC: 2064.1
##
## Number of Fisher Scoring iterations: 5

plot(logit$fitted, type = "l")


abline(h = 0, col = "red")
abline(h = 1, col = "red")

Como se observa en el modelo ajustado Probit están dentro de los parámetros de 0 y 1 por ende
es un buen modelo, siendo optimo,con 5 interacciones.
Residuos de la regresión (= trabajo observada - estimada)
2

1,5

0,5
residuo

-0,5

-1

-1,5

-2

-2,5
0 500 1000 1500 2000

predict_probit = predict(probit, type = "response")


summary(predict_probit)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 0.1172 0.5275 0.6907 0.6712 0.8522 0.9992

Las predicciones nos dan un buen indicador que esta dentro del parámetro 0 y 1 con un mínimo
de 0.12 y un máximo de 0.99 y una media de 0.67 y en lo que respecta a acierto el modelo probit
nos dio de 73.7%
d) ¿Qué modelo elegiría? ¿Por qué?

Los dos modelos son estadísticamente significativos los dos resuelven cumplen, el logit
y el probit ,pero para este caso la regresión logística tiene interpretación más fácil que
el logit, desde mi perspectiva
15.21 Descargue el conjunto de datos Benign, que aparece en la tabla 15.29, del sitio
web del libro de texto. La variable cáncer es dicótoma, donde 1 = tuvo cáncer mamario
y 0 =no tuvo cáncer mamario.* Use las variables edad (= edad del sujeto), HIGD (=grado
más alto de educación terminado), CHK (=0 si el sujeto no se realizó exámenes médicos
con regularidad y = 1 si el sujeto se realizó exámenes médicos con regularidad), AGPI
(=edad cuando se embarazó por primera vez), abortos espontáneos ( = número de
abortos espontáneos) y peso (= peso del sujeto) y ejecute una regresión logística para
concluir si estas variables son estadísticamente útiles para pronosticar si una mujer se
enfermará de cáncer mamario o no.

Modelo MCO:

Cancer = 𝛽0 + 𝛽1Age + 𝛽2HIGD + 𝛽1AGPI + 𝛽2Miscarriages + ε

Modelo 1: MCO, usando las observaciones 1-178


Variable dependiente: Cancer
Desviaciones típicas robustas ante heterocedasticidad, variante HC1

Coeficiente Desv. Típica Estadístico t valor p


const 0,330221 0,256733 1,286 0,2001
Age 0,00100007 0,00333741 0,2997 0,7648
HIGD −0,0114502 0,0146768 −0,7802 0,4364
CHK −0,203945 0,0539303 −3,782 0,0002 ***
AGPI 0,0194480 0,00831943 2,338 0,0206 **
Miscarriages 0,0436685 0,0266208 1,640 0,1028
Weight −0,00282307 0,000696098 −4,056 <0,0001 ***

Media de la vble. dep. 0,224719 D.T. de la vble. dep. 0,418575


Suma de cuad. residuos 25,76846 D.T. de la regresión 0,388192
R-cuadrado 0,169060 R-cuadrado corregido 0,139905
F(6, 171) 7,261423 Valor p (de F) 6,38e-07
Log-verosimilitud −80,56679 Criterio de Akaike 175,1336
Criterio de Schwarz 197,4061 Crit. de Hannan-Quinn 184,1657

Como se puede observar en la tabla de Mínimos cuadrados ordinarios, existe solo 3 que
tienen significancia, el resto no la tiene por ende se debe eliminar, para poder realizar
un buen modelo.
2
Intervalo de 95 por ciento
Cancer
predicción

1,5

0,5

-0,5

-1
0 20 40 60 80 100 120 140 160 180

En la predicción hecha con todas las variables, podemos ver que sobrepasa el 0 y 1 , por
lo que es un mal modelo.

Importamos los datos en R


Table_15_29 <- read_excel("Table 15_29.xls")
str(Table_15_29)

## tibble [178 x 12] (S3: tbl_df/tbl/data.frame)


## $ Cancer : num [1:178] 1 0 0 0 0 0 0 1 0 0 ...
## $ Age : num [1:178] 39 39 39 39 38 38 38 38 38 38 ...
## $ HIGD : num [1:178] 9 10 11 12 12 9 13 9 10 15 ...
## $ Degree : num [1:178] 0 0 0 1 1 0 1 0 0 1 ...
## $ CHK : num [1:178] 0 1 1 0 1 1 0 0 1 0 ...
## $ AGPI : num [1:178] 23 16 20 21 20 19 23 22 20 19 ...
## $ MenAge : num [1:178] 13 11 12 11 15 11 13 15 14 13 ...
## $ Miscarriages : num [1:178] 0 1 1 0 0 0 0 2 0 3 ...
## $ Births : num [1:178] 5 3 3 3 2 5 2 2 2 2 ...
## $ Weight : num [1:178] 118 175 135 125 183 218 192 125 123
140 ...
## $ AgePeriod : num [1:178] 39 39 39 40 38 38 37 38 38 37 ...
## $ Marital Status: num [1:178] 1 3 2 1 1 1 1 1 1 1 ...

attach(Table_15_29)
Todos los datos son numérico, pero en este caso nuestra variable Dummy es CHK,
nuestra variable endógena es Cáncer siendo:
muestra<-cbind(Cancer,Age,HIGD,CHK,AGPI,Miscarriages,Weight)

corrplot(cor(muestra), # Matriz de correlación


method = "shade", # Método para el gráfico de correlación
type = "full", # Estilo del gráfico (también "upper" y "lo
wer")
diag = TRUE, # Si TRUE (por defecto), añade la diagonal
tl.col = "black", # Color de las etiquetas
bg = "white", # Color de fondo
title = "", # Título
col = NULL) # Paleta de colores

Como se puede ver en nuestra grafica de correlación, solo existe 2 solo 2 cumplen la
correlación fuerte de significancia.
Volvemos a ingresar solamente las variables significativas
x<-cbind(Age,HIGD,CHK,AGPI,Miscarriages,Weight)

# Ajuste de un modelo lineal por mínimos cuadrados.


ml<- lm(Cancer~x, data =Table_15_29)
summary(ml)

##
## Call:
## lm(formula = Cancer ~ x, data = Table_15_29)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.5472 -0.2692 -0.1210 0.1006 0.9282
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.3302207 0.2951013 1.119 0.26471
## xAge 0.0010001 0.0030984 0.323 0.74726
## xHIGD -0.0114502 0.0133755 -0.856 0.39316
## xCHK -0.2039454 0.0624013 -3.268 0.00131 **
## xAGPI 0.0194480 0.0080021 2.430 0.01612 *
## xMiscarriages 0.0436685 0.0308983 1.413 0.15939
## xWeight -0.0028231 0.0009824 -2.874 0.00457 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3882 on 171 degrees of freedom
## Multiple R-squared: 0.1691, Adjusted R-squared: 0.1399
## F-statistic: 5.799 on 6 and 171 DF, p-value: 1.609e-05

x2<-cbind(CHK,Weight)

modelo_logistico <- glm(Cancer ~ x2, data = Table_15_29, family = "bin


omial")
summary(modelo_logistico)

##
## Call:
## glm(formula = Cancer ~ x2, family = "binomial", data = Table_15_29)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## x2CHK -1.503344 0.488494 -3.078 0.00209 **
## x2Weight -0.029554 0.009208 -3.210 0.00133 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 189.68 on 177 degrees of freedom
## Residual deviance: 161.44 on 175 degrees of freedom
## AIC: 167.44
##
## Number of Fisher Scoring iterations: 5
̂ = 3.255162 -1.503344(CHG) -0.029554(Weight)
Cancer

datos.modelo <- subset(Table_15_29, select = c(Cancer,CHK,Weight))


head(datos.modelo)

## # A tibble: 6 x 3
## Cancer CHK Weight
## <dbl> <dbl> <dbl>
## 1 1 0 118
## 2 0 1 175
## 3 0 1 135
## 4 0 0 125
## 5 0 1 183
## 6 0 1 218

datos.modelo$Cancer <- factor(datos.modelo$Cancer)


table(datos.modelo$Cancer)

##
## 0 1
## 138 40

summary(datos.modelo$CHK)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 0.0000 0.0000 0.0000 0.3989 1.0000 1.0000

summary(datos.modelo$Weight)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 80.0 123.0 140.0 144.6 158.8 265.0

library(ggplot2)
ggplot(datos.modelo, aes(x = Weight, y = CHK, color = Cancer)) + geom_
point()

Nuestros datos no se dispersan uniformemente en algoritmo, pero es notorio la precencia de


datos que estan dentro del estándar, de la probabilidad, siendo así que existe una correlación
entre no ir al medico a consulta regularmente y la reducción de peso también hace a una
persona procensa al cáncer.
modelo.logit <- glm(Cancer ~ Weight + CHK ,data = datos.modelo, family
= "binomial")
summary(modelo.logit)

##
## Call:
## glm(formula = Cancer ~ Weight + CHK, family = "binomial", data = da
tos.modelo)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## Weight -0.029554 0.009208 -3.210 0.00133 **
## CHK -1.503344 0.488494 -3.078 0.00209 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 189.68 on 177 degrees of freedom
## Residual deviance: 161.44 on 175 degrees of freedom
## AIC: 167.44
##
## Number of Fisher Scoring iterations: 5

exp(coefficients(modelo.logit))

## (Intercept) Weight CHK


## 25.9238225 0.9708782 0.2223852

# Ajuste de un modelo logístico.

ggplot(modelo.logit, aes(x = Cancer, y = Weight, color = Cancer)) +


geom_boxplot(outlier.shape = NA) +
geom_jitter(width = 0.1) +
theme_bw() +
theme(legend.position = "null")
Haciendo una comparación con el cáncer y el peso, podemos ver que los datos si se
distribuyen de y dispersan a lo largo del peso, lo que nos hace ver que no hay un peso
especifico que se considere propenso mayor al cancer o menor.
confint(object = modelo.logit, level = 0.95 )

## Waiting for profiling to be done...

## 2.5 % 97.5 %
## (Intercept) 0.96660160 5.84891739
## Weight -0.04907875 -0.01281085
## CHK -2.55018116 -0.60594102

plot(modelo.logit$fitted, type = "l",col = "cyan" , main = "Modelo aju


stado logit")
abline(h = 0 , col = "red")
abline(h = 1,col = "red")
#Modelo LOGIT
logit <- glm(Cancer ~ Weight + CHK,family=binomial(link="logit"));logi
t

##
## Call: glm(formula = Cancer ~ Weight + CHK, family = binomial(link
= "logit"))
##
## Coefficients:
## (Intercept) Weight CHK
## 3.25516 -0.02955 -1.50334
##
## Degrees of Freedom: 177 Total (i.e. Null); 175 Residual
## Null Deviance: 189.7
## Residual Deviance: 161.4 AIC: 167.4

str(logit)

summary(logit)

##
## Call:
## glm(formula = Cancer ~ Weight + CHK, family = binomial(link = "logi
t"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## Weight -0.029554 0.009208 -3.210 0.00133 **
## CHK -1.503344 0.488494 -3.078 0.00209 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 189.68 on 177 degrees of freedom
## Residual deviance: 161.44 on 175 degrees of freedom
## AIC: 167.44
##
## Number of Fisher Scoring iterations: 5

plot(logit$fitted, type = "l",col = "red", main = "Ajuste del modelo l


ogit")
abline(h = 0, col = "blue")
abline(h = 1, col = "blue")

Pi <- logit$fitted.values

# Con los parámetros estimados se llega a la expresión logit


Li <- 3.255162 + - 0.029554*Weight - 1.503344*CHK

# pudiendo despejarse las probabilidades mediante la expresión Pi=exp(


Li)/[1+exp(Li)]
P_i <- exp(Li)/(1+exp(Li))# Valores estimados

## Proporción de aciertos de este modelo


Dc <- as.character(Cancer);class(Dc)

## [1] "character"
P_ic <- as.character(round(P_i,0))

tc <- table(Dc,P_ic);tc

## P_ic
## Dc 0 1
## 0 133 5
## 1 35 5

prop.table(tc)

## P_ic
## Dc 0 1
## 0 0.74719101 0.02808989
## 1 0.19662921 0.02808989

aciertos <- 0.74719101+ 0.02808989;aciertos

## [1] 0.7752809

Como se pueden ver en las gráficas, el peso junto con la falta de ir al doctor por
chequeos de salud puede jugar a favor de ser propenso al cáncer, con 77.52% de
aciertos.
2. Para poner de manifiesto la importancia de los modelos de regresión logística en las
ciencias biosanitarias por ejemplo COVID-19, cada alumn@ buscará en internet tres
referencias de artículos publicados recientemente en revistas de investigación en los que se
aplique el modelo logit de respuesta binaria en las ciencias de la salud y presentará a través
de la plataforma la referencia completa de cada uno (autores, título, revista, volumen, año y
páginas) junto a un resumen del mismo en no más de 100 palabras. El alumn@ debe de
redactar el resumen con sus propias palabras en base a la lectura de cada trabajo sin hacer
una copia o traducción literal del abstract del artículo.

Los datos primarios nos da una idea general de la muestra desde allí poder tomar tratamiento y por
ende reducir al máximo la tasa de mortalidad, para lo cual se toma como base para el modelo de
regresión logística , siendo Edad, Sexo, Tos, Dificultad respiratoria, Dolor de articulaciones y
Diabetes, en base a una variable endógena que es Mortalidad de los pacientes(vivos/muertos),
esto permite saber la eficacia de los médicos en curar personas infectadas por el Covid-19,
siendo la población más vulnerable según la investigación ancianos, enfermedades
preexistentes, y también el sexo, ya que se los hombres mueren mucho más. (: Irma Yupari-
Azabache, 2020)

Como variable endógena es percibe ayuda de organismos públicos o privados, partiendo desde
allí, lo que busca con esta investigación y la importancia del modelo es conocer la problemática
de la sociedad mas pobre del país, y saber en cuanto se esta ayudando el apoyo externo, y las
causas de la misma, basándose en factores primarios ,como sexo, edad, económicos, y con esto
logran tener una correlación que permita discriminar entre las causas mas comunes y por ende
su efectividad en la obtención de alimentos, en el cual las menores de edad resultan los mas
afectados junto con los ancianos (Rina Mazuera-Arias, 2021)

En esta investigación la variable dependiente será la recuperación de los pacientes donde se


aplica si y no como una variable binaria, con esta investigación ,lo que se busca es ver que tan
eficiente es la recuperación de los mismos, cogiendo como muestra a una grupo representativo
de los mismos, y para esto las variables se basan en obtener datos, y mejor procesos con la
combinación no solo el uso de modelo de regresión logística, sino también con el árbol de
clasificación, para darle mas notoriedad a clasificar a grupos que necesitan mas cuidados, con el
uso de encuestar.(Camacho Camacho)

Bibliografía
: Irma Yupari-Azabache, L. B.-A.-A.-S.-D. (2020). Factores de riesgo de mortalidad por covid-19
en pacientes hospitalizados: un modelo de regresión logística. la Revista de la Facultad
de Medicina Humana de la Universidad Ricardo Palma, 21-22.

Camacho Camacho, N. K. (s.f.). Análisis de evaluación en el proceso de recuperación de


pacientes con Covid-19 mediante el uso de modelos de clasificación de aprendizaje
automático tal como regresión logística y árboles de clasificación. Universidad de
Guayaquil, 106-110.

Rina Mazuera-Arias, N. A.-A.-L. (2021). Seguridad alimentaria, Covid-19 y crisis: una aplicación
del modelo de regresión logística binomial para su estudio. Revista Mexicana de
Ciencias Politicas y Sociales, 66, 452-453.

También podría gustarte