Trabajo Individual Econometria 3.1

TRABAJO INDIVIDUAL
Jonathan Calvopiña Merchan
4/2/2022
1. Se ha seleccionado del capítulo 15 del pdf “Econometría” 5ed., de

Damodar Gujarati lo siguiente:
Con los datos de estos ejercicios realice en R y GRETL las siguientes actividades de
aprendizaje:
a) Lectura de los datos e identifique justificadamente según el contexto de los
datos la variable endógena, Y, y el resto de variables como exógenas, X.
Determine también interacciones si las hay.
b) Aplique comandos básicos en R o menús de GRETL para: visualización
manipulación sobre variables escogidas en el inciso a).
c) Resuelva los literales indicados en estos ejercicios
19.15. La tabla 15.27 del sitio web del libro de texto presenta datos de 2 000 mujeres en
relación con el trabajo (1 = la mujer trabaja, 0 = no trabaja), edad, estado civil (1 =casada,
0 = otros), número de hijos y nivel de escolaridad (número de años de escolaridad). De
un total de 2 000 mujeres, se registraron 657 que no perciben salario.
rm(list = ls())
library(ggplot2)
library(stats)
library(astsa)
library(readxl)
Table_15_27 <- read_excel("Table 15_27.xls")
str(Table_15_27)
## tibble [2,000 x 15] (S3: tbl_df/tbl/data.frame)

## $ c1 : num [1:2000] -0.436 0.352 1.077 1.021 -0.443 ...
## $ c2 : num [1:2000] -0.0969 0.3005 -1.596 -1.7105 0.3083 ..
.
## $ u : num [1:2000] -0.218 0.176 0.539 0.511 -0.221 ...
## $ v : num [1:2000] -0.3757 0.4612 -0.3762 -0.497 -0.0925 .
..
## $ pais : num [1:2000] 1 2 3 4 5 6 7 8 9 0 ...
## $ edad : num [1:2000] 22 36 28 37 39 33 57 45 39 25 ...
## $ escolar : num [1:2000] 10 10 10 10 10 10 10 16 12 10 ...
## $ casada : num [1:2000] 1 1 1 1 1 1 1 1 1 0 ...
## $ hijos : num [1:2000] 0 0 0 0 1 2 1 0 0 3 ...
## $ select : num [1:2000] 16.8 32.4 19.2 21.3 32 ...
## $ asalariado: num [1:2000] 12.8 20.3 23.1 24.5 16.1 ...
## $ salario : num [1:2000] NA 20.3 NA NA 16.1 ...
## $ lw : num [1:2000] NA 3.01 NA NA 2.78 ...
## $ trabajo : num [1:2000] 0 1 0 0 1 1 1 1 0 1 ...
## $ lwf : num [1:2000] 0 3.01 0 0 2.78 ...
attach(Table_15_27)
En nuestra base de datos hay muchos valores de los cuales tomaremos los mas
importantes, esto son trabajo, edad, estado civil, número de hijos, nivel de escolaridad,
donde la variable endógena es trabajo y las variables explicativas o exógenas son la
edad, número de hijos, nivel de escolaridad y nuestra variable Dummy va a ser estado
civil, donde si está casada será 1 y si es otro estado civil será 0.
𝒚𝒊 =∝ + 𝒙𝟏 𝜷𝟏 + 𝒙𝟐 𝜷𝟐 + 𝒙𝟑 𝜷𝟑 + 𝑫𝜷𝟒 + 𝜺𝒊
a) Con estos datos, estime el modelo lineal de probabilidad (MLP).

Modelo 1: MCO, usando las observaciones 1-2000
Variable dependiente: trabajo
Coeficiente Desv. Típica Estadístico t valor p

const −0,207323 0,0541110 −3,831 0,0001 ***
edad 0,0102552 0,00122694 8,358 <0,0001 ***
educacion 0,0186011 0,00324990 5,724 <0,0001 ***
hijos 0,115308 0,00677151 17,03 <0,0001 ***
casada 0,111112 0,0219477 5,063 <0,0001 ***
Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785

Suma de cuad. residuos 351,7833 D.T. de la regresión 0,419920
R-cuadrado 0,202623 R-cuadrado corregido 0,201024
F(4, 1995) 126,7381 Valor p (de F) 1,65e-96
Log-verosimilitud −1099,990 Criterio de Akaike 2209,980
Criterio de Schwarz 2237,984 Crit. de Hannan-Quinn 2220,263
mpl1<- lm(trabajo~educación+edad+hijos+casada, data =Table_15_27 )

summary(mpl1)
##
## Call:
## lm(formula = trabajo ~ educación + edad + hijos + casada, data = Ta
ble_15_27)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.0703 -0.4142 0.1372 0.3437 0.8060
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.207323 0.054111 -3.831 0.000131 ***
## educación 0.018601 0.003250 5.724 1.20e-08 ***
## edad 0.010255 0.001227 8.358 < 2e-16 ***
## hijos 0.115308 0.006772 17.028 < 2e-16 ***
## casada 0.111112 0.021948 5.063 4.52e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4199 on 1995 degrees of freedom
## Multiple R-squared: 0.2026, Adjusted R-squared: 0.201
## F-statistic: 126.7 on 4 and 1995 DF, p-value: < 2.2e-16
̂ = −0.207323 + 0.018601(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.010255(𝐞𝐝𝐚𝐝)
𝑻𝒓𝒂𝒃𝒂𝒋𝒐
+ 0.115308(𝐡𝐢𝐣𝐨𝐬) + 0.111112(𝐜𝐚𝐬𝐚𝐝𝐚)
Quedando que en cada año de instrucción escolar representa un 1,86% de probabilidad de tener
trabajo, por cada año de edad, se tiene 1.03% de probabilidad de tener trabajo, con cada hijo
que tenga representa un 11.5% de probabilidad de tener empleo y si está casada representa un
1.1.11% de probabilidad de tener trabajo pero con solo tiene un 20% de nivel confianza, por lo
que es un modelo optimo, ahora lo haremos eliminando nuestra variable Dummy de estado civil
donde las mujeres tienen otro tipo de estado civil que no sea casada, nos queda que:


const −0,240217 0,0540499 −4,444 <0,0001 ***
edad 0,0121578 0,00117515 10,35 <0,0001 ***
educacion 0,0220538 0,00319707 6,898 <0,0001 ***
hijos 0,111254 0,00676534 16,44 <0,0001 ***

F(3, 1996) 158,4854 Valor p (de F) 3,88e-92
mpl2<- lm(trabajo~educación+edad+hijos, data =Table_15_27 )

summary(mpl2)
##
## Call:
## lm(formula = trabajo ~ educación + edad + hijos, data = Table_15_27
)
##
## Residuals:
## -1.1291 -0.4146 0.1409 0.3384 0.7644
##
## Coefficients:
## (Intercept) -0.240217 0.054050 -4.444 9.30e-06 ***
## educación 0.022054 0.003197 6.898 7.05e-12 ***
## edad 0.012158 0.001175 10.346 < 2e-16 ***
## hijos 0.111254 0.006765 16.445 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## F-statistic: 158.5 on 3 and 1996 DF, p-value: < 2.2e-16
̂ = −𝟎. 𝟐𝟒𝟎𝟐𝟏𝟕 + 𝟎. 𝟎𝟐𝟐𝟎𝟓𝟒 (educación) + 𝟎. 𝟎𝟏𝟐𝟏𝟓𝟖(edad)
𝑇𝑟𝑎𝑏𝑎𝑗𝑜
+ 𝟎. 𝟏𝟏𝟏𝟐𝟓𝟒(hijos)
Con una confianza del 19.24% se puede afirmar que las mujeres que no están casadas, tienden
a tener una muy ligera ventaja para conseguir empleo ,siendo así el 2.20% de probabilidad de
tener trabajo por cada año de instrucción académica, un 1,22% de probabilidad de empleo por
cada año de edad, pero una leve desventaja a las mujeres casadas en lo que respecta a sus hijos
con el 11.12% de probabilidad de tener trabajo, pero como se puede ver, es un mal modelo, ya
que el nivel de confianza es bajo, para poder considerarlo un modelo optimo.
1,6
observada = predicción Residuos de la regresión (= trabajo observada - estimada)
1
1,4
0,8
1,2 0,6
0,4
1
0,2
trabajo
residuo
0
0,8
-0,2
0,6
-0,4
-0,6
0,4
-0,8
0,2
-1
-1,2
0 0 500 1000 1500 2000
0,2 0,4 0,6 0,8 1 1,2 1,4
Predicción de trabajo
plot(mpl$fitted, type = "l", col = "cyan")

abline(h = 0 , col = "red")
abline(h = 1,col = "red")
2,5
Intervalo de 95 por ciento
trabajo
predicción
1,5
0,5
-0,5
-1
0 500 1000 1500 2000
Como se puede observar los valores sobrepasan el 1, por lo que se considera una falacia
estadística, es decir que el modelo no es idóneo, y no se ajusta adecuadamente, a continuación,
usaremos los modelos lineales generalizados.
b) Con los mismos datos, estime un modelo logit y obtenga los efectos marginales
de las diferentes variables.
predict_mlp = predict(mlp, type = "response")

summary(predict_mlp)
## Min. 1st Qu. Median Mean 3rd Qu. Max.

## 0.1838 0.5305 0.6551 0.6715 0.7987 1.3728
Se puede ver que incluso en la predicción sale de los valores establecidos, con un máximo que
sobrepasa el uno, lo cual es evidente que es un mal modelo.
Modelo 5: Logit, usando las observaciones 1-2000

Desviaciones típicas QML
Coeficiente Desv. Típica z Pendiente*
const −4,15925 0,327316 −12,71
edad 0,0579303 0,00720364 8,042 0,0115031
educacion 0,0982513 0,0190062 5,169 0,0195096
hijos 0,764488 0,0497460 15,37 0,151803
casada 0,741777 0,127187 5,832 0,154567

R-cuadrado de 0,188204 R-cuadrado corregido 0,184255
McFadden
*
Evaluado en la media
Número de casos 'correctamente predichos' = 1473 (73,7%)
f(beta'x) en la media de las variables independientes = 0,470
Contraste de razón de verosimilitudes: Chi-cuadrado(4) = 476,616 [0,0000]
y<-cbind(trabajo)
x<-cbind(educación,edad,hijos,casada)
##2.Estimacion del modelo logit:
#Modelo LOGIT
logit <- glm(y~x,family=binomial(link="logit"));logit
##
## Call: glm(formula = y ~ x, family = binomial(link = "logit"))
##
## Coefficients:
## (Intercept) xeducación xedad xhijos xcasada
## -4.15925 0.09825 0.05793 0.76449 0.74178
##
## Degrees of Freedom: 1999 Total (i.e. Null); 1995 Residual
## Null Deviance: 2532
## Residual Deviance: 2056 AIC: 2066
Modelo Logit:
̂ = −4.15925 + 0.09825(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.05793 (𝐞𝐝𝐚𝐝)
+ 0.76449(𝐡𝐢𝐣𝐨𝐬) + 0.74178(𝐜𝐚𝐬𝐚𝐝𝐚)
str(logit)
summary(logit)
##
## Call:
## glm(formula = y ~ x, family = binomial(link = "logit"))
##
## Deviance Residuals:
## -2.6212 -0.9292 0.4614 0.8340 2.0455
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.159247 0.332040 -12.526 < 2e-16 ***
## xeducación 0.098251 0.018652 5.268 1.38e-07 ***
## xedad 0.057930 0.007221 8.022 1.04e-15 ***
## xhijos 0.764488 0.051529 14.836 < 2e-16 ***
## xcasada 0.741777 0.126471 5.865 4.49e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2532.4 on 1999 degrees of freedom
## Residual deviance: 2055.8 on 1995 degrees of freedom
## AIC: 2065.8
##
## Number of Fisher Scoring iterations: 5
plot(logit$fitted, type = "l")

abline(h = 0, col = "red")
Residuos de la regresión (= trabajo observada - estimada)

1
0,8
0,6
0,4
0,2
residuo
-0,2
-0,4
-0,6
-0,8
-1
0 500 1000 1500 2000
Como se observa en el modelo ajustado Logit están dentro de los parámetros de 0 y 1 por ende
es un buen modelo, siendo optimo.
predict_logit = predict(logit, type = "response")
summary(predict_logit)

## 0.1173 0.5253 0.6968 0.6715 0.8533 0.9952
Como podemos ver la predicción se ajusta dentro de 0 y uno por lo que es un buen modelo .
Para verificar hacemos
Pi <- logit$fitted.values
# parametros
Li <- -4.159247 + (educación*0.098251 + edad*0.057930 + hijos*0.764488
+casada*0.741777 )
# Probabilidades de los valores estimados
P_i <- exp(Li)/(1+exp(Li))
##Estudiar la proporción de aciertos de este modelo

Dc <- as.character(y)
P_ic <- as.character(round(P_i,0))
tc <- table(Dc,P_ic);tc
## P_ic
## Dc 0 1
## 0 296 361
## 1 166 1177
prop.table(tc)
## P_ic
## Dc 0 1
## 0 0.1480 0.1805
## 1 0.0830 0.5885
aciertos <- 0.1480+0.5885; aciertos
## [1] 0.7365
Según nuestro modelo Logit la probabilidad de aciertos es del 73.65% , lo cual es un buen modelo
que se ajusta.
c) Repita b) con el modelo probit.
Modelo 6: Probit, usando las observaciones 1-2000

Desviaciones típicas QML
Coeficiente Desv. Típica z Pendiente*
const −2,46737 0,191461 −12,89
edad 0,0347211 0,00425307 8,164 0,0117210
educacion 0,0583645 0,0111558 5,232 0,0197024
hijos 0,447325 0,0279747 15,99 0,151006
casada 0,430857 0,0745243 5,781 0,150478

R-cuadrado de 0,188878 R-cuadrado corregido 0,184929
McFadden
*
Evaluado en la media
Número de casos 'correctamente predichos' = 1473 (73,7%)
f(beta'x) en la media de las variables independientes = 0,470
Contraste de razón de verosimilitudes: Chi-cuadrado(4) = 478,322 [0,0000]
Contraste de normalidad de los residuos -
Hipótesis nula: [El error tiene distribución Normal]
Estadístico de contraste: Chi-cuadrado(2) = 2,69159
con valor p = 0,260332
#Modelo PROBIT
probit <- glm(y~x,family=binomial(link="probit"));probit
##
## Call: glm(formula = y ~ x, family = binomial(link = "probit"))
##
## Coefficients:
## (Intercept) xeducación xedad xhijos xcasada
## -2.46736 0.05836 0.03472 0.44732 0.43086
##
## Null Deviance: 2532
## Residual Deviance: 2054 AIC: 2064
̂ = −2.46736 + 0.05836(𝐢𝐧𝐬𝐭𝐫𝐮𝐜𝐜𝐢𝐨𝐧 𝐞𝐬𝐜𝐨𝐥𝐚𝐫) + 0.03472(𝐞𝐝𝐚𝐝)
+ 0.44732(𝐡𝐢𝐣𝐨𝐬) + 0.43086(𝐜𝐚𝐬𝐚𝐝𝐚)
summary(probit)
##
## Call:
## glm(formula = y ~ x, family = binomial(link = "probit"))
##
## -2.7594 -0.9414 0.4552 0.8459 2.0427
##
## Coefficients:
## (Intercept) -2.467365 0.192291 -12.831 < 2e-16 ***
## xeducación 0.058365 0.011018 5.297 1.18e-07 ***
## xedad 0.034721 0.004232 8.204 2.33e-16 ***
## xhijos 0.447325 0.028642 15.618 < 2e-16 ***
## xcasada 0.430857 0.074310 5.798 6.71e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
##
## AIC: 2064.1
##
plot(logit$fitted, type = "l")

Como se observa en el modelo ajustado Probit están dentro de los parámetros de 0 y 1 por ende
es un buen modelo, siendo optimo,con 5 interacciones.
Residuos de la regresión (= trabajo observada - estimada)
2
1,5
0,5
residuo
-0,5
-1
-1,5
-2
-2,5
0 500 1000 1500 2000
predict_probit = predict(probit, type = "response")

summary(predict_probit)

## 0.1172 0.5275 0.6907 0.6712 0.8522 0.9992
Las predicciones nos dan un buen indicador que esta dentro del parámetro 0 y 1 con un mínimo
de 0.12 y un máximo de 0.99 y una media de 0.67 y en lo que respecta a acierto el modelo probit
nos dio de 73.7%
d) ¿Qué modelo elegiría? ¿Por qué?
Los dos modelos son estadísticamente significativos los dos resuelven cumplen, el logit
y el probit ,pero para este caso la regresión logística tiene interpretación más fácil que
el logit, desde mi perspectiva
15.21 Descargue el conjunto de datos Benign, que aparece en la tabla 15.29, del sitio
web del libro de texto. La variable cáncer es dicótoma, donde 1 = tuvo cáncer mamario
y 0 =no tuvo cáncer mamario.* Use las variables edad (= edad del sujeto), HIGD (=grado
más alto de educación terminado), CHK (=0 si el sujeto no se realizó exámenes médicos
con regularidad y = 1 si el sujeto se realizó exámenes médicos con regularidad), AGPI
(=edad cuando se embarazó por primera vez), abortos espontáneos ( = número de
abortos espontáneos) y peso (= peso del sujeto) y ejecute una regresión logística para
concluir si estas variables son estadísticamente útiles para pronosticar si una mujer se
enfermará de cáncer mamario o no.
Modelo MCO:
Cancer = 𝛽0 + 𝛽1Age + 𝛽2HIGD + 𝛽1AGPI + 𝛽2Miscarriages + ε

Variable dependiente: Cancer
Desviaciones típicas robustas ante heterocedasticidad, variante HC1

const 0,330221 0,256733 1,286 0,2001
Age 0,00100007 0,00333741 0,2997 0,7648
HIGD −0,0114502 0,0146768 −0,7802 0,4364
CHK −0,203945 0,0539303 −3,782 0,0002 ***
AGPI 0,0194480 0,00831943 2,338 0,0206 **
Miscarriages 0,0436685 0,0266208 1,640 0,1028
Weight −0,00282307 0,000696098 −4,056 <0,0001 ***

F(6, 171) 7,261423 Valor p (de F) 6,38e-07
Como se puede observar en la tabla de Mínimos cuadrados ordinarios, existe solo 3 que
tienen significancia, el resto no la tiene por ende se debe eliminar, para poder realizar
un buen modelo.
2
Intervalo de 95 por ciento
Cancer
predicción
1,5
0,5
-0,5
-1
0 20 40 60 80 100 120 140 160 180
En la predicción hecha con todas las variables, podemos ver que sobrepasa el 0 y 1 , por
lo que es un mal modelo.
Importamos los datos en R

Table_15_29 <- read_excel("Table 15_29.xls")
str(Table_15_29)
## tibble [178 x 12] (S3: tbl_df/tbl/data.frame)

## $ Cancer : num [1:178] 1 0 0 0 0 0 0 1 0 0 ...
## $ Age : num [1:178] 39 39 39 39 38 38 38 38 38 38 ...
## $ HIGD : num [1:178] 9 10 11 12 12 9 13 9 10 15 ...
## $ Degree : num [1:178] 0 0 0 1 1 0 1 0 0 1 ...
## $ CHK : num [1:178] 0 1 1 0 1 1 0 0 1 0 ...
## $ AGPI : num [1:178] 23 16 20 21 20 19 23 22 20 19 ...
## $ MenAge : num [1:178] 13 11 12 11 15 11 13 15 14 13 ...
## $ Miscarriages : num [1:178] 0 1 1 0 0 0 0 2 0 3 ...
## $ Births : num [1:178] 5 3 3 3 2 5 2 2 2 2 ...
## $ Weight : num [1:178] 118 175 135 125 183 218 192 125 123
140 ...
## $ AgePeriod : num [1:178] 39 39 39 40 38 38 37 38 38 37 ...
## $ Marital Status: num [1:178] 1 3 2 1 1 1 1 1 1 1 ...
attach(Table_15_29)
Todos los datos son numérico, pero en este caso nuestra variable Dummy es CHK,
nuestra variable endógena es Cáncer siendo:
muestra<-cbind(Cancer,Age,HIGD,CHK,AGPI,Miscarriages,Weight)
corrplot(cor(muestra), # Matriz de correlación

method = "shade", # Método para el gráfico de correlación
type = "full", # Estilo del gráfico (también "upper" y "lo
wer")
diag = TRUE, # Si TRUE (por defecto), añade la diagonal
tl.col = "black", # Color de las etiquetas
bg = "white", # Color de fondo
title = "", # Título
col = NULL) # Paleta de colores
Como se puede ver en nuestra grafica de correlación, solo existe 2 solo 2 cumplen la
correlación fuerte de significancia.
Volvemos a ingresar solamente las variables significativas
x<-cbind(Age,HIGD,CHK,AGPI,Miscarriages,Weight)
# Ajuste de un modelo lineal por mínimos cuadrados.

ml<- lm(Cancer~x, data =Table_15_29)
summary(ml)
##
## Call:
## lm(formula = Cancer ~ x, data = Table_15_29)
##
## Residuals:
## -0.5472 -0.2692 -0.1210 0.1006 0.9282
##
## Coefficients:
## (Intercept) 0.3302207 0.2951013 1.119 0.26471
## xAge 0.0010001 0.0030984 0.323 0.74726
## xHIGD -0.0114502 0.0133755 -0.856 0.39316
## xCHK -0.2039454 0.0624013 -3.268 0.00131 **
## xAGPI 0.0194480 0.0080021 2.430 0.01612 *
## xMiscarriages 0.0436685 0.0308983 1.413 0.15939
## xWeight -0.0028231 0.0009824 -2.874 0.00457 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## F-statistic: 5.799 on 6 and 171 DF, p-value: 1.609e-05
x2<-cbind(CHK,Weight)
modelo_logistico <- glm(Cancer ~ x2, data = Table_15_29, family = "bin

omial")
summary(modelo_logistico)
##
## Call:
## glm(formula = Cancer ~ x2, family = "binomial", data = Table_15_29)
##
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## x2CHK -1.503344 0.488494 -3.078 0.00209 **
## x2Weight -0.029554 0.009208 -3.210 0.00133 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
##
## AIC: 167.44
##
̂ = 3.255162 -1.503344(CHG) -0.029554(Weight)
Cancer
datos.modelo <- subset(Table_15_29, select = c(Cancer,CHK,Weight))

head(datos.modelo)
## # A tibble: 6 x 3
## Cancer CHK Weight
## <dbl> <dbl> <dbl>
## 1 1 0 118
## 2 0 1 175
## 3 0 1 135
## 4 0 0 125
## 5 0 1 183
## 6 0 1 218
datos.modelo$Cancer <- factor(datos.modelo$Cancer)

table(datos.modelo$Cancer)
##
## 0 1
## 138 40
summary(datos.modelo$CHK)

## 0.0000 0.0000 0.0000 0.3989 1.0000 1.0000
summary(datos.modelo$Weight)

## 80.0 123.0 140.0 144.6 158.8 265.0
library(ggplot2)
ggplot(datos.modelo, aes(x = Weight, y = CHK, color = Cancer)) + geom_
point()
Nuestros datos no se dispersan uniformemente en algoritmo, pero es notorio la precencia de

datos que estan dentro del estándar, de la probabilidad, siendo así que existe una correlación
entre no ir al medico a consulta regularmente y la reducción de peso también hace a una
persona procensa al cáncer.
modelo.logit <- glm(Cancer ~ Weight + CHK ,data = datos.modelo, family
= "binomial")
summary(modelo.logit)
##
## Call:
## glm(formula = Cancer ~ Weight + CHK, family = "binomial", data = da
tos.modelo)
##
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## Weight -0.029554 0.009208 -3.210 0.00133 **
## CHK -1.503344 0.488494 -3.078 0.00209 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
##
## AIC: 167.44
##
exp(coefficients(modelo.logit))
## (Intercept) Weight CHK

## 25.9238225 0.9708782 0.2223852
# Ajuste de un modelo logístico.
ggplot(modelo.logit, aes(x = Cancer, y = Weight, color = Cancer)) +

geom_boxplot(outlier.shape = NA) +
geom_jitter(width = 0.1) +
theme_bw() +
theme(legend.position = "null")
Haciendo una comparación con el cáncer y el peso, podemos ver que los datos si se
distribuyen de y dispersan a lo largo del peso, lo que nos hace ver que no hay un peso
especifico que se considere propenso mayor al cancer o menor.
confint(object = modelo.logit, level = 0.95 )
## Waiting for profiling to be done...
## 2.5 % 97.5 %
## (Intercept) 0.96660160 5.84891739
## Weight -0.04907875 -0.01281085
## CHK -2.55018116 -0.60594102
plot(modelo.logit$fitted, type = "l",col = "cyan" , main = "Modelo aju

stado logit")
abline(h = 0 , col = "red")
abline(h = 1,col = "red")
#Modelo LOGIT
logit <- glm(Cancer ~ Weight + CHK,family=binomial(link="logit"));logi
t
##
## Call: glm(formula = Cancer ~ Weight + CHK, family = binomial(link
= "logit"))
##
## Coefficients:
## (Intercept) Weight CHK
## 3.25516 -0.02955 -1.50334
##
## Null Deviance: 189.7
## Residual Deviance: 161.4 AIC: 167.4
str(logit)
summary(logit)
##
## Call:
## glm(formula = Cancer ~ Weight + CHK, family = binomial(link = "logi
t"))
##
## -1.2812 -0.7471 -0.4502 -0.1614 2.5728
##
## Coefficients:
## (Intercept) 3.255162 1.239091 2.627 0.00861 **
## Weight -0.029554 0.009208 -3.210 0.00133 **
## CHK -1.503344 0.488494 -3.078 0.00209 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
##
## AIC: 167.44
##
plot(logit$fitted, type = "l",col = "red", main = "Ajuste del modelo l

ogit")
abline(h = 0, col = "blue")
abline(h = 1, col = "blue")
Pi <- logit$fitted.values
# Con los parámetros estimados se llega a la expresión logit

Li <- 3.255162 + - 0.029554*Weight - 1.503344*CHK
# pudiendo despejarse las probabilidades mediante la expresión Pi=exp(

Li)/[1+exp(Li)]
P_i <- exp(Li)/(1+exp(Li))# Valores estimados
## Proporción de aciertos de este modelo

Dc <- as.character(Cancer);class(Dc)
## [1] "character"
P_ic <- as.character(round(P_i,0))
tc <- table(Dc,P_ic);tc
## P_ic
## Dc 0 1
## 0 133 5
## 1 35 5
prop.table(tc)
## P_ic
## Dc 0 1
## 0 0.74719101 0.02808989
## 1 0.19662921 0.02808989
aciertos <- 0.74719101+ 0.02808989;aciertos
## [1] 0.7752809
Como se pueden ver en las gráficas, el peso junto con la falta de ir al doctor por
chequeos de salud puede jugar a favor de ser propenso al cáncer, con 77.52% de
aciertos.
2. Para poner de manifiesto la importancia de los modelos de regresión logística en las
ciencias biosanitarias por ejemplo COVID-19, cada alumn@ buscará en internet tres
referencias de artículos publicados recientemente en revistas de investigación en los que se
aplique el modelo logit de respuesta binaria en las ciencias de la salud y presentará a través
de la plataforma la referencia completa de cada uno (autores, título, revista, volumen, año y
páginas) junto a un resumen del mismo en no más de 100 palabras. El alumn@ debe de
redactar el resumen con sus propias palabras en base a la lectura de cada trabajo sin hacer
una copia o traducción literal del abstract del artículo.
Los datos primarios nos da una idea general de la muestra desde allí poder tomar tratamiento y por
ende reducir al máximo la tasa de mortalidad, para lo cual se toma como base para el modelo de
regresión logística , siendo Edad, Sexo, Tos, Dificultad respiratoria, Dolor de articulaciones y
Diabetes, en base a una variable endógena que es Mortalidad de los pacientes(vivos/muertos),
esto permite saber la eficacia de los médicos en curar personas infectadas por el Covid-19,
siendo la población más vulnerable según la investigación ancianos, enfermedades
preexistentes, y también el sexo, ya que se los hombres mueren mucho más. (: Irma Yupari-
Azabache, 2020)
Como variable endógena es percibe ayuda de organismos públicos o privados, partiendo desde
allí, lo que busca con esta investigación y la importancia del modelo es conocer la problemática
de la sociedad mas pobre del país, y saber en cuanto se esta ayudando el apoyo externo, y las
causas de la misma, basándose en factores primarios ,como sexo, edad, económicos, y con esto
logran tener una correlación que permita discriminar entre las causas mas comunes y por ende
su efectividad en la obtención de alimentos, en el cual las menores de edad resultan los mas
afectados junto con los ancianos (Rina Mazuera-Arias, 2021)
En esta investigación la variable dependiente será la recuperación de los pacientes donde se

aplica si y no como una variable binaria, con esta investigación ,lo que se busca es ver que tan
eficiente es la recuperación de los mismos, cogiendo como muestra a una grupo representativo
de los mismos, y para esto las variables se basan en obtener datos, y mejor procesos con la
combinación no solo el uso de modelo de regresión logística, sino también con el árbol de
clasificación, para darle mas notoriedad a clasificar a grupos que necesitan mas cuidados, con el
uso de encuestar.(Camacho Camacho)
Bibliografía
: Irma Yupari-Azabache, L. B.-A.-A.-S.-D. (2020). Factores de riesgo de mortalidad por covid-19
en pacientes hospitalizados: un modelo de regresión logística. la Revista de la Facultad
de Medicina Humana de la Universidad Ricardo Palma, 21-22.
Camacho Camacho, N. K. (s.f.). Análisis de evaluación en el proceso de recuperación de

pacientes con Covid-19 mediante el uso de modelos de clasificación de aprendizaje
automático tal como regresión logística y árboles de clasificación. Universidad de
Guayaquil, 106-110.
Rina Mazuera-Arias, N. A.-A.-L. (2021). Seguridad alimentaria, Covid-19 y crisis: una aplicación
del modelo de regresión logística binomial para su estudio. Revista Mexicana de
Ciencias Politicas y Sociales, 66, 452-453.

Trabajo Individual Econometria 3.1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo Individual Econometria 3.1

Cargado por

Copyright:

Formatos disponibles

TRABAJO INDIVIDUAL

Jonathan Calvopiña Merchan

1. Se ha seleccionado del capítulo 15 del pdf “Econometría” 5ed., de

## tibble [2,000 x 15] (S3: tbl_df/tbl/data.frame)

a) Con estos datos, estime el modelo lineal de probabilidad (MLP).

Coeficiente Desv. Típica Estadístico t valor p

Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785

mpl1<- lm(trabajo~educación+edad+hijos+casada, data =Table_15_27 )

Modelo 4: MCO, usando las observaciones 1-2000

Coeficiente Desv. Típica Estadístico t valor p

Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785

mpl2<- lm(trabajo~educación+edad+hijos, data =Table_15_27 )

plot(mpl$fitted, type = "l", col = "cyan")

predict_mlp = predict(mlp, type = "response")

## Min. 1st Qu. Median Mean 3rd Qu. Max.

Modelo 5: Logit, usando las observaciones 1-2000

Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785

##2.Estimacion del modelo logit:

plot(logit$fitted, type = "l")

Residuos de la regresión (= trabajo observada - estimada)

## Min. 1st Qu. Median Mean 3rd Qu. Max.

##Estudiar la proporción de aciertos de este modelo

P_ic <- as.character(round(P_i,0))

aciertos <- 0.1480+0.5885; aciertos

Modelo 6: Probit, usando las observaciones 1-2000

Media de la vble. dep. 0,671500 D.T. de la vble. dep. 0,469785

plot(logit$fitted, type = "l")

predict_probit = predict(probit, type = "response")

## Min. 1st Qu. Median Mean 3rd Qu. Max.

Cancer = 𝛽0 + 𝛽1Age + 𝛽2HIGD + 𝛽1AGPI + 𝛽2Miscarriages + ε

Modelo 1: MCO, usando las observaciones 1-178

Coeficiente Desv. Típica Estadístico t valor p

Media de la vble. dep. 0,224719 D.T. de la vble. dep. 0,418575

Importamos los datos en R

## tibble [178 x 12] (S3: tbl_df/tbl/data.frame)

corrplot(cor(muestra), # Matriz de correlación

# Ajuste de un modelo lineal por mínimos cuadrados.

modelo_logistico <- glm(Cancer ~ x2, data = Table_15_29, family = "bin

datos.modelo <- subset(Table_15_29, select = c(Cancer,CHK,Weight))

datos.modelo$Cancer <- factor(datos.modelo$Cancer)

## Min. 1st Qu. Median Mean 3rd Qu. Max.

## Min. 1st Qu. Median Mean 3rd Qu. Max.

Nuestros datos no se dispersan uniformemente en algoritmo, pero es notorio la precencia de

## (Intercept) Weight CHK

# Ajuste de un modelo logístico.

ggplot(modelo.logit, aes(x = Cancer, y = Weight, color = Cancer)) +

## Waiting for profiling to be done...

plot(modelo.logit$fitted, type = "l",col = "cyan" , main = "Modelo aju

plot(logit$fitted, type = "l",col = "red", main = "Ajuste del modelo l

# Con los parámetros estimados se llega a la expresión logit

# pudiendo despejarse las probabilidades mediante la expresión Pi=exp(

## Proporción de aciertos de este modelo

aciertos <- 0.74719101+ 0.02808989;aciertos

En esta investigación la variable dependiente será la recuperación de los pacientes donde se

Camacho Camacho, N. K. (s.f.). Análisis de evaluación en el proceso de recuperación de

También podría gustarte