Está en la página 1de 6

TALLER SEMANA 11

Considerando la base de datos adjunta al taller debes completar los siguientes pasos, recuerda responder agregando si es necesario un cuadro
de codigo y/o texto

1. Anota las librerias necesarias para correr el(los) código(s).


2. Importa y limpia (si amerita) adecuadamente la base de datos.
3. Desarrolla un modelo de regresión lineal múltiple donde la variable explicada sea el producto interno bruto del país (gdp, por sus siglas en
inglés).
4. ¿Cuál es el efecto causal que quieres estimar? ¿Por qué es interesante?
5. Concluya de manera global sobre los resultados del modelo.
6. Concluya de manera particular los resultados del módelo.
7. ¿Qué variables no consideradas podrían afectar la variable explicada? Justifique.

from google.colab import files 

  

  

uploaded = files.upload()

Elegir archivos nations_gdp_s…life_co2.csv


nations_gdp_school_life_co2.csv(application/vnd.ms-excel) - 11654 bytes, last modified: 26/12/2021 - 100% done
Saving nations_gdp_school_life_co2.csv to nations_gdp_school_life_co2 (1).csv

No se pudo guardar de forma automática. Este archivo se actualizó de forma remota o en otra pestaña.
Mostrar diferencias
import pandas as pd                        

import statsmodels.api as sm                

import statsmodels.formula.api as smf       

import matplotlib.pyplot as plt             

from statsmodels.graphics.regressionplots import abline_plot

import numpy as np

import seaborn as sns

import statsmodels.formula.api as smf

# Observar datos

import io 
  
df = pd.read_csv(io.BytesIO(uploaded['nations_gdp_school_life_co2.csv']), sep=';', decimal=",",encoding='ISO-8859-1') 
print(df)

country region gdp school life co2

0 Algeria Africa 7300.399902 6.716667 72.316666 15.00

1 Benin Africa 1338.800049 3.100000 54.733334 1.20

2 Botswana Africa 12307.400390 8.600000 52.250000 9.20

3 Burkina Faso Africa 1063.400024 1.300000 53.783333 0.20

4 Burundi Africa 349.200012 2.483333 48.866665 0.10

.. ... ... ... ... ... ...

189 Samoa Oceania 4012.600098 10.300000 71.533333 3.10

190 Solomon Islands Oceania 2249.199951 4.500000 66.500000 1.40

191 Tonga Oceania 4072.199951 10.133333 71.833336 4.85

192 Tuvalu Oceania NaN NaN 66.033333 NaN

193 Vanuatu Oceania 3809.800049 6.700000 69.966667 1.50

[194 rows x 6 columns]

df.head()

country region gdp school life co2

0 Algeria Africa 7300.399902 6.716667 72.316666 15.0

1 Benin Africa 1338.800049 3.100000 54.733334 1.2

2 Botswana Africa 12307.400390 8.600000 52.250000 9.2

3 Burkina Faso Africa 1063.400024 1.300000 53.783333 0.2

4 Burundi Africa 349.200012 2.483333 48.866665 0.1

df.info()
No se pudo guardar de forma automática. Este archivo se actualizó de forma remota o en otra pestaña.
Mostrar diferencias

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 194 entries, 0 to 193


Data columns (total 6 columns):

# Column Non-Null Count Dtype

--- ------ -------------- -----

0 country 194 non-null object

1 region 194 non-null object

2 gdp 179 non-null float64

3 school 188 non-null float64

4 life 194 non-null float64

5 co2 185 non-null float64

dtypes: float64(4), object(2)

memory usage: 9.2+ KB

df.corr()
gdp school life co2

gdp 1.000000 0.573280 0.611219 0.826819

school 0.573280 1.000000 0.725207 0.416818

life 0.611219 0.725207 1.000000 0.445990


#Eliminar filas que ontengan NaN

co2 0.826819 0.416818 0.445990 1.000000


df.dropna(inplace=True)

df.info()

<class 'pandas.core.frame.DataFrame'>

Int64Index: 175 entries, 0 to 193


Data columns (total 6 columns):

# Column Non-Null Count Dtype

--- ------ -------------- -----

0 country 175 non-null object

1 region 175 non-null object

2 gdp 175 non-null float64

3 school 175 non-null float64

4 life 175 non-null float64

5 co2 175 non-null float64

dtypes: float64(4), object(2)

memory usage: 9.6+ KB

df.corr()

No se pudo guardar de forma automática. Este archivo se actualizó de forma remota o en otra pestaña.
Mostrar diferencias
gdp school life co2

gdp 1.000000 0.580460 0.614272 0.826819

school 0.580460 1.000000 0.735768 0.422787

life 0.614272 0.735768 1.000000 0.443450

co2 0.826819 0.422787 0.443450 1.000000

sns.heatmap(df.corr(), cmap="RdBu", annot=True);
# Resumen del Modelo

mod = smf.ols('gdp ~school+life+co2 ', df).fit()

mod.params

Intercept -19827.455018

school 651.858271

life 301.887907

co2 362.431085

dtype: float64

mod = smf.ols('gdp ~school+life+co2 ', df).fit()
mod.params

print(mod.summary())  

No se pudo guardar de forma automática. Este archivo se actualizó de forma remota o en otra pestaña.
Mostrar diferencias
OLS Regression Results

==============================================================================

Dep. Variable: gdp R-squared: 0.769

Model: OLS Adj. R-squared: 0.764

Method: Least Squares F-statistic: 189.2

Date: Mon, 27 Dec 2021 Prob (F-statistic): 4.26e-54

Time: 02:43:37 Log-Likelihood: -1791.2

No. Observations: 175 AIC: 3590.

Df Residuals: 171 BIC: 3603.

Df Model: 3

Covariance Type: nonrobust

==============================================================================

coef std err t P>|t| [0.025 0.975]

------------------------------------------------------------------------------

Intercept -1.983e+04 4250.157 -4.665 0.000 -2.82e+04 -1.14e+04

school 651.8583 259.089 2.516 0.013 140.434 1163.283

life 301.8879 78.581 3.842 0.000 146.775 457.001

co2 362.4311 22.374 16.198 0.000 318.266 406.597

==============================================================================

Omnibus: 36.887 Durbin-Watson: 1.850

Prob(Omnibus): 0.000 Jarque-Bera (JB): 67.548

Skew: 1.020 Prob(JB): 2.15e-15

Kurtosis: 5.258 Cond. No. 600.

==============================================================================

Warnings:

[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

mod.summary()

OLS Regression Results


Dep. Variable: gdp R-squared: 0.769
Model: OLS Adj. R-squared: 0.764
Method: Least Squares F-statistic: 189.2
Date: Mon, 27 Dec 2021 Prob (F-statistic): 4.26e-54
Time: 02:08:23 Log-Likelihood: -1791.2
No. Observations: 175 AIC: 3590.
Df Residuals: 171 BIC: 3603.
Df Model: 3
Covariance Type: nonrobust
coef std err t P>|t| [0.025 0.975]
Intercept -1.983e+04 4250.157 -4.665 0.000 -2.82e+04 -1.14e+04
school 651.8583 259.089 2.516 0.013 140.434 1163.283
life 301.8879 78.581 3.842 0.000 146.775 457.001
co2 362.4311 22.374 16.198 0.000 318.266 406.597
Omnibus: 36.887 Durbin-Watson: 1.850
Prob(Omnibus): 0.000 Jarque-Bera (JB): 67.548
Skew: 1.020 Prob(JB): 2.15e-15
No se pudo guardar de5.258
Kurtosis: forma automática. Este archivo
Cond. No. 600. se actualizó de forma remota o en otra pestaña.
Mostrar diferencias

Warnings:

[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

4. ¿Cuál es el efecto causal que quieres estimar? ¿Por qué es interesante?

El Efecto Causal que se quiere estimar con la variable Producto Interno Bruto (PIB), es la subvariabilidad en razon a otras variables
(escolaridad, ,vida y emisiones de CO2) y la forma en como ellas influencian a las demas.
Al realizar un modelo de regresión lineal simple o
multiple, se aprende como despreciar información existente y encontrar la que de verdad es relevante y nos entrega una informacion real y
consistente
El Producto Interno Bruto es el valor total de los bienes y servicios producidos en el territorio de un país en un periodo determinado,
libre de duplicaciones. Se puede obtener mediante la diferencia entre el valor bruto de producción y los bienes y servicios consumidos durante
el propio proceso productivo, a precios comprador (consumo intermedio). Esta variable se puede obtener también en términos netos al
deducirle al PIB el valor agregado y el consumo de capital fijo de los bienes de capital utilizados en la producción.
5. Concluya de manera global sobre los resultados del modelo.

Al concluir de manera global, se puede afirmar que la variable PIB en relacion con las demas variables estudiadas, se obtiene un R-squared
(R2)76,9%, este valor nos dice que las variables son significativas
6. Concluya de manera particular los resultados del módelo.

A partir de un breve analis de la regresion multiple realizada, se puede observar variables que no nos entregan mucha información y se vuelven
variables que manchan el modelo

7. ¿Qué variables no consideradas podrían afectar la variable explicada? Justifique.

Ademas de las variables ya analizadas deberia considerarse la cantidad de población que poseen los paises y asi se podria evaluar el PIB
Percapita y así poder comprar los ingresos por individuos. Otra variable que se puede agregar es la inflación que experimentan los paises y
realizar el ejercicio de encontrar el PIB Real que obtiene cada pais en un año.

No se pudo guardar de forma automática. Este archivo se actualizó de forma remota o en otra pestaña.
Mostrar diferencias

check 0 s se ejecutó 23:43

También podría gustarte