Está en la página 1de 6

ATELIER SEMAINE 11

En utilisant la base de données jointe à l'atelier, vous devez compléter les étapes suivantes, en n'oubliant pas de répondre en ajoutant si
nécessaire une case de code et/ou un texte.

1. Notez les bibliothèques nécessaires pour exécuter le(s) code(s).


2. Importer et nettoyer (si nécessaire) la base de données correctement.
3. Développez un modèle de régression linéaire multiple dans lequel la variable expliquée est le produit intérieur brut (PIB) du pays.
4. Quel est l'effet causal que vous souhaitez estimer ? Pourquoi est-ce intéressant ?
5. Conclure globalement sur les résultats du modèle.
^. Conclure en particulier les résultats du modèle.
7. Quelles sont les variables non prises en compte qui pourraient affecter la variable expliquée ? Justi^que.

from google.colab import files uploaded = files.upload()

Choisir les fichiers nations_gdp_s...life_co2.csv


- nations_gdp_school_life_co2.csv(application/vnd.ms-excel) - 11654 bytes, dernière modification : 26/12/2021 - 100% done
Sauvegarde de nationsgdpschoollifeco2.csv vers nationsgdpschoollifeco2 (1).csv

Il n'était pas possible de sauvegarder automatiquement. Ce fichier a été mis à jour à distance ou dans un autre onglet. Montrer les différences

import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
from statsmodels.graphics.regressionplots import abline_plot
import numpy as np
import seaborn as sns

import statsmodels.formula.api as smf

# Observer les données

import io

df = pd.read_csv(io.BytesIO(uploaded['nations_gdp_school_life_co2.csv']), sep=';', decimal=",",encoding='ISO-8859-1')


print(df)

pays région PIB l'écol vie co2


e
0 Algérie Afrique 7300.399902 6.716667 72.316666 15.00
1 Bénin Afrique 1338.800049 3.100000 54.733334 1.20
2 Botswana Afrique 12307.400390 8.600000 52.250000 9.20
3 Burkina Faso Afrique 1063.400024 1.300000 53.783333 0.20
4 Burundi Afrique 349.200012 2.483333 48.866665 0.10
.. ... ... ... ... ... ...
189 Samoa Océanie 4012.600098 10.300000 71.533333 3.10
190 Îles Salomon Océanie 2249.199951 4.500000 66.500000 1.40
191 Tonga Océanie 4072.199951 10.133333 71.833336 4.85
192 Tuvalu Océanie NaN NaN 66.033333 NaN
193 Vanuatu Océanie 3809.800049 6.700000 69.966667 1.50
[194 lignes x 6 colonnes] [194 lignes x 6 colonnes

df.head()


pays région PIB l'école vie co2

0 Algérie Afrique 7300.399902 6.716667 72.316666 15.0

1 Bénin Afrique 1338.800049 3.100000 54.733334 1.2

2 Botswana Afrique 12307.400390 8.600000 52.250000 9.2

3 Burkina Faso Afrique 1063.400024 1.300000 53.783333 0.2

4 Burundi Afrique 349.200012 2.483333 48.866665 0.1

Il n'était pas possible de sauvegarder automatiquement. Ce fichier a été mis à jour à distance ou dans un autre onglet. Montrer les
différences

<class 'pandas.core.frame.DataFrame'>
RangeIndex : 194 entrées, 0 à 193
Donn Colonnes (6 colonnes au total) :
ées Colonnes Compte non nul Type de
# Colonne données
0 pays 194 non nul objet
1 région 194 non nul objet
2 PIB 179 non nul float64
3 l'école 188 non nul float64
4 vie 194 non nul float64
5 co2 185 non nul float64
dtypes : float64(4), object(2) utilisation de la mémoire : 9.2+ KB

df.corr()

PIB l'école vie co2

PIB 1.000000 0.573280 0.611219 0.826819

l'école 0.573280 1.000000 0.725207 0.416818

vie 0.611219 0.725207 1.000000 0.445990


#Supprime les lignes contenant des NaN df.dropna(inplace=True) df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index : 175 entrées, 0 à 193
Colonnes de données (6 colonnes au total) :
# Colonne Non-nulle Compte Type
0 pays 175 non nul objet
1 région 175 non nul objet
2 PIB 175 non nul float64
3 l'école 175 non nul float64
4 vie 175 non nul float64
5 co2 175 non nul float64
dtypes : float64(4), object(2) utilisation de la mémoire : 9.6+ KB

df.corr()

Il n'était pas possible de sauvegarder automatiquement. Ce fichier a été mis à jour à distance ou dans un autre onglet. Montrer les
différences

gap scnooi lire coz M

PIB 1.000000 0.580460 0.614272 0.826819

l'école 0.580460 1.000000 0.735768 0.422787

vie 0.614272 0.735768 1.000000 0.443450

co2 0.826819 0.422787 0.443450 1.000000

sns.heatmap(df.corr(), cmap="RdBu", annot=True) ;


LO

1 0.58

0.9

042

# Résumé du modèle

mod = smf.ols('gdp ~school+life+co2 ', df).fit() mod.params

Interception -19827.455018 école 651.858271


vie 301.887907
co2 362.431085
dtype : float64 mod = smf.ols('gdp ~school+life+co2 mod.params print(mod.summary())

Il n'était pas possible de sauvegarder automatiquement. Ce fichier a été mis à jour à distance ou dans un autre onglet. Montrer les
différences df).fit()

Dép. variable PIB R-carré : 0.769
Modèle : MCO Adj. R-carré : 0.764
Méthode : Moindres Statistique F : 189.2
Date : carrés
Mon , 27 Dec 2021 Prob (F-statistique) : 4.26e-54
Le temps : 02:43:37 Vraisemblance logarithmique : -1791.2
Non. Observations : 175 AIC : 3590.
Résidus Df : 171 BIC : 3603.
Df Modèle : 3 non robustes
Covariance Type :

======================== ==========
std err t P>||t| [0.025
coef 0.975]
Intercept -1.983e+04 4250.157 -4.665 0.000 -2.82e+04 -1.14e+04
l'école 651.8583 259.089 2.516 0.013 140.434 1163.283
vie 301.8879 78.581 3.842 0.000 146.775 457.001
co2 362.4311 22.374 16.198 0.000 318.266 406.597

======================== ==========
36.887 Durbin-Watson :
Omnibus : 1.850
Prob(Omnibus) : 0.000 Jarque-Bera (JB) : 67.548
Obliquité : 1.020 Prob(JB) : 2.15e-15
Kurtosis 5 258 Cond. Non. 600.
:

Avertissements :
[1] Les erreurs standard supposent que la matrice de covariance des erreurs est correctement
spécifiée.

mod.summary()

Résultats de la régression
Variable dépendante MCO
: PIB R-carré : 0.769
Modèle : MCO Adj. R au carré : 0,764
Méthode : Moindres carrés Statistique F : 189.2
Date : Lun, 27 Dec 2021 Prob (statistique F) : 4,26e-
54
Le temps : 02:08:23
Vraisemblance logique : -
Non. Observations : 175
1791.2
Résidus Df : 171
AIC : 3590.
Df Modèle : 3
BIC : 3603.
Type de covariance : non robuste coef
std err
t P>|t|| [0.025 0.975]
Intercept -1.983e+04 4250.157 -4.665 0,000 -2,82e+04 -1,14e+04
école 651.8583 259.089 2.516 0.013 140.434 1163.283
vie 301.8879 78.581 3.842 0.000 146.775 457.001
co2 362.4311 22.374 16.198 0.000 318.266 406.597
Omnibus : 36 887 Durbin-Watson : 1 850
Prob(Omnibus) : 0.000 Jarque-Bera (JB) : 67.548

Il n'était pas possible de sauvegarder automatiquement. Ce fichier a été mis à jour à distance ou dans un autre onglet. Montrer les différences

Avertissements :
[1] Les erreurs standard supposent que la matrice de covariance des erreurs est correctement spécifiée.

4. Quel est l'effet causal que vous souhaitez estimer ? Pourquoi est-ce intéressant ?

L'effet causal que nous voulons estimer avec la variable Produit intérieur brut (PIB) est la sous-variabilité en termes d'autres variables (scolarité, vie
et émissions de CO2) et la manière dont elles influencent les autres. En réalisant un modèle de régression linéaire simple ou multiple, vous
apprenez à faire abstraction des informations existantes et à trouver ce qui est vraiment pertinent et vous donne des informations réelles et
cohérentes Le produit intérieur brut est la valeur totale des biens et services produits sur le territoire d'un pays au cours d'une période donnée, sans
duplication. Elle peut être obtenue par la différence entre la valeur brute de la production et les biens et services consommés au cours du processus
de production lui-même, aux prix d'achat (consommation intermédiaire). Cette variable peut également être obtenue en termes nets en déduisant du
PIB la valeur ajoutée et la consommation de capital des biens d'équipement utilisés dans la production.

5. Conclure globalement sur les résultats du modèle.


En concluant globalement, on peut dire que la variable PIB en relation avec les autres variables étudiées, un R-carré (R2) de 76,9% est obtenu,
cette valeur nous indique que les variables sont signi^cantes.
^. Conclure en particulier les résultats du modèle.

Une brève analyse de la régression multiple permet d'observer des variables qui n'apportent pas beaucoup d'informations et qui deviennent des
variables qui entachent le modèle.

7. Quelles sont les variables non prises en compte qui pourraient affecter la variable expliquée ? Justi^que.

En plus des variables déjà analysées, la taille de la population des pays doit être prise en compte afin d'évaluer le PIB par habitant et de pouvoir
ainsi acheter le revenu par individu. Une autre variable qui peut être ajoutée est l'inflation que connaissent les pays et l'exercice consiste à trouver
le PIB réel que chaque pays obtient en un an.

Il n'était pas possible de sauvegarder automatiquement. Ce fichier a été mis à jour à distance ou dans un autre onglet. Montrer les différences

- 0 s a été exécutée 23:43

También podría gustarte