Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2 SOLEMNE 3 PARTE 2”
1
2
3
4
Para la obtención del modelo de regresión lineal se importa archivo Excel en Colab y se
comienzan las pruebas para validar el archivo, estas van desde la verificación de filas y
columnas, títulos de variables y verificación gráfica de cruce de información entre ellas.
Posteriormente se crea el modelo para la obtención de los datos de la regresión lineal.
5
6
c) Determina y concluye sobre los estadísticos individuales del modelo.
7
Código.
0s
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.formula.api as smf
import statsmodels.api as sm
import scipy.stats as ss
[33]
0s
df = pd.read_excel('solemne_forma_1.xlsx')
[34]
df.shape
[35]
df.columns
[36]
df.isnull().sum()
[37]
df.describe()
[38]
sns.boxplot(data = df)
[39]
pd.plotting.scatter_matrix(df);
[40]
sns.heatmap(df.corr(), cmap = 'Blues', annot = True)
[41]
sns.pairplot(data = df)
[51]
0s
modelo = smf.ols('PIB_per_capita ~ Mortalidad_Infantil + Tasa_Alfabetismo_Femenino + Tasa_fecundi
dad', data =df).fit()
[52]
print(modelo.summary())
8
[46]
sns.regplot(x=modelo.predict(), y =df['PIB_per_capita'], lowess =True, line_kws={'color':'red'})
plt.title('Pronósticos vs Observados')
plt.xlabel ('Pronósticos')
plt.ylabel ('Observados')
[47]
sm.qqplot(modelo.resid, line = 's')
Al observar los residuos no se comportan de forma normal, viendo que los puntos
azules se alejan de la linea roja. Tenemos muchos datos atípicos y se están
establaciendo reglas para datos que son atípicos. Se debieron separar los datos
atipicos para poder verificar el nivel de dispersión.
[53]
ss.shapiro(modelo.resid)
[49]
sns.regplot(x = modelo.predict(), y = modelo.resid, lowess= True, line_kws = {'color':'red'})
plt.xlabel('Pronósticos')
plt.ylabel('Residuos')
plt.title('Pronósticos vs Residuos')
[50]
0s
sm.stats.diagnostic.het_breuschpagan(modelo.resid, modelo.model.exog)
(5.19963089450858, 0.15774939226370516, 1.768570835050415, 0.16280871008235112)
Dado que tenemos un pvalue cercano a 0, se decide rechazar la hipótesis nula que
dice que los residuos se comportan de forma homocedástica
9
10