0% encontró este documento útil (0 votos)
110 vistas9 páginas

Análisis de Regresión y Correlación

Este documento presenta el análisis de regresión lineal de un conjunto de datos con 11 observaciones de temperatura (X) y precio (Y). Se calculan las estadísticas descriptivas, el coeficiente de correlación de Pearson (r=-0.896) y los parámetros del modelo de regresión lineal (β0=58.48, β1=-0.15). El modelo es estadísticamente significativo (p<0.0001) y explica el 80% de la varianza de Y. Se construyen intervalos de confianza y predicción para probar la validez del

Cargado por

Diego Alejandro
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
110 vistas9 páginas

Análisis de Regresión y Correlación

Este documento presenta el análisis de regresión lineal de un conjunto de datos con 11 observaciones de temperatura (X) y precio (Y). Se calculan las estadísticas descriptivas, el coeficiente de correlación de Pearson (r=-0.896) y los parámetros del modelo de regresión lineal (β0=58.48, β1=-0.15). El modelo es estadísticamente significativo (p<0.0001) y explica el 80% de la varianza de Y. Se construyen intervalos de confianza y predicción para probar la validez del

Cargado por

Diego Alejandro
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Ejercicio 10

datos TEMPERATURA PRECIO (xi-xbarra) (yi-ybarra) (xi-xbarra*yi-ybarra) (xi-xbarra)^2 (yi-ybarra)^2


1 12 319 -7 60 -420 49 3600
2 24 289 5 289 1445 25 83521
3 3 389 -16 389 -6224 256 151321
4 13 239 -6 239 -1434 36 57121
5 38 149 19 149 2831 361 22201
6 4 289 -15 289 -4335 225 83521
7 5 359 -14 359 -5026 196 128881
8 15 259 -4 259 -1036 16 67081
9 25 229 6 229 1374 36 52441
10 45 129 26 129 3354 676 16641
11 25 199 6 199 1194 36 39601
19 259 -8277 1912 705930
PROMEDIOS SUMAS

rxy -0,22529326
t9 -0,69371448
P-valor 0,252685

Gráfico de dispersión

PRECIO
450
400
350
f(x) = − 5.28 x + 359.27
300
250
200
150
100
50
0
0 5 10 15 20 25 30 35 40 45 50
Conclusión: Se puede observar que la grafica tiene una tendencia negativa, es decir por cada
unidad que aumenta en “x”, disminuye en “y”.

Desviaciones “Y” y “X”

> xi=(X-mean(X))
> xi
[1] 60 30 130 -20 -110 30 100 0 -30 -130 -60
> yi=(Y-mean(Y))
> yi
[1] -7 5 -16 -6 19 -15 -14 -4 6 26 6
> n=length(Y) # longintud o tamaño de la base dedatos
>n
[1] 11

COEFICIENTE DE CORRELACION DE PEARSON

Suma de las desviaciones de “x” y de “y”

> sum(xi^2) # SUMA DE CUADRADOS DE X


[1] 66200
> sum(yi^2) # SUMA DE CUADRADOS DE Y
[1] 1912
> sum(yi*xi) # SUMA DE CUADRADOS CRUZADOS DE X & Y
[1] -10090

COEFICENTE DE CORRELACION
> rxy=sum(yi*xi)/sqrt(sum(xi^2)*sum(yi^2))
> rxy
[1] -0.8968467

PRUEBA DE HIPOTESIS PARA EL COEFICIENTE DE CORRELACION


H0: rho = 0

Ha: rho # 0, dos colas.

> gl=n-2
> gl
[1] 9
> t_c=(rxy*sqrt(gl))/sqrt(1-rxy^2)
> t_c
[1] -6.082496
> 1-pt(t_c,df=gl, lower.tail=F)
[1] 9.154785e-05
Rechazo o no Rechazo

BETAS DEL MODELO

> beta1gorro
[1] -0.1524169
> # Usando las sumatorias simples
> beta1gorro_M2=(n*sum(X*Y)-sum(X)*sum(Y))/(n*sum(X^2)-sum(X)^2)
> beta1gorro_M2
[1] -0.1524169
> beta0gorro=mean(Y)-beta1gorro*mean(X)
> beta0gorro
[1] 58.47598
> y_estimado=beta0gorro+beta1gorro*X
> y_estimado
[1] 9.8549849 14.4274924 -0.8141994 22.0483384 35.7658610 14.4274924 3.7583082
19.0000000
[9] 23.5725076 38.8141994 28.1450151
> residuales=Y-y_estimado
> residuales
[1] 2.145015 9.572508 3.814199 -9.048338 2.234139 -10.427492 1.241692 -4.000000
[9] 1.427492 6.185801 -3.145015

Grafico de los residuales


Conclusión: En el grafico se puede observar que tiene un espacio muy grande esto quiere decir,
que podría haber un problema de aleatoriedad.

Conclusión: En la gráfica se puede observar que tiene una dispersión grande y además no tiene un
comportamiento de campana de gauss, tiene un comportamiento atípico.

Supuestos residuales

> mean(residuales)
[1] 3.229602e-15

Tabla con los resultados de las estimaciones y los residuales

> tablaEstimaciones=cbind(Y,y_estimado,residuales)
> tablaEstimaciones
Y y_estimado residuales
[1,] 12 9.8549849 2.145015
[2,] 24 14.4274924 9.572508
[3,] 3 -0.8141994 3.814199
[4,] 13 22.0483384 -9.048338
[5,] 38 35.7658610 2.234139
[6,] 4 14.4274924 -10.427492
[7,] 5 3.7583082 1.241692
[8,] 15 19.0000000 -4.000000
[9,] 25 23.5725076 1.427492
[10,] 45 38.8141994 6.185801
[11,] 25 28.1450151 -3.145015
FUNCION lm PARA LA ESTIMACION DE LOS PARAMETROS DEL MODELO DE REGRESIÓN

Call:
lm(formula = Y ~ X, data = EJERCICIO_10)

Coefficients:
(Intercept) X
58.4760 -0.1524

> summary(modelo1)

Call:
lm(formula = Y ~ X, data = EJERCICIO_10)

Residuals:
Min 1Q Median 3Q Max
-10.428 -3.572 1.427 3.024 9.572

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 58.47598 6.77497 8.631 1.2e-05 ***
X -0.15242 0.02506 -6.082 0.000183 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.447 on 9 degrees of freedom


Multiple R-squared: 0.8043, Adjusted R-squared: 0.7826
F-statistic: 37 on 1 and 9 DF, p-value: 0.0001831

Estimación de la varianza de los coeficientes

> # Iniciamos con el estimado de la varianza del modelo. Sigma estimado var(epsilon_i)=sigma^2
> # Parametros k
> k=2
> sigma2=sum(residuales^2)/(n-k)
> sigma2
[1] 41.56814
> sigma=sqrt(sigma2)
> sigma
[1] 6.447336
> sigma2Formula2=(sum(yi^2)-beta1gorro*sum(xi*yi))/(n-2)
> sigma2Formula2
[1] 41.56814
> sigmaFormula2=sqrt(sigma2Formula2)
> sigmaFormula2
[1] 6.447336
VARIANZA DE LOS ESTIMADORES

> VArB1=sigma2/sum(xi^2)
> VArB1
[1] 0.0006279176
> eeB1=sqrt(VArB1)
> eeB1
[1] 0.02505828
> VArB0=sum(X^2)/(n*sum(xi^2))*sigma2
> VArB0
[1] 45.90026
> eeB0=sqrt(VArB0)
> eeB0
[1] 6.774973

RESUMEN DEL MODELO


> modelo1=lm(Y~X,data=datos_ejercicio_10)
> modelo1

Call:
lm(formula = Y ~ X, data = datos_ejercicio_10)

Coefficients:
(Intercept) X
58.4760 -0.1524

> summary(modelo1)

Call:
lm(formula = Y ~ X, data = datos_ejercicio_10)

Residuals:
Min 1Q Median 3Q Max
-10.428 -3.572 1.427 3.024 9.572

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 58.47598 6.77497 8.631 1.2e-05 ***
X -0.15242 0.02506 -6.082 0.000183 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.447 on 9 degrees of freedom


Multiple R-squared: 0.8043, Adjusted R-squared: 0.7826
F-statistic: 37 on 1 and 9 DF, p-value: 0.0001831
Conclusión // Por el p-valor que tiene Beta cero se rechaza H0=0, esto quiere decir que el modelo
si tiene diferencias a medida que x aumenta una unidad

Intervalo para la varianza del modelo

> LIVAR=(n-k)*sigma2/qchisq(0.025,df=n-k,lower.tail = F)
> LSVAR=(n-k)*sigma2/qchisq(0.975,df=n-k,lower.tail = F)
> cbind(LIVAR,LSVAR) # VARIANZA
LIVAR LSVAR
[1,] 19.66661 138.5405
> cbind(sqrt(LIVAR),sqrt(LSVAR))
[,1] [,2]
[1,] 4.434705 11.77032
> sqrt(sigma2)
[1] 6.447336

INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA DADO UN X_0

> x_0=11.25
> Sxx=sum(xi^2) # SUMA DE CUADRADOS DE X
> Sxy=sum(yi^2) # SUMA DE CUADRADOS DE Y
> Sxy=sum(yi*xi) # SUMA DE CUADRADOS CRUZADOS DE X & Y
> xbarra=mean(X)
> y_0=beta0gorro+beta1gorro*x_0
> y_0
[1] 56.76129
> t_95=qt(0.025,df=n-k,lower.tail = F)
> E_y_0_inf=y_0-t_95*sigma*sqrt(1/n+(x_0-xbarra)^2/Sxx)
> E_y_0_sup=y_0+t_95*sigma*sqrt(1/n+(x_0-xbarra)^2/Sxx)
> cbind(E_y_0_inf,E_y_0_sup)
E_y_0_inf E_y_0_sup
[1,] 42.045 71.47758

Conclusión// Con una confianza del 95 % cuando x valga 11.25, “Y” va tener un promedio entre
(42.045, 7147758)
INTERVALO DE PREDICCION FUTURA

> #### dado un x_0=15


> x_0=15
> y_0=beta0gorro+beta1gorro*x_0
> y_0
[1] 56.18973
> t_95=qt(0.025,df=n-k,lower.tail = F)
> y_0_inf=y_0-t_95*sigma*sqrt(1+1/n+(x_0-xbarra)^2/Sxx)
> y_0_sup=y_0+t_95*sigma*sqrt(1+1/n+(x_0-xbarra)^2/Sxx)
> cbind(y_0_inf,y_0_sup)
y_0_inf y_0_sup
[1,] 35.61395 76.76551

Conclusion// Con una confianza del 95%, cuando x0 valga 15, Y0 va tener un valor futuro entre
(35.61395-76.76551)

DATOS ANOVA

> SCT=sum((Y-mean(Y))^2)
> SCT
[1] 1912
> SCRes=sum(residuales^2)
> SCRes
[1] 374.1133
> SCR=beta1gorro*Sxy
> SCR
[1] 1537.887
> SCReg=SCT-SCRes
> SCReg
[1] 1537.887
> SCReg1=sum((y_estimado-mean(y_estimado))^2)
> SCReg1
[1] 1537.887
> SCT1=SCR+SCRes
> SCT1
[1] 1912
> ### CUADRADOS MEDIOS
> CMR=SCR/1
> CMR
[1] 1537.887
> CME=SCRes/(n-k)
> CME
[1] 41.56814
> Fc=CMR/CME
> Fc
[1] 36.99676
> pf(Fc,df1=1,df2=n-k,lower.tail = F)
[1] 0.0001830957

TABLA ANOVA

FUENTE
ANOVA SUMA DE CUADRADOS gl CUADRADOS MEDIOS F
REGRESION 1537.88671 1.00000 1537.88671 36.99676
RESIDUAL 374.11329 9.00000 41.56814
TOTAL 1912.00000 10.00000

También podría gustarte