Regresion Lineal

Correlación y la Regresión Lineal Simple
AI analizar los datos es conveniente obtener algún conocimiento acerca de la

relación entre dos variables.
Por ejemplo, es posible que se tenga interés en analizar la relación entre presión
sanguínea y edad, estatura y peso, la concentracion de un medicamento
inyectable y la frecuencia cardiaca, el nivel de consumo de algunos nutrientes y la
ganancia de peso, la intensidad de un estímulo y el tiempo de reacción, el ingreso
familiar y los gastos médicos.
La naturaleza e intensidad de las relaciones entre variables cuantitativas pueden

ser examinadas por medio de los análisis de correlación y de regresión.
Regresión Lineal Simple
Es útil para averiguar la forma probable de las relaciones entre las variables. El objetivo
final, cuando se emplea este metodo de análisis, es predecir o estimar el valor de una
variable Y que corresponde al valor dado de otra variable X.
Para el modelo de regresión lineal simple son importantes solo dos variables, X y Y.
X se Ie conoce como variable independiente y a la variable Y se Ie conoce como variable
dependiente, y se habla de regresión de Y sobre X, o Y en función de X.
Modelo de Y= 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝒆
regresión lineal
A 𝜷𝟎 y 𝜷𝟏 se los conoce como los parámetros del modelo, 𝒆 es una variable aleatoria que se conoce como
término del error. El término del error da cuenta de la variabilidad de Y que no puede ser explicada por la
relación lineal entre X y Y.
Ecuación de regresión lineal E(Y)= 𝜷𝟎 + 𝜷𝟏 𝒙 Regresión Lineal simple

(el modelo es una línea recta)
Ecuación de regresión lineal ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙

𝒚
estimada
b0, b1 son las estimaciones de

ෝ valor estimado de la
𝜷𝟎 , 𝜷𝟏 , 𝒚
variable dependiente Y
Suposiciones del modelo de Regresión:
1. El término del error es una variable aleatoria cuya media, o valor esperado es cero; es decir E(e)= 0.
2. Para cada valor de X existe una subpoblación de valores de Y. Para que los procedimientos de inferencia
estadística de estimación y prueba de hipótesis sean validos estas subpoblaciones deben seguir una
distribución normal.
3. La varianza de e que se denota 𝜎𝑒2 , es la misma para todos los valores de X. La varianza de Y respecto a la recta
de regresión es igual a σ2 y es la misma para todos los valores de X.
4. Los valores de e son independientes. El valor de e correspondiente a un determinado valor de X no está

relacionado con el valor de e correspondiente a ningún otro valor de X; por lo tanto, el valor de Y
correspondiente a un determinado valor de X no está relacionado con el valor de Y de ningún otro valor de X.
5. El término del error e es una variable aleatoria distribuida normalmente. Como Y es función lineal de e,
también Y es una variable aleatoria distribuida normalmente.
Con el método de mínimos cuadrados se obtiene la ecuación

de regresión estimada
Suposiciones del modelo de Regresión:
Y y1
e1
𝑦ො 1
X
Prueba de significancia
En una ecuación de regresión lineal simple, la media o valor esperado de Y es una función lineal de X.
E(Y)= 𝜷𝟎 + 𝜷𝟏 𝒙
Tabla ANOVA para la Regresión Lineal Simple
Se obtienen los resultados de un análisis de varianza ANOVA, para el modelo de regresión
Contraste de Hipótesis
H0: 𝜷𝒊 = 0
Ha: 𝜷𝒊 ≠ 0
ෝ = 𝒃𝟎 + 𝟎 𝒙 y tendríamos que Y no depende de X es decir X y Y no están
Si 𝒃𝟏 = 0 entonces 𝒚
relacionadas linealmente. Si pasa lo contrario que 𝒃𝟏 ≠ 0 , se cumple que Y si está relacionada
linealmente con X. Por lo tanto, para probar si existe una relación de regresión significante, se
debe realizar una prueba de hipótesis para determinar si el valor de 𝒃𝟏 es distinto de cero.
H0: 𝜷𝟏 = 0
Ha: 𝜷𝟏 ≠ 0
Coeficiente de determinación R2: Una forma de evaluar la eficiencia de la ecuación de

regresión es comparar la dispersión de los puntos en torno a la recta de regresión con la
dispersion en torno a 𝑦,
ത la media de los valores de la muestra de Y.
2
En Regresión lineal simple 𝑅2 = 𝑟𝑥𝑦 ;
siendo 𝑟𝑥𝑦 el coeficiente de correlación
lineal entre X y Y
Regresión Lineal Simple - Ejemplo
Test de correlación
Pearson's product-moment correlation
data: XCirc.Cintura and YTejido.Adiposo
t = 14.74, df = 107, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal
to 0
Matriz de correlación
95 percent confidence interval:
Rcmdr> cor(regresion[,c("XCirc.Cintura","YTejido.Adiposo")], 0.7451954 0.8723430
use="complete") sample estimates:
XCirc.Cintura YTejido.Adiposo cor
XCirc.Cintura 1.0000000 0.8185578 0.8185578
YTejido.Adiposo 0.8185578 1.0000000
Rcmdr> RegModel.1 <- lm(YTejido.Adiposo~XCirc.Cintura,
data=regresion) Prueba de Significancia
Rcmdr> summary(RegModel.1)
H0: 𝜷𝟏 = 0
Ha: 𝜷𝟏 ≠ 0 Como el p-value es <2e-16 y es
Call: significativo, entonces hay
lm(formula = YTejido.Adiposo ~ XCirc.Cintura, data = regresion)
evidencia estadística para
Residuals: rechazar la hipótesis H0, es decir
Min 1Q Median 3Q Max 𝜷𝟏 no es igual a cero, igual
-107.288 -19.143 -2.939 16.376 90.342 sucede para 𝜷𝟎
Coeficiente de Determinación
Coefficients:
Estimate Std. Error t value Pr(>|t|) R2 ajustado es 0.667 es decir el modelo encontrado
(Intercept) -215.9815 21.7963 -9.909 <2e-16 *** se ajusta (explica) en un 66.7%
XCirc.Cintura 3.4589 0.2347 14.740 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
Residual standard error: 33.06 on 107 degrees of freedom
Multiple R-squared: 0.67, Adjusted R-squared: 0.667 ෝ = −215.9815 + (3.4589) 𝒙
𝒚
F-statistic: 217.3 on 1 and 107 DF, p-value: < 2.2e-16 𝑻𝒆𝒋𝒊𝒅𝒐෣
𝑨𝒅𝒊𝒑𝒐𝒔𝒐 = −215.9815 +3.4589 Circ Cintura
Como el p-value es <2e-16 y es significativo, entonces hay

evidencia estadística para rechazar la hipótesis H0, es Modelo final
decir los 𝜷𝒊 no son igual a cero. El modelo es significativo
Ejemplo estimar el nitrito en función
de la temperatura
1. Correlación de Pearson
Nitrate Nitrite Oxygen Phosphate Salinity Silicate Temperature
Nitrate 1 0.6607099 -0.6986892 0.5524175 0.3143988 0.6061783 -0.4605071
Nitrite 0.6607099 1 -0.6552337 0.3983162 0.2525159 0.5213519 -0.6964693
Oxygen -0.6986892 -0.6552337 1 -0.3080669 -0.1758252 -0.4042308 0.2318406
Phosphate 0.5524175 0.3983162 -0.3080669 1 0.3713201 0.4811525 -0.2572344
3. Gráfico Dispersión
Salinity 0.3143988 0.2525159 -0.1758252 0.3713201 1 0.3042345 -0.2946536
Silicate 0.6061783 0.5213519 -0.4042308 0.4811525 0.3042345 1 -0.3378746
Temperature -0.4605071 -0.6964693 0.2318406 -0.2572344 -0.2946536 -0.3378746 1
0.4
Nitrite
2. Test de correlación para verificar si es significativa la correlación lineal
0.2
Rcmdr> with(Dataset, cor.test(Nitrite, Temperature, alternative="two.sided",
Rcmdr+ method="pearson"))
0.0
Pearson's product-moment correlation
20 22 24 26
data: Nitrite and Temperature
t = -4.5524, df = 22, p-value = 0.0001565 Temperature
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.8586308 -0.4075850
sample estimates:
cor
-0.6964693
Prueba de Significancia
Rcmdr> RegModel.3 <- lm(Nitrite~Temperature, data=Dataset) Como el p-value es 0.000157 y
H0: 𝜷𝟏 = 0 es significativo, entonces hay
Rcmdr> summary(RegModel.3) evidencia estadística para
Ha: 𝜷𝟏 ≠ 0
Call:
rechazar la hipótesis H0, es decir
lm(formula = Nitrite ~ Temperature, data = Dataset) 𝜷𝟏 no es igual a cero
Residuals:
Min 1Q Median 3Q Max Coeficiente de Determinación
-0.162043 -0.047086 -0.007109 0.028934 0.272539
R2 ajustado es 0.4617 es decir el modelo encontrado
Coefficients: se ajusta (explica) en un 46.17%
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.938155 0.186117 5.041 0.0000477 ***
Temperature -0.034957 0.007679 -4.552 0.000157 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
Residual standard error: 0.08517 on 22 degrees of freedom ෝ = 𝟎. 𝟗𝟑𝟖𝟏𝟓𝟓 + (− 0.034957) 𝒙

𝒚
Multiple R-squared: 0.4851, Adjusted R-squared: 0.4617 ෣ = 𝟎. 𝟗𝟑𝟖𝟏𝟓𝟓 − 0.034957 Temperature
𝑵𝒊𝒕𝒓𝒊𝒕𝒆
F-statistic: 20.72 on 1 and 22 DF, p-value: 0.0001565
Modelo final
Estimaciones para el nitrito

Ejemplo estimar el total de biomasa en
función solo del total de diatomes céntricas
1. Correlación de Spearman
Rcmdr> cor(Dataset[,c("Tbiom","Tdiatcent","Tdiatpen","Tdino","Tothers")],
Rcmdr+ method="spearman",
use="complete")
Tbiom Tdiatcent Tdiatpen Tdino Tothers
Tbiom 1 0.8403655 0.7907787 0.1467263 0.3979985 3. Gráfico Dispersión
Tdiatcent 0.8403655 1 0.6523064 -0.1175195 0.1077741
Tdiatpen 0.7907787 0.6523064 1 -0.1079082 0.29369
Tdino 0.1467263 -0.1175195 -0.1079082 1 0.4561534
2000000
Tothers 0.3979985 0.1077741 0.29369 0.4561534 1
2. Test de correlación para verificar si es significativa la correlación lineal
1000000
Tbiom
Rcmdr> with(Dataset, cor.test(Tbiom, Tdiatcent, alternative="two.sided",
Rcmdr+ method="spearman"))
Spearman's rank correlation rho
0
data: Tbiom and Tdiatcent 0 400000 800000 1400000
S = 367.16, p-value = 0.000000277
alternative hypothesis: true rho is not equal to 0 Tdiatcent
sample estimates:
rho
0.8403655
Prueba de Significancia
Rcmdr> RegModel.2 <- lm(Tbiom~Tdiatcent, data=Dataset) Como el p-value es 9.6e-12 y es
H0: 𝜷𝟏 = 0 significativo, entonces hay
Rcmdr> summary(RegModel.2) evidencia estadística para
Ha: 𝜷𝟏 ≠ 0
Call:
rechazar la hipótesis H0, es decir
lm(formula = Tbiom ~ Tdiatcent, data = Dataset) 𝜷𝟏 no es igual a cero
Residuals:
Min 1Q Median 3Q Max Coeficiente de Determinación
-220235 -134715 -66466 92693 449958
R2 ajustado es 0.8781 es decir el modelo encontrado
Coefficients: se ajusta (explica) en un 87.81%
Estimate Std. Error t value Pr(>|t|)
(Intercept) 167655.35905 53927.24737 3.109 0.00512 **
Tdiatcent 1.20946 0.09366 12.913 9.6e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
Residual standard error: 194700 on 22 degrees of freedom

𝒚ෝ = 167655.35905 + 1.20946𝒙
Multiple R-squared: 0.8834, Adjusted R-squared: 0.8781 ෣ = 167655.35905 + 1.20946Tdiactcent
𝑻𝒃𝒊𝒐𝒎
F-statistic: 166.7 on 1 and 22 DF, p-value: 9.6e-12
Modelo final

Regresion Lineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal

Cargado por

Copyright:

Formatos disponibles

Correlación y la Regresión Lineal Simple

AI analizar los datos es conveniente obtener algún conocimiento acerca de la

La naturaleza e intensidad de las relaciones entre variables cuantitativas pueden

Ecuación de regresión lineal E(Y)= 𝜷𝟎 + 𝜷𝟏 𝒙 Regresión Lineal simple

Ecuación de regresión lineal ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙

b0, b1 son las estimaciones de

4. Los valores de e son independientes. El valor de e correspondiente a un determinado valor de X no está

Con el método de mínimos cuadrados se obtiene la ecuación

Tabla ANOVA para la Regresión Lineal Simple

Se obtienen los resultados de un análisis de varianza ANOVA, para el modelo de regresión

Coeficiente de determinación R2: Una forma de evaluar la eficiencia de la ecuación de

Como el p-value es <2e-16 y es significativo, entonces hay

Residual standard error: 0.08517 on 22 degrees of freedom ෝ = 𝟎. 𝟗𝟑𝟖𝟏𝟓𝟓 + (− 0.034957) 𝒙

Estimaciones para el nitrito

2. Test de correlación para verificar si es significativa la correlación lineal

Spearman's rank correlation rho

Residual standard error: 194700 on 22 degrees of freedom

También podría gustarte