Está en la página 1de 16

Correlación y la Regresión Lineal Simple

AI analizar los datos es conveniente obtener algún conocimiento acerca de la


relación entre dos variables.

Por ejemplo, es posible que se tenga interés en analizar la relación entre presión
sanguínea y edad, estatura y peso, la concentracion de un medicamento
inyectable y la frecuencia cardiaca, el nivel de consumo de algunos nutrientes y la
ganancia de peso, la intensidad de un estímulo y el tiempo de reacción, el ingreso
familiar y los gastos médicos.

La naturaleza e intensidad de las relaciones entre variables cuantitativas pueden


ser examinadas por medio de los análisis de correlación y de regresión.
Regresión Lineal Simple

Es útil para averiguar la forma probable de las relaciones entre las variables. El objetivo
final, cuando se emplea este metodo de análisis, es predecir o estimar el valor de una
variable Y que corresponde al valor dado de otra variable X.

Para el modelo de regresión lineal simple son importantes solo dos variables, X y Y.
X se Ie conoce como variable independiente y a la variable Y se Ie conoce como variable
dependiente, y se habla de regresión de Y sobre X, o Y en función de X.
Regresión Lineal Simple
Modelo de Y= 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝒆
regresión lineal
A 𝜷𝟎 y 𝜷𝟏 se los conoce como los parámetros del modelo, 𝒆 es una variable aleatoria que se conoce como
término del error. El término del error da cuenta de la variabilidad de Y que no puede ser explicada por la
relación lineal entre X y Y.

Ecuación de regresión lineal E(Y)= 𝜷𝟎 + 𝜷𝟏 𝒙 Regresión Lineal simple


(el modelo es una línea recta)

Ecuación de regresión lineal ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙


𝒚
estimada

b0, b1 son las estimaciones de


ෝ valor estimado de la
𝜷𝟎 , 𝜷𝟏 , 𝒚
variable dependiente Y
Regresión Lineal Simple
Suposiciones del modelo de Regresión:

1. El término del error es una variable aleatoria cuya media, o valor esperado es cero; es decir E(e)= 0.

2. Para cada valor de X existe una subpoblación de valores de Y. Para que los procedimientos de inferencia
estadística de estimación y prueba de hipótesis sean validos estas subpoblaciones deben seguir una
distribución normal.

3. La varianza de e que se denota 𝜎𝑒2 , es la misma para todos los valores de X. La varianza de Y respecto a la recta
de regresión es igual a σ2 y es la misma para todos los valores de X.

4. Los valores de e son independientes. El valor de e correspondiente a un determinado valor de X no está


relacionado con el valor de e correspondiente a ningún otro valor de X; por lo tanto, el valor de Y
correspondiente a un determinado valor de X no está relacionado con el valor de Y de ningún otro valor de X.

5. El término del error e es una variable aleatoria distribuida normalmente. Como Y es función lineal de e,
también Y es una variable aleatoria distribuida normalmente.

Con el método de mínimos cuadrados se obtiene la ecuación


de regresión estimada
Regresión Lineal Simple
Suposiciones del modelo de Regresión:

Y y1
e1
𝑦ො 1

X
Regresión Lineal Simple
Prueba de significancia
En una ecuación de regresión lineal simple, la media o valor esperado de Y es una función lineal de X.

E(Y)= 𝜷𝟎 + 𝜷𝟏 𝒙

Tabla ANOVA para la Regresión Lineal Simple

Se obtienen los resultados de un análisis de varianza ANOVA, para el modelo de regresión

Contraste de Hipótesis
H0: 𝜷𝒊 = 0
Ha: 𝜷𝒊 ≠ 0
ෝ = 𝒃𝟎 + 𝟎 𝒙 y tendríamos que Y no depende de X es decir X y Y no están
Si 𝒃𝟏 = 0 entonces 𝒚
relacionadas linealmente. Si pasa lo contrario que 𝒃𝟏 ≠ 0 , se cumple que Y si está relacionada
linealmente con X. Por lo tanto, para probar si existe una relación de regresión significante, se
debe realizar una prueba de hipótesis para determinar si el valor de 𝒃𝟏 es distinto de cero.

H0: 𝜷𝟏 = 0
Ha: 𝜷𝟏 ≠ 0

Coeficiente de determinación R2: Una forma de evaluar la eficiencia de la ecuación de


regresión es comparar la dispersión de los puntos en torno a la recta de regresión con la
dispersion en torno a 𝑦,
ത la media de los valores de la muestra de Y.

2
En Regresión lineal simple 𝑅2 = 𝑟𝑥𝑦 ;
siendo 𝑟𝑥𝑦 el coeficiente de correlación
lineal entre X y Y
Regresión Lineal Simple - Ejemplo
Test de correlación
Pearson's product-moment correlation
data: XCirc.Cintura and YTejido.Adiposo
t = 14.74, df = 107, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal
to 0
Matriz de correlación
95 percent confidence interval:
Rcmdr> cor(regresion[,c("XCirc.Cintura","YTejido.Adiposo")], 0.7451954 0.8723430
use="complete") sample estimates:
XCirc.Cintura YTejido.Adiposo cor
XCirc.Cintura 1.0000000 0.8185578 0.8185578
YTejido.Adiposo 0.8185578 1.0000000
Rcmdr> RegModel.1 <- lm(YTejido.Adiposo~XCirc.Cintura,
data=regresion) Prueba de Significancia

Rcmdr> summary(RegModel.1)
H0: 𝜷𝟏 = 0
Ha: 𝜷𝟏 ≠ 0 Como el p-value es <2e-16 y es
Call: significativo, entonces hay
lm(formula = YTejido.Adiposo ~ XCirc.Cintura, data = regresion)
evidencia estadística para
Residuals: rechazar la hipótesis H0, es decir
Min 1Q Median 3Q Max 𝜷𝟏 no es igual a cero, igual
-107.288 -19.143 -2.939 16.376 90.342 sucede para 𝜷𝟎
Coeficiente de Determinación
Coefficients:
Estimate Std. Error t value Pr(>|t|) R2 ajustado es 0.667 es decir el modelo encontrado
(Intercept) -215.9815 21.7963 -9.909 <2e-16 *** se ajusta (explica) en un 66.7%
XCirc.Cintura 3.4589 0.2347 14.740 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
Residual standard error: 33.06 on 107 degrees of freedom
Multiple R-squared: 0.67, Adjusted R-squared: 0.667 ෝ = −215.9815 + (3.4589) 𝒙
𝒚
F-statistic: 217.3 on 1 and 107 DF, p-value: < 2.2e-16 𝑻𝒆𝒋𝒊𝒅𝒐෣
𝑨𝒅𝒊𝒑𝒐𝒔𝒐 = −215.9815 +3.4589 Circ Cintura

Como el p-value es <2e-16 y es significativo, entonces hay


evidencia estadística para rechazar la hipótesis H0, es Modelo final
decir los 𝜷𝒊 no son igual a cero. El modelo es significativo
Regresión Lineal Simple
Ejemplo estimar el nitrito en función
de la temperatura
1. Correlación de Pearson
Nitrate Nitrite Oxygen Phosphate Salinity Silicate Temperature
Nitrate 1 0.6607099 -0.6986892 0.5524175 0.3143988 0.6061783 -0.4605071
Nitrite 0.6607099 1 -0.6552337 0.3983162 0.2525159 0.5213519 -0.6964693
Oxygen -0.6986892 -0.6552337 1 -0.3080669 -0.1758252 -0.4042308 0.2318406
Phosphate 0.5524175 0.3983162 -0.3080669 1 0.3713201 0.4811525 -0.2572344
3. Gráfico Dispersión
Salinity 0.3143988 0.2525159 -0.1758252 0.3713201 1 0.3042345 -0.2946536
Silicate 0.6061783 0.5213519 -0.4042308 0.4811525 0.3042345 1 -0.3378746
Temperature -0.4605071 -0.6964693 0.2318406 -0.2572344 -0.2946536 -0.3378746 1

0.4
Nitrite
2. Test de correlación para verificar si es significativa la correlación lineal

0.2
Rcmdr> with(Dataset, cor.test(Nitrite, Temperature, alternative="two.sided",
Rcmdr+ method="pearson"))

0.0
Pearson's product-moment correlation
20 22 24 26
data: Nitrite and Temperature
t = -4.5524, df = 22, p-value = 0.0001565 Temperature
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.8586308 -0.4075850
sample estimates:
cor
-0.6964693
Regresión Lineal Simple
Prueba de Significancia
Rcmdr> RegModel.3 <- lm(Nitrite~Temperature, data=Dataset) Como el p-value es 0.000157 y
H0: 𝜷𝟏 = 0 es significativo, entonces hay
Rcmdr> summary(RegModel.3) evidencia estadística para
Ha: 𝜷𝟏 ≠ 0
Call:
rechazar la hipótesis H0, es decir
lm(formula = Nitrite ~ Temperature, data = Dataset) 𝜷𝟏 no es igual a cero
Residuals:
Min 1Q Median 3Q Max Coeficiente de Determinación
-0.162043 -0.047086 -0.007109 0.028934 0.272539
R2 ajustado es 0.4617 es decir el modelo encontrado
Coefficients: se ajusta (explica) en un 46.17%
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.938155 0.186117 5.041 0.0000477 ***
Temperature -0.034957 0.007679 -4.552 0.000157 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚

Residual standard error: 0.08517 on 22 degrees of freedom ෝ = 𝟎. 𝟗𝟑𝟖𝟏𝟓𝟓 + (− 0.034957) 𝒙


𝒚
Multiple R-squared: 0.4851, Adjusted R-squared: 0.4617 ෣ = 𝟎. 𝟗𝟑𝟖𝟏𝟓𝟓 − 0.034957 Temperature
𝑵𝒊𝒕𝒓𝒊𝒕𝒆
F-statistic: 20.72 on 1 and 22 DF, p-value: 0.0001565

Modelo final
Regresión Lineal Simple

Estimaciones para el nitrito


Regresión Lineal Simple
Ejemplo estimar el total de biomasa en
función solo del total de diatomes céntricas
1. Correlación de Spearman
Rcmdr> cor(Dataset[,c("Tbiom","Tdiatcent","Tdiatpen","Tdino","Tothers")],
Rcmdr+ method="spearman",
use="complete")
Tbiom Tdiatcent Tdiatpen Tdino Tothers
Tbiom 1 0.8403655 0.7907787 0.1467263 0.3979985 3. Gráfico Dispersión
Tdiatcent 0.8403655 1 0.6523064 -0.1175195 0.1077741
Tdiatpen 0.7907787 0.6523064 1 -0.1079082 0.29369
Tdino 0.1467263 -0.1175195 -0.1079082 1 0.4561534

2000000
Tothers 0.3979985 0.1077741 0.29369 0.4561534 1

2. Test de correlación para verificar si es significativa la correlación lineal

1000000
Tbiom
Rcmdr> with(Dataset, cor.test(Tbiom, Tdiatcent, alternative="two.sided",
Rcmdr+ method="spearman"))

Spearman's rank correlation rho

0
data: Tbiom and Tdiatcent 0 400000 800000 1400000
S = 367.16, p-value = 0.000000277
alternative hypothesis: true rho is not equal to 0 Tdiatcent
sample estimates:
rho
0.8403655
Regresión Lineal Simple
Prueba de Significancia
Rcmdr> RegModel.2 <- lm(Tbiom~Tdiatcent, data=Dataset) Como el p-value es 9.6e-12 y es
H0: 𝜷𝟏 = 0 significativo, entonces hay
Rcmdr> summary(RegModel.2) evidencia estadística para
Ha: 𝜷𝟏 ≠ 0
Call:
rechazar la hipótesis H0, es decir
lm(formula = Tbiom ~ Tdiatcent, data = Dataset) 𝜷𝟏 no es igual a cero

Residuals:
Min 1Q Median 3Q Max Coeficiente de Determinación
-220235 -134715 -66466 92693 449958
R2 ajustado es 0.8781 es decir el modelo encontrado
Coefficients: se ajusta (explica) en un 87.81%
Estimate Std. Error t value Pr(>|t|)
(Intercept) 167655.35905 53927.24737 3.109 0.00512 **
Tdiatcent 1.20946 0.09366 12.913 9.6e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚

Residual standard error: 194700 on 22 degrees of freedom


𝒚ෝ = 167655.35905 + 1.20946𝒙
Multiple R-squared: 0.8834, Adjusted R-squared: 0.8781 ෣ = 167655.35905 + 1.20946Tdiactcent
𝑻𝒃𝒊𝒐𝒎
F-statistic: 166.7 on 1 and 22 DF, p-value: 9.6e-12

Modelo final
Regresión Lineal Simple

También podría gustarte