CorrelaciónRegresiónLineal2018 PDF

Correlación y regresión lineal
Correlación
• experimento genera datos bivariados; un conjunto de pares ordenados (x1, y1), . . . , (xn, yn).
• En muchos casos, al graficar los pares ordenados que se generan en un experimento científico se
encontrarán, aproximadamente, a lo largo de una línea recta.
• los datos son útiles para calcular la ecuación de una recta.
• coeficiente de correlación como forma de describir la relación tan cercana entre dos
características físicas
El primer coeficiente de correlación publicado fue producto del trabajo de sir Francis Galton, quien, en 1888,
midió la estatura y longitud del antebrazo, respectivamente, de 348 hombres adultos
Si se denota la estatura del i-ésimo hombre mediante xi, y la longitud de su antebrazo como yi, entonces los
datos de Galton consistían de 348 pares ordenados (xi, yi).
Los puntos tienden a inclinarse hacia arriba y a la derecha, lo que indica que los hombres más altos tienden a tener
antebrazos más largos. Se dice que hay una asociación positiva entre la estatura y la longitud del antebrazo.
La pendiente es casi constante en toda la gráfica, esto indica que los puntos están agrupados alrededor de una línea
recta. La línea sobrepuesta sobre la gráfica representa una recta especial conocida como recta de mínimos
cuadrados.
Sean (x1, y1), . . . , (xn, yn) los n puntos del diagrama de dispersión. Para calcular la correlación, primero se deducen
las medias y las desviaciones estándar de las x y de las y, que se representan mediante
Después se convierte cada x y cada y a las unidades estándar (se calculan los puntajes z):
Calcular el coeficiente de correlación

Otra forma de calcular el coeficiente de correlación es:
• Es un hecho matemático que el coeficiente de correlación se encuentra siempre entre -1 y +l
• Valores positivos del coeficiente de correlación indican que la recta tiene pendiente positiva
• valores del coeficiente de correlación cercanos a -1 o a +1 indican fuerte relación lineal
• valores cercanos a 0 indican débil relación lineal
• Si r ≠ 0, se dice que x y y están correlacionados.
• Si r = 0, se dice que x y y no están correlacionados
• No tiene unidades
El coeficiente de correlación permanece constante en cada una de las siguientes
operaciones:
• Multiplicar cada valor de una variable por una constante positiva.
• Sumar una constante a cada valor de una variable.
• Intercambiar los valores de x y y.

El coeficiente de correlación mide sólo la asociación lineal
R=0
Datos atípicos
Ejemplo:
r= 0.20
EJ 1 . Encontrar el coeficiente de correlación lineal entre
las variables X y Y
Ej 2. Con objeto de investigar la relación entre el promedio de calificaciones y la cantidad de horas por
semana que se ve televisión, se recolectan los datos que se muestran en la tabla. La información
corresponde a 10 estudiantes, X es la cantidad de horas por semana que el estudiante ve televisión (horas
de TV) y Y es su promedio de calificaciones.
Calcular el coeficiente de correlación de estas dos variables

El coeficiente de correlación es −0.9097.
El signo negativo indica que las dos variables están inversamente correlacionadas.
Es decir, cuanto mayor es la cantidad de horas que se ve televisión, menor es el promedio de

calificaciones
Ej 3.En un estudio se registran los salarios iniciales (en miles), Y, y los años de estudio, X, de 10
empleados. En la tabla y en la figura presentan los datos y una gráfica de dispersión
El resultado da el coeficiente de correlación r = 0.891.
La recta de mínimos cuadrados
Cuando dos variables tienen una relación lineal, el diagrama de dispersión tiende a estar
agrupado alrededor de la recta de mínimos cuadrados
En este experimento hipotético un resorte se cuelga verticalmente con un extremo fijo,

y los pesos se cuelgan uno tras otro del otro extremo. Después de colgar cada peso se mide la
longitud del resorte. Sean x1, . . . , xn los pesos, y sea li la longitud del resorte bajo la carga xi.
La ley de Hooke establece que
donde B0 representa la longitud del resorte cuando no tiene carga y 1 es la constante del
resorte.
Sea yi la longitud medida del resorte bajo carga xi. Debido al error de medición, yi será
diferente de la longitud verdadera li. Se escribe como
donde ei constituye el error en la i-ésima medición. Al combinar las ecuaciones anteriores se

obtiene
yi se llama variable dependiente, xi se conoce como variable independiente, B0 y B1 son los coeficientes de
regresión, y ei se denomina error.
A la ecuación, se le llama modelo lineal.

Se quieren utilizar estos datos para calcular la constante 1 del resorte y la longitud 0 sin carga. Si no hubiera error
en la medición, los puntos se encontrarían en una línea recta con pendiente B1 e intercepto B0, y estas cantidades
serían fáciles de determinar.
Debido al error de medición, 0 y 1 no se pueden determinar exactamente, pero se pueden estimar cuando se
calcula la recta de mínimos cuadrados.
Se escribe la ecuación de la recta como
Las cantidades B0 y Bˆ1 se llaman

coeficientes de mínimos cuadrados
El coeficiente Bˆ1 representa la pendiente

de la recta de mínimos cuadrados, es una
estimación de la constante verdadera del
resorte B1, y el coeficiente Bˆ0, el
intercepto de la recta de mínimos
cuadrados, significa una estimación de la
verdadera longitud sin carga B0.
Para cada punto de datos (xi, yi) la distancia vertical al punto (xi, yˆi)
en la recta de mínimos cuadrados es
ei se llama residuo
La recta de mínimos cuadrados se define como aquella para la

que la suma de cuadrados de los residuos se minimiza.
Cálculo de la ecuación de la recta de mínimos cuadrados
Ej. Con los datos de la ley de Hooke calcule los estimadores de mínimos cuadrados de la constante del resorte y
la longitud sin carga del resorte. Escriba la ecuación de la recta de mínimos cuadrados.
Ejemplo. Usar la ecuación de la recta de mínimos cuadrados que se calculó en el ejemplo
anterior de y= 4.9997 + 0.2046x. Con el valor x = 1.3.
se estima que la longitud del resorte
Con la ecuación de la recta de mínimos cuadrados se pueden calcular los valores ajustados
y los residuos
para cada punto (xi, yi) en el conjunto de datos de la ley de Hooke
En el ejemplo de la ley de Hooke la cantidad
representa la longitud verdadera del resorte bajo una carga x.
es una estimación de
Medición de la bondad del ajuste
Un estadístico de la bondad del ajuste representa una cantidad que mide qué tan bien un
modelo explica un conjunto específico de datos
coeficiente de la determinación
suma de los cuadrados de los errores
suma total de los cuadrados

Regresión Lineal Usando R
datosPisa = read.table(file="../datos/Tut10-DatosPisaPais.csv",
header=TRUE, sep = "\t")
head(datosPisa)
## CA rpc pisa
## 1 Extremadura 15.394 461
## 2 Andaluc\303\255a 19.960 472
## 3 Murcia 18.520 462
## 4 Galicia 20.723 489
## 5 Asturias 21.035 500
## 6 Castilla Le\303\263n 22.289 509
plot(datosPisa$rpc, datosPisa$pisa)
plot(pisa ~ rpc, data=datosPisa)

vamos a ver como calcular la covarianza de dos vectores, en R:
cov(datosPisa$rpc, datosPisa$pisa)
## [1] 55.261
Con la función cov estamos listos para calcular la pendiente de

la recta de regresión,
(b1 = cov(datosPisa$pisa, datosPisa$rpc)/var(datosPisa$rpc))
## [1] 2.951
Y la ordenada en el origen es, entonces:
(b0 = mean(datosPisa$pisa) - b1 * mean(datosPisa$rpc))
## [1] 420.89
la recta de regresión es, aproximadamente
y = 420.9 + 2.951 x
La función attach.
En lugar d escribir :
datosPisa$,
puedes ejecutar:
attach(datosPisa)
datosPisa$rpc
Rpc
## [1] 15.394 19.960 18.520 20.723 21.035 22.289 22.341 22.772 24.393 25.508
## [11] 25.540 27.248 29.071 29.385 30.829
detach(datosPisa)
rpc
## Error in eval(expr, envir, enclos): objeto ’rpc’ no encontrado

Añadir la recta de regresión al diagrama de dispersión.
función abline
y=a+b x
a partir de su pendiente b y ordenada en el origen a.
plot(datosPisa$pisa ~ datosPisa$rpc)
abline(a = b0, b = b1)

Coeficiente de correlación, Residuos y error cuadrático medio
El coeficiente de correlación r se calcula en R con la función cor.
cor(datosPisa$pisa, datosPisa$rpc)
## [1] 0.75277
Residuos y error cuadrático medio
Para calcular los residuos con los datos del estudio PISA debemos primero calcular
la diferencia entre los valores para las pruebas PISA que predice la recta, calculados a partir de
rpc, y los valores de pisa que se han medido en la muestra.
(pisaRecta = b0 + b1 * datosPisa$rpc)
## [1] 466.32 479.79 475.54 482.05 482.97 486.67 486.82 488.09 492.88 496.17
## [11] 496.26 501.30 506.68 507.61 511.87
vector de valores predichos (fitted values, en inglés)

Ahora sólo tenemos que restar estos de pisa para obtener los residuos:
(residuos = datosPisa$pisa - pisaRecta)
## [1] -5.31931 -7.79347 -13.54407 6.95493 17.03423 22.33370 4.18025

## [8] -4.09162 -17.87515 6.83451 -0.25992 -8.30019 10.32018 -3.60643
## [15] -6.86764
Si lo que queremos es el error cuadrático EC, basta con hacer la suma de los cuadrados de los
residuos:
(EC = sum(residuos^2))
## [1] 1745.9
función lm de R
(lmXY = lm(y ~ x, data=datos))
##
## Call:
## lm(formula = y ~ x, data = datos)
##
## Coefficients:
## (Intercept) x
## 0.983 -0.481
La sintaxis y x es la forma que tiene R de expresar que x es la variable explicativa, e y la variable

respuesta en este modelo.
La salida de este comando contiene, bajo el nombre coefficients, los valores de
b 0 y b 1.
Concretamente, el valor de b1, la pendiente, aparece bajo x,
b0 es el coeficiente que acompaña a la x en la ecuación
y = b0 + b1 x
El valor de b0 aparece bajo “Intercept” o la ordenada en el origen.

lmXY$coefficients
## (Intercept) x
## 0.98276 -0.48082
b0 = lmXY$coefficients[1]
para guardar la ordenada en el origen en la variable b0.
Con esta notación lm es muy fácil acceder, por ejemplo, a los valores predichos y a los residuos del modelo.
lmXY$fitted.values
## 1 2 3 4 5 6 7 8 9
## 0.86255 0.76158 0.63176 0.61733 0.60772 0.59810 0.58849 0.54521 0.53560
## 10
## 0.52598
lmXY$residuals
## 1 2 3 4 5 6
## -0.0136288 0.0152918 0.0063964 0.0228680 -0.0119545 0.0031498
## 7 8 9 10
## -0.0129175 -0.0062996 -0.0106943 0.0077887
Usando lm para predecir valores.
Por ejemplo, para predecir el valor correspondiente a x = 0:74
predict(lmXY, newdata = data.frame(x=0.74))
## 1
## 0.62695
El resultado es el mismo que si sustituyeras ese valor en la recta de regresión:
lmXY$coefficients[1] + lmXY$coefficients[2] * 0.74
## (Intercept)
## 0.62695
Por ejemplo, para predecir usando todos los valores de x de 0:7 a 0:75, de décima en
décima, haríamos:
predict(lmXY, newdata = data.frame(x=seq(0.70, 0.75, length.out = 6)))
## 1 2 3 4 5 6
## 0.64618 0.64138 0.63657 0.63176 0.62695 0.62214

CorrelaciónRegresiónLineal2018 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

CorrelaciónRegresiónLineal2018 PDF

Cargado por

Copyright:

Formatos disponibles

Correlación y regresión lineal

• los datos son útiles para calcular la ecuación de una recta.

Calcular el coeficiente de correlación

• Es un hecho matemático que el coeficiente de correlación se encuentra siempre entre -1 y +l

• valores del coeficiente de correlación cercanos a -1 o a +1 indican fuerte relación lineal

• valores cercanos a 0 indican débil relación lineal

• Si r ≠ 0, se dice que x y y están correlacionados.

• Si r = 0, se dice que x y y no están correlacionados

• Multiplicar cada valor de una variable por una constante positiva.

• Sumar una constante a cada valor de una variable.

• Intercambiar los valores de x y y.

Calcular el coeficiente de correlación de estas dos variables

Es decir, cuanto mayor es la cantidad de horas que se ve televisión, menor es el promedio de

En este experimento hipotético un resorte se cuelga verticalmente con un extremo fijo,

donde ei constituye el error en la i-ésima medición. Al combinar las ecuaciones anteriores se

A la ecuación, se le llama modelo lineal.

Las cantidades B0 y Bˆ1 se llaman

El coeficiente Bˆ1 representa la pendiente

La recta de mínimos cuadrados se define como aquella para la

para cada punto (xi, yi) en el conjunto de datos de la ley de Hooke

En el ejemplo de la ley de Hooke la cantidad

representa la longitud verdadera del resorte bajo una carga x.

suma de los cuadrados de los errores

suma total de los cuadrados

plot(pisa ~ rpc, data=datosPisa)

Con la función cov estamos listos para calcular la pendiente de

(b1 = cov(datosPisa$pisa, datosPisa$rpc)/var(datosPisa$rpc))

(b0 = mean(datosPisa$pisa) - b1 * mean(datosPisa$rpc))

la recta de regresión es, aproximadamente

## Error in eval(expr, envir, enclos): objeto ’rpc’ no encontrado

a partir de su pendiente b y ordenada en el origen a.

abline(a = b0, b = b1)

El coeficiente de correlación r se calcula en R con la función cor.

vector de valores predichos (fitted values, en inglés)

(residuos = datosPisa$pisa - pisaRecta)

## [1] -5.31931 -7.79347 -13.54407 6.95493 17.03423 22.33370 4.18025

(lmXY = lm(y ~ x, data=datos))

La sintaxis y x es la forma que tiene R de expresar que x es la variable explicativa, e y la variable

Concretamente, el valor de b1, la pendiente, aparece bajo x,

b0 es el coeficiente que acompaña a la x en la ecuación

El valor de b0 aparece bajo “Intercept” o la ordenada en el origen.

para guardar la ordenada en el origen en la variable b0.

Por ejemplo, para predecir el valor correspondiente a x = 0:74

predict(lmXY, newdata = data.frame(x=0.74))

El resultado es el mismo que si sustituyeras ese valor en la recta de regresión:

lmXY$coefficients[1] + lmXY$coefficients[2] * 0.74

predict(lmXY, newdata = data.frame(x=seq(0.70, 0.75, length.out = 6)))

También podría gustarte