Está en la página 1de 51

Correlación y regresión lineal

Correlación

• experimento genera datos bivariados; un conjunto de pares ordenados (x1, y1), . . . , (xn, yn).

• En muchos casos, al graficar los pares ordenados que se generan en un experimento científico se
encontrarán, aproximadamente, a lo largo de una línea recta.

• los datos son útiles para calcular la ecuación de una recta.

• coeficiente de correlación como forma de describir la relación tan cercana entre dos
características físicas
El primer coeficiente de correlación publicado fue producto del trabajo de sir Francis Galton, quien, en 1888,
midió la estatura y longitud del antebrazo, respectivamente, de 348 hombres adultos

Si se denota la estatura del i-ésimo hombre mediante xi, y la longitud de su antebrazo como yi, entonces los
datos de Galton consistían de 348 pares ordenados (xi, yi).
Los puntos tienden a inclinarse hacia arriba y a la derecha, lo que indica que los hombres más altos tienden a tener
antebrazos más largos. Se dice que hay una asociación positiva entre la estatura y la longitud del antebrazo.

La pendiente es casi constante en toda la gráfica, esto indica que los puntos están agrupados alrededor de una línea
recta. La línea sobrepuesta sobre la gráfica representa una recta especial conocida como recta de mínimos
cuadrados.
Sean (x1, y1), . . . , (xn, yn) los n puntos del diagrama de dispersión. Para calcular la correlación, primero se deducen
las medias y las desviaciones estándar de las x y de las y, que se representan mediante

Después se convierte cada x y cada y a las unidades estándar (se calculan los puntajes z):

Calcular el coeficiente de correlación


Otra forma de calcular el coeficiente de correlación es:

• Es un hecho matemático que el coeficiente de correlación se encuentra siempre entre -1 y +l

• Valores positivos del coeficiente de correlación indican que la recta tiene pendiente positiva

• valores del coeficiente de correlación cercanos a -1 o a +1 indican fuerte relación lineal

• valores cercanos a 0 indican débil relación lineal

• Si r ≠ 0, se dice que x y y están correlacionados.

• Si r = 0, se dice que x y y no están correlacionados

• No tiene unidades
El coeficiente de correlación permanece constante en cada una de las siguientes
operaciones:

• Multiplicar cada valor de una variable por una constante positiva.

• Sumar una constante a cada valor de una variable.

• Intercambiar los valores de x y y.


El coeficiente de correlación mide sólo la asociación lineal

R=0
Datos atípicos

Ejemplo:

r= 0.20
EJ 1 . Encontrar el coeficiente de correlación lineal entre
las variables X y Y
Ej 2. Con objeto de investigar la relación entre el promedio de calificaciones y la cantidad de horas por
semana que se ve televisión, se recolectan los datos que se muestran en la tabla. La información
corresponde a 10 estudiantes, X es la cantidad de horas por semana que el estudiante ve televisión (horas
de TV) y Y es su promedio de calificaciones.

Calcular el coeficiente de correlación de estas dos variables


El coeficiente de correlación es −0.9097.

El signo negativo indica que las dos variables están inversamente correlacionadas.

Es decir, cuanto mayor es la cantidad de horas que se ve televisión, menor es el promedio de


calificaciones
Ej 3.En un estudio se registran los salarios iniciales (en miles), Y, y los años de estudio, X, de 10
empleados. En la tabla y en la figura presentan los datos y una gráfica de dispersión
El resultado da el coeficiente de correlación r = 0.891.
La recta de mínimos cuadrados

Cuando dos variables tienen una relación lineal, el diagrama de dispersión tiende a estar
agrupado alrededor de la recta de mínimos cuadrados

En este experimento hipotético un resorte se cuelga verticalmente con un extremo fijo,


y los pesos se cuelgan uno tras otro del otro extremo. Después de colgar cada peso se mide la
longitud del resorte. Sean x1, . . . , xn los pesos, y sea li la longitud del resorte bajo la carga xi.
La ley de Hooke establece que

donde B0 representa la longitud del resorte cuando no tiene carga y 1 es la constante del
resorte.
Sea yi la longitud medida del resorte bajo carga xi. Debido al error de medición, yi será
diferente de la longitud verdadera li. Se escribe como

donde ei constituye el error en la i-ésima medición. Al combinar las ecuaciones anteriores se


obtiene

yi se llama variable dependiente, xi se conoce como variable independiente, B0 y B1 son los coeficientes de
regresión, y ei se denomina error.

A la ecuación, se le llama modelo lineal.


Se quieren utilizar estos datos para calcular la constante 1 del resorte y la longitud 0 sin carga. Si no hubiera error
en la medición, los puntos se encontrarían en una línea recta con pendiente B1 e intercepto B0, y estas cantidades
serían fáciles de determinar.

Debido al error de medición, 0 y 1 no se pueden determinar exactamente, pero se pueden estimar cuando se
calcula la recta de mínimos cuadrados.
Se escribe la ecuación de la recta como

Las cantidades B0 y Bˆ1 se llaman


coeficientes de mínimos cuadrados

El coeficiente Bˆ1 representa la pendiente


de la recta de mínimos cuadrados, es una
estimación de la constante verdadera del
resorte B1, y el coeficiente Bˆ0, el
intercepto de la recta de mínimos
cuadrados, significa una estimación de la
verdadera longitud sin carga B0.
Para cada punto de datos (xi, yi) la distancia vertical al punto (xi, yˆi)
en la recta de mínimos cuadrados es

ei se llama residuo

La recta de mínimos cuadrados se define como aquella para la


que la suma de cuadrados de los residuos se minimiza.
Cálculo de la ecuación de la recta de mínimos cuadrados
Ej. Con los datos de la ley de Hooke calcule los estimadores de mínimos cuadrados de la constante del resorte y
la longitud sin carga del resorte. Escriba la ecuación de la recta de mínimos cuadrados.
Ejemplo. Usar la ecuación de la recta de mínimos cuadrados que se calculó en el ejemplo
anterior de y= 4.9997 + 0.2046x. Con el valor x = 1.3.
se estima que la longitud del resorte
Con la ecuación de la recta de mínimos cuadrados se pueden calcular los valores ajustados

y los residuos

para cada punto (xi, yi) en el conjunto de datos de la ley de Hooke

En el ejemplo de la ley de Hooke la cantidad

representa la longitud verdadera del resorte bajo una carga x.

es una estimación de
Medición de la bondad del ajuste

Un estadístico de la bondad del ajuste representa una cantidad que mide qué tan bien un
modelo explica un conjunto específico de datos

coeficiente de la determinación

suma de los cuadrados de los errores

suma total de los cuadrados


Regresión Lineal Usando R

datosPisa = read.table(file="../datos/Tut10-DatosPisaPais.csv",
header=TRUE, sep = "\t")
head(datosPisa)

## CA rpc pisa
## 1 Extremadura 15.394 461
## 2 Andaluc\303\255a 19.960 472
## 3 Murcia 18.520 462
## 4 Galicia 20.723 489
## 5 Asturias 21.035 500
## 6 Castilla Le\303\263n 22.289 509
plot(datosPisa$rpc, datosPisa$pisa)

plot(pisa ~ rpc, data=datosPisa)


vamos a ver como calcular la covarianza de dos vectores, en R:

cov(datosPisa$rpc, datosPisa$pisa)

## [1] 55.261

Con la función cov estamos listos para calcular la pendiente de


la recta de regresión,

(b1 = cov(datosPisa$pisa, datosPisa$rpc)/var(datosPisa$rpc))

## [1] 2.951
Y la ordenada en el origen es, entonces:

(b0 = mean(datosPisa$pisa) - b1 * mean(datosPisa$rpc))

## [1] 420.89

la recta de regresión es, aproximadamente

y = 420.9 + 2.951 x
La función attach.

En lugar d escribir :

datosPisa$,

puedes ejecutar:

attach(datosPisa)

datosPisa$rpc

Rpc

## [1] 15.394 19.960 18.520 20.723 21.035 22.289 22.341 22.772 24.393 25.508
## [11] 25.540 27.248 29.071 29.385 30.829
detach(datosPisa)

rpc

## Error in eval(expr, envir, enclos): objeto ’rpc’ no encontrado


Añadir la recta de regresión al diagrama de dispersión.

función abline

y=a+b x

a partir de su pendiente b y ordenada en el origen a.

plot(datosPisa$pisa ~ datosPisa$rpc)

abline(a = b0, b = b1)


Coeficiente de correlación, Residuos y error cuadrático medio

El coeficiente de correlación r se calcula en R con la función cor.

cor(datosPisa$pisa, datosPisa$rpc)

## [1] 0.75277
Residuos y error cuadrático medio

Para calcular los residuos con los datos del estudio PISA debemos primero calcular
la diferencia entre los valores para las pruebas PISA que predice la recta, calculados a partir de
rpc, y los valores de pisa que se han medido en la muestra.

(pisaRecta = b0 + b1 * datosPisa$rpc)

## [1] 466.32 479.79 475.54 482.05 482.97 486.67 486.82 488.09 492.88 496.17
## [11] 496.26 501.30 506.68 507.61 511.87

vector de valores predichos (fitted values, en inglés)


Ahora sólo tenemos que restar estos de pisa para obtener los residuos:

(residuos = datosPisa$pisa - pisaRecta)

## [1] -5.31931 -7.79347 -13.54407 6.95493 17.03423 22.33370 4.18025


## [8] -4.09162 -17.87515 6.83451 -0.25992 -8.30019 10.32018 -3.60643
## [15] -6.86764

Si lo que queremos es el error cuadrático EC, basta con hacer la suma de los cuadrados de los
residuos:

(EC = sum(residuos^2))

## [1] 1745.9
función lm de R

(lmXY = lm(y ~ x, data=datos))

##
## Call:
## lm(formula = y ~ x, data = datos)
##
## Coefficients:
## (Intercept) x
## 0.983 -0.481

La sintaxis y x es la forma que tiene R de expresar que x es la variable explicativa, e y la variable


respuesta en este modelo.
La salida de este comando contiene, bajo el nombre coefficients, los valores de
b 0 y b 1.

Concretamente, el valor de b1, la pendiente, aparece bajo x,

b0 es el coeficiente que acompaña a la x en la ecuación

y = b0 + b1 x

El valor de b0 aparece bajo “Intercept” o la ordenada en el origen.


lmXY$coefficients

## (Intercept) x
## 0.98276 -0.48082

b0 = lmXY$coefficients[1]

para guardar la ordenada en el origen en la variable b0.

Con esta notación lm es muy fácil acceder, por ejemplo, a los valores predichos y a los residuos del modelo.

lmXY$fitted.values

## 1 2 3 4 5 6 7 8 9
## 0.86255 0.76158 0.63176 0.61733 0.60772 0.59810 0.58849 0.54521 0.53560
## 10
## 0.52598
lmXY$residuals

## 1 2 3 4 5 6
## -0.0136288 0.0152918 0.0063964 0.0228680 -0.0119545 0.0031498
## 7 8 9 10
## -0.0129175 -0.0062996 -0.0106943 0.0077887
Usando lm para predecir valores.

Por ejemplo, para predecir el valor correspondiente a x = 0:74

predict(lmXY, newdata = data.frame(x=0.74))

## 1
## 0.62695

El resultado es el mismo que si sustituyeras ese valor en la recta de regresión:

lmXY$coefficients[1] + lmXY$coefficients[2] * 0.74

## (Intercept)
## 0.62695
Por ejemplo, para predecir usando todos los valores de x de 0:7 a 0:75, de décima en
décima, haríamos:

predict(lmXY, newdata = data.frame(x=seq(0.70, 0.75, length.out = 6)))

## 1 2 3 4 5 6
## 0.64618 0.64138 0.63657 0.63176 0.62695 0.62214

También podría gustarte