Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlación
• experimento genera datos bivariados; un conjunto de pares ordenados (x1, y1), . . . , (xn, yn).
• En muchos casos, al graficar los pares ordenados que se generan en un experimento científico se
encontrarán, aproximadamente, a lo largo de una línea recta.
• coeficiente de correlación como forma de describir la relación tan cercana entre dos
características físicas
El primer coeficiente de correlación publicado fue producto del trabajo de sir Francis Galton, quien, en 1888,
midió la estatura y longitud del antebrazo, respectivamente, de 348 hombres adultos
Si se denota la estatura del i-ésimo hombre mediante xi, y la longitud de su antebrazo como yi, entonces los
datos de Galton consistían de 348 pares ordenados (xi, yi).
Los puntos tienden a inclinarse hacia arriba y a la derecha, lo que indica que los hombres más altos tienden a tener
antebrazos más largos. Se dice que hay una asociación positiva entre la estatura y la longitud del antebrazo.
La pendiente es casi constante en toda la gráfica, esto indica que los puntos están agrupados alrededor de una línea
recta. La línea sobrepuesta sobre la gráfica representa una recta especial conocida como recta de mínimos
cuadrados.
Sean (x1, y1), . . . , (xn, yn) los n puntos del diagrama de dispersión. Para calcular la correlación, primero se deducen
las medias y las desviaciones estándar de las x y de las y, que se representan mediante
Después se convierte cada x y cada y a las unidades estándar (se calculan los puntajes z):
• Valores positivos del coeficiente de correlación indican que la recta tiene pendiente positiva
• No tiene unidades
El coeficiente de correlación permanece constante en cada una de las siguientes
operaciones:
R=0
Datos atípicos
Ejemplo:
r= 0.20
EJ 1 . Encontrar el coeficiente de correlación lineal entre
las variables X y Y
Ej 2. Con objeto de investigar la relación entre el promedio de calificaciones y la cantidad de horas por
semana que se ve televisión, se recolectan los datos que se muestran en la tabla. La información
corresponde a 10 estudiantes, X es la cantidad de horas por semana que el estudiante ve televisión (horas
de TV) y Y es su promedio de calificaciones.
El signo negativo indica que las dos variables están inversamente correlacionadas.
Cuando dos variables tienen una relación lineal, el diagrama de dispersión tiende a estar
agrupado alrededor de la recta de mínimos cuadrados
donde B0 representa la longitud del resorte cuando no tiene carga y 1 es la constante del
resorte.
Sea yi la longitud medida del resorte bajo carga xi. Debido al error de medición, yi será
diferente de la longitud verdadera li. Se escribe como
yi se llama variable dependiente, xi se conoce como variable independiente, B0 y B1 son los coeficientes de
regresión, y ei se denomina error.
Debido al error de medición, 0 y 1 no se pueden determinar exactamente, pero se pueden estimar cuando se
calcula la recta de mínimos cuadrados.
Se escribe la ecuación de la recta como
ei se llama residuo
y los residuos
es una estimación de
Medición de la bondad del ajuste
Un estadístico de la bondad del ajuste representa una cantidad que mide qué tan bien un
modelo explica un conjunto específico de datos
coeficiente de la determinación
datosPisa = read.table(file="../datos/Tut10-DatosPisaPais.csv",
header=TRUE, sep = "\t")
head(datosPisa)
## CA rpc pisa
## 1 Extremadura 15.394 461
## 2 Andaluc\303\255a 19.960 472
## 3 Murcia 18.520 462
## 4 Galicia 20.723 489
## 5 Asturias 21.035 500
## 6 Castilla Le\303\263n 22.289 509
plot(datosPisa$rpc, datosPisa$pisa)
cov(datosPisa$rpc, datosPisa$pisa)
## [1] 55.261
## [1] 2.951
Y la ordenada en el origen es, entonces:
## [1] 420.89
y = 420.9 + 2.951 x
La función attach.
En lugar d escribir :
datosPisa$,
puedes ejecutar:
attach(datosPisa)
datosPisa$rpc
Rpc
## [1] 15.394 19.960 18.520 20.723 21.035 22.289 22.341 22.772 24.393 25.508
## [11] 25.540 27.248 29.071 29.385 30.829
detach(datosPisa)
rpc
función abline
y=a+b x
plot(datosPisa$pisa ~ datosPisa$rpc)
cor(datosPisa$pisa, datosPisa$rpc)
## [1] 0.75277
Residuos y error cuadrático medio
Para calcular los residuos con los datos del estudio PISA debemos primero calcular
la diferencia entre los valores para las pruebas PISA que predice la recta, calculados a partir de
rpc, y los valores de pisa que se han medido en la muestra.
(pisaRecta = b0 + b1 * datosPisa$rpc)
## [1] 466.32 479.79 475.54 482.05 482.97 486.67 486.82 488.09 492.88 496.17
## [11] 496.26 501.30 506.68 507.61 511.87
Si lo que queremos es el error cuadrático EC, basta con hacer la suma de los cuadrados de los
residuos:
(EC = sum(residuos^2))
## [1] 1745.9
función lm de R
##
## Call:
## lm(formula = y ~ x, data = datos)
##
## Coefficients:
## (Intercept) x
## 0.983 -0.481
y = b0 + b1 x
## (Intercept) x
## 0.98276 -0.48082
b0 = lmXY$coefficients[1]
Con esta notación lm es muy fácil acceder, por ejemplo, a los valores predichos y a los residuos del modelo.
lmXY$fitted.values
## 1 2 3 4 5 6 7 8 9
## 0.86255 0.76158 0.63176 0.61733 0.60772 0.59810 0.58849 0.54521 0.53560
## 10
## 0.52598
lmXY$residuals
## 1 2 3 4 5 6
## -0.0136288 0.0152918 0.0063964 0.0228680 -0.0119545 0.0031498
## 7 8 9 10
## -0.0129175 -0.0062996 -0.0106943 0.0077887
Usando lm para predecir valores.
## 1
## 0.62695
## (Intercept)
## 0.62695
Por ejemplo, para predecir usando todos los valores de x de 0:7 a 0:75, de décima en
décima, haríamos:
## 1 2 3 4 5 6
## 0.64618 0.64138 0.63657 0.63176 0.62695 0.62214