Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción al Tema 3
Covarianza y correlación.
Concepto de regresión.
Plot of GTINE vs IT
(X 100000)
10
6
GTINE
0
0 2 4 6 8
(X 100000)
IT
Covarianza
1
Pn 1
Pn
donde x̄ = n i=1 xi e ȳ = n i=1 yi son las medias de ambas variables.
Ejemplo 2.
1
sxy = 90000 × 81861 + 62091 × 105628 + . . . 282000 × 479791
75
−75 × 236591,0 × 261277,0 ≈ 1,8383e10
Demostración
n
1X
sxy = (xi − x̄)(yi − ȳ)
n i=1
n
!
1 X
= [xiyi − xiȳ − x̄yi + x̄ȳ]
n i=1
n n n n
!
1 X X X X
= xiyi − xiȳ − x̄yi + x̄ȳ
n i=1 i=1 i=1 i=1
n n n
!
1 X X X
= xiyi − ȳ xi − x̄ yi + nx̄ȳ
n i=1 i=1 i=1
n n n
!
1 X 1 X 1 X
= xiyi − nȳ xi − nx̄ yi + nx̄ȳ
n i=1
n i=1
n i=1
n
! n
!
1 X 1 X
= xiyi − nȳ x̄ − nx̄ȳ + nx̄ȳ = xiyi − nx̄ȳ .
n i=1
n i=1
Covariances
IT GTINE
----------------------------------------------------
IT 2.29468E10 1.81374E10
( 75) ( 75)
210
180
y
150
120
90
20 24 28 32 36 40 44
Tiemeyer, Stohrer, W. y Giesecke, D. (1984). Metabolites of nucleic acids in bovine milk. J. Dairy Sci., 67, 723-728.
1
x̄ = (42,7 + . . . + 20,2) ≈ 29,57
14
1
ȳ = (92 + . . . + 213) ≈ 167,43
14
14
X
xiyi = 42,7 × 92 + . . . + 20,2 × 213 = 65335,5
i=1
1
sxy = (65335,5 − 14 × 29,57 × 167,43) ≈ −282,7
14
I Vemos que existe una relación negativa entre las dos variables.
Cuasi-covarianza
Igual que con la cuasi-varianza, en muchos casos, se utiliza un denominador
igual a n − 1, es decir n
1 X
scxy = (xi − x̄)(yi − ȳ).
n − 1 i=1
PI
Calculamos la media de X: x̄ = i=1 fi• xi ,
PJ
Calculamos la media de Y : ȳ = j=1 f•j yj .
PI PJ
La covarianza se obtiene de: sxy = i=1 j=1 fij xi yj − x̄ȳ.
Correlación
Propiedades de la correlación
−1 ≤ rxy ≤ 1.
Ejemplos
rxy = 0.983 rxy = -0.978
1.4
1.2
2 1
0.8
0.6
1.5
0.4
0.2
1 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
0.4 0.15
0.1
0.2
0.05
0
0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
−283,2
rxy = √ ≈ −0,89
54,43 × 1868,82
I Existe una relación negativa –aproximadamente lineal– entre las dos
variables.
6.5
5.5
Y
4.5
4
0 0.5 1 1.5 2 2.5 3
6
y
0
0 2 4 6 8 10
I El recı́proco no es cierto.
I Hemos visto que si hay una relación más o menos lineal, la correlación entre
las dos variables es bastante alta pero ¿qué pasa si hay una relación no lineal?
Correlación = 0.97 Correlación = 0
400 40
300 30
200 20
y
y
100 10
0 0
0 4 8 12 16 20 -6 -4 -2 0 2 4 6
x x
Recta de Regresión
I Se han visto algunos ejemplos donde parece que haya una relación aprox-
imadamente lineal entre dos variables. Supongamos que queremos estimar la
relación entre las dos variables. ¿Cómo ajustamos una recta a los datos?
y = α + βx + ε
I Dada una muestra de datos (x1, y1), . . . , (xn, yn) queremos obtener la recta
que se ajusta mejor a estos datos.
I Si ajustamos una recta y = a + bx a los datos de la muestra, entonces los
residuos o errores de predicción estimados son
ri = yi − (a + bxi) para i = 1, . . . , n.
13
12
11
10
(xi,yi)
9
r
i
8
7
(x , a + b x )
i i
6
3
0 1 2 3 4 5 6 7 8 9 10
ri = yi − (a + bxi) = yi − ybi.
Teorema 2. Para una muestra de datos bivariantes (x1, y1), . . . , (xn, yn),
la recta de
Pforma y = a + bx que minimiza la suma de errores cuadrados
n
S(a, b) = i=1(yi − a − bxi)2 cumple que
sxy
b =
s2x
a = ȳ − bx̄.
Demostración
∂S ∂S
= = 0.
∂a ∂b
n
∂S X
= −2 (yi − a − bxi) = −2 (nȳ − na − nbx̄) = 0
∂a i=1
a = ȳ − bx̄
n n n
!
∂S X X X
= −2 xi(yi − a − bxi) = −2 xiyi − xi(a + bxi) =0
∂b i=1 i=1 i=1
n
X n
X n
X
xiyi = xi(a + bxi) = xi(ȳ − bx̄ + bxi) sustituyendo por a
i=1 i=1 i=1
n
!
X
= nx̄ȳ + b x2i − nx̄2
i=1
Pn
i=1 xiyi − nx̄ȳ nsxy sxy
b = Pn 2 2
= 2
= 2.
i=1 xi − nx̄ nsx sx
fuerza 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5
extensión 18 11 25 22 35 50 54 45 52 68
Diagrama de dispersión de extension frente a fuerza
80
60
extension
40
20
0
0 0,1 0,2 0,3 0,4 0,5
fuerza
I El diagrama de dispersión sugiere que existe una relación casi lineal entre
fuerza y extensión. Para predecir la extensión del muelle en torno de la fuerza
aplicada, aplicamos el model de regresión
y = α + βx + ε
x̄ = 0,3
s2x = 0,02
ȳ = 38
s2y = 310,8
sxy = 2,34
60
extension
40
20
0
0 0,1 0,2 0,3 0,4 0,5
fuerza
−283,2
b = = −5,20
54,43
a = 167,43 − (−5,20) × 29,56
= 321,24
Parameter Estimate
--------------------------
Intercept 321,241
Slope -5,20265
--------------------------
210
180
y
150
120
90
20 24 28 32 36 40 44
Estimamos con
Varianza residual
Definición 3. Dada una muestra de datos (x1, y1), . . . , (xn, yn) se ajusta la
s
recta de regresión por mı́nimos cuadrados, y = a+bx, con b = sxy 2 y a = ȳ−bx̄.
x
Se define la varianza residual como
2 1 Xn 2 1 Xn 2
sr = ri = (yi − (a + bxi)) .
n i=1 n i=1
1
r̄ = (3,4 + . . . + 6,6) = 0
10
1
s2r = 2 2
3,4 + . . . + 6,6 = 37,2
10
Demostración
n
1X
r̄ = (yi − (a + bxi))
n i=1
n
1X
= (yi − (ȳ − bx̄ + bxi)) por definición de a
n i=1
n n
!
1 X X
= (yi − ȳ) − b (xi − x̄)
n i=1 i=1
= 0
Ejemplo 13. Volviendo al Ejemplo 8, recordamos que s2x = 0,02, s2y = 310,8
y sxy = 2,34.
2,34
Luego, la correlación es rxy = √
0,2×310,8
≈ 0,939.
Entonces s2r 2
= 310,8 1 − 0,939 = 37,02 tal como calculamos anteriormente.
s2r 2
2
= 1 − r xy .
sy
s2y es la varianza del error al predecir los valores de la variable y sin utilizar
los valores de x. yb = ȳ
sxy
b =
s2x
sy sxy sy sxy
= =
sy sxsx sx sxsy
sy
= rxy .
sx
I Casi siempre es útil hacer gráficos de los residuos (frente x, y o ŷ) para ver
si los supuestos del modelo lineal de regresión son adecuados o no.
24 23 27
23 22
25
22 21
y
y
21 20 23
20 19
21
19 18
18 17 19
4 6 8 10 12 14 4 6 8 10 12 14 4 6 8 10 12 14
x x x
24 24
23
23
22
22
y
y
21
21
20
20
19
19 18
4 6 8 10 12 14 8 10 12 14 16 18 20
x x
En el cuarto gráfico parece que la recta está más cerca a los datos cuando
x es más pequeño.
Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos
2 2 4,7
residuos
residuos
residuos
1 1 2,7
0 0 0,7
-1 -1 -1,3
-2 -2 -3,3
19 20 21 22 23 19 20 21 22 23 19 20 21 22 23
1,5
residuos
residuos
1
0,5
0
-0,5
-1
-1,5
-2,5 -2
19 20 21 22 23 20 21 22 23 24
yhat yhat
donde δ = β1 , γ = − α
β y ν = − ε
β.
Observamos que d 6= 1b .
12 (c + d yi, yi)
10 (xi, yi)
8
(xi, a + b xi)
2
0 1 2 3 4 5 6 7 8 9 10
(yi, c + d yi)
6
(yi,xi)
4
0
2 4 6 8 10 12 14
Ejemplo 18. Volvemos al Ejemplo 8 sobre la extensión (y) obtenida con una
la fuerza (x) aplicada al muelle.
I Antes hemos visto que ajustando la recta y = a+bx por mı́nimos cuadrados,
se tiene
yb = 2,9 + 117x.
Por ejemplo, x = 0,2 Newton se predice que extiende al muelle en 26.3 mm.
x
b = ,0139 + ,0075y.
60
50
40
y
30
y=a+bx
x=c+dy
datos
20
10
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55
x
Correlación y causalidad
2
Ni que una ola de calor produzca
1 mayor nupcialidad.
0
0 5 10 15 20 25 30
Temperatura
Correlaciones espurias.
Recapitulación
Regresión.
W Modelo lineal de Y
como función de X
Criterio de mı́nimos cuadrados.
Estadı́stica descriptiva
Introducción.
Tema 1. Análisis de datos univariantes.
Descripción de variables y datos
Tema 2. Análisis de datos bivariantes.
socioeconómicos
Tema 3. Correlación y regresión.
Tema 4. Series temporales y números índice.
Tema 1
W Análisis descriptivo de una o más variables
Tema 2
tomadas en un instante del tiempo.
Tema 3
⇑
Estudiar la evolución temporal de la variable