Ietema3 Este

1
Introducción al Tema 3
Tema 2. Análisis de datos bivariantes

Representaciones y gráficos.
Resumen numérico.
• Relaciones entre variables.
Extensión a dos variables

cuantitativas
Tema 3. Correlación y regresión

Covarianza y correlación.
Propiedades y relación con el diagrama de
dispersión.
Regresión.
Introducción a la Estadı́stica Andrés M. Alonso

2
Los contenidos a desarrollar en este tema son los siguientes:
Covarianza y correlación.
Propiedades y relación con el diagrama de dispersión.
Concepto de regresión.
Criterio de mı́nimos cuadrados.
Lecturas recomendadas: Capı́tulos 7 y 10 del libro de Peña y Romo (1997).

Secciones 12.1, 12.3 a 12.5 del libro de Newbold (2001).

3
Ejemplo 1. En la Encuesta de Presupuestos Familiares realizada por el I.N.E.

en 1974–1975, se registraba el ingreso total estimado (IT) y el gasto total
GTINE. Archivo hogares.sf3
Plot of GTINE vs IT
(X 100000)
10
6
GTINE
0
0 2 4 6 8
(X 100000)
IT
I Se observa una relación positiva entre el ingreso total estimado y el gasto

total de los hogares.

4
Covarianza
Se ve en el Ejemplo 1 que existe una relación creciente y más o menos lineal

entre el ingreso total y el gasto total de los hogares.
Definición 1. Para una muestra de n datos bivariantes
(x1, y1), . . . , (xn, yn)
la covarianza entre las dos variables es

n
1X
sxy = (xi − x̄)(yi − ȳ)
n i=1
1
Pn 1
Pn
donde x̄ = n i=1 xi e ȳ = n i=1 yi son las medias de ambas variables.
I La covarianza es una medida de la fuerza de la relación lineal entre dos

variables cuantitativas.

5
Ejemplo 2. Con los datos del Ejemplo 1.
En primer lugar hallamos las medias de ambas variables:

1
x̄ = (90000 + 62091 + . . . + 282000) = 236591,0
75
1
ȳ = (81861 + 105628 + . . . + 479791) = 261277,0
75
Luego calculamos la covarianza:
1
sxy = {(90000 − 236591,0)(81861 − 261277,0)+
75
(62091 − 236591,0)(105628 − 261277,0) + . . . +
(282000 − 236591,0)(479791 − 261277,0)} ≈ 1,8383e10
¿x̄, ȳ y sxy si Pts ?

I La covarianza es positiva, que implica una relación creciente entre x e y.

6
Otra manera de calcular la covarianza:

I Es ineficiente calcular la covarianza directamente a través de esta definición.
Se puede calcular la covarianza mediante la siguiente fórmula.
Teorema 1. !
n
1 X
sxy = xiyi − nx̄ȳ
n i=1
I El cálculo a través de este resultado es mucho más rápido, ya que no se

tiene que restar las medias de todos los datos.
Ejemplo 2.
1
sxy = 90000 × 81861 + 62091 × 105628 + . . . 282000 × 479791
75

−75 × 236591,0 × 261277,0 ≈ 1,8383e10

7
Demostración
n
1X
sxy = (xi − x̄)(yi − ȳ)
n i=1
n
!
1 X
= [xiyi − xiȳ − x̄yi + x̄ȳ]
n i=1
n n n n
!
1 X X X X
= xiyi − xiȳ − x̄yi + x̄ȳ
n i=1 i=1 i=1 i=1
n n n
!
1 X X X
= xiyi − ȳ xi − x̄ yi + nx̄ȳ
n i=1 i=1 i=1
n n n
!
1 X 1 X 1 X
= xiyi − nȳ xi − nx̄ yi + nx̄ȳ
n i=1
n i=1
n i=1
n
! n
!
1 X 1 X
= xiyi − nȳ x̄ − nx̄ȳ + nx̄ȳ = xiyi − nx̄ȳ .
n i=1
n i=1

8
Ejemplo 2. Utilizando Statgraphics:

IT GTINE
----------------------------------------------------
Count 75 75
Average 236591.0 261277.0
Variance 2.29468E10 2.90159E10
Standard deviation 151482.0 170341.0
----------------------------------------------------
Covariances
IT GTINE
----------------------------------------------------
IT 2.29468E10 1.81374E10
( 75) ( 75)
GTINE 1.81374E10 2.90159E10

( 75) ( 75)
----------------------------------------------------

9
Ejemplo 3. Se querı́a estudiar la concentración de ácido úrico en la leche

de una especie de vaca y se tomo una muestra de 14 vacas. Los datos son
producción de leche (x lt/dı́a) y concentración de ácido (y µmol/litro).
x 42,7 40,2 38,2 37,6 32,2 32,2 28,0
y 92 120 128 110 153 162 202
x 27,2 26,6 23,0 22,7 21,8 21,3 20,2
y 140 218 195 180 193 238 213
Diagrama de dispersión
240
210
180
y
150
120
90
20 24 28 32 36 40 44
Tiemeyer, Stohrer, W. y Giesecke, D. (1984). Metabolites of nucleic acids in bovine milk. J. Dairy Sci., 67, 723-728.

10
Calculamos ahora la covarianza entre x e y, y obtenemos:
1
x̄ = (42,7 + . . . + 20,2) ≈ 29,57
14
1
ȳ = (92 + . . . + 213) ≈ 167,43
14
14
X
xiyi = 42,7 × 92 + . . . + 20,2 × 213 = 65335,5
i=1
1
sxy = (65335,5 − 14 × 29,57 × 167,43) ≈ −282,7
14
I Vemos que existe una relación negativa entre las dos variables.
I La covarianza es positiva si existe una relación (lineal) creciente y negativa

si existe una relación decreciente.

11
Cuasi-covarianza
Igual que con la cuasi-varianza, en muchos casos, se utiliza un denominador
igual a n − 1, es decir n
1 X
scxy = (xi − x̄)(yi − ȳ).
n − 1 i=1
En este caso, se denomina cuasi-covarianza.
Ejemplo 3. Utilizando Statgraphics:

Produccion de leche Concentracion AU
------------------------------------------------------------
Produccion de leche 58.473 -304.61
( 14) ( 14)
Concentracion AU -304.61 2012.57

( 14) ( 14)
------------------------------------------------------------
I Es importante observar que en Statgraphics se emplea esta definición.

12
Cálculo de la covarianza para datos agrupados
Dada una tabla de doble entrada,

Y
y1 y2 ... yJ
x1 f11 f12 ... f1J f1•
x2 f21 f22 ... f2J f2•
X .. .. .. .. .. ..
xI fI1 fI2 ... fIJ fI•
f•1 f•2 ... f•J 1
PI
Calculamos la media de X: x̄ = i=1 fi• xi ,
PJ
Calculamos la media de Y : ȳ = j=1 f•j yj .
PI PJ
La covarianza se obtiene de: sxy = i=1 j=1 fij xi yj − x̄ȳ.

13
Ejemplo 4. La siguiente tabla proporciona el número de veces (X) que una

muestra de 50 estudiantes de Economı́a han tenido que repetir Introducción a
la Estadı́stica y el número de años que han tardado en acabar la licenciatura
(Y ).
Y
4 5 6 7
0 ,3 ,1 ,06 ,04 ,5
1 ,08 ,16 ,04 ,02 ,3
X 2 0 ,04 ,02 ,06 ,12
3 0 0 0 ,08 ,08
,38 ,3 ,12 ,2 1
Tenemos que x̄ = ,78 e ȳ = 5,14.
La covarianza es
XX
fij xiyj = 0 × 4 × ,3 + 0 × 5 × ,1 + . . . + 3 × 7 × ,08 = 4,66
i j
XX
sxy = fij xiyj − x̄ȳ = 4,66 − ,78 × 5,14 = 0,6508
i j

14
Correlación
I Si las unidades de la variable X son centı́metros y las unidades de la variable

Y son gramos, entonces las unidades de la covarianza son cm × g.
I Si cambiamos las unidades de las variables, cambia la covarianza. Recordemos
el ejemplo 2.
I Esto hace que el valor de la covarianza sea difı́cil de interpretar.
Definición 2. Para una muestra bivariante (x1, y1), . . . , (xn, yn), la

correlación entre las dos variables es
sxy sxy
rxy = =q ,
sxsy s2xs2y
donde sxy es la covarianza y sx y sy son las desviaciones tı́picas.
I La correlación es independiente de las unidades de las variables.

15
Propiedades de la correlación
−1 ≤ rxy ≤ 1.
rxy = 1 si y sólo si existen constantes α y β > 0 donde yi = α + βxi para

i = 1, . . . , n. Es decir que existe una relación lineal positiva exacta entre las
dos variables.
rxy = −1 si y sólo si existen constantes α y β < 0 donde yi = α + βxi para

i = 1, . . . , n. Es decir que existe una relación lineal negativa exacta entre
las dos variables.
• Si la correlación está cerca de 1 o −1, entonces hay una relación
aproximadamente lineal.
Si no existe ninguna relación entre las dos variables, la correlación es 0.

16
Ejemplos
rxy = 0.983 rxy = -0.978
1.4
1.2
2 1
0.8
0.6
1.5
0.4
0.2
1 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
rxy = 0.046 rxy = 0.041

0.35
1
0.3
0.8
0.25
0.6 0.2
0.4 0.15
0.1
0.2
0.05
0
0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

17
Ejemplo 5. Retomamos el Ejemplo 3 sobre la concentración de ácido úrico

en la leche vacuna.
I Hemos calculado las medias y la covarianza en el Ejemplo 3.
I Necesitamos las varianzas, desviaciones tı́picas y la correlación:
n
!
2 1 X 2
sx = xi − n × x̄2
n i=1
1 2 2 2

= 42,7 + . . . + 20,2 − 14 × 29,56
14
≈ 54,43 y análogamente,
s2y ≈ 1868,82.
−283,2
rxy = √ ≈ −0,89
54,43 × 1868,82
I Existe una relación negativa –aproximadamente lineal– entre las dos
variables.

18
Ejemplo 6. En el Ejemplo 4, calculamos la covarianza entre el número de

convocatorias agotadas de la asignatura “Introducción a la Estadı́stica” y el
número de años para terminar la licenciatura.
I Recordando que las desviaciones tı́picas son sx = 0,9442 y sy = 1,1315, la
correlación es
0,6508
rxy = ≈ 0,61.
0,9442 × 1,1315
I Hay una correlación positiva entre las dos variables.
Plot of Y vs X
7
6.5
5.5
Y
4.5
4
0 0.5 1 1.5 2 2.5 3

19
Si no existe ninguna relación entre las dos variables, la

correlación es 0.
Ejemplo 7. Los datos son 30 parejas de números aleatorios.

Correlación = -0.03
10
6
y
0
0 2 4 6 8 10
I La correlación es aproximadamente cero. Ejemplo en Excel
I El recı́proco no es cierto.

20
Correlación igual a 0 no implica ninguna relación
I Hemos visto que si hay una relación más o menos lineal, la correlación entre
las dos variables es bastante alta pero ¿qué pasa si hay una relación no lineal?
Correlación = 0.97 Correlación = 0
400 40
300 30
200 20
y
y
100 10
0 0
0 4 8 12 16 20 -6 -4 -2 0 2 4 6
x x
I En ambos gráficos se ha utilizado la fórmula y = x2 para generar los datos.

Esto es, existe una relación no lineal entre x e y.

21
Recta de Regresión
I Se han visto algunos ejemplos donde parece que haya una relación aprox-
imadamente lineal entre dos variables. Supongamos que queremos estimar la
relación entre las dos variables. ¿Cómo ajustamos una recta a los datos?
I Un modelo para representar una relación aproximadamente lineal es
y = α + βx + ε
donde ε es un error de predicción.
I En esta formulación: y es la variable dependiente cuyo valor depende del

valor de la variable independiente x.

22
Cálculo de la recta de regresión por mı́nimos cuadrados
I Dada una muestra de datos (x1, y1), . . . , (xn, yn) queremos obtener la recta
que se ajusta mejor a estos datos.
I Si ajustamos una recta y = a + bx a los datos de la muestra, entonces los
residuos o errores de predicción estimados son
ri = yi − (a + bxi) para i = 1, . . . , n.
I De alguna manera, la recta que se ajusta mejor es la que minimiza el error

total. Pero ¿cómo definimos el error total?
I Una elección es la suma de errores cuadrados

n
X n
X 2
S(a, b) = ri2 = (yi − (a + bxi)) .
i=1 i=1

23
Cálculo de la recta de regresión

14
13
12
11
10
(xi,yi)
9
r
i
8
7
(x , a + b x )
i i
6
3
0 1 2 3 4 5 6 7 8 9 10
ri = yi − (a + bxi) = yi − ybi.

24
Teorema 2. Para una muestra de datos bivariantes (x1, y1), . . . , (xn, yn),
la recta de
Pforma y = a + bx que minimiza la suma de errores cuadrados
n
S(a, b) = i=1(yi − a − bxi)2 cumple que
sxy
b =
s2x
a = ȳ − bx̄.
Demostración
Supongamos que ajustamos la recta y = a + bx. Queremos minimizar el valor

de S(a, b). Obtenemos los ceros de
∂S ∂S
= = 0.
∂a ∂b

25
n
∂S X
= −2 (yi − a − bxi) = −2 (nȳ − na − nbx̄) = 0
∂a i=1
a = ȳ − bx̄
n n n
!
∂S X X X
= −2 xi(yi − a − bxi) = −2 xiyi − xi(a + bxi) =0
∂b i=1 i=1 i=1
n
X n
X n
X
xiyi = xi(a + bxi) = xi(ȳ − bx̄ + bxi) sustituyendo por a
i=1 i=1 i=1
n
!
X
= nx̄ȳ + b x2i − nx̄2
i=1
Pn
i=1 xiyi − nx̄ȳ nsxy sxy
b = Pn 2 2
= 2
= 2.
i=1 xi − nx̄ nsx sx

26
Ejemplo 8. Se quiere probar la elasticidad de un muelle. Con este objetivo,

se sometió el muelle a varios niveles de fuerza (x Newtons) y se midió la
extensión total del muelle (y mm) en cada caso.
fuerza 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5
extensión 18 11 25 22 35 50 54 45 52 68
Diagrama de dispersión de extension frente a fuerza
80
60
extension
40
20
0
0 0,1 0,2 0,3 0,4 0,5
fuerza

27
I El diagrama de dispersión sugiere que existe una relación casi lineal entre
fuerza y extensión. Para predecir la extensión del muelle en torno de la fuerza
aplicada, aplicamos el model de regresión
y = α + βx + ε
I Dados los datos de la muestra, hallamos la recta estimada por mı́nimos

cuadrados. Tenemos:
x̄ = 0,3
s2x = 0,02
ȳ = 38
s2y = 310,8
sxy = 2,34

28
I Calculamos la recta de mı́nimos cuadrados.

sxy 2,34
b = 2
= = 117
sx 0,02
a = ȳ − bx̄ = 38 − 117 × 0,3 = 2,9
I La recta ajustada es y = 2,9 + 117x.

La recta de regresión
80
60
extension
40
20
0
0 0,1 0,2 0,3 0,4 0,5
fuerza

29
Ejemplo 9. Volvemos a los datos sobre el ácido úrico en la leche de vacas

del Ejemplo 3.
I En el Ejemplo 3, obtuvimos que x̄ = 29,56, ȳ = 167,43 y sxy = −283,2 y

en el Ejemplo 5 que s2x = 54,43 y s2y = 1868,82.
I Luego, si queremos predecir la concentración de ácido úrico en la leche

(y) en términos de la cantidad de leche producida (x), la recta de mı́nimos
cuadrados es
y = a + bx
donde
−283,2
b = = −5,20
54,43
a = 167,43 − (−5,20) × 29,56
= 321,24

30
I Los resultados del análisis en Statgraphics son:
Regression Analysis - Linear model: Y = a + b*X

---------------------------------------------------------
Dependent variable: y Independent variable: x
---------------------------------------------------------
Parameter Estimate
--------------------------
Intercept 321,241
Slope -5,20265
--------------------------
Correlation Coefficient = -0,887889

R-squared = 78,8347 percent
Standard Error of Est. = 21,4817.
The equation of the fitted model is y = 321,241 - 5,20265*x

31
Recta de regresión ajustada

240
210
180
y
150
120
90
20 24 28 32 36 40 44

32
Predicción con la recta de regresión

I Habiendo ajustado una recta y = a + bx a los datos, podremos usarla para
predecir el valor de y teniendo el valor de x.
Ejemplo 10. En el Ejemplo an-

terior, supongamos que una vaca
produce x = 30 litros de leche
por dı́a.
¿Cuál estimamos es la concen-
tración de ácido úrico en la leche
de esta vaca?
Estimamos con
ŷ = 321,24 − (−5,20) × 30 ≈ 165,15 µmol/litro

33
Ejemplo 11. En el Ejemplo 8, predecimos que la extensión del muelle si se

aplica una fuerza de 0,4 Newtons es:
ŷ = 2,9 + 117 × 0,4 = 49,7mm.
¿Qué pasarı́a si ponemos una fuerza de 0?
I La extensión prevista por la recta de regresión en este caso es de 2,9 mm.
I No obstante el resultado no tiene sentido. Con fuerza 0, la extensión del

muelle debe ser cero.
I No es conveniente (arriesgado) hacer predicciones usando valores de x fuera

del rango de los datos observados.

34
Varianza residual
Definición 3. Dada una muestra de datos (x1, y1), . . . , (xn, yn) se ajusta la
s
recta de regresión por mı́nimos cuadrados, y = a+bx, con b = sxy 2 y a = ȳ−bx̄.
x
Se define la varianza residual como
2 1 Xn 2 1 Xn 2
sr = ri = (yi − (a + bxi)) .
n i=1 n i=1
Ejemplo 12. Calculamos los residuos en el Ejemplo 8.

y 18 11 25 22 35 50 54 45 52 68
y
b 14,6 14,6 26,3 26,3 38,0 38,0 49,7 49,7 61,4 61,4
r 3,4 −3,6 −1,3 −4,3 −3,0 12,0 4,3 −4,7 −9,4 6,6
1
r̄ = (3,4 + . . . + 6,6) = 0
10
1
s2r = 2 2

3,4 + . . . + 6,6 = 37,2
10

35
Existe una manera más rápido de hacer este cálculo:
I En primer lugar observamos que r̄ = 0 siempre si ajustamos la recta,

y = a + bx, por mı́nimos cuadrados:
Demostración
n
1X
r̄ = (yi − (a + bxi))
n i=1
n
1X
= (yi − (ȳ − bx̄ + bxi)) por definición de a
n i=1
n n
!
1 X X
= (yi − ȳ) − b (xi − x̄)
n i=1 i=1
= 0

36
I En segundo lugar, tenemos el siguiente resultado.

Teorema 3.
s2r s2y 2

= 1− rxy ,
donde rxy es el coeficiente de correlación.
Demostración
n n
2 1X 2 1X 2
sr = (yi − (a + bxi)) = (yi − (ȳ − bx̄ + bxi)) por definición de a
n i=1 n i=1
n
1X 2
= ((yi − ȳ) − b(xi − x̄)))
n i=1
n n n
!
1 X 2
X 2
X 2
= (yi − ȳ) − 2b (yi − ȳ)(xi − x̄)+ b (xi − x̄)
n i=1 i=1 i=1
2
2 2 2 2 s xy s xy 2
= sy − 2bsxy + b sx = sy − 2 2 sxy + s x por definición de b
sx s2x
2 2
! 2!
sxy sxy

2 2 2 sxy 2

2

= sy − 2 = sy 1 − 2 2 = sy 1 − = sy 1 − rxy .
sx sx sy sx s y

37

38
Ejemplo 13. Volviendo al Ejemplo 8, recordamos que s2x = 0,02, s2y = 310,8
y sxy = 2,34.
2,34
Luego, la correlación es rxy = √
0,2×310,8
≈ 0,939.

Entonces s2r 2
= 310,8 1 − 0,939 = 37,02 tal como calculamos anteriormente.
Ejemplo 14. En la salida de Statgraphics del Ejemplo 9 vemos que el

coeficiente de correlación es −0,88789 y tenı́amos que s2y = 1868,82.
2 2

Entonces, sr = 1868,82 1 − (−0,88789) ≈ 395,54

39
Otra manera de escribir el Teorema 3 es
s2r 2
2
= 1 − r xy .
sy
s2y es la varianza del error al predecir los valores de la variable y sin utilizar
los valores de x. yb = ȳ
s2r es la varianza del error al predecir los valores de la varianble y si usamos

la variable x. yb = a + bx
El porcentaje de reducción de la varianza original debido a la regresión es

2
rxy × 100 %.

40
Ejemplo 15. En el Ejemplo 13, se ve que el porcentaje de reducción en

varianza debido al conocimiento de los valores de la fuerza es de 0,9392 ×100 =
88,8 %.
Ejemplo 16. En el Ejemplo 9 se ve que el coeficiente de correlación es

−0,88789 y que el valor de R-squared es de un 78,8347 % = (−0,88789)2 ×
100 %.
Conociendo las cantidades de leche producidas por las vacas, se reduce la

varianza un 78,8347 %.

41
Otra relación entre correlación y regresión
Consideramos la fórmula para el pendiente de la recta de regresión. Tenemos:
sxy
b =
s2x
sy sxy sy sxy
= =
sy sxsx sx sxsy
sy
= rxy .
sx
I Si la correlación entre las dos variables es cero, también lo es la pendiente

de la recta.
I Además, el Teorema 3 nos demuestra que la reducción en la varianza de los

datos y debida a la regresión, en ese caso, es 0.

42
Análisis de los residuos
I Se pueden utilizar los residuos para ver si el modelo de regresión lineal es

adecuado.
I Casi siempre es útil hacer gráficos de los residuos (frente x, y o ŷ) para ver
si los supuestos del modelo lineal de regresión son adecuados o no.
Ejemplo 17. La recta de regresión para los cinco siguientes conjuntos de

datos es la misma:
y = 18,43 + 0,28 ∗ x
Tomado de: Bassett, E. et al (1986). Statistics: Problems and Solutions.

London: Edward Arnold

43
24 23 27
23 22
25
22 21
y
y
21 20 23
20 19
21
19 18
18 17 19
4 6 8 10 12 14 4 6 8 10 12 14 4 6 8 10 12 14
x x x
24 24
23
23
22
22
y
y
21
21
20
20
19
19 18
4 6 8 10 12 14 8 10 12 14 16 18 20
x x

44
El primer caso parece que la recta de regresión es adecuada.
En el segundo caso, hay una relación no lineal.
En el tercer gráfico, se ve la influencia de un dato atı́pico.
En el cuarto gráfico parece que la recta está más cerca a los datos cuando
x es más pequeño.
En el último caso, se ve el efecto de un punto influyente.
I Consideremos los gráficos de los residuos frente a las predicciones.

45
Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos
2 2 4,7
residuos
residuos
residuos
1 1 2,7
0 0 0,7
-1 -1 -1,3
-2 -2 -3,3
19 20 21 22 23 19 20 21 22 23 19 20 21 22 23
yhat yhat yhat
Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos

2,5 2
1,5
residuos
residuos
1
0,5
0
-0,5
-1
-1,5
-2,5 -2
19 20 21 22 23 20 21 22 23 24
yhat yhat

46
En el primer caso, los residuos parecen aleatorios. Es una buena indicación

de que el modelo de regresión se ajusta correctamente.
En el segundo caso, se ve una relación entre ŷ y los residuos. El modelo

lineal no se ajusta bien.
Cuando haya un dato atı́pico, se ve un residuo muy alto.
Los residuos son más pequeños cuando ŷ es pequeño.
Se ve el efecto del dato influyente.

47
Dos rectas de regresión

I Hasta ahora, hemos pensado en un modelo
y = α + βx + ε
sxy
y dada la muestra, hemos ajustado la recta y = a+bx con b = s2x
y a = ȳ −bx̄.
I Pero, podemos escribir el modelo de otra manera:

x = γ + δy + ν
donde δ = β1 , γ = − α
β y ν = − ε
β.
I Si usamos mı́nimos cuadrados para ajustar la recta x = c + dy a los datos

muestrales tendremos
sxy
d = 2 y c = x̄ − dȳ.
sy
Observamos que d 6= 1b .

48
Recta de regresión de y sobre x y Recta de regresión de x sobre y

14
12 (c + d yi, yi)
10 (xi, yi)
8
(xi, a + b xi)
2
0 1 2 3 4 5 6 7 8 9 10

49
Recta de regresión de x sobre y

10
(yi, c + d yi)
6
(yi,xi)
4
0
2 4 6 8 10 12 14
I (x, y) pasa a (y, x).

I Los errores se toman en horizontal, ri = xi − c − dyi.

50
Ejemplo 18. Volvemos al Ejemplo 8 sobre la extensión (y) obtenida con una
la fuerza (x) aplicada al muelle.
I Antes hemos visto que ajustando la recta y = a+bx por mı́nimos cuadrados,
se tiene
yb = 2,9 + 117x.
Por ejemplo, x = 0,2 Newton se predice que extiende al muelle en 26.3 mm.
I Ahora supongamos que queremos predecir la fuerza x que causarı́a una

extensión de y. Ajustando la recta por mı́nimos cuadrados, tenemos
x
b = ,0139 + ,0075y.
Por ejemplo, una extensión de y = 26,3 producirı́a una fuerza de 0,3365

Newton.

51
70
60
50
40
y
30
y=a+bx
x=c+dy
datos
20
10
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55
x
I Es importante saber cuales son las variables dependientes y cuales las

independientes.

52
Correlación y causalidad
I Si el coeficiente de correlación entre dos variables es alto, indica que

estas variables toman valores que están relacionadas entre si. Pero no permite
concluir una relación causal entre esas variables.
Ejemplo 19. El siguiente gráfico muestra el número de matrimonios en

Madrid y las temperaturas mensuales durante el año 1992. El coeficiente de
correlación es 0.67.
Plot of Matrimonios vs Temperatura
(X 1000)
5
No parece plausible que un aumen-
to de los matrimonios aumente la
4
temperatura.
Matrimonios
2
Ni que una ola de calor produzca
1 mayor nupcialidad.
0
0 5 10 15 20 25 30
Temperatura
Correlaciones espurias.

53
Recapitulación
Covarianza y correlación. W ¿Cómo cuantificar la

relación lineal entre
Propiedades. dos variables?
Regresión.
W Modelo lineal de Y
como función de X
Criterio de mı́nimos cuadrados.

54
Estadı́stica descriptiva
Introducción.
Tema 1. Análisis de datos univariantes.
Descripción de variables y datos
Tema 2. Análisis de datos bivariantes.
socioeconómicos
Tema 3. Correlación y regresión.
Tema 4. Series temporales y números índice.
Tema 1
W Análisis descriptivo de una o más variables
Tema 2
tomadas en un instante del tiempo.
Tema 3
W Análisis descriptivo de una variable

Tema 4
medida en varios instantes de tiempo.
⇑
Estudiar la evolución temporal de la variable

Ietema3 Este

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ietema3 Este

Cargado por

Copyright:

Formatos disponibles

1

Tema 2. Análisis de datos bivariantes

Extensión a dos variables

Tema 3. Correlación y regresión

Introducción a la Estadı́stica Andrés M. Alonso

Tema 3. Correlación y regresión

Los contenidos a desarrollar en este tema son los siguientes:

Propiedades y relación con el diagrama de dispersión.

Criterio de mı́nimos cuadrados.

Lecturas recomendadas: Capı́tulos 7 y 10 del libro de Peña y Romo (1997).

Introducción a la Estadı́stica Andrés M. Alonso

Ejemplo 1. En la Encuesta de Presupuestos Familiares realizada por el I.N.E.

I Se observa una relación positiva entre el ingreso total estimado y el gasto

Introducción a la Estadı́stica Andrés M. Alonso

Se ve en el Ejemplo 1 que existe una relación creciente y más o menos lineal

Definición 1. Para una muestra de n datos bivariantes

(x1, y1), . . . , (xn, yn)

la covarianza entre las dos variables es

I La covarianza es una medida de la fuerza de la relación lineal entre dos

Introducción a la Estadı́stica Andrés M. Alonso

Ejemplo 2. Con los datos del Ejemplo 1.

En primer lugar hallamos las medias de ambas variables:

¿x̄, ȳ y sxy si Pts ?

Introducción a la Estadı́stica Andrés M. Alonso

Otra manera de calcular la covarianza:

I El cálculo a través de este resultado es mucho más rápido, ya que no se

Introducción a la Estadı́stica Andrés M. Alonso

Introducción a la Estadı́stica Andrés M. Alonso

Ejemplo 2. Utilizando Statgraphics:

GTINE 1.81374E10 2.90159E10

Introducción a la Estadı́stica Andrés M. Alonso

Ejemplo 3. Se querı́a estudiar la concentración de ácido úrico en la leche

Introducción a la Estadı́stica Andrés M. Alonso

Calculamos ahora la covarianza entre x e y, y obtenemos:

I La covarianza es positiva si existe una relación (lineal) creciente y negativa

Introducción a la Estadı́stica Andrés M. Alonso

En este caso, se denomina cuasi-covarianza.

Ejemplo 3. Utilizando Statgraphics:

Concentracion AU -304.61 2012.57

Introducción a la Estadı́stica Andrés M. Alonso

Cálculo de la covarianza para datos agrupados

Dada una tabla de doble entrada,

Introducción a la Estadı́stica Andrés M. Alonso

Ejemplo 4. La siguiente tabla proporciona el número de veces (X) que una

Introducción a la Estadı́stica Andrés M. Alonso

I Si las unidades de la variable X son centı́metros y las unidades de la variable

Definición 2. Para una muestra bivariante (x1, y1), . . . , (xn, yn), la

donde sxy es la covarianza y sx y sy son las desviaciones tı́picas.

I La correlación es independiente de las unidades de las variables.

Introducción a la Estadı́stica Andrés M. Alonso

rxy = 1 si y sólo si existen constantes α y β > 0 donde yi = α + βxi para

rxy = −1 si y sólo si existen constantes α y β < 0 donde yi = α + βxi para

Si no existe ninguna relación entre las dos variables, la correlación es 0.

Introducción a la Estadı́stica Andrés M. Alonso

rxy = 0.046 rxy = 0.041

Introducción a la Estadı́stica Andrés M. Alonso

Ejemplo 5. Retomamos el Ejemplo 3 sobre la concentración de ácido úrico

Introducción a la Estadı́stica Andrés M. Alonso

Ejemplo 6. En el Ejemplo 4, calculamos la covarianza entre el número de

Introducción a la Estadı́stica Andrés M. Alonso

Si no existe ninguna relación entre las dos variables, la

Ejemplo 7. Los datos son 30 parejas de números aleatorios.

I La correlación es aproximadamente cero. Ejemplo en Excel

¿x̄, ȳ y sxy si Pts ?