Está en la página 1de 54

1

Introducción al Tema 3

Tema 2. Análisis de datos bivariantes


Representaciones y gráficos.
Resumen numérico.
• Relaciones entre variables.

Extensión a dos variables


cuantitativas

Tema 3. Correlación y regresión


Covarianza y correlación.
Propiedades y relación con el diagrama de
dispersión.
Regresión.

Introducción a la Estadı́stica Andrés M. Alonso


2

Tema 3. Correlación y regresión

Los contenidos a desarrollar en este tema son los siguientes:

Covarianza y correlación.

Propiedades y relación con el diagrama de dispersión.

Concepto de regresión.

Criterio de mı́nimos cuadrados.

Lecturas recomendadas: Capı́tulos 7 y 10 del libro de Peña y Romo (1997).


Secciones 12.1, 12.3 a 12.5 del libro de Newbold (2001).

Introducción a la Estadı́stica Andrés M. Alonso


3

Ejemplo 1. En la Encuesta de Presupuestos Familiares realizada por el I.N.E.


en 1974–1975, se registraba el ingreso total estimado (IT) y el gasto total
GTINE. Archivo hogares.sf3

Plot of GTINE vs IT
(X 100000)
10

6
GTINE

0
0 2 4 6 8
(X 100000)
IT

I Se observa una relación positiva entre el ingreso total estimado y el gasto


total de los hogares.

Introducción a la Estadı́stica Andrés M. Alonso


4

Covarianza

Se ve en el Ejemplo 1 que existe una relación creciente y más o menos lineal


entre el ingreso total y el gasto total de los hogares.

Definición 1. Para una muestra de n datos bivariantes

(x1, y1), . . . , (xn, yn)

la covarianza entre las dos variables es


n
1X
sxy = (xi − x̄)(yi − ȳ)
n i=1

1
Pn 1
Pn
donde x̄ = n i=1 xi e ȳ = n i=1 yi son las medias de ambas variables.

I La covarianza es una medida de la fuerza de la relación lineal entre dos


variables cuantitativas.

Introducción a la Estadı́stica Andrés M. Alonso


5

Ejemplo 2. Con los datos del Ejemplo 1.

En primer lugar hallamos las medias de ambas variables:


1
x̄ = (90000 + 62091 + . . . + 282000) = 236591,0
75
1
ȳ = (81861 + 105628 + . . . + 479791) = 261277,0
75
Luego calculamos la covarianza:
1
sxy = {(90000 − 236591,0)(81861 − 261277,0)+
75
(62091 − 236591,0)(105628 − 261277,0) + . . . +
(282000 − 236591,0)(479791 − 261277,0)} ≈ 1,8383e10

¿x̄, ȳ y sxy si Pts ?


I La covarianza es positiva, que implica una relación creciente entre x e y.

Introducción a la Estadı́stica Andrés M. Alonso


6

Otra manera de calcular la covarianza:


I Es ineficiente calcular la covarianza directamente a través de esta definición.
Se puede calcular la covarianza mediante la siguiente fórmula.
Teorema 1. !
n
1 X
sxy = xiyi − nx̄ȳ
n i=1

I El cálculo a través de este resultado es mucho más rápido, ya que no se


tiene que restar las medias de todos los datos.

Ejemplo 2.
1
sxy = 90000 × 81861 + 62091 × 105628 + . . . 282000 × 479791
75

−75 × 236591,0 × 261277,0 ≈ 1,8383e10

Introducción a la Estadı́stica Andrés M. Alonso


7

Demostración
n
1X
sxy = (xi − x̄)(yi − ȳ)
n i=1
n
!
1 X
= [xiyi − xiȳ − x̄yi + x̄ȳ]
n i=1
n n n n
!
1 X X X X
= xiyi − xiȳ − x̄yi + x̄ȳ
n i=1 i=1 i=1 i=1
n n n
!
1 X X X
= xiyi − ȳ xi − x̄ yi + nx̄ȳ
n i=1 i=1 i=1
n n n
!
1 X 1 X 1 X
= xiyi − nȳ xi − nx̄ yi + nx̄ȳ
n i=1
n i=1
n i=1
n
! n
!
1 X 1 X
= xiyi − nȳ x̄ − nx̄ȳ + nx̄ȳ = xiyi − nx̄ȳ .
n i=1
n i=1

Introducción a la Estadı́stica Andrés M. Alonso


8

Ejemplo 2. Utilizando Statgraphics:


IT GTINE
----------------------------------------------------
Count 75 75
Average 236591.0 261277.0
Variance 2.29468E10 2.90159E10
Standard deviation 151482.0 170341.0
----------------------------------------------------

Covariances
IT GTINE
----------------------------------------------------
IT 2.29468E10 1.81374E10
( 75) ( 75)

GTINE 1.81374E10 2.90159E10


( 75) ( 75)
----------------------------------------------------

Introducción a la Estadı́stica Andrés M. Alonso


9

Ejemplo 3. Se querı́a estudiar la concentración de ácido úrico en la leche


de una especie de vaca y se tomo una muestra de 14 vacas. Los datos son
producción de leche (x lt/dı́a) y concentración de ácido (y µmol/litro).
x 42,7 40,2 38,2 37,6 32,2 32,2 28,0
y 92 120 128 110 153 162 202
x 27,2 26,6 23,0 22,7 21,8 21,3 20,2
y 140 218 195 180 193 238 213
Diagrama de dispersión
240

210

180
y

150

120

90
20 24 28 32 36 40 44

Tiemeyer, Stohrer, W. y Giesecke, D. (1984). Metabolites of nucleic acids in bovine milk. J. Dairy Sci., 67, 723-728.

Introducción a la Estadı́stica Andrés M. Alonso


10

Calculamos ahora la covarianza entre x e y, y obtenemos:

1
x̄ = (42,7 + . . . + 20,2) ≈ 29,57
14
1
ȳ = (92 + . . . + 213) ≈ 167,43
14
14
X
xiyi = 42,7 × 92 + . . . + 20,2 × 213 = 65335,5
i=1
1
sxy = (65335,5 − 14 × 29,57 × 167,43) ≈ −282,7
14

I Vemos que existe una relación negativa entre las dos variables.

I La covarianza es positiva si existe una relación (lineal) creciente y negativa


si existe una relación decreciente.

Introducción a la Estadı́stica Andrés M. Alonso


11

Cuasi-covarianza
Igual que con la cuasi-varianza, en muchos casos, se utiliza un denominador
igual a n − 1, es decir n
1 X
scxy = (xi − x̄)(yi − ȳ).
n − 1 i=1

En este caso, se denomina cuasi-covarianza.

Ejemplo 3. Utilizando Statgraphics:


Produccion de leche Concentracion AU
------------------------------------------------------------
Produccion de leche 58.473 -304.61
( 14) ( 14)

Concentracion AU -304.61 2012.57


( 14) ( 14)
------------------------------------------------------------
I Es importante observar que en Statgraphics se emplea esta definición.

Introducción a la Estadı́stica Andrés M. Alonso


12

Cálculo de la covarianza para datos agrupados

Dada una tabla de doble entrada,


Y
y1 y2 ... yJ
x1 f11 f12 ... f1J f1•
x2 f21 f22 ... f2J f2•
X .. .. .. .. .. ..
xI fI1 fI2 ... fIJ fI•
f•1 f•2 ... f•J 1

PI
Calculamos la media de X: x̄ = i=1 fi• xi ,
PJ
Calculamos la media de Y : ȳ = j=1 f•j yj .
PI PJ
La covarianza se obtiene de: sxy = i=1 j=1 fij xi yj − x̄ȳ.

Introducción a la Estadı́stica Andrés M. Alonso


13

Ejemplo 4. La siguiente tabla proporciona el número de veces (X) que una


muestra de 50 estudiantes de Economı́a han tenido que repetir Introducción a
la Estadı́stica y el número de años que han tardado en acabar la licenciatura
(Y ).
Y
4 5 6 7
0 ,3 ,1 ,06 ,04 ,5
1 ,08 ,16 ,04 ,02 ,3
X 2 0 ,04 ,02 ,06 ,12
3 0 0 0 ,08 ,08
,38 ,3 ,12 ,2 1
Tenemos que x̄ = ,78 e ȳ = 5,14.
La covarianza es
XX
fij xiyj = 0 × 4 × ,3 + 0 × 5 × ,1 + . . . + 3 × 7 × ,08 = 4,66
i j
XX
sxy = fij xiyj − x̄ȳ = 4,66 − ,78 × 5,14 = 0,6508
i j

Introducción a la Estadı́stica Andrés M. Alonso


14

Correlación

I Si las unidades de la variable X son centı́metros y las unidades de la variable


Y son gramos, entonces las unidades de la covarianza son cm × g.
I Si cambiamos las unidades de las variables, cambia la covarianza. Recordemos
el ejemplo 2.
I Esto hace que el valor de la covarianza sea difı́cil de interpretar.

Definición 2. Para una muestra bivariante (x1, y1), . . . , (xn, yn), la


correlación entre las dos variables es
sxy sxy
rxy = =q ,
sxsy s2xs2y

donde sxy es la covarianza y sx y sy son las desviaciones tı́picas.

I La correlación es independiente de las unidades de las variables.

Introducción a la Estadı́stica Andrés M. Alonso


15

Propiedades de la correlación

−1 ≤ rxy ≤ 1.

rxy = 1 si y sólo si existen constantes α y β > 0 donde yi = α + βxi para


i = 1, . . . , n. Es decir que existe una relación lineal positiva exacta entre las
dos variables.

rxy = −1 si y sólo si existen constantes α y β < 0 donde yi = α + βxi para


i = 1, . . . , n. Es decir que existe una relación lineal negativa exacta entre
las dos variables.
• Si la correlación está cerca de 1 o −1, entonces hay una relación
aproximadamente lineal.

Si no existe ninguna relación entre las dos variables, la correlación es 0.

Introducción a la Estadı́stica Andrés M. Alonso


16

Ejemplos
rxy = 0.983 rxy = -0.978
1.4

1.2

2 1

0.8

0.6
1.5
0.4

0.2

1 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

rxy = 0.046 rxy = 0.041


0.35
1
0.3
0.8
0.25
0.6 0.2

0.4 0.15

0.1
0.2
0.05
0
0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

Introducción a la Estadı́stica Andrés M. Alonso


17

Ejemplo 5. Retomamos el Ejemplo 3 sobre la concentración de ácido úrico


en la leche vacuna.
I Hemos calculado las medias y la covarianza en el Ejemplo 3.
I Necesitamos las varianzas, desviaciones tı́picas y la correlación:
n
!
2 1 X 2
sx = xi − n × x̄2
n i=1
1 2 2 2

= 42,7 + . . . + 20,2 − 14 × 29,56
14
≈ 54,43 y análogamente,
s2y ≈ 1868,82.

−283,2
rxy = √ ≈ −0,89
54,43 × 1868,82
I Existe una relación negativa –aproximadamente lineal– entre las dos
variables.

Introducción a la Estadı́stica Andrés M. Alonso


18

Ejemplo 6. En el Ejemplo 4, calculamos la covarianza entre el número de


convocatorias agotadas de la asignatura “Introducción a la Estadı́stica” y el
número de años para terminar la licenciatura.
I Recordando que las desviaciones tı́picas son sx = 0,9442 y sy = 1,1315, la
correlación es
0,6508
rxy = ≈ 0,61.
0,9442 × 1,1315
I Hay una correlación positiva entre las dos variables.
Plot of Y vs X
7

6.5

5.5
Y

4.5

4
0 0.5 1 1.5 2 2.5 3

Introducción a la Estadı́stica Andrés M. Alonso


19

Si no existe ninguna relación entre las dos variables, la


correlación es 0.

Ejemplo 7. Los datos son 30 parejas de números aleatorios.


Correlación = -0.03
10

6
y

0
0 2 4 6 8 10

I La correlación es aproximadamente cero. Ejemplo en Excel

I El recı́proco no es cierto.

Introducción a la Estadı́stica Andrés M. Alonso


20

Correlación igual a 0 no implica ninguna relación

I Hemos visto que si hay una relación más o menos lineal, la correlación entre
las dos variables es bastante alta pero ¿qué pasa si hay una relación no lineal?
Correlación = 0.97 Correlación = 0
400 40

300 30

200 20
y

y
100 10

0 0
0 4 8 12 16 20 -6 -4 -2 0 2 4 6

x x

I En ambos gráficos se ha utilizado la fórmula y = x2 para generar los datos.


Esto es, existe una relación no lineal entre x e y.

Introducción a la Estadı́stica Andrés M. Alonso


21

Recta de Regresión

I Se han visto algunos ejemplos donde parece que haya una relación aprox-
imadamente lineal entre dos variables. Supongamos que queremos estimar la
relación entre las dos variables. ¿Cómo ajustamos una recta a los datos?

I Un modelo para representar una relación aproximadamente lineal es

y = α + βx + ε

donde ε es un error de predicción.

I En esta formulación: y es la variable dependiente cuyo valor depende del


valor de la variable independiente x.

Introducción a la Estadı́stica Andrés M. Alonso


22

Cálculo de la recta de regresión por mı́nimos cuadrados

I Dada una muestra de datos (x1, y1), . . . , (xn, yn) queremos obtener la recta
que se ajusta mejor a estos datos.
I Si ajustamos una recta y = a + bx a los datos de la muestra, entonces los
residuos o errores de predicción estimados son

ri = yi − (a + bxi) para i = 1, . . . , n.

I De alguna manera, la recta que se ajusta mejor es la que minimiza el error


total. Pero ¿cómo definimos el error total?

I Una elección es la suma de errores cuadrados


n
X n
X 2
S(a, b) = ri2 = (yi − (a + bxi)) .
i=1 i=1

Introducción a la Estadı́stica Andrés M. Alonso


23

Cálculo de la recta de regresión


14

13

12

11

10
(xi,yi)
9
r
i
8

7
(x , a + b x )
i i
6

3
0 1 2 3 4 5 6 7 8 9 10

ri = yi − (a + bxi) = yi − ybi.

Introducción a la Estadı́stica Andrés M. Alonso


24

Teorema 2. Para una muestra de datos bivariantes (x1, y1), . . . , (xn, yn),
la recta de
Pforma y = a + bx que minimiza la suma de errores cuadrados
n
S(a, b) = i=1(yi − a − bxi)2 cumple que

sxy
b =
s2x
a = ȳ − bx̄.

Demostración

Supongamos que ajustamos la recta y = a + bx. Queremos minimizar el valor


de S(a, b). Obtenemos los ceros de

∂S ∂S
= = 0.
∂a ∂b

Introducción a la Estadı́stica Andrés M. Alonso


25

n
∂S X
= −2 (yi − a − bxi) = −2 (nȳ − na − nbx̄) = 0
∂a i=1
a = ȳ − bx̄

n n n
!
∂S X X X
= −2 xi(yi − a − bxi) = −2 xiyi − xi(a + bxi) =0
∂b i=1 i=1 i=1
n
X n
X n
X
xiyi = xi(a + bxi) = xi(ȳ − bx̄ + bxi) sustituyendo por a
i=1 i=1 i=1
n
!
X
= nx̄ȳ + b x2i − nx̄2
i=1
Pn
i=1 xiyi − nx̄ȳ nsxy sxy
b = Pn 2 2
= 2
= 2.
i=1 xi − nx̄ nsx sx

Introducción a la Estadı́stica Andrés M. Alonso


26

Ejemplo 8. Se quiere probar la elasticidad de un muelle. Con este objetivo,


se sometió el muelle a varios niveles de fuerza (x Newtons) y se midió la
extensión total del muelle (y mm) en cada caso.

fuerza 0,1 0,1 0,2 0,2 0,3 0,3 0,4 0,4 0,5 0,5
extensión 18 11 25 22 35 50 54 45 52 68
Diagrama de dispersión de extension frente a fuerza
80

60
extension

40

20

0
0 0,1 0,2 0,3 0,4 0,5

fuerza

Introducción a la Estadı́stica Andrés M. Alonso


27

I El diagrama de dispersión sugiere que existe una relación casi lineal entre
fuerza y extensión. Para predecir la extensión del muelle en torno de la fuerza
aplicada, aplicamos el model de regresión

y = α + βx + ε

I Dados los datos de la muestra, hallamos la recta estimada por mı́nimos


cuadrados. Tenemos:

x̄ = 0,3
s2x = 0,02
ȳ = 38
s2y = 310,8
sxy = 2,34

Introducción a la Estadı́stica Andrés M. Alonso


28

I Calculamos la recta de mı́nimos cuadrados.


sxy 2,34
b = 2
= = 117
sx 0,02
a = ȳ − bx̄ = 38 − 117 × 0,3 = 2,9

I La recta ajustada es y = 2,9 + 117x.


La recta de regresión
80

60
extension

40

20

0
0 0,1 0,2 0,3 0,4 0,5

fuerza

Introducción a la Estadı́stica Andrés M. Alonso


29

Ejemplo 9. Volvemos a los datos sobre el ácido úrico en la leche de vacas


del Ejemplo 3.

I En el Ejemplo 3, obtuvimos que x̄ = 29,56, ȳ = 167,43 y sxy = −283,2 y


en el Ejemplo 5 que s2x = 54,43 y s2y = 1868,82.

I Luego, si queremos predecir la concentración de ácido úrico en la leche


(y) en términos de la cantidad de leche producida (x), la recta de mı́nimos
cuadrados es
y = a + bx
donde

−283,2
b = = −5,20
54,43
a = 167,43 − (−5,20) × 29,56
= 321,24

Introducción a la Estadı́stica Andrés M. Alonso


30

I Los resultados del análisis en Statgraphics son:

Regression Analysis - Linear model: Y = a + b*X


---------------------------------------------------------
Dependent variable: y Independent variable: x
---------------------------------------------------------

Parameter Estimate
--------------------------
Intercept 321,241
Slope -5,20265
--------------------------

Correlation Coefficient = -0,887889


R-squared = 78,8347 percent
Standard Error of Est. = 21,4817.

The equation of the fitted model is y = 321,241 - 5,20265*x

Introducción a la Estadı́stica Andrés M. Alonso


31

Recta de regresión ajustada


240

210

180
y

150

120

90
20 24 28 32 36 40 44

Introducción a la Estadı́stica Andrés M. Alonso


32

Predicción con la recta de regresión


I Habiendo ajustado una recta y = a + bx a los datos, podremos usarla para
predecir el valor de y teniendo el valor de x.

Ejemplo 10. En el Ejemplo an-


terior, supongamos que una vaca
produce x = 30 litros de leche
por dı́a.
¿Cuál estimamos es la concen-
tración de ácido úrico en la leche
de esta vaca?

Estimamos con

ŷ = 321,24 − (−5,20) × 30 ≈ 165,15 µmol/litro

Introducción a la Estadı́stica Andrés M. Alonso


33

Ejemplo 11. En el Ejemplo 8, predecimos que la extensión del muelle si se


aplica una fuerza de 0,4 Newtons es:

ŷ = 2,9 + 117 × 0,4 = 49,7mm.

¿Qué pasarı́a si ponemos una fuerza de 0?

I La extensión prevista por la recta de regresión en este caso es de 2,9 mm.

I No obstante el resultado no tiene sentido. Con fuerza 0, la extensión del


muelle debe ser cero.

I No es conveniente (arriesgado) hacer predicciones usando valores de x fuera


del rango de los datos observados.

Introducción a la Estadı́stica Andrés M. Alonso


34

Varianza residual
Definición 3. Dada una muestra de datos (x1, y1), . . . , (xn, yn) se ajusta la
s
recta de regresión por mı́nimos cuadrados, y = a+bx, con b = sxy 2 y a = ȳ−bx̄.
x
Se define la varianza residual como
2 1 Xn 2 1 Xn 2
sr = ri = (yi − (a + bxi)) .
n i=1 n i=1

Ejemplo 12. Calculamos los residuos en el Ejemplo 8.


y 18 11 25 22 35 50 54 45 52 68
y
b 14,6 14,6 26,3 26,3 38,0 38,0 49,7 49,7 61,4 61,4
r 3,4 −3,6 −1,3 −4,3 −3,0 12,0 4,3 −4,7 −9,4 6,6

1
r̄ = (3,4 + . . . + 6,6) = 0
10
1
s2r = 2 2

3,4 + . . . + 6,6 = 37,2
10

Introducción a la Estadı́stica Andrés M. Alonso


35

Existe una manera más rápido de hacer este cálculo:

I En primer lugar observamos que r̄ = 0 siempre si ajustamos la recta,


y = a + bx, por mı́nimos cuadrados:

Demostración
n
1X
r̄ = (yi − (a + bxi))
n i=1
n
1X
= (yi − (ȳ − bx̄ + bxi)) por definición de a
n i=1
n n
!
1 X X
= (yi − ȳ) − b (xi − x̄)
n i=1 i=1
= 0

Introducción a la Estadı́stica Andrés M. Alonso


36

I En segundo lugar, tenemos el siguiente resultado.


Teorema 3.
s2r s2y 2

= 1− rxy ,
donde rxy es el coeficiente de correlación.
Demostración
n n
2 1X 2 1X 2
sr = (yi − (a + bxi)) = (yi − (ȳ − bx̄ + bxi)) por definición de a
n i=1 n i=1
n
1X 2
= ((yi − ȳ) − b(xi − x̄)))
n i=1
n n n
!
1 X 2
X 2
X 2
= (yi − ȳ) − 2b (yi − ȳ)(xi − x̄)+ b (xi − x̄)
n i=1 i=1 i=1
 2
2 2 2 2 s xy s xy 2
= sy − 2bsxy + b sx = sy − 2 2 sxy + s x por definición de b
sx s2x
2 2
! 2!
sxy sxy

2 2 2 sxy 2

2

= sy − 2 = sy 1 − 2 2 = sy 1 − = sy 1 − rxy . 
sx sx sy sx s y

Introducción a la Estadı́stica Andrés M. Alonso


37

Introducción a la Estadı́stica Andrés M. Alonso


38

Ejemplo 13. Volviendo al Ejemplo 8, recordamos que s2x = 0,02, s2y = 310,8
y sxy = 2,34.
2,34
Luego, la correlación es rxy = √
0,2×310,8
≈ 0,939.

Entonces s2r 2
= 310,8 1 − 0,939 = 37,02 tal como calculamos anteriormente.

Ejemplo 14. En la salida de Statgraphics del Ejemplo 9 vemos que el


coeficiente de correlación es −0,88789 y tenı́amos que s2y = 1868,82.
2 2

Entonces, sr = 1868,82 1 − (−0,88789) ≈ 395,54

Introducción a la Estadı́stica Andrés M. Alonso


39

Otra manera de escribir el Teorema 3 es

s2r 2
2
= 1 − r xy .
sy

s2y es la varianza del error al predecir los valores de la variable y sin utilizar
los valores de x. yb = ȳ

s2r es la varianza del error al predecir los valores de la varianble y si usamos


la variable x. yb = a + bx

El porcentaje de reducción de la varianza original debido a la regresión es


2
rxy × 100 %.

Introducción a la Estadı́stica Andrés M. Alonso


40

Ejemplo 15. En el Ejemplo 13, se ve que el porcentaje de reducción en


varianza debido al conocimiento de los valores de la fuerza es de 0,9392 ×100 =
88,8 %.

Ejemplo 16. En el Ejemplo 9 se ve que el coeficiente de correlación es


−0,88789 y que el valor de R-squared es de un 78,8347 % = (−0,88789)2 ×
100 %.

Conociendo las cantidades de leche producidas por las vacas, se reduce la


varianza un 78,8347 %.

Introducción a la Estadı́stica Andrés M. Alonso


41

Otra relación entre correlación y regresión

Consideramos la fórmula para el pendiente de la recta de regresión. Tenemos:

sxy
b =
s2x
sy sxy sy sxy
= =
sy sxsx sx sxsy
sy
= rxy .
sx

I Si la correlación entre las dos variables es cero, también lo es la pendiente


de la recta.

I Además, el Teorema 3 nos demuestra que la reducción en la varianza de los


datos y debida a la regresión, en ese caso, es 0.

Introducción a la Estadı́stica Andrés M. Alonso


42

Análisis de los residuos

I Se pueden utilizar los residuos para ver si el modelo de regresión lineal es


adecuado.

I Casi siempre es útil hacer gráficos de los residuos (frente x, y o ŷ) para ver
si los supuestos del modelo lineal de regresión son adecuados o no.

Ejemplo 17. La recta de regresión para los cinco siguientes conjuntos de


datos es la misma:
y = 18,43 + 0,28 ∗ x

Tomado de: Bassett, E. et al (1986). Statistics: Problems and Solutions.


London: Edward Arnold

Introducción a la Estadı́stica Andrés M. Alonso


43

24 23 27

23 22
25
22 21
y

y
21 20 23

20 19
21
19 18

18 17 19
4 6 8 10 12 14 4 6 8 10 12 14 4 6 8 10 12 14

x x x

24 24

23
23

22
22
y

y
21
21
20

20
19

19 18
4 6 8 10 12 14 8 10 12 14 16 18 20

x x

Introducción a la Estadı́stica Andrés M. Alonso


44

El primer caso parece que la recta de regresión es adecuada.

En el segundo caso, hay una relación no lineal.

En el tercer gráfico, se ve la influencia de un dato atı́pico.

En el cuarto gráfico parece que la recta está más cerca a los datos cuando
x es más pequeño.

En el último caso, se ve el efecto de un punto influyente.

I Consideremos los gráficos de los residuos frente a las predicciones.

Introducción a la Estadı́stica Andrés M. Alonso


45

Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos
2 2 4,7
residuos

residuos

residuos
1 1 2,7

0 0 0,7

-1 -1 -1,3

-2 -2 -3,3
19 20 21 22 23 19 20 21 22 23 19 20 21 22 23

yhat yhat yhat

Gráfico de predicciones frente a residuos Gráfico de predicciones frente a residuos


2,5 2

1,5
residuos

residuos
1

0,5
0
-0,5

-1
-1,5

-2,5 -2
19 20 21 22 23 20 21 22 23 24

yhat yhat

Introducción a la Estadı́stica Andrés M. Alonso


46

En el primer caso, los residuos parecen aleatorios. Es una buena indicación


de que el modelo de regresión se ajusta correctamente.

En el segundo caso, se ve una relación entre ŷ y los residuos. El modelo


lineal no se ajusta bien.

Cuando haya un dato atı́pico, se ve un residuo muy alto.

Los residuos son más pequeños cuando ŷ es pequeño.

Se ve el efecto del dato influyente.

Introducción a la Estadı́stica Andrés M. Alonso


47

Dos rectas de regresión


I Hasta ahora, hemos pensado en un modelo
y = α + βx + ε
sxy
y dada la muestra, hemos ajustado la recta y = a+bx con b = s2x
y a = ȳ −bx̄.

I Pero, podemos escribir el modelo de otra manera:


x = γ + δy + ν

donde δ = β1 , γ = − α
β y ν = − ε
β.

I Si usamos mı́nimos cuadrados para ajustar la recta x = c + dy a los datos


muestrales tendremos
sxy
d = 2 y c = x̄ − dȳ.
sy

Observamos que d 6= 1b .

Introducción a la Estadı́stica Andrés M. Alonso


48

Recta de regresión de y sobre x y Recta de regresión de x sobre y


14

12 (c + d yi, yi)

10 (xi, yi)

8
(xi, a + b xi)

2
0 1 2 3 4 5 6 7 8 9 10

Introducción a la Estadı́stica Andrés M. Alonso


49

Recta de regresión de x sobre y


10

(yi, c + d yi)
6

(yi,xi)
4

0
2 4 6 8 10 12 14

I (x, y) pasa a (y, x).


I Los errores se toman en horizontal, ri = xi − c − dyi.

Introducción a la Estadı́stica Andrés M. Alonso


50

Ejemplo 18. Volvemos al Ejemplo 8 sobre la extensión (y) obtenida con una
la fuerza (x) aplicada al muelle.

I Antes hemos visto que ajustando la recta y = a+bx por mı́nimos cuadrados,
se tiene
yb = 2,9 + 117x.

Por ejemplo, x = 0,2 Newton se predice que extiende al muelle en 26.3 mm.

I Ahora supongamos que queremos predecir la fuerza x que causarı́a una


extensión de y. Ajustando la recta por mı́nimos cuadrados, tenemos

x
b = ,0139 + ,0075y.

Por ejemplo, una extensión de y = 26,3 producirı́a una fuerza de 0,3365


Newton.

Introducción a la Estadı́stica Andrés M. Alonso


51
70

60

50

40
y

30

y=a+bx
x=c+dy
datos
20

10
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55
x

I Es importante saber cuales son las variables dependientes y cuales las


independientes.

Introducción a la Estadı́stica Andrés M. Alonso


52

Correlación y causalidad

I Si el coeficiente de correlación entre dos variables es alto, indica que


estas variables toman valores que están relacionadas entre si. Pero no permite
concluir una relación causal entre esas variables.

Ejemplo 19. El siguiente gráfico muestra el número de matrimonios en


Madrid y las temperaturas mensuales durante el año 1992. El coeficiente de
correlación es 0.67.
Plot of Matrimonios vs Temperatura
(X 1000)
5
No parece plausible que un aumen-
to de los matrimonios aumente la
4
temperatura.
Matrimonios

2
Ni que una ola de calor produzca
1 mayor nupcialidad.
0
0 5 10 15 20 25 30

Temperatura
Correlaciones espurias.

Introducción a la Estadı́stica Andrés M. Alonso


53

Recapitulación

Tema 3. Correlación y regresión

Covarianza y correlación. W ¿Cómo cuantificar la


relación lineal entre
Propiedades. dos variables?

Regresión.
W Modelo lineal de Y
como función de X
Criterio de mı́nimos cuadrados.

Introducción a la Estadı́stica Andrés M. Alonso


54

Estadı́stica descriptiva
Introducción.
Tema 1. Análisis de datos univariantes.
Descripción de variables y datos
Tema 2. Análisis de datos bivariantes.
socioeconómicos
Tema 3. Correlación y regresión.
Tema 4. Series temporales y números índice.

Tema 1
W Análisis descriptivo de una o más variables
Tema 2
tomadas en un instante del tiempo.

Tema 3

W Análisis descriptivo de una variable


Tema 4
medida en varios instantes de tiempo.


Estudiar la evolución temporal de la variable

Introducción a la Estadı́stica Andrés M. Alonso

También podría gustarte