Está en la página 1de 41

Regresin y Correlacin

1.- El nmero de turistas (en millones) entrados en Espaa mensualmente durante los
aos 2001 y 2002 se expone en la siguiente estadstica.
N Turistas
2001

2,76

2,62

2,92

3,8

4,4

4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129

N Turistas
2002

2,89

2,63

3,2

3,19

4,52

4,77 8,91 9,99 5,95 4,35 2,87

3,7

4,7475 5,3203

a) Calcular en qu ao hubo mayor dispersin de turistas por mes.


b) Calcular la matriz de covarianzas.
c) Calcular el coeficiente de correlacin lineal entre los dos aos e interpretarlo.

2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qu edad


tuvieron su primer hijo. La informacin se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre).
Se pide:
x\y
18-22
22-26
26-30
30-34
34-38

17-21
5

21-25
2
3

25-29

29-33

33-37

9
4

1
6
6
3

10
7
4

a) Estimar mediante la recta de regresin, la edad del padre, si la madre tuvo una
edad de 25 aos.
b) Estimar mediante la recta de regresin la edad de la madre si el padre tuvo una
edad de 25 aos.
c) Calcular e interpretar el coeficiente de correlacin lineal (r) y el coeficiente de
determinacin (R2).
d) Representar el polgono de frecuencias absoluta y el polgono de frecuencias
absolutas acumuladas de la distribucin marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribucin marginal de las madres.
f) Qu media es ms representativa. Justificar la respuesta.

3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres


y sus hijos mayores.
Estatura x del padre

169 164

174

167 177 162

182 172

177 174 179

185

Estatura y del hijo

177 172

177

169 180 172

177 169

185 174 177

182

A)
B)
C)
D)
E)

Calcular Q1, Q3 y la mediana de las estaturas y de los hijos.


Explicar cul de las dos estaturas es ms dispersa.
Hallar e interpretar el coeficiente de correlacin lineal.
Calcular la recta de regresin de x sobre y. Varianza explicada y residual.
Qu estatura tendr el hijo mayor de un padre que mide 177 cm?

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 1

Regresin y Correlacin
4.- La tabla siguiente muestra cmo se distribuye las notas en Matemticas y Fsica de
25 estudiantes
X\Y
[20 a 26)
[26 a 32)
[32 a 38)
[38 a 44)
[44 a 50)
[14 a 20)
1
[20 a 26)
3
1
[26 a 32)
2
5
2
[32 a 38)
1
4
1
[38 a 44)
1
3
[44 a 50)
1
Sobre la distribucin marginal X (Matemticas) calcular:
a) La media, y la cuasivarianza.
b) Representar un diagrama de cajas y estudiar si existen puntos atpicos.
Sobre la distribucin marginal Y (Fsica) calcular:
c) La media, la varianza de la muestra.
d) Representar el histograma de frecuencias absolutas y el polgono de frecuencias
absolutas acumuladas.
Respecto de ambas variables
e) Hallar e interpretar el coeficiente de correlacin lineal.
f) Calcular el porcentaje de la variacin total de la variable nota de fsica que se
explica mediante la relacin con la variable nota de matemticas.
g) Hallar la recta de regresin que permite estimar la nota de fsica conocida la nota
de matemticas.

5.- De una variable estadstica bidimensional se conocen los siguientes datos:


x 140; y 90; N 12; x 3.5; y 2.2 y el coeficiente de correlacin lineal r =
0.9. Calcular:
A) La recta de regresin de y sobre x.
B) La recta de regresin de x sobre y.
C) El valor de x para un valor de y=7.
D) El punto de interseccin de las rectas de regresin.
E) Varianza residual.
F) Varianza explicada.
G) Coeficiente de determinacin.
H) Matriz de covarianzas.

6.- De un cierto estudio estadstico se sabe, que las rectas de regresin de la variable
4x 2y 1
2
estadstica (X,Y) son
y que la varianza marginal de la variable Y es y 1 .
5x 3y 1
Hallar: a) El coeficiente de correlacin lineal. b) Las medias marginales. c) La varianza
marginal de X ( 2x ).d) El valor estimado para y sabiendo que x=0.

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 2

Regresin y Correlacin
7.-Se han realizado 10 mediciones de distintas
distancias (x) y se ha estimado el correspondiente
error (y), cuyos resultados vienen reflejados en la
siguiente tabla de doble entrada: a) Hallar la
distancia media, el error medio. y las varianzas de
las variables distancias y errores. b) Hallar ambas
rectas de regresin, los coeficientes de regresin,
las pendientes de las rectas de regresin y el
coeficiente de correlacin lineal.

0.1

0.2

0.3

0.4

0.5

0.01

0.02

0.03

0.04

8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como
se indica en la siguiente tabla:
x
6
9
24
38
46
48
52
75
118
196
y
1,2
1,8
3,3
7,2
7
9,1
11
14,5
22,9
36,3
La variable x representa la velocidad media en cientos de km/s, y la variable y, la
distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 aos-luz, o sea, es la
distancia a la cual se ve el dimetro de la rbita terrestre bajo un ngulo de 1.
Determinar el coeficiente de correlacin lineal.
9.- Sea una parcela o porcin de terreno, en la cual se han tomado las coordenadas
relativas de los 12 puntos que se expresan en la tabla:
Estaca
X
Y
1

37

64

39

71

29

53

42

67

31

55

30

58

35

77

28

57

32

56

10

22

51

11

41

76

12

37

68

a) Hallar el intervalo X X . Qu tanto por ciento de valores en la variable X


quedan dentro de dicho intervalo?

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 3

Regresin y Correlacin
Siendo la distribucin conjunta (X, Y)
b) Calcular la matriz de covarianzas. c) El coeficiente correlacin lineal.
Interpretarlo d) La recta de regresin de Y sobre X. e) Varianza residual. f) El
coeficiente de determinacin. Interpretarlo.
10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificacin obtenida en
x 2y 1
Estadstica (Y) y como resultado obtenemos las rectas de regresin:
y que
5x 3y 1

la varianza marginal de la variable Y es 2y 1 . Se pide:


a) El coeficiente de correlacin lineal. b) Las medias marginales.c) La covarianza
d) Qu tiempo tiene que dedicar como mnimo para poder aprobar?

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 4

Regresin y Correlacin
1.- El nmero de turistas (en millones) entrados en Espaa mensualmente durante los
aos 2001 y 2002 se expone en la siguiente estadstica.

N Turistas
2001

2,76

2,62

2,92

3,8

4,4

4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 2,3266

N Turistas
2002

2,89

2,63

3,2

3,19

4,52

4,77 8,91 9,99 5,95 4,35 2,87

3,7

4,7475 2,3066

a) Calcular en qu ao hubo mayor dispersin de turistas por mes.


b) Calcular la matriz de covarianzas.
c) Calcular el coeficiente de correlacin lineal entre los dos aos e interpretarlo.
Solucin:

a)
CV(2001)

x 2, 3266

0, 49205 .
X 4, 7283

CV(2002)

y
Y

2,3066
0, 4850 .
4, 7475

La dispersin en el ao 2001 es un poco mayor.

b)

xy

x y n
i

XY

12611, 5
4, 7283 4, 7475 4, 7475
12

2
x
xy

xy 5, 4129 5,3438

2y 5,3438 5,3203

c)
rxy

xy
x y

5,3438
0,996 .La correlacin lineal es directa y casi perfecta
2,3266 2,32066

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 4

Regresin y Correlacin
2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qu edad
tuvieron su primer hijo. La informacin se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre). Se pide:
a) Estimar mediante la recta de regresin, la edad del padre, si la madre tuvo una edad
de 25 aos.
b) Estimar mediante la recta de regresin la edad de la madre si el padre tuvo una edad
de 25 aos.
c) Calcular e interpretar el coeficiente de correlacin lineal (r) y el coeficiente de
determinacin (R2).
d) Representar el polgono de frecuencias absoluta y el polgono de frecuencias absolutas
acumuladas de la distribucin marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribucin marginal de las madres.
f) Qu media es ms representativa. Justificar la respuesta.
x

Solucin:

y
18-22
22-26
26-30
30-34
34-38

17-21
5

x\y

19

23

20

24

21-25
2
3

27

31

25-29

29-33

33-37

9
4

1
6
6
3

10
7
4

35

ni.xi

ni.(xi-m)2

140

448

13

312

208

10

20

560

32

13

416

208

36

252

448

28

n.j

13

16

21

60

1680

1312

n.jyj

95

115

351

496

735

Y 29,87

X 28

2x =21,87

n.j(yj-m)2 590,78 235,98 107,08 20,43 552,65

f)

ni.

x 28
y 29,87

x 4,68
y 5,01

2y 25,12

CV(x)=0,17

CV(y)=0,17

Las dos medias, son igual de representativas, ya que, los coeficientes de variacin son iguales.

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 5

Regresin y Correlacin
x\y

19

27

31

5832

744

3024

5208

9800

32

5952

7840

36

3348

5040

20

23

1900

24

35

920
1656

28

1900

2576

8856

15252

22680

51264

covarianza 18,13
a) Recta de regresin de x sobre y: x X

x 28

2y

y Y

18,13
y 29,87 x 0,83y 3, 24 x 0,83 25 3, 24 24
21,87

b) Recta de regresin de y sobre x: y Y

y 29,87
c) rxy

xy

xy
x y

xy
2x

x X

18,13
x 28 y 0, 72x 9, 66 y 0, 72 25 9, 66 27, 7
25,12
0, 77 , por tanto, la relacin lineal es directa pero no demasiado buena.

R 2 0,6 , el ajuste no es demasiado bueno.


d) Polgonos de frecuencia, absoluta y absoluta acumulada de la distribucin marginal
padres.
25
20
15
10
5
0
16.

18 - 22 22 - 26 26 - 30 30 - 34 34 - 38

e) Mediana; M 29

40.

70
60
50
40
30
20
10
0
18.

22.

26.

30.

34.

38.

28
60
30, 75 Percentil 90; P90 33
35,86
16
21

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 6

Regresin y Correlacin
3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres
y sus hijos mayores.
Estatura x del padre

169 164

174

167 177 162

182 172

177 174 179

185

Estatura y del hijo

177 172

177

169 180 172

177 169

185 174 177

182

A)
B)
C)
D)
E)
Solucin:

A)

Calcular Q1, Q3 y la mediana de las estaturas y de los hijos.


Explicar cul de las dos estaturas es ms dispersa.
Hallar e interpretar el coeficiente de correlacin lineal.
Calcular la recta de regresin de x sobre y. Varianza explicada y residual.
Qu estatura tendr el hijo mayor de un padre que mide 177 cm?

Si ordenamos la variable y de menor a mayor


N
3 Q1 172 ;
169 172 174 177 180 182 185
4

ni

Ni

10

11

12

3N
9 Q3 177.5 ;
4
N
6 M 177
2

2082
547
173.5; 2x
45.5833
12
12

x X y Y
2

169

177

20,25

1.17506

29913

2111
270.917
175.916 . 2y
22.5764 .
12
12
4.7514
0.027
y 4.7514 CV(y)
175.916

164

172

90.25

15.3351

28208

174

177

0.25

1.17506

30798

167

169

42.25

47.8311

28223

B) La estatura de los padres es ms dispersa

177

180

12.25

16.6791

31860

162

172

132.25

15.3351

27864

182

177

72.25

1.17506

32214

172

169

2.25

47.8311

29068

177

185

12.25

82.5191

32745

174

174

0.25

3.67106

30276

179

177

30.25

1.17506

31683

185

182

132.25

37.0151

33670

2082 2111

547

x 6.7515

6.7515
CV(x)
0.0389
173.5

por tener su coeficiente de variacin mayor.

366522
xy
173.5 175.916 22.074 .
12
C) rxy

22.074
0.688 Directa
6.7515 4.7514

D) Recta de regresin de x sobre y:

x X xy2 y Y
y

x 173.5

xy

270.917 366522

22.074
(y 175.916)
22.5764

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 7

Regresin y Correlacin
x 0.978 y 1.499

La varianza explicada 2y R 2 22,5764 0, 6882 10.686


La varianza residual o no explicada 2r 2y (1 R 2 ) 22,5764 1 0, 6882 11.89

E) Recta de regresin de Y sobre X: y Y

y 175.916

xy
2x

x X

22.074
(x 173.5) y 0.484 x 91.897
45.5833

Si la estatura del padre es x=177 sustituyendo en la ecuacin anterior se obtiene y=177.56.

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 8

Regresin y Correlacin
4.- La tabla siguiente muestra cmo se distribuye las notas en Matemticas y Fsica de
25 estudiantes
X\Y
[20 a 26)
[26 a 32)
[32 a 38)
[38 a 44)
[44 a 50)
[14 a 20)
1
[20 a 26)
3
1
[26 a 32)
2
5
2
[32 a 38)
1
4
1
[38 a 44)
1
3
[44 a 50)
1
Sobre la distribucin marginal X (Matemticas) calcular:
a) La media, y la cuasivarianza.
b) Representar un diagrama de cajas y estudiar si existen puntos atpicos.
Sobre la distribucin marginal Y (Fsica) calcular:
c) La media, la varianza de la muestra.
d) Representar el histograma de frecuencias absolutas y el polgono de frecuencias
absolutas acumuladas.
Respecto de ambas variables
e) Hallar e interpretar el coeficiente de correlacin lineal.
f) Calcular el porcentaje de la variacin total de la variable nota de fsica que se explica
mediante la relacin con la variable nota de matemticas.
g) Hallar la recta de regresin que permite estimar la nota de fsica conocida la nota de
matemticas.
Solucin:
a) X
b)

791
1229,8
31,64 , S 2x
51,24
24
25

Q1 26.833 , Q 3 36,75 , 1.5 * IQR 14.875

Q1 1.5 *1QR 11,96 , Q 3 1.5 * IQR 51,625, M 31

11.96

14

50
51.62
26,8

c) Y

911
36, 44
25

2y

31

36.7

884.16
35,366
25

d)

20263238 44

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 9

Regresin y Correlacin
e)

rxy 0.7719

f) R 2 0.32198

32,198%

g) Recta de regresin de Y sobre X: y Y


y 36.44

U. D. de Matemticas de la ETSITGC

xy
2x

x X

32.198
( x 31.64)
49.19

Asignatura: CLCULO Y ESTADSTICA 10

Regresin y Correlacin
5.- De una variable estadstica bidimensional se conocen los siguientes datos:
x 140; y 90; N 12; x 3.5; y 2.2 y el coeficiente de correlacin lineal r =
0.9. Calcular: A) La recta de regresin de y sobre x. B) La recta de regresin de x sobre
y. C) El valor de x para un valor de y=7. D) El punto de interseccin de las rectas de
regresin. E) Varianza residual. F) varianza explicada. G) Coeficiente de determinacin.
H) Matriz de covarianzas
Solucin:

yi 90 15

xy
140 35
X

;Y

; rxy xy
0,9 xy 6,93
N
12
3
N
12 2
x y 3,5 2, 2
i

a) Recta de regresin de y sobre x: y Y

xy
2x

x X

15 6,93
35

x y 0,5657142857x 0, 9
y
2
2 3,5
3

b) Recta de regresin de x sobre y: x X

xy
2y

y Y

35 6,93
15

y x 1,431818181 y 0,928030303
x
2
3 2, 2
2

c) El valor de x se obtiene de la recta de regresin de x sobre y


x 1.431818181 y 0.928030303=1.431818181 7 0.928030303 10.95075757

d) El punto de interseccin corresponde al centro de gravedad:

X, Y 353 , 152
e) Depende de la recta de regresin
Para la recta de regresin de y sobre x
La varianza residual o no explicada 2r 2x (1 R 2 ) 3,52 1 0,92 2,3275
Para la recta de regresin de x sobre y
La varianza residual o no explicada 2r 2y (1 R 2 ) 2, 22 1 0,92 0,9196

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 11

Regresin y Correlacin
f)
La varianza explicada 2x R 2 3,52 0,92 9,9225
La varianza explicada 2y R 2 2, 22 0,92 3,9204

g)
R 2 r 2 0,92 0,81
Es bastante fiable, pues explica el 81% de la variacin entre las variables.

h)
2
x
xy

U. D. de Matemticas de la ETSITGC

xy 4,84 6,93

2y 6,93 12, 25

Asignatura: CLCULO Y ESTADSTICA 12

Regresin y Correlacin
6.- De un cierto estudio estadstico se sabe, que las rectas de regresin de la variable
4x 2y 1
2
estadstica (X,Y) son
y que la varianza marginal de la variable Y es y 1 .
5x 3y 1
Hallar: a) El coeficiente de correlacin lineal. b) Las medias marginales. c) La varianza
marginal de X ( 2x ). d) el valor estimado para y sabiendo que x=0.
Solucin:
Buscaremos los coeficientes de regresin despejando x e y:
1

y 2x

4x 2y 1
6
3
2
r 2 b xy b yx 2 1

5
5
5x 3y 1 x 1 3 y

5 5

Imposible!

Entonces
1 1

x y

4x 2y 1
1 5 5
4 2
r 2 b xy b yx 1

2 3 6
5x 3y 1 y 1 5 x

3 3
a)

r2

5
5
r
-0,9128709291
6
6

Correlacin inversa y muy fuerte


b)
1

4x 2y 1
2


1
5x 3y 1
Y

2
c)
b xy

xy

2
y

xy

3
1
1
1/ 2
5

xy b yx xy2 2 2x
10
1
2
2
x
x
3

d)
Debemos utilizar la recta de regresin de y sobre x para pode predecir el valor de y:
1
1 5
1 5
y x 0
3
3 3
3 3

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 13

Regresin y Correlacin
7.- Se han realizado 10 mediciones de distintas distancias (x) y se ha estimado el
correspondiente error (y), cuyos resultados vienen reflejados en la siguiente tabla de
doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las
variables distancias y errores. b) Hallar ambas rectas de regresin, los coeficientes de
regresin, las pendientes de las rectas de regresin y el coeficiente de correlacin lineal.
Solucin:
X\Y

0,1
3
1
0
0

0,01
0,02
0,03
0,04
n.j
Yjn.j

4
0,4

Yj2n.j

0,2
0
1
1
0

0,3
0
0
2
0

0,4
0
0
0
1

ni.
3
2
3
2

0,4

0,6

0,4

1
0,50

0,04
0,05

0,08
0,05

0,18
0,06

0,16
0,04

0,25
0,04

0,71
0,24

0,005

0,01

0,018

0,016

0,02

0,07

RESULTADOS:
X
m1

0,024

0,23

m2
2

0,0007

0,071

0,000124

0,0181

Xi2ni.
0,0003
0,0008
0,0027
0,0032

0,24

0,007

0,0069

xy

0,00138
0,92115

r
a) Distancia media

x n
i

10
2,3

Xini.
0,03
0,04
0,09
0,08

m11

m10 X

0,5
0
0
0
1

Error medio

0, 24

0, 024 ;
10

m01 Y

y n
i

2,3
0, 23
10

Varianzas:

2x m 20 X

2y m 02 Y

x n
2
i

y n
2
i

0, 007
0, 024 2 0, 000124
10

0, 71
0, 232 0, 0181
10

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 14

Regresin y Correlacin
Covarianza:

xy m11 XY

x y n
i

XY

0, 069
0, 024 0, 23 0, 00138
10

b) Rectas de regresin
Recta de regresin de y sobre x: y Y

y 0, 23

xy
2x

x X

0, 00138
x 0, 024 y 11,12903225x 0.03709677419
0, 000124

Recta de regresin de x sobre y: x X

x 0, 024

xy
2y

y Y

0, 00138
y 0, 23 x 0,07624309392 y 0.006464088397
0, 0181

Los coeficientes de regresin


b yx

b xy

xy
2x
xy
2y

11,12903225

0,07624309392

Las pendientes:
b yx tg 11.12903225 84 51'56''

b xy

1
0.07624309392 85 38 ' 24 ''
tg

El coeficiente de correlacin lineal:


r

b yx b xy

xy
x y

0,92115 Correlacin fuerte y directa

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 15

Regresin y Correlacin
8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como
se indica en la siguiente tabla:
x

24

38

46

48

52

75

118

196

1,2

1,8

3,3

7,2

9,1

11

14,5

22,9

36,3

La variable x representa la velocidad media en cientos de km/s, y la variable y, la


distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 aos-luz, o sea, es la
distancia a la cual se ve el dimetro de la rbita terrestre bajo un ngulo de 1.
Determinar el coeficiente de correlacin lineal.
Solucin:
2

y
x
y
x*y
x2
7,2
36
1,44
6
1,2
16,2
81
3,24
9
1,8
79,2
576
10,89
24
3,3
273,6
1444
51,84
38
7,2
322
2116
49
46
7
436,8
2304
82,81
48
9,1
572
2704
121
52
11
1087,5
5625
210,25
75
14,5
2702,2
13924
524,41
118
22,9
7114,8
38416
1317,69
196
36,3
12611,5
67226
2372,57
612
114,3
61,2
11,43
1261,15
6722,6
237,257
covarianza
561,634
2977,16
106,6121
0,1886476 5,268013668
coeficientes de regresin:

sumas
momentos

Medias:

x n
i

612

61, 2 ;
10

y n
i

114,3
11, 43
10

Varianzas:

2x m 20 X

2y m 02 Y

x n
2
i

y n
2
i

67226
61, 22 2977,16
10

2372, 57
11, 432 106, 6121
10

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 16

Regresin y Correlacin
Covarianza:

xy m11 XY

x y n
i

XY

12611,5
61, 2 11, 43 561, 634
10

Los coeficientes de regresin:


b yx

b xy

xy

2
x

xy

2
y

561, 634
0,1886476
2977,16

561, 634
5, 268013668
106, 6121

Coeficiente de correlacin lineal:


r b yx b xy 0,1886476 5, 268013668 0,996 .
La correlacin lineal es directa y casi perfecta

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 17

Regresin y Correlacin
9.- Sea una parcela o porcin de terreno, en la cual se han tomado las coordenadas
relativas de los 12 puntos que se expresan en la tabla:
Estaca

37

64

39

71

29

53

42

67

31

55

30

58

35

77

28

57

32

56

10

22

51

11

41

76

12

37

68

c) Hallar el intervalo X X . Qu tanto por ciento de valores en la variable X


quedan dentro de dicho intervalo?
Siendo la distribucin conjunta (X, Y)
d) Calcular la matriz de covarianzas. c) El coeficiente correlacin lineal.
Interpretarlo d) La recta de regresin de Y sobre X. e) Varianza residual. f) El
coeficiente de determinacin. Interpretarlo.
Solucin:

X
37
39
29
42
31
30
35
28
32

Y
64
71
53
67
55
58
77
57
56

U. D. de Matemticas de la ETSITGC

XY

X2

Y2

2368

1369

4096

2769

1521

5041

1537

841

2809

2814

1764

4489

1705

961

3025

1740

900

3364

2695

1225

5929

1596

784

3249

1792

1024

3136

Asignatura: CLCULO Y ESTADSTICA 18

Regresin y Correlacin
22
41
37

51
76
68

Sumas403

1122

484

2601

3116

1681

5776

2516

1369

4624

753

25770

13923

48139

a) X X
12

x
i 1

12

403
33,5833;
12

12

2x

x
i 1

2
i

13923
33,583332 32, 4097222
12

X X , X X 33.58333333 32.4097222 , 33.58333333 32, 4097222 27.89,39.276

Resultan 9 de los 12 valores de X

22 28 29 30 31 32 35

37

37

39

41

42

Tenemos el 75% de los valores


12

b) 2y

y
i 1

2
i

48139
62, 752 74, 0208333
12

12

xy

x y n
i 1

XY

25770
33,58333333 62, 75 40,1458333
12
2
x
xy

c) rxy

xy
x y

xy 32, 4097222 40,1458333


2y 40,1458333 74, 0208333

40,1458333
0,8196
32, 4097222 74, 0208333

por tanto, la relacin lineal es directa y buena


d) Recta de regresin de y sobre x: y Y

y 62, 75

xy
2x

x X

40,146
x 33,583 y 21,15 1, 2387x
32, 4097

e) La varianza residual o no explicada 2r 2y (1 R 2 ) 74, 0208 1 0,8196 2 49,729


f) R 2 0, 6718

67,18%

es el porcentaje de la variacin total de las y que se explica mediante la relacin con x


U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 19

Regresin y Correlacin
10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificacin obtenida en
x 2y 1
Estadstica (Y) y como resultado obtenemos las rectas de regresin:
y que
5x 3y 1

la varianza marginal de la variable Y es 2y 1 . Se pide:


a) El coeficiente de correlacin lineal. b) Las medias marginales.c) La covarianza
d) Qu tiempo tiene que dedicar como mnimo para poder aprobar?
Solucin:

a) Buscaremos los coeficientes de regresin despejando x e y:


1 1

y x

x 2y 1
3 1 3
2 2
r 2 b xy b yx 1

5 2 10
5x 3y 1 x 1 3 y

5 5
Entonces

r2

3
3
r
0,5477226<0,8
10
10

Correlacin directa y muy dbil. No se acepta el ajuste.

b)
1

x 2y 1
7


5x 3y 1
Y 4

c) b xy

xy

2
y

xy
1

6
3
3
3/5 1
xy b yx xy2 2 2x
5
x
x
5
5
2

d) No podemos predecir el valor de la Y.

U. D. de Matemticas de la ETSITGC

Asignatura: CLCULO Y ESTADSTICA 20

Coeficiente de variacin de Pearson


Es el cociente de la desviacin tpica y la media. CV

Es siempre positivo y no existe si la media vale cero.


Es frecuente expresarlo en tanto por ciento.
Es independiente de la unidad que se utilice, pues no tiene unidades y por
tanto nos permite comparar la dispersin de dos distribuciones que tengan unidades
diferentes, o que tengan medias muy distintas.

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

27

Matriz de covarianzas
Llamamos matriz de covarianzas, a la matriz cuadrada simtrica que tiene en
la diagonal principal las varianzas marginales, y fuera de la diagonal principal
S2x
las covarianzas, es decir
Syx
2x xy

2
xy y

Sxy
; que es simtrica, pues S xy S yx . O bien
S2y

Se llama varianza generalizada al valor S2xS2y S2xy 0 y mide


aproximadamente el rea ocupado por el conjunto de datos.

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

128

Coeficiente de correlacin lineal


Coeficiente de correlacin lineal es la media geomtrica de los coeficientes de
regresin byx y bxy.
r b yx b xy
2

xy xy
2x 2y

2xy
2x 2y

xy
x y

El coeficiente de correlacin lineal es un nmero abstracto y es independiente de


las unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las
varianzas son positivas, y comprendido entre -1 y +1.

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

27

http://www2.topografia.upm.es/...ero/Apuntes/Vademecum/Recta%20de%20regresi%f3n%20de%20y%20sobre%20x.JPG[26/02/2012 21:00:48]

Recta de regresin de x sobre y


Es el ajuste por mnimos cuadrados, a una recta.
x a by x X

xy
2y

(y Y) que es la ecuacin de la recta de regresin de x

sobre y. Esta recta permite calcular, aproximadamente, los valores de x dados


los de y.
Interpretacin geomtrica.
x Mv (x1 a by1 ) 2 ...... (x N a by N ) 2 e12 ...... e2N MNIMA
2

como

ei x i a byi x i x i

error

horizontal

distancia

horizontal

(x i terico)
y

yj

xi

x*
j

Una vez construidas las rectas de regresin, la pendiente de la de x sobre y es


mayor que la correspondiente a la recta de regresin de y sobre x.
x=a+by
,
,
y=a +b x

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

168

Coeficiente de determinacin
Es el porcentaje de varianza explicada por la recta de regresin y su valor siempre
estar entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlacin. Es
una medida de la proximidad o de ajuste de la recta de regresin a la nube de
puntos. Tambin se le denomina bondad del ajuste. 1-R2 nos indica qu porcentaje
de las variaciones no se explica a travs del modelo de regresin.

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

27

Polgono de frecuencias
Polgono de frecuencias de una variable discreta, sin agrupar: es una
lnea que se obtiene uniendo los extremos superiores de las barras en el
diagrama de barras.
frecuencia (absoluta o relativa)
16

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

14
12
10
8
6
4
2
0

Para variables estadsticas agrupadas en intervalos de clase.


El polgono de frecuencias es una lnea que se obtiene uniendo los puntos
medios de las bases superiores (los techos) de cada rectngulo en el
histograma. De forma que empiece y acabe sobre el eje de abscisas, en el punto
medio del que sera el intervalo anterior al primero y el ltimo
respectivamente.

xx x
0

k+1

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

158

Polgono de frecuencias acumuladas


Para variables estadsticas sin agrupar en intervalos de clase.
Representamos en el eje de abscisas los distintos valores de la variable
estadstica. Levantamos sobre cada uno de ellos un perpendicular cuya longitud
ser la frecuencia (absoluta, Ni, o relativa, Fi) acumulada correspondiente a ese
valor. De esta forma aparece un diagrama de barras creciente. Trazando
segmentos horizontales de cada extremo de barra a cortar la barra situada a su
derecha se obtiene el diagrama o polgono de frecuencias acumuladas.
40
35

Ni

30
25
20
15
10
5
0

xi

Para variables estadsticas agrupadas en intervalos de clase.


En el eje de abscisas representamos los distintos intervalos de clase de una
variable estadstica que han de estar naturalmente solapados. Sobre el extremo
superior de cada intervalo se levanta una lnea vertical de longitud equivalente
a la frecuencia (absoluta o relativa) acumulada del mismo. Se obtiene as un
diagrama de barras creciente, que uniendo sus extremos da lugar al polgono de
frecuencias acumuladas.
Alcanzar su mxima altura en el ltimo intervalo, que tendr de frecuencia N
1 segn se trate de frecuencias acumuladas absolutas o relativas.
N

Ni

e0 e1

ei

ei+1

ek

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

155

Distribucin marginal
Distribucin marginal de la variable "x" son los valores que toma dicha variable
con sus respectivas frecuencias en la distribucin conjunta de la variable
bidimensional (x,y)
x
ni..
x1
n1.
x2
n2.
....
....
xi
ni.
....
....
xr
nr.

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

63

Mediana
Mediana de un tringulo es el segmento que une un vrtice con el punto medio del lado
opuesto.
Mediana de un tringulo esfrico es el arco de circunferencia mxima que une un vrtice
con el punto medio del lado opuesto.
En Estadstica:
La mediana es el valor de la variable que ocupa el lugar central, es decir, que la mitad
de la poblacin es menor y la otra mitad es mayor que l.
La mediana es un valor M tal que F(M)=1/2, se define as como raz de una ecuacin.
Para las variables estadsticas se ordenan en forma creciente, dejando igual nmero
de observaciones inferiores que superiores a ella.
a) En las distribuciones sin agrupar, en general, no tiene solucin, puesto que la funcin F(x)
vara por saltos:
1) Si ningn valor posible x i corresponde a F( x i )=1/2 se conviene en considerar
1
como mediana el valor x i tal que: F( x i 1 ) F( x i )
2
1
2) Si uno de los valores xi corresponde a F( x i ) (lo que ocurre solamente si el
2
total N de la poblacin es par) la mediana est indeterminada entre los valores xi y xi+1. El
intervalo (xi, xi+1) se denomina mediano, o bien llamamos mediana al punto medio de
dicho intervalo.
b) En las agrupadas pueden darse dos casos:
INTERVALO
xi
ni
Ni
e0 -- e1
x1
n1
N1
e1 -- e2
x2
n2
N2
............
...
...
....
ej-2 ej-1
xj-1 Nj-1 Nj-1
ej-1 -- ej
xj
nj
Nj
............
...
...
...
ek-1 -- ek
xk
nk
N
N
1)
coincide con uno de los recogidos en la columna de frecuencias acumuladas,
2
por ejemplo Nj, en este caso la mediana es ej.
N
2)
est entre N j1 y N j . La mediana se encontrar en el intervalo ( e j1 , e j ) . La
2
mediana ser M e j1 h y por interpolacin lineal se obtiene h.
Amplitud del intervalo: a = e j e j-1
N
N
nj a
( N j 1 ) a
( N j1 ) a
h 2
M e j 1 2
N
nj
nj
N j1 h
2

Cuantiles
Cuantil de orden es un valor de la variable estadstica que deja a su izquierda
una parte de la poblacin y a la derecha una parte 1- de la poblacin.
El Cuantil de orden (0 1) es x tal que F( x )=. Siendo F la funcin de
distribucin o la frecuencia relativa acumulada.
Los ms utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda
1/4, 1/2 y 3/4 de la poblacin respectivamente.
Obsrvese que Q2 = M
(Mediana).
Los deciles D1, D2, ..... , D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la
poblacin respectivamente.
Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, .....
99/100 de la poblacin respectivamente.
El clculo de los mismos es similar al clculo de la mediana.

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

33

Varianza residual
La varianza residual se define como la varianza de los errores o residuos
Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la
varianza de Y por (1-r2), siendo r el coeficiente de correlacin lineal entre ambas
variables.
La varianza residual o no explicada 2r

1
(yi * y j )2 n ij 2y (1 r 2 )

n i, j

Siendo el valor ajustado o terico= yi *

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

168

Varianza explicada
En la recta de regresin de la Y sobre X la varianza total de la variable Y puede
descomponerse en dos partes una parte explicada por la regresin (la varianza de la
regresin) y otra parte no explicada (la varianza residual). La varianza explicada,
ser la obtenida por el producto de la varianza de Y por el coeficiente de
determinacin R2.

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

201

Media aritmtica
La media de una variable estadstica es la suma ponderada de los valores
k

i 1

i 1

n
N

posibles por sus respectivas frecuencias: X fi x i i x i

1 k
ni xi
N i 1

x i = valores que toma la variable o marca de clase.


fi = frecuencias relativas.
n i = frecuencias absolutas.

N = nmero total de la poblacin o muestra.


Relacin entre las medias armnica, geomtrica y aritmtica: H G X
La media o esperanza matemtica de una variable aleatoria es: m1 E x
E =

x P( X ) para una variable discreta y finita.


i

i 1

E =

x.f (x).dx cuando la variable es continua con funcin de

densidad f(x).
Media armnica
Medida de tendencia central de una variable estadstica es el cociente entre el
tamao de la muestra y la suma de los cocientes de las frecuencias por los
valores de las correspondientes de la variable: H

N
ni

i 1 x i
k

x i = valores que toma la variable o marca de clase.


fi = frecuencias relativas.
n i = frecuencias absolutas.

N = nmero total de la poblacin o muestra.


Relacin entre las medias armnica, geomtrica y aritmtica: H G X
Media cuadrtica
Medida de tendencia central de una variable estadstica es la raz cuadrada de
la suma ponderada de los cuadrados de los posibles valores de la variable
multiplicados por sus respectivas frecuencias:
MC

f x
i 1

2
i

ni

Nx
i 1

2
i

Media geomtrica
Medida de tendencia central de una variable estadstica que resulta de la raz nsima del producto de los valores posibles de la variable, elevados a a sus
respectivas frecuencias: G N x1n .x 2n ...x kn
x i = valores que toma la variable o marca de clase.
fi = frecuencias relativas.
n i = frecuencias absolutas.
N = nmero total de la poblacin o muestra.
Relacin entre las medias armnica, geomtrica y aritmtica: H G X
1

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

136

Varianza muestral o cuasivarianza


La varianza muestral viene dada por:
k

N
N
S2
2 , es decir: S2
N 1
N 1

( x i X) 2
i 1

(x

X) 2

i 1

N 1

Ntese que para N suficientemente grande la diferencia entre 2 y S2 es muy


pequea.

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

207

Diagrama de cajas o Box-plot


Se construye slo para variables cuantitativas.
Pasos a seguir:
Se dibuja un rectngulo cuyos extremos son Q1 y Q3 y se indica la posicin de la
mediana mediante una lnea vertical. Tambin se indica la media mediante una cruz
(+).
Se dibuja una lnea desde cada extremo del rectngulo hasta el valor ms alejado
no atpico.
Se calculan los lmites de admisin (barreras o bigotes)
LI =Q1 -1,5 (Q3- Q1)
LS =Q3 +1,5 (Q3- Q1)
Se marcan todos los datos considerados como atpicos (outliers) son los que
quedan fuera de los lmites de admisin se indican mediante un crculo. Existen
otros valores atpicos ms graves (atpicos extremos) que superen 3 veces el rango
intercuartilco y se representan por cruces (x).
Si no hubiese ningn dato atpico las barreras llegaran hasta el valor mnimo y
mximo.

Q1

Q2 = M

Q3

+
Q1-1,5(Q3-Q1)

Q3+1,5(Q3-Q1)

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

56

Histograma
En un histograma se representan las frecuencias de una variable estadstica
mediante reas. De tal forma que un histograma es un conjunto de rectngulos que
tienen como base los intervalos de clase y cuya superficie son las frecuencias
(absolutas o relativas). Por tanto las alturas son proporcionales a las frecuencias, y
ser el cociente entre la frecuencia y la amplitud del intervalo.
16
14
12
10
8
6
4
2
0
1

Donde cada rectngulo puede ser:


fi

ni
ai

ai
fi

ni

ei-1

ei

ei-1

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

ei

114

Varianza
Varianza o momento de segundo orden respecto de la media en una variable
estadstica es la media de los cuadrados de las desviaciones a la media:
k

2
i 1

( x i X) 2 n i
N

x i = valores de la variable o marcas de clase.

La varianza de una variable aleatoria es el momento de segundo orden respecto a


2
la media: 2 2 E x x

V =

x
i 1

x P(X i ) para una variable discreta y finita.

V = 2

x x .f (x).dx cuando la variable es continua con funcin de


2

densidad f(x).
Varianza explicada
En la recta de regresin de la Y sobre X la varianza total de la variable Y puede
descomponerse en dos partes una parte explicada por la regresin (la varianza de la
regresin) y otra parte no explicada (la varianza residual). La varianza explicada,
ser la obtenida por el producto de la varianza de Y por el coeficiente de
determinacin R2.
Varianza muestral o cuasivarianza
La varianza muestral viene dada por:
k

N
N
S2
2 , es decir: S2
N 1
N 1

( x i X) 2
i 1

(x

X) 2

i 1

N 1

Ntese que para N suficientemente grande la diferencia entre 2 y S2 es muy


pequea.
Varianza residual
La varianza residual se define como la varianza de los errores o residuos
Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la
varianza de Y por (1-r2), siendo r el coeficiente de correlacin lineal entre ambas
variables.
La varianza residual o no explicada 2r

1
(yi * y j )2 n ij 2y (1 r 2 )

n i, j

Siendo el valor ajustado o terico= yi *

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

207

Coeficiente de regresin
El coeficiente de regresin de la variable y con respecto a la variable x, es la
pendiente de la recta de y sobre x, por consiguiente, el sentido de crecimiento o
decrecimiento, as como el grado de variacin, viene determinado por el signo y el
valor del coeficiente de regresin b yx

xy
2x

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

27

Covarianza
xy recibe el nombre de covarianza, de gran importancia prctica, se define como

la media aritmtica de los productos de las desviaciones de la variable x con


respecto a su media aritmtica, X , por las desviaciones de la variable y con
respecto a la media aritmtica, Y .
r

xy
i 1 j1

(x i X)(y j Y)n ij
N

De la misma forma que en el caso de la varianza, se define la covarianza


muestral por:
r
s ( x X )( y Y ) n
N
i
j
ij
siendo S xy
xy .
S xy
N 1
N 1
i 1 j1

U.D. de Matemticas de la E.T.S.I. en Topografa, Geodesia y Cartografa

También podría gustarte