Está en la página 1de 79

Regresión y Correlación

1.- El número de turistas (en millones) entrados en España mensualmente durante los
años 2001 y 2002 se expone en la siguiente estadística.
Nº Turistas
2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129

Nº Turistas
2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 5,3203

a) Calcular en qué año hubo mayor dispersión de turistas por mes.


b) Calcular la matriz de covarianzas.
c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo.

2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad
tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre).
Se pide:
x\y 17-21 21-25 25-29 29-33 33-37
18-22 5 2
22-26 3 9 1
26-30 4 6 10
30-34 6 7
34-38 3 4
a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una
edad de 25 años.
b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una
edad de 25 años.
c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de
determinación (R2).
d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias
absolutas acumuladas de la distribución marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.
f) Qué media es más representativa. Justificar la respuesta.

3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres


y sus hijos mayores.
Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185

Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182
A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos.
B) Explicar cuál de las dos estaturas es más dispersa.
C) Hallar e interpretar el coeficiente de correlación lineal.
D) Calcular la recta de regresión de x sobre y. Varianza explicada y residual.
E) ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?

U. D. de Matemáticas de la ETSITGC
Regresión y Correlación

Asignatura: ESTADÍSTICA

4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de
25 estudiantes
X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50)
[14 a 20) 1
[20 a 26) 3 1
[26 a 32) 2 5 2
[32 a 38) 1 4 1
[38 a 44) 1 3
[44 a 50) 1
Sobre la distribución marginal X (Matemáticas) calcular:
a) La media, y la cuasivarianza.
b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.
Sobre la distribución marginal Y (Física) calcular:
c) La media, la varianza.
d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias
absolutas acumuladas.
Respecto de ambas variables
e) Hallar e interpretar el coeficiente de correlación lineal.
f) Calcular el porcentaje de la variación total de la variable nota de física que se
explica mediante la relación con la variable nota de matemáticas.
g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota
de matemáticas.

5.- De una variable estadística bidimensional se conocen los siguientes datos:

∑x =140; ∑y = 90; N =12; σ = x 3.5; σ =y 2.2 y el coeficiente de correlación lineal r =


0.9. Calcular:
A) La recta de regresión de y sobre x.
B) La recta de regresión de x sobre y.
C) El valor de x para un valor de y=7.
D) El punto de intersección de las rectas de regresión.
E) Varianza residual.
F) Varianza explicada.
G) Coeficiente de determinación.
H) Matriz de covarianzas.

6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable
4x + 2y =1 2
1. estadística (X,Y) son   y que la varianza
marginal de la variable Y es σ =y 5x +3y =1
Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza
marginal de X (σ2x ).d) El valor estimado para y sabiendo que x=0.

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

7.-Se han realizado 10 mediciones de distintas


distancias (Y) y se ha estimado el correspondiente
error (X), cuyos resultados vienen reflejados en la
siguiente tabla de doble entrada: a) Hallar la
distancia media, el error medio. y las varianzas de
las variables distancias y errores. b) Hallar ambas
rectas de regresión, los coeficientes de regresión,
0.02
las pendientes de las rectas de regresión y el
coeficiente de correlación lineal.

8.- Se han hallado la velocidad media y la


distancia a la Tierra de 10 nebulosas, tal como se indica en la siguiente tabla:
x 6 9 24 38 46 48 52 75 118 196
y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3
La variable x representa la velocidad media en cientos de km/s, y la variable y, la
distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la
distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’.
Determinar el coeficiente de correlación lineal.

9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas
relativas de los 12 puntos que se expresan en la tabla:
Estaca X Y
1 37 64
2 39 71
3 29 53
4 42 67
5 31 55
6 30 58
7 35 77
8 28 57
9 32 56
10 22 51
11 41 76
12 37 68

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
a) Hallar el intervalo X ±σX . ¿Qué tanto por ciento de valores
en la variable X quedan dentro de dicho intervalo?
Siendo la distribución conjunta (X, Y)
b) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal.
Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El
coeficiente de determinación. Interpretarlo.

10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en


− +x 2y 1=

Estadística (Y) y como resultado obtenemos las rectas de regresión:   y que −5x

3y+ = 1 la varianza marginal de la variable Y es σ =2y 1. Se pide:


a) El coeficiente de correlación lineal. b) Las medias marginales.c) La covarianza
d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?

11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza


electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta:
E 5 10 1.5 20 25 30
I -7 -2 1.0 4 10 12
Determinar:
a) La matriz de covarianzas.
b) El coeficiente de correlación lineal e interpretarlo.
c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál
será el valor estimado de la intensidad para una fuerza electromotriz de 20?

12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística
bidimensional (x,y).
x 5 4 3 2 1 0
y 6.2 5.6 3.4 2.3 1.9 1.2
a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es
lógico adoptar un ajuste lineal.
b) Calcular: b1) La matriz de covarianzas.
b2) El coeficiente de correlación lineal. Interpretarlo.
c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4.
d) Calcular d1) La varianza residual. d2La varianza explicada por el ajuste lineal.

13.- Los siguientes datos representan los resultados, notas, de una determinada
asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.

∑x = 96 ∑y = 64 ∑x y ⋅
i i i i = 492
iiii i

Se pide:

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
a) Estimar el modelo de regresión simple que relaciona los
resultados obtenidos con el número de horas dedicadas al estudio.
b) Calcular una medida de la bondad del ajuste e interpretar el resultado.
c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen?
d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para superar la
asignatura?

14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura
(en ºC) en la ciudad durante 5 días,
temperatura 34 25 32 37 39
cerveza 187 123 198 232 267
a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?
b) Hallar e interpretar el coeficiente de determinación.
c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).
d) Predecir la cantidad de cerveza que se vendería en este bar un día con una
temperatura de 35ºC.

15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los


neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14
resultando:
L: libras por pulg2
30 30 31 31 32 32 33

M : millas 29.5 30.2 32.1 34.5 36.3 35.0 38.2

L: libras por pulg2


33 34 34 35 35 36 36

M : millas 37.6 37.7 36.1 33.6 34.2 26.8 27.4


a) Hallar la matriz de covarianzas.
b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos.
c) Calcular la recta de regresión de L/M
d) Calcular la varianza residual

16.- Conocidas la media aritmética y la varianza de cada una de las variables asociadas a

una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se conoce, además, la
recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal
y la recta de regresión de X sobre Y.

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

17.-Sea la distribución conjunta de la variable x = “número de habitaciones de un piso”


con respecto a la variable y = “precio de alquiler en euros”.
x\y 0-500 500-1000 1000-1500
2 2 2 0
3 8 12 16
4 4 13 18
Se pide:
a) Distribuciones marginales de las variables x e y.
b) Moda y mediana de las variables x e y.
c) Centro de gravedad de la distribución conjunta.
d) Recta de regresión de x sobre y.
e) Coeficiente de correlación lineal.
f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso
dealquiler que podemos conseguir?

18.- A partir del diagrama de dispersión

Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c)


Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de
regresión sobre el diagrama de dispersión.

19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los
pesos y edades de los niños atendidos.
Peso Edad en años
en kilos 0 1 2 3 4
0–4 2
4–8 4 2 2
8 – 12 8 9 7
12 – 16 1 2 8 14
16 - 20 1
a) Obtener la mediana del peso en kilos.
b) ¿Qué distribución tiene mayor dispersión relativa?

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil
representa entre los niños de 2 años?
d) Hallar el sesgo de la distribución de peso en kilos.
e) Hallar el coeficiente de correlación lineal. Interpretarlo.
f) Si un niño tiene un año ¿cuál será su peso estimado?
g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá?

20.- Al probar un geodímetro se obtuvieron los siguientes resultados:


D (km) 8.7 3.7 6 3.3 5.1 6.1 2.7 4.9 3.1 3.7 5.7 4.9 5.6 7.6 4.2 2 4 6.5 7.2 2.7
∆ (cm) 7 3 4 3 4 4 3 4 4 2 6 5 3 4 3 2 2 5 6 2
Determinar el coeficiente de correlación lineal entre la distancia medida D y el error
medio en una vuelta ∆ e interpretarlo.

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

21.- Decir razonadamente si las ecuaciones 2x+y+1=0; 5x+3y+4=0 pueden corresponder


a las rectas de regresión de una distribución estadística bidimensional. En caso
afirmativo, determinar el coeficiente de correlación lineal.

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
1.- El número de turistas (en millones) entrados en España mensualmente durante los
años 2001 y 2002 se expone en la siguiente estadística.

Nº Turistas X σx
2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 2,3266

Nº Turistas
2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475

2,3066 a) Calcular en qué año hubo mayor dispersión de turistas por

mes.

b) Calcular la matriz de covarianzas.


c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo.
Solución:

a)

σx
0,4920
0,4850
CV(2001) = = 2,32665≈. CV(2002) =σy = 2,3066 ≈.
X 4,7283Y 4,7475

La dispersión en el año 2001 es un poco mayor.

b)

∑x y n ii i

σxy = i −XY = − ⋅ =
n

 σ2x σxy  5,412 5,3438


9
5,3203
Σ = σxy σ2y   =
5,343 
8

c)

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

directa y casi
rxy = σxy = 5,3438 ≈ σ 0,996 . La correlación lineal es
perfecta
σx y 2,3266
2,32066⋅

2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad
tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre). Se pide:
a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad
de 25 años.
b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad
de 25 años.
c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de
determinación (R2).
d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas
acumuladas de la distribución marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.
f) Qué media es más representativa. Justificar la respuesta.

x\y 19 23 27 31 35
ni. ni.xi
(x −X) n
i 2 i.

20 5 2 7 140 448

24 3 9 1 13 312 208

28 4 6 10 20 560 0

32 6 7 13 416 208

36 3 4 7 252 448

n.j 5 5 13 16 21 60 1680 1312

n.jyj 95 115 351 496 735 Y =29,87 X =28 σ2x =21,87

σ =2y 25,12
590,78 235,98 107,08 20,43 552,65

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
(y Y n − )
i 2.j

∑x y n i j ij = 20 19 5⋅⋅ + 20 23 2⋅ ⋅+ 24 23 3⋅⋅ + 24 27 9⋅ ⋅ + 24 31 4⋅ ⋅ + 28
27 4⋅ ⋅ + 28 31 6⋅ ⋅ +
i,j

+28 35 10⋅ ⋅+32 31 6⋅⋅+32 35 7⋅ ⋅+36 31 3⋅⋅ +36 35 4⋅ ⋅ = 51264

σxy = ∑i,j x y ni j ij −XY = 51264 − 


28 29,867⋅ =18,13
n 60

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
xy

a) Recta de regresión de x sobre y: x  X 2 y Y


y

x  0,722 25  6,4364 


x 28 y29,87  x  0,722 y 6,4364 24,5 

xy

b) Recta de regresión de y sobre x: y Y 2 x X


x

y  0,829 25  6,6472 


y29,87 x 28  y  0,829268 x 6,6472 27,38

xy 0,7
7
c) rxy   , por tanto, la relación lineal es directa pero no demasiado buena.
 x y

R2  0,6, el ajuste no es demasiado bueno.

d) Polígonos de frecuencia, absoluta y absoluta acumulada de la distribución marginal


“padres”.
25
70
20 60
15 50
40
10 30
5 20
10
0 0
16. 18 - 2222 - 2626 - 3030 - 3434 - 38 40. 18. 22. 26. 30. 34. 38.

30,75 35,86
e) Mediana; M 29  Percentil 90; P90   33 
0,1
x
7
f) X  28  x 21,87  4,68 CV(x)  
X

y 0,1
7
Y  29,87  y 25,12  5,01 CV(y)  
Y

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
Las dos medias, son igual de representativas, ya que, los coeficientes de variación son
iguales.

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres


y sus hijos mayores.
Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185

Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182

A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos.


B) Explicar cuál de las dos estaturas es más dispersa.
C) Hallar e interpretar el coeficiente de correlación lineal.
D) Calcular la recta de regresión de x sobre y. Varianza explicada y residual.
E) ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?
Solución:

A) Si ordenamos la variable y de menor a mayor


N Q1
y 169 172 174 177 180 182 185 = 3⇒ =172 ;

ni 2 2 1 4 1 1 1 Q3
=177.5
Ni 2 4 5 9 10 11 12
M
4
=177
3N
=9⇒ ;
4

N=6⇒
x y xy
2 (x −X) (y −Y)
2 2

2
547 45.5833 169 177 20,25 1.17506 29913
X ==173.5; σ =x =
164 172 90.25 15.3351 28208
12
174 177 0.25 1.17506 30798
6.7515
σ =x6.7515 CV(x) = = 0.0389 167 169 42.25 47.8311 28223
173.5 2
177 180 12.25 16.6791 31860

270.917 22.5764. 162 172 132.25 15.3351 27864

182 177 72.25 1.17506 32214


Y ==175.916. σ los padres es más =y
172 169 2.25 47.8311 29068
= dispersa
12 177 185 12.25 82.5191 32745

174 174 0.25 3.67106 30276


σ =y 4.7514 CV(y) = = 0.027
179 177 30.25 1.17506 31683

185 182 132.25 37.0151 33670


0.688 Directa
U. D. de Matemáticas de la ETSITGC 208 2111 Asignatura:
54 ESTADÍSTICA
270.91 36652
2 7 7 2
Regresión y Correlación

B) La estatura de por tener su coeficiente de variación mayor.

22.074
C) rxy = =
6.7515 4.7514⋅
D) Recta de regresión de x sobre y:
σxy

x − =X σ2y y−Y( )

x 173.5− = (y 175.916)−
x = 0.978y + 1.499

La varianza explicada σ ⋅2y R2 = 22,5764 0,688⋅ 2 ≈ 10.68


6
11.8
La varianza residual o no explicada σ = σ2r 2y (1−R )2 = 22,5764⋅(1−0,6882) ≈
9

σxy

E) Recta de regresión de Y sobre X: y−Y = 2 (x −X) σ x

y−175.916 = (x −173.5) ó y = 0.484x + 91.897


Si la estatura del padre es x=177 sustituyendo en la ecuación anterior se y=177.5
obtiene . 6

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de
25 estudiantes
X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50)
[14 a 20) 1
[20 a 26) 3 1
[26 a 32) 2 5 2
[32 a 38) 1 4 1
[38 a 44) 1 3
[44 a 50) 1
Sobre la distribución marginal X (Matemáticas) calcular: a)
La media, y la cuasivarianza.
b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.
Sobre la distribución marginal Y (Física) calcular:
c) La media, la varianza de la muestra.
d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias
absolutas acumuladas.
Respecto de ambas variables
e) Hallar e interpretar el coeficiente de correlación lineal.
f) Calcular el porcentaje de la variación total de la variable nota de física que se
explica mediante la relación con la variable nota de matemáticas.
g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota
de matemáticas.
Solución:

a) S2x = 1229,8
X = =,
31,64 = 51,24 24
b) Q1 = 26.833 , Q3 = 36,75 , 1.5*IQR =14.875

Q1 −1.5*1QR =11,96 , Q3 +1.5*IQR = 51,625, M = 31

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


14 50
11.96 51.62
26,8

c) Y =
911 2
36, 44 σ= Regresión
884.16
35,366 y Correlación
25 = y
25 =

20 26 32 38 44
d)

e) r xy  Correlación directa y aceptable


0,7719

f) 59,59 R2  0,5959
%

xy

g) Recta de regresión de Y sobre X: y Y  2 x X



x

y 36,44  (x 31,64)

y  0,654566745x 15,7

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

5.- De una variable estadística bidimensional se conocen los siguientes datos: x 140;
y  90; N 12;   3.5;   2.2 y el coeficiente de correlación lineal r =
x y

0.9. Calcular: A) La recta de regresión de y sobre x. B) La recta de regresión de x sobre


y. C) El valor de x para un valor de y=7. D) El punto de intersección de las rectas de
regresión. E) Varianza residual. F) varianza explicada. G) Coeficiente de
determinación.
H) Matriz de covarianzas
Solución:

x i 140 35 yi 90 15 xy xy


X  ;Y   ; rxy    0,9  xy  6,93
N 12 3 N 12 2  x y 3,5 2,2

xy

a) Recta de regresión de y sobre x: y Y  2 x X


x

 15 6,93 35 y  0,5657142857ꞏx 


y    2 x    0,9
 2  3,5  3

xy

b) Recta de regresión de x sobre y: x  X  2 y Y


y

 35 6,93 15 x 1,431818181 y 


x    2 y    0,928030303
 3  2,2  2

c) El valor de x se obtiene de la recta de regresión de x sobre y

x 1.431818181y  0.928030303=1.431818181 7 0.928030303 10.9507575 


7

d) El punto de intersección corresponde al centro de gravedad:

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

 35
X,Y 15
,
 
3 2
e) Depende de la recta de regresión
Para la recta de regresión de y sobre x

2,327
La varianza residual o no explicada   2r2x(1 R2) 3,52 10,92
5

Para la recta de regresión de x sobre y

La varianza residual o no explicada   2r 2


y (1 R )2 0,919  2,22
6
10,92 

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

f)

9,922
5
La varianza explicada σ ⋅2x R2 = 3,52 ⋅0,92 ≈

3,920
4
La varianza explicada σ ⋅2y R2 = 2,22 ⋅0,92 ≈

g)

0,8
1
R2 = r2 = 0,92 =

Es bastante fiable, pues explica el 81% de la variación entre las variables.

h)

4,8 6,93 
4 
 12,25
6,9
3 
 σ2x σxy 

Σ = σxy σ2y  = 

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable
4x + 2y =1
estadística (X,Y) son   y que la varianza marginal de la variable Y es σ =2y 1. 5x
+3y =1
Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza
marginal de X (σ2x ). d) el valor estimado para y sabiendo que x=0.
Solución:
Buscaremos los coeficientes de regresión despejando x e y:

54xx +32yy =11 ⇒ y = 112 −23x ⇒ r2 = bxy ⋅byx = −


53⋅ −( 2) = 65 >1 ¡Imposible! 
 + = x = − y 
 5 5

Entonces

+ =   4 2
54xx 32yy 11  ⇒  x = 11 −51 y ⇒ r2 = bxy ⋅byx =
   
− 12    ⋅ − 53  = 56 <1
 + = y = − x 
 3 3

a)

-
0,912870929
1
2
56 r =± 56 
r=⇒

Correlación inversa y muy fuerte b)

 1
=
 X 2
4x + 2y =1

5x +3y =1 ⇒ Y = − 1

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

 2

c)

3
σ =2x
10

bxy = σxy2 = σ1xy = − 12 ⇒ σxy = − 12 ⇒ byx = σσxy2x = −σ1/2x 2


= − 53 ⇒ σy

d)

Debemos utilizar la recta de regresión de y sobre x para pode predecir el valor de y:


1
3
1 5 1 5
y= − x= − 0=
3 3 3 3
7.- Se han realizado 10 mediciones de distintas distancias (Y) y se ha estimado el
correspondiente error (X), cuyos resultados vienen reflejados en la siguiente tabla de
doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las
variables distancias y errores. b) Hallar ambas rectas de regresión, los coeficientes de
regresión, las pendientes de las rectas de regresión y el coeficiente de correlación lineal.

Solución:
X\Y 0,1 0,2 0,3 0,4 0,5 ni. Xini. Xi2ni.
0,01 3 0 0 0 0 3 0,03 0,0003
0,02 1 1 0 0 0 2 0,04 0,0008
0,03 0 1 2 0 0 3 0,09 0,0027
0,04 0 0 0 1 1 2 0,08 0,0032
n.j 4 2 2 1 1 10 0,24 0,007
Yjn.j 0,4 0,4 0,6 0,4 0,50 2,3
Yj2n.j 0,04 0,08 0,18 0,16 0,25 0,71
0,05 0,05 0,06 0,04 0,04 0,24
0,005 0,01 0,018 0,016 0,02 0,07

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

RESULTADOS:
X Y
m 0,024 0,23
1
m 0,0007 0,071
2
2
σ 0,000124 0,0181
m11 0,0069
σ xy 0,00138
r 0,92115

a) Error medio Distancia media

0,02
4

0,23

m10 = X = ∑x ni i= 0,24 =; ∑yn i ii 2,3 im01 = Y = = =


n 10n 10

Varianzas:

0,00012
4

∑x n 2

2 m20 − ( )X 2 = i ni i − ( )X 2 = 0,00710 − 2

σ =x0,024 =

0,018
1

∑y n 2

σ =2 m02 − ( )Y 2 = i ni i − () 2 010,71 2

y Y = −0,23 =

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

Covarianza:

∑xyn
i
ii i XY = 0,069 −0,024 0,⋅ 23 = 0,00138
σxy = m11 −XY = −
n 10

b) Rectas de regresión

σxy

Recta de regresión de y sobre x: y−Y = 2 (x −X) σ x

y =11,12903225·x −
0.03709677419

(y−0,23) = (x −0,024) ⇒

σxy

Recta de regresión de x sobre y: x − =X σ2y y−Y ( )


x = 0,07624309392 y⋅
+0.006464088397

(x −0,024) = (y−0,23) ⇒

11,1290322
5

0,07624309392

Los coeficientes de regresión

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

σxy
byx = 2 =
σx

σxy
bxy = 2 =
σy

Las pendientes:

byx = α=tg 11.12903225⇒ α= 84º 51'56''


1 bxy = = 0.07624309392 ⇒ β= 85º 38'24''
tgβ

El coeficiente de correlación lineal:

0,9211
5
σxy r = ± byx ⋅bxy == Correlación fuerte y
directa
σ σxy
8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como se
indica en la siguiente tabla:
x 6 9 24 38 46 48 52 75 118 196

y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3

La variable x representa la velocidad media en cientos de km/s, y la variable y, la


distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la
distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’.
Determinar el coeficiente de correlación lineal.
Solución:

2
x y x*y x2 y
6 1,2 7,2 36 1,44
9 1,8 16,2 81 3,24
24 3,3 79,2 576 10,89
38 7,2 273,6 1444 51,84
46 7 322 2116 49

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

48 9,1 436,8 2304 82,81


52 11 572 2704 121
75 14,5 1087,5 5625 210,25
118 22,9 2702,2 13924 524,41
196 36,3 7114,8 38416 1317,69 sumas 612 114,3 12611,5 67226
2372,57 momentos 61,2 11,43 1261,15 6722,6 237,257 covarianza
561,634 2977,16 106,6121
coeficientes de regresión: 0,1886476 5,268013668

Medias:

∑x n ii 612 ∑y n ii 114,3
X=i = = 61, 2 ; n Y=i = = 11,43 n
10 10

Varianzas:

∑x n 2

2 i i 2 67226

σ =2x m20 − ( )X =i − ( )X= −61,22 = 2977,16


n 10

∑y n 2

σ =2y m02 − ( )Y 2 =i i i − ( )Y 2 =
2372,57 −11,432 = 106,6121 n 10

Covarianza:

i
i i i
XY
12611,5 ∑x y n σ xy = m11 −XY
=−= n 10 −61,2 11,⋅ 43 =
561,634

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

Los coeficientes de regresión: byx

= σσxy2x = 561,6342977,16 =

0,1886476

σxy

0,996
bxy = σ2y = = 5,268013668

0,996

Coeficiente de correlación lineal:

r =± byx ⋅bxy = 0,1886476 5,268013668 ≈ 0,996

La correlación lineal es directa y casi perfecta

9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas relativas
de los 12 puntos que se expresan en la tabla:
Estaca X Y

64

71

53
4 42 67
5 31 55
6 30 58
7 35 77
8 28 57

56
10 22 51
11 41 76
12 37 68

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

c) Hallar el intervalo X ±σX. ¿Qué


tanto por ciento de valores en la variable
X quedan dentro de dicho intervalo?
Siendo la distribución conjunta (X, Y)

d) Calcular la matriz de covarianzas.


c) El coeficiente correlación lineal.
Interpretarlo d) La recta de regresión de
Y sobre X. e) Varianza residual. f) El
coeficiente de determinación.
Interpretarlo.
Solución:
XY Y2
X Y X2
64 2368 1369 4096
37
39 71 2769 1521 5041

29 53 1537 841 2809


42 67 2814 1764 4489
31 55 1705 961 3025
30 58 1740 900 3364
35 77 2695 1225 5929
28 57 1596 784 3249

32 56 1792 1024 3136

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

a) X±σX
N

∑x i

X 33,5833;
N

∑x i2

σ =2x i 1= − = − 2 =
N

X −σX ,X +σX  = 33.58333333−32.4097222 , 33.58333333+32,4097222


=[27.89,39.276]

Resultan 9 de los 12 valores de X


22 28 29 30 31 32 35 37 37 39 41 42
Tenemos el 75% de los valores
12

2
∑ i 1=
yi2 () 2 48139 2

b) σ =y −Y = −62,75 = 74,0208333
N 12
12

∑ x y ni i i 25770 σxy = −XY = −33,58333333 62,⋅ 75 =


i 1=

40,1458333
N 12

σ2x σxy  32,4097222 40,1458333


 
Σ=σxyσ2y 74,0208333 =
 
40,1458333
σxy 40,1458333 0,819
c) rxy = = ≈ 6
σ σx y 32,4097222 74,0208333

por tanto, la relación lineal es directa y buena

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
σxy

(
d) Recta de regresión de y sobre x: y−Y = 2 x −X σx )
⇒ y =
(y−62,75) = (x −33,583) 21,15+1,2387x
e) La varianza residual o no explicada

24,2923

f) R2 = 0,6718 67,18
%
es el porcentaje de la variación total de las y que se explica mediante la relación con x

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en
 x 2y 1 
Estadística (Y) y como resultado obtenemos las rectas de regresión:  y que  5x
3y1

la varianza marginal de la variable Y es 2y 1. Se pide:

a) El coeficiente de correlación lineal. b) Las medias marginales. c) La covarianza

d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?
Solución:

a) Buscaremos los coeficientes de regresión despejando x e y:

 1 1
y  x
 x2y 1   2 2 2  3  1  3
   r  bxy byx       1
5x 3y 1 x   1  3 y  5  2  10
 5 5

Entonces

2
3 0,5477226<0,
3
r   r 10 7
10

Correlación directa y muy débil. No se acepta el ajuste.

b)

 1
X
 x2y 1   7
 
5x 3y 1 Y  4
 7

xy xy 3 3 xy 3/5 1 6


c) bxy  2     2x 
xy
5
byx  2  2  
y 1 5 5 x x 2

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

d) No podemos predecir el valor de la .


Y

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza


electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta:
E 5 10 1.5 20 25 30

I -7 -2 1.0 4 10 12

Determinar:
a) La matriz de covarianzas.
b) El coeficiente de correlación lineal e interpretarlo.
c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz.
¿Cuál será el valor estimado de la intensidad para una fuerza electromotriz de 20?

Solución:

∑E ∑I
La media para cada variable es: E = =15.25; I = i = 3 n
i

n
Para el cálculo de varianzas y covarianzas, podemos formar la tabla

E I
E−E I−I (E −E) (I−I)
(E E− ) (I I− )
2 2

5 -7 -10.25 -10 102.50 105.0625 100

10 -2 -5.25 -5 26.25 27.5625 25

1.5 1 -13.75 -2 27.50 189.0625 4

20.0 4 4.75 1 4.75 22.5625 1

25.0 10 9.75 +7 68.25 95.0625 49

30.0 12 14.75 +9 132.75 217.5625 81

SUMAS 91,5 18 0 0 362.00 656.8750 260

σ2 
a) 109.4791 60.3
Para obtener la matriz de covarianza aplicamos  E σEI 
b) Para   
σEI 2 =
rEI2
= σI   60.3 43.3
calcular el coeficiente de 0,767 correlación aplicamos la siguiente ecuación: r = EI

σEI
= 0.876 ⇒ , por tanto, la correlación es positiva (a mayor σ σE I
fuerza electromotriz mayor intensidad, además es buena el modelo explica el 76,7%

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

σxy

La recta de regresión de I/E es: I− =I 2 (E −E) ⇒ I = 0,5511E


σE −5,4042
c) Para un valor de E = 20 esperamos una intensidad de 0,5511·20 - 5.4042 = 5,6176

12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística
bidimensional (x,y).
x 5 4 3 2 1 0
y 6.2 5.6 3.4 2.3 1.9 1.2
a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es
lógico adoptar un ajuste lineal.
b) Calcular:
b1) La matriz de covarianzas.
b2) El coeficiente de correlación lineal. Interpretarlo.
c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x
= 4.
d) Calcular:
d1) La varianza residual.
,d2)La varianza explicada por el ajuste lineal.
Solución:

a) Los puntos parecen estar próximos a una


recta, por tanto, es lógico efectuar un ajuste
lineal.

b) En primer lugar calculamos las medias y varianzas marginales de la muestra, así como la
covarianza muestral.

 S2x Sxy   3.5 3.72


2.5; S 3.5 S 1.87; Y 
3.43; S
S S2y 4.19
xy 
=3
4.19; S 2.05; S 3.72 La .72  matriz de

covarianzas viene dada por:

Sxy 3.72
= = 0.97
El coeficiente de correlación lineal es rxy. La S·S 1.87·2.05≈ relación entre X

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

x y

e Y es muy buena, además nos indica que a mayor valor de la


variable X mayor valor correlación para la variable Y ().
c) La ecuación de la directa recta de Y sobre X es:
3.72
Sxy

(
y−Y = S2 x −
X
) ⇒ y−3.43 = 3.5 (x −2.5) ⇒ y = 0.77+1.06x
x

El valor estimado para “y” cuando x = 4 es y = 0.77 + 1.06·4 = 5.01


d) En la recta de Y/X la varianza residual o no explicada es
S2r = S (12y −R )2 = 4.19(1−0.94) ≈ 0.2
La varianza explicada es igual a la varianza total menos la varianza 4 no explicada.
Sexplicada2 = − =S2y Sr2 4.19−0.24 = 3.95, o bien
Sexplicada2 = S ·R2y 2 = 4.19·0.94 3.95

13.- Los siguientes datos representan los resultados, notas, de una
determinada asignatura (Y) y el número de horas de estudio semanales (X)
de 16 alumnos.

i i i i i

Se pide:
a) Estimar el modelo de regresión simple que relaciona los resultados
obtenidos con el número de horas dedicadas al estudio.
b) Calcule una medida de la bondad del ajuste e interprete el resultado.
c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el
examen?
d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para
superar la asignatura? Considerad que el 5 es el aprobado.

Solución:
a)
16 16

X =∑
i1
= xi = 96 =
∑y 64 4
i=1 i

6;Y = = = n 16 n
16 σ =2x− = 2 = n

σ =2y−
= − 2= n
16

∑ xyni i i
492
−XY =
i
σxy = −6 4⋅ =
6,75 n 16
La ecuación de la recta de Y sobre X es:

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

y− Y =x −X ⇒ y− y = x 4 = x −6 ⇒
−4
0,7302967433
b) rxy = σxy = 6,75 ≈ σ σx y 5,0625 16,875
por tanto, la relación lineal es directa y buena
c) Si x=8 horas, entonces y 84 4 6,6
= 3 ⋅− ≈
σxy

d) Recta de regresión de X sobre Y: x − =


X
2 (y−Y) e
y=5 σy
x =
x-6 = (5−4) ⇒ 6,4 horas

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

14.-La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura (en
ºC) en la ciudad durante 5 días,
temperatura
34 25 32 37 39
cerveza 187 123 198 232 267
a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?
b) Hallar e interpretar el coeficiente de determinación.
c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).
d) Predecir la cantidad de cerveza que se vendería en este bar un día con una
temperatura de 35ºC.
Solución:

x y X X Y Y 
xx yy   
2 2

34 187 0,36 207,36 -8,64

25 123 70,56 6146,56 658,56

32 198 1,96 11,56 4,76

37 232 12,96 936,36 110,16

39 267 31,36 4303,36 367,36

167 1007 117,2 11605,2 1132,2

x

 33,4 ; ; y   201,4;  2x  23,44;  2y 2321,04;

 xy  226,44  0 x e y son dependientes.


a) El coeficiente de correlación lineal es muy próximo a 1, luego existe correlación
directa

xy entre la
temperatura y los litros de cerveza vendidos. r   0,9708072925
 x y
2
94,25
 
%

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
2 xy 2

 
b) R    x y   0,9781  0,9424667991 se explica por el modelo.

c) En la recta de Y/X la varianza residual o no explicada es

  2r 2
y (1 R )2  133,5 2321,04(10,9425)
 2

d) Para predecir los litros de cerveza se utiliza la recta de regresión de y sobre x, es decir,

y  yb (xyx  x) 201,49,66041(3533,4)  216,85


7
15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los
neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14
resultando:

L: libras por 30 30 31 31 32 32 33
pulg2

29.5 30.2 32.1 34.5 36.3 35.0 38.2


M : millas

L: libras por 33 34 34 35 35 36 36
pulg2

37.6 37.7 36.1 33.6 34.2 26.8 27.4


M : millas
a) Hallar la matriz de covarianzas.
b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos.
c) Calcular la recta de regresión de L/M
d) Calcular la varianza residual
Solución:

 13.27 0.828
a)  2L 4;  2M 13.27 ;  LM  0.828  .
 
0.828 4 
 0.113
b) rL 7
M  la correlación lineal es mala y negativa como podemos
LM

observar en
 L M
el diagrama de dispersión.

0.012
9

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
Si ajustamos una recta R = , la proporción de varianza explicada por la recta es muy pequeño,
2

deberíamos intentar otro tipo de ajuste.

c) La ecuación de la recta pedida es


L = 0.2071ꞏM + 40.85

3.4
d) La varianza residual o no explicada es  r  1 R 2 2
5  2
.
L

y = ‐0,2071x + 40,35
Diagrama de dispersión
R² = 0,0129
50
40
30
Millas

20
10
0
28 30 32 34 36 38
Libras

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
16.- Conocidas la media aritmética y la varianza de cada una de las variables

asociadas a una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se


conoce, además, la recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente
de correlación lineal y la recta de regresión de X sobre Y.
Solución:

Al ser la recta de regresión de Y sobre X despejamos:

y = − 2 x + 4 ⇒ byx = σxy = σxy = − 2 ⇒ σxy = −4


3

-4 −0,5
1
rxy = σxy = 68 =− 3 ≈ correlación mala
σσx y 7

xy
σ

Recta de regresión de X sobre Y: x − =X 2 (y−Y) σ


y

x − =−3 (y − 2) ⇒ x= − y+
4

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
17.- Sea la distribución conjunta de la variable x = “número de habitaciones de un
piso” con respecto a la variable y = “precio de alquiler en euros”.
x\y 0-500 500-1000 1000- 1500
2 2 2 0
3 8 12 16
4 4 13 18
Se pide:
a) Distribuciones marginales de las variables x e y.
b) Moda y mediana de las variables x e y.
c) Centro de gravedad de la distribución conjunta.
d) Recta de regresión de x sobre y.
e) Coeficiente de correlación lineal.
f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso
de alquiler que podemos conseguir?
Solución:
x\y 250 750 1250 ni. xini. xi2ni.
2 2 2 0 4 8 16
3 8 12 16 36 108 324
4 4 13 18 35 140 560
n,j 14 27 34 75 256 900
yjn.j 3500 20250 42500 66250
yj2n.j 875000 15187500 53125000 69187500
xn i ij
44 92 120 256
11000 69000 150000 230000
i

yjxni ij
i

RESULTADOS:
x y
m1 3,413333333 883,3333333
m2 12,00000 922500
varianzas 0,34916 142222,22222
m11 3066,666667
covarianza 51,55555556
a) Distribución
r
marginal de x:
0,231356797
x ni,

2 4

3 36

4 35
Distribución marginal de y:

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


y 0-500 500-1000 1000-1500

n,j 14 27 34
Regresión y Correlación
b) Moda (x) = 3; x (1000, ni, Ni, Moda (y) =
Mediana (x) 1500)
La mediana de x es 3 2 4 4

3 36 40
Mediana (y)
4 35 75

y n,j N,j

0-500 14 14

500-1000 27 41

1000-1500 34 75
La mediana es el valor que deja a su izquierda el 50% de la población, es decir,
N 75
 37,514,41 que no se corresponde con un valor de la columna de frecuencias
2 2
absolutas acumuladas y por tanto hay interpolar en el intervalo (50,100),
N N a 75 14  500
 2  i1    
Me  ei1     500   2   935,185
ni 27

c) Centro de gravedad:
 256 66250   256 2650  3.41,883.
X,Y ,   ,  3
 75 75   75 3
xy

d) Recta de regresión de x sobre y: x  X  2 y Y


y

x y n ij ij

xy  i,j XY  230000  256 2650 51,56


N 75 75 3

2 yn i i2 i 2 691875  26502

 y   Y    142222,22
N 75 3

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación
256 51,56  2650

e) x  y   x  0.000036253125y+3,093125
75 142222,22 3 
xy 51,56
f) rxy    0,23, El ajuste es “malo” por ser un valor
 x y 0,3491 142222,2
próximo a cero,
g) se
N puede predecir.
o

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

18.-A partir del diagrama de dispersión

Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c)


Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de
regresión sobre el diagrama de dispersión.
Solución:
x y xy x2 y2
0 1 0 0 1
1 3 3 1 9
2 4 8 4 16
3 4 12 9 16
6 12 23 14 42

1 6 21 xi2 −X2 = 14 −1,52 =1,25 X = N xi


= 4 =1,5; σ =x N i4

Y = N1 ∑yj = 12 4 = 3; σ =2y N1 ∑j y2j −Y2 = 424 −32 =1,5


j

0,912870929
a) rxy = σxy = 1,25 ≈ Ajuste directo y muy bueno.
1
σ σx y 1,25 1,5
b) La recta de regresión de Y sobre X:
σxy
y= x +
y−Y = σ2x x − ( ) ⇒ y−3 =(x −1.5) ⇒
X
⇒ 1.5
c) La recta de regresión de x sobre y:
σxy
x= 5/6 y -
(
x −X = σ2y y−Y ⇒ x −1.5 ) =(y−3) ⇒ 1
⇒ 3/2

Para un valor de y=2 se obtiene x= (5/6) 3-1=


d)
U. D. de Matemáticas de la ETSITGC
Regresión y Correlación

Asignatura: ESTADÍSTICA

19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los
pesos y edades de los niños atendidos.

Peso Edad en años


en kilos 0 1 2 3 4
0–4 2
4–8 4 2 2
8 – 12 8 9 7
12 – 16 1 2 8 14
16 - 20 1
a) Obtener la mediana del peso en kilos.
b) ¿Qué distribución tiene mayor dispersión relativa?
c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños de
2 años?
d) Hallar el sesgo de la distribución de peso en kilos.
e) Hallar el coeficiente de correlación lineal. Interpretarlo.
f) Si un niño tiene un año ¿cuál será su peso estimado?
g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá?
Solución
x\y 0 1 2 3 4 ni. xini. xi2ni.

2 2 2 4 8

6 4 2 2 8 48 288

10 8 9 7 24 240 2400

14 1 2 8 14 25 350 4900

18 11 18 324

n.j 6 11 13 15 15 60 660 7920

yjn.j 0 11 26 45 60 142

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

yj2n.j 0 11 52 135 240 438

28 106 130 182 214

xiyjnij 0 106 260 546 856 1768

RESULTADOS:

X Y

m1 11 2,366667

m2 132 7,3

σ2 11 1,698889

CV 0,301511 0,550738

m11 29,46667

σxy 3,433333

r 0,794213

a) Para obtener la mediana de la variable x escribimos la distribución marginal de x:

x ni. Ni.

0–4 2 2

4–8 8 10

8 – 12 24 34

12– 16 25 59

16- 20 1 60

M=8+(30-10)*4/24=11,333
n/2=30;
b) Medias

; y yn

Varianzas

1 5 xnx
σ = n ∑ i 2 i. −
x2 2 = 7920 −112 =11;
60
i=1

5
1 ynj 2 438 142  2
−y
2 2
1,698889
σ =
y
∑ .j
 

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

= − = n j=1
60  60 

Coeficiente de variación

11 σy 1,698889 La edad de los


=σx = 11 ≈ 0,30 ; CVy() = y = 2,366667 ≈ 0,55 niños
x

CV x( ) . .
c) La distribución de frecuencias acumuladas para el total de 13 niños con 2 años es:
x ni N
i

0-4 0
4-8 2 2
8-12 9 11
12-16 2 13
Teniendo en cuenta que el peso de 10 kg es justamente la mitad del intervalo (8,12) le
corresponde la mitad de 9, es decir, la frecuencia absoluta acumulada es 2+9/2=6,5 sobre el
total de 13. Justamente el 50%. . Percentil 50 o
µ
mediana
3

d) Sesgo o coeficiente de asimetría g1 = 3 σ

x ni. (xi-media)3ni.

2 2 -1458

6 8 -1000

10 24 -24

14 25 675

18 1 343

sumatorio -1464

μ3 -24,4

g1 =. 24,4 Asimétrica por la


0,67 izquierda

σ3

∑xyn
i
ii i XY = 1768 −11⋅162 = 3,43
e) σxy = −
N 60 60 σ 3,43 rxy.
xy El ajuste es “bueno” y directo por ser un
= = 111,698889 ≈ 0, 79 valor
U. D. deσσxMatemáticas
y de la ETSITGC Asignatura: ESTADÍSTICA
Regresión y Correlación

superior a 0,7
f) La recta de regresión de x sobre y permite determinar los valores de x para valores
σxy conocidos

de y: x −X = 2 (y−Y) σ y

 162 
x −11= 1,6988893,43 y− 60 ⇒ x = 2,020907769·y +

6,21651131 
Para y=1 se obtiene un peso de x= 2,020907769 + 6,21651131 = 8,23741907
g) La recta de regresión dey sobre x permite determinar los valores de kg y para
valores
σxy conocidos

de x: y−Y = σ2x x −X ( )
162 3,43
x− = (x −11)⇒ y = 0,3121181818·x – 1,0663
60 11

Para x=10 se obtiene un peso de y = 0.3121181818·10 – 1,0663= 2,054545


años

20.- Al probar un geodímetro se obtuvieron los siguientes resultados:


D 8.7 3.7 6.0 3.3 5.1 6.1 2.7 4.9 3.1 3.7 5.7 4.9 5.6 7.6 4.2 2.0 4.0 6.5 7.2 2.7
(km)
∆ 7 3 4 3 4 4 3 4 4 2 6 5 3 4 3 2 2 5 6 2
(cm)
Determinar el coeficiente de correlación lineal entre la distancia medida D y el error
medio en una vuelta ∆ e interpretarlo.
Solución:
D ∆ (D-media)2 (∆-media)2 (∆-media) (D-media)
8,7 7 14,554225 10,24 12,208

3,7 3 1,404225 0,64 0,948

6 4 1,243225 0,04 0,223

3,3 3 2,512225 0,64 1,268

5,1 4 0,046225 0,04 0,043

6,1 4 1,476225 0,04 0,243

2,7 3 4,774225 0,64 1,748

4,9 4 0,000225 0,04 0,003

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

3,1 4 3,186225 0,04 -0,357

3,7 2 1,404225 3,24 2,133

5,7 6 0,664225 4,84 1,793

4,9 5 0,000225 1,44 0,018

5,6 3 0,511225 0,64 -0,572

7,6 4 7,371225 0,04 0,543

4,2 3 0,469225 0,64 0,548

2 2 8,323225 3,24 5,193

4 2 0,783225 3,24 1,593

6,5 5 2,608225 1,44 1,938

7,2 6 5,359225 4,84 5,093

2,7 2 4,774225 3,24 3,933

4,88 3,8 3,073275 1,96 1,927

1 2
1 (D −Di

) = 3,07
2

∑ ∑
D=N Di = 4,885; σD = N i

i
1 2
; σ= 1 2
∆= ∑ ∆= 3, 8 j ∆
∑ (∆−∆ ) =1, 96
j

Nj Nj

σD∆ = N ∑i xi −X ( )(y −Y) =1,927 r


i D∆ =

0,7
8
σD∆ = 1,927 ≈ Aceptable.

σ σD ∆ 3,07 1,96

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Regresión y Correlación

21.- Decir razonadamente si las ecuaciones 2x+y+1=0; 5x+3y+4=0 pueden corresponder


a las rectas de regresión de una distribución estadística bidimensional. En caso
afirmativo, determinar el coeficiente de correlación lineal.

Solución:

Buscaremos los coeficientes de regresión despejando x e y:

52x 3yx y++ + =+1 04 0= 


⇒  y = −253x −154 ⇒ r2 = byx ⋅bxy =

−( 2)⋅ − 53 = 56 >1 ¡Imposible! x = − y−

Entonces

x 1 1

52xx++3yy+ =+14 =00 ⇒ = −52 y− 42 ⇒ r2 = bxy ⋅byx = − 12 


  ⋅ − 53 = 65 <1
 
y=− x−
 3 3

-
2
5 r =± 5 ≈0,912870929
r=⇒ 1
6 6

Correlación perfecta e inversa.

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA


Coeficiente de variación de Pearson


Es el cociente de la desviación típica y la media. CV 
X
Es siempre positivo y no existe si la media vale cero.
Es frecuente expresarlo en tanto por ciento.
Es independiente de la unidad que se utilice, pues no tiene unidades y por tanto nos
permite comparar la dispersión de dos distribuciones que tengan unidades
diferentes, o que tengan medias muy distintas.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


27
Matriz de covarianzas

Llamamos matriz de covarianzas, a la matriz cuadrada simétrica que tiene en


la diagonal principal las varianzas marginales, y fuera de la diagonal principal
 S S xy 
las covarianzas, es decir  S yx
2x
S 2y ; que es simétrica, pues S Sxy  yx.
O bien 
2xxy2 

xy y 

Se llama varianza generalizada al valor   S S2x 2y  S2xy 0 y mide aproximadamente


el área ocupado por el conjunto de datos.
U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 128
Coeficiente de correlación lineal

Coeficiente de correlación lineal es la media geométrica de los coeficientes de


regresión byx y bxy.
2


r2  b byxxy xy2 xy2  2xy2  r xy
x y  x y  xy
El coeficiente de correlación lineal es un número abstracto y es independiente de
las unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las
varianzas son positivas, y comprendido entre -1 y +1.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


27
http://www2.topografia.upm.es/...ero/Apuntes/Vademecum/Recta%20de%20regresi%f3n%20de%20y%20sobre%20x.JPG[26/02/2012 21:00:48]
Recta de regresión de x sobre y

Es el ajuste por mínimos cuadrados, a una recta.


xy x     a by x X 2 (yY) que es la ecuación

de la recta de regresión de x sobre y. y


Esta recta permite calcular, aproximadamente, los valores de x dados los de y.
Interpretación geométrica.
2 2 2 2
2

x Mv  (x1 a by )1 ......(xN  aby )N  e1...... eN MÍNIMA


como ei   xia byi   xi xi error horizontal o distancia
horizontal (xi  teórico)
y

yj

xi x*j x

Recta de regresión de y sobre x

Es el ajuste por mínimos cuadrados, a una recta.


xy y     a bx y Y 2 (x X) que es la ecuación

de la recta de regresión de y sobre x. x


Esta recta permite calcular, aproximadamente, los valores de y dados los de x.
Interpretación geométrica.
2 2 2 2
2

y Mv  (y1 a bx )1 ......(yN  abx )N  e1...... eN MÍNIMA


como ei   yia bxi  yi  yi error vertical o distancia vertical (yi  teórico)

y=a+bx

y*i ei
yi

xi

Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor que la
correspondiente a la recta de regresión de y sobre x.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


149
Coeficiente de determinación

Es el porcentaje de varianza explicada por la recta de regresión y su valor siempre


estará entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlación. Es
una medida de la proximidad o de ajuste de la recta de regresión a la nube de
puntos. También se le denomina bondad del ajuste. 1-R 2 nos indica qué porcentaje
de las variaciones no se explica a través del modelo de regresión.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


27
Polígono de frecuencias

• Polígono de frecuencias de una variable discreta, sin agrupar: es una línea


que se obtiene uniendo los extremos superiores de las barras en el
diagrama de barras. frecuencia (absoluta o relativa)
16 1
14 0,9
0,8
12
0,7
10 0,6
8 0,5
6 0,4
0,3
4
0,2
2 0,1
0 0

• Para variables estadísticas agrupadas en intervalos de clase.


El polígono de frecuencias es una línea que se obtiene uniendo los puntos
medios de las bases superiores (los techos) de cada rectángulo en el
histograma. De forma que empiece y acabe sobre el eje de abscisas, en el punto
medio del que sería el intervalo anterior al primero y el último respectivamente.

xxx x xx
0 1 i k k+1

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


158
Polígono de frecuencias acumuladas

• Para variables estadísticas sin agrupar en intervalos de clase.


Representamos en el eje de abscisas los distintos valores de la variable
estadística. Levantamos sobre cada uno de ellos un perpendicular cuya longitud
será la frecuencia (absoluta, Ni, o relativa, Fi) acumulada correspondiente a ese
valor. De esta forma aparece un diagrama de barras creciente. Trazando
segmentos horizontales de cada extremo de barra a cortar la barra situada a su
derecha se obtiene el diagrama o polígono de frecuencias acumuladas.
40 Ni
35

30

25

20

15

10

0
xi

• Para variables estadísticas agrupadas en intervalos de clase.


En el eje de abscisas representamos los distintos intervalos de clase de una
variable estadística que han de estar naturalmente solapados. Sobre el extremo
superior de cada intervalo se levanta una línea vertical de longitud equivalente
a la frecuencia (absoluta o relativa) acumulada del mismo. Se obtiene así un
diagrama de barras creciente, que uniendo sus extremos da lugar al polígono de
frecuencias acumuladas.

Alcanzará su máxima altura en el último intervalo, que tendrá de frecuencia N ó


1 según se trate de frecuencias acumuladas absolutas o relativas.
N

Ni

e0 e1 ei ei+1 ek

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


155
Distribución marginal

Distribución marginal de la variable "x" son los valores que toma dicha variable
con sus respectivas frecuencias en la distribución conjunta de la variable
bidimensional (x,y)
x ni..
x1 n1.
x2 n2.
.... ....
xi ni.
.... ....
xr nr.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


63

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


Mediana

Mediana de un triángulo es el segmento que une un vértice con el punto medio del lado
opuesto.

Mediana de un triángulo esférico es el arco de circunferencia máxima que une un vértice


con el punto medio del lado opuesto.

En Estadística:
La mediana es el valor de la variable que ocupa el lugar central, es decir, que la mitad de
la población es menor y la otra mitad es mayor que él.

La mediana es un valor M tal que F(M)=1/2, se define así como raíz de una ecuación.

 Para las variables estadísticas se ordenan en forma creciente, dejando igual número de
observaciones inferiores que superiores a ella.
a) En las distribuciones sin agrupar, en general, no tiene solución, puesto que la función F(x)
varía por saltos:
1) Si ningún valor posible xi corresponde a F(xi )=1/2 se conviene en considerar como mediana

el valor xi tal que: F x( i1)   F x( i )

2) Si uno de los valores xi corresponde a F x( i )  (lo que ocurre solamente si el total N de la


población es par) la mediana está indeterminada entre los valores xi y xi+1. El intervalo (xi,
xi+1) se denomina mediano, o bien llamamos mediana al punto medio de dicho intervalo.
b) En las agrupadas pueden darse dos casos:
INTERVALO xi ni Ni
e0 -- e1 x1 n1 N1
e1 -- e2 x2 n2 N2
............ ... ... ....
ej-2 – ej-1 xj-1 Nj-1 Nj-1
ej-1 -- ej xj nj Nj
............ ... ... ...
ek-1 -- ek xk nk N
N
1) coincide con uno de los recogidos en la columna de frecuencias acumuladas,
2
por ejemplo Nj, en este caso la mediana es ej.
N
2) está entre N j1 y N j. La mediana se encontrará en el intervalo (ej1,ej). La 2
mediana será M  ej1  h y por interpolación lineal se obtiene h.
Amplitud del intervalo: a = ej  ej-1

n j a (N  N j1)a (N  N j1)a
N  Nj 1  h  h2 nj  M e j1  2 nj

Cuantiles

Cuantil de orden  es un valor de la variable estadística que deja a su izquierda una


parte  de la población y a la derecha una parte 1-  de la población.

El Cuantil de orden  (0    1) es x tal que F(x)=. Siendo F la función de


distribución o la frecuencia relativa acumulada.

Los más utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda
1/4, 1/2 y 3/4 de la población respectivamente. Obsérvese que Q2 = M
(Mediana).

Los deciles D1, D2, ..... , D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la
población respectivamente.

Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, .....
99/100 de la población respectivamente.

El cálculo de los mismos es similar al cálculo de la mediana.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


33
Varianza residual

La varianza residual se define como la varianza de los errores o residuos


Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la
varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas
variables.

1
La varianza residual o no explicada 2r  n 
i,j (y * y ) ni  j 2
ij 
2y(1 r2)

Siendo el valor ajustado o teórico=y *i

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


168
Varianza explicada

En la recta de regresión de la Y sobre X la varianza total de la variable Y puede


descomponerse en dos partes una parte explicada por la regresión (la varianza de la
regresión) y otra parte no explicada (la varianza residual). La varianza explicada,
será la obtenida por el producto de la varianza de Y por el coeficiente de
determinación R2.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


201
Media aritmética
La media de una variable estadística es la suma ponderada de los valores


posibles por sus respectivas frecuencias: X  ik1 f xi i  ik1 nNi xi 

N1 ik1 n xi i xi = valores que toma la variable o marca de clase.

fi = frecuencias relativas. ni = frecuencias absolutas.


N = número total de la población o muestra.
Relación entre las medias armónica, geométrica y aritmética: H  G X

La media o esperanza matemática de una variable aleatoria es: m1    E


x
n

E  = x P X ( i i ) para una variable discreta y finita.


i1

E  =  

x.f(x).dx cuando la variable  es continua con función de densidad

f(x).

Media armónica
Medida de tendencia central de una variable estadística es el cociente entre el
tamaño de la muestra y la suma de los cocientes de las frecuencias por los
N
valores de las correspondientes de la variable: H  k ni


i 1 xi
xi = valores que toma la variable o marca de clase.
fi = frecuencias relativas. ni = frecuencias
absolutas.
N = número total de la población o muestra.
Relación entre las medias armónica, geométrica y aritmética: H  G X

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


Media cuadrática
Medida de tendencia central de una variable estadística es la raíz cuadrada de la
suma ponderada de los cuadrados de los posibles valores de la variable
multiplicados por sus respectivas frecuencias:

MC  i 1k f x2  i 1k nNi xi2


i i

Media geométrica
Medida de tendencia central de una variable estadística que resulta de la raíz
nésima del producto de los valores posibles de la variable, elevados a a sus
respectivas frecuencias: G  N x .x ...x1n 2n1
k
n 2
xi = valores que toma la
k

variable o marca de clase. fi = frecuencias relativas. ni = frecuencias


absolutas.
N = número total de la población o muestra.
Relación entre las medias armónica, geométrica y aritmética: H  G X

136
Varianza muestral o cuasivarianza

La varianza muestral viene dada por:


k k

N N
S2  2 , es decir: S2   i1
(xi  X)2 i1 (xi  X)2

N 1 N 1 N N 1
Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy
pequeña.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


207
Diagrama de cajas o Box-plot

Se construye sólo para variables cuantitativas.


Pasos a seguir:
•Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se indica la posición de la
mediana mediante una línea vertical. También se indica la media mediante una cruz
(+).
•Se dibuja una línea desde cada extremo del rectángulo hasta el valor más alejado
no atípico.
•Se calculan los límites de admisión (barreras o bigotes)
LI =Q1 -1,5 (Q3- Q1)
LS =Q3 +1,5 (Q3- Q1)
•Se marcan todos los datos considerados como atípicos (outliers) son los que
quedan fuera de los límites de admisión se indican mediante un círculo. Existen
otros valores atípicos más graves (atípicos extremos) que superen 3 veces el rango
intercuartilíco y se representan por cruces (x).
Si no hubiese ningún dato atípico las barreras llegarían hasta el valor mínimo y
máximo.

Q1 Q2 = M Q3

Q1-1,5(Q3-Q1) Q3+1,5(Q3-Q1)

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


56
Histograma

En un histograma se representan las frecuencias de una variable estadística


mediante áreas. De tal forma que un histograma es un conjunto de rectángulos que
tienen como base los intervalos de clase y cuya superficie son las frecuencias
(absolutas o relativas). Por tanto las alturas son proporcionales a las frecuencias, y
será el cociente entre la frecuencia y la amplitud del intervalo.
16
14
12
10
8
6
4
2
0
1 2 3 4 5

Donde cada rectángulo puede ser:


nif i
aiai

fi

ni

e e
i-1 i ei-1 ei

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


114
Varianza

Varianza o momento de segundo orden respecto de la media en una variable


estadística es la media de los cuadrados de las desviaciones a la media:
k
(x

2 i1 i NX) n2 i

xi = valores de la variable o marcas de clase.

La varianza de una variable aleatoria es el momento de segundo orden respecto a

la media:   2 2

E  x  x  2

n 2

=
V x x P(X )
i i para una variable discreta y finita.
i 1

V =  2  x  x .f(x).dx cuando la variable  es continua con función


2

de densidad f(x).

Varianza explicada

En la recta de regresión de la Y sobre X la varianza total de la variable Y puede


descomponerse en dos partes una parte explicada por la regresión (la varianza de la
regresión) y otra parte no explicada (la varianza residual). La varianza explicada,
será la obtenida por el producto de la varianza de Y por el coeficiente de
determinación R2.

Varianza muestral o cuasivarianza

La varianza muestral viene dada por:


k k

N N
S2  2 , es decir: S2   i1
(xi  X)2 i1 (xi  X)2

N 1 N 1 N N 1
Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy
pequeña.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


Varianza residual
La varianza residual se define como la varianza de los errores o residuos
Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la
varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas
variables.

1
La varianza residual o no explicada 2r  n 
i,j (y * y ) ni  j 2
ij 

2y(1 r2)

Siendo el valor ajustado o teórico=y *i

207
Coeficiente de regresión

El coeficiente de regresión de la variable y con respecto a la variable x, es la


pendiente de la recta de y sobre x, por consiguiente, el sentido de crecimiento o
decrecimiento, así como el grado de variación, viene determinado por el signo y el
xy
valor del coeficiente de regresión byx  2 .
x

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


27
Covarianza

xy recibe el nombre de covarianza, de gran importancia práctica, se define como la


media aritmética de los productos de las desviaciones de la variable x con respecto
a su media aritmética, X, por las desviaciones de la variable y con respecto a la
media aritmética, Y.
r s (xi X)(yj Y)nij


 xy i 1 j 1  N

De la misma forma que en el caso de la varianza, se define la covarianza


muestral por:

S xy i r1 js1 (xi  XN)(yj1 Y n) ij siendo S xy 


NN1xy.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


Moda

Moda es el valor de la variable que se presenta con más frecuencia dentro de la distribución.
En las distribuciones sin agrupar se observa directamente el valor de mayor frecuencia.
En las agrupadas, definimos la clase modal como la que tiene mayor frecuencia.

NOTA: Algunas distribuciones pueden presentar varias modas. Cada moda corresponde a un
máximo absoluto del diagrama de barras o histograma.

 Para variables aleatorias


La moda es el máximo de la función de densidad o de la función de probabilidad

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


118
Centro de gravedad

Las dos rectas de regresión y  Y  byx(x  X) , x  X  bxy(y  Y) se cortan en un punto, que


es precisamente el (X,Y), llamado, por su naturaleza de promedio, centro de gravedad de la
distribución.

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


21
Diagrama de dispersión o nube de puntos

Las estadísticas de dos variables suelen representarse en un sistema de ejes cartesianos,


tomándose los valores de la variable "x" en el eje de abscisas y los de la variable "y" en el de
ordenadas y señalándose la confluencia en el plano con un punto. El conjunto de puntos así
obtenidos, en un número igual al de observaciones conjuntas efectuadas, recibe el nombre de
diagrama de dispersión o nube de puntos.
Diagrama de dispersión

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


48

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía


Sesgo

Para obtener una medida adimensional de la simetría de una variable


estadística, se define el coeficiente de asimetría o sesgo Coeficiente de
X  Mo
s
Asimetría de Pearson:  A.

• Mide la asimetría respecto de la moda.


• Si As=0 es simétrica respecto de la moda. X M 0 .
• Si As>0 es asimétrica a la derecha de la moda. X M 0 .
• Si As<0 es asimétrica a la izquierda de la moda. X M 0.
• Si la moda no es única, no está definido.
k 3
ni xi X
3 1i1  
Coeficiente de Asimetría de 1

3
n 
3
Fisher: g  

• Es un coeficiente adimensional y mide la asimetría respecto de la media.


• Si g1=0 la distribución es simétrica o no sesgada.
• Si g1<0 la distribución es asimétrica o sesgada a la izquierda y
X M M e  o.

• Si g1>0 la distribución es asimétrica o sesgada a la derecha y M M Xo  e


.

El sesgo es la diferencia entre el valor esperado de un estimador y el verdadero


valor del parámetro: E(θ*) - θ

También podría gustarte