Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Problemas Regresion
Problemas Regresion
1.- El número de turistas (en millones) entrados en España mensualmente durante los
años 2001 y 2002 se expone en la siguiente estadística.
Nº Turistas
2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129
Nº Turistas
2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 5,3203
2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad
tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre).
Se pide:
x\y 17-21 21-25 25-29 29-33 33-37
18-22 5 2
22-26 3 9 1
26-30 4 6 10
30-34 6 7
34-38 3 4
a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una
edad de 25 años.
b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una
edad de 25 años.
c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de
determinación (R2).
d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias
absolutas acumuladas de la distribución marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.
f) Qué media es más representativa. Justificar la respuesta.
Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185
Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182
6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable
4x + 2y =1
y que la varianza marginal de la variable Y es σ y =
2
estadística (X,Y) son 1.
5x + 3y =
1
Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza
marginal de X ( σ2x ).d) El valor estimado para y sabiendo que x=0.
0.04 0 0 0 1 1
8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como
se indica en la siguiente tabla:
x 6 9 24 38 46 48 52 75 118 196
y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3
La variable x representa la velocidad media en cientos de km/s, y la variable y, la
distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la
distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’.
Determinar el coeficiente de correlación lineal.
9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas
relativas de los 12 puntos que se expresan en la tabla:
Estaca X Y
1 37 64
2 39 71
3 29 53
4 42 67
5 31 55
6 30 58
7 35 77
8 28 57
9 32 56
10 22 51
11 41 76
12 37 68
12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística
bidimensional (x,y).
x 5 4 3 2 1 0
y 6.2 5.6 3.4 2.3 1.9 1.2
a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es
lógico adoptar un ajuste lineal.
b) Calcular:
b1) La matriz de covarianzas.
b2) El coeficiente de correlación lineal. Interpretarlo.
c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4.
d) Calcular
d1) La varianza residual.
d2La varianza explicada por el ajuste lineal.
13.- Los siguientes datos representan los resultados, notas, de una determinada
asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.
∑ xi = 96 ∑ yi = 64 ∑ xi ⋅ yi =
i i i
492
∑x
i
2
i = 657 ∑y
i
2
i = 526
Se pide:
a) Estimar el modelo de regresión simple que relaciona los resultados obtenidos con
el número de horas dedicadas al estudio.
b) Calcular una medida de la bondad del ajuste e interpretar el resultado.
c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen?
14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura
(en ºC) en la ciudad durante 5 días,
temperatura 34 25 32 37 39
cerveza 187 123 198 232 267
a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?
b) Hallar e interpretar el coeficiente de determinación.
c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).
d) Predecir la cantidad de cerveza que se vendería en este bar un día con una
temperatura de 35ºC.
L: libras por
30 30 31 31 32 32 33
pulg2
L: libras por
33 34 34 35 35 36 36
pulg2
16.- Conocidas la media aritmética y la varianza de cada una de las variables asociadas a
una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se conoce, además, la
recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal
y la recta de regresión de X sobre Y.
19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los
pesos y edades de los niños atendidos.
Peso Edad en años
en kilos 0 1 2 3 4
0–4 2
4–8 4 2 2
8 – 12 8 9 7
12 – 16 1 2 8 14
16 - 20 1
a) Obtener la mediana del peso en kilos.
b) ¿Qué distribución tiene mayor dispersión relativa?
c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños
de 2 años?
d) Hallar el sesgo de la distribución de peso en kilos.
e) Hallar el coeficiente de correlación lineal. Interpretarlo.
f) Si un niño tiene un año ¿cuál será su peso estimado?
g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá?
Nº Turistas X σx
2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 2,3266
Nº Turistas
2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 2,3066
a)
σ x 2,3266 σ y 2,3066
=
CV(2001) = ≈ 0, 49205 . =
CV(2002) = ≈ 0, 4850 .
X 4, 7283 Y 4, 7475
b)
∑x y n i i i
12611,5
=
σ xy i
−=
XY − 4, 7283 ⋅ 4, 7475
= 4, 7475
n 12
σ 2x σ xy 5, 4129 5,3438
=Σ =
σ xy σ2y 5,3438 5,3203
c)
σ xy 5,3438
=
rxy = ≈ 0,996 . La correlación lineal es directa y casi perfecta
σ x σ y 2,3266 ⋅ 2,32066
(x − X)
2
x\y 19 23 27 31 35 n i.
ni. ni.xi i
20 5 2 7 140 448
24 3 9 1 13 312 208
28 4 6 10 20 560 0
32 6 7 13 416 208
36 3 4 7 252 448
( y − Y)
2
i n . j 590,78 235,98 107,08 20,43 552,65 σ 2y =25,12
∑x y n
i, j
i j ij = 20 ⋅19 ⋅ 5 + 20 ⋅ 23 ⋅ 2 + 24 ⋅ 23 ⋅ 3 + 24 ⋅ 27 ⋅ 9 + 24 ⋅ 31 ⋅ 4 + 28 ⋅ 27 ⋅ 4 + 28 ⋅ 31 ⋅ 6 +
+28 ⋅ 35 ⋅10 + 32 ⋅ 31 ⋅ 6 + 32 ⋅ 35 ⋅ 7 + 36 ⋅ 31 ⋅ 3 + 36 ⋅ 35 ⋅ 4 =
51264
∑x y n i j ij
51264
σ
= xy
i, j
− XY
= − 28 ⋅ 29,867
= 18,13
n 60
xy
b) Recta de regresión de y sobre x: y Y
2x
x X
18,13
y 29,87 x 28 y 0,829268 x 6, 6472 y 0,829 25 6, 6472 27, 38
21,87
xy
c) rxy 0, 77 , por tanto, la relación lineal es directa pero no demasiado buena.
x y
25
70
20 60
15 50
40
10 30
5 20
10
0 0
16. 18 - 22 22 - 26 26 - 30 30 - 34 34 - 38 40. 18. 22. 26. 30. 34. 38.
28 60
e) Mediana; M 29 30, 75 Percentil 90; P90 33 35,86
16 21
x
f) X 28 x 21,87 4, 68 CV(x) 0,17
X
y
Y 29,87 y 25,12 5, 01 CV(y) 0,17
Y
Las dos medias, son igual de representativas, ya que, los coeficientes de variación son iguales.
Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185
Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182
2082 547
=X = 173.5; σ=
2
= 45.5833
(x − X) ( y − Y)
x 2
12 12 2
x y xy
6.7515
σ x =6.7515 = = 0.0389
CV(x)
173.5 169 177 20,25 1.17506 29913
σ xy
E) Recta de regresión de Y sobre X: y −=
Y
σ2x
(x − X)
22.074
y − 175.916= (x − 173.5) ó y = 0.484 x + 91.897
45.5833
791 1229,8
a) X = = 31,64 , S 2x = = 51,24
25 24
14 50
11.96 51.62
31 36.7
26,8
911 884.16
c)=
Y = 36, 44 =
σ2y = 35,366
25 25
d)
20 26 32 38 44
f) R 2 0,5959 59,59%
xy
g) Recta de regresión de Y sobre X: y Y
2x
x X
32,198
y 36, 44 (x 31, 64)
49,19
y 0, 654566745x 15, 7
x i
140 35 yi 90 15 xy
X ;Y ; rxy xy 0,9 xy 6,93
N 12 3 N 12 2 x y 3,5 2, 2
xy
a) Recta de regresión de y sobre x: y Y
2x
x X
15 6,93 35
y 2
x y 0,5657142857ꞏx 0, 9
2 3,5 3
xy
b) Recta de regresión de x sobre y: x X
2y
y Y
35 6,93 15
x 2
y x 1,431818181 y 0,928030303
3 2, 2 2
g)
R=
2
r=
2
0,9=
2
0,81
h)
Solución:
Buscaremos los coeficientes de regresión despejando x e y:
1
y= − 2x
1
4x + 2y = 3 6
⇒ r 2 = b xy ⋅ b yx = − ⋅ ( −2 ) = > 1
2
⇒ ¡Imposible!
5x + 3y =
1
x=
1 3
− y 5 5
5 5
Entonces
1 1
x= − y
1
4x + 2y = 4 2 1 5 5
⇒ ⇒ r 2 = b xy ⋅ b yx = − ⋅ − = < 1
5x + 3y =
1
y=
1 5
− x 2 3 6
3 3
a)
5 5
r 2 = ⇒ r =± -0,9128709291
6 6
1
4x + 2y =
1 X = 2
⇒
5x + 3y =
1 Y = − 1
2
c)
σ σ 1 1 σ −1/ 2 5 3
b xy = xy2 = xy =− ⇒ σ xy =− ⇒ b yx = xy2 = 2 = − ⇒ σ 2x =
σy 1 2 2 σx σx 3 10
d)
Solución:
∑x n i
0, 24i ∑y n i i
2,3
m10= X= i
= = 0, 024 ; m 01= Y= i
= = 0, 23
n 10 n 10
Varianzas:
∑x n 2
( ) ( )
i i
2 2 0, 007
σ 2x =m 20 − X = i
− X = − 0, 0242 =0, 000124
n 10
∑y n 2
( ) ( )
i i
2 2 0, 71
σ 2y =m 02 − Y = i
− Y = − 0, 232 =0, 0181
n 10
∑x y n
i i i
0, 069
σ xy = m11 − XY = i
− XY = − 0, 024 ⋅ 0, 23 = 0, 00138
n 10
b) Rectas de regresión
σ xy
Recta de regresión de y sobre x: y −=
Y
σ2x
(x − X)
0, 00138
( y − 0,=
23) ( x −=
0, 024 ) ⇒ y 11,12903225·x − 0.03709677419
0, 000124
σ xy
Recta de regresión de x sobre y: x −=
X
σ 2y
( y − Y)
0, 00138
( x − 0, 024
= ) ( y −=
0, 23) ⇒ x 0,07624309392 ⋅ y + 0.006464088397
0, 0181
σ xy
b= = 11,12903225
σ2x
yx
σ xy
b= = 0,07624309392
σ2y
xy
Las pendientes:
σ xy
r=
± b yx ⋅ b xy = = 0,92115 Correlación fuerte y directa
σx σy
x 6 9 24 38 46 48 52 75 118 196
Solución:
2
x y x*y x2 y
6 1,2 7,2 36 1,44
9 1,8 16,2 81 3,24
24 3,3 79,2 576 10,89
38 7,2 273,6 1444 51,84
46 7 322 2116 49
48 9,1 436,8 2304 82,81
52 11 572 2704 121
75 14,5 1087,5 5625 210,25
118 22,9 2702,2 13924 524,41
196 36,3 7114,8 38416 1317,69
sumas 612 114,3 12611,5 67226 2372,57
momentos 61,2 11,43 1261,15 6722,6 237,257
covarianza 561,634 2977,16 106,6121
coeficientes de regresión: 0,1886476 5,268013668
Medias:
∑x n i i
612 ∑y n i i
114,3
=
X i
= = 61, 2 ; =Y i
= = 11, 43
n 10 n 10
Varianzas:
∑x n 2
( ) ( )
i i
2 2 67226
σ 2x =m 20 − X = i
− X = − 61, 22 =2977,16
n 10
∑y n 2
( ) ( )
i i
2 2 2372,57
σ =m 02 − Y
2
y = i
− Y = − 11, 432 =106, 6121
n 10
∑x y ni i i
12611,5
σ xy = m11 − XY = i
− XY = − 61, 2 ⋅11, 43 = 561, 634
n 10
σ xy 561, 634
b= = = 0,1886476
σ2x 2977,16
yx
σ xy 561, 634
b= = = 5, 268013668
σ2y 106, 6121
xy
r=
± b yx ⋅ b xy =0,1886476 ⋅ 5, 268013668 ≈ 0,996 .
Estaca X Y
1 37 64
2 39 71
3 29 53
4 42 67
5 31 55
6 30 58
7 35 77
8 28 57
9 32 56
10 22 51
11 41 76
12 37 68
X Y XY X2 Y2
64 2368 1369 4096
37
71 2769 1521 5041
39
53 1537 841 2809
29
42 67 2814 1764 4489
31 55 1705 961 3025
30 58 1740 900 3364
35 77 2695 1225 5929
28 57 1596 784 3249
56 1792 1024 3136
32
∑x i
403
X
= =
i =1
= 33,5833;
N 12
N
∑x 2
i
13923
( )
2
σ2x
= i =1
− X= − 33,58333
= 2
32, 4097222
N 12
∑y 2
i
48139
( )
2
b) =
σ2y i =1
− Y= − 62, 75
= 2
74, 0208333
N 12
12
∑x y n i i i
25770
σ
= xy
i =1
− XY
= − 33,58333333 ⋅ 62,=
75 40,1458333
N 12
σ xy 40,1458333
c)=
rxy = ≈ 0,8196
σx σy 32, 4097222 74, 0208333
σ xy
d) Recta de regresión de y sobre x: y −=
Y
σ2x
(x − X)
40,146
( y − 62, 75
= ) ( x − 33,583) ⇒ =
y 21,15 + 1, 2387x
32, 4097
f) R 2 = 0, 6718 67,18%
d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?
Solución:
1 1
y x
x 2y 1 2 2 3 1 3
r 2 b xy b yx 1
5x 3y 1 x 1 3 y 5 2 10
5 5
Entonces
3 3
r2 r 0,5477226<0,7
10 10
b)
1
X
x 2y 1 7
5x 3y 1 Y 4
7
xy xy 3 3 3/5 1 6
c) b xy xy b yx xy2 2 2x
2
y 1 5 5 x x 2 5
E 5 10 1.5 20 25 30
I -7 -2 1.0 4 10 12
Determinar:
a) La matriz de covarianzas.
b) El coeficiente de correlación lineal e interpretarlo.
c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál
será el valor estimado de la intensidad para una fuerza electromotriz de 20?
Solución:
=
La media para cada variable es: E
∑=
E i
15.25;=
i
I 3
∑
=
I
n n
Para el cálculo de varianzas y covarianzas, podemos formar la tabla
( E − E) ( I − I) ( E − E) ( I − I)
2 2
E I E−E I−I
σ2E σEI 109.4791 60.3
a) Para obtener la matriz de covarianza aplicamos 2
=
σEI σI 60.3 43.3
b) Para calcular el coeficiente de correlación aplicamos la siguiente ecuación:
σ EI
=rEI = 0.876 ⇒ rEI2 = 0, 767 , por tanto, la correlación es positiva (a mayor
σE σI
fuerza electromotriz mayor intensidad, además es buena el modelo explica el 76,7%
σ xy
La recta de regresión de I/E es: I=
−I
σ2E
E−E= ( )
⇒ I 0,5511E − 5, 4042
b) En primer lugar calculamos las medias y varianzas marginales de la muestra, así como la
covarianza muestral.
X = 2.5; S2x = 3.5 ⇒ Sx ≈ 1.87; Y ≈ 3.43; S2y ≈ 4.19; Sy ≈ 2.05; Sxy ≈ 3.72
Sxy 3.72
El coeficiente de correlación lineal es=
rxy = ≈ 0.97 . La relación entre X
Sx ·Sy 1.87·2.05
e Y es muy buena, además nos indica que a mayor valor de la variable X mayor valor
para la variable Y (correlación directa).
c) La ecuación de la recta de Y sobre X es:
( )
Sxy 3.72
y −=Y 2
x − X ⇒ y − 3.43= ( x − 2.5) ⇒= y 0.77 + 1.06x
Sx 3.5
El valor estimado para “y” cuando x = 4 es y = 0.77 + 1.06·4 = 5.01
d) En la recta de Y/X la varianza residual o no explicada es
S2r = S2y (1 − R 2 ) = 4.19(1 − 0.94) ≈ 0.24
La varianza explicada es igual a la varianza total menos la varianza no explicada.
2
Sexplicada = S2y − Sr2 = 4.19 − 0.24 = 3.95 , o bien
2
= S=
Sexplicada 2
y ·R
2
4.19·0.94 ≈ 3.95
Se pide:
a) Estimar el modelo de regresión simple que relaciona los resultados obtenidos
con el número de horas dedicadas al estudio.
b) Calcule una medida de la bondad del ajuste e interprete el resultado.
c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen?
d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para
superar la asignatura? Considerad que el 5 es el aprobado.
Solución:
a)
16 16
i ∑x 96 ∑y i
64
=i 1 =i 1
=
X = = 6; =
Y = = 4
n 16 n 16
16
∑x 2
( )
i 2 657 2
=
σ
2
x
i =1
− X= =
-6 5, 0625
n 16
16
∑y 2
( )
i 2 526 2
σ=2
y
i =1
− Y= − 4= 16,875
n 16
16
∑x y n i i i
492
σ xy= i
− XY= − 6⋅=
4 6, 75
n 16
La ecuación de la recta de Y sobre X es:
σ xy
y −=Y
σx2 (
x − X ⇒ y= −4 )
6, 75
5, 0625
( x − 6) ⇒ =
y
4
3
x−4
σ xy 6,75
b)=rxy = ≈ 0,7302967433
σx σy 5, 0625 16,875
por tanto, la relación lineal es directa y buena
4
c) Si x=8 horas, entonces y = ⋅ 8 − 4 ≈ 6, 6
3
σ xy
d) Recta de regresión de X sobre Y: x −= X
σ 2y
y − Y e y=5 ( )
6,75
=
x-6 ( 5 − 4 ) ⇒ x = 6, 4 horas
16,875
temperatura 34 25 32 37 39
d) Para predecir los litros de cerveza se utiliza la recta de regresión de y sobre x, es decir,
L: libras por
30 30 31 31 32 32 33
pulg2
L: libras por
33 34 34 35 35 36 36
pulg2
13.27 0.828
a) 2L 4 ; 2M 13.27 ; LM 0.828 .
0.828 4
LM
b) rLM 0.1137 la correlación lineal es mala y negativa como podemos observar en
L M
el diagrama de dispersión.
Si ajustamos una recta R2 = 0.0129, la proporción de varianza explicada por la recta es muy
pequeño, deberíamos intentar otro tipo de ajuste.
Diagrama de dispersión y = ‐0,2071x + 40,35
R² = 0,0129
50
40
30
Millas
20
10
0
28 30 32 34 36 38
Libras
σ xy
Recta de regresión de X sobre Y: x −=
X
σ 2y
( y − Y)
4 1
x − 3 =− ( y − 2) ⇒ x =− y+4
8 2
2 4
3 36
4 35
Distribución marginal de y:
n,j 14 27 34
2 4 4
3 36 40
4 35 75
La mediana de x es 3
Mediana (y)
y n,j N,j
0-500 14 14
500-1000 27 41
1000-1500 34 75
N 75
N i 1 a 14 500
2 500 2
M e ei 1 935,185
ni 27
c) Centro de gravedad:
X, Y
256 66250 256 2650
75
,
75 75
,
3
3.41,883.3
xy
d) Recta de regresión de x sobre y: x X
2y
y Y
x y n
i, j
i j ij
230000 256 2650
xy XY 51,56
N 75 75 3
y n 2
i i 2
691875 2650
2
2y i
Y 142222, 22
N 75 3
256 51,56 2650
e) x y x 0.000036253125y+3, 093125
75 142222, 22 3
51,56
f) rxy xy 0, 23 , El ajuste es “malo” por ser un valor
x y 0,3491 142222, 2
próximo a cero,
g) No se puede predecir.
σ xy 1, 25
a)= rxy = ≈ 0,9128709291 Ajuste directo y muy bueno.
σx σy 1, 25 1,5
b) La recta de regresión de Y sobre X:
σ xy
y −= Y (
σx2 )
x − X ⇒ y= −3
1, 25
1, 25
( x − 1.5) ⇒ ⇒ y= x + 1.5
c) La recta de regresión de x sobre y:
σ xy
x −= X (σy2 )
y − Y ⇒ x − 1.5 =
1, 25
1,5
( y − 3) ⇒ ⇒ x= 5/6 y - 1
Para un valor de y=2 se obtiene x= (5/6) 3-1=3/2
d)
2 2 2 4 8
6 4 2 2 8 48 288
10 8 9 7 24 240 2400
14 1 2 8 14 25 350 4900
18 1 1 18 324
yjn.j 0 11 26 45 60 142
RESULTADOS:
X Y
m1 11 2,366667
m2 132 7,3
CV 0,301511 0,550738
m11 29,46667
σxy 3,433333
r 0,794213
x ni. Ni.
0–4 2 2
4–8 8 10
8 – 12 24 34
12 – 16 25 59
16 - 20 1 60
n/2=30; M=8+(30-10)*4/24=11,333
b) Medias
1 5 660 1 5 142
x= ∑
n i =1
xi ni. =
60
= 11 ; y= ∑
n j =1
y j n. j =
60
= 2,366667
Varianzas
1 5 2 7920
=σ x2 ∑
n i =1
xi ni. − x 2=
60
− 112= 11 ;
2
1 5 2 438 142
=σ ∑
n j =1
2
yy j n. j − y 2 = −
60 60
=
1, 698889
Coeficiente de variación
σx 11 σy 1,698889
CV (=
x) = ≈ 0,30 ; CV (=
y) = ≈ 0,55 . La edad de los niños.
x 11 y 2,366667
c) La distribución de frecuencias acumuladas para el total de 13 niños con 2 años es:
x ni Ni
0-4 0
4-8 2 2
8-12 9 11
12-16 2 13
x ni. (xi-media)3ni.
2 2 -1458
6 8 -1000
10 24 -24
14 25 675
18 1 343
sumatorio -1464
μ3 -24,4
1
∑ ( )
3
x i. − X n i.
−24, 4
=g1 N = ≈ −0, 67 Asimétrica por la izquierda.
σ3
( )
3
11
∑x y n
i i i
1768 162
e) σ xy
= i
− XY
= − 11 ⋅ = 3, 43
N 60 60
σ xy 3, 43
=
rxy = ≈ 0, 79 . El ajuste es “bueno” y directo por ser un valor
σx σy 11 1, 698889
superior a 0,7
f) La recta de regresión de x sobre y permite determinar los valores de x para valores
σ xy
conocidos de y: x −=X
σ 2y
y−Y ( )
3, 43 162
=
x − 11 y− ⇒ x = 2,020907769·y + 6,21651131
1, 698889 60
Para y=1 se obtiene un peso de x= 2,020907769 + 6,21651131 = 8,23741907 kg
g) La recta de regresión dey sobre x permite determinar los valores de y para valores
σ xy
conocidos de x: y −= Y
σ2x
x−X ( )
162 3, 43
y− = ( x − 11) ⇒ y = 0,3121181818·x – 1,0663
60 11
1
∑
1
∑ ( )
2
=D = =
Di 4,885 ; σ 2D Di =
−D 3, 07
N i N i
=
σD∆
1
( )(
∑ x i − X yi =
N i
)
− Y 1,927
σD∆ 1,927
=
rD∆ = ≈ 0, 78 Aceptable.
σD σ∆ 3, 07 1,96
Solución:
y =−2x − 1
2x + y + 1 =0 3 6
⇒ 4 ⇒ r = b yx ⋅ b xy = ( −2 ) ⋅ − = > 1
2
3 ¡Imposible!
5x + 3y + 4 =0 x = − y− 5 5
5 5
Entonces
1 1
x=
− y−
2x + y + 1 =0 2 2 1 5 5
⇒ ⇒ r 2 = b xy ⋅ b yx = − ⋅ − = < 1
5x + 3y + 4 =0
y=
5
− x−
4 2 3 6
3 3
5 5
r 2 = ⇒ r =± ≈ -0,9128709291 Correlación perfecta e inversa.
6 6
Es el cociente de la desviación típica y la media. CV
X
Es siempre positivo y no existe si la media vale cero.
Es frecuente expresarlo en tanto por ciento.
Es independiente de la unidad que se utilice, pues no tiene unidades y por
tanto nos permite comparar la dispersión de dos distribuciones que tengan unidades
diferentes, o que tengan medias muy distintas.
y
j
x x* x
i j
y=a+bx
y*i e
yi i
xi
Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor que la
correspondiente a la recta de regresión de y sobre x.
xx x x x x
0 1 i k k+1
30
25
20
15
10
0
xi
Ni
e0 e1 ei ei+1 ek
Distribución marginal de la variable "x" son los valores que toma dicha variable
con sus respectivas frecuencias en la distribución conjunta de la variable
bidimensional (x,y)
x ni..
x1 n1.
x2 n2.
.... ....
xi ni.
.... ....
xr nr.
Mediana de un triángulo es el segmento que une un vértice con el punto medio del lado
opuesto.
En Estadística:
La mediana es el valor de la variable que ocupa el lugar central, es decir, que la mitad
de la población es menor y la otra mitad es mayor que él.
La mediana es un valor M tal que F(M)=1/2, se define así como raíz de una ecuación.
Para las variables estadísticas se ordenan en forma creciente, dejando igual número
de observaciones inferiores que superiores a ella.
a) En las distribuciones sin agrupar, en general, no tiene solución, puesto que la función F(x)
varía por saltos:
1) Si ningún valor posible x i corresponde a F( x i )=1/2 se conviene en considerar
1
como mediana el valor x i tal que: F( x i 1 ) F( x i )
2
1
2) Si uno de los valores xi corresponde a F( x i ) (lo que ocurre solamente si el
2
total N de la población es par) la mediana está indeterminada entre los valores xi y xi+1. El
intervalo (xi, xi+1) se denomina mediano, o bien llamamos mediana al punto medio de
dicho intervalo.
b) En las agrupadas pueden darse dos casos:
INTERVALO xi ni Ni
e0 -- e1 x1 n1 N1
e1 -- e2 x2 n2 N2
............ ... ... ....
ej-2 – ej-1 xj-1 Nj-1 Nj-1
ej-1 -- ej xj nj Nj
............ ... ... ...
ek-1 -- ek xk nk N
N
1) coincide con uno de los recogidos en la columna de frecuencias acumuladas,
2
por ejemplo Nj, en este caso la mediana es ej.
N
2) está entre N j1 y N j . La mediana se encontrará en el intervalo ( e j1 , e j ) . La
2
mediana será M e j1 h y por interpolación lineal se obtiene h.
Amplitud del intervalo: a = e j e j-1
nj a N N
( N j 1 ) a ( N j1 ) a
N h 2 M e j 1 2
N j1 h nj nj
2
Cuantiles
Los más utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda
1/4, 1/2 y 3/4 de la población respectivamente. Obsérvese que Q2 = M
(Mediana).
Los deciles D1, D2, ..... , D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la
población respectivamente.
Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, .....
99/100 de la población respectivamente.
E =
x.f (x).dx cuando la variable es continua con función de
densidad f(x).
Media armónica
Medida de tendencia central de una variable estadística es el cociente entre el
tamaño de la muestra y la suma de los cocientes de las frecuencias por los
N
valores de las correspondientes de la variable: H k
ni
i 1 x i
Media cuadrática
Medida de tendencia central de una variable estadística es la raíz cuadrada de
la suma ponderada de los cuadrados de los posibles valores de la variable
multiplicados por sus respectivas frecuencias:
k k
ni
MC f xi 1
i
2
i Nx
i 1
2
i
Media geométrica
Medida de tendencia central de una variable estadística que resulta de la raíz n-
ésima del producto de los valores posibles de la variable, elevados a a sus
respectivas frecuencias: G N x1n .x 2n ...x kn
1 2 k
N N ( x i X) 2 (x i X) 2
S2 2 , es decir: S2 i 1
i 1
N 1 N 1 N N 1
Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy
pequeña.
Q1 Q2 = M Q3
Q1-1,5(Q3-Q1) Q3+1,5(Q3-Q1)
fi
ni
ei-1 ei ei-1 ei
x
n
V =
2
i x P(X i ) para una variable discreta y finita.
i 1
densidad f(x).
Varianza explicada
N N ( x i X) 2 (x i X) 2
S2 2 , es decir: S2 i 1
i 1
N 1 N 1 N N 1
Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy
pequeña.
Varianza residual
La varianza residual se define como la varianza de los errores o residuos
Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la
varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas
variables.
1
La varianza residual o no explicada 2r
n i, j
(yi * y j )2 n ij 2y (1 r 2 )
i 1 j1 N 1 N 1
Moda es el valor de la variable que se presenta con más frecuencia dentro de la distribución.
En las distribuciones sin agrupar se observa directamente el valor de mayor
frecuencia.
En las agrupadas, definimos la clase modal como la que tiene mayor frecuencia.
NOTA: Algunas distribuciones pueden presentar varias modas. Cada moda corresponde a un
máximo absoluto del diagrama de barras o histograma.
55
y
j
x x
i
1
3
X
3 i i
Coeficiente de Asimetría de Fisher: g1 i 1
3 n 3