Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Problemas
Problemas
1.- El número de turistas (en millones) entrados en España mensualmente durante los
años 2001 y 2002 se expone en la siguiente estadística.
Nº Turistas
2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129
Nº Turistas
2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 5,3203
2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad
tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre).
Se pide:
x\y 17-21 21-25 25-29 29-33 33-37
18-22 5 2
22-26 3 9 1
26-30 4 6 10
30-34 6 7
34-38 3 4
a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una
edad de 25 años.
b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una
edad de 25 años.
c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de
determinación (R2).
d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias
absolutas acumuladas de la distribución marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.
f) Qué media es más representativa. Justificar la respuesta.
Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182
A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos.
B) Explicar cuál de las dos estaturas es más dispersa.
C) Hallar e interpretar el coeficiente de correlación lineal.
D) Calcular la recta de regresión de x sobre y. Varianza explicada y residual.
E) ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?
U. D. de Matemáticas de la ETSITGC
Regresión y Correlación
Asignatura: ESTADÍSTICA
4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de
25 estudiantes
X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50)
[14 a 20) 1
[20 a 26) 3 1
[26 a 32) 2 5 2
[32 a 38) 1 4 1
[38 a 44) 1 3
[44 a 50) 1
Sobre la distribución marginal X (Matemáticas) calcular:
a) La media, y la cuasivarianza.
b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.
Sobre la distribución marginal Y (Física) calcular:
c) La media, la varianza.
d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias
absolutas acumuladas.
Respecto de ambas variables
e) Hallar e interpretar el coeficiente de correlación lineal.
f) Calcular el porcentaje de la variación total de la variable nota de física que se
explica mediante la relación con la variable nota de matemáticas.
g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota
de matemáticas.
6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable
4x + 2y =1 2
1. estadística (X,Y) son y que la varianza
marginal de la variable Y es σ =y 5x +3y =1
Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza
marginal de X (σ2x ).d) El valor estimado para y sabiendo que x=0.
9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas
relativas de los 12 puntos que se expresan en la tabla:
Estaca X Y
1 37 64
2 39 71
3 29 53
4 42 67
5 31 55
6 30 58
7 35 77
8 28 57
9 32 56
10 22 51
11 41 76
12 37 68
Estadística (Y) y como resultado obtenemos las rectas de regresión: y que −5x
12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística
bidimensional (x,y).
x 5 4 3 2 1 0
y 6.2 5.6 3.4 2.3 1.9 1.2
a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es
lógico adoptar un ajuste lineal.
b) Calcular: b1) La matriz de covarianzas.
b2) El coeficiente de correlación lineal. Interpretarlo.
c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4.
d) Calcular d1) La varianza residual. d2La varianza explicada por el ajuste lineal.
13.- Los siguientes datos representan los resultados, notas, de una determinada
asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.
∑x = 96 ∑y = 64 ∑x y ⋅
i i i i = 492
iiii i
Se pide:
14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura
(en ºC) en la ciudad durante 5 días,
temperatura 34 25 32 37 39
cerveza 187 123 198 232 267
a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?
b) Hallar e interpretar el coeficiente de determinación.
c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).
d) Predecir la cantidad de cerveza que se vendería en este bar un día con una
temperatura de 35ºC.
16.- Conocidas la media aritmética y la varianza de cada una de las variables asociadas a
una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se conoce, además, la
recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal
y la recta de regresión de X sobre Y.
19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los
pesos y edades de los niños atendidos.
Peso Edad en años
en kilos 0 1 2 3 4
0–4 2
4–8 4 2 2
8 – 12 8 9 7
12 – 16 1 2 8 14
16 - 20 1
a) Obtener la mediana del peso en kilos.
b) ¿Qué distribución tiene mayor dispersión relativa?
Nº Turistas X σx
2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 2,3266
Nº Turistas
2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475
mes.
a)
σx
0,4920
0,4850
CV(2001) = = 2,32665≈. CV(2002) =σy = 2,3066 ≈.
X 4,7283Y 4,7475
b)
∑x y n ii i
σxy = i −XY = − ⋅ =
n
c)
directa y casi
rxy = σxy = 5,3438 ≈ σ 0,996 . La correlación lineal es
perfecta
σx y 2,3266
2,32066⋅
2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad
tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del
padre, y = edad de la madre). Se pide:
a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad
de 25 años.
b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad
de 25 años.
c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de
determinación (R2).
d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas
acumuladas de la distribución marginal de los padres.
e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres.
f) Qué media es más representativa. Justificar la respuesta.
x\y 19 23 27 31 35
ni. ni.xi
(x −X) n
i 2 i.
20 5 2 7 140 448
24 3 9 1 13 312 208
28 4 6 10 20 560 0
32 6 7 13 416 208
36 3 4 7 252 448
σ =2y 25,12
590,78 235,98 107,08 20,43 552,65
∑x y n i j ij = 20 19 5⋅⋅ + 20 23 2⋅ ⋅+ 24 23 3⋅⋅ + 24 27 9⋅ ⋅ + 24 31 4⋅ ⋅ + 28
27 4⋅ ⋅ + 28 31 6⋅ ⋅ +
i,j
xy
xy 0,7
7
c) rxy , por tanto, la relación lineal es directa pero no demasiado buena.
x y
30,75 35,86
e) Mediana; M 29 Percentil 90; P90 33
0,1
x
7
f) X 28 x 21,87 4,68 CV(x)
X
y 0,1
7
Y 29,87 y 25,12 5,01 CV(y)
Y
Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182
ni 2 2 1 4 1 1 1 Q3
=177.5
Ni 2 4 5 9 10 11 12
M
4
=177
3N
=9⇒ ;
4
N=6⇒
x y xy
2 (x −X) (y −Y)
2 2
2
547 45.5833 169 177 20,25 1.17506 29913
X ==173.5; σ =x =
164 172 90.25 15.3351 28208
12
174 177 0.25 1.17506 30798
6.7515
σ =x6.7515 CV(x) = = 0.0389 167 169 42.25 47.8311 28223
173.5 2
177 180 12.25 16.6791 31860
22.074
C) rxy = =
6.7515 4.7514⋅
D) Recta de regresión de x sobre y:
σxy
x − =X σ2y y−Y( )
x 173.5− = (y 175.916)−
x = 0.978y + 1.499
σxy
4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de
25 estudiantes
X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50)
[14 a 20) 1
[20 a 26) 3 1
[26 a 32) 2 5 2
[32 a 38) 1 4 1
[38 a 44) 1 3
[44 a 50) 1
Sobre la distribución marginal X (Matemáticas) calcular: a)
La media, y la cuasivarianza.
b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.
Sobre la distribución marginal Y (Física) calcular:
c) La media, la varianza de la muestra.
d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias
absolutas acumuladas.
Respecto de ambas variables
e) Hallar e interpretar el coeficiente de correlación lineal.
f) Calcular el porcentaje de la variación total de la variable nota de física que se
explica mediante la relación con la variable nota de matemáticas.
g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota
de matemáticas.
Solución:
a) S2x = 1229,8
X = =,
31,64 = 51,24 24
b) Q1 = 26.833 , Q3 = 36,75 , 1.5*IQR =14.875
c) Y =
911 2
36, 44 σ= Regresión
884.16
35,366 y Correlación
25 = y
25 =
20 26 32 38 44
d)
f) 59,59 R2 0,5959
%
xy
y 36,44 (x 31,64)
y 0,654566745x 15,7
5.- De una variable estadística bidimensional se conocen los siguientes datos: x 140;
y 90; N 12; 3.5; 2.2 y el coeficiente de correlación lineal r =
x y
xy
xy
35
X,Y 15
,
3 2
e) Depende de la recta de regresión
Para la recta de regresión de y sobre x
2,327
La varianza residual o no explicada 2r2x(1 R2) 3,52 10,92
5
Para la recta de regresión de x sobre y
f)
9,922
5
La varianza explicada σ ⋅2x R2 = 3,52 ⋅0,92 ≈
3,920
4
La varianza explicada σ ⋅2y R2 = 2,22 ⋅0,92 ≈
g)
0,8
1
R2 = r2 = 0,92 =
h)
4,8 6,93
4
12,25
6,9
3
σ2x σxy
6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable
4x + 2y =1
estadística (X,Y) son y que la varianza marginal de la variable Y es σ =2y 1. 5x
+3y =1
Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza
marginal de X (σ2x ). d) el valor estimado para y sabiendo que x=0.
Solución:
Buscaremos los coeficientes de regresión despejando x e y:
Entonces
+ = 4 2
54xx 32yy 11 ⇒ x = 11 −51 y ⇒ r2 = bxy ⋅byx =
− 12 ⋅ − 53 = 56 <1
+ = y = − x
3 3
a)
-
0,912870929
1
2
56 r =± 56
r=⇒
1
=
X 2
4x + 2y =1
2
c)
3
σ =2x
10
d)
Solución:
X\Y 0,1 0,2 0,3 0,4 0,5 ni. Xini. Xi2ni.
0,01 3 0 0 0 0 3 0,03 0,0003
0,02 1 1 0 0 0 2 0,04 0,0008
0,03 0 1 2 0 0 3 0,09 0,0027
0,04 0 0 0 1 1 2 0,08 0,0032
n.j 4 2 2 1 1 10 0,24 0,007
Yjn.j 0,4 0,4 0,6 0,4 0,50 2,3
Yj2n.j 0,04 0,08 0,18 0,16 0,25 0,71
0,05 0,05 0,06 0,04 0,04 0,24
0,005 0,01 0,018 0,016 0,02 0,07
RESULTADOS:
X Y
m 0,024 0,23
1
m 0,0007 0,071
2
2
σ 0,000124 0,0181
m11 0,0069
σ xy 0,00138
r 0,92115
0,02
4
0,23
Varianzas:
0,00012
4
∑x n 2
2 m20 − ( )X 2 = i ni i − ( )X 2 = 0,00710 − 2
σ =x0,024 =
0,018
1
∑y n 2
σ =2 m02 − ( )Y 2 = i ni i − () 2 010,71 2
y Y = −0,23 =
Covarianza:
∑xyn
i
ii i XY = 0,069 −0,024 0,⋅ 23 = 0,00138
σxy = m11 −XY = −
n 10
b) Rectas de regresión
σxy
y =11,12903225·x −
0.03709677419
(y−0,23) = (x −0,024) ⇒
σxy
(x −0,024) = (y−0,23) ⇒
11,1290322
5
0,07624309392
σxy
byx = 2 =
σx
σxy
bxy = 2 =
σy
Las pendientes:
0,9211
5
σxy r = ± byx ⋅bxy == Correlación fuerte y
directa
σ σxy
8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como se
indica en la siguiente tabla:
x 6 9 24 38 46 48 52 75 118 196
2
x y x*y x2 y
6 1,2 7,2 36 1,44
9 1,8 16,2 81 3,24
24 3,3 79,2 576 10,89
38 7,2 273,6 1444 51,84
46 7 322 2116 49
Medias:
∑x n ii 612 ∑y n ii 114,3
X=i = = 61, 2 ; n Y=i = = 11,43 n
10 10
Varianzas:
∑x n 2
2 i i 2 67226
∑y n 2
σ =2y m02 − ( )Y 2 =i i i − ( )Y 2 =
2372,57 −11,432 = 106,6121 n 10
Covarianza:
i
i i i
XY
12611,5 ∑x y n σ xy = m11 −XY
=−= n 10 −61,2 11,⋅ 43 =
561,634
= σσxy2x = 561,6342977,16 =
0,1886476
σxy
0,996
bxy = σ2y = = 5,268013668
0,996
9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas relativas
de los 12 puntos que se expresan en la tabla:
Estaca X Y
64
71
53
4 42 67
5 31 55
6 30 58
7 35 77
8 28 57
56
10 22 51
11 41 76
12 37 68
a) X±σX
N
∑x i
X 33,5833;
N
∑x i2
σ =2x i 1= − = − 2 =
N
2
∑ i 1=
yi2 () 2 48139 2
b) σ =y −Y = −62,75 = 74,0208333
N 12
12
40,1458333
N 12
(
d) Recta de regresión de y sobre x: y−Y = 2 x −X σx )
⇒ y =
(y−62,75) = (x −33,583) 21,15+1,2387x
e) La varianza residual o no explicada
24,2923
f) R2 = 0,6718 67,18
%
es el porcentaje de la variación total de las y que se explica mediante la relación con x
d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?
Solución:
1 1
y x
x2y 1 2 2 2 3 1 3
r bxy byx 1
5x 3y 1 x 1 3 y 5 2 10
5 5
Entonces
2
3 0,5477226<0,
3
r r 10 7
10
b)
1
X
x2y 1 7
5x 3y 1 Y 4
7
I -7 -2 1.0 4 10 12
Determinar:
a) La matriz de covarianzas.
b) El coeficiente de correlación lineal e interpretarlo.
c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz.
¿Cuál será el valor estimado de la intensidad para una fuerza electromotriz de 20?
Solución:
∑E ∑I
La media para cada variable es: E = =15.25; I = i = 3 n
i
n
Para el cálculo de varianzas y covarianzas, podemos formar la tabla
E I
E−E I−I (E −E) (I−I)
(E E− ) (I I− )
2 2
σ2
a) 109.4791 60.3
Para obtener la matriz de covarianza aplicamos E σEI
b) Para
σEI 2 =
rEI2
= σI 60.3 43.3
calcular el coeficiente de 0,767 correlación aplicamos la siguiente ecuación: r = EI
σEI
= 0.876 ⇒ , por tanto, la correlación es positiva (a mayor σ σE I
fuerza electromotriz mayor intensidad, además es buena el modelo explica el 76,7%
σxy
12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística
bidimensional (x,y).
x 5 4 3 2 1 0
y 6.2 5.6 3.4 2.3 1.9 1.2
a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es
lógico adoptar un ajuste lineal.
b) Calcular:
b1) La matriz de covarianzas.
b2) El coeficiente de correlación lineal. Interpretarlo.
c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x
= 4.
d) Calcular:
d1) La varianza residual.
,d2)La varianza explicada por el ajuste lineal.
Solución:
b) En primer lugar calculamos las medias y varianzas marginales de la muestra, así como la
covarianza muestral.
Sxy 3.72
= = 0.97
El coeficiente de correlación lineal es rxy. La S·S 1.87·2.05≈ relación entre X
x y
(
y−Y = S2 x −
X
) ⇒ y−3.43 = 3.5 (x −2.5) ⇒ y = 0.77+1.06x
x
i i i i i
Se pide:
a) Estimar el modelo de regresión simple que relaciona los resultados
obtenidos con el número de horas dedicadas al estudio.
b) Calcule una medida de la bondad del ajuste e interprete el resultado.
c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el
examen?
d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para
superar la asignatura? Considerad que el 5 es el aprobado.
Solución:
a)
16 16
X =∑
i1
= xi = 96 =
∑y 64 4
i=1 i
6;Y = = = n 16 n
16 σ =2x− = 2 = n
σ =2y−
= − 2= n
16
∑ xyni i i
492
−XY =
i
σxy = −6 4⋅ =
6,75 n 16
La ecuación de la recta de Y sobre X es:
y− Y =x −X ⇒ y− y = x 4 = x −6 ⇒
−4
0,7302967433
b) rxy = σxy = 6,75 ≈ σ σx y 5,0625 16,875
por tanto, la relación lineal es directa y buena
c) Si x=8 horas, entonces y 84 4 6,6
= 3 ⋅− ≈
σxy
14.-La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura (en
ºC) en la ciudad durante 5 días,
temperatura
34 25 32 37 39
cerveza 187 123 198 232 267
a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?
b) Hallar e interpretar el coeficiente de determinación.
c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).
d) Predecir la cantidad de cerveza que se vendería en este bar un día con una
temperatura de 35ºC.
Solución:
x y X X Y Y
xx yy
2 2
x
xy entre la
temperatura y los litros de cerveza vendidos. r 0,9708072925
x y
2
94,25
%
b) R x y 0,9781 0,9424667991 se explica por el modelo.
2r 2
y (1 R )2 133,5 2321,04(10,9425)
2
d) Para predecir los litros de cerveza se utiliza la recta de regresión de y sobre x, es decir,
L: libras por 30 30 31 31 32 32 33
pulg2
L: libras por 33 34 34 35 35 36 36
pulg2
13.27 0.828
a) 2L 4; 2M 13.27 ; LM 0.828 .
0.828 4
0.113
b) rL 7
M la correlación lineal es mala y negativa como podemos
LM
observar en
L M
el diagrama de dispersión.
0.012
9
3.4
d) La varianza residual o no explicada es r 1 R 2 2
5 2
.
L
y = ‐0,2071x + 40,35
Diagrama de dispersión
R² = 0,0129
50
40
30
Millas
20
10
0
28 30 32 34 36 38
Libras
-4 −0,5
1
rxy = σxy = 68 =− 3 ≈ correlación mala
σσx y 7
xy
σ
x − =−3 (y − 2) ⇒ x= − y+
4
yjxni ij
i
RESULTADOS:
x y
m1 3,413333333 883,3333333
m2 12,00000 922500
varianzas 0,34916 142222,22222
m11 3066,666667
covarianza 51,55555556
a) Distribución
r
marginal de x:
0,231356797
x ni,
2 4
3 36
4 35
Distribución marginal de y:
n,j 14 27 34
Regresión y Correlación
b) Moda (x) = 3; x (1000, ni, Ni, Moda (y) =
Mediana (x) 1500)
La mediana de x es 3 2 4 4
3 36 40
Mediana (y)
4 35 75
y n,j N,j
0-500 14 14
500-1000 27 41
1000-1500 34 75
La mediana es el valor que deja a su izquierda el 50% de la población, es decir,
N 75
37,514,41 que no se corresponde con un valor de la columna de frecuencias
2 2
absolutas acumuladas y por tanto hay interpolar en el intervalo (50,100),
N N a 75 14 500
2 i1
Me ei1 500 2 935,185
ni 27
c) Centro de gravedad:
256 66250 256 2650 3.41,883.
X,Y , , 3
75 75 75 3
xy
x y n ij ij
y Y 142222,22
N 75 3
e) x y x 0.000036253125y+3,093125
75 142222,22 3
xy 51,56
f) rxy 0,23, El ajuste es “malo” por ser un valor
x y 0,3491 142222,2
próximo a cero,
g) se
N puede predecir.
o
∑
= 4 =1,5; σ =x N i4
0,912870929
a) rxy = σxy = 1,25 ≈ Ajuste directo y muy bueno.
1
σ σx y 1,25 1,5
b) La recta de regresión de Y sobre X:
σxy
y= x +
y−Y = σ2x x − ( ) ⇒ y−3 =(x −1.5) ⇒
X
⇒ 1.5
c) La recta de regresión de x sobre y:
σxy
x= 5/6 y -
(
x −X = σ2y y−Y ⇒ x −1.5 ) =(y−3) ⇒ 1
⇒ 3/2
Asignatura: ESTADÍSTICA
19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los
pesos y edades de los niños atendidos.
2 2 2 4 8
6 4 2 2 8 48 288
10 8 9 7 24 240 2400
14 1 2 8 14 25 350 4900
18 11 18 324
yjn.j 0 11 26 45 60 142
RESULTADOS:
X Y
m1 11 2,366667
m2 132 7,3
σ2 11 1,698889
CV 0,301511 0,550738
m11 29,46667
σxy 3,433333
r 0,794213
x ni. Ni.
0–4 2 2
4–8 8 10
8 – 12 24 34
12– 16 25 59
16- 20 1 60
M=8+(30-10)*4/24=11,333
n/2=30;
b) Medias
; y yn
Varianzas
1 5 xnx
σ = n ∑ i 2 i. −
x2 2 = 7920 −112 =11;
60
i=1
5
1 ynj 2 438 142 2
−y
2 2
1,698889
σ =
y
∑ .j
= − = n j=1
60 60
Coeficiente de variación
CV x( ) . .
c) La distribución de frecuencias acumuladas para el total de 13 niños con 2 años es:
x ni N
i
0-4 0
4-8 2 2
8-12 9 11
12-16 2 13
Teniendo en cuenta que el peso de 10 kg es justamente la mitad del intervalo (8,12) le
corresponde la mitad de 9, es decir, la frecuencia absoluta acumulada es 2+9/2=6,5 sobre el
total de 13. Justamente el 50%. . Percentil 50 o
µ
mediana
3
x ni. (xi-media)3ni.
2 2 -1458
6 8 -1000
10 24 -24
14 25 675
18 1 343
sumatorio -1464
μ3 -24,4
σ3
∑xyn
i
ii i XY = 1768 −11⋅162 = 3,43
e) σxy = −
N 60 60 σ 3,43 rxy.
xy El ajuste es “bueno” y directo por ser un
= = 111,698889 ≈ 0, 79 valor
U. D. deσσxMatemáticas
y de la ETSITGC Asignatura: ESTADÍSTICA
Regresión y Correlación
superior a 0,7
f) La recta de regresión de x sobre y permite determinar los valores de x para valores
σxy conocidos
de y: x −X = 2 (y−Y) σ y
162
x −11= 1,6988893,43 y− 60 ⇒ x = 2,020907769·y +
6,21651131
Para y=1 se obtiene un peso de x= 2,020907769 + 6,21651131 = 8,23741907
g) La recta de regresión dey sobre x permite determinar los valores de kg y para
valores
σxy conocidos
de x: y−Y = σ2x x −X ( )
162 3,43
x− = (x −11)⇒ y = 0,3121181818·x – 1,0663
60 11
1 2
1 (D −Di
) = 3,07
2
∑ ∑
D=N Di = 4,885; σD = N i
i
1 2
; σ= 1 2
∆= ∑ ∆= 3, 8 j ∆
∑ (∆−∆ ) =1, 96
j
Nj Nj
0,7
8
σD∆ = 1,927 ≈ Aceptable.
σ σD ∆ 3,07 1,96
Solución:
Entonces
x 1 1
-
2
5 r =± 5 ≈0,912870929
r=⇒ 1
6 6
Es el cociente de la desviación típica y la media. CV
X
Es siempre positivo y no existe si la media vale cero.
Es frecuente expresarlo en tanto por ciento.
Es independiente de la unidad que se utilice, pues no tiene unidades y por tanto nos
permite comparar la dispersión de dos distribuciones que tengan unidades
diferentes, o que tengan medias muy distintas.
xy y
r2 b byxxy xy2 xy2 2xy2 r xy
x y x y xy
El coeficiente de correlación lineal es un número abstracto y es independiente de
las unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las
varianzas son positivas, y comprendido entre -1 y +1.
yj
xi x*j x
y=a+bx
y*i ei
yi
xi
Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor que la
correspondiente a la recta de regresión de y sobre x.
xxx x xx
0 1 i k k+1
30
25
20
15
10
0
xi
Ni
e0 e1 ei ei+1 ek
Distribución marginal de la variable "x" son los valores que toma dicha variable
con sus respectivas frecuencias en la distribución conjunta de la variable
bidimensional (x,y)
x ni..
x1 n1.
x2 n2.
.... ....
xi ni.
.... ....
xr nr.
Mediana de un triángulo es el segmento que une un vértice con el punto medio del lado
opuesto.
En Estadística:
La mediana es el valor de la variable que ocupa el lugar central, es decir, que la mitad de
la población es menor y la otra mitad es mayor que él.
La mediana es un valor M tal que F(M)=1/2, se define así como raíz de una ecuación.
Para las variables estadísticas se ordenan en forma creciente, dejando igual número de
observaciones inferiores que superiores a ella.
a) En las distribuciones sin agrupar, en general, no tiene solución, puesto que la función F(x)
varía por saltos:
1) Si ningún valor posible xi corresponde a F(xi )=1/2 se conviene en considerar como mediana
n j a (N N j1)a (N N j1)a
N Nj 1 h h2 nj M e j1 2 nj
Cuantiles
Los más utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda
1/4, 1/2 y 3/4 de la población respectivamente. Obsérvese que Q2 = M
(Mediana).
Los deciles D1, D2, ..... , D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la
población respectivamente.
Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, .....
99/100 de la población respectivamente.
1
La varianza residual o no explicada 2r n
i,j (y * y ) ni j 2
ij
2y(1 r2)
posibles por sus respectivas frecuencias: X ik1 f xi i ik1 nNi xi
E =
x.f(x).dx cuando la variable es continua con función de densidad
f(x).
Media armónica
Medida de tendencia central de una variable estadística es el cociente entre el
tamaño de la muestra y la suma de los cocientes de las frecuencias por los
N
valores de las correspondientes de la variable: H k ni
i 1 xi
xi = valores que toma la variable o marca de clase.
fi = frecuencias relativas. ni = frecuencias
absolutas.
N = número total de la población o muestra.
Relación entre las medias armónica, geométrica y aritmética: H G X
Media geométrica
Medida de tendencia central de una variable estadística que resulta de la raíz
nésima del producto de los valores posibles de la variable, elevados a a sus
respectivas frecuencias: G N x .x ...x1n 2n1
k
n 2
xi = valores que toma la
k
136
Varianza muestral o cuasivarianza
N N
S2 2 , es decir: S2 i1
(xi X)2 i1 (xi X)2
N 1 N 1 N N 1
Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy
pequeña.
Q1 Q2 = M Q3
Q1-1,5(Q3-Q1) Q3+1,5(Q3-Q1)
fi
ni
e e
i-1 i ei-1 ei
2 i1 i NX) n2 i
la media: 2 2
E x x 2
n 2
=
V x x P(X )
i i para una variable discreta y finita.
i 1
de densidad f(x).
Varianza explicada
N N
S2 2 , es decir: S2 i1
(xi X)2 i1 (xi X)2
N 1 N 1 N N 1
Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy
pequeña.
1
La varianza residual o no explicada 2r n
i,j (y * y ) ni j 2
ij
2y(1 r2)
207
Coeficiente de regresión
xy i 1 j 1 N
Moda es el valor de la variable que se presenta con más frecuencia dentro de la distribución.
En las distribuciones sin agrupar se observa directamente el valor de mayor frecuencia.
En las agrupadas, definimos la clase modal como la que tiene mayor frecuencia.
NOTA: Algunas distribuciones pueden presentar varias modas. Cada moda corresponde a un
máximo absoluto del diagrama de barras o histograma.