Está en la página 1de 22

15/10/2018

1.- Se han lanzado dos dados varias veces. Denotando por X el resultado del primer dado y por
Y el del segundo, se obtuvieron los siguientes resultados:

X Y X Y X Y
1 2 3 1 4 1
2 3 4 6 5 2
2 1 1 6 3 6
3 4 2 5 1 6
5 3 5 1 6 2
4 2 4 2 5 1
1 6 3 5 4 2
3 4 4 1 6 5

a) Construya la tabla de correlación.


b) Calcule:
1. Medias marginales.
2. Varianzas marginales.
3. Media obtenida en el primer dado, condicionada a haber obtenido 6 en el segundo.
4. Media obtenida en el segundo dado, condicionada a haber obtenido 4 en el primero.

a) Construimos una tabla de doble entrada con las frecuencias de aparición de cada par de
valores (xi,yj) X N X * n X2 * n
i i. i i. i i.
1 4 4,00 4,00
X Y 1 2 3 4 5 6 ni· 2 3 6,00 12,00
1 0 1 0 0 0 3 4 3 5 15,00 45,00
2 1 0 1 0 1 0 3 4 6 24,00 96,00
5 4 20,00 100,00
3 1 0 0 2 1 1 5 6 2 12,00 72,00
4 2 3 0 0 0 1 6 Total 24 81,00 329,00
5 2 1 1 0 0 0 4
6 0 1 0 0 1 0 2
n·j 6 6 2 2 3 5 24
Yi n.j Yi * n.j Yi2 * n.j
1 6 6,00 6,00
b.1) y b.2) 2 6 12,00 24,00
3 2 6,00 18,00
81 4 2 8,00 32,00
X  3,38 5 3 15,00 75,00
24
6 5 30,00 180,00
 3,38  2,32
329
S X2 
2 Total 24 77,00 335,00
77
24 Y   3,21
24
 3,21  3,67
335
SY2 
2

24

1
15/10/2018

b.3) y b.4) Cal condicionar X a un valore concreto de la variable Y nos restringimos a una
única columna (Y=6). Igualmente, Y queda restringida a una única fila (X=4)

X Y 1 2 3 4 5 6 ni·
Xi/Y=6 Ni. Xi * ni.
1 0 1 0 0 0 3 4 1 3 3,00
2 1 0 1 0 1 0 3 2 0 0,00
3 1 0 0 2 1 1 5 3 1 3,00
4 1 4,00
4 2 3 0 0 0 1v 6

v
5 0 0,00
5 2 1 1 0 0 0 4 6 0 0,00
Total 5 10,00
6 0 1 0 0 1 0 2
n·j 6 6 2 2 3 5 24 10
X 2
5

Yj/X=4 n.J Yj * n.j


1 2 2,00
2 3 6,00 14
3 0 0,00 Y   2,33
4 0 0,00 6
5 0 0,00
6 1 6,00
Total 6 14,00

2.- Se examinan 20 filamentos determinando la temperatura (X) que alcanzan antes de


romperse y la duración en horas de los mismos (Y), obteniéndose los siguientes datos:
X\Y 110-200 200-230 230-250
20-30 2 3 3
30-36 n21 1 1
36-44 3 0 n33

a) Completar la tabla si Me(X)=32.


b) Si se desestima el 5% de las bombillas de menor duración y el 10 % de las de mayor
duración, determine los valores máximo y mínimo de las restantes.
c) Si la duración de los filamentos es como mucho de 230 horas, calcule la temperatura media
de los mismos.
d) Si para otro tipo de filamentos, la duración es siempre superior en 40 horas a los que
tenemos, ¿en cuál de los dos la duración media es más representativa?
Si la Mediana es 32 y hasta 30 hay 8
a) observaciones; tendremos que 2
X/Y (110 , 200] (200 , 230] (230 , 250] ni. observaciones corresponde a un segmento
(20 , 30] 2 3 3 8 de longitud 2 (32-30): lo que determina una
(30 , 36] 4 1 1 6 densidad de frecuencias en ese intervalo de
(36 , 44] 3 0 3 6 1. Como el intervalo tiene una amplitud de 6
n.j 9 4 7 20 unidades, su frecuencia debe ser 6, de donde
la casilla que falta esa fila es 4.
La otra casilla debe ser 3 para llegar a las 20
observaciones en total

2
15/10/2018

b) Debemos calcular el percentil 5 y el percentil 90 5% 10%


de la variable Y (horas de duración). En esta ocasión P5 P90
vamos a utilizar la columna Fi para su cálculo:
(Li-1 - Li] Yi ni fi fi (%) ai di Ni Fi Fi (%)
(110 , 200] 155 9 0,450 45,0 90,0 0,100 9 0,450 45,0
(200 , 230] 215 4 0,200 20,0 30,0 0,133 13 0,650 65,0
(230 , 250] 240 7 0,350 35,0 20,0 0,350 20 1,000 100,0
Total 20 1,000 100,0

0,05  Fi 1 0,05  0
P5  Li 1  ai  110  90  120
fi 0,45
0,90  Fi 1 0,90  0,65
P90  Li 1  ai  230  20  244,29
fi 0,35

c) Debemos calcular la media de X condicionada a Y ≤ 230

(Li-1 - Li] Xi Ni Xi * ni
(20 , 30] 25 5 125,00
410
(30 , 36] 33 5 165,00 X  31,54
(36 , 44] 40 3 120,00 13
Total 13 410,00

d) La nueva duración, T, será la anterior más 40 T=Y+40.

De aquí deducimos que la media de T aumenta en 40 respecto a Y y que las desviaciones son
las mismas, lo que se traduce en una disminución del coeficiente de variación.

Por tanto, existe menos dispersión relativa para la nueva duración T lo que hace que en para
esta distribución la media aritmética sea más representativa del comportamiento general.

Efectivamente: T  Y  40 
 S SY S
T  Y  40  CvT  T   Y  CvY
T Y  40 Y
ST  SY 

Si calculásemos los estadísticos, veríamos que:

Y  196,75  Cv  38,803  0,164


  T 236,75
T  X  40  236,75  
38,803
ST  S X  38,803  Cv X   0,197
 196,75

3
15/10/2018

3.- De una distribución bidimensional (X,Y) conocemos la distribución marginal de X y las


distribuciones condicionadas de Y a cada valor de X:
X ni Y/X=1 fj/X=1 Y/X=2 fj/X=2 Y/X=3 fj/X=3
1 10 2 0,2 2 0,45 2 0,4
2 20 4 0,5 4 0,3 4 0,6
3 15 6 0,3 6 0,25 6 0

a) Determine la distribución conjunta (de frecuencias absolutas) de {X,Y} y la distribución


marginal de Y.
b) Determine la distribución de frecuencias relativas de X condicionada a Y=2. Calcule su
media y varianza y también las de la variable 2X-1 condicionada también a Y=2.
a)
f ij nij
f j /i    nij  f j / i  ni.
f i. ni.
Distribución Y /X=xi Distribución Tabla de correlaciones
(frecuencias relativas fj/i) marginal de X (frecuencias absolutas nij)
Y /X=xi 2 4 6 f./i X ni. X/Y 2 4 6 ni.
1 0,20 0,50 0,30 1 1 10 1 2 5 3 10
2 0,45 0,30 0,25 1 2 20 2 9 6 5 20
3 0,40 0,60 0,00 1 3 15 3 6 9 0 15
N (n..) 45 n.j 17 20 8 45

b) Distribución de X condicionada a Y=2


X /Y=2 ni/2 fi/2 Xi * ni/2 Xi2 * ni/2
1 2 0,1176 2,00 2,00
2 9 0,5294 18,00 36,00
3 6 0,3529 18,00 54,00
17 1,0000 38,00 92,00

38
X / Y 2   2,235
17
  2,235  0,415
92 2
S X2 / Y  2
17

X   2 X 1
X   2 X  1  X   2  2,235  1  3,471
S X2   4 S X2  4  0,415  1,661

4
15/10/2018

Duración \ Tipo fax Internacionales Interprovinciales Provinciales


4.- Analizada la duración
20-45 60 22
(en segundos) de los fax 45-70 15
enviados durante el primer 70-85 15 5 7
trimestre del año por una 85-100 5 5 5
empresa, así como el tipo 100-400 4
de fax, se nos proporciona
la siguiente información: Duración Nº de fax
20-45 89
La distribución marginal de la duración de los fax 45-70 40
enviados por la empresa es: 70-85 27
85-100 15
100-400 29

La empresa ha enviado un total de 28 fax provinciales. Los fax internacionales con una
duración superior a 85 segundos suponen el 10% del total de los fax enviados por la empresa.
Responda a las siguientes cuestiones:
a) Complete la tabla de frecuencias de la variable bidimensional (X= “duración”, Y= “tipo de
fax”).
b) De los diferentes tipos de fax (internacionales, interprovinciales y provinciales) enviados
en esa empresa durante el primer trimestre, ¿cuáles son los que tienen una duración
media mayor?
c) ¿Qué duración media es más representativa, la de los fax internacionales o la de los
provinciales? Justifique su respuesta.
d) ¿Cuál es la duración mínima del 20% de los fax interprovinciales que más han durado?

a) Los fax internacionales de duración 100-400 deben ser 15 para llegar a completar los
20 (10% de 200) que indica el enunciado del ejercicio.

DATOS: Tabla INCOMPLETA de correlaciones (frecuencias absolutas nij)


X/Y Internacional Interprovincial Provincial ni. suma parcial
20-45 60 22 89 82
45-70 15 40 15
70-85 15 5 7 27 27
85-100 5 5 5 15 15
100-400 15 4 29 19
n.j 28 200 28
143
suma parcial 95 47 16 143

DATOS: Tabla COMPLETA de correlaciones (frecuencias absolutas nij)


X/Y Internacional Interprovincial Provincial ni.
20-45 60 22 7 ① 89
45-70 20 ④ 15 5 ③ 40
70-85 15 5 7 27
85-100 5 5 5 15
100-400 15 10 ② 4 29
n.j 115 57 28 200

Los nº dentro de un círculo indican el orden en el que se rellenan las casillas.

5
15/10/2018

b)
Distribución de X condicionada a Yi

X /Y fi/1 fi/2 fi/3 X


20-45 0,5217 0,3860 0,2500 32,5
45-70 0,1739 0,2632 0,1786 57,5 nij
70-85 0,1304 0,0877 0,2500 77,5 fi / j 
85-100 0,0435 0,0877 0,1786 92,5 n. j
100-400 0,1304 0,1754 0,1429 250
n./j 1,0000 1,0000 1,0000

Media 73,70 86,45 90,00 X / Y  y j   xi f i / j


Varianza 5002,647 6046,918 4712,500
i

 
Desv Típica 70,729 77,762 68,648
  x i2 f i / j  X / Y  y j
2 2
Coef. Var. 0,960 0,900 0,763 S X /Y  y j
i
La mayor duración corresponde a los provinciales (Y=3) con 90 segundos

c) La menor dispersión relativa se da en los fax provinciales con un Cv de 0,763

d)
Distribución de X condicionada a Y2
X /Y X ni/2 fi/2 Fi/2
20-45 32,5 22 0,3860 0,3860
ni 2
45-70 57,5 15 0,2632 0,6491 fi / 2 
70-85 77,5 5 0,0877 0,7368 n.2
85-100 92,5 5 0,0877 0,8246
100-400 250 10 0,1754 1,0000
57 1,0000

20%
Debemos buscar el Percentil 80:
P80

0,80  Fi 1 0,80  0,7368


P80  Li 1  ai  85  15  95,8
fi 0,0877

6
15/10/2018

5.- En una ciudad se está realizando un estudio sobre la relación existente entre el «ingreso
mensual familiar, en €» (X) y el «gasto mensual familiar en comidas para llevar, en €» (Y). Para
ello se dispone de información sobre las variables anteriores sobre un conjunto de 15 familias
de dicha localidad.

xi yi
2.262 27
3.412 47
2.496 38
1.746 16
2.982 12
1.052 20 a) Obtenga el ingreso medio mensual y el gasto medio mensual en
723 10 comidas para llevar de las familias estudiadas. ¿Cuál de ellos es
4.225 65 más representativo de su correspondiente distribución?
2.916 50 b) ¿Cuál es el sentido de la variación conjunta de ambas variables?
4.331 70 Razone su respuesta.
3.700 58
3.698 65
2.126 30
3.475 60
2.050 32
SUMA 41.194 600

En total tenemos 15 observaciones (nij=1) Xi Yi Xi 2 Yi2 XiYi


41194 2.262,0 27 5.116.644,0 729 61.074,0
X  2746,27 3.412,0 47 11.641.744,0 2209 160.364,0
15 2.496,0 38 6.230.016,0 1444 94.848,0
1.746,0 16 3.048.516,0 256 27.936,0
 2746,27   1113561
129833124
S X2 
2
2.982,0 12 8.892.324,0 144 35.784,0
15 1.052,0 20 1.106.704,0 400 21.040,0
S X  1113561  1055,25 723,0 10 522.729,0 100 7.230,0
4.225,0 65 17.850.625,0 4225 274.625,0
1055,25
Cv X   0,384 2.916,0 50 8.503.056,0 2500 145.800,0
2746,27 4.331,0 70 18.757.561,0 4900 303.170,0
3.700,0 58 13.690.000,0 3364 214.600,0
600
Y   40 3.698,0 65 13.675.204,0 4225 240.370,0
15 2.126,0 30 4.519.876,0 900 63.780,0
3.475,0 60 12.075.625,0 3600 208.500,0
 40   401,33
30020
SY2 
2
2.050,0 32 4.202.500,0 1024 65.600,0
15 41.194,0 600,0 129.833.124,0 30.020,0 1.924.721,0
SY  401,33  20,03 a) Resulta más representativa la media de los
20,03 ingresos (X) ya que su coeficiente de variación
CvY   0,501 es menor.
40
b) Hay variación conjunta positiva (Cov. Positiva)
1924721
S XY   2746,27  40  18464,07 lo que significa que aumentos (disminuciones)
15 en una variable están asociados a aumentos
18464,07 (disminuciones) en la otra. El grado de
r  0,87 dependencia lineal es alto ya que r=0,87.
1055,25  20,03

7
15/10/2018

6.- Considere la siguiente distribución del ingreso, X, y el gasto, Y, para un conjunto de 200
familias (en miles de u.m.):

X\Y 30 35 40 50 60 ni.
50 6 5 2 0 0
60 10 7 1 0 21
70 25 20 13 6 1
80 23 19 8 68
90 10 10 1 33
n.j 20 5

a) Complete la tabla de doble entrada y obtenga la moda y la mediana de los ingresos, por
un lado, y la de los gastos, por otro. Explique su significado.
b) Calcule la varianza de los ingresos de las familias que gastan 50.000 u.m. Explique lo que
tratamos de medir con esta medida. Calcule también la desviación típica. ¿Qué
diferencias existen entre una y otra medida?
c) ¿Entre las familias que ingresan 70.000 u.m. o menos, qué porcentaje gastan 35.000
u.m. o menos?
d) Calcule la covarianza. ¿Son X e Y variables independientes?
e) Determine la recta que explique el gasto en función del ingreso.
f) Obtenga el gasto esperado para una familia cuyos ingresos sean de 88.000 u.m. Comente
la fiabilidad de esa predicción.

a) X\Y 30 35 40 50 60 ni.
50 6 5 2 0 0 13 Suma de la fila
60 10 7 3 1 0 21 Suma de la fila debe se 21
70 25 20 13 6 1 65 Suma de la fila
80 23 19 15 8 3 68 Suma de la fila debe ser 68
90 10 10 7 5 1 33 Suma de la fila debe ser 33
n.j 74 61 40 20 5 200 Suma de la fila debe ser 200
Suma de la columna

Suma de la columna

Suma de la columna

Suma de la columna

Secuencia:
primero
debe ser 20

debe ser 5

segundo

Para obtener la mediana y moda de ambas variables basta fijarnos en las distribuciones
marginales.
La moda será la observación con mayor frecuencia, en este caso X=80 para los ingresos e Y=30
para los gastos.
Para la mediana tenemos que N/2=100. La primera observación con frecuencia acumulada
superior a 100 es X=80 para los ingresos (N3.=99 y N4.=167) e Y=35 para los gastos (N.1=74 y
N.2=135) .

8
15/10/2018

b)
Distribución de X condicionada a Y=50
Xi ni fi fi (%) Ni Fi Fi (%) Xi * ni X i 2 * ni
50 0 0,000 0,0 0 0,000 0,0 0,00 0,00
60 1 0,050 5,0 1 0,050 5,0 60,00 3600,00
70 6 0,300 30,0 7 0,350 35,0 420,00 29400,00
80 8 0,400 40,0 15 0,750 75,0 640,00 51200,00
90 5 0,250 25,0 20 1,000 100,0 450,00 40500,00
Total 20 1,000 100,0 1570,00 124700,00

1570
X Y 50   78,50
20
 78,50   72,750 (72.750.000 _ u.m.2 )
124700

2
S X2 / Y 50
20
S X2 / Y 50  72,750  8,529 (8.529 _ u.m.)

Ambos estadísticos son medidas de la dispersión de la distribución. La varianza está


en unidades al cuadrado mientras que la desviación típica está en la misma escala de
medida que la variable analizada.

c) Distribución de Y condicionada a X ≤ 70
Y ni
X\Y 30 35 40 50 60 ni. 30 41
50 6 5 2 0 0 13 35 32
60 10 7 3 1 0 21
40 18
70 25 20 13 6 1 65
80 23 19 15 8 3 68 50 7
90 10 10 7 5 1 33 60 1
n.j 74 61 40 20 5 200 N 99

Yi ni fi fi (%) Ni Fi Fi (%)
30 41 0,4141 41,41 41 0,4141 41,41
35 32 0,3232 32,32 73 0,7374 73,74
40 18 0,1818 18,18 91 0,9192 91,92
50 7 0,0707 7,07 98 0,9899 98,99
60 1 0,0101 1,01 99 1,0000 100,00
Total 99 1,0000 100,00

En el grupo de familias que ingresan 70.000 € o menos, los que gastan 35.000 € o
menos son el 73,74 %.

9
15/10/2018

Tabla de correlaciones (frecuencias absolutas nij)


d) X/Y 30 35 40 50 60 ni.
50 6 5 2 0 0 13
60 10 7 3 1 0 21
70 25 20 13 6 1 65
80 23 19 15 8 3 68
90 10 10 7 5 1 33
n.j 74 61 40 20 5 200
Tabla de productos XiYjnij
X/Y 30 35 40 50 60
50 9000 8750 4000 0 0
60 18000 14700 7200 3000 0
70 52500 49000 36400 21000 4200
80 55200 53200 48000 32000 14400
90 27000 31500 25200 22500 5400
542150
N

x y i i
542150
S XY  i 1
 XY  S XY   74,35  36,28  13,70
N 200
Las variables no son independientes ya que la SXY ≠0. Evidentemente a esta misma conclusión
hubiésemos llegado al observar las frecuencias relativas conjuntas y verificar que en al menos
una casilla el producto de las frecuencias relativas marginales no es igual a la frecuencia
relativa conjunta. Particularmente, en este caso, esto es muy sencillo de comprobar ya que
hay casillas con frecuencia cero.

Para resolver los dos últimos apartados necesitamos obtener las medias y varianzas de las
distribuciones marginales de X e Y:

Distribución Marginal de X Distribución Marginal de Y


Xi n i X i * ni X i 2 * ni Yi ni Yi * ni Yi2 * ni
50 13 650,00 32500,00 30 74 2220,00 66600,00
60 21 1260,00 75600,00 35 61 2135,00 74725,00
70 65 4550,00 318500,00 40 40 1600,00 64000,00
80 68 5440,00 435200,00 50 20 1000,00 50000,00
90 33 2970,00 267300,00 60 5 300,00 18000,00
Total 20014870,00 1129100,00 Total 200 7255,00 273325,00

14870 7255
X  74,35 Y   36,275
200 200
 74,35  117,578
1129100
 36,275  50,749
273325
S X2  SY2 
2 2

200 200

10
15/10/2018

e)
  S 13,704
 b  XY2   0,1166
Y  a  bX   S X 117,578
a  Y  bX  36,275  0,1166  74,35  27,609

f)

Y  27,609  0,1166 X
X  88  Yˆ  27,609  0,1166  88  37,866
X 88

Para evaluar la fiabilidad o grado de ajuste del modelo, calculamos el coeficiente de


determinación:

R2 
2
S XY

13,704 2
 0,0315
S X SY 117,578  50,749
2 2

El modelo solo logra explicar un 3,15% de la variabilidad observada en los gastos, por
lo que estos datos sugieren escasa relación entre el nivel de ingreso y el gasto
realizado (salvo que la relación fuera de tal forma que su componente lineal fuese no
significativa).

7.- Se desea conocer si existe alguna relación entre los gastos en publicidad (P) y las ventas (V)
de un determinado producto a partir de la siguiente información:

P 32,1 35,1 37 32,5 36 38 34 32 28 35 33 28


V 1,1 1,5 1,75 1,1 1,65 1,6 1,38 1,2 0,9 1,6 1,5 1
(P está dada en miles de euros y V en millones de euros)

a) Interprete el gráfico. ¿Cuál es su nombre(s)? ¿Qué conclusiones se pueden extraer de su


observación?
b) Obtenga el modelo lineal que expresa las ventas en función de los gastos en publicidad.
c) Obtenga la bondad del ajuste.
d) ¿Qué nivel de ventas estima que se podría alcanzar si se realiza un gasto en publicidad
de 31.000 euros?

11
15/10/2018

a) El grafico se denomina de dispersión o nube de puntos. Representa los puntos (x,y),


siendo X los gastos de publicidad e Y el importe de las ventas.
Podemos apreciar que existe una relación directa entre publicidad y ventas que sugiere que
incrementos del esfuerzo en publicidad tiene como consecuencia un incremente en el nivel
de ventas alcanzado.
b)
 33,3917   9,1335
400,70 13489,67
X  33,3917 S X2 
2

12 12
 1,3567   0,0744
16,28 22,98
Y   1,3567 SY2 
2

12 12
552,68
S XY   33,3917 1,3567  0,7541
12
  S 0,7541
 b  XY2   0,0826
Y  a  bX   SX 9,1335
a  Y  bX  1,3567  0,0826  33,3917  1,4015

c) Para evaluar la fiabilidad o grado de ajuste del modelo, calculamos el coeficiente de


determinación:

S2
R  2XY 2 
2 0,7541  0,8369 (83,69%)
2

S X SY 9,1335  0,0744

c) 
Y  1,4015  0,0826 X
X  31  Yˆ  1,4015  0,0826  31  1,1591
X 31

Ya que el grado de ajuste es alto (83,69%) y que el valor para el que obtenemos la
predicción, X=31, está cercano a la media podemos tener confianza en la estimación de las
ventas que alcanzarían la cifra de 1.159.100 euros

No obstante, dada la magnitud de las variables, hubiera sido recomendable trabajar con el
mayor nº posible de decimales, pues se puede comprobar que los errores de redondeo
alteran de forma apreciable los resultados obtenidos.

12
15/10/2018

8.- En una encuesta realizada a 10 familias se han obtenido los siguientes resultados sobre sus
gastos de alimentación (Y) y sus ingresos totales (X)

x  y 
10 10 10

x  2.167 y  660  y  64,5


2 2
X = 14,3 Y = 7,9 i i i i
i 1 i 1 i 1

Ambas variables están expresadas en cientos de euros y se refieren al período de un mes.


a) Estime una ecuación lineal que explique los gastos en función de los ingresos.
b) Obtenga el coeficiente de determinación.
c) Si los ingresos aumentaran en 10 euros, ¿en cuánto cree que aumentarían los gastos de
alimentación?
a) Tengamos en cuenta que: 0

 x  X  y
i
i i  Y    xi  yi  Y   X   yi  Y    xi  yi  Y   64,5
i i i

 14,3  12,210
2167
X  14,3 S X2 
2

10
 7,9   3,590
660
Y  7,9 SY 
2 2

10
64,5
S XY   6,45
10
  S 6,45
 b  XY2   0,5283
Y  a  bX   S X 12,210
a  Y  bX  7,9  0,5283 14,3  0,3459

b)

R2 
2
S XY

6,45  0,9491 (94,91%)
2

S X SY 12,21  3,59
2 2

c) Basta que nos fijemos en la pendiente de la recta de regresión:

Yˆ  a  bX
Incremento_de_10_euros  X  0,1
X  0,1  Yˆ  0,1b  0,05283  5,283 _ euros

13
15/10/2018

9.- Una empresa dedicada a construir naves industriales ofrece los siguientes datos sobre la
superficie de las naves construidas y su coste de construcción:

140 Superficie Coste


Coste 120 (m2) (miles de euros)
100
80 40 56
60
60 80
40
20 70 72
20 40 60 80 100 120
80 96
Superficie
100 120

a) Obtenga la recta de regresión que permite estime el coste de construcción en función de


la superficie construida.
b) ¿En qué medida el coste depende del m2 de superficie construida?
c) Para realizar una nave de 90 m2 da un presupuesto de 110.000 euros. Estime si tendrá
beneficios con esta nueva construcción.
d) Un nuevo material permite construir la misma superficie pero con la mitad de coste.
Obtenga la recta que relaciona superficie y coste con este nuevo material.

a) xi x2i yi y2i xi·yi


 70   400
350 26500
X  70 S X2 
2
40 1600 56 3136 2240
60 3600 5 5
80 6400 4800
 84,8  476,16
424 38336
Y   84,8 SY2 
2
70 4900 72 5184 5040
80 6400 96 9216 7680
5 5
100 10000 31760
350 26500
120 14400 12000 S XY   70  84,8  416
424 38336 31760 5

 S 416
 b  XY2   1,04
 SX 400
a  Y  bX  84,8  1,04  70  12
b) Para evaluar la fiabilidad o grado de ajuste del modelo, calculamos el coeficiente de
determinación:
R2 
2
S XY
2

416  0,9086 (90,86%)
S X2 SY2 400  476,16

c) El coste estimado para una superficie construida de 90 m2 es:

Si X = 90 Yˆ  12  1,04  90  105,6 (105.600 _ euros )

14
15/10/2018

1 
d) V  Y 
2 S 2 1 S 1
 b'  XY2   XY2  b
1  SX 2 SX 2
SV2  SY2  
4  a '  Y  bX  Y  bX   1 a
1 1 1
1  2 2 2 2
S XV  S XY 
2 
12 1,04
Yˆ  12  1,04 X  Vˆ   X  Vˆ  6  0,52 X
Por tanto 2 2
2 2 2
S XV S XY 4 S XY
R '2     R2
S X2 SV2 S X2 SY2 4 S X2 SY2
El coeficiente de determinación R2 (y el coeficiente de correlación lineal, r) no varían
por el cambio de escala.
Hacer un cambio de variable no altera la naturaleza de la relación existente entre las
variables originales, por ello la recta de regresión solo cambia en lo referente al ajuste
necesario para incorporar el cambio de variable efectuado:
Y  a  bX 
 a b
Y   2V  a  bX  V   X
V   Y  2V  2 2
2 
12 1,04
Yˆ  12  1,04 X  Vˆ   X  Vˆ  6  0,52 X
2 2

10.- Para una determina empresa se tiene información sobre las ventas y los beneficios (ambos
en millones de euros). Se conocen datos de 10 años. Año Ventas Beneficios
1 15,8 2,3
2 12,3 1,8
3 14,5 2,1
4 15,7 2,3
5 12,7 1,8
6 13,5 1,9
7 13,7 2,0
8 15,9 2,2
9 13,7 1,9
10 14,3 2,1

a) Determine la recta de regresión que explica los beneficios en función de las ventas.
b) La recta obtenida en el apartado anterior, ¿se adapta bien a los datos?
c) Si aumentan las ventas en 500.000 euros ¿cuál es el aumento estimado de los
beneficios?
d) Responda a los apartados a) y b) suponiendo que las ventas hubiesen sido un 1%
superiores durante todo el período de tiempo y sin cambiar los beneficios.

15
15/10/2018

a)
 14,21  1,465
142,1 2033,89
x  142,1 x  2033,89 X  14,21 S X2 
2 2
i i
i i 10 10
 2,04   0,032
20,4 41,94
y  20,4 y  41,94 Y   2,04 SY2 
2 2
i i
i i 10 10
291,99
x y
i
i i  291,99 S XY 
10
 14,21  2,04  0,2106

 S 0,2106 
 b  XY2   0,1438 
 SX 1,465 
a  Y  bX  2,04  0,1438 14,21  0,0029

b) Para evaluar la fiabilidad o grado de ajuste del modelo, calculamos el coeficiente de


determinación: 2
R2 
S XY

2
0,2106  0,9345 (93,45%)
S X2 SY2 1,465  0,032

c)
Si ∆X = 0,5 Yˆ  bX  0,1438  0,5  0,0719 (71.900 _ euros )

d) X '  1,01X
X '  1,01X  b'  1,01S XY  S XY  b  0,1438  0,1423
 1,012 S X2 1,01S X2 1,01 1,01
S X2 '  1,01 S X2  
2

b
S X 'Y  1,01S XY  a'  Y  1,01X  Y  bX  a  0,0029
 1,01

S X2 'Y 1,012 S XY
2 2
S XY
R '2     R2
S X2 ' SY2 1,012 S X2 SY2 S X2 SY2

El coeficiente de determinación R2 (y el coeficiente de correlación lineal, r) no varían


por el cambio de escala.

Podríamos haber hecho el cambio de variable en la ecuación de regresión original y


hubiésemos obtenido la nueva ecuación:
Y  a  bX 
 X' b
X' Y  ab Y  a X'
X '  1,01X  X   1, 01 1, 01
1,01
 0,1438 
Yˆ  0,0029  0,1438 X  Y  0,0029  X '  Y  0,0029  0,1423 X '
1,01

16
15/10/2018

11.- Una asesoría laboral dispone de los siguientes datos, referentes al número de bajas
laborales durante un año, para 31 empresas de diferente tamaño:
nº de trabajadores 10 12 20 25 35 50 xi
nº de bajas laborales 1 1 2 3 4 4 yi
nº de empresas 12 5 2 4 7 1 ni
a) Estime, mediante un ajuste lineal, el número de bajas laborales para una empresa con
30 trabajadores.
b) Determine la fiabilidad de la estimación.

 19,839   132,071
615 16295
xn  615 x n  16295 X  19,839 S X2 
2 2
i i i i
i i 31 31
 2,097   1,700
65 189
yn  65 y n  189 Y   2,097 SY2 
2 2
i i i i
i i 31 31
1740
x yn
i
i i i  1740 S XY 
31
 19,839  2,097  14,532

 S 14,532 
 b  XY2   0,11  2 2
S XY 14,532 
2

 S 132 , 071  R  2 2   0,9404


S X SY 132,071 1,700
X
a  Y  bX  2,097  0,11 19,839  0,0861

Si X =30 Yˆ  0,0861  0,11  30  3,2

12.- En un estudio sobre los factores que influyen en la duración de los contratos temporales,
en trabajos que no requieren especialización, se desea analizar si la edad del trabajador es una
posible causa de que dichos contratos se prolonguen más o menos meses, para ello se explora
la siguiente tabla de datos:
Y = “Duración del contrato (meses)”
X = “Edad” 0-3 3-6 6-12 12-18
18-20 3 5 8 12
20-25 7 7 10 8
25-30 8 10 7 7
30-40 12 9 6 3

a) Estudie la independencia entre X e Y.


b) Obtenga las distribuciones marginales.
c) Halle la media aritmética, varianza, desviación típica y coeficiente de variación de ambas
variables. Halle la mediana e intervalo modal de Y. Interprete los resultados.
d) Obtenga la duración media de contrato de los contratados con una edad menor o igual a
25 años.
e) Calcule el porcentaje de contratados con más de 25 años y con un contrato de más de 6
meses.
f) Calcule la covarianza.
g) Determine la recta que explica la duración del contrato en función de la edad.

17
15/10/2018

a) Para comprobar la independencia podemos elaborar la tabla de frecuencias relativas.


Las variables serán independientes si fij=fi.∙f.j
Basta que en un caso no se dé la igualdad para que la variables sean dependientes.
Tabla de correlaciones (frecuencias absolutas nij) Tabla de correlaciones (frecuencias relativas fij)
X / Y (0 , 3] (3 , 6] (6 , 12] (12 , 18] ni. X / Y (0 , 3] (3 , 6] (6 , 12] (12 , 18] fi.
(18 , 20] 3 5 8 12 28 (18 , 20] 0,0246 0,0410 0,0656 0,0984 0,2295
(20 , 25] 7 7 10 8 32 (20 , 25] 0,0574 0,0574 0,0820 0,0656 0,2623
(25 , 30] 8 10 7 7 32 (25 , 30] 0,0656 0,0820 0,0574 0,0574 0,2623
(30 , 40] 12 9 6 3 30 (30 , 40] 0,0984 0,0738 0,0492 0,0246 0,2459
n.j 30 31 31 30 122 f.j 0,2459 0,2541 0,2541 0,2459 1,0000

f1.  f. j  0,2295  0,2459  0,0564  f11  NO _ INDEPENDIENTES

b)
Distribución Marginal de X
(Li-1 - Li] Xi ni fi fi (%) ai di Ni Fi Fi (%) Xi * ni Xi2 * ni
(18 , 20] 19 28 0,230 23,0 2,0 14,000 28 0,230 23,0 532,00 10108,00
(20 , 25] 22,5 32 0,262 26,2 5,0 6,400 60 0,492 49,2 720,00 16200,00
(25 , 30] 27,5 32 0,262 26,2 5,0 6,400 92 0,754 75,4 880,00 24200,00
(30 , 40] 35 30 0,246 24,6 10,0 3,000 122 1,000 100,0 1050,00 36750,00
Total 122 1,000 100,0 3182,00 87258,00

b) Distribución Marginal de Y
(Li-1 - Li] Yi ni fi fi (%) ai di Ni Fi Fi (%) Yi * ni Yi2 * ni
(0 , 3] 1,5 30 0,246 24,6 3,0 10,000 30 0,246 24,6 45,00 67,50
(3 , 6] 4,5 31 0,254 25,4 3,0 10,333 61 0,500 50,0 139,50 627,75
(6 , 12] 9 31 0,254 25,4 6,0 5,167 92 0,754 75,4 279,00 2511,00
(12 , 18] 15 30 0,246 24,6 6,0 5,000 122 1,000 100,0 450,00 6750,00
Total 122 1,000 100,0 913,50 9956,25

c)

 26,08  34,96 S X  34,96  5,913 Cv X 


3182 87258 5,913
X  26,08 S X2   0,227
2

122 122 26,08


 7,49   25,543 SY  25,543  5,054 CvY 
913 9956,25 5,054
Y   7,49 SY2   0,675
2

122 122 7,49

0,50  Fi 1 0,5  0,492


Me X  PX 50  Li 1  ai  25  5  26,08
fi 0,262

0,50  F j 1 Observar que F2=0,5, por lo que


Me y  PY 50  L j 1  aj  6 sabemos que la mediana es el
fj
extremo superior del intervalo

Para X, el intervalo modal es (18 ; 20] y para Y es ( 3; 6] ya que en ambos


casos son los intervalos con mayor densidad de frecuencias (di)

18
15/10/2018

d) Distribución de Y condicionada a X<=25


(Li-1 - Li] Yi ni Yi * ni
531
(0 , 3]
(3 , 6]
1,5
4,5
10
12
15,00
54,00
YX  25   8,85
60
(6 , 12] 9 18 162,00
(12 , 18] 15 20 300,00
Total 60 531,00

e) Tabla de correlaciones (frecuencias absolutas nij) Tabla de correlaciones (frecuencias relativas fij)
X / Y (0 , 3] (3 , 6] (6 , 12] (12 , 18] ni. X / Y (0 , 3] (3 , 6] (6 , 12] (12 , 18] fi.
(18 , 20] 3 5 8 12 28 (18 , 20] 0,0246 0,0410 0,0656 0,0984 0,2295
(20 , 25] 7 7 10 8 32 (20 , 25] 0,0574 0,0574 0,0820 0,0656 0,2623
(25 , 30] 8 10 7 7 32 (25 , 30] 0,0656 0,0820 0,0574 0,0574 0,2623
(30 , 40] 12 9 6 3 30 (30 , 40] 0,0984 0,0738 0,0492 0,0246 0,2459
n.j 30 31 31 30 122 f.j 0,2459 0,2541 0,2541 0,2459 1,0000

Sea p la proporción de contratos de mayores de 25 años y con duración superior a 6 meses:

7  7  6  3 23 
p   0,1885 
122 122   18,85%
p  0,0574  0,0574  0,0492  0,0246  0,1885

f)

 x y n i j ij
22671
S XY   XY  S XY   26,08  7,49  9,466
i j

N 122

g)

 S  9,466
  b  XY2   0,271
Y  a  bX   SX 34,96
a  Y  bX  7,49  0,271  26,08  14,55

19
15/10/2018

13.- La siguiente tabla muestra información sobre el salario mensual (en miles de euros) y el número de
años de educación media-superior completados por los empleados (hombres) de una empresa:
Años \ Salario 1 - 1,2 1,2 - 1,4 1,4 - 1,8 1,8 - 2,5
0 6 2 0 0
3 4 3 4 0
4 1 2 4 2
7 0 1 5 5
9 0 0 1 10

Sabiendo, además, que en la distribución de salarios de las mujeres de la empresa (que suponen el
37,5% de los trabajadores de la misma), la media es igual a 1,5, la desviación típica a 0,5 y el índice de
Gini a 0,75, responda a las siguientes cuestiones expresando los resultados en euros.
a) Calcule el salario medio de los hombres de la empresa, así como el salario medio del total de
trabajadores de la empresa. ¿Qué salario medio es más representativo de su distribución, el de los
hombres o el de las mujeres?
b) Para los hombres de la empresa, ¿cuál es el número de años de estudio más frecuente? ¿Y el
intervalo salarial más frecuente? ¿Cuál es el salario que cobra, como mínimo, el 30% de los
trabajadores que más cobran?
c) Dentro de los hombres de la empresa que cobran más de 1.400 euros, ¿qué porcentaje suponen los
que han completado como mínimo 7 años de estudios medios-superiores?
d) ¿Está el salario de los hombres más concentrado que el de las mujeres? Razone su respuesta.
e) Obtenga la covarianza entre el salario y el número de años de educación de los hombres de esta
empresa. A la vista de este resultado, ¿podría concluir que son independientes estadísticamente?
f) Encuentre la recta de regresión que expresa el salario de los hombres de esta empresa en función
del número de años de educación media-superior que han completado.
g) Comente la bondad del ajuste que ha realizado. ¿Qué salario cabría esperar para un hombre que
hubiera completado 5 años de este tipo de educación?

a) Sea Y el salario de los hombres y Z el salario de las mujeres:

yn
i
i i  81,45 y n
i
2
i i  141,2525

 1,629   0,171 SY  0,171  0,414


81,45 141,2525
Y   1,629 SY2 
2

50 50
Z  1,5 S Z2  0,52  0,25 S Z  0,5
0,414
CvY   0,2542
1,629
0,5
CvZ   0,3333
1,5
El salario medio es más representativo en la población de hombres que en la de mujeres
ya que el coeficiente de variación de los hombres es inferior al de las mujeres.

Para calcular el salario medio total debemos promediar los salarios medios de hombres y
mujeres:

f hombres  0,625
  Salario  0,625Y  0,375Z  0,625 1,629  0,375 1,5  1,581
f mujeres  0,375 

20
15/10/2018

b) Años \ Salario 1-1,2 1,2-1,4 1,4-1,8 1,8-2,5 marginal


0 6 2 0 0 8
3 4 3 4 0 11
4 1 2 4 2 9
7 0 1 5 5 11
9 0 0 1 10 11
marginal 11 8 14 17 50
amplitud 0,2 0,2 0,4 0,7
densidad 55 40 35 24,29
Frec Acumulada 11 19 33 50

Los años de estudio más frecuentes (moda) son 3, 7 y 9 con una frecuencia absoluta de 11.

El intervalo salarial más crecuente (I. modal) será (1; 1,2) por tener mayor densidad de
frecuencias (55).

La última cuestión, salario mínimo del 30% que más cobra, se resuelve calculando el percentil
del 70%:

0,7 N  N i 1 35  33
P70  Li 1  ai  1,8  0,7  1,882
ni 17

c) DISTRIBUCIÓN DE HOMBRES CON SALARIOS SUPERIORES A 1,4


Años \ Salario Nº f F
0 0 0 0
3 4 0,12903226 0,12903226
4 6 0,19354839 0,32258065
7 10 0,32258065 0,64516129
9 11 0,35483871 1
marginal 31 1
El % de hombres con 7 o más años de estudio, dentro del grupo de salarios superiores a 1,4,
es del 67,74% (f7+f9 ; o bien simplemente 21/31)

d) total
INDICE DE GINI salarios Fi (%)
salarios
(Li-1 - Li] Xi ni Xi * ni Ni acumulado pi qi
(1 , 1,2] 1,1 11 12,10 11 12,1 22,00 14,86
(1,2 , 1,4] 1,3 8 10,40 19 22,5 38,00 27,62
(1,4 , 1,8] 1,6 14 22,40 33 44,9 66,00 55,13
(1,8 , 2,5] 2,15 17 36,55 50 81,45 100,00 100,00
Total 50 81,45 126,0 97,6
r 1

Q i
97,61 El salario de los hombres está menos
IG X  1  i 1
r 1
 1  0,2254 concentrado que el de las mujeres ya que el IG
P
126 de hombres es 0,2254 y el de mujeres 0,75.
i
i 1

21
15/10/2018

Tabla de correlaciones (frecuencias absolutas nij)

xn  x n  1673
X\Y 1,1 1,3 1,6 2,15 marginal
0 6 2 0 0 8 i i.  245 2
i i.
i i
3
4
4
1
3
2
4
4
0
2
11
9 y n
j
j .j  81,45  y n  141,2525
j
2
j .j

7 0 1 5 5 11
9 0 0 1 10 11 x y n
ij
i j ij  449,95
marginal 11 8 14 17 50

e)
245 81,45 449,95
X  4,9 Y   1,63 S XY   4,9 1,63  1,0169
50 50 50
Dado que la covarianza es distinta de cero resulta que las variables NO son independientes.

No obstante, para llegar a esta conclusión hubiese sido suficiente advertir que hay frecuencias
conjuntas cero, luego no es posible que las frecuencias relativas conjuntas sean el producto de
las marginales, lo que no lleva a la NO independencia.

f y g) Para resolver los dos últimos apartado necesitamos obtener la varianzas de X e Y:

1673 141,2525
S X2   4,9 2  9,45 SY2   1,632  0,171
50 50

e)
 S 1,0169 
 b  XY2   0,1076 
 SX 9,45 
a  Y  bX  1,63  0,1076  4,9  1,1017 

f)

R2 
2
S XY

1,0169  0,6384 (63,84%)
2

S X2 SY2 9,45  0,171

Si X =5 Yˆ  1,1017  0,1076  5  1,639,76 (1.639,76 _ euros )

22

También podría gustarte