Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Diagrama de Dispersion 2020 PDF
Diagrama de Dispersion 2020 PDF
Se pide:
SOLUCIÓN:
a)
b) Se obtiene a partir de la tabla de doble entrada sumando las frecuencias y las filas, o bien por
columnas según el caso.
Marg. Tabaquismo FREC. Marg.Accid. Lab. FREC.
525 525
c) La distribución de una variable condicionada a que otra variable tome un determinado valor
de la distribución de frecuencias de la variable cuando mantenemos fijo el valor condicionante
de otra variable.
Muy Grave Grave Lesión Med. Leve
Como ejemplo del cálculo de la distribución porcentual del Tipo de lesión condicionado al
individuo sea Muy Fumador se realizará dividiendo cada una de las frecuencias de la fila
Fumador entre el número total de Muy Fumadores y después multiplicariamos como
((20/70)*100=28.57; (10/70)*100=14.29,…).
La medida descriptiva de la asociación entre las variables viene dada a través de la medida que
indica la distancia relativa que existe entre la tabla de frecuencias observadas en la tabla de
frecuencias esperadas si las variables fueran independientes. La expresión para las frecuencias
esperadas es la siguiente:
Donde E es la frecuencia esperada en la celda (i,j), F es la suma de las frecuencias de f y C es la
suma de las frecuencias de la fila j.
La distancia relativa al cuadrado que existe entre una celda de la tabla de frecuencias observadas
es la misma celda de la tabla de esperadas viene dada por:
Por otra parte podemos estudiar cuáles son los pares de categorías que influyen en mayor
medida en la existencia de la asociación. Este lo realizaremos por medio de análisis gráfico
atendiendo al siguiente criterio:
M.F Obs. 20 10 10 30 70
M.F Sim. @ O O . 70
F. Obs. 30 40 20 50 140
No F. Obs. 5 20 30 50 105
No F. Esp. 13 26 28 38 105
No F. Sim.. O O . o 105
X2 = 75.917 este valor depende del tamaño de la muestra y de la forma de la tabla, por tanto
utilizaremos el valor V de Cramer como medida descriptiva de la asociación entre variables,
esta medida esta comprendida entre 0 y 1, siendo las variables independientes cuande vale 0 y
existiendo asociación perfecta cuando vale1. La expresión para V es:
Hombre 50 135 78
Mujer 20 147 98
Se pide:
a) Representar gráficamente las variables en estudio.
b) Calcular una medida descriptiva del nivel de asociación entre ambas variables. Realizar
un análisis gráfico y analizar los resultados.
SOLUCIÓN:
a)
b)
Alto Medio Bajo Marg.Sexo
V=0.172
3. De una determinada empresa se conocen los siguientes datos, referidos al volumen de
ventas ( en millones de pesetas) y al gasto en publicidad ( en miles de pesetas) de los
últimos 6 años:
Volumen de ventas(mill. Ptas) Gastos Publicidad(miles ptas.)
10 16
15 32
20 48
22 56
30 64
32 80
a) ¿ Existe relación lineal entre las ventas de la empresa y sus gastos en publicidad?
Razona la respuesta.
b) Obtener las rectas de regresión mínimo cuadrático.
c)¿ Qué volumen de ventas de la empresa se podría esperar en un año que se gaste de
publicidad 60000 pesetas? ¿ Y para un gasto en publicidad de 200000 pesetas?
d) Si lo único que interesase fuese la evolución del volumen de ventas en términos de
gastos en publicidad, sin tener en cuenta la cantidad concreta de cada uno de ellas,
¿existiría correlación ordinal entre ambas variables?
SOLUCIÓN:
Ahora calculamos el coeficiente de determinación lineal para obtener una medida descriptiva
del grado de asociación lineal que existe entre las variables. La expresión del coeficiente de
determinación es:
es:
Substituyendo obtenemos que r2 vale 0.956 que es lo que cabía esperar después de observar el
diagrama de dispersión.
b) Si expresamos las rectas de regresión como y*= a+bx y x*=c+dy los coeficientes de los
calculados son como:
c) Para realizar la predicción del volumen de ventas utilizamos la recta de regresión que tienen
las ventas en función de los gastos en publicidad. Para un gasto en publicidad de 60000 pesetas
obtendremos un volumen de ventas de x*=3.604+0.363*60=25.384 millones de pesetas.
Si el gasto es de 200 millones de pesetas no podemos utilizar la recta de regresión puesto que el
valor 200 esta fuera del recorrido del gasto en publicidad. Si sustituimos nos da un valor de
76204 millones de pesetas, pues las rectas sólo son válidas dentro del rango o para valores
próximos a los extremos del recorrido.
X 16 32 48 56 64 80
Rang Y 1 2 3 4 5 6
Rang X 1 2 3 4 5 6
di 0 0 0 0 0 0 0
Di2 0 0 0 0 0 0 0
El coeficiente de Spearman cuando no existen empates en los rangos, como ocurre en estos
datos, tiene la siguiente expresión:
En este caso rs es 1 por tanto existe correlación ordinal positiva y perfecta, es decir a mayor
gasto en publicidad mayor volumen de ventas.
4. Un banco estatal de cierto país está estudiando la posibilidad de bajar los tipos de
interés para incentivar la inversión privada, y así abrir la posibilidad de creación de
puestos de trabajo. Para ello contrasta los tipos de interés real de diferentes países con la
inversión privada en los mismos, todo ello durante el último período. Obteniéndose los
resultados que aparecen reflejados en la siguiente tabla:
10-50 2 6
50-100 1 5
100-150 1 4
150-200 5 1
SOLUCIÓN:
Para facilitar el seguimiento de los cálculos necesarios para resolver el problema construimos la
siguiente tabla resumen: (variable X=tipo de interés real; variable Y=inversión).
30 0 0 2 6 8 240 7200
75 0 1 5 0 6 450 33750
0 9.375 65.625 0
9.375 62.5 0 0
65.625 21.875 0 0
1. Para estudiar la relación lineal entre las variables tipo de interés e inversión utilizaremos
el coeficiente de determinación como medida descriptiva de este hecho.
2. y*=237.863-948.760x
3. El incremento en una unidad de la variable independiente coincide con el valor de la
pendiente de la recta; en este caso el incremento será de -948.760( observamos que en
este problema el incremento es ficticio pues 1 se sale del recorrido de la variable
independiente).
4. El incremento será el producto entre la pendiente y la diferencia entre el tipo de interés
en los dos estados, es decir, aumenta en -948.760*(0.09-0.18)=85.388miles de millones.
CONCIERTOS
LPs 10-30 30-50 50-70
1-6 3 2 1
6-11 1 4 1
11-16 2 1 5
SOLUCIÓN:
a) 9000 LPs
c) y*=28.22+1.42x
d) y*=28.22+1.42*1.8=30776 Conciertos.
Se pide:
SOLUCIÓN:
a) y*=-10.746+2.202x
b) r=0.959
7. Una empresa de manufacturas basa las predicciones de sus ventas anuales en los
resultados oficiales de la demanda total en la industria. A continuación se dan los datos de
demanda total y las ventas efectuadas por la empresa en los últimos 11 años.
SOLUCIÓN:
8. Se está estudiando la relación entre el número de años que una persona está afiliada al
sindicato y el nivel de satisfacción con la actuación de dicho sindicato. Para ello se parte de
los datos de 7 individuos tomados aleatoriamente de personas adscritas a partidos
políticos, obteniéndose:
Años 8 7 10 3 6 13 4
Satisfacción 7 5 8 5 9 9 3
SOLUCIÓN:
1. r=0.711
2. y*=3.118+0.474x ; y*=3.118+0.474*11=8.332 en la escala de satisfacción.
3. x*=0.270+1.068*y; x*=0.270+1.068*6= 6.678 años.
SOLUCIÓN:
1. y*=68.291-0.167x
2. r=0.556 ; r2=0.309
3. y*=68.291-0.167*115= 49.086 e y*=68.291-0.167*135=45.746 ; el precio estará entre
45.746 y 68.291 pesetas
U 1 2 3 4 5 6 7 8 9 10
V 3 5 6 5 7 9 10 9 10 10
W 4.543 4.543 4.543 4.543 4.543 4.543 4.543 4.543 4.543 14.117
X 6.646 6.646 6 6 6 7 7 5.684 8.838 14.186
SOLUCIÓN:
a)
2. v*=3.067+0.788u ; x*=3.067+0.788w
3. ruv=0.877 ; rwx=0.877
4. Podemos observar que ambas rectas son exactamente iguales y que la relación lineal en
ambas es la misma, pero se puede apreciar en las variables U/V la recta es más
representativa que en el otro caso. Observamos que la presencia del outlier puede
cambiar el resultado esperado.
5. En el diagrama de dispersión U/V no se observan outliers. En el diagrama W/X se
advierte la presencia de un outlier, que es el punto( 14.117,14.186) si lo eliminamos
obtenemos la x*=6.646 y la asociación lineal entre ellas es nula,
6. Este apartado se realizará para las variablea U/V vR=3.571+0.714u.
7. La principal conclusión es que hay que dibujar siempre el diagrama de dispersión de
datos.
11. Un gerente de recursos humanos desea determinar el salario que debe pagar acierta
categoría de obreros. Para determinar dicho salario que debe pagar a cierta categoría de
obreros. Para determinar dicho salario se realiza un estudio en el que intervienen las
variables Salario Mensual( en miles de ptas), Nivel de Producción Anual en la Empresa(
en millones de ptas) y Nivel de especialización Media del Trabajador ( de 0 a 10). El
gerente obtiene esta serie de resultados:
Sal. 123.4 135.7 115.9 100.6 98.7 150.4 124.6 110.0 138.6 123.4
Prod. 300.5 325.9 298.6 200.9 300.4 359.8 279.6 215.6 250.0 300.0
Esp. 4.3 5.5 7.8 4.9 4.3 8.5 6.4 5.6 5.3 5.0
Se pide:
¿Qué salario se debería pagar si el nivel de producción fuese de 315 millones de ptas. y el
nivel medio de especialización de 6.6?
SOLUCIÓN:
La recta a construir tendrá la forma y*= a+b1x1+b2x2 y para calcular los coeficientes de
la recta aparece un Sistema de Ecuaciones Come éste:
Que tiene por solución a=56198 b1=0.158 b2=3.664 . Por tanto el plano de regresión es :
y*=56.198+0.158x1+3.664x2
y*=56.198+0.158*315+3.664*6.6=130.15
SOLUCIÓN:
a)
d) La variación porcentual es el cociente entre la variación total y la situación inicial por 100.
En este problema será de:
(-0,0184/0.9115956)x100=-2,018%
13. Las calificaciones obtenidas por 9 alumnos en los exámenes del primer trimestre y
del segundo son:
1º 5 7 6 9 3 1 2 4 6
2º 6 5 8 6 4 2 1 3 7
Calcular:
xi yi xi2 yi2 xi yi
5 6 25 36 30
7 5 49 25 35
6 8 36 64 48
9 6 81 36 54
3 4 9 16 12
1 2 1 4 2
2 1 4 1 2
4 3 16 9 12
6 7 36 49 42
43 42 257 240 237
xi
yj 1,65-1,70 1,70-1,75 1,75-1,80
70-75 1
75-80 2 2
80-85 1 1 3
xi = Tallas yj = Pesos
SOLUCIÓN:
Efectuamos un cambio de variable mediante
xi´
-1 0 1 f·j f·j yj f·j yj2
yj´
-1 72,5 70-75 1 1 -1 1
0 77,5 75-80 2 2 4 0 0
1 82,5 80-85 1 1 3 5 5 5
fi·
4 3 3 10 4 6
fi· xi´
-4 0 3 -1
f·i xi´2
4 0 3 7
1- Coeficiente de correlación
Luego
Luego
xi
15-20 20-25 25-30 30-35 35-40
yj
15-18 3 2 3
18-21 4 2 2
21-24 7 10 6 1
24-27 2 5 3
Calcular:
1- Recta de regresión de y sobre x.
2- Recta de regresión de x sobre y.
SOLUCIÓN:
Construimos la siguiente tabla:
xi´
-2 -1 0 1 2 f·j f·j yj´ f·j yj´2
yj´
0 19,5 18-21 4 2 2 8 -8 8
1 22,5 21-24 7 10 6 1 24 24 24
3 22,5 24-27 2 5 3 10 30 90
fi·
3 13 17 13 4 50 22 194
fi· xi´
-6 -13 0 13 8 2
f·i xi´2
12 13 0 13 16 54
48 3 2 2 1 0 0
51 2 3 4 2 2 1
54 1 3 6 8 5 1
57 0 0 1 2 8 3
60 0 0 0 2 4 4
1. Hallar el peso medio y la talla media así como el error cometido al resumir pesos y tallas
por sus valores medios ¿ Que media es mejor?
2. Hallar la distribución según las tallas de los individuos que pesan 54 kg y la
distribución según los pesos de los individuos que miden entre 161 cm y 167 cm. Hallar
media y varianza de las dos distribuciones condicionadas.
SOLUCIÓN:
Si llamamos X a la variable pesos e Y a la variable tallas, los datos pueden arreglarse en una
tabla de doble entrada como sigue para realizar los cálculos:
X/Y 160 162 164 166 168 170 Ni. Ni.xi Ni.xi2
48 3 2 2 1 0 0 8 384 18432
51 2 3 4 2 2 1 14 714 36414
54 1 3 6 8 5 1 24 1296 69984
57 0 0 1 2 8 3 14 798 45486
60 0 0 0 2 4 4 10 600 36000
Para hallar el peso medio y la talla media se calcularán las medias de las distribuciones
marginales de X e Y respectivamente. Asimismo para cuantificar el error cometido al resumir
pesos y tallas por sus valores medios se cuantificarán los coeficientes de variación de pearson
para ambas marginales. Las distribuciones marginales de X e Y son las siguientes:
X ni. Y n.j
48 8 160 6
51 14 162 8
54 24 164 13
57 14 166 15
60 10 168 19
170 9
Tenemos lo siguiente:
5
1 3792
X =
N
∑i =1
ni =
70
= 54,17
6
1 11600
Y=
N
∑n
j =1
j xj =
70
= 165,71
5
1 206316
σ x2 =
N
∑n xi =1
i
2
i −X2 =
70
− 54,17 2 = 12,98
6
1 1922896
σ y2 =
N
∑n j =1
j y 2j − Y 2 =
70
− 165,712 = 10,13
σx 12,98
Vx = = = 0,0665 ≅ 6,65%
X 54,17
σy 10,13
Vy = = = 0,0192 ≅ 1,92%
Y 165,71
X/Y=162, 164,
166 n i/j=2, 3, 4 Y/X=54 n j/i=3
48 5 160 1
51 9 162 3
54 17 164 6
57 3 166 8
60 2 168 5
170 1
5
1 1908
X / Y =162,164,166 =
N
∑n
i =1
i / j = 2 , 3, 4 xi =
36
= 53
6
1 3968
Y / X =54 =
N
∑n
j =1
j / i =3 yj =
24
= 165,33
5
1 101448
σ x2/ y =162,164,166 =
N
∑n
i =1
i / j = 2 , 3, 4 x i2 − 53 2 =
36
− 53 2 = 9
6
1 656176
σ y2 / x =54 =
N
∑n
j =1
j / i =3 y 2j i − 165,33 2 =
24
− 165,33 2 = 5,55
X/Y 15 24 27 30
12 3 4 2 5
15 6 8 4 10
19 9 12 6 15
SOLUCIÓN:
Para estudiar la independencia de las dos variables utilizando la distribución conjunta y las
marginales tenemos que comprobar quefij=fi.f.j \/ i,j.
La primera tarea será construir una tabla con la distribución conjunta (fij=nij/N) y con
las marginales (fi.=ni./N y f .j=n.j/N).
X/Y 15 24 27 30 ni.
12 3 4 2 5 14
15 6 8 4 10 28
19 9 12 6 15 42
n.j 18 24 12 30 84
fij fi.
Observamos que, una vez realizados estos cálculos, se obtiene la tabla de la distribución
conjunta fij.
3 / 14 = 6 / 28 = 9 / 42 = 18 / 84
4 / 14 = 8 / 28 = 12 / 42 = 24 / 84
2 / 14 = 4 / 28 = 6 / 42 = 12 / 84
5 / 14 = 10 / 28 = 15 / 42 = 30 / 84
Para estudiar la independencia de las dos variables utilizando las distribuciones marginales
y la condicionadas también podríamos comprobar que fi/j=fi. \/ i,j.
nj. 18 24 12 30 84
3 / 18 = 4 / 24 = 2 / 12 = 5 / 30 = 14 / 84
6 / 18 = 8 / 24 = 4 / 12 = 10 / 30 = 24 / 84
9 / 18 = 12 / 24 = 6 / 12 = 15 / 30 = 42 / 84
La covarianza entre X e Y viene dada por la expresión:
h k
1
σ xy =
N
∑∑ ( x
i =1 j =1
i − x)( y j − y )nij
Luego para su cálculo necesitamos las medias de las dos marginales X e Y, que se
calcularán con los datos de la tabla:
X/Y 15 24 27 30 nj.
12 3 4 2 5 14
15 6 8 4 10 28
19 9 12 6 15 42
n.j 18 24 12 30 84
3
1 1386
X =
N
∑n x
i =1
i i =
84
= 16,5
4
1 2070
Y=
N
∑n
j =1
j xj =
84
= 24,64
La covarianza, que será cero debido a la independencia, puede calcularse como sigue
1
σ xy = [(12 −16,5)(15 − 24,6) + (12 −16,5)(24 − 24,6) + (12 −16,5)(27 − 24,6) + (12 −16,5)(30 − 24,6) +
N
(15 −16,5)(15 − 24,6) + (15 −16,5)(24 − 24,6) + (15 −16,5)(27 − 24,6) + (15 −16,5)(30 − 24,6) +
(19 −16,5)(15 − 24,6) + (19 −16,5)(24 − 24,6) + (19 −16,5)(27 − 24,6) + (19 −16,5(30 − 24,6)+ = 0
1 34155
m11 = σ XY =
N
∑x y n
i, j
i j ij − XY =
84
− 16,5 ∗ 24,64 = 0
∑x y n
i, j
i j ij = 34155
18. En una empresa se toma una muestra de 100 trabajadores con la finalidad de estudiar
si hay relación entre su edad X y los días que están de baja en el año Y. se obtienen los
siguientes resultados:
18-30 28 2 0 30
30-40 26 15 4 45
40-50 6 14 5 25
SOLUCIÓN:
N.j 60 91 100
Realizamos los siguientes cálculos:
3
1 3420
a10 = X =
N
∑n x
i =1
i i =
100
= 34,2
3
1 1980
a 01 = Y =
N
∑n
j =1
j xj =
100
= 19,8
3
1 123030
m20 = σ x2 =
N
∑n x
i =1
i
2
i − X 2 = a 20 − a102 =
100
− 34,2 2 = 1230
123 ,3 − 1169,64 = 60,66
a 20
3
1 56400
m02 = σ y2 =
N
∑n y
i =1
i
2
i − Y 2 = a 02 − a01
2
=
100
− 19,8 2 = 564
{ − 392,04 = 171,96
a02
3
1 1980
a03 = Y =
N
∑n x
i =1
i
3
i =
100
= 19,8
Para estudiar la asimetría del número de días de baja de los trabajadores calculamos el
coeficiente de asimetría de Fisher de la variable marginal Y como sigue:
m03 2243,184
g 01 = = = 0,99
σ 3
Y ( 171,96) 3
Se observa que hay una ligera asimetría hacia la derecha, pero muy pequeña. Los días
de baja se distribuyen casi simétricamente a lo largo del año.
Para calcular la edad más frecuente de los trabajadores que piden la baja hallaremos la moda de
la variable marginal X. Observamos que el intervalo modal es [30,40] ya que es el que tiene
mayor frecuencia ni. El cálculo de la moda se realiza como sigue:
d i +1 2,5
M 0 = Li −1 + ci = 30 + 10 = 35años
d i −1 + d i +1 2,5 + 2,5
Ahora intentaremos ajustar los días de baja en función de la edad de los trabajadores mediante
un modelo de regresión exponencial de ecuación y=abx
y = ab x ⇒ Log ( y ) = Log (a) + Log (b) x
1
σ N
∑x y n
i, j
i j ij −X
Log (b) XZ =
σ X2 σ X2
a = 10 0, 6013 = 10,04
b = 10 0,01782 = 3,99
Para medir la calidad de este ajuste podemos utilizar el coeficiente de determinación R² que se
calcula como:
3 3
σ2 ∑∑ ( y
i =1 j =1
i − (3,99(1,04) xi )) 2 nij
126,14
R2 = 1− e
= 1− = 1− = 0,26
σ2
Y σ 2
y 171,96
El ajuste no es de calidad porque R² esta más cerca del cero que de la unidad. El ajuste por
regresión lineal de la forma y= a+bx siendo:
1
σ xy N
∑x y n i j ij − XY 1
72860 − 34,20 *19,80
b= =
i, j
= 100 = 0,854
σ x2 σ x2 60,66
El coeficiente de determinación será en este caso el cuadrado del coeficiente de correlación que
se calcula como sigue:
2
1 1
σ XY
2
(
N
∑ xi y j nij − X Y ) 2
100
728960 − 34,20 * 19,80
= = 0,2536
i, j
r = 2 2 =
2
El ajuste lineal tampoco es de calidad por que R² esta más cerca de cero que de la unidad.
Además el ajuste exponencial es mejor que el ajuste lineal por que su coeficiente de
determinación es mayor (0,26>0,25536).
19. Los ahorros S y los ingresos Y mensuales en cientos de euros de una muestra de 10
familias de una determinada región se presentan en la siguiente tabla:
S 1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3 2,7 3,0
Y 20,5 20,8 21,2 21,7 22,1 22,3 22,2 22,6 23,1 23,5
1. Ajustar los datos anteriores a un modelo lineal que explique lo ahorros
familiares en función de los ingresos de la región dada.
2. Ajustar los datos anteriores a un modelo lineal parabólico que explique los
ahorros familiares en función de los ingresos para la región dada.
4. ¿Qué ahorro se puede prever para una familia de la región que ingrese 2500
euros mensuales?
SOLUCIÓN:
Comenzaremos elaborando una tabla de datos adecuada para los cálculos a realizar en el
problema.
SI yi S i yi 2
yi S i y i2 y i3 y i4
10 10
∑ S i = Na + b∑ y i
i =1 i =1
10 10 10
∑ S i y i = a∑ y i + b∑ y i2
i =1 i =1 i =1
21,9=10a+220b
484,64=220a+4848,38b
a=-5,4
b=0,34
S i = −5,4 + 0,34 y i
σ YS2 0,284 2
r2 = = = 0,72421527
σ y2σ s2 0,838 * 0,1329
Se observa que la calidad del ajuste es buena por que el coeficiente de determinación es alto (el
coeficiente de correlación vale 0,72421527 = 0,851 que es un valor elevado indicativo de
alto grado de relación entre el ahorro y la renta de las familias.
yi 2,6 2,9 3,4 4,1 5,1 6,0 7,2 9,2 11,2 13,1 15,2 17,3 19,9
Ki 0,6 0,6 0,8 1,0 1,3 1,4 1,6 1,9 2,2 2,5 2,9 3,5 3,9
SOLUCIÓN:
Se trata de un ajuste tipo potencial. Todo este tipo de ajustes se resuelve aplicando logaritmos
para linea rizar de la siguiente forma:
11,2137= 13 A + 2,54022 c
A=0,6471
C=1,1
Para medir la calidad del ajuste potencial medimos la del ajuste lineal al que es equivalente
utilizando el coeficiente de correlación o su cuadrado el coeficiente de determinación se calcula:
σ xZ
2
0,763 2
r = 2 2 =
2
= 0,98
σ x σ Z 0,0692 * 0,0851
Se observa que la calidad del ajuste lineal es buena por que el coeficiente de determinación es
alto( el coeficiente de correlación vale 0,98 = 0,994 , que es un valor elevado indicativo del
alto grado de relación entre Z y Xi.
21. La siguiente tabla muestra el número de gérmenes patógenos por centímetro cúbico de
un determinado cultivo según el tiempo transcurrido:
Nº de Horas 0 1 2 3 4 5
Nº de gérmenes 20 26 33 41 47 53
SOLUCIÓN:
22. En un depósito cilíndrico, la altura del agua que contiene varia conforme pasa el
tiempo según esta tabla:
Tiempo (h) 8 22 27 33 50
Altura (m) 17 14 12 11 6
SOLUCIÓN:
a) . Hay una relación muy fuerte entre dos variables, y negativa. A medida que
pasa el tiempo, la altura va bajando (se va consumiendo el agua).
b) La recta de regresión es , donde , .
c)
SOLUCIÓN:
a)
b) . La relación entre las variables es fuerte y negativa. A mayor cantidad de
pescado, menos es el precio por kilo.
c) La recta de regresión es
4 3 8 9 8 7 2 0
5 8 0 3 9 6 5 3
1 3 2 3 9 10 4 6
6 3 10 10 8 7 7 5
1 0 4 8 5 3 6 7
2 1 8 7 3 2 15 7
2 0 2 0 4 1 6 4
4 2 6 3 3 2 3 0
5 6 6 6 0 0 9 8
6 5 5 3 2 1 0 10
SOLUCIÓN:
Tomando en filas los valores de x y en columnas los valores de y podremos hacer:
Y
X 0 1 2 3 4 5 6 7 8 9 10
0 I 1 I 1 III 3 I 1
1 II 2 I 1
2 II 2 I 1
II
3 I 1 I 1 I 1 I 1 III 3 2
4 I 1
5 I 1 I 1
6 I 1 I 1 I 1 I 1
7 I 1 I 1 III 3
8 I 1 I 1 I 1
9 I 1
10 I 1 I 1 I 1
25. Las alturas (x) y los pesos (y) de 20 hombres son los siguientes:
X Y X Y
1.72 63 1.76 71
1.70 75 1.70 70
1.70 68 1.69 66
1.68 70 1.66 60
1.75 74 1.78 74
1.69 72 1.74 69
1.71 67 1.70 65
1.69 69 1.69 71
1.67 70 1.71 73
1.74 84 1.78 69
SOLUCIÓN:
La distribución de frecuencias será la siguiente:
Y
X 60-65 65-70 70-75 75-80 80-85 TOTAL
1.65-1.70 I 1 II 2 IIII 4 7
1.70-1.75 I 1 IIII 4 I 1 I 1 I 1 9
1.75-1.80 I 1 III 3 4
TOTAL 2 7 9 1 1 20
Con las tablas de cálculo correspondiente a las distribuciones marginales podremos calcular las
medias y las desviaciones estándar pedidas:
Distribución marginal de Y:
Li-1-Li ni yi ni y i y i 2 ni
Y = 34,350/20 = 1,7175
Sy = 0,037.
Distribución marginal de X:
Li-1-Li ni yi ni y i yi2ni
X = 1410/20 = 70.50
Sx = 4,58
7 6 5 4 5 3
6 6 9 10 4 6
3 5 10 8 4 7
4 6 4 5 8 9
6 5 6 4 9 7
3 4 9 8
5 3 6 5
8 9 7 6
5 4 4 3
9 10 8 7
SOLUCIÓN:
12
10
6
M
0
0 2 4 6 8 10 12
F
27. Sea una distribución bidimensional en donde Syx = 4.1, Sy^2 = 9 y el coeficiente de
regresión de la recta de Y/X es b = -1,1.
Determínese:
SOLUCIÓN:
lo cual es imposible, ya que los dos coeficientes de regresión deben ser del mismo signo, puesto
que, como
y las varianzas son no negativas, entonces el signo de b y b' debe ser el mismo que la covarianza
Sxy.
Como en este caso Sxy = 4,1 > 0, no puede ser b = -1,1, resultado que necesariamente debe
estar equivocado.
Aceptando como verdadero valor Sxy = 4,1, lo único que podemos determinar es la recta de
regresión de X sobre Y
b) Por los mismos motivos que antes no se puede determinar r, ya que, como
Este coeficiente r debe tener también el mismo signo que Sxy, b y b'.
28. Estúdiese en cuáles de los casos que a continuación se relacionan los resultados que se
ofrecen son compatibles entre si:
SOLUCIÓN:
a) Como el coeficiente de regresión de la recta b = 4 es positivo, no puede ser el coeficiente de
correlación lineal negativo.
r = Sxy/SxSy = 100/5*20 = 1
r = sqrt(1-Se^2/Sy^2) = sqrt(1-0/400) = 1
y, por tanto
d) Sabemos que el punto de corte entre las dos rectas de regresión debe ser (x,y); para
comprobar que en este caso se verifica esta propiedad resolveremos el sistema de ecuaciones
formado por estas dos ecuaciones
y = 1/2x+4 2y-x = 8
x = y+4 -y+x = 4
de donde
y = 12 = y
x = 4+y = 4+12 = 16 = x
que son precisamente los dos valores medios que nos ofrecen.
xi 10 20 30 40 50
xi 10 20 30 40 50 = 150
y* = a+bx
siendo
b = Sxy/Sx^2 a = y-bx
Por tanto,
y = 228-2,6.
30. En un determinado sector, la producción y las exportaciones durante los últimos años
han sido:
(10^6 Ptas.)
Exportaciones 80 80 90 92 98
(10^6 Ptas.)
SOLUCIÓN:
x = a+by
xj 80 80 90 92 98 = 440
Tendremos que
El modelo ajustado es
x = 7,36+0,18y
Se estima que la producción en 1988 va ser de 640 millones de pesetas y que las condiciones
del mercado internacional no cambian. Esta última hipótesis nos faculta para poder seguir
utilizando el modelo lineal ajustado por tanto,
Estadísticamente, al ser elevado el grado de asociación lineal entre las variables, debemos
aceptar como muy posible el resultado.
X 60 63 65 70 70 70 80 80 80 80 85 89 90 90 90 90
Y 7 9 7 6
SOLUCIÓN:
1) A partir de los datos experimentales que nos proporcionan, obtenemos el siguiente
gráfico de dispersión:
10
8
Presión 6
sanguinea 4
2
0
0 20 40 60 80 100 120
Presión sonora
1 k
S = ∑ (xi − x ) ni = 158.432
2 2
x
n i =1
1 k
S y2 = ∑ ( yi − y )2 ni = 6.537
n i =1
S xy
y− y = (x − x )
S x2
y = 0.171x − 9.813
32. Sea (X,Y) una variable aleatoria bidimensional con función de densidad conjunta
f ( x, y ) = xy si 0 ≤ x ≤ 1 , 0 ≤ y ≤ 1
SOLUCIÓN:
Las correspondientes funciones de densidad marginales son:
x
fX ( x ) = ∫ f ( x, y )∂y = ∫ xy∂y =
1 1
0 0 2
y
fY ( y ) = ∫ f ( x, y )∂x = ∫ xy∂x =
1 1
0 0 2
Se obtiene entonces:
1
α 10 = E [X ] = ∫ xfX ( x )∂x = = E [Y ] = α 01
1
0 6
[ ]
E X 2 = ∫ x 2 fX ( x )∂x =
0
1 1
8
[ ]
= EY2
y por lo tanto:
µ 20 = σ x2 = E (X 2 ) − [E ( X )]2 =
7
72
1
α 11 = E [ XY ] = ∫ ∫ xyf (x, y )∂y∂x = 9
1 1
Además:
0 0
1 11 1 1
µ11 = Cov = α 11 − α 10 ·α 01 = − · = −
9 6 6 9 36
µ11
y − α 01 = (x − α 10 )
µ 20
1 1
−
1 1
y − = 9 36 x −
6 7 6
72
1 6 1
es decir: y− = x −
6 7 6
33. Sea la variable aleatoria bidimensional (X,Y) que asigna probabilidades iguales
a los puntos: (1,1); (2,3); (3,2); (4,4); obtener la recta de regresión mínimo cuadrática de Y
sobre X.
SOLUCIÓN:
Recta de regresión de Y sobre X:
µ11
y − α 01 = (x − α 10 )
µ 20
4
1 1 1 1 10
α 10 = E [ X ] = ∑ xi P( X = xi ) = 1 + 2 + 3 + 4 = = 2.5
i =1 4 4 4 4 4
α 01 = E [Y ] = ∑ y j P (Y = y j ) = 2.5
4
j =1
[ ] ( )
4
1 2 30
E X 2 = ∑ xi2 P( X = xi ) = 1 + 2 2 + 32 + 4 2 =
i =1 4 4
µ 20 = σ x2 = E (X 2 ) − [E ( X )]2 =
30
− (2.5) = 1.25
2
1
y − 2.5 = (x − 2.5)
1.25
y = 0.8 x + 0.5
Alum. 1 2 3 4 5 6 7 8 9 10
Mat. 6 4 8 5 3.5 7 5 10 5 4
SOLUCIÓN:
Indiquemos por X la nota de matemáticas y por Y la nota de música.
1
Medias: x=
n
∑ xi = 5.75
1
y=
n
∑ yi = 6.3
1
Covarianza: S xy =
n
∑ xi yi − x y = 3.075
Varianzas:
1
S x2 =
n
∑ xi2 − x 2 = 3.763
1
S y2 =
n
∑ y i2 − y 2 = 2.96
S xy 3.075
Coef. de correlación: r= = = 0.9214
SxSy 3.763·2.96
Coef. de regresión:
S xy
b21 = = 0.817
S x2
S xy
b12 = = 1.039
S y2
X 9 9 4 6 8 9 7 6 9 9 9 8 8 9 8 9 9 9 10 9 15 10 12 12 10 10 12 10 10 12 12 10
Y 3 8 3 8 3 8 8 8 3 8 12 12 8 8 8 12 12 20 8 20 8 8 20 8 8 12 8 20 20 3 3 20
a) Escribir la distribución de frecuencias conjunta. ¿Cuál es el porcentaje de veces
que transcurre más de nueve minutos desde la anterior utilización y se imprimen
menos de 12 páginas? ¿Cuántas veces se imprimen menos de 12 páginas y
transcurren 9 minutos desde la anterior utilización?
b) Frecuencias marginales. ¿Cuantas veces se imprimen como mucho 12 páginas?
¿Cuántas páginas como mucho se imprimen en el 80 % de las ocasiones?
c) Dibujar el diagrama de dispersión.
SOLUCIÓN:
a) Escribir la distribución de frecuencias conjunta. ¿Cuál es el porcentaje de veces
que transcurre más de nueve minutos desde la anterior utilización y se imprimen
menos de 12 páginas? ¿Cuántas veces se imprimen menos de 12 páginas y
transcurren 9 minutos desde la anterior utilización?
4 1/0,03 - - - 1 0,03
6 - 2/0,06 - - 2 0,06
7 - 1/0,03 - - 1 0,03
15 - 1/0,03 - - 1 0,03
n.j 6 15 5 6 32 -
8
Más de 9 min. → 13 → Menos de 12 Pág. → 8 → = 0.25 ⇒ 25%
32
6
9 min. → 11 → Menos de 12 Pág. → 6 → = 0.19 ⇒ 19%
32
n.j 6 15 5 6 32
N.j 6 21 26 32
n*k 32 * 80
N i −1∠ ≤ N i ⇒ 21∠ = 25.6 ≤ 26
100 100
P80 = 12 Pág.
25
20
Nº de Pág. impresas
15
10
0
0 5 10 15 20
Tiempo
36. Se midió el tiempo en segundos que tardaron en grabarse los mismos 24 ficheros en
cada uno de los dos tipos de discos (31/3 y 51/4). Los tiempos observados fueron:
31/3 1.2 1 1.1 0.5 1.1 1.5 1 1.4 1.4 1.3 0.4 1.2 0.4 0.3 0.3 1.5 1.4 1.1 1.2 1.2 0.4 0.5 1.3 1.5
51/4 1.3 1.1 1.2 0.4 1.2 1.4 1.1 1.6 1.6 1.5 0.4 1.5 0.4 0.3 0.3 1.6 1.3 1.1 1.3 1.1 0.4 0.4 1.4 1.6
SOLUCIÓN:
a) Construye la tabla de frecuencias conjuntas. ¿Cuál es el porcentaje de ficheros que
tardan menos de 1.5 segundos en el primer tipo de disco y más de 1.4 en el
segundo? ¿Cuántos ficheros tardan en grabarse entre 0.6 y 1.2 segundos en el
primer tipo de disco? ¿Cuánto tiempo tarda como mucho en grabarse al menos el
90,5 de los ficheros en el segundo tipo de disco?
xi\yj 0,3 0,4 1,1 1,2 1,3 1,4 1,5 1,6 ni. fi. Ni. Fi.
n.j 2 5 4 4 1 2 2 4 24 -
N.j 2 7 11 15 16 18 20 24
F.j 0,083 0,292 0,458 0,625 0,667 0,750 0,833 1,000
4
= 0.17 ⇒ 17%
24
9
Entre 0.6 y 1.2 seg. En X → = 0.375 ⇒ 37.5%
24
n*k 24 * 90.5
N i −1∠ ≤ N i ⇒ 20∠ = 21.72 ≤ 24
100 100
P90.5 = 1.6seg.
n.j 0 0 1 2 0 0 1 0 4
N.j 0 0 1 3 3 3 4 4
0,80
0,60
0,40
0,20
0,00
0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60
3 1/3
Se puede observar como los puntos describen una línea recta difusa.
S xy
y− y= * (x − x )
S x2
∑x *n i i
x= i =1
⇒ x = 1.008
n
n
∑y
j =1
j * nj
y= ⇒ y = 0.97
n
n
∑x 2
i * ni
Sn = 2
x
i =1
− x 2 ⇒ Snx2 = 0.1739
n
∑y
j =1
2
j * nj
Sn = 2
y − y 2 ⇒ Sn y2 = 0.3895
n
Sn y = Sn y2 = 0.624
n n
∑∑ n
i =1 j =1
ij * xi * y j
S xy = − x * y = 0.1756
n
0.1756
y − 0.97 = * ( x − 1.008) → y = 1.00977 * x − 0.0478
0.1739
Si x = 0.8 → y = 0.75996
Medida de fiabilidad
S xy
rxy = = 0.6748
Sx * S y
Es una medida de fiabilidad mala puesto que no llega al 70 %, aunque este cerca.
37. Las siguientes son las calificaciones obtenidas por los 25 alumnos de un grupo de
Bachillerato en las asignaturas de Biología y Química:
B 4 5 5 5 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9 9 9 9 10
Q 3 5 5 6 7 7 7 7 7 7 8 8 8 7 7 8 8 8 8 8 8 8 10 10 10
SOLUCIÓN:
a) Obtener la tabla de frecuencias conjunta.
xi\yj 3 5 6 7 8 10 ni. fi. Ni. Fi.
n.j 1 2 1 8 10 3 25 -
N.j 1 3 4 12 22 25
25 − 4
Más de un 5 en B y en Q → * 100 = 84%
25
25 − 4
Más de un 5 en B → * 100 = 84%
25
25 − 3
Más de un 5 en Q → *100 = 88%
25
4 - 0 0,000 0 0,000
5 - 0 0,000 0 0,000
9 - 0 0,000 8 1,000
10 - 0 0,000 8 1,000
6
Notable = 7-8 → * 100 = 75%
8
12,00
10,00
8,00
Química
6,00
4,00
2,00
0,00
0,00 2,00 4,00 6,00 8,00 10,00 12,00
Biología
Se puede observar como a mas nota en biología se tiende a sacar mas nota en química, es una
relación lineal ascendente.
∑x *n i i
x= i =1
⇒ x = 7.32
n
n
∑y
j =1
j * nj
y= ⇒ y = 7.4
n
n
∑x 2
i * ni
Sn =
2
x
i =1
− x 2 ⇒ Snx2 = 2.2176
n
∑y j =1
2
j * nj
Sn =
2
y − y 2 ⇒ Sn y2 = 2.32
n
Sn y = Sn y2 = 1.523
n n
∑∑ n
i =1 j =1
ij * xi * y j
S xy = − x * y = 1.992
n
S xy
rxy = = 0.878
Sx * S y
Aquí observamos lo que ya se había comentado al ver el gráfico, y es que hay una tendencia
lineal ascendente, por lo que a mayores notas en Biología, ese mismo alumno, tendrá
mayores notas de Química.
38. Los siguientes datos corresponden a los tiempos en segundos que tardaron en
ejecutarse seis programas elegidos al azar en el entorno Windows y en DOS:
Programa
SOLUCIÓN:
5
4
3
2
1
0
1 2 3 4 5 6
Programa
Datos de Windows:
Re = 8.5 − 2.5 = 6
n = 6 ≤ 50 ⇒ m = n = 6 = 2.5 ⇒ Ci = 3
Re 6
ai = = = 2 ⇒ ai = 2
Ci 3
Datos de Dos:
Re = 8 − 2.3 = 5.7
n = 6 ≤ 50 ⇒ m = n = 6 = 2.5 ⇒ Ci = 3
Re 5.7
ai = = = 1.9 ⇒ ai = 2
Ci 3
n.j 2 1 3 6 -
N.j 2 3 6
S xy
y− y= * (x − x )
S x2
∑c * n i i
x= i =1
⇒ x = 6.5
n
n
∑c
j =1
j * nj
y= ⇒ y = 5.83
n
n
∑c 2
i * ni
Sn =
2
x
i =1
− x 2 ⇒ Snx2 = 2.33
n
∑c j =1
2
j * nj
Sn =
2
y − y 2 ⇒ Sn y2 = 3.26
n
Sn y = Sn y2 = 1.8
n n
∑∑ ni =1 j =1
ij * xi * y j
S xy = − x * y = 2.355
n
2.355
y − 5.83 = * ( x − 6.5) → y = 1.011 * x − 0.7397
2.33
Si x = 3 → y = 2.29 seg
S xy
rxy = = 0.8568
Sx * S y
Es una medida de fiabilidad buena puesto que llega al 70 % y lo sobrepasa hasta llegar a un
85.68 %.
39. Un determinado partido político, se plantea el problema de hasta que punto le pueden
compensar los gastos de la campaña de propaganda para las futuras elecciones. En las
últimas elecciones, los gastos de publicidad y el número de diputados elegidos han sido:
1500 3
1750 4
3250 4
4000 6
5000 8
a) ¿Cuál será el número de diputados que serían elegidos de ese partido de acuerdo
con este presupuesto, si la imagen del partido no varía respecto a las elecciones
anteriores?
b) ¿Con qué confianza se puede esperar ese resultado?
c) ¿Cuál sería el porcentaje de causas diferentes a la publicidad que influirían en las
elecciones?
SOLUCIÓN:
a) ¿Cuál será el número de diputados que serían elegidos de ese partido de acuerdo
con este presupuesto, si la imagen del partido no varía respecto a las elecciones
anteriores?
n.j 1 2 1 1 5 -
N.j 1 3 4 5
S xy
y− y= * (x − x )
S x2
∑x *n i i
x= i =1
⇒ x = 3100
n
n
∑y
j =1
j * nj
y= ⇒ y =5
n
n
∑x 2
i * ni
Snx2 = i =1
− x 2 ⇒ Snx2 = 1765000
n
∑y j =1
2
j * nj
Sn =
2
y − y 2 ⇒ Sn y2 = 3.2
n
Sn y = Sn y2 = 1.789
n n
∑∑ ni =1 j =1
ij * xi * y j
S xy = − x * y = 2200
n
2200
y −5= * ( x − 3100) → y = 1.246 *10−3 * x + 1.136
1765000
Si x = 10 000 → y = 13.596 Diputados
S xy
rxy = = 0.9256
Sx * S y
92.56 % de confianza
40. La resistencia del papel utilizado en la fabricación de cajas de cartulina (Y) está
relacionado con la concentración de madera dura en la pulpa original (X). Bajo
condiciones controladas, una planta piloto fabrica 16 muestras con un lote diferente de
pulpa y mide la resistencia a la tensión. Los datos obtenidos son los siguientes:
X 1 1.5 1.5 1.5 2 2 2.2 2.4 2.5 2.5 2.8 2.8 3 3 3.2 3.3
Y 101.4 117.4 117.1 106.2 131.9 146.9 146.8 133.9 111 123 125.1 145.1 134.3 144.5 143.7 146.9
SOLUCIÓN:
Datos de X:
Re = 3.3 − 1 = 2.3
n = 16 ≤ 50 ⇒ m = n = 16 = 4 ⇒ Ci = 4
Re 2.3
ai = = = 0.575 ⇒ ai = 0.6
Ci 4
Datos de Y:
n.j 2 5 3 6 16 -
N.j 2 7 10 16
160,00
140,00
120,00
100,00
Resistencia
80,00
60,00
40,00
20,00
0,00
0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50
Concentración de madera dura
Lo que se observa es una variación muy leve de la resistencia a medida que aumentamos la
concentración.
b) Hallar el coeficiente de correlación.
∑c * n i i
x= i =1
⇒ x = 2.35
n
n
∑c
j =1
j * nj
y= ⇒ y = 129.15
n
n
∑c 2
i * ni
Sn =
2
x
i =1
− x 2 ⇒ Snx2 = 0.5175
n
∑c j =1
2
j * nj
Sn =
2
y − y 2 ⇒ Sn y2 = 165.9375
n
Sn y = Sn y2 = 12.88
n n
∑∑ n
i =1 j =1
ij * xi * y j
S xy = − x * y = 5.9625
n
S xy
rxy = = 0.644
Sx * S y
S xy
y− y= * (x − x )
S x2
5.9625
y − 129.15 = * ( x − 2.35) → y = 11.52 * x + 102.07
0.5175
Si x = 2.3 → y = 128.566
41. Sabiendo que x = 3, s2x = 6, s2y = 8 y que la recta de regresión de Y sobre X es:
SOLUCIÓN:
S xy
y− y= * (x − x )
S x2
S xy
⇒ = −0.667
S S S x2
y = xy2 * x + y − xy2 * x = 4 − 0.667 * x
Sx Sx S xy
⇒ y− *x =4
S x2
S xy
y = 4+ * x = 4 − 0.667 * 3 = 1.999 ≈ 2
S x2
S xy
x−x = * (y − y)
S y2
−4
x−3= * ( y − 2) → x = 4 − 0.5 * y
8
42. Hallar la recta de regresión de Y sobre X sabiendo que x = 4.1, y = 2.3 y la recta pasa
por el punto (5.9, 3.5).
SOLUCIÓN:
S xy
⇒ =b
S S S x2
y = xy2 * x + y − xy2 * x = a + b * x
Sx Sx S xy
⇒a= y− * x = y −b* x
S x2
Si pasa por el punto (5.9, 3.5):
y = a + b * x = (y − b * x ) + b * x