Está en la página 1de 44
STATE 12 Distribuciones bidimensionales EJERCICIOS PROPUESTOS 1y2. Ejercicios resueltos. 3. En un periodo de fuertes lluvias se midié cada hora, durante 48 horas, el caudal (xX, en m’/s) del rio Ebro. Los datos agrupados se muestran en la tabla siguiente: X26, 38)[ 138, 50) [150, 62) [162, 74)]Ir4, 66)[[66,98)[198.1 70) i| 6 2 a [| 7 | | 4] 8 a) Halla la media, la mediana y la clase modal b) Calcula la varianza y la desviacion tipica ‘Ampliamas la tabla con las columnas necesarias para > los caleulos que se piden: x [6 [st [te A a) El caudal medio en las 48 horas ha sido [(2638{ 6 | 32 | 192 | 6144 6 (ses [2 [44 | a8 | 372 [8 (50.62) | 8 | 86 | 48 | 25088 | 16 Mediana, la mitad del conjunto de datos es 24, Antes [18274 | 10 | 68 | 680 | 45240 | 26) de la clase (62, 74) se acumulan 16 datos, por lo que | 174.86) | 10 | 80 | 00 | 64000 | 36 faltan 8 para legar al 50%, La citada clase contiene 10 | 186,98) | 4 | 92 | 368 | 3366 [ 40 datos y au fongiud es 12, De manera que por [jes ioy| 6 | toe | 002 | e6sze | a8 interpolacién ineal se 8 3408 | 265728 obtiene m= 62 124-18) 19 59.67 miss 2 En cuanto a la moda, se observan dos clases modales: [62, 74) y [74, 86) 65 728 'b) La varianza y la desviacion tipica son respectivamente: TP = 495 > s = 495 = 22,249 mls 8 4. En una muestra de 150 familias, el ndmero de hijos (X) por far X]o[t[2[3]4[s recoge en la tabla siguiente: #120 [3259 [zat e [3 a) Caloula la media y sefiala la moda y la mediana. —_¢) Halla a varianza y la desviacion tipica, ) Calcula los cuartiles. Se construye la tabla para los calculos afladiendo las columnas 7 correspondientes wa wh | i | ofa} o 0 20 ) El nero medio de hijos por familia es 1 | sz] 32 32 52 2|so} ite | 236 | 11 La moda es M,= 2, que es el niimero de hijos que mas familias | 3 | 28 | 94 | 252 | 199 tienen en la muestra a]a| 3 | 1 | v7 La mediana es M- 2, que es valor de variable que deja debajo LS_| 3 | 18 ms _| 180 (encima) el 50% de las observaciones 150281 | 723 b) Observando la columna de las frecuencias acumuladas F; de la tabla anterior, se tiene que: EI 25% de 150 es 37,5. El valor de la variable que ocupa el lugar 37 (0 38) es el primer cuartl Q:= El cuartil Q2 es la mediana, luego Qz=M=2. E175% de 150 es 112,5. El valor de la variable que ocupa el lugar 112 (113) es el tercer cuartil Qs= 3. ¢) Dela tabla anterior: 5? = 22. 150 4873)' =19106 = s = J{3108 = 11448, 212 Unidad 12| Distribuciones bidimensionales STATI 5. Ejercicio resuelto. 6. Con el fin de relacionar el indice de flor en el agua (X en ppm) con la tasa de caries (Y en %) se han ‘tomado muestras en 10 ciudades, los datos obtenidos son: a) Caloula las medias y varianzas de las distribuciones marginales. b) Representa la nube de puntos. €) A patti de la nube de puntos, comenta la relacién entre la variable y su tendencia 4) Halla la covarianza. ‘Se completa la tabla con las columnas necesarias para calcular las varianzas del indice de fluor (X) y de la tasa de caries (¥), asi como la covarianza de las variables Xe Y, x ye x XY) ts | 2 256 32, 78 [4 60,84 a2 71 [5 50,41 355) 23 [58 | 529 12,65 58 | 6 33,64 348 42 [65 | 1764 278 76 | 7.4 |_ 87.76 53,96 a8 | 7.6 | 9604 74,48 64 | 84 | 4096 53,76 76 | 33 | 5776 70,68 oz [e14 | 4229 397,53 a) El indice medio de fluor en ppm es % 6,02 yy la varianza sf = 05 . El porcentaje 10 e14 418,72 medio de tasa de caries es: 7-544 614 yla varianza sj ~ (614)! =4,172 70 b) La nube de puntos es: €) La relacién entre el Indice de for en el agua y la tasa de caries es directa hasta una tasa de 4 ppm aproximadamente. A partir de ese indice la relacién entre las dos variables es inversa. 4) La covarianza es: 5, - 29758 _6,14.6.02-2,790 Distribuciones bidimensionales | Unidad 12. 213, STATE 7. El ndmero de libros de consulta solicitados (X) en una bil revistas (Y) se recoge en la siguiente tabla: lioteca municipal, junto con el nimero de —~ Mi [10, 15) | [15, 20) | [20, 25) | (25, 30) 20,30) w_| [163 | 28 (30, 40) 24 | 65 [159 [22 (40. 50) 33] 65 [a7] 2 a) Obtén las distribuciones marginales. ) Halla las medias y varianzas marginales. Utliza en los célculos la marca de clase de cada interval. ) Cuantifca la relacién entre las variables. a) Distribucién marginal de X: x % 720, 30) 25 130, 40) 35 (40, 50) 45 Distribucién marginal de ¥: ¥ vi 10, 15) 12.5 [15, 20) 175 (20, 25) 22.5 [25, 30) 27.5 b) Se completan las tablas anteriores para realizar los célculos de las medias y las varianzas marginales caalculando las marcas de clase. x x f 1X 1 (20. 30), 25 216 6900 772.500 | (30. 40) 35 260 9100 318500] (40. 50) 45 237 70668 | 479 925 | 773 26.665 | 970-925] ¥ yw fi whi fy a a (2) [ 715 [ea [ates [57975 (0,25) [25 [ag [1025 a7 905 25 (3) [975 [62 [705 [ares Tr | 9 HE La meta xe: F-20998. 94.405 ylavaaneace Xen of 272828. 05:95 149 Lametinde Yes: 7 -252225..2y589 y tavaranzade Yes sf - 282129. ao. spt 14055 72 Te €) Se calcula la covarianza s,, = ~3,436 -> La relacién entre las variables es inversa 8, Ejercicio resuclto. 214 Unidad 12| Distribuciones bidimensionales STATI 8 10. La distribucién de 1163 fumadores segiin sexo (X) y grupo de edad de 15 a 54 afios (¥), se recoge en la tabla siguiente: 15,24) | 25.34) | 544) | 145, ay Rombres 112 178 164 172 mujeres: 105 144 141 150 a) Escribe las distribuciones marginales. b) Halla las distribuciones de frecuencias relativas de Y condicionadas por cada valor de X. ) Halla la media y la varianza de YI mujeres. 4d) (Son independientes estas variables? 2) Distribucién marginal de X Distrbucién marginal de: x i ¥ i hombres 626 16.24) 27 mujeres 337 (26, 34) a9 163 (35, 44) 305; (48, 54) 322 1165 b) Frecuencias relatives de Y condicionadas por cada valor de X- Y x {15, 24) (25, 34) [35, 44) {45, 54) Tombres | 017801374 | 0,28434606 | 0,26198088 | 027476038 [1] mujeres | 0,19653073 | 0,26256083 | 0,26256063 | 027932061 | 1 | ©) Se halla la cstrbucion | mujores y se completa ia tabla con los datos nocesaros para caleuar la media y la Yi mujeres: fi x xf mm | (15, 24) 705 75 20475 | 3992625 | (25, 34) 744 235 #595 | 122 705.25 | (35, 44} 744 395 35695 | 719 995.25 | (45. 54) 750 495 7425 | 367 557.5 | 537 738 [792015] 750764,25 | 19201 750164,25 Modia: 19204 la varianza os 75018428 _ 95-7572 439, 9201 5767 y OAS _ 95,757 = 118,991 4) Para ver si X e Y son independientes se construye la tabla de las distribuciones relativas conjunta y marginales. 115,24) [125,34] [135.44] [145,54] Fombres | 0,096 302 67 | 0,153 052 45 | 0.141 014 62 [0,147 893 38 0,598 26311 mujeres [0,090 283 75 | 0,121 298 18 [0,121 238 18 | 0,128 976 78| 0,461 736 89 fh 0,186 586 41 | 0,274 200 63 | 0,262 252 78 [0,276 870 16 1 ‘Como 0,27429063..0,538.26311«0,15305245 entonces las variables son dependientes. Ejercicio resuelto. Distribuciones bidimensionales | Unidad 12.215 SOLUCIONARIO 11, _Enla tabla se recogen para el periodo 2004 - 2013 la temperatura media invernal (X) en °C en una regién de la costa sur de California y el numero de dias (Y) en que el nivel de ozono superé los 0,20 ppm (partes por millén). Ato] 04 [05 [ 06 [| o7 | 08 [os [io [ im [2] 3 | x _{76,.0 [47,2 [78,0 [47.2 | 16.9 [17.1 | 78,2 [77,3 | 17.5 | 16.6 | y [58 [a2 [ei [es [or [48 [or [43 [33 [36 | 1) Estima el niimero de dias en los que se superaran 0,20 ppm de ozono si la temperatura media es de 16 °C. b) Analiza la precisién de la prediccién en funcién de ECM y R, a) Para llevar a cabo la estimacién pedida, se debe obtener la recta de regresi6n del nlimero de dias (Y) sobre la temperatura media estacional (X) ‘Se amplia a tabla de datos con las flas correspondientes para el célculo de los valores medios, as varianzas yla covarianza, yi | 8 [22 [ai [os | ot | 48 | ot | 43 | 33 | 36 | 568 x [a6 [172 [te [47.2 | 169 | 47.4 [102 [47.3 [175 | 66 | 172 ¥;_| 3364 | 6724 | 6561 | 4225 | 3721 | 2304 | 3721 | 1849 | 1089 | 1296 | 34854 x¢_[ 286 [295.8 | 324 [205.8 [285.6 [292.4 [331,2 [209,3| 306.3 [275.6 | 2962,04 xy, | 928 | 1410 | 1458 [ 1118 [ 1031 [820,8 | 1110 [743.9 [577.5] 597.6| 97959 2 _ 2962,04 17,28 =0,364 14.854 70 56,8" = 259,16 De modo que la recta de regresién de Y sobre X. 257 364 y=56.8+ 252 (x-17,2) = y =7,08x-64,64 Entonces, si x= 16°, se estima que el ntimero de dias en que se superard el imite de ozono es: 7,08 -18 ~ 64,64 = 48,58.Es decir, entre 48 y 49 dias. b) Se calcula el Error Cuadrtico Meio y el coeficiente de determinacion 3 257 ‘Say (0364) 2555) ECM = 53(1-R) 59,16(1-0,07) = 24401 El Error Cuadratico Medio es alto @ informa de que el ajuste de Ia recta a la nube de puntos no es bueno, ‘aunque, como depende de las unidades de medida de la variable Y, no sirve para realizar comparaciones, ‘Sin embargo, el coeficiente de determinacion es 0,07 y puede decitse que solo el 7% de la variabllidad observada en el numero de dias en que se supers el nivel de ozono de 0,20 ppm se explica por la temperatura media estacional En definitiva, la relacién lineal entre ambas variables es muy débily, por tanto, las predicciones que se puedan hacer con la recta de regresién estimada en el apartado anterior son poco precisas. 246 Unidad 12| Distribuciones bidimensionales STATI 12, Pa muestra de 8 embarazadas. Los datos fueron: x28 [30 | 33 | 32 [28 [3a [38 [36 ¥ [1150/1380 [ 1925 [1350 | 1040 [2125 | 2950 [2475 a) Representa los datos gréficamente, 'b) Encuentra la recta de regresién de Y sobre X. €) Calcula el ECM y el coeficiente de determinacién y analiza la bondad del ajuste. 4) {Qué peso tendra un foto con 31 semanas? 4) La nube de puntos del peso en gramos (Y) frente a las semanas de gestacién (X) es, con la recta de regresién ya dibujada: Puede observarse una fuerte relacién lineal directa entre ambas variables. b) Para escribir la recta de regresién se amplia la tabla con las columnas correspondientes para el calculo de los valores medios y de las varianzas y la covarianza. lizar la relacién entre las semanas de gestacién (X) y el peso del feto (¥) en gramos, se tomé una ‘De modo que: xy [# we 7 oe sen Br Tee pee | aR aw == 32,375 —— - 32375? = 11.484 30 | 1350 | 900 | 1 822 500 | 40 500 8 8 33 | 1925 | 1089] 3705625 | 63525 wos 22 | 1050 |tape| scan | 50200 1888125 28 | 1040 | 784 | 1 081 600 | 29 120 ai | 2a [rrss|astcaus | rao 4 20880875 gs a5 - as | Zs |taua| #702800 fra 10 % 8 1858,125" = 984680,859 36 | 2475 |1296| 6 125625 | 89 100 | ao 75 [a7 0 = #97098 ag 7s se50128 amare 2ozasre La recta de regresion de Y sobre Xes: y = 1858,125 +. (x= 32,375) => y = 182,11%-4040,952 T1484 ©) El Error Cuadritico medio es ECM = 53 (1~ R*) = 384680,859(1~0,9911) =3390,349 y mide la bondad del ajuste pero como depende de las unidades de Y, en este caso gramos al cuadrado, no da idea de si el ajuste Pa ‘es bueno o no y, por ella, se recurre al coeficiente de determinacion R? = <2 ¥, por ello, aa ‘Ly, por tanto, permite concluir que el ajuste de la recta de regresion de Y sabre X a la nube de puntos es muy bueno, como se puede apreciar en la representacién grafica, Ademas R° informa que el 99,11 % de la variabilidad de Y viene explicada por el regresorX. d) Para predecir el peso que tendria un feto de 31 semanas, se utliza la recta de regresién obtenida en el apartado b), sustituyendo x= 31 en la ecuacién, resulta: y = 182,11-31- 4040,952 = 1607,589 9 19811, que es muy préximo a Distribuciones bidimensionales | Unidad 12 27 SOLUCIONARIO 218 13. Ejercicio resuelto. 14. Al analizar si la productividad (Y) de cierto cultivo, en tm, viene explicada por las horas de regadio (X), so tomé una muestra en 6 fincas diferente: X29 [10] 13] 15] 18] 13 ¥|36 [44] 48 [63] 70 [45 a) Dibuje el diagrama de dispersién y calcula R? y r. bb) Escribe la recta de regresién lineal de Y sobre X, ©) CEs fiable el ajuste neal en este caso? a) El diagrama de dispersion o nube de puntos de las observaciones correspondientes a las 6 fincas es: Para calcular los coeficientes de determinacién y correlacién es preciso ampliar la tabla con las columnas nnecesarias para calcular las varianzas de Xe Yy la covatianza xy a aa * [36 | et _| 1298 | 324] 3044 [4001996 [440 13 | 48 | 169 | 2004 | 626 75 | 03_| 225 | 3009 | 945 4178 13.512 33,33, 78_|_70_| 324 | 4900 | 1260 73 | 45_| 169 | 2025 | 585 ° 7a | 206 | 1068 [16430 a17e | A? - Sx, - 93.3%" _ 9.99905 --0,9481 Ss) 9-137,53 'b) Con las datos obtenidos en el apartado anterior se construye la recta de regresién de la productvidad (Y) sobre las horas de regadio (x), 33,33 @ y=51 333 (x43) y 3.714286 €) Alla vista de los valores de los coeficientes de determinacién y correlacién se puede afirmar que el auste lineal alas datos es muy bueno puesto que el coeficiente de correlaci6n lineal est proximo a 1 ‘Ademés, el 89,9% de la variablidad observada en Ia productividad se puede explicar por el modelo de regresion, es decir por la intensidad, en horas, de regadio. Unidad 12| Distribuciones bidimensionales STATI 15. Los datos de la tabla recogen los indices de disfunciones estomatolégicas clinicas (X) y de Lee (¥) que mide el avance de artrtis reumatoide, Estudia si hay relacién lineal entre dichos indic xo ft 2[2[2[2]2[2 yi7[elsis{772| 2 [4 [a x[3 [e[4[s[e[4[5 [7 [7 Y[s [4[e[2[s[i2[to fia] Para estudiar la existencia de la relacién lineal, se representala nube de puntos y se calculan los coeficientes de determinacién y de correlacién. ‘Ala vista del diagrama de dispersién, puede apreciarse que la relacién lineal es débil Se calcula el coeficiente de correlacién, afiadiendo a la tabla las filas necesarias para el célculo de las varianzas y la covarianza. 2[2[4[4]4|7 [7 | 8 4 [14 [25 [2 [2 | 20 | 155 4 [4 [16] 16| 16 [49 | 49 | 298 16 [196] 4 [25] 144| 144 [447 [1809 x] o [+[2[2[2 [3[4 yl 7{[s[s|7| ml 54 x[o [ifala[a [a fie yi [285 [a1 | 25 [45 | 144 [25 | 16 mw 0 [9 [10 15/16 3 [28 [e [20] 48 | a4 [147] 526 238 =att 238 3.49 23,54: F 3; a2 318-3543 = 185 +1809 158 361 1808 _ p61 =26,340 78 Te fOr = 28: 526 s,, = 528 -911.8,61=2,432 Sy 2432 AS Tes 2505 = 0,0634-= r = 0,2517 De modo que se confirma que la relacién lineal entre el indice de Lee (Y) y el indice de disfunciones estomatolégicas (X) es débll, ya que el cosficiente de correlacién es pequero. Por otro lado, el indice de disfunciones apenas explica un poco mas del 6% de la variablidad observada en el indice de Lee. 16. Ejercicio resuelto. Distribuciones bidimensionales | Unidad 12. 219 SOLUCIONARIO 17. Para evaluar la relacién de la tasa agua/cemento (X) con la resistencia (Y) del material de construccién resultante, se han tomado los siguientes datos: Xpizi] ize [aor | ies [ee ao Y [1.309] 7,231 | 7,061 [7,040 [0,803 [o.711 a) Escribe la recta de regresién de Y sobre X. bb) {Cua serd la resistencia esperada del material sila tasa fuera 1,47 a) Ampliamos la tabla con las columnas correspondientes para calcular la recta de regresion de Y sobre X: xXLy TF [ow B18 14567 5 - 129852 _1.4567° -0,0390 1.21] 4,902 | 1.4641 | 16952 | 1.5754 6 6 7.231 1.8641 4,20|1,291| 1,641 [1,5154 |1,5880 85882 _gp47e 9, 1,37 | 1,061 1,8769 | 1,1257 | 1,4536 1,48] 1,04 | 2,316 | 1,0816 | 1,5184 1,62 | 0,803] 2,6244 [0,6448 | 1,3009 1,73] 0,711] 3,2041 |0,5055 | 1,2727 8,74] 6,148 | 12,9652 [6.5682 |8,7089 STIS 4967-10247 ~ 0.0811 oath ROP pggyy ays ra Bie AMT -omnee or =-o0n Calculamos la recta de regresién de Y sobre X: y= ro2er BOE _yaser sy = -t0sar+25560 b) Si la tasa agualcemento es de 1,4 para obtener la resistencia esperada del material resultante basta con sustiuir x= 14 en la ecuacién obtenida en el apartado anterior y = ~,0538.1.4x + 2.5598 = 10845 18. La edad (X) en afios y el peso (Y) en kilos de 5 nifios se recogen en la tabla, x2Tepet7[a ¥ [is] 25 [34] 33 19 a) {Cual es porcentaje de variablidad del peso explicado porla edad? b) .Qué peso se espera que tenga un nifio de 5 afios? ‘) Debemos calcular el coeficiente de determinacién, afiadiendo a la tabla las columnas necesarias para ello xT y [x Ty? Taw [25 [36 | 625 [150 8 | 34 [64 [1156 [272 sy = 458 25,2° = 56.16 7 [3 [49 [1089 ]237 5 5 4 [19 | 16 | 361 | 76 2 2 759 - Sv 1872" pra ea ba EBA 282-18 725 RP Fir Eg = 0.489 Por tanto, el 94,83 % de la variabilidad del peso de los nifios (Y) viene explicada por su edad (x) 'b) Con los datas obtenides en el apartado anterior, se confecciona la ecuacién de la recta de regresién del peso (Y) sobre la edad (X). 15,72 = 25.24 x 4,64 (x-5.4) > y = 3,39x + 6.89 Para calcular el peso esperado de un nfo de § afos, basta con sustituir x= 5 en la ecuacién de regresién: 1 =3,39-5+6,89 =23,84 kg 220 Unidad 12| Distribuciones bidimensionales STATI 19. Ejercicio interactive. 20, Ejercicio resuelto. 21. La tabla siguiente recoge ol peso (X, kg) y la presién sistélica (Y, mmHg) de 10 hombres. xe [ve [7 [es [ae epee le [7 ¥ [30 [133 | 128 | 751 [150 [140 [tae [125 [133 | 135 4) Representa la nube de puntos, bb) Escribe la recta de regresién completa de la presién sanguinea sobre el peso. €) Alusta una recta de regresién de Y sobre X que pase por el origen. 4d) Compara los dos modelos ajustados cual es mejor? a) 'b) Ampliando la tabla con las columnas correspondientes para calcular la recta de regresién completa de Y sobre x 225 ogg S88 ener onae 7 Bors GOSS 0 wr 75 | 106 | 5625 | 76 900 | 9750, 522222 sort 004s Fe Laas [re Lav 008 [a0 te 70126 | 4900 | 16.384 | 8960, 3, 11488 _e9.9.1979=7892 96-[ 151 | 9216 | 22801 | 14 496 70 @6_| 150 | 7996 | 22 500 | 12900 2 Si TBR 6 ra54 35 | 140_| 9026 | 19.600" 19300 wey 924-601 31 [48 | e261 | 21 904 | 19.468 ee | 125 | 4624 | 15.625 |_a500 La ecuacion dela recta de regresion completa de Y sobre X: i ras 77 [135 | s920_| 18 225 | 10398 =197,8 + 7822 (x. 90,6) = y «0.7954 +73,208 y gaze 8R8)S Y= 0798H TH B06 | 7373 [65 956 | 169 317 [177 455 111453 «) Calculamos b= La recta de regresion que pasa por el origen es: y = ) 0 L853 469 rgresion que pasa pore orgen es: y = 169x amo Eon 00 41/1. 7892) 2994 ssa) 8) Como Eom = 00411-7882) «17,940, Eom, = EST? AS 08.270 RP =0,78051y R3 =0,995.. Enlonces, aunque Rj > R?, no es razonable ajustar una recta que pase por el origen ya que ECM 5, = f1928,16 = 43,911 32, Una maquina produce piezas redondas de 1 pulgada de diametro, En un control de calidad, los diametros. de las 10 piezas han sido: 4a 42 408 ose 408 oar kas tr a) Calcular la media y la desviacién tipica. b) Se considera que la maquina no pasa el control de calidad si la medida observada no se encuentra en el ina (4800204860), Fay gina pra omnes Gu no apn conte saad a) La media de las observaciones es: X = 081 17229. s09¢ 000050 5, «ATO b) El intervalo (¥—196s,,%+196s,) =(081—196-0,06833:1081+196-0,06833) = (0,947;1215). Por Io tanto, todas las piezas observadas superan el control de calidad, La deviacion tipica: sf 06833 224 Unidad 12| Distribuciones bidimensionales STATI Distribuciones bidimensionales 33. En una muestra de diez viviondas do una urbanizacién se han contabilizado el numero de personas (X) que viven en cada una y el nimero de habitaciones (¥) que tiene. La tabla siguiente contiene los datos recogidos: S[3[2 [4] tse [21514 s[4l2l4l2tsisl4l4ls x ¥, a) Dibuja el diagrama de dispersién. ;Existe relacién lineal entre las variables? 'b) Calcula la covarianza y R*, Explica los resultados. a) El diagrama de dispersién muestra una cierta relacién lineal moderada entre las variables. b) Para el célculo de las varianzas y de la covarianza, es preciso ampliar la tabla con las columnas ccorrespondientes: 738 7 14835 10 at [ot [xvi] 25 | 25 [25 16 [2 apa te] 76 [16 [16 42 25 [15 36 [25 [30 2 [eps 25 [16 [20 76] 25 [20 ao) 1a5 [72 [182 of =|efafe|n]=fs[fals| ae) -)%])-[o) Que confirma la relacién moderada entre las variables, el 53,3 % de la variablidad observada en el numero de hhabitaciones es explicada por el nimero de personas que habitan en las viviendas. Distribuciones bidimensionales | Unidad 12 225 TATE 34, En una fébrica se quiere probar la resistencia al calor de una determinada clase de cerémica. Se elige, para ello, una muestra de 8 parejas de piezas idénticas (de a misma homada). De cada pareja, una de las piezas fue sometida a pruebas de dureza antes del proceso térmico y se anoté su resistencia a la rotura (X, en kg) y la otra después de! horneado (Y, en kg) X [148 [213 [380] 160] 200] 190 [240 [198 ¥ [138 [161 [223 [190] 210] 191 [215] 190 a) Caloula la media y la mediana de la resistencia antes y después del proceso térmico, b) En qué caso hay mayor variablidad, antes o después del proceso térmico? ©) {Se puede afirmar que existe relacién lineal entre las dos variables? Justfica la respuesta, Para responder las cuestiones planteadas se construye la tabla yz siguiente a ua aan 4a | 138 | 21 908 | 19044 | 20.424 213 | 161 | 45.369 | 25921 | 34203 ‘380 | 323 [144 400] 104 329 | 122 740 180 | 190 | 32400 | 36 100 | 34.200 200 | 210 | 40.000 | 44 100 | 42 000 90 | 191 | 36 100 | 36481 | 36.290 240 | 215 | 57.600 | 46 225 | 51600 ‘9a | 180 | 39204 | 36 100 | 37.620 7749 [1618 [416 67 | 848 300 | 379 167 a) Los valores medios de la resistencia a la rotura (en kg) antes y después del proceso térmico son, respectivamente: MA armors 7 1 ana 28 Mediana de la resistencia a la rotura antes del proceso térmico (X): Es cualquier valor del intervalo [198, 200], ya que se trata de un niimero par de observaciones, que en orden reciente resultan 148, 180, 190, 198, 200, 213, 240 y 380. Por tanto cualquier valor entre las observaciones cuarta y quinta puede Ser elegido como mediana, puesto que es mayor o igual (menor o igual) que el 50% de los datos. De forma andloga, cualquier valor del intervalo [190, 191] es mediana de la resistencia a la rotura después del proceso térmico (¥. b) Las varianzas de Xe Y son: 2 = ATES _p10,005" = 4925.28 s $4600 _ 02,25 = 2682.44 Por tanto, presentan mayor vatiablidad las observaciones de X: resistencia a la rotura antes del proceso térmico de horneado. ) Para responder a esta cuestién se puede representar la nube de puntos de la dstribucién conjunta y calcular 6! Coeficiente de corralacién lineal 379167 s,, = 7182 _918,625.202,28 = 317897 pe Sa STB STE 0.88787 -> Sis; 4325, 23-2632.44 >r=0,94211 En el diagrama se puede observar una fuerte relacién lineal, que es confirmada por el valorpréximo a 1 del coeficiente de correlacién lineal, con una observacién muy influyente (4380, y-323)en el modelo de regresién lineal. 226 Unidad 12| Distribuciones bidimensionales STATI 35. Para compararel rendimiento de los trabajadores de una cadena de produccién y el del trabajo automatizado mediante robots se planifican § tareas y se mide la tasa de rondimiento de los empleados (X) y del proceso automatizado (¥) [185 [175 [240] 254 [185 Y [180186 [269 [250216 a) Compara ambos rendimientos, en funcién de su media y su varianza o su desviacién tipica 'b) Caloula la covarianza y razona si puede existirrelacion entre ambos rendimientos, ‘Se ampliala tabla con las columnas necesarias para realizar los célculos xl)y_* ) 7 [yw 165 | 180 | 4 226 | 32 400 | 33 300 175 | 186 | 30.625 | 34 506 | 32550 2a0 | 269 | 57 600 | 72.361 | 64 560 254 | 250 | 64516 | 62 500 | 63 500 a5 | 216 | 24 225 | 46656 | 29.960 7039] 1101 ]221 197] 248 513 [239 870 a) La media y varianza de cada tasa de rendimiento son, respectivamente: 71089 zane 5 207.8" 1101 5 Fe La tasa media de rendimiento automatizado es 12.4 puntos mayor que la manual (de los empleados) y también la dispersién es mayor en el proceso automatizado, si bien no en exceso, como se puede ver al comparar las desviaciones tipicas, 220.2" =1214,56 ->s, =3485 »b) La covarianza se obtiene a partir de los datos de la tabla s,, = 753820 207,8.220,2 =1016,44 pe Se 1016.44" os Sis) 1057.36: 121456 = 08045 =r = 0,897 Existe relacién directa entre ambas variables y como el valor de la covarianza no esté muy alejado del de ambas varianzas, la relacién es relativamente fuerte. Distribuciones bidimensionales | Unidad 12.227 SOLUCIONARIO 36. La tabla siguiente recoge la puntuacién obtenida por 25 trabajadores de una empresa en un test psicotécnico (¥) y las ausoncias al trabajo en ol ultimo mes (X}: 40, 60) | {60, 80) | {80, 100) of 2 a 3 4[-2 4 2 2t_+ 3 2 a) Halla la media y la varianza de las distribuciones marginales. bb) Caloula la media y la varianza de la distribucién de Y condicionada al valor X= 0. ) Obtén la covarianza e interpreta el resultado, a) Se hallan las distribuciones marginales y se completa la tabla con las columnas necesarias para calcular la media y a varianza, Marginal de X: Marginal de Y: x [| ix [ee Y [ely Tv ofa] o | o 140,60) | 5 [50 | 250 | 12 500 1 a|s (60, 80) [47 [70 | 770 | 53 900 2 [6 | 12 | 24 [s0, 100)| 9 [90 | 810 | 72 900 [25 20 | 32 25] [830/139 300 1830 1830 7g 25 8: Media de Y: 7 Varianza de Y: s? = 122300 =73,22 =213,76 ') Se halla la distribucién de ¥ condicionada a X= 0 y se completa la tabla con las columnas necesarias para calcular la media y la varianza, veo [ty [fee | 8, 140.60) | 2 [80 | 100 [000] 7), ,. 290 75 45 60,20) | 4 | 70_| 260 |19 600 7 iso, 100) 5 | 90-| 450 [40 500 65100 oe ses at] (830 [es 100 25 ~ 75.48" = 25.479 €) Se completa la tabla para calcular la covarianza, x ty fh | fey o [soz] 0 ofro[4]o ofeols| 0 + [50] 2 | 100 1 [70 [4 | 280 + [902 [180 2 [so] 4 | 100 2 [70/3 | 420 2 [90] 2 | 360 25 | 1440, 1440 44.7320-a96-+ Larlatn ene as vals es mera 228 Unidad 12| Distribuciones bidimensionales STATI Regresi6n lineal y correlacién 37. Los datos de la tabla siguiente se ret demanda en una hora (Y, kW) en una empresa. n al consumo mensual de energia eléctrica (X, en kWh) y al pico de Ky az 288 | 747 35 | 1543] 770 OS | 1242 | 1787 | 1826 ¥ | 04a oS [35 738 | 528 | 174 [3.94 | 3.24 | 8.38 | 3.98 a) Dibuja el diagrama de dispersion. Valora la conveniencia de un ajuste lineal 'b) Escribe la recta de regresién del pico de demanda en funcién del consumo mensual y halla la varianza residual 1) LQué porcentaje de la variabilidad del pico de demanda es explicada por el consumo mensual? a) El diagrama de ispersién se muestra al margen y ala vista de la nube de puntos parece razonable ajustar luna recta de regresion que explique e! pico de demanda en una hora (Y) en funcién del consumo ‘mensual (X) en esta empresa = b) Construimos la tabla con los datos necesarios para el cdlculo de las medias, las varianzas y covarianzas, a partir de las cuales se obtiene Ia recta de regresién pedida y la varianza residual (ECM), x TY x we xv] 11339 4433.9 203_| 044 | 65064 | 0.1996 | 120,48 | 70 200 | 9.50 | 4791 724 | 90.2500 [20 795.50] 518318461 3, gp Tar_[ 3.25 | $58009 | 10.5625 | 2027.75 | % ~11999" «945 8148 495 | 1.39 | 189225 | 4,992 [604,65 | 6 7543-[ 5.26 | 2.360 049 [77.0784 | 6147.04 4108 4 109 770 | 1,74 [ 592900 | 3.0276 | 1339,80 10 308 _[-3.96-| 65 064] 15,5736 | 3163.52 2 245.5947 4 syg2 1242 | 3,24 [ 1542564 | 10,4976 | 4024,08 & 10 4.109" = 7.6696 47ar [6.36 | 3 193.369 | 70.7244 [14 975,06 1623.08 1526-[ 9.93 [2.378676 | 15.4440 | 5097.18 s, AS2808 4993,9.4,109 = 1503111 41-339] 41,06 [16 945 444 [246.5047 [61 59,71 Do modo que ia recta do regresion de Y sobre Xe: 4503.11 = 4,109 + 1508414 (y_44339)-> y= 0.004 35x -0,8196 x 3458145 da ¥=oi ss0at1t ELECM o varianza residual es: ECM = si ) Calculamos el coeficiente de determinacién: ,6696| pee 3458149 7,666 1 1196 345 814,9-7,6696 | 1503111 0,8519.De manera que el 85,19 % de la variabilidad observada en el pico de demanda horaria es explicada por ol consumo mensual. Distribuciones bidimensionales | Unidad 12. 229 SOLUCIONARIO 38. A.una muestra de 10 ratones de laboratorio se les suministré diferentes cantidades diarias (X, en mg) de un combinado de vitaminas, anotandose el peso ganado (Y, en g) por cada uno tras una semana. X4[2 [SOs [s es yistttelst7 [stelst7 ts a) Representa graficamente la distribucion y valora la viablidad de un ajuste lineal 'b) Escribe la recta de regresién del peso ganado por semana en funcién de la dosis de vitamina iaria, ©) Determina la varianza residual y valora el resultado, 1) La representacion grafica do la distribucién conjunta permite ver que es posible, con cierta fiabilidad, ajustar una recta a la nube de puntos. ) La tabla para los célculos se muestra a continuacién’ Xo a] 55 4 [5 | 6 | 25 [20] 70 21 >4 |1 ~2_] 385 eae 5 6 25 36 30 | Fg 85 = 8.25 psp pe fs 79 |_7_|100 | 43] 70 ar eps ee] as [90 70 a a 1255 gp Pepe pee Barone erp a] a8 eas] te 2a 308 55.47 = 445 EI 47 385, 255, 303 10 De med qo areca de rgreson de Ysobre Xos: y 471 #48 4-55) 47304-0590 ¢) La varance residual o ECM os: EoM=si{1-—2%,] .341{1-- 448"). 0097 7 aa5-a81 Por tanto, la varianza residual es pequefia y permite afrmar que el ajuste lineal es bueno, aunque con las debidas reservas dado que el ECM depende de las unidades de media de Y. 230 Unidad 12| Distribuciones bidimensionales STATI 39. En una muestra de 8 dias elegides durante el dltimo mes, un viajante ha anotado los kilémetros recorridos (09 y os litros de combustible (Y) consumidos por su vehiculo. Los dates son: x20 30 | 100 750 [35 200 730 [60 yT65 65.7 a4 3 7515 a) Dibuja la nube de puntos. 'b) Halla la recta de regresién del consumo en funcion del kilometraje realizado. ) Evalia la precisién del ajuste de la nube puntos por la recta de regresién hallada. 4d) {Cual serd el consumo esperado si un dia tiene previsto viajar 11 km? ) La nube de puntos se representa en el grafico de dispersion y puede observarse que se presta a un ajuste lineal b) Para escribir la recta de regresién es preciso ampliar la tabla con las columnas correspondientes: 6440. Por tanto la recta de regresién de ¥ sobre X es: y ~ 6.6875 + = SO 110.6,6875 = 69,975 69,375 7356.25 Xe 30 [8s] 800 | das [eed roo [7 [006 | 49 [700 veo| 8 zes00 | 64 | 00 co oe 30-7 6am | Bo28_[ ors oe 8 | teas 35 [ms eo [ eae [is a0 [re Te Le 110 118680 _ 149? - 2356.25, seers 2188 yours 22081 (x=110) = y 0.0294 43,4488 ¢) En el grafico se representa, también, la recta de regresin hallada en el apartado b) que, como se puede observar se ajusta muy bien a la nube de puntos. Este buen ajuste se confirma con el célculo de los coeficientes de determinacién y de correlacién, ambos con valores proximos a 1 4) El valor x a pe - Si __68.975" Sis) 22461-2356 25 = 0,909 4 => fo,909 4 = 0,953.6 15 km esta dentro del rango de valores de la variable kilometraje recorrido, por tanto se puede utilizar la recta de regresién calculada para predecir, con fabilidad, el consumo estimado en este caso: y= 0,0294.115 43,4488 ~6,83 L Distribuciones bidimensionales | Unidad 12234 SOLUCIONARIO 40. La temperatura media en °C (X) y el gasto medio en calefaccién en euros (¥) en el mes de diciembre en 7 ciudades se recoge en la tabla siguiente: xP Ts [mls [elo [20 ¥ [145 [740 110 [ 170 [80 [200 [40 a) Dibuja el diagrama de dispersion y razona si se puede intuir una relaci6n lineal entre las variables y de qué tipo. ) Escribe la recta de regresién del gasto en calefaccién en funcion de la temperatura y halla la varianza residual ¢) Valora e! ajuste lineal a la nube de puntos. 4d) Sila temperatura media en una ciudad en diciembre es de 14°C, .@ cuanto ascenderd el gasto esperado en calefaccion? a) La nube de puntos permite observar una relacién lineal fuerte e inversa entra la temperatura media en diciembre y el gasto medio en calefaccién en las 7 ciudades: a mayor temperatura media menor gasto fen calefaccién. Relacién que, ademas, se corresponde con lo esperado b) Para hallarla recta de regresién, se necesita ampliar la tabla: XT y [xT Tw 10 | 445] 100] 21 025 [1450 8 [140 64 [ 19.600 [1120 12 | 110] 144] 12 100 | 1320 5 [170 25 [28 900 | 850 16] 80 [256] 6400 [1280 ‘0 [200| 0 [40000 | 0 20| 40 [400[ 1600 | 800 6820 71 [885 | 989 | 129 625 [6820 7 126,43-10,14 8,02x+207,78 Porn dragon do Yaaro Xo: y 12648 -S2B08 (410) 28 2 La varianza residual o ECM es: ECM~ 5?| 1-22 _{-308.08)" eM “ls ss | 347 2558,87 5) -250067(1- ener) ©) En ol grafico se observa que el juste es muy bueno y ello se confirma con el célculo de los coefcientes de determinacién y correlacién. » __(-308,08)" 3941-2593,87 El primero, muy préximo a 4, indica que el 97,52 % de la variabildad observada en el gasto se debe a la temperatura media y el segundo, muy préximo a ~1, que la correlacién lineal es excelente. 0,975 2 => r = ~J0)9752 = -0987 5 4d) Sila temperatura media es x= 14 °C, puede predecirse ol gasto medio en calefaccién en el mes de diciembre, al ser un valor que esta dentro del rango de valores del regresor. y =-8.02.14 + 207,78 = 95,5 € 232 Unidad 12| Distribuciones bidimensionales STATI 41. La tabla siguiente muestra siete observaciones realizadas en laboratorio de un indice de rendimiento quimico (¥) dependiendo de la concentracién (X, en %) del catalizador de la reaccién. x2 [sf [2] [4 ¥| 100 [80 [110[116[ 114] 122 [139 @)Dibuja la nube de puntos. Halla la recta de regresién del indice de rendimiento en funcién de la concentracién. ») Calcula la varianza residual. Valora el resultado. ) Un aumento de una unidad en la concentracion del catalizador, cuanto incrementa, en media, el rendimiento del proceso? 1) La nube de puntos se representa junto con la recta de regresién ajustada. Para el célculo de los coefcientes de la recta de rearesin es preciso ampliar la tabla con las columnas correspondientes: x Ly [TF Tow @ | 100 | 64 [10000 a00 2 | a0 | #1 | 6400 | 720 10 | 110 | 100 [12 100/ 1100 a1_[ 116 | 121 [13456] 1276 12_| 114 | 144 [12096] 1368, 13 | 122 | 169 [14884| 1586 14_| 139 | 196 [19321] 1946 7_|_7at_| 875 [e917] 8796 A pattir de la tabla, se obtienen las medias, las varianzas y la covarianza’ 7 78 Basi ya7tanit87 2875 89187 Baar Fo" 11187" = 288,53 8796 2708 syasr.4 De manera quola recta de orosion do Yate Xe8: y=11157 2228 4 -19)-oy=naoeeat04 ) La varianza residual es: 412 con afo-%) Z 20850(1- 20.2 | 288,53, Que puede considerarse un valor moderadamente bajo dados los valores que toma la variable Y, indicando un ajuste razonablemente bueno de la recta de regresién a la nube de puntos. ©) En al rango de los valores de X, por cada aumento en una unidad de la concentracién del catalizador, el indice de rendimiento medio del proceso aumenta en 7,32 puntos, que es el valor de la pendiente de la recta de rearesién, Distribuciones bidimensionales | Unidad 12. 233 SOLUCIONARIO 42. En la siguiente tabla se muestran las distancias recorridas por un vehiculo (¥, en m), que se ha movido con aceleracién constante durante 10 s, en funcién del tiempo transcurrido (X, en s) x[2[2TeTelwo Y [25 [es [216 [S30 [S08 a) Dibuja la nube de puntos y calcula el coeficiente de correlacién. b) Escribe la recta de regresién de Y sobre X. ¢) Transforma la variable X en Z-X7 y realiza el ajuste de Yen funcién de Z, calculando el nuevo coeficiente de correlacion, Valora los resultados, 4d) Compara y valora los resultados obtenidos en los apartados ay c. a) La nube de puntos es: ‘Completamos la tabla para calcular el coeficiente de correlacién: XL oa 5-18 2[25 [4 625 50, ws = 292.8 [95 [16] 3025 _[ 380 6 | 216 | 36 | 46.656 | 1296 SASIO 292.8% = 5229016 @ [580 | 4 [200 900] 4240 70] S88 [100] 357 604 5980 aoa 30] 1464 [220 |694610 [11 946] 632.4" si 55223078 0878 | coeficiante de correlacién res: R? 0,957 =r = 0857 Por tanto, 'b) Con los datos calculados en el apartado a) se tiene que la recta de regresién de Y sobre X es: 6324, 3 y= 292,8+ 8824 (y_6)-> y-79,05x-1815 ©) Se calculan los nuevos datos y se completa la tabla para calcular el nuevo coeficiente de correlacién. 3.220 15064 Y ce zo seg 1168 2 [2| 4 | 16 | 100 95 [4[ 16 | 256 | 1520 s, = 108118 5998.44 =7740 216 [6] 36 | 1296 | 7776 5 530 @{ 64 | 4096 | 33 070 El nuevo coefciente de corelacin res: 598 [10 100 [10.000] 59-600 ° nie 1464 [30 | 220 [15664 | 103 116 2 Se TTA = = R- Gis)” Boe016-11058 8 0.988 = 0.979 Larrea de regresion de Ysobre Zes: 2= 44+ 1740 _(y_292.8) > y <0,148x+0,61. 32250,16 4d) Aunque casi coinciden los dos coeficientes de determinacién, el ECMen el apartado a) es ECM = 2245,9 que es mayor que en b), que valeECM= 50,26. Por tanto la transformacién mejora la aproximacién lineal 234 Unidad 12| Distribuciones bidimensionales STATI Sintesis 43, Con ta finalidad de estudiar la relacién del peso (X, en kg ) con la medida de la presién sanguinea sistélica (9, en-una empresa se olige una muestra de 9 empleados y los datos recogidos fueron los siguiente: X[748 | 703 | 862 [780 [789 [885 | ore [77.4 [ert Y¥ [120 [118 [140 [143 [139 [153 [115 [140 | 150 a) Calcula el peso medio, la presién sanguinea media y las desviaciones tipicas de ambas variables. b) Representa graficamente los datos y razona si existe 0 no relacién lineal entre las dos variables. afirmar que a mayor peso le corresponde mayor presién sanguinea? €) Caloula la covarianza, {Se puci 4d) Valora si existe relacion lineal entre las variables calculando el coeficiente de correlacién. 2) Se completa la tabla para caleular las medias y OEE desviaciones tpicas. 74.5 | 420 | 559504 | 14 400 | 8976 5-208 70.3 [178 | 4942.09 [13.924 | 6295.4 Pesomedio: X= "g°= 7872 | | | 36.2 [140 | 7490.44 | 19.600-| 12 068 | 79.0_| 143 | 6084 [20449 | 11 154] Tas fr feet fet oer] | | | | Presién sanguinea media: 7 = 721% 88,5 | 153 | 7892,25 [23409 [19 540.5 \Varianza del peso y desviacién tipic: 67.6 | 115 | 4569.76 | 13225 [7774 » _ 5620961 fea 77.1 | 140 [944,41 [19.600 | 10794 SEAS TTA T2 = 48,324 = 8, = 148,924 = 6.982 87.4 | 150 | 7586.41 | 22-500 | 13.065 i srg ECTS EE \Varianza de la presion sanguinea y desviacién tipia: sj = 108828 _135,39° 176,89 5, = 17689 = 13.3 ) E! diagrama de dispersién se representa en el grafico y puede observarse que es razonable un ajuste lineal ©) La covarianza es: s,, $8034 _75,72.19599 = 83,37 = la telacion es directa, Se puede afrmar que a mayor peso le corresponde mayor presién sanguinea 4d) Coeficiente de correlacion: pS __ 83.37? __ => r=¥08T3 =0,902= Existe una relacién lineal directa entre las R= Seo Gagan Tepe 0819! = VORTS 0.902 Existe una relacén tnes| recta ene variables. Distribuciones bidimensionales | Unidad 12. 235 TATE 44, Se conoce que el consumo de energia anual por habitante (Y, miles de kWh) esté relacionado con la renta per capita (X, miles de $). Para estudiar cémo funciona esta relacién en la regién centroamericana se han recogido los datos en la siguiente tabl [8647 [3708 [3178 [2246 | 10047 | 1578 [7498 y [1455 | 855 [ se7 [ 671 | 1990 [ 473 [1832 ) LPuede aproximarse, razonablemente, la nube de puntos por una recta? 'b) Eseribe la ecuacién de la recta de regresién del consumo de energia sobre la renta per capita €) Caloula el porcentaje de variabilidad en el consumo de energia explicada por la renta per capita. Valora ol resultado. 4) Calcula el consumo esperado de energia en un pals cuya renta per capita sea de 5000 $. Justifica la fabiidad de la prediccién. a) La gréfica de dispersién muestra dos grupos de ‘observaciones. Suponiendo que en la zona intermedia en la que no se dispone de datos, el ‘comportamiento sea similar, se puede afirmar que la ‘tube de puntos se puede ajustar razonablemente ppor una recta, que también se ha representado en el grafico, b) La tabla siguiente muestra los célculos necesarios para la estimacién de los coeficientes de la recta de regresién: x LY xf we wy | 38908 _sp7474 7-228 117757 ‘647 [1055 | 7470 609 | 3 441 025 | 16 040 185, aoe [05s | 13740264 | 7aro2s [3170340] yy _ 263316370 _so7474_geasesa776 3178 | 567 [10089684 | 321 489 | 1 801 926 7 zeae [ori | Sea 516 | 450241 [1507066 | 12488839 477572. a96730,245 70047 | 1980 | 700 942 208 | 3 960 100 [19 993 530 1578 | 473 [ 2490086 | 225729 | 746304 | | _ 5609877711946 477 57,574.74 1994499,738 7498 | 1832 | 56 220 004 | 3356 228 [13736 336] °” 7 [36.902 [6243 [263 316 70 | 12 483 833 [56 995 777 De manera que la recta de regresion de Y sobre Xes: 934-433,735 | 177,57 + 24493 738.5 _ 507479) > 57 geasesa.776%~ 92717 1969x + 139,698 %, 1934433,735% Sis? 9825052.776-396 750.2440 ©) Se calcula el coeficionte de determinacién: R? = =0,95996 De manera que el modelo de regresién explica practicamente ol 96% de la variabilidad observada en el consumo de energia anual por habitante. No obstante, conviene insistir en que no se tienen observaciones entre Ios dos grupos de datos mencionados antes y, por tanto, esta valoracién debe realizarse con las debidas precauciones. ) Si x= 5000 §, sustituyendo en la recta de regresién, resulta y = 0,1969.5000 + 199,698 = 1124,077 kWhihab, Prediccién que, con las precauciones sefialadas en el apartado anterior, tiene alta flablidad puesto que el valor de X est dentro de su rango de valores experimentales y el nivel de correlacién es muy alto (r = 0,97977 ). 236 Unidad 12| Distribuciones bidimensionales STATI CUESTIONES 45. De una variable bidimensional (X,Y) se sabe que la ecuacién de la recta de regresién de Y sobre Xes yu3, Contesta razonadamente a) {Cual es la media de ¥? €) {Cuanto vale el coeficiente de correlacién? b) ECual es el valor de la covarianza? d) ZQué conclusiones se pueden extraer? La ecuacion deta rect de egresén es y =2 by con b= 22. y a= 7 AF. Por tanto 5 a) El valor medio de Yes 3, puesto que en este caso y= 3 representa el valor “esperado” de Y cualquiera que sea el valor de X. ») Comte pendene da eta de rogresin es cr, acovariancaes exo, puesto que b =. €) Dado que la covarianza es cero, el coeficiente de correlacién también es cero.ya quer = 4d) La recta de ragresién es horizontal y no existe relacién lineal entre las variables Xe Y, salvo que sea cual sea el valor de X, la observacién de Ysea constante e igual a 3. 46. Dadas dos variable estadisticas Xe Y, halla la recta de regresién de Y sobre X y el ECM, si se sabe qu Tionen las varianzas iguales. El cooficiente de correlacién toma el valor 0, La covarianza es 2,8. La recta de regresién contiene al punto (3,7). Como las varianzas de Xe Yon iguales, a partir del coeficiente de correlacion se puede calcular la varianza de X Sy _ Sw 28. (lade Yor = Seno aha EE 88 Entonces, la pendiente de la recta de regresién se calcula: a= 5" = Con lo que la recta de regresion de Y sobre X queda: y =0,8x+b Como el punto (3,7) pertenece a la recta: b=7-0.8-3= 4,6 Luego la ecuacién de la recta de regresién de Y sobre X es: y = 0,8x+4,6 47. La recta de regresién de una variable Y sobre otra variable X esta dada por la ecuaciény =2,3 + 0,15x. Sofiala, de forma razonada, cul o cuales de las siguientes afirmacionos son ciertas o falsas. a) El coeficiente de correlacién es 0,15. b) La covarianza entre Xe Yes postva «) La variable X no explica en absoluto el comportamiento de a variable ¥. 4d) Estas dos variables estan débimento corclacionadas. a) El coeficiente de correlacion sera 0,18 solo en caso de que las varianzas de X Y sean iguales, ya s, queb Por lo que solo en el caso s, = s, el cosficiente de correlacion es 0,15. 5, ») Es cierto, porque el signo de la covarianza es igual que el de la pendiente dea recta, ya que: a = ©) Para poder valorar esta afimacién seria preciso obtener el coeficiente de determinacién, y no se tiene informacién suficiente para ello, salvo que se suponga que las varianzas de Xe Y son iguales, en cuyo caso la afirmacion es cierta, ya que entonces R* = 0,15 =0,0225. Y solo el 2,25% de la variabllidad de Yes explicada por la variabilidad de X. 4) Si las varianzas de X @ Y fueran iguales, entonces r =0,15y podria afirmarse que X © Y estan débilmente correlacionadas. Pero, en general nada se puede afimar al respecto. Distribuciones bidimensionales | Unidad 12 237 238 SOLUCIONARIO 48. Una variable estadistica bidimensional (X,¥), en la que X toma los valores 8, 13, 15, 16, 18, 20, 21 y 24, tiene como recta de regresién de Y sobre X aym 3,2 41,25 x. Calcula el valor estimado de ¥ cuando X tome los. valores 1, 10,20 y 100. Six=10, entonces y= 3.2+125:10=15,7 Six=20, entonces y =3,2+125.20=28,2 En los casos x=1 y x= 100, no se puede estimar el valor utiizando la recta de regrasién, puesto que ambos valores estén lejos del rango de valores del regresor ullizados para caloular la recta de regresién, 49. Ala vista de las siguientes nubes de puntos de dos distribucionos conjuntas bidimensionales, asigna e! Coeficiente de correlacién que mejor se aproxime a cada una de las distribuciones siguientes: ly Wy my vy dos afos 1 1 ort x OF x OG e OF ) r=07 d) r=08 a) Al serr =-0,041a relacién entre las dos variables es inversa y el ajuste entre la recta de regresion lineal y la ‘nube de puntos es muy débil se tiene que corresponde a IV. b) Puesto que r=0,4 Ia relacién es directa entre las dos variables pero el aluste entre la recta de regresi6n y la ‘nube de puntos es débil. Luego corresponde a | €) Dado que r =-0,7 la relacién es inversa entre las dos variables y el ajuste entre la recta de regresién y la nube de puntos es fuerte. Por tanto, corresponde a I 4) Como r=0,8 Ia relacién es directa entre las dos variables y el ajuste entre la recta de regresion y la nube de puntos es fuerte, entonces corresponde a I 50. Dada la siguiente tabla de datos aqs[e] alals] x YI 4) Caloula el coeficiente de corretacién b) Sialos valores de X se les muliplica por 3 y a los de Y por 2, .Cual ser ahora el coeficiente de correlaci6n? Justfica la respuesta. ©) Alos valores de Xse les suma 2 y alos de Y se les resta 1, Razona cual sera entonces el valor del coeficiente de correlacion, a) Se completa la tabla para calcular las varianzas y la covarianza, que permiten obtener el coeficiente de correlacion XY Dt [Da B36 8 36 1[3[ife]s 8 8 2[2[4[« [a 82 got get 104 4/3/16] 9 [12 5 "s 5/4 [25] 16 [20 1 [6 [36 [36 | 36 $4 = Ze 98-3.6 = 204 7a] 18] 62 [74 [75 JER - “ae =0,81085 Unidad 12| Distribuciones bidimensionales STATI b) El coeficiente de correlacién es el mismo que en el apartado a), como se puede comprobar fécilmente, puesto que: Say = 885 3h, 958 ast Y, entonces: Sa 5, OS Sy 38,25, 7 ©) Sialos valores de X se les suma 3, la varianza de X +3 es igual que la de X, ya que lo dnico que se ha hecho es “trasladar” los valores de la variable, Lo mismo sucede con Y - 1 eY. Luego: Shah st, Por idénticos motivos, tampoco cambia la covarianza, es decir: Seip Por lo que el cosficiente de correlacién entre X + 3 @ Y-1 es el mismo que entre Xe Y. PROBLEMAS 51. El indice de actividad de una sustancia radiactiva se miden en Becquerel por metro cubico (Bq/m’). Para investigar si en una determinada zona geografica los niveles del isGtopo radiactivo det radio, “*Ra, superan «! nivel maximo de exposicién establecido por Sanidad, que es de (148 Baim’), se toman 26 muestras de terreno. Los datos recogidos, en Baim, son: 5402 2146 15947 37,74 6,66 108,04 33,67 1591 3367 68,08 129,87 52,17 304,51 62,9 7474 64,05 51,8 27,75 48,1 219,04 68,82 155,77 166,13 53,28 52,91 254,19 4) Caloula la media y la varianza sin agrupar los datos. b) Agrupa los datos en 5 clases de igual Iongitud y calcula la media y la desviacion de los datos agrupados. ‘Compara los resultados con los del apartado anterior. €) Se establece que si la media més dos veces la desviaci6n tipica supera el valor maximo establecido existe riesgo de contaminacién radiactiva, ZEs este el caso? ) Para calcular la media, se suman todos los valores y se divide por 26, el resultado es: 54,02 4 2146 ++ 25419 25 82,298 El céloulo de la desviacion tipica requiere obtener la varianza: = 5402" + 2046" + 4 254,19 26 89,298" =5699,178 = s, = 75,493 'b) Se agrupan los datos en 5 clases de longitud 60, puesto que el rango es 304,88 — 6,29 = 298,59. Empezando fen 6 y terminando en 306: Giases [A [x [ fe [tx (6,66) [15] 36 [540 | 19440 | con tos datos de la tabla, la media y la desviacién tipica 166, 126) | 4 | 96 | 384 | 36864 2316 1126, 186)| 4 [156] 624 | 97 344 26 186, 246)| 1 [216] 216 | 46.656 (246, 306)| 2 [27e| 552 [i52a52] 28 26 2316 [352.656] Los valores son muy préximos a los obtenidos con los datos sin agrupar. 628,98 => s, =75,027 ) Tomando la media y ta desviacion tipica de los datos sin agrupar (con los datos agrupados los resultados son equivalentes), el valor de la media mas dos veces la desviacion tipica es 240,284, valor que supera claramente el valor de 148 Balm’, Por lo que se concluye que existe riesgo de contaminacién radiactiva, Distribuciones bidimensionales | Unidad 12. 239 STATE 240 52, La distribucién de frecuencias de 200 personas adultas, entrevistadas en una ciudad pequefa, segiin su situacién profesional (X) y su nivel de estudios (¥) se recoge en la tabla: [iver de sstudios —] Basicos | Macdios | Aloe | Empleadonje| 14 2 | 18 | sinacin [Emomag [re | a1 21 Profesional auténomo @ 7o_] ‘Sin empleo 23 14 3] a) Escribe las distribuciones marginales y condicionadas. bb) De los que tienen estudios medios, {qué porcentaje son auténomos? ©) Son independientes estas variables? 1) Distribucion marginal de X Distribucion marginal de ¥ £Y empleados? x f ] Y fi Enpioado fo | Basico [7 Empleado Medios 75 70 temporal x fAlos 8 fonomo — Sin empleo ro 200 Condicionada X|Y: Condicionada Y|X: ¥ ¥ X | Basicos [Medios | Atos zt oo Empleadofijo[ 0.208955 | 0,293 333_ [0,310 344 a) — ae Se Enploado fi | 0.259 259 0.407 207] 0.355.399 |] 0.268 656 | 0.419333 [0.362068] FEmpleado temporal te 0,257 142 | 0,442 857, 03 1 ‘Auténomo 0,179 104 | 0,106 666 [0,172413 temparsl Sin empleo [0,24 289 580,180 c06 670,155 172| [Awénome [04 [0.266 656[ 0.335 335 39[] - - - Sin empleo | 0,5 [0.308 47] 0,105 652 [1] b) Como hay 75 personas con estudios medios de los que 8 son auténomos y 31 + 22 = 53 son empleados, centonces se tiene que aproximadamente de los que tienen estudios medios el 10,7 % son auténomos y el 70,7 % son empleados. ©) Se construye la tabla de las distribuciones relativas conjunta y marginales, 7 Basicos | Medios | Altos | fi Empleadofio| 0.07 | 0,11 | 0,09 [0.27 Empleado | 9.99 | 0,185 | 0,105 0,35 temporal ‘Auténome | 0,06 | 0,04 | 0,05 [0.15 Sinempleo | 0,115 | 0,07 |0,045]0,23 hi 0,335 | 0.375 | 0.29 | 1 Como hy, ehh. para algin i, j, por ejemplo, 0,084 0,335.0,35. Entonces las variables X e Y son dependientes. Unidad 12 | Distribuciones bidimensionates STATI 53. Galton (187) a iz6 la relacién entre el diametro de los guisantes (X) y el diémetro medio de sus descendientes (¥) (datos en centésimas de pulgada): x2 [2 [i [ml 7] el] ¥ [17,26 [17,07 [16.37 [76.4] 76.13 | 16.17 | 75.98 8) Dibuja el diagrama de dispersion. b) Escribe a recta de regresién de Y sobre X. .Queé conclusiones pueden extaerse? €) Si un guisante tiene 4,5 milimetros de didmeto (0,177 pulgadas), cual serd el didmetro esperado de sus descendientes? a) En ol gréfico se ha representado la nube de puntos junto con la recta de regresién de Y sobre X ajustada en el apartado siguiente. a CO mE i ioe by Se completa la tabla para calcular los coeficiontes de la recta de regresion de Y sobre X: xy [et] ow 21 | 17.26 | 447 | 207,008 | 962,46 128.45 9-728 tye 20 | 17,07 | 400 | 291,385 | 341.4 7 " 19 | 16,37 | 361 | 267,977 | 311,03, 18 | 164 | 324 | 268,960 | 2952 16,48" = 0,2062 17 | 16.13 | 289 | 260,177 | 274,21 16 | 16,17 | 256 | 261,469 | 258,72 15 | 15,98 | 225 | 255,360 | 239.7 126 | 115,38 | 2296 | 1903,236 | 2082.72 ° Por tanto, la recta de regresién del didmetro medio de los descendientes (Y) respecto al didmetro de sus predecesores (X) es: 0.84 4 y= 16,48 + 294 (18) y =12,7034,021% Ala vista de los datos y de los célculos realizados se pueden extraer, entre otras, algunas conclusiones: ‘+ El diametro medio de los guisantos cuyos predecesores son mas “grandes" es manor que el de estos, mientras que el de aquellos cuyos predecesores son mas "pequesios", es mayor (regresién a la media), ‘+ Cuanto mayor es el tamafio de los guisantes, mayor es el tamafio medio de sus descendientes. ‘+ La variabiidad observada en el tamafio medio de los descendientes es mucho menor que la de sus predecesores. ‘+ Por cada centésima de aumento en el tamafio del guisante de siembra, aumenta 0,21 centésimas el tamario medio de sus descendientes. En este caso, con los resultados abtenidos en el apartado b), puede obtenerse el coeficiente de correlacién: ast = ttt =0.9249. Que confima el ato nivel de correlacén entre el démetro do los guisantes Va Jo2082 ® sembrados y l dismera medio de sus descendiontes, De esa foe, se pueden recizerpredccones acerca dol tamaro medio de los Jescendients para digmetos de guisantes en ol rango Je valores dela tabla, como os ol caso de = 17,7 conieinas do pueda ¥y =12,7034,021-17,7 Es decir, el tamafio medio esperado para los descendientes de un predecesor de 0,177 pulgadas es de0,1642 pulgadas. Distribuciones bidimensionales | Unidad 12241 SOLUCIONARIO 84. La tabla siguiente muestra el PIB per capita (X, en miles de $) y el indice de natalidad (Y, en nacimientos/mil habitantes) on once paises de Iberoamérica, Eafareshoaiisissiir7ioasalira| 153] 2a] 20 Jao] 19 | a7 [ar] a7 Laz [17] 14 | 19 | a) Representa gréficamente la distrbucin. ) Calcula el cosficiente de correlacién y sefala la relacion entre ol PIB per capita y el indice de natalidad. €) scribe la recta de regrosién dal indie do natalidad en funcién del PIB por capita, 4) Siun pais ti 1¢ un PIB per capita de 14 mil délares {.Cual sera su indice de natalidad esperado? a) En grafico se representa la nube de puntos y la recta de regresién obtenida en el aparatado c).Se puede observar una tendencia decreciente, si bien el ajuste lineal ala nube de puntos no es muy bueno. 7 barr b) Se completa la tabla con las columnas necesarias para los xa FELIS] Chiculos de este aprtade y del siguiente a5 [26 S76 [117.8 127 [20 400-| 254 38 [20 400 [172 702 [19 361 | 193.6 119 D7 289 [202.3 sj = SERS? 11298 «16.6626 96 [17 289 | 163.2 xa 789-[ 300.9 3587 _yy-79¢ 1909 oa [ir 289 [178.8 7 55 [47 289 | 93.5 ia 496 [243.6 ia] 769 | 198.9 247/995 3547 [21166 Por tanto, el coeficiente de correlacion es: 2.7388 fig 6626 8,1983 Que indica que a mayor PIB per cApita, menor indice de natalidad con una relaci6n lineal moderada, tal como se intula con la observacién de la nube de puntos en el primer apartado. €) La recta de regresién de Y sobre X, es decir, del indice de nacimientos respecto al PIB es: 7.7387, 16,0626 d) Six= 14, entonces el nimero esperado de nacimientos por cada mil habitantes es: y =-0,4644-14422,971=16,475 0.6621 y=17,73+ (1-11.29) = y = 0.46441 422,971 242 Unidad 12| Distribuciones bidimensionales STATI 55. Se supone que el alargamiento (Y, en cm) de un cable esta relacionado con la intensidad de la fuerza (X, en N) que se le aplica. Para estudiar el tipo de relacién se toma una muestra de cinco cables de la misma clase y longitud y se les aplica distintas fuerzas. Los datos del alargamiento sor R215] 3 [25 ¥[5.4 [3.5 [64/3 [6.9 )Dibuja la nube de puntos y comenta la relacién que se observa. b) Escribe la recta de regresién del alargamiento en funcién de ta fuerza aplicada. ,Cuanto aumentaré el alargamiento por cada unidad de aumento en la fuerza? ) .Cudl es el porcentaje de variabilidad del alargamiento que viene explicada por la variacién en la fuerza que se aplica? 4) Si se aplica una fuerza de 1,2 N, {Cul serd el alargamiento esperado del cable? 2Y si la fuerza que se aplica es de 2,2N? a) La nube de puntos junto con la recta de regresién ajustada en el aparatado b) se han representado en el grafico y se observa una fuerte relacién lineal directa entre la fuerza aplicada al cable y el alargamiento que se produce en el mismo: a mayor fuerza aplicada, mayor alargamiento. Situacién que coincide con la intuicién, por lo que parece razonable fa pesar de contar con solo cinco abservaciones. ) Se amplia la tabla de datos con las columnas que se necesitan para efectuar los célculos: 40 272 a4 De manera que la recta de regresién del alargamiento (Y) en funcién de la fuerza aplicada (X) es: az, = 2eae 844 2 (x2) y =284x-0.28 ‘De modo que por cada unidad (N) de aumento en la fuerza, ) La respuesta la encontramos en el valor del coeficiente de determinacién: 422 os-41224 | cable alargaré 2,84 em. =0,9783 Es decir, el 97,83% de la vatiabilidad observada en el alargamiento viene explicada por la variacién en la fuerza aplicada. d) Six=1,2N, entonces y = 2.84:12-0,24 ~ 3,168 om Six=2,2N, entonces y =2,84.2,2-0,24 6,008 cm Distribuciones bidimensionales | Unidad 12.243, SOLUCIONARIO 56. En la tabla se dan los datos observados de la estatura de un bebs (Y, en cm) segiin el niimero de semanas. de embarazo (X) a partir de la semana 32, Los datos se dan en la tabla siguiente: x]s2[33 [34] 35 [36]37|38 [30] 40 y [42 [45 [47 [48.5] 49 [51 [52 [54/55 a) Representa graficamente los datos. ») Halla la recta de regresién de la estatura del bebé en funcién del niimero de semanas transcurridas y justifica la bbondad del ajuste obtenido. €) {Cual es el porcentaje de variabilidad de la estatura explicada por el modelo de regresion? a) La gréfica de dispersién de los datos muestra una fuerte relacion lineal entre el nimero de semanas de ‘embarazo y la estatura del bebé, dado el buen ajuste que se observa de la recta de regresién a la nube de puntos, a nes do b) —_Seafiaden a la tabla las columnas correspondientes: XT Y]*# ve xy 32[ 42 | 1024 | 1764 | 1344 33[ 45 | 1089 | 2025 | 1485 34[ 47 | 1156 | 2209 | 1598 7 35 [43,5 | 1225 | 2952,25 | 1697.5 e 36[ 49 | 1296 | 2401 [1764 37 [51 | 1369 | 2601 [1887 38 | 52 | 1444 | 2708 | 1976 39 | 54 | 1521 | 2016 | 2106 40] ss | 1600 | 3025 | 2200 1324 | 443,5| 11 724] 21 997,25] 16 057.5 21997,25 49.37 pons La recta de regrosién de la estatura del bebé (Y) en funcién del niimero de semanas de embarazo (X) es: 10.17 y= 49,907 (x-36) = y =1525x-5.6 Que se ajusta muy bien a la nube de puntos como se puede ver en el grafico del apartado a). Ademas, ol coeficiente de correlacién lineal 10,17, Year Jisee ‘es muy préximo a 1 y, por tanto, sefialando una fuerte relacion lineal directa entre ambas variables. ) La respuesta la proporciona el coeficiente de determinacién, obtenido directamente con la covarianza y las varianzas o el cuadrado del coeficiente de correlacién: R= 0.9788 09894 Asi, el 97,88% de la variablidad observada en la estatura viene explicada por el modelo de regresién. 244 Unidad 12| Distribuciones bidimensionales STATI 87. La tabla siguiente muestra los datos del ntimero atémico (X) y la densidad (¥, kglm’) de los metales. aicalinotérreos (Grupo 2) de la tabla poriédica. D4 [2 [20 [28 | 66 | a8 Y [1848 | 7738 [1560 [2540 [3594] 5000 a) CPuede afirmarse que existe relacién lineal entre el niimero atémico y la densidad? Razona la respuesta ) Escribe la recta de regresién lineal de la densidad en funcién del ndmero atémico. €) Calcula el coeficiente de determinacion y valora la bondad del ajuste lineal. a) Para visualizar si existe relacién lineal entre las variables, se representan los datos en un grafico de dispersion y se observa que pueden ajustarse, fen conjunto, mediante una recta, si bien con las debidas precauciones, ya que por ejemplo, debe tenerse en cuenta que: . Solo tenemos 6 observaciones, . Las tres primeras parece que siguen una tendencia distinta a las otras ‘res, ») Se efectian los célculos con la ayuda de las cana ¥ ZW] columnas ahadidas a la tabla de datos: 4 [teaa | 16 | 3415108 | 7392 12 | 1738 [ 148 [| 3020648 | 20856 218 7.18270 20 | 1550 | 400 | 2402500 | at 000 | *-“_ ~ 9693 F~ = 271167 38 | 2540 | 1444 | 6451600 12004 56 | 3504 | 3136 | 12916 836 TE -36,33° = 027,222 ‘88 | 5000 | 7744 | 25.000 000 218 | 16 270 | 12 684 | 53 206 684 58208884 _ 271 164% 1914644,956 797032 —36,93-271167 14314,778 Larrecta de regresion de la densidad Y en funcién del ndimero atémico X es: 34314,78 “par aae 839) y 271467 H1482x + 1204.49 ) Con las resultados del apartado anterior, se calcula ol coeficiente de daterminacién: 2 34314,78° 1827, 222.15514 644,556 Es decir, el 93,98% de la variabilidad observada en la densidad se debe al nimero atémico. Por Io tanto, el ajuste de la distribucién (X,Y) mediante la recta de regresién obtenida en muy bueno, con las precauciones apuntadas en el apartado a). =0,9398 Distribuciones bidimensionales | Unidad 12.245 SOLUCIONARIO 58. La siguiente tabla refleja la distribucién de una muestra de viviendas nuevas en una zona residencial, segiin el numero de habitaciones (X) y su superficie (¥, en m’) Y: Superficie, en mi {60,70} | [70, 80) | (80, 90) {[90, 100) , Zl 3 [12 2 1 de hekitaciones [3464 _[_217_[ 9 [26 N* de habitaciones Ty-[~i75_[450_[ 212] 138 4) Escribe la distibucién de la superficie condicionada a que el niimero de habitaciones sea 3 y calcula la media y la varianza de esta distrioucion b) Es independiente la superficie del ndimero de habitaciones? Comenta el resultado obtenido, a) La siguiente tabla recoge la distribucién de frecuencias de la variable YX necesarias para hallar la media y la varianza. yesh [x] oe [i [oth 160,70) [464 [6s] 4226 [30 160] 1 960 400 (70,80) [21775] 5625 [16.275] 1 220 625 {80, 90) | 89 |85| 7225 | 7565 | 643 025 {90, 100)| 26 [95] 025 [ 2470 | 254 650 706] [26-100 [66.4704 058 700 56.470 Media de YPX=3: S270 4058700 796 0,94 Varianza de YX= 3 70,94" = 66,386, junto con las columnas »b) Para ver si Xe Y son independientes se construye la tabla de las distribuciones relativas y marginales. hi] 160,70) _[ (70,80) T 160,90)_[_ 180, 100) Ti 2 [0.0371 967 7| 0,006 469 _|0,001 078 17 [0,000 539 08 | 0,045 283 02 3 [0,250 134 770,116 981 15 |0,047 978 44 [0,014 016 17 [0,429 11051 4 [0,094 33062] 0,242 587 6 [0,114 285 71 [0,074 303.53 | 0,525 608 47 7j).0,381 671 16] 0,366 037 74 [0,168 342 32 [0,088 04879 1 Como la conjunta no es el producto de las marginales entonces X e Yno son independientes. 246 Unidad 12| Distribuciones bidimensionales STATI 59. En un cultivo de laboratorio se ha medido el crecimiento (Y, en miles) de una colonia de bacterias, en funcién del numero de dias (X) que se mantiene el cultivo. Los datos se recogen en la siguiente tabla: Xs [es [epee] [115147] 200 [356 [679 [264] ) Cuantifica la correlacién lineal entre los dias transcurridos y el niimero de bacterias presentes en el cultivo, b) Escribe la recta de regresién del nimero de bacterias en funcién de los dias transcurridos. €) Define una nueva variable Z =InY’y realiza ahora el ajuste de Z en funcién de Xy valora la bondad del ajuste, ‘comparaindolo con el anterior. a) Para calcular el coeficiente de correlacion lineal, se necesitan las ia Ei aa x varianzas y la covarianza de las dos variables. 3 [115 [ 9 | 13225 [ 345 6 | 147 [36 | 21609 | aa2 2 | 230 [a | svian | ats ai 3p = 2810.52 = 2625 “6 8. 12| 396 |144| 126736 | 4272 15| 579 [225] 335.201 | 3685 gj = 1900428 _ 99,49" - 69799,5556 oS 18 264 [2a] 746 496 [15 562 3188 63] 2300 [819 1 300 428 | 31 887 5, 88 19,5.989,99 12095 De manera que el coeficiente de correlacién lineal entre el niimero de dias y la cantidad de bacterias es: 12885 [25.25 69793, 5556 0,95269 Queda proximo a 1, por tanto, se tiene una relacién lineal directa y fuerte 'b) Con los resultados del apartado a) se tiene que la recta de regresin de Y sobre X es: y= 983,99 = EOS (10,5) = y = 49,129x-19247 ©) Los nuevos datos son: XLY [Zany # xz 198110 3 | 115 [4,744 932 13 | 22.514 3809 [14,234 7064 8708 si S701 <08t01 5 | saz [4,990 432 69] 24,908 417 4 | 20,042 5055 @ | 230 [5.476463 55] 209001653 | 49,288 172 ~10.5°5,702 = 36487 12 | 356 [6,674 930 73| 34,514 611 1 [70,490 168 8 La recta de regresion de Z sobre X es 15 | 579 [6,361 902 48 | 40,466 1692 [95,419 537 2 3645, “a | 864 [6,761 572 77| 45,718 6665 | 121,708.31 FES TOR DEG (x-105) > 2-0189x°5.583 Fe 9590 | 34,209 684 2 | 198,110 207 6| 387,002 58 5 23,6487" El cooiciente de determinacin ahora es: R® = == SO-57 — 0.99426 1289,5¢ 26,25.69793 5556 acabamos de calcular. Ahora bien, el error cuadrético medio para este modelo es menor ECM = 0,5101(1-0,994 24) = 0.002938 que en el anterior modelo que era ECM=6448,40.. Por tanto, la transformacién proporciona un mejor ajuste lineal En el modelo anterior R* =0,908 que es menor que el coeficiente de determinacién que Distribuciones bidimersionales | Unidad 12 STATE ENTORNO MATEMATICO Busco médico 4. Al padre de Sofa te han trasiadado en su trabao y toda fala seh. [ais] rein oe Sn dott eacae uaThan tml ua tcay ategars ta [ET Pats [wis] hueva rsidencia es actulizar sus datos an el Sistema Nacional de Saud y |-21C22 aE tolictar que ee asignen un nuevo midi de fami [Rusia | st A buscar por internet a informacion sabre os pasos que teian que seguir T0[Espaa 335 | para actualizar sus datos, Sofia se encontré con algunos datos estadisticos [13 | Australia 385 | Que llamaron su atencién y que desconocia. Interesada, decidié Investigar |21| Alemania 369] tun poco y estas son algunas de las conclusiones que sacé: 26| Italia 349] + La atoncén médica aia pobacin difere exraordinariamente de un Sel franca [338 | pais a otro, dependiendo de su grado de desarrollo, pero nosolo de gentina éste sino de otras muchas circunstancias. 43 {Egipto 283, 46 |e Unde —| “277 + La oMs (organizacién mundial de a salve) estina que menos de 230 | gr]esiacos | saz trabajadores de la salud (sélo médicos, enfermeras y comadronas) por Unidos ‘cada 100 000 habitantes serian insuficientes para alcanzar la cobertura. [55 |Rumana Za] dotas necesldades de atencin primar de sed. setae a is 62 | Canada 207 | + Muchos paises arcanos no legan tener un trabajar sanitario por Cada 00 000 habitantes, mentee quo on Espana, en el ano 2012 se [68] México 38] alcanzé la proporcién de 498 médicos y 577 enfermeros. 76|China 182 75 |Btan 17 En Intemat encontré los datos roferntes a clatintos palses para |-ge[esceua —| tee aralzaos 709 arbis SaiaT| — oe Analc, al igual que Sofi, as tabla yresponde a etas preguntas 6 |susaties [75 | i , 3 Welinds 35] 2) Dina un cagrama do bara con os dats y calla a media y la desvacon [Hg |Manuocos —| 62 —| tea 173 Senegal . 'b) Separa los paises por continentes (considera América del Norte y del Sur por [190 [Niger 2 separado) y calcula la media para cada continente. identifica los valores [193 [Tanzania 1 aipicos €) De los datos que has calculado en los apartados anteriores, ;qué conclusiones puedes sacar? a) o88888898 WITT Up? La media se obtiene sumando las frecuencias absolutas y dividiendo por el nimero de paises (26) Médicos por cada 1000 habitantes. Y su desviacién tipica op TEBE AUPE 7.998 24 7075605 9, = YETOTEED 187,186 248 Unidad 12| Distribuciones bidimensionales ») 2 STATI Eropa |W Ambrea | Fusia[4aT] del Nore Cuba [672 Nowesa [#16] gy -4sa1g.92-> Eu ea 2466019 Espana [396 =, =21987 5, =186172 ‘Alemania [369 218) Canada |207| a Tala [349 México [296 Francia [098 Reino Undo [277 Rumania_[239 Kirca[ Anita metal 58 ny = RS ‘Argentina [321 sett) cae» PREP Manuecos[62] 5, 99104 a TE Senegal | 6 cuador Niger [2 Tanzania [4 ESC Gevanial Mi Jenin [24 Australia| 985 China [182 ‘Arabia Saudi | % tnaia [5 En cada tabla aparecen los paises de la primera lista agrupados por continents y al ado de cada tabla el vlor medi (numero de medio de médicos por cada 100 000 habitantes) por contnente y su desvacion tipica {excepto para Oceania ya que solo 80 dspone del dato de Australia Ctaramente, el niimero medio de médicos por cada 100 000 habitantes es muy bajo en Atica, @ pesar de la cia de Eaipto, ya quo palses como Senegal, Niger o Tanzania presentan unas eas inmas. En América del Norte, es signifcatva fa cra de médioos por cada 100.000 habitantes de Cuba (672), muy superior ala de los demas paises incluidos en esta Ista De los datos se pueden extraer algunas conclusiones, entre otras: ‘+ Las cifras de médicos por cada cien mil habitantes, varian extraordinariamente de unos paises a otros. ‘+ También es muy elevada la variacién de unos continentes a otros. + Paises muy desarrollados, como Japén, EEUU o Canada presentan cifras inferiores a paises con menor grado de desarrollo, como es el caso de varios paises europeos 0 de por ejemplo Argentina y Egipto. + Las ciras de Attica, Asia y América del Sur son claramente infriores a las de Europa y de A del Nore, aunque en este tltimo caso, que el promedio sea tan elevado se debe exclusivamente al dato que aporta Cuba, Distribuciones bidimensionales | Unidad 12 249 STATE 250 No ha llovido....,gva a subir precio del pan? 2. _AHéctor no le gusta el pan. Desde pequefio se comia el relleno del bocadillo en el recreo y se “deshacia” habilmente del resto. Hoy se ha quedado palido cuando ha oldo en la radio que el precio en origen del trigo, va a bajar hasta un 30 % respecto al afio anterior, debido a la gran cosecha obtenida gracias a las Iluvias primaverales. Ya se ve a si mismo comiendo enormes bocadillos, sopas de ajo y todo tipo de horrores gastronémicos basados en el pan, que, a buen seguro, se le ocurriran a la imaginativa mente de su madro. Antes de rendirse, decide comprobar sila noticia es clerta. Asi, se propone estudiar si hay relacién entre las precipitaciones (cantidad de luvia caida) en primavera y el procio que se paga a los agricultores por tonelada (unidad habitual, pero puedes usar cualquier otra) de cereal (trigo y cebada sobre todo). Los datos, los ha obtenido de la pagina del INE, en el enlace de Agricultura (proporcionadas por el Ministerio de Agricultura) y en Climatologia, Al igual que Héctor, y con ayuda de una hoja de célculo, intenta ver si la relacién es cierta o no. Para ello responde: a) Escribe en una tabla las parejas de datos correspondientes a precipitaciones y precios (no olvides concretar las unidades) y realiza un andlisis de regresién de los precios sobre las precipitaciones (al revés no tendria sentido). ) Se puede hacer el estudio por regiones? {Por cuencas hidrogréficas? {Para toda Espatia? ©) cTe sientes capaz de hacerlo para toda la peninsula ibsrica? Es un problema abierto que se ha de considerar mas como un trabajo pudiendo consular los datos faciltados por el INE. Vamos a proponer un estudio para el apartado a) a) La tabla muestra las precipitaciones (X) en mm y el precio pagado a los agricultores por tonelada (Y) desde o! afio 2008, considerado como base (precio =100), hasta ol 2011 Se tionen en cuenta que: . Los precios entre 2000 y 2004 se consideran con base en 2000 y, por ello no se han Incluido aqui . Las precipitaciones son valores _medios obtenidos a partir de los valores proporcionados en las tablas de INE para todas las regiones de Esparia, de los meses de marzo, abril y ‘mayo de cada aho, desde 2005 hasta 2011. Afio [¥i precio pagado |X: precipitaciones |v? xf xy 2005, 100) 36,644 10 000,000 | 1342,773 | 3664,387 2006, 101,21 41,621 10 243,404 | 1732,287 | 4212,437 zor] 144,36 63,033, 20 839,810 | 3973,201 | 9099,492 00s] 142,54 76.028 20 317,652 | $780,385 | 10 837,152 2009] 107.18 38,514 11.487,552 | 1483,336 | 4127,942 2oro] 122,62 51,308 15.011,150 | 2632,474 | 6286,213 zor; 154,51 52,482 23 873,340 | 2754,408 | 8109,064 872,32 359631 [111 772,968 | 19 698,866 | 46 336,686 Unidad 12 | Distribuciones bidimensionates STATI La nube de puntos junto con la recta de regresién ajustada, indican una tendencia creciente (contrariamente @ lo que podria pensarse) y una relacién lineal moderadamenta aceplable. Las medias, varianzas y covarianza de Xe Y se obtienen a partir de los datos de la tabla: 359651 _ 51376 $7282 — 124.617 7 7 22898866 _ses75: 1744s oj 772008 _s2qr7 4am 08 15228.098 a7) 12417)-217.014 Y, a partir de estos resultados se puede obtener la recta de regresién del precio pagado (Y) sobre las precipitaciones (Xx): 217,214 124,617 « 210244 (54376) -> y —1246x 80,719 9 128,617 «EEE (51978) y = 1244x + 60 CCuya bondad se mide a través de los coeficientes de determinacién y de correlacion: 227.214 ~ Frases aga TaS ~ 00161 = 0.7852 El valor del coeficiente de correlacién (0,7852) confirma una relacién lineal directa moderadamente alta entre las precipitaciones anuales en primavera y el precio pagado a los agrcultores por el cereal, detectada en el diagrama de dispersion. Ademas, £1 61,66% de la variabllidad observada en los precios viene explicada por la variacion en las precipitaciones. ) Se puede realizar un estudio parecido ya que se tienen datos por regiones, cuencas hidrogréficas y para toda Espafa. Para acceder a los datos se puede consultar la pagina del INE y los enlaces de smSaviadigital. com. €) Del mismo modo se puede realizar un estudio similar alos anteriores para la peninsula ibérica, Distribuciones bidimensionales | Unidad 12254 SOLUCIONARIO AUTOEVALUACION Comprueba qué has aprendido 4. Elgrfie siguiente corresponds al histogram de un variable continu 35 2 x a | os a 45 10) 5 % 2 4 6 a 10 a) Escrbe la tabla de frecuencias, b) Calcula la media, X, la moda y la median ¢) Halla la varianza, s*, ya desviacién tipica, s. ) Del diagrama de barras se obtiene directamente la tabla de frecuencias absolutas: Clases | (0.2)] 12.4) [14.6) 16.8) 18,10) 4 [10 [ 20 | 32 | 23 [ 15 b) Para calcular la media, la mediana, asi como la varianza y desviacion tipica del siguiente apartado, se amplia la tabla con las columnas necesarias: Cases] f [9] 60 | oe [A (0,2) | 10 [1] 10 | 10 | 10 [2,4) | 20 [3] 60 | 180 | 30 (4,6) | 32 | 5 | 160] 800 | 62 16.8) | 23 [7 [161] 1727 | 65 18,10] | 15 | 9 | 135] 1215 | 100 oo) [26/3932 526 _ 700 528 La clase modal es [4, 6), porque tiene la mayor frecuencia absoluta, La mitad de las observaciones es 50 y hasta el intervalo (4, 6) se acumulan 30 observaciones, para las 20 restantes se procede por interpolacién lineal: si el intervalo [4, 6), de longitud 2, contiene 32 observaciones, a 20 observaciones le corresponde una longitud: 20(5-4) 32 La media es: L 25 Luego la mediana es Mz 4 + 1,25 25; ) De la tabla del apartado b) se obtiene la varianza y de esta la desviacién tipica 3392 3822 _5.26¢ 5.6524 >, 100 6: 5 3775 252 Unidad 12| Distribuciones bidimensionales STATI La distribucién de la variable bidimensional (X, Y) viene dada en la siguiente tabla: xs [s4[ [719 yia[s[s[5l2[1 a) Representa graficamente la distribucién. 'b) Caloula el coeficionte de correlacion y evalia el ajuste lineal ala distribucion, ©) Escribe la recta de regresin de Y sobre X. 4) .Qué porcentaje de la variabidad de la variable Y es explicada por el modelo de regresién? @) Six=6, {cuales el valor esperado de y? zy si x= 15? Comenta la fabilidad de ambas predicciones. a) Se representan la nube de puntos de la variable estadistica (X,Y), junto con la recta de regresion de Y sobre X obtenida en el apartado c), y se puede observar una relacion lineal inversa fuerte entre ambas variables, b) El célculo del coeficiente de correlacién precisa aiadir a la tabla columnas con los cuadrados de las variables y ‘al producto de las mismas. xT y[ x? |v? [x] ST cn nr ya oon Xe Ysen 3[s[ 9 [36 [78 23 aa 415 | 16 | 25 |20 6 repels [i efits 30/23 192] 107 | 90 1389 {0 ga -4s087 1067 De modo que el coeficiente de correlacién lineal es: 0.8889 fr-3,1389 que confirma la intuicién sefialada en el apartado a). El coeficiente de correlacién lineal toma un valor relativamente préximo a1 y, por tanto, el ajuste de la distribucin mediante una recta es aceptable. ) La recta de regresién Y sobre X, se obtienen con las datos del apartado b) y 399 A887) x5) y 595% + 6,81 (-41667)° 73,1389) 0.7901 4d) Este porcentaje se obtiene mediante el coeficiente de determinacién: R* Esto es, ol 79,01% de la variabilidad observada en Y viene explicada por el modelo de regresién (por la variable X), @) Si x= 5, entonces y = ~0,595.5.+6,81~ 3,895 , prediccién flable por encontrase el valor x= 5, en el rango de valores de Xy, ademas, muy préximo a la media de la variable. En cambio, no se puede hacer prediccién para x- 15, por no estar dentro del rango de valores de la variable regresora, Distribuciones bidimensionales | Unidad 12.253 SOLUCIONARIO 3, Asigna razonadamente a estos diagramas de dispersién el coeficiente de correlacién adecuado. ly my a 0 v 1 a a) 70,102 b) r--0,903 ©) 0,776 d) 0,501 bn 0776 Us 0,102 I> 0,501 I> r=-0,903 4. Silas puntuaciones otorgadas a 7 alumnos en un examen de matematicas son 4, 7, 6, @) Caloula la media y la varianza de las calificaciones. 13, 9y 5. »b) Sise multiplican por 2, .cudles son ahora la media y la varianza? ©) El coeficiente de correlacién entre las notas de matematicas y las de quimica para estos 7 alumnos es r= 0,78, SS tanto las caiificaciones de matematicas como las de quimica se multiplican por 2 ,.Cual es ahora el valor del coeficiente de correlacién? ALT+6+8+3+945 7 VTS BE ASOT = eos 6) Si zemultpican os valores de avril por 2, a media queda mulpicada por 2 ya que, en genera Yp 2x mig Fie Mientras que la varianza queda multipicada por 2% 4, puesto que en general: (2x) (2a = 4{ 28 ©) El-coeficiente de correlacién no cambia, puesto que Sianee 4sy Sa Unidad 12| Distribuciones bidimensionales STATI Relaciona y contesta Elige la Gnica respuesta correcta en cada caso 1, La variable estadistica X toma los valores 2, 3, 4, 5 y 6 con frecuencias respectivas 4, 5, 3y1.Sise sabe que la media aritmética de X es 3,6, el valor de fy la mediana de X sor A 8, M3 BT, Me4 © 6, Med D. 7, Me Solucién:8 2. Ena regresién lineal de Y sobre X, se ha obtenido un cooficante do daterminactén R ‘A, Larelacién entre Xe Yes directa B, Lapendiente de a recta de regresisn es 0,82. ©. E118 % dea variabilidad de Y queda sin explicar por el modelo de regresion. D, Con ese dato, no hay relacion lineal entre Xe Y, Solucion: © 3. E181 % de la variabllidad de Y viene explicado por el modelo de regrasién. Si la media de la variable Xes 1 y la recta de regresién de Y sobre X, es y - 2,5~1,4x , entonce: A =25r--09 —-B. F=25r-09 ©. F=tir=-99 D. 7=\r=09 Solucién: © 4. Dela distribucién conjunta de dos variables estadisticas Xe Yse sabe que s,=2, s,, En este caso: A y=10-2% B. y=14-0.5x ©. y=1440.5% D. y=8-2x Solucién: B Sefiala, en cada caso, las respuestas correctas 5. Dela variable (X, Y)se sabe que s,, =2,Sy que , R? ~ 0,75. Si Z=3Xy TaY+ 3, entonces: A s,=8,+3 B. RE=Ri, c. D. RE =9R:, Solucién: By © 6. Con el modelo de regresiéniin I de Y sobre X se pueden realizar predicciones razonables sobre ¥: ‘A. En cualquier caso B, Siel valor dado a X se encuentra cerca de su media ©. Solo para valores pequerios de X D. Siel valor de X esté en el rango de valores de la muestra Soluciones: By D Elige la relacién correcta entre las dos afirmaciones 7. 4. El coeficiente de correlacién es n-0,7 2. La recta de regresién es y -50-0,7x A1=2 B2=1 C122 D. 142 Solucién: D Distribuciones bidimensionales | Unidad 12.255,

También podría gustarte