Está en la página 1de 72

Ejercicios Resueltos de Estadstica: Tema 2: Descripciones bivariantes y regresin

1. En un estudio de la Seguridad e Higiene en el Trabajo se contrast la incidencia del tabaquismo en la gravedad de los accidentes laborales. Considerando una gradacin de Muy fumador hasta No fumador como media del tabaquismo, y una gradacin de Muy grave a Leve en el tipo de accidente. Se extrajo una muestra de 525 individuos que haban sufrido un accidente laboral. Los resultados se presentan en la siguiente tabla de contingencia(tabla de doble entrada):

Muy Fumador Fumador Fumador Espordico No Fumador


Se pide:

Muy Grave Grave 20 30 10 5

Lesiones Med Leves 10 10 40 20 60 80 20 30

30 50 60 50

1. Representar los datos anteriores grficamente 2. Calcular las distribuciones marginales para cada una de las variables de estudio. 3. Construir una tabla de distribucin de frecuencias porcentuales donde aparezcan las distribuciones de la variable de tipo de Lesin condicionada a cada una de las variables del Fumador. 4. Estudiar si las variables estn asociadas o no por medio de una medida descriptiva. Realizar un anlisis grfico y comentar los resultados.

SOLUCIN: a)

b) Se obtiene a partir de la tabla de doble entrada sumando las frecuencias y las filas, o bien por columnas segn el caso.

Marg. Tabaquismo Muy fumador Fumador Fumador Espordico No fumador

FREC. 70 140 210 105 525

Marg.Accid. Lab. Muy grave Grave Lesin media Leve

FREC. 65 130 140 190 525

c) La distribucin de una variable condicionada a que otra variable tome un determinado valor de la distribucin de frecuencias de la variable cuando mantenemos fijo el valor condicionante de otra variable. Muy Grave Muy Fum. Fumador Fum.Espor. No Fum. Marg.Lesin 28.57 21.43 4.76 4.76 12.38 Grave 14.29 28.57 28.57 19.05 24.76 Lesin Med. 14.29 14.29 38.10 28.57 26.67 Leve 42.86 35.71 28.57 47.62 36.19 100% 100% 100% 100% 100%

Como ejemplo del clculo de la distribucin porcentual del Tipo de lesin condicionado al individuo sea Muy Fumador se realizar dividiendo cada una de las frecuencias de la fila Fumador entre el nmero total de Muy Fumadores y despus multiplicariamos como ((20/70)*100=28.57; (10/70)*100=14.29,).

d) (Este apartado lo vamos a realizar sobre una misma tabla) La medida descriptiva de la asociacin entre las variables viene dada a travs de la medida que indica la distancia relativa que existe entre la tabla de frecuencias observadas en la tabla de frecuencias esperadas si las variables fueran independientes. La expresin para las frecuencias esperadas es la siguiente:

Donde E es la frecuencia esperada en la celda (i,j), F es la suma de las frecuencias de f y C es la suma de las frecuencias de la fila j. La distancia relativa al cuadrado que existe entre una celda de la tabla de frecuencias observadas es la misma celda de la tabla de esperadas viene dada por:

Y la suma de todas ellas recibe el nombre de x2(ji-cuadrado). Por otra parte podemos estudiar cules son los pares de categoras que influyen en mayor medida en la existencia de la asociacin. Este lo realizaremos por medio de anlisis grfico atendiendo al siguiente criterio: [zij]<1.645, le asignaremos el smbolo . (influencia muy dbil) 1.645<[zij] 1.960, le asignamos o. (influencia dbil) 1.960<[zij] 2.576 le asignamos O (influencia fuerte) [zij] >2.576, le asignamos @ (influencia muy fuerte)

La tabla donde se refleja lo expuesto es la siguiente: Muy Grave M.F Obs. M.F Esp M.F z M.F Sim. F. Obs. F Esp. F: z 20 8.667 3.850 @ 30 17.333 3.043 Grave 10 17.333 -1.761 O 40 34.667 0.906 Lesin Med. 10 18.667 -2.006 O 20 37.333 -2.837 Leve 30 25.333 0.927 . 50 50.667 -0.094 Marg.Tab 70 70 70 70 140 140 140

F. Sim. F.E Obs. F.E Esp. F.E z F.E Sim. No F. Obs. No F. Esp. No F. z No F. Sim.. Marg. Lesin

@ 10 26 -3.138 @ 5 13 -2.219 O 65

. 60 52 1.109 . 20 26 -1.177 O 130

@ 80 56 3.207 @ 30 28 0.378 . 140

. 60 76 -1.835 O 50 38 1.947 o 190

140 210 210 210 210 105 105 105 105 525

X2 = 75.917 este valor depende del tamao de la muestra y de la forma de la tabla, por tanto utilizaremos el valor V de Cramer como medida descriptiva de la asociacin entre variables, esta medida esta comprendida entre 0 y 1, siendo las variables independientes cuande vale 0 y existiendo asociacin perfecta cuando vale1. La expresin para V es:

En este caso vale 0.220.

2. En un estudio sobre el sexismo en el trabajo se contrastaron las variables sexo y nivel de ingresos. Los resultados obtenidos sobre una muestra de 528 individuos se presentan en una tabla de doble entrada:

Alto Hombre Mujer Se pide: 50 20

Medio Bajo 135 147

Bajo 78 98

a) Representar grficamente las variables en estudio. b) Calcular una medida descriptiva del nivel de asociacin entre ambas variables. Realizar un anlisis grfico y analizar los resultados.

SOLUCIN: a)

b) Alto Hombre Obs. Hombre Esp Hombre z. Hombre Sim. Mujer Obs. Mujer Esp. Mujer z. Mujer Sim. Marg. Salario V=0.172 50 34.867 2.563 O 20 35.133 -2.553 O 70 Medio 135 140.466 -0.461 . 147 141.534 0.459 . 176 Bajo 78 87.667 -1.032 . 98 88.333 1.029 . 176 Marg.Sexo 263 263 263 263 265 265 265 265 528

3. De una determinada empresa se conocen los siguientes datos, referidos al volumen de ventas ( en millones de pesetas) y al gasto en publicidad ( en miles de pesetas) de los ltimos 6 aos: Volumen de ventas(mill. Ptas) 10 15 20 22 30 32 Gastos Publicidad(miles ptas.) 16 32 48 56 64 80

a) Existe relacin lineal entre las ventas de la empresa y sus gastos en publicidad? Razona la respuesta. b) Obtener las rectas de regresin mnimo cuadrtico. c) Qu volumen de ventas de la empresa se podra esperar en un ao que se gaste de publicidad 60000 pesetas? Y para un gasto en publicidad de 200000 pesetas? d) Si lo nico que interesase fuese la evolucin del volumen de ventas en trminos de gastos en publicidad, sin tener en cuenta la cantidad concreta de cada uno de ellas, existira correlacin ordinal entre ambas variables?

SOLUCIN: a) Dibujamos primero el diagrama de dispersin:

Observndolo podemos decir que existe relacin lineal entre ambas variables. Ahora calculamos el coeficiente de determinacin lineal para obtener una medida descriptiva del grado de asociacin lineal que existe entre las variables. La expresin del coeficiente de determinacin es:

Donde Sxy representa la covarianza de las variables X e Y. Cuya expresin simplificada es:

Para clarificar la forma de clculo construimos la siguiente tabla: ( variable X= Gastos de publicidad y variable Y= Volumen de ventas) Y 10 15 20 22 30 32 129 X 16 32 48 56 64 80 296 Y2 100 225 400 484 900 1024 3133 X2 256 1024 2304 3136 4096 6400 17216 XY 160 480 960 1232 1920 2560 7312

X= 49.333; Y=21.5; sx=20.870; sxy=158 Substituyendo obtenemos que r2 vale 0.956 que es lo que caba esperar despus de observar el diagrama de dispersin. b) Si expresamos las rectas de regresin como y*= a+bx y x*=c+dy los coeficientes de los calculados son como:

Aplicndolas a este problema obtenemos las rectas de regresin:

Y*=3.604+0.363x ; X*=-7.356+2.637y

c) Para realizar la prediccin del volumen de ventas utilizamos la recta de regresin que tienen las ventas en funcin de los gastos en publicidad. Para un gasto en publicidad de 60000 pesetas obtendremos un volumen de ventas de x*=3.604+0.363*60=25.384 millones de pesetas. Si el gasto es de 200 millones de pesetas no podemos utilizar la recta de regresin puesto que el valor 200 esta fuera del recorrido del gasto en publicidad. Si sustituimos nos da un valor de 76204 millones de pesetas, pues las rectas slo son vlidas dentro del rango o para valores prximos a los extremos del recorrido.

d) Para solucionar este apartado calculamos el coeficiente de correlacin ordinal de Spearman. El coeficiente de Spearman consiste en calcular el coeficiente de correlacin lineal de los datos transformados a travs de la funcin rango. Y X Rang Y Rang X di Di2 10 16 1 1 0 0 15 32 2 2 0 0 20 48 3 3 0 0 22 56 4 4 0 0 30 64 5 5 0 0 32 80 6 6 0 0 0 0

El coeficiente de Spearman cuando no existen empates en los rangos, como ocurre en estos datos, tiene la siguiente expresin:

En este caso rs es 1 por tanto existe correlacin ordinal positiva y perfecta, es decir a mayor gasto en publicidad mayor volumen de ventas. (Podemos observar que la correlacin lineal no es perfecta y sin embargo la correlacin ordinaria si lo es).

4. Un banco estatal de cierto pas est estudiando la posibilidad de bajar los tipos de inters para incentivar la inversin privada, y as abrir la posibilidad de creacin de puestos de trabajo. Para ello contrasta los tipos de inters real de diferentes pases con la

inversin privada en los mismos, todo ello durante el ltimo perodo. Obtenindose los resultados que aparecen reflejados en la siguiente tabla: Tipos de Inters(en tantos por uno) INVERSION(miles mills 10-50 50-100 100-150 150-200 1 5 1 4 1 0.05-0.10 0.10-0.15 0.15-0.20 0.20-0.25

2 5

a)Existe relacin lineal entre ambas variables? Razona la respuesta. b)Construye la recta de regresin que explica la inversin en fluencia de los tipos de inters real. c)Cmo variara la inversin si se produce un incremento de una unidad en los tipos de inters real? Raznalo sin necesidad de hacer ningn clculo. d)Si el tipo de inters real baja de 0.18 a 0.09, cmo variara la inversin?

SOLUCIN: Para facilitar el seguimiento de los clculos necesarios para resolver el problema construimos la siguiente tabla resumen: (variable X=tipo de inters real; variable Y=inversin).

YX 30 75 125 175 Marg. X fi x i fixi2

0.075 0 0 1 5 6

0.125 0 1 4 1 6

0.175 2 5 0 0 7

0.225 6 0 0 0 6

Marg.Y 8 6 5 6 25

fixi 240 450 625 1050 2365

fiyi 7200 33750 78120 183750 302850

0.45 0.03375

0.75 0.09375

1.225 0.21438

1.35 0.30375

3.775 0.64563

fijyixj

0 0 9.375 65.625

0 9.375 62.5 21.875

10.5 65.625 0 0

40.5 0 0 0

285.375

X(media)=0.151; Y(media)=94.6; sx=0.055; sy=56.248; sxy=-2.870 1. Para estudiar la relacin lineal entre las variables tipo de inters e inversin utilizaremos el coeficiente de determinacin como medida descriptiva de este hecho. 2. y*=237.863-948.760x 3. El incremento en una unidad de la variable independiente coincide con el valor de la pendiente de la recta; en este caso el incremento ser de -948.760( observamos que en este problema el incremento es ficticio pues 1 se sale del recorrido de la variable independiente). 4. El incremento ser el producto entre la pendiente y la diferencia entre el tipo de inters en los dos estados, es decir, aumenta en -948.760*(0.09-0.18)=85.388miles de millones.

5. Una compaa discogrfica ha recopilado la siguiente informacin sobre 15 grupos musicales, a saber, el nmero de conciertos dados este verano y las ventas de discos de estos grupos( en miles de LPs), obteniendo los siguientes datos: CONCIERTOS LPs 1-6 6-11 11-16 10-30 3 1 2 30-50 2 4 1 50-70 1 1 5

a)Calcula el nmero medio de LPs vendidos por estos grupos. b)Obtener la recta de regresin que explica la dependencia lineal c)Si un grupo musical ha vendido 1800 LPs,Qu nmero de conciertos se prevee este verano?

SOLUCIN: a) 9000 LPs

c) y*=28.22+1.42x d) y*=28.22+1.42*1.8=30776 Conciertos.

6. Con objeto de analizar si existe relacin lineal entre el consumo de energa elctrica(kw.hora), variable X y el volumen de produccin en millones de pesetas, variable Y, de una empresa se ha obtenido la siguiente informacin:

Se pide: 1. Ajstese la recta de regresin lineal que explica el consumo de electricidad en fi del volumen de produccin. Raznese la validez de la recta ajustada

SOLUCIN: a) y*=-10.746+2.202x b) r=0.959

7. Una empresa de manufacturas basa las predicciones de sus ventas anuales en los resultados oficiales de la demanda total en la industria. A continuacin se dan los datos de demanda total y las ventas efectuadas por la empresa en los ltimos 11 aos.

demanda total ventas (miles de tm) (miles de tm) 200 9 220 6 400 12 330 7 210 5 390 10 280 8 140 4 280 7 290 10 380 14
1. Dibujar los diagramas de dispersin de los datos. 2. Trazar la recta que mas se ajuste a los datos.

3. Por medio de un ajuste mnimo cuadrtico encontrar la recta que ms se ajuste a las ventas de la empresa en funcin de la demanda total. Si la demanda total industrial es de 300000 toneladas, Qu volumen de ventas se predecira usando la recta de regresin calculada?y si utilizamos la recta encontrada en el apartado b)? 4. Realiza la validez del ajuste lineal realizado en el apartado anterior. Utilizando el mtodo robusto de ajuste de una recta basado en la mediana, para obtener una recta de ajuste en los trminos del apartado c). Realiza la prediccin del apartado c. utilizando esta recta

SOLUCIN: 1. X=Demanda Total, Y=Ventas

2. y*=0.422+0.028x; y*=0.422+0.028*300=8.822 Miles de Ton. 3. r=0.801; r2=0.642. 4. Para calcular la recta robusta de ajuste basada en la mediana se procede de la siguiente forma: 1. Se divide la muestra ordenada por la variable X en tres partes aproximadamente iguales, en este caso hemos tomado 4, 3 y 4. 2. Se calcula la mediana para las variables X e Y en el primer y tercer subconjunto de datos. Primer subconjunto: x1=Me(X)=205 ; y1=Me(Y)=5.5 Tercer subconjunto: x2=Me(X)=385 ; y2=Me(Y)=11 3. Uniendo los puntos obtenemos la recta robusta de ajuste. La expresin para la pendiente(br) y para el trmino independiente(ar) son:

Sustituyendo obtenemos yR=-0.764+0.031*300=8.536 miles de Ton.( NOTA: ambas rectas estn dibujadas sobre el diagrama de dispersin. El signo . del grfico corresponde a los puntos( x1,y1) y (x2,y2) y el signo (cuadrado) a los datos del problema).

8. Se est estudiando la relacin entre el nmero de aos que una persona est afiliada al sindicato y el nivel de satisfaccin con la actuacin de dicho sindicato. Para ello se parte de los datos de 7 individuos tomados aleatoriamente de personas adscritas a partidos polticos, obtenindose: Aos Satisfaccin 8 7 7 5 10 8 3 5 6 9 13 9 4 3

1. Calcular el coeficiente de correlacin lineal. Comentar el resultado obtenido. 2. Predecir el ndice de satisfaccin de una persona que lleva 11 aos militando al sindicato. Conociendo que el ndice de satisfaccin es de 6 predecir los aos que lleva en el sindicato

SOLUCIN: 1. r=0.711 2. y*=3.118+0.474x ; y*=3.118+0.474*11=8.332 en la escala de satisfaccin. 3. x*=0.270+1.068*y; x*=0.270+1.068*6= 6.678 aos.

9. En una regin vincola se observ la evolucin del precio( en pesetas/litro) y la cantidad de produccin( en toneladas) durante algunos aos. Mirad la tabla:

Produccin 100 110 120 140 160 200

25-35 2

35-45

45-55 1 3 2 1

55-65 5 1

2 5

4 3 2

1. Calcula la recta de regresin lineal que pone el precio en funcin de la produccin. 2. Analiza razonadamente la validez de la recta obtenida anteriormente.

Entre que valores estar el precio cuando la produccin est entre 115 y 135 toneladas? Razona la respuesta.

SOLUCIN: 1. y*=68.291-0.167x 2. r=0.556 ; r2=0.309 3. y*=68.291-0.167*115= 49.086 e y*=68.291-0.167*135=45.746 ; el precio estar entre 45.746 y 68.291 pesetas

10. Dados los siguientes conjuntos de datos:

U V W X

1 3 4.543 6.646

2 5 4.543 6.646

3 6 4.543 6

4 5 4.543 6

5 7 4.543 6

6 9 4.543 7

7 10 4.543 7

8 9 4.543 5.684

9 10 4.543 8.838

10 10 14.117 14.186

1. Dibujar el diagrama de dispersin de cada uno de los conjuntos de datos. 2. Calcular la recta de regresin de cada uno de los conjuntos de datos y dibujarla en el diagrama de dispersin, considerando como variables independientes las variables U,W,X. 3. Calcular el coeficiente de correlacin lineal para cada uno de los conjuntos. 4. Qu podemos observar? 5. Eliminando los outliers vuelve a calcular loa apartados b y c. 6. Qu otras rectas te pareceran mas adecuadas en los conjuntos anteriores? Razona la respuesta. 7. Calcula la recta de ajuste robusto Qu conclusiones podemos extraer de este problema?

SOLUCIN: a)

2. v*=3.067+0.788u ; x*=3.067+0.788w 3. ruv=0.877 ; rwx=0.877 4. Podemos observar que ambas rectas son exactamente iguales y que la relacin lineal en ambas es la misma, pero se puede apreciar en las variables U/V la recta es ms representativa que en el otro caso. Observamos que la presencia del outlier puede cambiar el resultado esperado. 5. En el diagrama de dispersin U/V no se observan outliers. En el diagrama W/X se advierte la presencia de un outlier, que es el punto( 14.117,14.186) si lo eliminamos obtenemos la x*=6.646 y la asociacin lineal entre ellas es nula, 6. Este apartado se realizar para las variablea U/V vR=3.571+0.714u. 7. La principal conclusin es que hay que dibujar siempre el diagrama de dispersin de datos.

11. Un gerente de recursos humanos desea determinar el salario que debe pagar acierta categora de obreros. Para determinar dicho salario que debe pagar a cierta categora de obreros. Para determinar dicho salario se realiza un estudio en el que intervienen las variables Salario Mensual( en miles de ptas), Nivel de Produccin Anual en la Empresa( en millones de ptas) y Nivel de especializacin Media del Trabajador ( de 0 a 10). El gerente obtiene esta serie de resultados:

Sal. Prod. Esp.

123.4 300.5 4.3 Se pide:

135.7 325.9 5.5

115.9 298.6 7.8

100.6 200.9 4.9

98.7 300.4 4.3

150.4 359.8 8.5

124.6 279.6 6.4

110.0 215.6 5.6

138.6 250.0 5.3

123.4 300.0 5.0

1. Calcular el plano de regresin lineal mnimo cuadrtico que explica el salario en funcin de la produccin y del nivel de especializacin. 2. Estudia la validez de la funcin obtenida en el apartado anterior por medio de una medida descriptiva. Cunto vale la varianza residual? 3. Calcula el coeficiente de correlacin parcial para dos variables explicativas. 4. Comenta los resultados. Qu salario se debera pagar si el nivel de produccin fuese de 315 millones de ptas. y el nivel medio de especializacin de 6.6?

SOLUCIN: 1) Variable Y=Salario Xi=Produccin X2=Nivel de especializacin. La tabla de clculos es:

Y 123.4 135.7 115.9 100.6 98.7 150.4 124.6 110.0

X1 300.5 325.9 298.6 200.9 300.4 359.8 279.6 215.6

X2 4.3 5.5 7.8 4.9 4.3 8.5 6.4 5.6

Y2 15227.6 18414.5 13432.8 10120.4 9741.7 22620.2 15525.2 12100.0

X12 90300.1 106210.8 89162.0 40360.8 90240.2 129456.0 78176.2 46483.4

X22 18.5 30.3 60.8 24.0 18.5 72.3 41.0 31.4

YX1 37081.7 44224.6 34607.7 20210.5 29649.5 54114.0 34838.32 23716.0

YX2 530.6 746.5 904.0 492.9 424.5 1278.4 797.4 616.0

X1X2 1292.2 1792.5 2329.1 984.4 1291.7 3058.3 1789.4 1207.4

138.6 123.4 1221.3

250.0 300.0 2831.3

5.3 5.0 57.6

19210.0 15227.6 151619.8

62500.0 90000.0 822889.6

28.1 25.0 349.7

34650.0 37020.0 350112.2

734.6 617.0 7141.8

1325.0 1500.0 16570.0

La recta a construir tendr la forma y*= a+b1x1+b2x2 y para calcular los coeficientes de la recta aparece un Sistema de Ecuaciones Come ste:

Con estos datos el sistema de ecuaciones a resolver es: 1221.3 = 10a +2831.3b1 +57.6b2 350112.2 =2831.3a +822889.6 b1 +16570.0b2 7141.8 =57.6a +16570.0b1 +349.7b2

Que tiene por solucin a=56198 b1=0.158 b2=3.664 . Por tanto el plano de regresin es : y*=56.198+0.158x1+3.664x2

2) Las medidas descriptivas que vamos a utilizar son el coeficiente de determinacin y el de correlacin. Y definidas seran as:

El coeficiente de determinacin mltiple viene expresado como:

Donde s2 es la variable residual. Una expresin de la varianza residual que simplifique el clculo es:

En este caso R2=0.438 R=0.661 s2=138.506

3 El coeficiente de correlacin parcial entre la variable dependiente y una variable explicativa mide la fuerza de la relacin lineal entre ambas cuando eliminamos el efecto lineal de las otras variables explicativas. Su resultado es:

Donde SCE(xi) es la variacin no explicada . Observando esta expresin vemos que el coeficiente de determinacin parcial nos da el incremento relativo de la variable aplicada. El coeficiente de correlacin parcial se consigue de la raiz cuadrada del coeficiente de determinacin. En este caso SCE(x1)=1582.51 SCE(x2)=1643.06 SCE(x1,x2)=1385.06 r2=0.157 r2=0.124 y*=56.198+0.158*315+3.664*6.6=130.15

12. El gerente de una determinada empresa desea conocer, de forma aproximada, la demanda anual de producto que se realizar a la empresa en aos futuros. Para determinar esta demanda realiza un estudio en el que intervienen las variables Precio Medio del Producto en un Ao (en pesetas), Tasa de inflacin Anual (IPC)(en tantos por uno) y la Demanda Anual (en miles de millones de pesetas). En una muestra de 20 aos obtiene los siguientes resultados: (Demanda=Y, Precio= , IPC= )

Calcular: a) Determinar a partir del coeficiente de correlacin lineal mltiple la validez de la funcin anterior. Cunto vale la varianza residual? b) Determinar el coeficiente de correlacin parcial para cada una de las variables explicativas y calcula el coeficiente de determinacin para e . c) Qu variacin se produce en la demanda si el precio se incrementa en 3 unidades permaneciendo fijo el IPC?y si se reduce el IPC en 0,03 permaneciendo fijo el precio? Razona la respuesta. d) Qu variacin porcentual se producira en la demanda si el precio varia de 156 a 159 pesetas y el IPC permanece constante e igual a 0,04? e) Qu volumen de demanda predeciras para un ao en que el precio es de 159 pesetas y el IPC anual previsto es del 3,5%?

SOLUCIN: a) b) SCE( =0,195185; SCE( =0,458711; SCE( )=0,17046; =0,6283934;

=0,1266746; c) La variacin en la demanda ser tres veces la pendiente correspondiente a la variable Precio, en este caso se producira una reduccin en la demanda de 0,0184 miles de millones de pesetas. La variacin en la demanda ser un aumento de demanda de 0,061 miles de millones de pesetas. d) La variacin porcentual es el cociente entre la variacin total y la situacin inicial por 100. En este problema ser de: (-0,0184/0.9115956)x100=-2,018% e) y*=1.95191-0,00614697159-2,034950,035=0,903 miles de millones de pesetas.

13. Las calificaciones obtenidas por 9 alumnos en los exmenes del primer trimestre y del segundo son: 1 5 7 6 9 3 1 2 4 6 2 6 5 8 6 4 2 1 3 7 Calcular: 1- Si existe correlacin entre los resultados. 2- Las rectas de regresin de y sobre x y de x sobre y

SOLUCIN: Construimos la siguiente tabla: xi 5 7 6 9 3 1 2 4 6 43 yi 6 5 8 6 4 2 1 3 7 42 xi2 25 49 36 81 9 1 4 16 36 257 yi2 36 25 64 36 16 4 1 9 49 240 xi yi 30 35 48 54 12 2 2 12 42 237

14. : Calcular el coeficiente de correlacin y las ecuaciones de las rectas de regresin de la distribucin adjunta. xi 70-75 75-80

yj

1,65-1,70 1 2

1,70-1,75 2

1,75-1,80

80-85 xi = Tallas yj = Pesos

SOLUCIN: Efectuamos un cambio de variable mediante xi = x0 + a xi yj = y0 + b yj x0 = 1,725 ; y0 = 77,5 ; a = 0,05 b=5

Llamando: xi = Tallas e yj = Peso, construimos la siguiente tabla: xi yj xi yj -1 0 1 fi fi xi fi xi2 72,5 70-75 77,5 75-80 82,5 80-85

-1 1,675 1,65-1,70 1 2 1 4 -4 4

0 1,725 1,70-1,75

1 1775 1,75-1,80

fj

fj yj

fj yj2

1 2 1 3 0 0 3 3 3 3 4 5 10 -1 7

-1 0 5 4

1 0 5 6

1- Coeficiente de correlacin

2- Recta de regresin de y sobre x

Luego

3- Recta de regresin de x sobre y

Luego

15. Elegidos 50 matrimonios al azar y preguntada la edad de ambos al contraer matrimonio, se obtuvo la siguiente tabla bidimensional: xi 15-18 18-21 21-24 24-27 x = Edad del marido. Calcular:

yj

15-20 3

20-25 2 4 7

25-30 3 2 10 2

30-35 2 6 5

35-40

1 3

y = Edad de la esposa.

1- Recta de regresin de y sobre x. 2- Recta de regresin de x sobre y.

SOLUCIN: Construimos la siguiente tabla: xi yj xi yj -1 0 1 3 fi fi xi fi xi2 16,5 15-18 19,5 18-21 22,5 21-24 22,5 24-27 3 -6 12 13 -13 13

-2 17,5 15-20 3

-1 22,5 20-25 2 4 7

0 27,5 25-30 3 2 10 2 17 0 0

1 32,5 30-35

2 37,5 35-40

fj

fj yj

fj yj2

8 2 6 5 13 13 13 1 3 4 8 16 8 24 10 50 2 54

-24 -8 24 30 22

72 8 24 90 194

Hemos efectuado el cambio de variable

Resulta: Coeficiente de regresin de y sobre x

Recta de regresin de y sobre x

Coeficiente de regresin de x sobre y

Recta de regresin de x sobre y

16. Se han estudiado los pesos en kg y las tallas en cm de 70 obtenindose los datos de la tabla siguiente: PESOS/TALLAS 48 51 54 57 60 159-161 3 2 1 0 0 161-163 2 3 3 0 0 163-165 2 4 6 1 0 165-167 1 2 8 2 2

individuos

167-169 0 2 5 8 4

169-171 0 1 1 3 4

1. Hallar el peso medio y la talla media as como el error cometido al resumir pesos y tallas por sus valores medios Que media es mejor?

2. Hallar la distribucin segn las tallas de los individuos que pesan 54 kg y la distribucin segn los pesos de los individuos que miden entre 161 cm y 167 cm. Hallar media y varianza de las dos distribuciones condicionadas.

SOLUCIN: Si llamamos X a la variable pesos e Y a la variable tallas, los datos pueden arreglarse en una tabla de doble entrada como sigue para realizar los clculos: X/Y 48 51 54 57 60 n.,j n.j yj n.j yj2 160 3 2 1 0 0 6 960 153600 162 2 3 3 0 0 8 1296 209952 164 2 4 6 1 0 13 2132 349648 166 1 2 8 2 2 15 2490 413340 168 0 2 5 8 4 19 3192 536256 170 0 1 1 3 4 9 1530 260100 Ni. 8 14 24 14 10 70 11600 1922896 Ni.xi 384 714 1296 798 600 3792 Ni.xi2 18432 36414 69984 45486 36000 206316

Para hallar el peso medio y la talla media se calcularn las medias de las distribuciones marginales de X e Y respectivamente. Asimismo para cuantificar el error cometido al resumir pesos y tallas por sus valores medios se cuantificarn los coeficientes de variacin de pearson para ambas marginales. Las distribuciones marginales de X e Y son las siguientes:

X 48 51 54 57 60

ni. 8 14 24 14 10

Y 160 162 164 166 168 170

n.j 6 8 13 15 19 9

Tenemos lo siguiente:

X =

1 N

i =1

ni

3792 = 54,17 70

Y=

1 N

n
j =1 5 i =1

xj =

11600 = 165,71 70

x2 =

1 N

n x
i

2 i

X2 =

206316 54,17 2 = 12,98 70

2 y =

1 N

n
j =1

2 y2 = j Y

1922896 165,712 = 10,13 70

Vx =

x
X

12,98 = 0,0665 6,65% 54,17

Vy =

y
Y

10,13 = 0,0192 1,92% 165,71

Se observa que el menor coeficiente de variacin es el relativo a la talla media, que resulta ser as un promedio ms adecuado. La distribucin segn las tallas de los individuos que pesan 54 kg es la distribucin de Y condicionada a X=54, y la distribucin segn los pesos de los individuos que miden entre 161 cm y 167 cm es la distribucin de X condicionada a Y=162,164, 166.

X/Y=162, 164, 166 48 51 54 57

n i/j=2, 3, 4 5 9 17 3

Y/X=54 160 162 164 166

n j/i=3 1 3 6 8

60

168 170

5 1

La media y la varianza de cada una de estas dos distribuciones condicionadas se calcula de la misma forma que para cualquier distribucin de frecuencias.

X / Y =162,164,166 =
Y / X =54 = 1 N
6

1 N

n
i =1

i / j = 2 , 3, 4

xi =

1908 = 53 36

n
j =1

j / i =3

yj =

3968 = 165,33 24

x2/ y =162,164,166 =
2 y / x =54 =

1 N

n
i =1

i / j = 2 , 3, 4

x i2 53 2 =

101448 53 2 = 9 36

1 N

n
j =1

j / i =3

y2 165,33 2 = ji

656176 165,33 2 = 5,55 24

17. Se considera la variable bidimensional (X, Y) cuya distribucin de frecuencias se presenta en la tabla siguiente: X/Y 12 15 19 3 6 9 15 24 4 8 12 27 2 4 6 30 5 10 15

1. Estudiar si las dos variables son independientes utilizando la distribucin conjunta y las marginales. 2. Estudiar si las dos variables son independientes utilizando las distribuciones marginales y las condicionadas. 3. Hallar la covarianza de X e Y.

SOLUCIN: Para estudiar la independencia de las dos variables utilizando la distribucin conjunta y las marginales tenemos que comprobar quefij=fi.f.j \/ i,j. La primera tarea ser construir una tabla con la distribucin conjunta (fij=nij/N) y con las marginales (fi.=ni./N y f .j=n.j/N).

X/Y 12 15 19 n.j fij

15 3 6 9 18

24 4 8 12 24

27 2 4 6 12

30 5 10 15 30

ni. 14 28 42 84 fi.

0,03571429 0,0476191 0,07142857 0,0952381 0,10714286 0,1428571 f.j 0,21428571 0,2857143

0,02380952 0,04761905 0,07142857 0,14285714

0,05952381 0,11904762 0,17857143 0,35714286

0,1666667 0,3333333 0,5 1

Ya estamos en condiciones de probar que f ij = f i f j i, j. Para ello ordenaremos los clculos f i f j como se indica a continuacin:

0,21428*0,16666 0,28571*0,16666 0,14285714*0,16666 0,21428*0,33333 0,28571*0,33333 0,14285714*0,33333 0,21428*0,5 0,28571*0,5 0,14285714*0,5

0,37142*0,16666 0,37142*0,33333 0,37142*0,5

Observamos que, una vez realizados estos clculos, se obtiene la tabla de la distribucin conjunta fij.

fij

0,035714286 0,071428571 0,107142857 0,214285714

0,04761905 0,0952381 0,14285714 0,28571429

0,02380952 0,05952381 0,04761905 0,11904762 0,07142857 0,17857143 0,14285714 0,35714286

Para estudiar la independencia de las dos variables utilizando las distribuciones marginales y las condicionadas tenemos que comprobar que f i / j = f j i, j.

fi/j=1 fj/i=1 fj/i=2 fj/i=3 f.j 3/14 6/28 9/42 18/84

fi/j=2 4/14 8/28 12/42 24/84

fi/j=3 2/14 4/28 6/42 12/84

fi/j=4 5/14 10/28 15/42 30/84

nj. 14 28 42 84

Observamos que se cumple fj/i \/ i,j ya que:

3 / 14 = 6 / 28 = 9 / 42 = 18 / 84
4 / 14 = 8 / 28 = 12 / 42 = 24 / 84 2 / 14 = 4 / 28 = 6 / 42 = 12 / 84

5 / 14 = 10 / 28 = 15 / 42 = 30 / 84
Para estudiar la independencia de las dos variables utilizando las distribuciones marginales y la condicionadas tambin podramos comprobar que fi/j=fi. \/ i,j.

fi/j=1 3/18 6/18 9/18 nj. 18

fi/j=2 4/24 8/24 12/24 24

fi/j=3 2/12 4/12 6/12 12

fi/j=4 5/30 10/30 15/30 30

f.j 14/84 28/84 42/84 84

Observamos que se cumple fi/j=fi. \/ i,j ya que:

3 / 18 = 4 / 24 = 2 / 12 = 5 / 30 = 14 / 84 6 / 18 = 8 / 24 = 4 / 12 = 10 / 30 = 24 / 84 9 / 18 = 12 / 24 = 6 / 12 = 15 / 30 = 42 / 84

La covarianza entre X e Y viene dada por la expresin:

xy =

1 N

( x
i =1 j =1

x)( y j y )nij

Luego para su clculo necesitamos las medias de las dos marginales X e Y, que se calcularn con los datos de la tabla: X/Y 12 15 19 n.j 15 3 6 9 18 24 4 8 12 24 27 2 4 6 12 30 5 10 15 30 nj. 14 28 42 84

X =

1 N
1 N

n x
i =1 i

1386 = 16,5 84
2070 = 24,64 84

Y=

n
j =1

xj =

La covarianza, que ser cero debido a la independencia, puede calcularse como sigue
xy =
1 [(12 16,5)(15 24,6) + (12 16,5)(24 24,6) + (12 16,5)(27 24,6) + (12 16,5)(30 24,6) + N (15 16,5)(15 24,6) + (15 16,5)(24 24,6) + (15 16,5)(27 24,6) + (15 16,5)(30 24,6) + (19 16,5)(15 24,6) + (19 16,5)(24 24,6) + (19 16,5)(27 24,6) + (19 16,5(30 24,6)+ = 0

La covarianza tambin puede calcularse de la forma siguiente

m11 = XY =

1 N

x y n
i j i, j

ij

XY =

34155 16,5 24,64 = 0 84

x y n
i j i, j

ij

= 34155

X/Y

15

24

27

30

ni.

xiyin1j xiz2n2j

xiz3n3j

xiz4n4j

xizinij

12 15 19 n.j

3 6 9 18

4 8 12 24

2 4 6 12

5 10 15 30

14 28 42 84

540 1350 2565 4455

1152 2880 5472 9504

648 1620 3078 5346

1800 4500 8550 14850

4140 10350 19665 34155

18. En una empresa se toma una muestra de 100 trabajadores con la finalidad de estudiar si hay relacin entre su edad X y los das que estn de baja en el ao Y. se obtienen los siguientes resultados: X/Y 18-30 30-40 40-50 1. 2. 3. 4. 5. 0-20 28 26 6 20-40 2 15 14 40-60 0 4 5 ni. 30 45 25

es simtrica la distribucin del nmero de das de baja de los trabajadores? Cul es la edad ms frecuente de los trabajadores que piden la baja? Ajustar mediante un modelo exponencial los das de baja en funcin de la edad. realizar el mismo ajuste considerando un modelo lineal. Cul de los ajustes es el mejor?

SOLUCIN: Para realizar los clculos necesarios elaboramos la tabla siguiente: X/Y 24 35 45 n.j yjn.j
yj2n yj3n

10 28 26 6 60 600 6000 60000 60

30 2 15 14 31 930 27900 837000 91

50 0 4 5 9 450 22500

ni. 30 45 25 100 1980 56400

xini. 720 1575 1125 3420

xi2ni

ci 12 10 10

hi=ni/ci 2,5 4,5 2,5

17280 55125 50625 123030

.j .j

1E+06 2022000 100

N.j

Realizamos los siguientes clculos:

a10 = X =

1 N

n x
i =1 i

3420 = 34,2 100

a 01 = Y =

1 N

n
j =1

xj =

1980 = 19,8 100

2 m20 = x =

1 N

n x
i =1 i

2 i

2 X 2 = a 20 a10 =

123030 34,2 2 = 1230 ,3 1169,64 = 60,66 1 2 3 100 a


20

2 m02 = y =

1 N

n y
i =1 i

2 i

2 Y 2 = a 02 a01 =

56400 19,8 2 = 564 { 392,04 = 171,96 100 a02

1 a03 = Y = N

n x
i =1 i

3 i

1980 = 19,8 100

Para estudiar la asimetra del nmero de das de baja de los trabajadores calculamos el coeficiente de asimetra de Fisher de la variable marginal Y como sigue:

g 01 =

m03

3 Y

2243,184 ( 171,96) 3

= 0,99

Se observa que hay una ligera asimetra hacia la derecha, pero muy pequea. Los das de baja se distribuyen casi simtricamente a lo largo del ao.

Para calcular la edad ms frecuente de los trabajadores que piden la baja hallaremos la moda de la variable marginal X. Observamos que el intervalo modal es [30,40] ya que es el que tiene mayor frecuencia ni. El clculo de la moda se realiza como sigue:

M 0 = Li 1 +

d i +1 2,5 ci = 30 + 10 = 35aos 2,5 + 2,5 d i 1 + d i +1

Ahora intentaremos ajustar los das de baja en funcin de la edad de los trabajadores mediante un modelo de regresin exponencial de ecuacin y=abx

y = ab x Log ( y ) = Log (a) + Log (b) x

La regresin exponencial es equivalente a la regresin lineal con variable dependiente log(y) y con variable independiente x. Los clculos para esta regresin se presentan en la tabla siguiente: X/z 24 35 45 n.j zjn.j
zj2n

1 28 26 6 60 60 60

1,4771 2 15 14 31

1,699 ni. 0 4 5 9 30 45 25 100

xiz1n1j xiz2n2j xiz3n3j xizinij 672 70,9008 910 775,478 0 742,9008 237,86 1923,338

270 930,573 382,275 1582,848 1852 1776,95 620,135 4249,086

45,7901 15,291 121,081 67,63656 25,979 153,616

.j

El parmetro log(b) se estima por mnimos cuadrados mediante:

Log (b) XZ = 2 X

1 N

x y n
i j i, j 2 X

ij

Los parmetros finales buscados a y b del modelo exponencial se estimarn mediante:

a = 10 0, 6013 = 10,04 b = 10 0,01782 = 3,99


El modelo estimado tiene la ecuacin y = 3,99(1,04) 3 Para medir la calidad de este ajuste podemos utilizar el coeficiente de determinacin R que se calcula como:

R2 = 1

= 1
2 e 2 Y

( y
i =1 j =1

(3,99(1,04) xi )) 2 nij

2 y

= 1

126,14 = 0,26 171,96

El ajuste no es de calidad porque R esta ms cerca del cero que de la unidad. El ajuste por regresin lineal de la forma y= a+bx siendo:

b=

xy = x2

1 N

x y n
i j i, j

ij

XY

x2

1 72860 34,20 *19,80 100 = = 0,854 60,66

a = Y b X = 19,8 0,854 * 34,20 = 9,4

El coeficiente de determinacin ser en este caso el cuadrado del coeficiente de correlacin que se calcula como sigue:

2 XY r = 2 2 = XY 2

1 N

xi y j nij X Y ) 2
i, j 2 X Y2

1 728960 34,20 * 19,80 100 = 0,2536 = 60,66 *171,96

Para realizar el calculo de

x y n
i j i, j

ij

= 72860 se utiliza la siguiente tabla:

X/Y 24 35 45

10 28 26 6 60

30 2 14 14 31

50 0 4 5 9

ni
30 45 25 100

x i y j nij
6720 9100 2700 18520

x i 2 y j 2 nij 2
1440 15750 18900 36090

x i 3 y j 3 nij 3
0 7000 11250 18250

x i y j nij

8160 31850 32850 72860

nj

El ajuste lineal tampoco es de calidad por que R esta ms cerca de cero que de la unidad. Adems el ajuste exponencial es mejor que el ajuste lineal por que su coeficiente de determinacin es mayor (0,26>0,25536).

19. Los ahorros S y los ingresos Y mensuales en cientos de euros de una muestra de 10 familias de una determinada regin se presentan en la siguiente tabla:

S Y

1,9 20,5

1,8 20,8

2,0 21,2

2,1 21,7

1,9 22,1

2,0 22,3

2,2 22,2

2,3 22,6

2,7 23,1

3,0 23,5

1. Ajustar los datos anteriores a un modelo lineal que explique lo ahorros familiares en funcin de los ingresos de la regin dada. 2. Ajustar los datos anteriores a un modelo lineal parablico que explique los ahorros familiares en funcin de los ingresos para la regin dada. 3. Qu ajuste es el mejor? 4. Qu ahorro se puede prever para una familia de la regin que ingrese 2500 euros mensuales?

SOLUCIN: Comenzaremos elaborando una tabla de datos adecuada para los clculos a realizar en el problema.

SI
1,9 1,8 2 2,1 1,9 2 2,2 2,3 2,7 3 Suma>21,9

yi
20,5 20,8 21,2 21,7 22,1 22,3 22,2 22,6 23,1 23,5 220

S i yi
38,95 37,44 42,4 45,57 41,99 44,6 48,84 51,98 62,37 70,5 484,64

yi

S i y i2
798,475 778,752 898,88 988,869 927,979 994,58 1084,248 1174,748 1440,747 1656,75 10744,028

y i3
8615,125 8998,912 9528,128 10218,313 10793,861 11089,567 10941,048 11543,176 12326,391 12977,875

y i4
176610,063 187177,37 201996,314 221737,392 238544,328 247297,344 242891,266 260875,778 284739,632 304980,063

420,25 432,64 449,44 470,89 488,41 497,29 492,84 510,76 533,61 552,25 4848,38

107032,296 2366849,55

El modelo lineal S 1 = a + by puede ajustarse mediante el sistema de ecuaciones normales siguientes:

S i = Na + b y i
i =1 10 i =1

10

10

S i y i = a y i + b y i2
i =1 i =1 i =1

10

10

21,9=10a+220b 484,64=220a+4848,38b a=-5,4 b=0,34 Luego el modelo lineal ajustado ser:

S i = 5,4 + 0,34 y i
Para medir la calidad de ajuste lineal utilizamos el coeficiente de correlacin o su cuadrado, el coeficiente de determinacin, que se calcula como sigue:

r2 =

2 YS 0,284 2 = = 0,72421527 2 2 y s 0,838 * 0,1329

Se observa que la calidad del ajuste es buena por que el coeficiente de determinacin es alto (el coeficiente de correlacin vale

0,72421527 = 0,851 que es un valor elevado indicativo de

alto grado de relacin entre el ahorro y la renta de las familias.

20. La inversin K y el producto interior bruto y se relacionan mediante la expresin

y = ak c . Se pide ajustar una funcin Cobb-Douglas a los datos siguientes: yi Ki


2,6 0,6 2,9 0,6 3,4 0,8 4,1 1,0 5,1 1,3 6,0 1,4 7,2 1,6 9,2 1,9 11,2 13,1 15,2 17,3 19,9 2,2 2,5 2,9 3,5 3,9

SOLUCIN: Se trata de un ajuste tipo potencial. Todo este tipo de ajustes se resuelve aplicando logaritmos para linea rizar de la siguiente forma:

y = aK c Log ( y ) = Log (a) + c Log ( K ) Z = A + cx 123 123 1 4 2 4 3


Z A X

11,2137= 13 A + 2,54022 c 3,18349 = 2,54022 A + 1,3963c A=0,6471 C=1,1 Luego el modelo de Cobb-Douglas ajustado ser:

y = 4,4k 1,1
Para medir la calidad del ajuste potencial medimos la del ajuste lineal al que es equivalente utilizando el coeficiente de correlacin o su cuadrado el coeficiente de determinacin se calcula:

2 xZ 0,763 2 r = 2 2 = = 0,98 x Z 0,0692 * 0,0851 2

Se observa que la calidad del ajuste lineal es buena por que el coeficiente de determinacin es alto( el coeficiente de correlacin vale alto grado de relacin entre Z y Xi.

0,98 = 0,994 , que es un valor elevado indicativo del

21. La siguiente tabla muestra el nmero de grmenes patgenos por centmetro cbico de un determinado cultivo segn el tiempo transcurrido: N de Horas N de grmenes 0 20 1 26 2 33 3 41 4 47 5 53

a) Calclala recta de regresin para predecir el numero de grmenes por cm3 en funcin del tiempo. b) Qu cantidad de grmenes por cm3 es predecible encontrar cuando hayan transcurrido 6 horas? Es buena esa prediccin?

SOLUCIN: a) b) Es una buena prediccin, puesto que valores considerado (y 6 est cercano al intervalo de , donde: nmero de horas, nmero de grmenes

22. En un depsito cilndrico, la altura del agua que contiene varia conforme pasa el tiempo segn esta tabla: Tiempo (h) Altura (m) 8 17 22 14 27 12 33 11 50 6

a) Halla el coeficiente de correlacin lineal entre el tiempo y la altura e interprtalo.

r=-0,997. Hay una relacin muy fuerte entre las dos variable, y negativa. A medida que pasa el tiempo la altura va bajando (se va consumiendo el agua) b) Cual ser la altura del agua cuando hayan transcurrido 40 horas? c) Cuando la altura del agua es de 2m, suena una alarmaQu tiempo ha de pasar para que avise la alarma?

SOLUCIN: a) . Hay una relacin muy fuerte entre dos variables, y negativa. A medida que .

pasa el tiempo, la altura va bajando (se va consumiendo el agua). , donde , b) La recta de regresin es c)

23. En una cofrada de pescadores las capturas registradas de cierta variedad de pescados, en kilogramos y el precio de subasta en lonja, en euros/kg, fueron los siguientes: X(kg) Y(euros/kg) 2000 1,80 2400 1,68 2500 1,65 3000 1,32 2900 1,44 2800 1,50 3160 1,20

a) Cual es el precio medio registrado? b) Halla el coeficiente de correlacin lineal e interprtalo. c) Estima el precio que alcanzara en la lonja el kilote esa especie si se pescasen 2600kg

SOLUCIN: a) b) . La relacin entre las variables es fuerte y negativa. A mayor cantidad de pescado, menos es el precio por kilo. c) La recta de regresin es

24. Las calificaciones de 40 alumnos obtenidas en el examen parcial (x) y en el examen final (Y) de una asignatura han sido las siguientes:

X 4 5 1 6 1 2 2 4 5 6

Y 3 8 3 3 0 1 0 2 6 5

X 8 0 2 10 4 8 2 6 6 5

Y 9 3 3 10 8 7 0 3 6 3

X 8 9 9 8 5 3 4 3 0 2

Y 7 6 10 7 3 2 1 2 0 1

X 2 5 4 7 6 15 6 3 9 0

Y 0 3 6 5 7 7 4 0 8 10

Formar la tabla estadstica de doble entrada.

SOLUCIN: Tomando en filas los valores de x y en columnas los valores de y podremos hacer:
Y X 0 1 2 I 0 1 I 1 1 III II 2 3 2 II 2 I 3 1 I I 1 1 II 2 I I I 1 I I I 1 I 1 1 1 I 1 I I 1 1 1 1 III 3 I 1 I 1 I 1 4 5 6 7 8 9 10

3 4 5 6 7 8 9

III

10

25. Las alturas (x) y los pesos (y) de 20 hombres son los siguientes:
X 1.72 1.70 1.70 1.68 1.75 1.69 1.71 1.69 1.67 1.74 Y 63 75 68 70 74 72 67 69 70 84 X 1.76 1.70 1.69 1.66 1.78 1.74 1.70 1.69 1.71 1.78 Y 71 70 66 60 74 69 65 71 73 69

Establecer la distribucin correspondiente y hallar las medias aritmticas y las desviaciones estndar marginales.

SOLUCIN: La distribucin de frecuencias ser la siguiente: Y X 1.65-1.70 1.70-1.75 1.75-1.80 TOTAL 2

60-65 I I 1 1

65-70 II IIII I 7 1 2 4

70-75 IIII I III 9 4 1 3

75-80

80-85

TOTAL 7

9 4

20

Con las tablas de clculo correspondiente a las distribuciones marginales podremos calcular las medias y las desviaciones estndar pedidas: Distribucin marginal de Y:

Li-1-Li

ni

yi

ni y i

y i 2 ni

1,65-1,70 1,70-1,75 1,75-1,80 TOTAL

7 9 4 20

1,675 1,725 1,775

11,725 15,525 7,100 34,350

19,639 26,781 12,603 59,023

Y = 34,350/20 = 1,7175 Sy2 = 59,023/20-(34,350/20)2 = 0,0013 Sy = 0,037.

Distribucin marginal de X:

Li-1-Li

ni

yi

ni y i

yi2ni

60-65 65-70 70-75 75-80 80-85 TOTAL

2 7 9 1 1 20

62.5 67.5 72.5 77.5 82.5

125._ 472.5 652.5 77.5 82.5 1410._

7812.50 31893.75 47306.25 6006.25 6806.25 99825._

= 1410/20 = 70.50

Sx2 = 99825/20 (1410/20)2 = 21._ Sx = 4,58

26. Representar el diagrama de dispersin correspondiente a las notas de 25 alumnos en Fsica y Matemticas, siendo stas:

F 7 6 3 4 6 3 5 8 5 9

M 6 6 5 6 5 4 3 9 4 10

F 5 9 10 4 6 9 6 7 4 8

M 4 10 8 5 4 8 5 6 3 7

F 5 4 4 8 9

M 3 6 7 9 7

SOLUCIN: Tomando las notas de Fsica en abscisas y las de Matemticas en ordenadas, tendremos la siguiente nube de puntos o diagrama de dispersin:

12 10 8 6 4 2 0 0 2 4 6 F 8 10 12 M

27. Sea una distribucin bidimensional en donde Syx = 4.1, Sy^2 = 9 y el coeficiente de regresin de la recta de Y/X es b = -1,1. Determnese: a) Las dos rectas de regresin de Y/X y X/Y, sabiendo que x = 2, y = 5. b) El coeficiente de correlacin lineal.

SOLUCIN: a) Los coeficientes de regresin de las seran Y/X b = -1,1 X/Y b' = Sxy/Sy^2 = 4,1/9 = 0,46

lo cual es imposible, ya que los dos coeficientes de regresin deben ser del mismo signo, puesto que, como b = Sxy/Sx^2 b' = Sxy/Sy^2

y las varianzas son no negativas, entonces el signo de b y b' debe ser el mismo que la covarianza Sxy. Como en este caso Sxy = 4,1 > 0, no puede ser b = -1,1, resultado que necesariamente debe estar equivocado. Aceptando como verdadero valor Sxy = 4,1, lo nico que podemos determinar es la recta de regresin de X sobre Y X/Y x*-x = Sxy/Sy^2(y-y) x*-2 = 4,1/9(y-5) x* = -0,3+0,46y.

b) Por los mismos motivos que antes no se puede determinar r, ya que, como r = Sxy/SxSy lo cual no puede ser. Este coeficiente r debe tener tambin el mismo signo que Sxy, b y b'. b = -1,1 = 4,1/Sx^2 Sx^2 = 4,1/-1,1<0

28. Estdiese en cules de los casos que a continuacin se relacionan los resultados que se ofrecen son compatibles entre si: a) rxy = -0,3 y* = 4x+5. b) Sxy = 100 c) y = 5x+8 Sx = 5 Sy^2 = 400 rxy = 0,2. Se^2= 0.

y = 1/5x+9

d) y* = 1/2x+4

x* = y+4

x = 16

y = 12.

SOLUCIN: a) Como el coeficiente de regresin de la recta b = 4 es positivo, no puede ser el coeficiente de correlacin lineal negativo.

b) El coeficiente de correlacin lineal es

r = Sxy/SxSy = 100/5*20 = 1

que tambin puede expresarse como

r = sqrt(1-Se^2/Sy^2) = sqrt(1-0/400) = 1

en donde Se^2 es la varianza de los residuos o de los errores. Por tanto, estos resultados s son consistentes.

c) En este caso existen dos posibilidades:

Caso 1. Que las rectas sean

Y/X

y* = 5x+8

X/Y

x* = 5y-45

con lo que el coeficiente de correlacin lineal sera

r = sqrt(b*b') = sqrt(5*5) = 5>1

que es mayor que la unidad, lo cual es imposible.

Caso 2. Que las rectas sean

Y/X

y* = 1/5x+9

X/Y

x* = 1/5y-8/5

y, por tanto

r = sqrt(b*b') = sqrt(1/5*1/5) = 1/5 = 0,2

lo que concuerda con lo sealado en el enunciado.

d) Sabemos que el punto de corte entre las dos rectas de regresin debe ser (x,y); para comprobar que en este caso se verifica esta propiedad resolveremos el sistema de ecuaciones formado por estas dos ecuaciones

y = 1/2x+4 x = y+4

2y-x = 8 -y+x = 4

de donde

y = 12 = y x = 4+y = 4+12 = 16 = x

que son precisamente los dos valores medios que nos ofrecen.

29. Dada la distribucin bidimensional xi 10 20 30 40 50

yj 200 180 150 120 100 a) Ajstese una recta por el procedimiento de los mnimos cuadrados. b) Calclese el coeficiente de correlacin lineal y explquese su significado

SOLUCIN: a) Formemos la siguiente tabla: xi yj xi^2 yj^2 xiyj 10 200 100 20 180 400 30 150 900 40 120 50 = 150

100 = 750

1600 2500 = 5500

40000 32400 22500 14400 10000 = 119300 2000 3600 4500 4800 5000 = 19900

La recta de regresin de Y sobre X, ajustada por mnimos cuadrados, es y* = a+bx siendo b = Sxy/Sx^2 a = y-bx

Determinemos las medias, varianzas y covarianzas x = Exi/N = 150/5 = 30 Sx^2 = a20- a10^2 y = Eyj/N = 750/5 = 150 a20 = Exi^2/N = 5500/5 = 1100

a10 = x = 30

Sx^2 = 1100-30^2 = 200 Sy^2 = a02- a01^2 a01 = y = 150 a02 = Eyj^2/N = 119300/5 = 23860

Sy^2 = 23860-150^2 = 1360 Sxy = a11- a10*a01 a11 = Eexiyj/N = 19900/5 = 3980 Sxy = 3980-30*150 = -520.

Por tanto, b = Sxy/Sx^2 = -520/200 = -2,6 De donde la recta ajustada es y = 228-2,6. a = y-bx = 150-(-2,6)*30 = 228.

b) El coeficiente de correlacin lineal es

r = Sxy/SxSy = -520/sqrt200*sqrt1360 = -0,99. Como el coeficiente de correlacin es negativo, nos indica que la asociacin es de tipo inverso; al estar muy prximo a -1, podemos decir que el grado de asociacin lineal es muy fuerte y que, por lo tanto, el poder explicativo de la variable X sobre la variable Y es muy grande.

30. En un determinado sector, la produccin y las exportaciones durante los ltimos aos han sido: Aos Produccin (10^6 Ptas.) Exportaciones 80 (10^6 Ptas.) a) Si se estima que la produccin en el ejercicio 1988 va a ser de 640 millones de pesetas y que las condiciones del mercado internacional no van a variar, cul ser el volumen de expotacin previsible? b) En qu medida esta prevsin puede ser o no aceptable? 80 90 92 98 1982 400 1983 420 1984 440 1985 480 1986 500

SOLUCIN: a) No es difcil defender la hiptesis de que el volumen de expotaciones es una variable que depende de la produccin. Si las exportaciones las representamos por X y la produccin por Y, la especificacin lineal de esta hiptesis viene dada por x = a+by Para estimar por mnimos cuadrados los parametros a y b, formaremos la tabla xj yi xj^2 yi^2 xjyi 80 400 6400 160000 32000 80 420 6400 176400 33600 90 440 8100 193600 39600 92 480 8464 230400 44100 98 500 = = 440 2240 38968

9604 =

250000 = 1010400 49000 = 198360

Como x = Exj/N = 440/5 = 88 Sx^2 = a02-a01^2 a01 = x = 88 y = Eyi/N = 2240/5 = 448 a02 = Exj^2/N = 38968/5 = 7793,6

Sx^2 = 7793,6-88^2 = 49,6 Sy^2 = a20-a10^2 a10 = y = 448 a20 = Eyi^2/N = 1010400/5 = 202080

Sy^2 = 202080-448^2 = 1376 a11 = EExjyi/N = 198360/5 = 39672 Sxy = 39672-448*88 = 248

Tendremos que b = Sxy/Sy^2 = 248/1376 = 0,18 El modelo ajustado es x = 7,36+0,18y Se estima que la produccin en 1988 va ser de 640 millones de pesetas y que las condiciones del mercado internacional no cambian. Esta ltima hiptesis nos faculta para poder seguir utilizando el modelo lineal ajustado por tanto, x = 7,36+0,18*640 = 122,56 millones de pesetas. Las exportaciones se situarn, pues, sobre los 122,56 millones de pesetas. a = x-by = 88-0,18*448 = 7,36

b) Para estudiar la bondad de la prediccin calcularemos previamente el coeficiente de correlacin lineal, r = Sxy/SxSy = 248/sqrt49,6*sqrt1376 = 0,95 Estadsticamente, al ser elevado el grado de asociacin lineal entre las variables, debemos aceptar como muy posible el resultado.

31. En un determinado estudio mdico se pretende medir la relacin existente entre la exposicin al ruido y la hipertensin. Los siguientes datos han sido extrados del Jourrnal of Sound and Vibration:

Y 1

X 60 63 65 70 70 70 80 80 80 80 85 89 90 90 90 90

Y X

7 94

9 100

7 100

6 100

Donde X representa la presin sonora en dB, e Y el aumento de la presin sangunea en mmHg. 1) Realizar un diagrama de dispersin de Y frente a X. 2) Realizar el modelo de regresin lineal simple.

SOLUCIN: 1) A partir de los datos experimentales que nos proporcionan, obtenemos el siguiente grfico de dispersin:
10 8 Presin 6 sanguinea 4 2 0 0 20 40 60 80 100 120 Presin sonora

2) Obtenemos las medidas muestrales:

x = 82.3 y = 4.3
Y las varianzas y covarianza muestral:

1 k 2 S = (xi x ) ni = 158.432 n i =1
2 x 2 Sy =

1 k ( yi y )2 ni = 6.537 n i =1 1 (xi x )(y j y )nij = 27.168 n i j

S xy =

Por lo que la ecuacin de la recta de regresin es:

y y =

S xy
2 Sx

(x x )

y = 0.171x 9.813

32. Sea (X,Y) una variable aleatoria bidimensional con funcin de densidad conjunta

f ( x, y ) = xy si 0 x 1 , 0 y 1
Obtenga la recta de regresin de Y sobre X.

SOLUCIN: Las correspondientes funciones de densidad marginales son:

fX ( x ) = f ( x, y )y = xyy =
1 1 0 0

x 2

fY ( y ) = f ( x, y )x = xyx =
1 1 0 0

y 2

Se obtiene entonces:

10 = E [X ] = xfX ( x )x =
1 0

1 = E [Y ] = 01 6

E X 2 = x 2 fX ( x )x =
1 0

[ ]

1 = EY2 8

[ ]

y por lo tanto:

20 = x2 = E (X 2 ) [E ( X )]2 =

7 72

Adems:

11 = E [ XY ] =

1 1

0 0

xyf (x, y )yx = 9

11 = Cov = 11 10 01 =

1 11 1 1 = 9 6 6 9 36

La recta de regresin de Y sobre X es, por lo tanto:

y 01 =

11 (x 10 ) 20

1 1 1 1 y = 9 36 x 7 6 6 72
es decir:

1 6 1 = x 6 7 6

33. Sea la variable aleatoria bidimensional (X,Y) que asigna probabilidades iguales a los puntos: (1,1); (2,3); (3,2); (4,4); obtener la recta de regresin mnimo cuadrtica de Y sobre X.

SOLUCIN: Recta de regresin de Y sobre X:

y 01 =

11 (x 10 ) 20

10 = E [ X ] = xi P( X = xi ) = 1 + 2 + 3 + 4 =
i =1

1 4

1 4

1 4

1 4

10 = 2.5 4

01 = E [Y ] = y j P (Y = y j ) = 2.5
4
j =1

E X 2 = xi2 P( X = xi ) =
i =1

[ ]

1 2 30 1 + 2 2 + 32 + 4 2 = 4 4

20 = x2 = E (X 2 ) [E ( X )]2 =

30 2 (2.5) = 1.25 4

11 = E [ XY ] = xi y j P (X = xi , Y = y j ) = 11 + 23 + 32 + 44 =
4 4
i =1 j =1

1 4

1 4

1 4

1 4

29 = 7.25 4

11 = Cov = 11 10 01 = 7.75 2.52.5 = 1

La recta de regresin de Y sobre X es:

y 2.5 =

1 (x 2.5) 1.25

y = 0.8 x + 0.5

34. Las notas obtenidas por 10 alumnos en matemticas y msica son: Alum. 1 Mat. Ms. 6 6.5 2 4 4.5 3 8 7 4 5 5 5 3.5 4 6 7 8 7 5 7 8 10 10 9 5 6 10 4 5

Calcular la covarianza, correlacin y rectas de regresin.

SOLUCIN: Indiquemos por X la nota de matemticas y por Y la nota de msica. Medias:

x= y=

1 xi = 5.75 n 1 yi = 6.3 n

Covarianza: Varianzas:

S xy =

1 xi yi x y = 3.075 n

S x2 =
2 Sy =

1 xi2 x 2 = 3.763 n 1 y i2 y 2 = 2.96 n


r= S xy SxSy = 3.075 3.7632.96 = 0.9214

Coef. de correlacin: Coef. de regresin:

b21 =

S xy S x2
S xy
2 Sy

= 0.817

b12 =
Recta de regresin de Y sobre X:

= 1.039

y y =b 21 ( x x )
y 6.3 = 0.817( x 5.75)

Recta de regresin de X sobre Y:

y y =b12 ( x x )

x 5.75 = 1.039( y 6.3)

35. Para realizar un estudio sobre la utilizacin de una impresora en un determinado departamento, se midi en un da los minutos transcurridos entre las sucesivas utilizaciones (X) y el nmero de pginas impresas (Y) obtenindose los siguientes resultados: X Y 9 9 4 6 8 9 7 6 9 9 9 8 8 9 8 9 9 9 10 9 15 10 12 12 10 10 12 10 10 12 12 10 3 8 3 8 3 8 8 8 3 8 12 12 8 8 8 12 12 20 8 20 8 8 20 8 8 12 8 20 20 3 3 20

a) Escribir la distribucin de frecuencias conjunta. Cul es el porcentaje de veces que transcurre ms de nueve minutos desde la anterior utilizacin y se imprimen menos de 12 pginas? Cuntas veces se imprimen menos de 12 pginas y transcurren 9 minutos desde la anterior utilizacin? b) Frecuencias marginales. Cuantas veces se imprimen como mucho 12 pginas? Cuntas pginas como mucho se imprimen en el 80 % de las ocasiones? c) Dibujar el diagrama de dispersin.

SOLUCIN: a) Escribir la distribucin de frecuencias conjunta. Cul es el porcentaje de veces que transcurre ms de nueve minutos desde la anterior utilizacin y se imprimen menos de 12 pginas? Cuntas veces se imprimen menos de 12 pginas y transcurren 9 minutos desde la anterior utilizacin? xi\yj 4 6 7 8 9 10 12 15 n.j f.j 3 1/0,03 1/0,03 2/0,06 2/0,06 6 0,19 8 2/0,06 1/0,03 2/0,06 4/0,12 3/0,09 2/0,06 1/0,03 15 0,47 12 1/0,03 3/0,09 1/0,03 5 0,16 20 2/0,06 3/0,09 1/0,03 6 0,19 ni. 1 2 1 4 11 7 5 1 32 fi. 0,03 0,06 0,03 0,12 0,34 0,22 0,16 0,03 1

Ms de 9 min. 13 Menos de 12 Pg. 8

8 = 0.25 25% 32

9 min. 11 Menos de 12 Pg. 6

6 = 0.19 19% 32

b) Frecuencias marginales. Cuantas veces se imprimen como mucho 12 pginas? Cuntas pginas como mucho se imprimen en el 80 % de las ocasiones?

Yj n.j f.j N.j F.j

3 6 0,19 6 0.19

8 15 0,47 21 0.66

12 5 0,16 26 0.81

20 6 0,19 32 1 32

Como mucho 12 Pg. 6+15+5 = 26

N i 1

n*k 32 * 80 N i 21 = 25.6 26 100 100

P80 = 12 Pg.

c) Dibujar el diagrama de dispersin.

y 25 N de Pg. impresas 20 15 10 5 0 0 5 10 Tiempo 15 20

36. Se midi el tiempo en segundos que tardaron en grabarse los mismos 24 ficheros en cada uno de los dos tipos de discos (31/3 y 51/4). Los tiempos observados fueron:

31/3 1.2 1

1.1 0.5 1.1 1.5 1 1.4 1.4 1.3 0.4 1.2 0.4 0.3 0.3 1.5 1.4 1.1 1.2 1.2 0.4 0.5 1.3 1.5

51/4 1.3 1.1 1.2 0.4 1.2 1.4 1.1 1.6 1.6 1.5 0.4 1.5 0.4 0.3 0.3 1.6 1.3 1.1 1.3 1.1 0.4 0.4 1.4 1.6

a) Construye la tabla de frecuencias conjuntas. Cul es el porcentaje de ficheros que tardan menos de 1.5 segundos en el primer tipo de disco y ms de 1.4 en el segundo? Cuntos ficheros tardan en grabarse entre 0.6 y 1.2 segundos en el primer tipo de disco? Cunto tiempo tarda como mucho en grabarse al menos el 90,5 de los ficheros en el segundo tipo de disco? b) Hallar la tabla de frecuencias condicionales de los tiempos en el disco de 51/4 de aquellos programas que tardaron 1.2 en el disco de 31/3 Cul es la proporcin de estos programas que tardan en grabarse ms de 1.5 segundos en el de 51/4? c) Representar grficamente los datos y comentar el grfico obtenido. d) Si un fichero tarda 0.8 segundos en grabarse en el primer tipo de disco, cuantos segundos tardar en grabarse en el segundo tipo? Da una medida de fiabilidad. Confirma esta medida lo comentado en el apartado c?

SOLUCIN: a) Construye la tabla de frecuencias conjuntas. Cul es el porcentaje de ficheros que tardan menos de 1.5 segundos en el primer tipo de disco y ms de 1.4 en el segundo? Cuntos ficheros tardan en grabarse entre 0.6 y 1.2 segundos en el primer tipo de disco? Cunto tiempo tarda como mucho en grabarse al menos el 90,5 de los ficheros en el segundo tipo de disco? xi\yj 0,3 0,4 0,5 1 1,1 1,2 1,3 1,4 1,5 n.j f.j N.j 0,3 2/0,08 2 0,083 2 0,4 3/0,125 2/0,08 5 0,208 7 1,1 2/0,08 1,2 1,3 1/0,04 1 1,4 1,5 1/0,04 1,6 ni. fi. Ni. Fi.

2 0,083 2 0,083 3 0,125 5 0,208 2 0,083 7 0,292 2 0,083 9 0,375 3 0,125 12 0,500 4 0,167 16 0,667 2 0,083 18 0,750

1/0,04 2/0,08 1/0,04 2/0,08 4 4

1/0,04 1/0,04 1/0,04 2 2

2/0,08 3 0,125 21 0,875 2/0,08 3 0,125 24 1,000 4 24 1

0,167 0,167 0,042 0,083 0,083 0,167 11 15 16 18 20 24

F.j

0,083

0,292

0,458 0,625 0,667 0,750 0,833 1,000

Menos de 1.5 seg. En x 21 Mas de 1.4 seg. En Y 4

4 = 0.17 17% 24
Entre 0.6 y 1.2 seg. En X

9 = 0.375 37.5% 24

N i 1

n*k 24 * 90.5 N i 20 = 21.72 24 100 100

P90.5 = 1.6seg.

b) Hallar la tabla de frecuencias condicionales de los tiempos en el disco de 51/4 de aquellos programas que tardaron 1.2 en el disco de 31/3 Cul es la proporcin de estos programas que tardan en grabarse ms de 1.5 segundos en el de 51/4? Yj n.j f.j N.j F.j 0,3 0 0 0 0 0,4 0 0 0 0 1,1 1 0,25 1 0,25 1,2 2 0,5 3 0,75 1,3 0 0 3 0,75 1,4 0 0 3 0,75 1,5 1 0,25 4 1 1,6 0 0 4 1 4

Mas de 1.5 seg 0 0%

c) Representar grficamente los datos y comentar el grfico obtenido.

1,80 1,60 1,40 1,20 5 1/4 1,00 0,80 0,60 0,40 0,20 0,00 0,00 0,20 0,40 0,60 0,80 3 1/3 1,00 1,20 1,40 1,60

Se puede observar como los puntos describen una lnea recta difusa.

d) Si un fichero tarda 0.8 segundos en grabarse en el primer tipo de disco, cuantos segundos tardar en grabarse en el segundo tipo? Da una medida de fiabilidad. Confirma esta medida lo comentado en el apartado c?

y y=
n

S xy S x2

* (x x )

x=

x *n
i =1 i

x = 1.008

y=

y
j =1 n

* nj y = 0.97
2 i

Sn =
2 x

x
i =1

* ni

2 x 2 Snx = 0.1739

2 Snx = Snx = 0.417 n

Sn =
2 y

y
j =1

2 j

* nj
2 y 2 Sn y = 0.3895

2 Sn y = Sn y = 0.624

S xy =

n
i =1 j =1

ij

* xi * y j x * y = 0.1756

y 0.97 =

0.1756 * ( x 1.008) y = 1.00977 * x 0.0478 0.1739

Si x = 0.8 y = 0.75996 Medida de fiabilidad

rxy =

S xy Sx * S y

= 0.6748

Es una medida de fiabilidad mala puesto que no llega al 70 %, aunque este cerca.

37. Las siguientes son las calificaciones obtenidas por los 25 alumnos de un grupo de Bachillerato en las asignaturas de Biologa y Qumica: B 4 5 5 5 6 6 7 7 Q 3 5 5 6 7 7 7 7 7 7 7 7 7 8 7 7 8 8 8 8 8 8 9 9 9 9 9 10

8 8 7 7 8 8 8 8 8 8 8 10 10 10

a) Obtener la tabla de frecuencias conjunta. b) Qu proporcin de alumnos obtienen ms de un cinco en ambas asignaturas? Qu proporcin de alumnos obtienen ms de un cinco en Biologa? Qu proporcin de alumnos obtienen ms de un cinco en Qumicas? c) Hallar la distribucin de frecuencias condicionales de la calificacin en Biologa de los estudiantes que obtuvieron un 7 en Qumicas. Qu proporcin de estos estudiantes obtuvieron notable en Biologa? d) Representar grficamente. Comentar el resultado. e) Hallar el coeficiente de correlacin. Comentar el resultado.

SOLUCIN: a) Obtener la tabla de frecuencias conjunta. 3 5 6 7 8 xi\yj 4 5 6 1/0,04 2/0,08 -

10 -

ni. 1 3 2

fi. 0,040 0,120 0,080

Ni. 1 4 6

Fi. 0,040 0,160 0,240

2/0,08 1/0,04 -

7 8 9 10 n.j f.j N.j F.j

1 0,040 1 0,040

2 0,080 3 0,120

4/0,16 3/0,12 2/0,08 4/0,16 8

7 6 5 1 25 -

0,280 13 0,520 0,240 19 0,760 0,200 24 0,960 0,040 25 1,000 1

3/0,12 2/0,12 10 1/0,04 3

0,040 0,320 0,400 0,120 4 12 22 25

0,160 0,480 0,880 1,000

b) Qu proporcin de alumnos obtienen ms de un cinco en ambas asignaturas? Qu proporcin de alumnos obtienen ms de un cinco en Biologa? Qu proporcin de alumnos obtienen ms de un cinco en Qumicas?

Ms de un 5 en B y en Q

25 4 * 100 = 84% 25

Ms de un 5 en B

25 4 * 100 = 84% 25 25 3 *100 = 88% 25

Ms de un 5 en Q

c) Hallar la distribucin de frecuencias condicionales de la calificacin en Biologa de los estudiantes que obtuvieron un 7 en Qumicas. Qu proporcin de estos estudiantes obtuvieron notable en Biologa? xi 4 5 6 7 8 9 Y=7 2/0,08 4/0,16 2/0,08 ni. 0 0 2 4 2 0 fi. 0,000 0,000 0,250 0,500 0,250 0,000 Ni. 0 0 2 6 8 8 Fi. 0,000 0,000 0,250 0,750 1,000 1,000

10

0 8

0,000

1,000

Notable = 7-8

6 * 100 = 75% 8

d) Representar grficamente. Comentar el resultado.

12,00 10,00 8,00 Qumica 6,00 4,00 2,00 0,00 0,00

2,00

4,00

6,00 Biologa

8,00

10,00

12,00

Se puede observar como a mas nota en biologa se tiende a sacar mas nota en qumica, es una relacin lineal ascendente.

e) Hallar el coeficiente de correlacin. Comentar el resultado.


n

x=

x *n
i =1 i

x = 7.32

y=

y
j =1

* nj y = 7.4

Sn =
2 x

x
i =1

2 i

* ni

2 x 2 Snx = 2.2176

2 Snx = Snx = 1.489 n

Sn =
2 y

y
j =1

2 j

* nj
2 y 2 Sn y = 2.32

2 Sn y = Sn y = 1.523 n n

S xy = rxy =

n
i =1 j =1

ij

* xi * y j x * y = 1.992

n S xy Sx * S y = 0.878

Aqu observamos lo que ya se haba comentado al ver el grfico, y es que hay una tendencia lineal ascendente, por lo que a mayores notas en Biologa, ese mismo alumno, tendr mayores notas de Qumica.

38. Los siguientes datos corresponden a los tiempos en segundos que tardaron en ejecutarse seis programas elegidos al azar en el entorno Windows y en DOS: Programa Windows DOS 2.5 2.3 7.1 7.1 5 4 8.5 8 7 6.6 8.1 5

a) Representar grficamente los datos. b) Si un programa tarda 3 segundos en ejecutarse en Windows, cuanto tardar en ejecutarse en DOS? c) Si un programa tarda 6 segundos en ejecutarse en DOS, cuanto tardar en ejecutarse en Windows? d) Dar una medida de fiabilidad de los anteriores resultados. SOLUCIN: a) Representar grficamente los datos.

9 8 7 Tiempo (seg) 6 5 4 3 2 1 0 1 2 3 Programa 4 5 6

b) Si un programa tarda 3 segundos en ejecutarse en Windows, cuanto tardar en ejecutarse en DOS? Datos de Windows:

Re = 8.5 2.5 = 6 n = 6 50 m = n = 6 = 2.5 Ci = 3 ai = Re 6 = = 2 ai = 2 Ci 3

Datos de Dos:

Re = 8 2.3 = 5.7 n = 6 50 m = n = 6 = 2.5 Ci = 3 ai = Re 5.7 = = 1.9 ai = 2 Ci 3

xi\yj [2,5-4,5) [4,5-6,5) [6,5-8,5)

[2,5-4,5) 1/0,17 1/0,17 -

[4,5-6,5) 1/0,17

[6,5-8,5) 3/0,5

ci 3,5 5,5 7,5

ni. 1 1 4

fi. 0,167 0,167 0,667

Ni. 1 2 6

Fi. 0,167 0,333 1,000

cj n.j f.j N.j F.j

3,5 2 0,333 2 0,333

5,5 1 0,167 3 0,500

7,5 3 0,500 6 1,000 6 1

y y=
n

S xy
2 Sx

* (x x )

x=

c * n
i =1 i

x = 6.5

y=

c
j =1

* nj y = 5.83
2 i

Sn =
2 x

c
i =1

* ni

2 x 2 Snx = 2.33

2 Snx = Snx = 1.527 n

Sn =
2 y

c
j =1

2 j

* nj
2 y 2 Sn y = 3.26

2 Sn y = Sn y = 1.8 n n

S xy =

n
i =1 j =1

ij

* xi * y j x * y = 2.355

y 5.83 =

2.355 * ( x 6.5) y = 1.011 * x 0.7397 2.33

Si x = 3 y = 2.29 seg

c) Si un programa tarda 6 segundos en ejecutarse en DOS, cuanto tardar en ejecutarse en Windows?

Si y = 6 x = 6.666 seg

d) Dar una medida de fiabilidad de los anteriores resultados.

rxy =

S xy Sx * S y

= 0.8568

Es una medida de fiabilidad buena puesto que llega al 70 % y lo sobrepasa hasta llegar a un 85.68 %.

39. Un determinado partido poltico, se plantea el problema de hasta que punto le pueden compensar los gastos de la campaa de propaganda para las futuras elecciones. En las ltimas elecciones, los gastos de publicidad y el nmero de diputados elegidos han sido: Gastos publicidad en miles de pesetas 1500 1750 3250 4000 5000 Diputados elegidos 3 4 4 6 8

La comisin electoral est estudiando la posibilidad de un presupuesto de propaganda de diez millones de pesetas. a) Cul ser el nmero de diputados que seran elegidos de ese partido de acuerdo con este presupuesto, si la imagen del partido no vara respecto a las elecciones anteriores? b) Con qu confianza se puede esperar ese resultado? c) Cul sera el porcentaje de causas diferentes a la publicidad que influiran en las elecciones? SOLUCIN: a) Cul ser el nmero de diputados que seran elegidos de ese partido de acuerdo con este presupuesto, si la imagen del partido no vara respecto a las elecciones anteriores? xi\yj 1500 3 1/0,2 4 6 8 ni. 1 fi. 0,200 Ni. 1 Fi. 0,200

1750 3250 4000 5000 n.j f.j N.j F.j

1 0,200 1 0,200

1/0,2 1/0,2 2 0,400 3 0,600

1/0,2 1 0,200 4 0,800

1/0,2 1 0,200 5 1,000

1 1 1 1 5 -

0,200 0,200 0,200 0,200 1

2 3 4 5

0,400 0,600 0,800 1,000

y y=
n

S xy
2 Sx

* (x x )

x=

x *n
i =1 i

x = 3100

y=

y
j =1 n

* nj y =5
2 i

2 = Snx

x
i =1

* ni

2 x 2 Snx = 1765000

2 Snx = Snx = 1328.53 n

Sn =
2 y

y
j =1

2 j

* nj
2 y 2 Sn y = 3.2

2 Sn y = Sn y = 1.789 n n

S xy =

n
i =1 j =1

ij

* xi * y j x * y = 2200

y 5=

2200 * ( x 3100) y = 1.246 *103 * x + 1.136 1765000

Si x = 10 000 y = 13.596 Diputados

b) Con qu confianza se puede esperar ese resultado?

rxy =

S xy Sx * S y

= 0.9256

92.56 % de confianza

c) Cul sera el porcentaje de causas diferentes a la publicidad que influiran en las elecciones? La cantidad de recursos publicitarios utilizados por otros partidos. El nmero mximo de diputados.

40. La resistencia del papel utilizado en la fabricacin de cajas de cartulina (Y) est relacionado con la concentracin de madera dura en la pulpa original (X). Bajo condiciones controladas, una planta piloto fabrica 16 muestras con un lote diferente de pulpa y mide la resistencia a la tensin. Los datos obtenidos son los siguientes: X 1 1.5 1.5 1.5 2 2 2.2 2.4 2.5 2.5 2.8 2.8 3 3 3.2 3.3

Y 101.4 117.4 117.1 106.2 131.9 146.9 146.8 133.9 111 123 125.1 145.1 134.3 144.5 143.7 146.9

a) Representar grficamente los datos y comentar los resultados. b) Hallar el coeficiente de correlacin. c) Ajustar un modelo de regresin lineal. Predecir la resistencia de una caja fabricada con pulpa cuya concentracin es 2.3. SOLUCIN: a) Representar grficamente los datos y comentar los resultados. Datos de X:

Re = 3.3 1 = 2.3 n = 16 50 m = n = 16 = 4 Ci = 4 ai = Re 2.3 = = 0.575 ai = 0.6 Ci 4

Datos de Y:

Re = 146.9 101.4 = 45.5 n = 16 50 m = n = 16 = 4 Ci = 4 ai = Re 45.5 = = 11.375 ai = 12 Ci 4

xi\yj [1-1,6) [1,6-2,2) [2,2-2,8) [2,8-3,4) cj n.j f.j N.j F.j

[101,4-113,4) 2/0,125 107,4 2 0,125 2 0,125

[113,4-125,4) 2/0,125 2/0,125 1/0,06 119,4 5 0,313 7 0,438

[125,4-137,4) 1/0,06 1/0,06 1/0,06 131,4 3 0,188 10 0,625

[137,4-149,4) 1/0,06 1/0,06 4/0,25 143,4 6 0,375 16 1,000

cj 1,3 1,9 2,5 3,1

ni. 4 2 4 6

fi. 0,250 0,125 0,250 0,375

Ni. 4 6 10 16

Fi. 0,250 0,375 0,625 1,000

16 -

160,00 140,00 120,00 Resistencia 100,00 80,00 60,00 40,00 20,00 0,00 0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50

Concentracin de madera dura

Lo que se observa es una variacin muy leve de la resistencia a medida que aumentamos la concentracin.

b) Hallar el coeficiente de correlacin.


n

x=

c * n
i =1 i

x = 2.35

y=

c
j =1

* nj y = 129.15
2 i

Sn =
2 x

c
i =1

* ni

2 x 2 Snx = 0.5175

2 Snx = Snx = 0.719 n

Sn =
2 y

c
j =1

2 j

* nj
2 y 2 Sn y = 165.9375

2 Sn y = Sn y = 12.88 n n

S xy = rxy =

n
i =1 j =1

ij

* xi * y j x * y = 5.9625

n S xy Sx * S y = 0.644

No tiene mucha fiabilidad.

c) Ajustar un modelo de regresin lineal. Predecir la resistencia de una caja fabricada con pulpa cuya concentracin es 2.3.

y y=

S xy S x2

* (x x )

y 129.15 =

5.9625 * ( x 2.35) y = 11.52 * x + 102.07 0.5175

Si x = 2.3 y = 128.566

41. Sabiendo que x = 3, s2x = 6, s2y = 8 y que la recta de regresin de Y sobre X es: y=4 0.667x, obtener la recta de regresin de X sobre Y.

SOLUCIN:

y y=

S xy S x2

* (x x )

S xy S xy y= S2 * x + y S2 * x = 4 0.667 * x x x

S xy = 0.667 S x2 S xy S x2 *x =4

S xy = 0.667 * S x2 = 0.667 * 6 = 4.002 4 y = 4+ S xy S x2 * x = 4 0.667 * 3 = 1.999 2

xx =

S xy
2 Sy

* (y y)

x3=

4 * ( y 2) x = 4 0.5 * y 8

42. Hallar la recta de regresin de Y sobre X sabiendo que x = 4.1, y = 2.3 y la recta pasa por el punto (5.9, 3.5). SOLUCIN:

S xy S xy y= S2 * x + y S2 * x = a + b* x x x

S xy =b S x2 S xy S x2 * x = y b* x

a= y

Si pasa por el punto (5.9, 3.5):

y = a + b * x = (y b * x ) + b * x 3.5 = (2.3 b * 4.1) + b * 5.9 b = 0.6667

a = y b * x = 2.3 0.667 * 4.1 = 0.433

También podría gustarte