Está en la página 1de 7

MTODOS ESTADSTICOS TAREA 1

1. El conjunto de datos de puntajes del test de ansiedad visto en clase est contenido en el archivo puntajes_ansiedad.txt en BB. Haga el cmputo de las siguientes cantidades muestrales. Muestre el desarrollo de los clculos; si alguno de stos es muy largo, muestre un resumen. a) Los percentiles del 5, 10, 20, 25, 50 75, 80, 90 y 95 porciento. Para 5:

Para 10: p=0.1 j=4 , =0.6

Para 20: p=0.2 j=9 , =0.2

Para 25: p=0.25 j=11 , =0.5

Para 50: p=0.5 j=23 , =0

Para 75: p=0.75 j=34 , =0.5

Para 80: p=0.8 j=36 , =0.8

Para 90: p=0.9 j=41 , =0.4

Para 95: p=0.95 j=43 , =0.7

b) La media, la varianza y desviacin estndar muestrales. Media Muestral

Varianza

Desviacin Estndar

c) El error estndar.

d) El rango intercuartlico. Para el clculo de este rango podemos utilizar el primer y el tercer cuartil. Esto nos quedara de la siguiente forma:

e) Los bigotes inferior y superior del diagrama de caja de acuerdo con la regla vista en clase. Bigote Inferior: , por lo tanto tomamos el valor de 29

Bigote Superior: , por lo tanto tomamos el valor de 71 f ) El sesgo y el exceso de curtosis. Sesgo

Exceso de curtosis

g) De acuerdo a las grficas vistas en clase y estas cantidades calculadas, qu puede decir acerca de la forma de la distribucin de la muestra? Con los resultados obtenidos, podemos concluir que la grfica est achatada, es decir, no es muy picuda, ya que el exceso de curtosis es un nmero negativo. Al ser el valor del sesgo positivo, tendramos que la cola derecha sera ms larga, es decir, que no est centrada. Con la obtencin de los bigotes superior e inferior nos podemos percatar que todos los valores estn dentro del rango y por lo tanto no existen valores atpicos. 2. En cada uno de los siguientes ejercicios, utilice los mtodos grficos que considere apropiados para hacer un anlisis exploratorio de los datos. Puede auxiliarse con el cmputo de algunos estadsticos, si as lo desea. Extraiga conclusiones de lo que observe en sus grficas. Ambas cosas, tanto grficas como conclusiones, sern evaluadas. a) El conjunto de datos emisiones_CO.csv contiene datos de emisiones de CO de 794 autos (gramos por milla). Se presentan en forma de una tabla de frecuencia 2 columnas separadas por comas; la primera con los lmites inferior y superior del intervalo de clase y la segunda con la frecuencia.
200

0-24

96-120

24-48

48-72

72-96

336-360

120-144

144-168

168-192

192-216

216-240

240-264

264-288

288-312

312-336

0-24 24-48 48-72 72-96 96-120 120-144 144-168 168-192 192-216 216-240 240-264

13 98 161 189 148 85 45 30 10 5 5

180 160 140 120 100 80 60 40 20 0

Series1

264-288 288-312 312-336 336-360

1 2 1 1

Presenta un sesgo positivo. Al parecer no es normal. Exceso de curtosis es alto; Es un valor positivo. El rango es de 360. La frecuencia mxima est en 72-96. Intervalo de 24

b) El archivo mortalidad.dat contiene frecuencias de mortalidad humana. Se presentan en forma de una tabla de frecuencia con 2 columnas separadas por espacios; la primera con los lmites inferior y superior del grupo de edad y la segunda con la cantidad de muertes.
0-5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 85-90 90-95 95-100 39.3 12 9.5 10.8 12.3 14.6 18.1 23.2 30.8 41.7 56.7 76.4 99.9 123.3 138.6 134.2 103.6 56.6 18.6 3
160
140 120 100 80 60 40 20 0 0-5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 85-90 90-95 95-100 Series1

Presenta un sesgo negativo. No se comporta de manera normal. Exceso de curtosis tiene un valor positivo. La mayor cantidad de muertes se presentan entre los 70-75 aos de edad. De manera general, la mayor cantidad de muertes ronda entre los 60 hasta los 85 aos. La grfica va creciendo exponencialmente excepto al inicio, cuando las edades son entre los 0-5 aos.

22 7.2 23 10.9 24 9.2 25 8.6 26 6.2 27 6.1 c) El archivo plomo.dat 28 contiene 64 mediciones que son una muestra de las mediciones de 6.5 concentraciones de plomo en microgramos por metro cbico tomadas en una estacin de 29 7.8 30 durante el otoo de 1976, entre las 3 y las 7 de la tarde. La muestra 6.2 monitoreo en Los ngeles 31 8.5 consta de 64 observaciones. 32 6.4 1 6.7 33 8.1 16 2 5.4 34 2.1 14 3 5.2 35 6.1 4 6 36 6.5 12 5 8.7 37 7.9 6 6 38 15.1 10 7 6.4 39 9.5 8 8 8.3 40 10.6 Series1 9 5.3 41 8.4 6 10 5.9 42 8.3 4 11 7.6 43 5.9 12 5 44 6 2 13 6.9 45 6.4 0 14 6.8 46 3.9 0 20 40 60 80 15 4.9 47 9.9 16 6.3 48 7.6 17 5 49 6.8 18 6 50 8.6 19 7.2 51 8.5 20 8 52 11.2 21 8.1 53 7 22 7.2 54 7.1 23 10.9 55 6 24 9.2 56 9 25 8.6 57 10.1 26 6.2 58 8 27 6.1 59 6.8 28 6.5 60 7.3 29 7.8 61 9.7 30 6.2 62 9.3 31 8.5 63 3.2 32 6.4 64 6.4 33 8.1 En la grfica podemos observar que no presenta similitud alguna con las vistas en clase, salvo por 34 2.1 la grfica de series de tiempo, por lo que esa podra ser una opcin. Hay que recalcar que presenta 35 6.1 un comportamiento similar entre los puntos 4 a 11 del eje de coordenadas y, aunque tambin 36 6.5 presenta unos 7.9 extraos que se salen de los lmites. picos 37 38 15.1 39 9.5 d) El archivo grosores.dat contiene mediciones de grosor de tapas de lata de pintura. Se tienen 40 muestras de 10.6 tamao 5 tomadas peridicamente (las muestras). La primer columna indica la 41 8.4 muestra y las restantes las mediciones por muestra. 42 8.3 1) Para cada muestra i obtener Xi. 43 5.9 2) Grafique Xi contra el nmero de muestra. 44 6 3) Concluya acerca del patrn de comportamiento de las Xis. 45 6.4 46 3.9 47 9.9 48 7.6 49 6.8 50 8.6 51 8.5 52 11.2 53 7 54 7.1

Media Muestra medicion1 medicion2 medicion3 medicion4 medicion5 muestral 1 29 36 39 34 34 34.4 2 29 29 28 32 31 29.8 3 34 34 39 38 37 36.4 4 35 37 33 38 41 36.8 5 30 29 31 38 29 31.4 6 34 31 37 39 36 35.4 7 30 35 33 40 36 34.8 8 28 28 31 34 30 30.2 9 32 36 38 38 35 35.8 10 35 30 37 35 31 33.6 11 35 30 35 38 35 34.6 12 38 34 35 35 31 34.6 13 34 35 33 30 34 33.2 14 40 35 34 33 35 35.4 15 34 35 38 35 30 34.4 16 35 30 35 29 37 33.2 17 40 31 38 35 31 35 18 35 36 30 33 32 33.2 19 35 34 35 30 36 34 20 35 35 31 38 36 35 21 32 36 36 32 36 34.4 22 36 37 32 34 34 34.6 23 29 34 33 37 35 33.6 24 36 36 35 37 37 36.2 25 36 30 35 37 31 33.8 26 35 30 29 33 35 32.4 27 35 36 30 38 36 35 28 35 30 36 34 35 34 29 38 36 35 29 31 33.8 30 40 34 40 34 30 35.6

Al graficar Xi contra el nmero de muestra, obtenemos una grfica como la siguiente:


40 35
30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 Series1

Esta grfica tambin podra considerarse como una serie de tiempo, dado su parecido con la vista en la clase. Es de recalcar que presenta un comportamiento ms o menos estable en comparacin con la del inciso anterior, oscilando entre los valores de 30 y 37 aproximadamente. e) El archivo hydrophobics.dat contiene datos de mediciones de aldrin y hexaclorobenzeno. Las mediciones fueron hechas en el Ro Tennessee en un sitio abandonado donde se reciban desechos industriales. Se espera que las mediciones no tengan una distribucin vertical homognea en el ro. Es importante verificar esta condicin, ya que eso determina esquemas de muestreo posteriores. Grafique la informacin tratando de responder a esta preocupacin. Concluya.
nivel aldrin HCB superficie 3.08 superficie 3.58 superficie 3.91 superficie 4.31 superficie 4.35 superficie 4.4 superficie 3.67 superficie 5.17 superficie 5.17 superficie 4.35 medio 5.17 medio 6.17 medio 6.26 medio 4.26 medio 3.17 medio 3.76 medio 4.76 medio 4.9 medio 6.57 medio 5.17 fondo 4.81 fondo 5.71 fondo 4.9 fondo 5.35 fondo 5.26 fondo 6.26 fondo 3.76 fondo 8.07 fondo 8.79 fondo 7.3 3.74 4.61 4 4.67 4.87 5.12 4.52 5.29 5.74 5.48 6.03 6.55 3.55 4.59 3.77 4.81 5.85 5.74 6.77 5.64 5.44 6.88 5.37 5.44 5.03 6.48 3.89 5.85 6.85 7.16

10 9 8 7 6 5 4 3 2 1 0 aldrin HCB

De la grfica podemos observar que tanto en la superficie como en la parte media existe una mayor cantidad y concentracin de hexaclorobenzeno. En el fondo esa diferencia se va haciendo cada vez ms corta en inclusive hay puntos donde la concentracin de aldrin es mayor.