Está en la página 1de 24

2.

ESTADSTICA DESCRIPTIVA

2.1 Introduccin
Los mtodos estadsticos comprenden el anlisis e interpretacin de informacin a partir de datos numricos. Para analizar e interpretar correctamente un conjunto de datos es necesario organizarlos, condensarlos, resumirlos de tal manera que se tenga una descripcin clara de la caracterstica que se observa. La Estadstica Descriptiva es el rea de la Estadstica que se encarga de describir un conjunto de datos, es decir, de la organizacin, presentacin, condensacin y resumen de datos provenientes ya sea de una muestra o de una poblacin. La descripcin de un conjunto de datos puede hacerse mediante mtodos grficos o mediante mtodos numricos, es decir, a travs de nmeros que resuman la informacin que estos contienen. Seleccionar el procedimiento adecuado que se habr de utilizar para describir, analizar e interpretar un conjunto de datos depende de qu tipo sean estos, por lo que es fundamental identificar correctamente el tipo de datos que se registran para un estudio.

2.3 Mtodos descriptivos grficos


Los mtodos grficos de descripcin de datos tienen la finalidad de proporcionar una imagen objetiva de las caractersticas de los mismos y reflejan el comportamiento de la variable que se desea analizar. Tienen la ventaja de que pueden entenderse e interpretarse fcilmente. Son adecuados para describir un conjunto grande de datos. En los paquetes computacionales para graficacin o estadsticos se pueden encontrar una gran variedad de opciones de grficas, pero todas se pueden clasificar en uno de los siguientes grupos, de acuerdo al tipo de datos y al objetivo de la descripcin: Grficas circulares o de pastel. Grficas de puntos. Grficas de lneas. Grficas de barras e histogramas. Las grficas circulares o de pastel se utilizan principalmente para datos de tipo cualitativo y sirven para representar el nmero o porcentaje de elementos, con respecto al total, en cada una de las categoras en que se pueden clasificar. Ejemplos 2.3.1 Se determin el estatus de dos de las enfermedades mas graves que afectan a los puercos en cada uno de los 32 estados de la repblica, los estatus son: erradicacin por vacuna, en control y libre de enfermedad. Los resultados se presentan en el siguiente cuadro

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Estatus Erradicacin Control Libre Total

Fiebre porcina clsica Enfermedad de Aujeszky Nmero de Porcentaje Nmero de Porcentaje estados estados 11 34.4 3 9.4 8 25.0 21 65.6 13 40.6 8 25.0 32 100.0 32 100.0

Fiebre Porcina clsica


lib r e 41% er r ad icaci n 34%

co nt r o l 25%

Grfica 2.3.1.a

Enfermedad de Aujeszky
er r ad icaci n 9%

lib r e 25%

co nt r o l 66%

Grfica 2.3.1.b

En estas grficas se puede observar que para la Fiebre Porcina Clsica es mas alto el porcentaje de estados que estn libres de la enfermedad y otro porcentaje un poco menor de estados en los que la enfermedad est erradicada. Con respecto a la Enfermedad de Aujeszky es mayor el porcentaje de estados en donde la enfermedad est en control y menor el porcentaje de estados en donde est erradicada.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Ejemplo 2.3.2 En una encuesta por Internet se plante la pregunta Cmo califica la labor de Vicente Fox como Presidente? Los resultados fueron los siguientes Calificacin Buena Regular Mala Porcentaje 42 31 27

Opinin de las personas sobre la labor del Presidente Fox M ala


27% B uena 42%

R eg ular 31%

Grfica 2.3.2

La grfica muestra que el porcentaje mas alto corresponde a las personas que opinan que la labor del Presidente Fox es buena y el menor corresponde a las que opinan que es mala, de entre el total de personas que se comunicaron va telefnica para contestar la encuesta. Ejemplo 2.3.3 A partir de los datos registrados para una muestra de 500 pacientes de una clnica se obtuvieron los siguientes datos Tipo de fumador No fumador Fumador ocasional Fumador moderado Fumador agudo Total Nmero de pacientes 98 124 173 105 500 Porcentaje 19.6 24.8 34.6 21.0 100.0

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Distribucin por tipo de fumador


F umad o r ag ud o 21% N o f umad o r 20%

F umad o r mo d er ad o 34%

F umad o r o casio nal 25%

Grfica 2.3.3

Se puede observar que del total de personas en la muestra el mayor porcentaje corresponde a quienes son fumadores moderados y el menor porcentaje a quienes son no fumadores. Las grficas de puntos sirven para describir la variacin o dispersin de un conjunto pequeo de datos de tipo continuo. Ejemplos2.3.4 En la prueba de rendimiento de las diferentes marcas de detergentes lavatrastes se obtuvo el nmero promedio de platos lavados por cada marca con los siguientes resultados Marca de Nmero promedio detergente de platos lavados Eficaz 450 Dawn 720 Klinvet 480 Axion 700 Salvo 650

Nmero promedio de platos lavados por detergente


E K S A D

400

500

600

700

800

Grfica 2.3.4

Esta grfica muestra que los detergentes que tienen un mayor rendimiento son dawn, axion y salvo y los que tienen menor rendimiento son eficaz y klinvet.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Ejemplo 2.3.5 Se prueban dos nuevas frmulas de gasolina sin plomo y se registra el octanaje. Los datos aparecen en el siguiente cuadro.

Frmula 1 86.2 86.6 88.9 91.0 91.8 93.1

Frmula 2 86.0 91.5 92.3 93.4 95.5 93.8

Octanaje de dos frmulas de gasolina sin plomo

85 86 87 88 89 90 91 92 93 94 95 96 97

Frmula 1 Frmula 2

Grfica 2.3.5

La grfica muestra que para la frmula 2 los valores del octanaje son mayores y que tienen mayor dispersin que los valores del octanaje de la frmula 1. Ejemplo 2.3.6 A partir de estudio sobre la eliminacin de clenbuterol se obtuvieron los residuos totales de clenbuterol (g./Kg.) en las diferentes partes de la res en las que se tomaron muestras obtenindose los siguientes resultados. Parte muestreada Grasa Msculo Rin Hgado Promedio de residuos totales (g./Kg.) 0.003 0.09 3.16 7.37

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Grfica 2.3.6

Promedio de residuos totales por parte muestreada


GM R H

Se observa en la grfica que tanto en grasa como en msculo los residuos totales de clenbuterol son cero o casi cero y que en el hgado es donde se encuentra la mayor concentracin de clenbuterol.

Ejemplo 2.3.7 Para determinar si el nivel de contaminacin depende del volumen del trfico vehicular se registr la cantidad de CO en el aire en ppm. y el nmero de automviles que circulan por hora. Trace una grfica adecuada para presentar esta informacin. # autos CO 100 8.8 125 9.5 175 10.5 200 10.5 225 10.6 275 12.1 300 12.1 325 12.5 350 13.0 375 13.2

Grfica 2.3.7

Como muestra la grfica, al aumentar el nmero de autos que circulan, tambin aumenta la cantidad de CO en el aire, adems de que los puntos no presentan una gran dispersin, por lo que si es posible que la cantidad de CO dependa en gran medida del nmero de autos que circulan por hora. Las grficas de lneas son tiles para representar el comportamiento o tendencia de alguna caracterstica en el tiempo. Ejemplo 2.3.8 Los siguientes datos corresponden a los residuos totales en leche (g./lt.) despus de la administracin de clenbuterol a una dosis teraputica por diferentes vas de administracin.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Intervalo del retiro 7 23 31 47 55 71 79

Residuos totales en leche (g./lt.) Administracin oral Administracin Administracin intravenosa intramuscular 0.42 0.72 0.84 0.43 0.37 0.51 0.40 0.27 0.34 0.21 0.15 0.16 0.14 0.11 0.12 0.08 0.07 0.07 0.06 0.06 0.06

Grfica 2.3.8

Se observa que los residuos totales de clenbuterol administrados por va intramuscular alcanzan niveles mas altos, pero disminuyen rpidamente, en cambio, por va oral se alcanzan nivele menores, aunque en los tres casos a los 79 das del retiro del tratamiento se llega al mismo nivel.

Ejemplo 2.3.9 Las importaciones de carne de cerdo (miles de toneladas) entre 1995 y 2002 se muestran en la siguiente tabla Importaciones de carne de cerdo E.E.U.U. Otros 26 4 30 2 53 2 96 9 120 18 180 28 184 33 201 47

ao 1995 1996 1997 1998 1999 2000 2001 2002

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Grfica 2.3.9

Las importaciones de carne de cerdo provenientes tanto de E.E.U.U. como de otros pases han aumentado en los ltimos 8 aos, presentndose una gran diferencia entre las importaciones de otros pases de las de E.E.U.U., siendo estas ltimas las mas altas.

Ejemplo 2.3.10 Los siguientes datos corresponden a la concentracin de ozono en la atmsfera, en partes por milln, en el centro de la ciudad durante el mes de junio. Da 1 2 3 4 5 6 7 8 9 10 Concentracin de ozono 3.5 6.8 2.4 6.8 5.5 6.2 5.7 9.4 6.8 6.6 Da 11 12 13 14 15 16 17 18 19 20 Concentracin de ozono 1.4 2.5 3.0 1.7 1.1 7.5 5.8 3.4 3.1 4.4 Da 21 22 23 24 25 26 27 28 29 30 Concentracin de ozono 6.6 5.4 5.6 5.3 5.1 6.2 3.1 5.8 4.7 5.7

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Grfica 2.3.10

En esta grfica se puede observar claramente como fue el comportamiento de la concentracin de ozono, fcilmente se puede identificar los das en que la concentracin tuvo niveles altos y por arriba de un lmite establecido y los das en que los niveles fueron bajos. Las grficas de barras e histogramas son las ms utilizadas, ayudan a describir el porcentaje o nmero de elementos en las diferentes categoras o intervalos y pueden usarse tanto para datos de tipo cualitativo como para datos de tipo cuantitativo. Cuando se trata de datos de tipo cualitativo o discreto las categoras estn determinadas de manera natural y las barras pueden ir separadas. Para el caso de datos continuos, stos se deben agrupar en subintervalos y contar el nmero de datos en cada uno de estos subintervalos. Ejemplo 2.3.11 La composicin de 100 Kg. de materia seca de una mezcla de alimento para cerdos en engorda en la etapa inicial es la siguiente Mezcla Porcentaje Granos de cebada 46.40 Harina de carne y huesos 17.47 Suero seco de leche 17.40 Harina de soya 11.00 Harina de yuca 7.73

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Grfica 2.3.11

En la grfica se muestra claramente el porcentaje de cada una de los elementos en la composicin de la mezcla de alimento, observndose que en mayor porcentaje est compuesta de granos de cebada. Ejemplo 2.3.12 Las causas de la EPOC, Enfermedad Pulmonar Obstructiva Crnica, con sus correspondientes porcentajes son Causas Tabaquismo Humo de lea Polvo Porcentaje 55 45 5

Grfica 2.3.12

La causa mas importante de la Enfermedad Pulmonar Obstructiva Crnica es el tabaquismo.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Ejemplo 2.3.13 Los siguientes datos corresponden al peso al nacer (kg.) de 50 lechones Peso al nacer (Kg.) 1.21 1.31 1.26 1.29 1.26 1.25 1.34 1.19 1.23 1.20 1.28 1.20 1.17 1.23 1.26 1.28 1.16 1.28 1.10 1.21 1.22 1.20 1.31 1.25 1.15 1.24 1.24 1.33 1.20 1.27

1.28 1.20 1.14 1.24 1.25 1.19 1.30 1.22 1.27 1.30

1.21 1.25 1.29 1.25 1.33 1.27 1.15 1.33 1.16 1.20

Distribucin del peso al nacer de lechones


25.0

16.7

Percent
8.3 0.0 1.1

1.2

1.3

1.4

Peso Grfica 2.3.13

Ejemplo 2.3.14 En el estudio sobre la eliminacin del clenbuterol se midi la concentracin en leche de 25 vacas, despus de aplicada la dosis teraputica, con los siguientes resultados Concentracin de clenbuterol en leche (g./lt.) 2.35 2.18 2.55 2.51 2.43 2.32 2.41 2.34 2.14 2.22 2.37 2.30 2.30 2.53 2.60 2.26 2.37 2.41 2.32 2.43 2.47 2.14 2.23 2.24 2.24

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Distribucin de la concentracin de clenbuterol en leche


35.0

23.3

Percent
11.7 0.0 2.1

2.3

2.5

2.7

Concentracion
Grfica 2.3.14

Algunos principios generales que se deben tener en cuenta para la construccin de grficas a fin de que la descripcin de la variable sea completa son los siguientes: 1. Las grficas deben explicarse por si mismas. Se debe dar la informacin necesaria y suficiente mediante ttulos y notas. 2. Las escalas deben elegirse adecuadamente. Los ejes deben rotularse con claridad indicando la variable que corresponde a cada uno, dando sus unidades. 3. No se debe incluir demasiada informacin sobre la caracterstica a describir en una sola grfica, es mejor construir varias grficas complementarias.

2.4 Mtodos descriptivos numricos


Los mtodos numricos para describir un conjunto de datos tienen como objetivo resumir en unos cuantos valores o medidas descriptivas numricas la informacin contenida en todo el conjunto de datos, de tal manera que sean sencillas de calcular y fciles de interpretar. Estas medidas descriptivas son esenciales para anlisis posteriores de los datos. La informacin contenida en un conjunto de datos se puede resumir a travs de dos caractersticas importantes de stos: i) un valor central o representativo de todo el conjunto. ii) la dispersin de los valores. iii) La forma de la distribucin.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

2.4.1 Medidas de Tendencia Central


Las medidas de tendencia central son las que indican un valor representativo de todo el conjunto de datos. Las tres mas importantes son la media, la mediana y la moda. La media o promedio es la media aritmtica de los datos y se calcula sumando todos los valores en la muestra y dividiendo entre el nmero de stos y se denota por x, entonces, x

x
i 1

n donde n es el nmero de datos u observaciones. La media es la medida de tendencia central mas ampliamente utilizada y tiene las siguientes caractersticas: i) existe una media nica para un conjunto de datos. ii) La media es sensible a cada valor del conjunto, es decir, se ve afectada por valores extremos, tanto por valores muy grandes como por valores muy pequeos.

La mediana se define como el valor que divide a un conjunto de datos ordenados en dos grupos con el mismo nmero de observaciones, es el valor que queda en el centro de tal manera que la mitad de los datos son menores que la mediana y la otra mitad son mayores que la mediana. Para encontrar el valor de la mediana se procede como sigue: 1. Ordenar los valores en forma creciente. 2. Determinar si el nmero de datos es par o impar. 3. Si el nmero de datos es impar, la mediana es el valor que se encuentra exactamente en el centro. Si el nmero de datos es par, la mediana es el promedio de los dos valores que se encuentran en el centro. La caracterstica mas importante de la mediana es que no es sensible a valores extremos. La moda es el valor que se presenta con ms frecuencia en el conjunto de datos. Desafortunadamente la moda puede no ser nica, es decir, un conjunto de datos puede tener mas de una moda y en ese caso puede no ser una medida de tendencia central adecuada para representar el conjunto de datos. Cuando se trata de describir un conjunto de datos de tipo cualitativo las tres mediadas de tendencia central definidas pueden ser calculadas y proveer informacin til sobre el conjunto de datos, sin embargo, cuando se trata con datos de tipo cuantitativo no es posible calcular estas tres medidas. Si los datos son de tipo ordinal, es posible calcular la mediana y la moda y si los datos son de tipo nominal, solo es posible calcular la moda. Ejemplo 2.4.1.1 Para el peso al nacer de los lechones en la muestra del ejemplo 2.3.13 al calcular la media se tiene 1.28 1.20 1.14 ... 1.16 1.20 x 1.23 50 lo que significa que el peso promedio de los lechones es 1.23 Kg. Para calcular la mediana el primer paso es ordenar los datos

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

1.10 1.14 1.15 1.15 1.16 1.16 1.17 1.19 1.19 1.20

1.20 1.20 1.20 1.20 1.20 1.21 1.21 1.21 1.22 1.22

Pesos ordenados 1.23 1.23 1.24 1.24 1.24 1.25 1.25 1.25 1.25 1.25

1.25 1.26 1.26 1.26 1.27 1.27 1.27 1.28 1.28 1.28

1.29 1.29 1.30 1.30 1.31 1.31 1.33 1.33 1.33 1.34

El nmero de datos es 50, como es un nmero par, la mediana es el promedio de los dos valores que quedan exactamente en el centro, los que ocupan las posiciones 25 y 26 que son los que estn marcados en negrillas en la tabla anterior, entonces la mediana es 1.24 1.25 ~ x 1.245 2 lo que significa que el 50% de los lechones tiene un peso menor que 1.245 kg. y el otro 50% de los lechones tiene un peso mayor a 1.245 kg. En este conjunto de datos hay dos valores que se repiten 6 veces y son 1.20 y 1.25. Ejemplo 2.4.1.2 Para la variable concentracin de clenbuterol en leche del ejemplo 2.3.14, la media es 2.35 2.32 2.37 ... 2.43 2.24 x 2.34 25 por lo que el promedio de concentracin de clenbuterol en la leche es 2.34 g./lt. Los datos ordenados son Concentraciones ordenadas 2.24 2.32 2.37 2.24 2.32 2.41 2.26 2.41 2.34 2.30 2.35 2.43 2.30 2.37 2.43

2.14 2.14 2.18 2.22 2.23

2.47 2.51 2.53 2.55 2.60

como el nmero de datos es un nmero impar, la mediana es el valor que queda exactamente en el centro, es decir, la mediana es 2.34, lo que significa que el 50% de la muestras de leche tienen una concentracin de clenbuterol menor a 2.34 g./lt. Y el otro 50% de las muestras de leche tiene una concentracin de clenbuterol mayor que 2.34 g./lt. Para este conjunto de datos no hay moda, pues no hay algn valor que se repita un nmero mayor de veces.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

2.4.2 Medidas de Dispersin


Las medidas de dispersin son las que indican el grado de dispersin o variabilidad presente en un conjunto de datos, indican si las observaciones estn cercanas entre si, concentradas alrededor de algn punto o si estn muy separados o dispersos. Estas medidas de dispersin solo pueden ser calculadas para datos de tipo cuantitativo. Las medidas de dispersin mas usuales son: la amplitud o rango, la varianza y la desviacin estndar. Cuando las medidas de dispersin toman el valor cero, indica que no hay dispersin, mientras que valores grandes de las medidas de estas medidas indican una gran dispersin. La amplitud o rango es la diferencia entre los valores mayor y menor del conjunto de datos, tambin es posible indicarla como un intervalo. Esta es la medida de dispersin mas sencilla de calcular pero tiene la desventaja de que proporciona poca informacin sobre todo el conjunto de datos. Ya que las medidas de dispersin indican la concentracin de los datos alrededor de algn valor, este ltimo puede ser la media que es la medida de tendencia central mas usual. La varianza de un conjunto de datos toma como referencia a la media y para calcularla se consideran las desviaciones de cada punto con respecto a la media. La varianza se define de la siguiente forma
s2

(x
i 1

x) 2

n 1

Una forma alternativa para calcular la varianza y que produce menor error de redondeo es

s2

x
i 1

2 i

( x ) 2
i 1

n 1

La desviacin estndar es simplemente la raz cuadrada de la varianza. Ejemplo 2.4.2.1 El peso de los lechones varan entre 1.10 y 1.34 kg., es decir, el rango del peso es R = 1.34 1.10 = 0.24. 2 La varianza es 0.003 kg. y la desviacin estndar es 0.0548 kg. Ejemplo 2.4.2.2 La concentracin de clenbuterol en leche vara entre 2.14 y 2.60 g./lt., por lo que el rango es R = 2.60 2.14 = 0.46. La varianza es 0.0159 g./lt.2 y la desviacin estndar es 0.1263 g./lt.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

2.4.3 Medidas de Posicin


Otras medidas descriptivas que tambin proporcionan informacin acerca de la dispersin, as como de la forma de la distribucin de los datos son los cuartiles. Los cuartiles son tres puntos que dividen al conjunto de datos en tres partes con el mismo nmero de observaciones, es decir entre dos cuartiles consecutivos se encuentra el 25% de las observaciones. Se denotan por C 1 , C 2 y C 3 y el cuartil C 2 es la mediana. El rango intercuartlico es otra medida que tambin proporciona informacin sobre la dispersin de los datos pues es el rango en el que est contenido el 50 % de las observaciones, alrededor de la mediana, se denota por R.I. y se define como R.I. = C 3 - C 1 . Ejemplo 2.4.3.1 Para los datos del peso al nacer de los lechones, los cuartiles son C 1 = 1.20, C 2 es la mediana, es decir, C 2 = 1.245 y C 3 = 1.28 y el rango intercuartlico es R.I. = 1.28 - 1.20 = 0.08. Ejemplo 2.4.3.2 Para los datos de las concentraciones de clenbuterol en la leche, los cuartiles son C 1 = 2.24, C 2 = 2.34, la mediana y C 3 = 2.43 y el rango intercuartlico es R.I. = 2.43 2.24 = 0.19.

2.5. Reportes generados con el paquete estadstico NCSS


Ejemplo 2.5.1 A continuacin se presenta el reporte, que se obtiene con el NCSS, correspondiente a los datos del peso al nacer de los lechones en el que se resaltan los valores de las medidas descriptivas, tanto de tendencia central como de dispersin.
Summary Section of Peso Count 50 Mean 1.2384 Standard Deviation 5.48E-02 Standard Error 7.75E-03 Minimum 1.1 Maximum 1.34 Range 0.24

Means Section of Peso Parameter Value Std Error 95% LCL 95% UCL T-Value Prob Level Count Mean 1.2384 7.75E-03 1.222819 1.253981 159.729 0 50 Median 1.245 1.21 1.26 Geometric Mean 1.237201 Harmonic Mean 1.235991 Sum 61.92 0.3876565 61.14098 62.69902 Mode

50

50

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Variation Section of Peso Parameter Value Std Error 95% LCL 95% UCL Variance 3.01E-03 5.39E-04 2.10E-03 4.67E-03 Standard Deviation 5.48E-02 6.96E-03 4.58E-02 6.83E-02 Unbiased Std Dev 5.51E-02 Std Error Interquartile of Mean Range 7.75E-03 0.08 9.84E-04 6.48E-03 9.66E-03 Range 0.24

Ejemplo 2.5.2 Los resultados obtenidos con el NCSS correspondientes a las concentraciones de clenbuterol en leche se muestran en el siguiente cuadro.
Summary Section of Concentracion Standard Count Mean Deviation 25 2.3464 0.1263223 Means Section of Concentracion Parameter Value Std Error 95% LCL 95% UCL T-Value Prob Level Count Mean 2.3464 2.53E-02 2.294257 2.398543 92.8735 0 25 Geometric Median Mean 2.34 2.343152 2.26 2.41 Harmonic Mean 2.339921 Sum 58.66 0.6316117 57.35642 59.96358 Mode

Standard Error 2.53E-02

Minimum 2.14

Maximum 2.6

Range 0.46

25

25

Variation Section of Concentracion Standard Unbiased Parameter Variance Deviation Std Dev Value 1.60E-02 0.1263223 0.1276447 Std Error 3.58E-03 2.00E-02 95% LCL 9.73E-03 9.86E-02 95% UCL 0.0308823 0.1757336

Std Error Interquartile of Mean Range 2.53E-02 0.19 4.00E-03 1.97E-02 3.51E-02

Range 0.46

2.6 Diagramas de Tallos y Hojas y Diagramas de Caja


Dos de las tcnicas ms importantes del Anlisis Exploratorio de Datos (AED) que permiten tener una descripcin ms completa y que se pueden de forma muy sencilla son el diagrama de tallos y hojas y el diagrama de caja.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

El diagrama de tallos y hojas permite conocer la distribucin de los datos de igual manera que en un histograma, sin embargo con el primero se conservan cada una de las observaciones, a diferencia del segundo en el que las observaciones individuales se pierden al clasificarlos en subintervalos. Adems es una forma fcil de ordenar las observaciones. Para construir un diagrama de tallos y hojas cada observacin se divide en dos partes: la primera es el tallo y la segunda la hoja. Los primeros dgitos de cada observacin corresponden al tallo y los ltimos dgitos a la hoja, con los tallos se forma una columna ordenada en forma creciente a la izquierda y a la derecha se clasifican las hojas separadas de los tallos por una lnea vertical. Ejemplo 2.6.1 El diagrama de tallos y hojas de los pesos de los lechones del ejemplo 2.3.13 obtenido con el NCSS es el siguiente
Stem-Leaf Plot Section of Peso Depth Stem Leaves 1 11* | 0 1 T| 4 F | 455 7 S | 667 9 . | 99 18 12* | 000000111 22 T | 2233 (9) F | 444555555 19 S | 666777 13 . | 88899 8 13* | 0011 4 T | 333 1 F| 4 Unit = .01 Example: 1 |2 Represents 0.12

Ejemplo 2.6.2 El diagrama de tallos y hojas para el caso de las concentraciones de clenbuterol en leche del ejemplo 2.3.14 se construye dividiendo cada observacin en dos partes, los dos primeros dgitos forman el tallo y el ltimo dgito es la hoja. Ya que las concentraciones varan entre 2.14 y 2.60, los tallos son 2.1, 2.2, 2.3, 2.4, 2.5 y 2.6, quedando el diagrama de tallos y hojas de la siguiente manera 2.1 2.2 2.3 2.4 2.5 2.6 448 23446 00224577 11337 135 0

En este ejemplo se construy el diagrama a partir de la tabla de concentraciones ordenadas que se muestra en el ejemplo 2.4.1.2 con lo que se obtuvo un diagrama de tallos y hojas ordenado.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Para estos datos el diagrama de tallos y hojas obtenido con el NCSS se muestra a continuacin
Stem-Leaf Plot Section of Concentracion Depth Stem Leaves 2 21* | 44 3 .| 8 7 22* | 2344 8 .| 6 (5) 23* | 00224 12 . | 577 9 24* | 1133 5 .| 7 4 25* | 13 2 .| 5 1 26* | 0 Unit = .01 Example: 1 |2 Represents 0.12

Los diagramas de caja son grficas que permiten obtener informacin tanto de la tendencia central del conjunto de observaciones como de la dispersin y de la forma de distribucin. Para construirlo se requiere solamente 5 valores: la observacin mayor, la observacin menor, la mediana y los cuartiles, con los cuartiles C1 y C3 se forma una caja que se divide en dos partes a travs de la mediana o el cuartil C2 y de los lados de la caja se extienden dos lneas hasta las observaciones mayor y menor. Ejemplo 2.6.3 En el ejemplo 2.4.3.2 se calcularon los cuartiles para los datos de la concentracin de clenbuterol en leche, por lo que los 5 valores que se requieren para construir el diagrama de caja son: observacin menor = 2.14, observacin mayor = 2.60, C 1 = 2.24, C 2 = 2.34 y C 3 = 2.43. El diagrama de caja es el que se muestra a continuacin.
Concentracin de clenbuterol en leche
2.7

2.5

2.2

2.0
concentracion

Grfica 2.6.1

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Los diagramas de caja son muy tiles para comparar conjuntos de datos de la misma variable en diferentes condiciones, como se muestra en el siguiente ejemplo. Ejemplo 2.6.4. El diagrama de caja para los datos del ejemplo 2.3.5 se muestra a continuacin.
Octanaje de dos frmulas de gasolina sin plomo
96.0

92.0

Octanaje
88.0 84.0
1 2

Frmula
Grfica 2.6.2

En esta grfica se observa mas claramente que la frmula 2 es la que tiene mayor dispersin aunque es la que tiene valores mayores de octanaje. Tambin se puede observar que las distribuciones de las 2 frmulas no son simtricas.

2.7 Instrucciones para un anlisis descriptivo con NCSS


Para obtener las medidas descriptivas de un conjunto de datos empleando el NCSS se debe seleccionar la siguiente secuencia de opciones Analisys Descriptive Statistics Descriptive Stats despus de seleccionar las variables para las cuales se quiere calcular las medidas descriptivas en la ventanilla correspondiente, de la ventanilla Reports se seleccionan Summary Section Means Section Variation Section Para obtener un diagrama de tallos y hojas con el NCSS tambin se seleccionan la siguiente secuencia de opciones Analisys Descriptive Statistics Descriptive Stats despus de seleccionar las variables para las cuales se quiere obtener el diagrama de tallos y hojas en la ventanilla correspondiente, de la ventanilla Reports se selecciona la opcin Stem-Leaf Section. M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

El diagrama de caja para un conjunto de datos se obtiene Aplicando el NCSS seleccionando la siguiente secuencia de opciones Graphics Box Plots posteriormente se selecciona la variable para la cual se quiere el diagrama y la variable que define a los grupos. Ejemplo 2.6.1 En una investigacin que tiene por objetivo estudiar como se elimina el clenbuterol en la carne de res que ha sido tratada con este medicamento a una dosis teraputica de 0.8 g./kg., durante 10 das se midieron los residuos totales en muestras de 4 partes: msculo, hgado, rin y grasa. Los datos obtenidos son los siguientes Residuos totales de clenbuterol (g./kg.) msculo hgado rin grasa 0.032 7.29 3.02 0.00282 0.008 7.30 3.05 0.00285 0.017 7.32 3.08 0.00289 0.030 7.33 3.09 0.00291 0.030 7.33 3.09 0.00291 0.042 7.34 3.10 0.00293 0.104 7.38 3.18 0.00302 0.066 7.35 3.13 0.00296 0.091 7.37 3.16 0.00300 0.066 7.35 3.13 0.00296 0.104 7.38 3.18 0.00302 0.079 7.36 3.15 0.00298 0.079 7.36 3.15 0.00298 0.128 7.40 3.20 0.00306 0.140 7.40 3.22 0.00308 0.128 7.40 3.20 0.00306 0.140 7.40 3.22 0.00308 0.165 7.42 3.25 0.00311 0.202 7.45 3.29 0.00317 0.215 7.46 3.30 0.00319 El reporte del anlisis descriptivo de estos datos, generado con el NCSS es el siguiente:

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Summary Section of musculo Count 20 Mean 0.0933 Standard Deviation 0.0599 Standard Error 1.34E-02 Minimum 0.008 Maximum 0.215 Range 0.207

Means Section of musculo Parameter Value Std Error 95% LCL 95% UCL T-Value Prob Level Count Mean 0.0933 1.34E-02 6.53E-02 0.1213341 6.9658 0.000001 20 Median 0.085 0.032 0.128 Geometric Mean 7.08E-02 Harmonic Mean 4.58E-02 Sum 1.866 0.267881 1.305319 2.426681 Mode

20

20

Variation Section of musculo Parameter Value Std Error 95% LCL 95% UCL Variance 3.59E-03 9.22E-04 2.08E-03 7.65E-03 Standard Deviation 0.0599 1.09E-02 4.56E-02 8.75E-02 Unbiased Std Dev 0.060693 Std Error of Mean 1.34E-02 2.43E-03 1.02E-02 1.96E-02 Interquartile Range 0.1025 Range 0.207

Summary Section of higado Count 20 Mean 7.3695 Standard Deviation 4.57E-02 Standard Error 1.02E-02 Minimum 7.29 Maximum 7.46 Range 0.17

Means Section of higado Parameter Value Std Error 95% LCL 95% UCL T-Value Prob Level Count Mean 7.3695 1.02E-02 7.348108 7.390892 721.0443 0 20 Median 7.365 7.33 7.4 Geometric Mean 7.369365 Harmonic Mean 7.369231 Sum 147.39 0.2044119 146.9622 147.8178 Mode 7.4

20

20

Variation Section of higado Parameter Value Std Error 95% LCL 95% UCL Variance 2.09E-03 5.66E-04 1.21E-03 4.46E-03 Standard Deviation 4.57E-02 8.75E-03 0.0347604 6.68E-02 Unbiased Std Dev 0.046313 Std Error of Mean 1.02E-02 1.96E-03 7.77E-03 1.49E-02 Interquartile Range 0.0675 Range 0.17

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Summary Section of rinon Count 20 Mean 3.1595 Standard Deviation 7.58E-02 Standard Error 1.70E-02 Minimum 3.02 Maximum 3.3 Range 0.28

Means Section of rinon Parameter Value Std Error 95% LCL 95% UCL T-Value Prob Level Count Mean 3.1595 1.70E-02 3.124004 3.194996 186.2988 0 20 Median 3.155 3.09 3.2 Geometric Mean 3.158636 Harmonic Mean 3.157773 Sum 63.19 0.3391863 62.48008 63.89993 Mode

20

20

Variation Section of rinon Parameter Value Std Error 95% LCL 95% UCL Variance 5.75E-03 1.49E-03 3.33E-03 1.23E-02 Standard Deviation 7.58E-02 1.39E-02 5.77E-02 0.1107761 Unbiased Std Dev 7.68E-02 Std Error of Mean 1.70E-02 3.11E-03 0.0128974 0.0247703 Interquartile Range 0.1225 Range 0.28

Summary Section of grasa Count 20 Mean 0.002999 Standard Deviation 1.00E-04 Standard Error 2.24E-05 Minimum 0.00282 Maximum 0.00319 Range 0.00037

Means Section of grasa Parameter Value Std Error 95% LCL 95% UCL T-Value Prob Level Count Mean 0.002999 2.24E-05 2.95E-03 3.05E-03 134.1264 0 20 Median 0.00299 0.00291 0.00306 Geometric Mean 3.00E-03 Harmonic Mean 3.00E-03 Sum 0.05998 4.47E-04 5.90E-02 6.09E-02 Mode

20

20

Variation Section of grasa Parameter Value Std Error 95% LCL 95% UCL Variance 1.00E-08 2.61E-09 5.78E-09 2.13E-08 Standard Deviation 1.00E-04 1.85E-05 7.60E-05 1.46E-04 Unbiased Std Dev 1.01E-04 Std Error of Mean 2.24E-05 4.13E-06 1.70E-05 3.27E-05 Interquartile Range 0.00016 Range 0.00037

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa

Residuos totales de clenbuterol


8.0

5.3

2.7

0.0
msculo hgado rin grasa

Grfica 2.7.1

A partir de estos resultados se puede ver que los residuos totales de clenbuterol en grasa son casi 0 con una varianza muy pequea, en msculo el nivel es un poco mayor pero muy bajo tambin y con muy poca varianza y en hgado es en la parte que mas se concentran los residuos totales de clenbuterol. Las varianzas son muy similares en msculo, hgado y rin, pero en grasa es mucho menor. En el diagrama de caja se puede observar que hay una gran diferencia en los niveles de los residuos totales de clenbuterol entre las cuatro partes estudiadas.

M. en C. Consuelo Daz Torres Departamento de Matemticas Universidad Autnoma Metropolitana - Iztapalapa