Proverbio chino: Una grfica dice ms que mil palabras.
Una grfica es una representacin visual de las relaciones entre un conjunto de datos. Constituye un diagrama que organiza y representa informacin. Tiene el propsito principal de comunicar informacin visualmente. Por esta razn, se usa en los peridicos, revistas, comercio, y otros, alrededor del mundo. Hay ocasiones en que una informacin puede ser muy compleja para entender y necesita una ilustracin. Otras veces, una grfica ayuda a impresionar a la gente porque permite presentar un punto de vista en forma rpida y visual.
Hay muchos tipos de grficas; algunas son fciles de entender, mientras otras pueden ser engaosas. Cada tipo de grfica tiene su uso especfico. La utilizacin de un determinado tipo de grfica depende de la naturaleza de los datos y el propsito para el cual se dibuja la misma.
El diagrama de caja y bigotes es un tipo de grfica de uso reciente. Tambin se le conoce como diagrama o grfica de caja y patillas o simplemente grfica de caja. Fue creada por John W. Tukey, en 1977.
Algunas formas de describirla son las siguientes: - Mtodo fcil para presentar visualmente la mediana, los cuartiles y los valores extremos. - Es una combinacin pictrica de medidas de dispersin. - Es una representacin visual de cmo se distribuyen los datos y cunta variacin tienen. - Representacin que usa cinco nmeros para resumir los datos: cuartil 1, mediana, cuartil 3 y valor mnimo y valor mximo.
El siguiente diagrama indica las partes, los cinco nmeros y la escala numrica que estn presentes en una grfica de caja y bigotes.
VMI Q1 Med. Q3 VMA VMI = valor mnimo de los datos; el ms pequeo.
Q1 es el primer cuartil o cuartil inferior. El primer cuartil es el nmero tal que el 25% de los datos est bajo l. Divide la mitad inferior de los datos en dos partes iguales. La mediana (Med.) es una medida de tendencia central que divide los datos en dos partes iguales, es el centro, esto es, el 50% de los datos est sobre la mediana y el 50%, est debajo. Q3 es el tercer cuartil o cuartil superior. Es un nmero tal que el 75% de los datos est bajo l. Divide la mitad superior de los datos en dos partes iguales. VMA = valor mximo de los datos; el ms grande.
Para calcular la mediana, es necesario ordenar los datos, preferiblemente de menor a mayor. Si hay un nmero impar de datos, el dato del medio es la mediana. Si hay un nmero par de datos, entonces, la mediana es el promedio de los dos valores del medio.
Ejemplos:
1. 2, 4, 6, 8, 10, 12, 14. Como hay 7 datos, la mediana es el dato del medio, esto es, 8. 2. 2, 4, 6, 8, 10, 12. Como hay 6 datos, la mediana es 6 8 7 2 + = .
Los cuartiles son valores que dividen un conjunto de datos en cuatro partes iguales. Se usan a menudo Q1, Q2 y Q3 para representar los tres cuartiles, en los que Q2 es la mediana.
Ejemplo: Las edades de 11 personas son: 5, 8, 12, 15, 19, 21, 25, 28, 30, 33, 35.
5, 8, 12, 15, 19, 21, 25, 28, 30, 33, 35
La amplitud intercuartlica o rango intercuartil (RIC) de una serie de datos es la diferencia entre Q3 y Q1, esto es, RIC = Q3 Q1. Representa la mitad central o el 50% central de los datos. En el ejemplo anterior, RIC = 30 12 = 18. Esto significa que la mitad o el 50% de las edades de las personas no sobrepasan los 18 aos de la mediana, esto es, la mitad central de los datos vara por 18.
Un valor que es mucho ms grande o mucho ms pequeo que los otros, se conoce como valor atpico (outlier). Un valor atpico es un dato que est a por lo menos 1.5RIC sobre Q3 o bajo Q1. Q2 = Med. = 21 Q1 = 12 Q3 = 30 80 70 60 50 40 30 20 En nuestro ejemplo, todo valor que est sobre 30 + 1.5(18) = 57 o bajo 12 1.5(18) = - 15, es un valor atpico. Los valores atpicos se grafican como puntos aislados.
Ejemplo: Dibuja una grfica de caja y bigotes para los siguientes datos: 23, 27, 39, 46, 46, 51, 53, 54, 55, 60, 69, 81.
La med. = 51 53 52 2 + = , Q1 = 39 46 42.5 2 + = , Q3 = 55 60 57.5 2 + = y los valores extremos son 23 y 81. RIC = 57.5 42.5 = 15.
Para determinar valores atpicos, se calcula: 57.5 + 1.5(15) = 80 y 42.5 1.5(15) = 20. Como 81 > 80, es un valor atpico. La grfica es la siguiente:
Algunas ventajas de la grfica de caja y bigotes son:
- Es fcil de interpretar y visualizar.
- Es til para comparar una misma variable para grupos diferentes.
- No presenta un amontonamiento de todos los datos, esto es, no muestra todos los datos.
- Destaca solamente algunas caractersticas de los datos.
- No se hace ms complicada con mayor cantidad de datos.
- Es buena para visualizar los valores extremos y el alcance de los valores centrales.
Una desventaja de este tipo de grfica es que no es apropiado para pocos datos.
Las grficas de caja y bigotes se pueden dibujar usando una calculadora grfica, como la TI-83 Plus. A continuacin se ofrecen alguna ayuda para hacer esto.
1. Copia los datos en la lista L1.
2. Ordena los datos en forma ascendente. Oprima [LIST] ~ 1 L1 _.
3. Calcula cuartiles y mediana. Oprime ~ 1 L1 _. Observa que Med. = 11, Q1 = 9, Q3 = 14, VMI = 5 y VMA = 16.
4. Dibuja la grfica. Oprime [STAT PLOT]1 y haga las selecciones para obtener la Fig. 1. Luego, oprime u y debes obtener la Fig. 2.
Oprime y usa las teclas de flechas (~) para ver el valor mnimo, Q1, Med., Q3 y el valor mximo.
5. Para visualizar un posible valor atpico, aade el valor 35 a los datos anteriores. Oprima 35 . L1 s . Repite el paso # 4, pero selecciona el primer tipo de grfica de caja (Ve Fig. 3). La grfica que se obtiene ilustra que 25 es un valor atpico y se representa con un punto (Ve Fig. 4)
Referencias:
Tukey, J. W. (1977). Box-and-Whisker Plots. Explanatory Data Analysis. MA: Addison-Wesley, pp 39-43.