Está en la página 1de 3

Diagrama de Caja o Boxplot

Un diagrama de caja es un grfico, basado en cuartiles, mediante el cual se visualiza un


conjunto de datos. Est compuesto por un rectngulo, la "caja", y dos brazos, los
"bigotes".
Es un grfico que suministra informacin sobre los valores mnimo y mximo, los
cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atpicos y la simetra

de la distribucin.

Es la representacin grfica, basada en cuartiles, que ayuda a exhibir un conjunto de


datos. Para construir un diagrama de caja, solo se necesita cinco estadsticos: el valor
mnimo, Q1 (cuartel 1), la mediana, Q3 (cuartel 3) y el valor mximo.

Proporcionan una visin general de la simetra de la distribucin de los datos; si la


mediana no est en el centro del rectngulo, la distribucin no es simtrica. Son tiles
para ver la presencia de valores atpicos.

En 1977 John Tukey (citado por Hildebrand, 1997) public un tipo de grfico
estadstico para resumir informacin utilizando 5 medidas estadsticas: el valor mnimo,
el primer cuartil, la mediana, el tercer cuartil y el valor mximo. Este tipo de grfico
recibe el nombre de grfico de caja (boxplot).
Un grfico de este tipo consiste en un rectngulo (caja), donde los lados ms largos
muestran el recorrido intercuartlico (RIC). Este rectngulo est dividido por un
segmento vertical que indica donde se posiciona la mediana y por lo tanto su relacin
con los cuartiles primero y tercero ( recordemos que el segundo cuartil coincide con la
mediana).
Este rectngulo se ubica a escala sobre un segmento que tiene como extremos los
valores mnimo y mximo de la variable. Estos segmentos que quedan a izquierda y a
derecha de la caja se llaman bigotes. ( Freund, Williams y Perles, 1992).

Tomemos un ejemplo: (Grfico 1)


La variable medida en este caso es : tiempo en segundos para recorrer 100 m

Mediana
Primer cuartil Tercer cuartil
Valor mnimo de la variable Valor mximo de la variable
Los bigotes tienen un lmite de prolongacin, de modo que aquellos valores atpicos que
se separan del cuerpo principal de datos se indican individualmente. A diferencia de
otros mtodos de presentacin de datos, los grficos de caja muestran los valores
atpicos de la variable. Llamaremos valores atpicos de la variable a aquellos que estn
tan apartados del cuerpo principal de los datos que bien pueden representar los efectos
de causas extraas, como algn error de medicin o registro. Su eliminacin no se
justifica, ya que el propsito del grfico de caja consiste en brindarnos un mayor
conocimiento de la forma en que se distribuyen los datos.
Tukey ( citado por Hildebrand, 1997) introduce un criterio para fijar los extremos de los
bigotes. Para esto calcula 4 barreras, dos interiores y dos exteriores:
Barrera interior inferior=Primer cuartil 1,5 . RIC
Barrera interior superior=Tercer cuartil + 1,5 . RIC
Barrera exterior inferior=Primer cuartil 3 . RIC
Barrera exterior superior=Tercer cuartil + 3 . RIC
Recordemos que RIC (Recorrido Intercuartlico) es igual a la diferencia entre el Tercer
cuartil y el Primero.
Si se consideran los valores de la variable comprendidos entre las dos barreras
interiores, el valor mnimo de la variable y el valor mximo son los extremos de los
bigotes.
Si existen valores de la variable comprendidos entre las barreras interiores y exteriores
se consideran valores atpicos y se indican con *. Si existieren valores fuera de las
barreras exteriores se consideran valores todava ms atpicos y se indican con .
Por otra parte, este tipo de grfico nos proporciona informacin con respecto a la
simetra o asimetra de la distribucin. Se utilizan los siguientes criterios: si la mediana
est en el centro de la caja o cerca de l, constituye un indicio de simetra de los datos,
si la mediana est considerablemente ms cerca del primer cuartil indica que los datos
son positivamente asimtricos y si est ms cerca del tercer cuartil, seala que los datos
son negativamente asimtricos. Asimismo, la longitud relativa de los bigotes se puede
emplear como un indicio de su asimetra.
Una vez realizado el grfico, qu tipo de preguntas debemos formular para una mejor
comprensin?
Algunas preguntas podran ser las siguientes:

Qu porcentaje de los datos est representado por la caja?


Qu porcentaje representa cada uno de los bigotes?
Puede ser un bigote ms largo que otro?. Cul es el significado?
Se encuentra la mediana siempre en el centro de la caja?

Ejemplo
Dominos Pizza ofrece entregas gratuitas de pizza a 15 km a la redonda. Ral el
propietario, desea informacin relacionada con el tiempo de entrega. Cunto tiempo
tarda una entrega tpica?. En que margen de tiempos deben completarse la mayora de
las entregas?. En el caso de una muestra de 20 entregas, Ral recopil la siguiente
informacin:
Valor mnimo = 13 min.
Cuartil 1 = 15 min.
Mediana = 18 min.
Cuartil 3 = 22 min.
Valor mximo = 30 min.
Elabore un diagrama de caja para los tiempos de entrega. Qu conclusiones deduce
sobre los tiempos de entrega?
El primer paso para elaborar un diagrama de caja consiste en crear una escala adecuada
a lo largo del eje horizontal. Enseguida, dibujamos una caja que inicie en Q1 (15 min) y
termine Q3 (22 min). Dentro de la caja trazamos una lnea vertical para representar a la
mediana (18 min). Por ltimo, prolongamos lneas horizontales a partir de la caja
dirigidas al valor mnimo (13 min) y al valor mximo (30 min). Estas lneas
horizontales que salen de la caja, a veces reciben e nombre de bigotes, en virtud de que
se asemejan a los bigotes de un gato.

El Diagrama de caja muestra que el valor medio de las entregas, 50%, consume entre 15
y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el rango
intercuartil. Este rango es la distancia entre el primer y tercer cuartel; muestra la
propagacin o dispersin de la mayora de las entregas.
Cul es la importancia entonces del uso de los grficos de caja?
En particular, los grficos de caja vinculan los conceptos de mediana, cuartiles, valor
mnimo y mximo que los alumnos manejan individualmente pero no en forma global.

También podría gustarte