Está en la página 1de 7

DIAGRAMA DE CAJA

Un diagrama
de
caja o diagrama
de
caja
y
bigotes o box plot, es un diagrama que muestra una
representacin grfica de la distribucin de datos,
sealando donde caen la mayora de los valores y los
valores que difieren considerablemente de la norma
(valores atpicos).
Es un grfico que suministra informacin sobre los valores
mnimo y mximo, los cuartiles Q1, Q2 o mediana y Q3, y
sobre la existencia de valores atpicos y la simetra de la
distribucin. Primero es necesario encontrar la mediana
para luego encontrar los 2 cuartiles restantes
Cmo expresarlo grficamente
+-----+-+
*

|-----------|

| |---|

+-----+-+
+---+---+---+---+---+---+---+---+---+---+---+---+
0

10

12

Ordenar los datos y obtener el valor mnimo, el mximo, los


cuartiles Q1, Q2 y Q3 y el Rango Inter Cuartilico (RIC)
En el ejemplo, para trazar la caja:
Valor 7: es el Q1 (25% de los datos)
Valor 8.5: es el Q2 o mediana (el 50% de los datos)
Valor 9: es el Q3 (75% de los datos)
Rango Inter Cuartilico RIC (Q3-Q1)

DIAGRAMA DE CAJA

ESTADISTICA I

Los bigotes, las lneas que se extienden desde la caja, se


extienden hasta los valores mximo y mnimo de la la serie
o hasta 1.5 veces el RIC.
Cuando los datos se extienden ms all de esto, significa
que hay valores atpicos en la serie y entonces hay que
calcular los lmites superior e inferior, Li y Ls.
Para ello, se consideran atpicos los valores son aquellos
inferiores a Q1-1.5*RIC o superiores a Q3+1.5*RIC.
En el ejemplo:
inferior: 7-1.5*2=4
superior: 9+1.5*2=12
Ahora se buscan los ltimos valores que NO son atpicos,
que sern los extremos de los bigotes.
En el ejemplo: 4 y 10
Marcar como atpicos todos los datos que estn fuera del
intervalo (Li, Ls).
En el ejemplo: 0.5 y 2.5
Adems, se pueden considerar valores extremadamente
atpicos aquellos que exceden Q1-3*RIC o Q3+3*RIC.
De modo que, en el ejemplo:
inferior: 7-3*2=1
superior: 9+3*2=15
Utilidad
Proporcionan una visin general de la simetra de la
distribucin de los datos; si la mediana no est en el centro
del rectngulo, la distribucin no es simtrica.
DIAGRAMA DE CAJA

ESTADISTICA I

Son tiles para ver la presencia de valores atpicos tambin


llamados outliers.
Pertenece a las herramientas de las estadstica descriptiva.
Permite ver como es la dispersin de los puntos con la
mediana, los percentiles 25 y 75 y los valores mximos y
mnimos.
Elementos de los diagramas de caja
El lado inferior del rectngulo representa el primer cuartil, y
el lado superior, el tercer cuartil. En consecuencia, la altura
de la caja representa el rango intercuartilico.
La lnea horizontal a travs de la caja es la mediana.
Las lneas verticales que sobresalen de la caja, el 'bigotes',
se extienden, respectivamente, hasta al mnimo y el
massimo del conjunto de datos, siempre que estos valores
no difieren de la media de ms de una vez y media el rango
intercuartlico. Los extremos de los bigotes estn marcados
por dos lneas horizontales cortas.
Los valores, indicados por puntos, respectivamente, por
debajo y por encima de los bigotes inferior y superior se
consideran valores atpicos.
Construccin:
Una grfica de este tipo consiste en una caja rectangular,
donde los lados ms largos muestran elrecorrido
intercuartlico. Este rectngulo est dividido por un
segmento vertical que indica donde se posiciona la
mediana y por lo tanto su relacin con los cuartiles primero
y tercero(recordemos que el segundo cuartil coincide con la
mediana).
Esta caja se ubica a escala sobre un segmento que tiene
como extremos los valores mnimo y mximo de la variable.
Las lineas que sobresalen de la caja se llaman bigotes.
Estos bigotes tienen tienen un lmite de prolongacin, de

DIAGRAMA DE CAJA

ESTADISTICA I

modo que cualquier dato o caso que no se encuentre dentro


de este rango es marcado e identificado individualmente
EJEMPLO DISTRIBUCIN DE EDADES
Utilizamos la ya usada distribucin de frecuencias (en tallos
y hojas), que representan la edad de un colectivo de 20
personas.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40

ORDENAR LOS DATOS


Para calcular los parmetros estadstico, lo primero es
ordenar la distribucin
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39
40 40 41 45
CALCULO DE CUARTILES
Q1, el cuartil Primero es el valor mayor que el 25% de los
valores de la distribucin. Como N = 20 resulta que N/4 = 5;
el primer cuartil es la media aritmtica de dicho valor y el
siguiente:
Q1=(24 + 25) / 2 = 24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la
distribucin, es el valor de la variable que ocupa el lugar
central en un conjunto de datos ordenados. Como N/2 =10 ;
la mediana es la media aritmtica de dicho valor y el
siguiente:
me= Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de
los valores de la distribucin. En nuestro caso, como 3N / 4
= 15, resulta
DIAGRAMA DE CAJA

ESTADISTICA I

Q2=(39 + 39) / 2 = 39
DIBUJAR LA CAJA Y LOS BIGOTES

El bigote de la izquierda representa al colectivo de edades (


Xmn, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmx).

INFORMACIN DEL DIAGRAMA


Podemos obtener abundante informacin de una
distribucin a partir de estas representaciones. Veamos
alguna:
La parte izquierda de la caja es mayor que la de la
derecha;
ello
quiere
decir
que
las
edades
comprendidas entre el 25% y el 50% de la poblacin
est ms dispersa que entre el 50% y el 75%.
El bigote de la izquierda (Xmm, Q1) es ms corto que
el de la derecha; por ello el 25% de los ms jvenes
estn ms concentrados que el 25% de los mayores.
El rango intercuartlico = Q3 - Q1 = 14,5; es decir, el
50% de la poblacin est comprendido en 14,5 aos.
Seguro que t podrs obtener ms informacin (Utiliza la
mediana!)
Comparar distribuciones

DIAGRAMA DE CAJA

ESTADISTICA I

La mayor utilidad de los diagramas caja-bigotes es para


comparar dos o ms conjuntos de datos.
Comparacin distribucin de edades
Comparacin entrenamientos de un corredor
Comparacin clasificacin liga
COMPARACIN DISTRIBUCIN DE EDADES
Anlogamente a lo realizado con los diagramas de tallo y
hojas, comparamos, mediante estos diagramas, esta
distribucin con la del otro ejemplo de distribucin de
edades.
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22

A partir de dicha comparacin puede obtenerse bastante


informacin de ambas distribuciones.
COMPARACIN ENTRENAMIENTOS DE UN CORREDOR
Un corredor entrena para una determinada carrera y se
toman los tiempos que necesita para recorrer los 200 m,
durante 10 das consecutivos (cada da se toman varios
tiempos y se calculan mediana, cuartiles, valores mnimo y
mximo)

DIAGRAMA DE CAJA

ESTADISTICA I

Observamos que el desplazamiento de las grficas de caja


hacia la izquierda indica que el entrenamiento ha dado
resultado, ya que se tardan menos segundos en recorrer la
misma distancia, siendo la diferencia entre el mximo y el
mnimo menor, como as tambin la diferencia
intercuartlica.

DIAGRAMA DE CAJA

ESTADISTICA I

También podría gustarte