Está en la página 1de 11

Diagrama de cajas y datos atípicos

El diagrama de cajas es una representación gráfica de un conjunto de datos que


facilita la percepción visual de su localización, extensión y del grado y la dirección
del sesgo; también permite identificar datos atípicos. Es especialmente útil cuando
se desean comparar 2 ó más conjuntos de datos.

Pasos para construir un diagrama de caja:


1. Construir una escala de referencia horizontal o vertical

Escala de medida
de la variable

2. Calcular los cuartiles Q1, Q2 y Q3

3. Construir una caja o rectángulo sobre la escala usando como límites los
valores de Q1 y Q3. (el ancho es discrecional)

Q1 Q3

4. Dibujar la mediana (Q2) con una línea interior dentro de la caja

Q1 Q2 Q3

5. Calcular el rango intercuartil RI = Q3 – Q1.

6. Determinar los límites f1 y f2 a partir de los cuales se considera que un dato es


un valor atípico:

f1 = Q1 – 1,5*RI
f2 = Q3 + 1,5*RI
7. Determinar los límites F1 y F2 a partir de los cuales se considera que un dato
es un valor extremo:

F1 = Q1 – 2*(1,5*RI)
F2 = Q3 + 2*(1,5*RI)

8. Ubicar estos límites en el eje

F1 f1 Q1 Q2 Q3 f2 F2

9. Los datos que se encuentren entre los límites entre [F1 - f1] y/o entre [f2 - F2]
se consideran valores atípicos.

10. Los datos mayores que F2 y/o menores que F1 se consideran valores
extremos.

Valores Valores
Valores Valores
extremos atípicos
atípicos extremos

F1 f1 Q1 Q2 Q3 f2 F2

11. Si no hay valores atípicos ni extremos, se extiende una línea desde los
extremos de la caja hasta los valores máximo y mínimo de los datos, esta línea
se llama bigote.

F1 f1 mín Q1 Q2 Q3 máx f2 F2
12. Cuando hay valores atípicos y/o extremos, los bigotes se extienden hasta el
valor menor más cercano a f1 y el valor mayor más cercano a f2. Los valores
atípicos se marcan con un círculo pequeño (○) y los valores extremos con un
asterisco (*), alineados con los bigotes. En el siguiente diagrama de caja se
observan 2 valores atípicos y un valor extremo:

F1 f1 Q1 Q2 Q3 f2 F2

13. La ubicación de la media se representa con una x

F1 f1 Q1 Q2 Q3 f2 F2

En general, un diagrama de caja se puede observar lo siguiente:

✓ El 50% de los datos estarán concentrados dentro de la caja, entre el


primer y tercer cuartil.

✓ La localización de la línea central de la caja, que es la mediana, es una


indicación de la forma de la distribución. Si la línea está descentrada,
sabremos que la distribución está sesgada en la dirección de extremo
más largo de la caja, así se indica en los siguientes 2 diagramas:

sesgo

F1 f1 Q1 Q2 Q3 f2 F2
sesgo

F1 f1 Q1 Q2 Q3 f2 F2

✓ Cuando se grafican 2 diagramas de caja sobre el mismo eje se puede


hacer una comparación visual de la dispersión, el sesgo y la asimetría
entre los dos conjuntos de datos. Los valores de los cuartiles.

✓ Los cuartiles y valores límites para los datos atípicos y extremos no se


marcan en el eje, esto se hizo como un medio didáctico.

Ejemplo 1: Observemos los siguientes diagramas de caja:

Grupo II

Grupo I

• El grupo II es más simétrico y menos disperso (o más homogéneo) que


el grupo I, pues la barra central de la mediana está en el centro, los
bigotes tienen aproximadamente la misma longitud y la media y la
mediana coinciden en su valor. Estas son las características visuales
más representativas de una distribución simétrica.

• El grupo I es más disperso que el grupo II, esto se observa por su caja
que es más larga; por otro lado, presenta un sesgo a la izquierda y un
valor atípico y otro extremo también la izquierda, lo que influye sobre
la media colocándola a la izquierda de la mediana.
Tratamiento de los valores atípicos

Puede demostrarse que si los datos vienen de una distribución normal (simétrica)
sólo 7 valores de 1.000 caerán en las zonas entre f1 y F1 ó f2 y F2. Puesto que estos
valores son muy inusuales o poco probables, se consideran datos atípicos.

Los datos atípicos deben tratarse con cuidado, pues como se sabe su presencia tiene
un impacto crucial sobre los estadísticos como la media, la varianza, la desviación
típica y el rango, es decir, sobre medidas usuales de tendencia central y dispersión.

Cuando se encuentra un dato atípico deberá considerarse su origen,


¿es un dato legítimo cuyo valor, inusualmente, es grande o pequeño?
¿es un valor mal registrado?
¿es el resultado de un error o accidente en la experimentación?

En los dos últimos casos puede borrarse el punto del conjunto de datos y
completarse el análisis con los datos restantes. En el primer caso se sugiere que se
dé a conocer la presencia del dato atípico y se calculen los estadísticos con y sin el
dato atípico. De esta forma el investigador, que es el experto en la materia, puede
tomar la decisión de incluir o no el dato atípico en futuros análisis.

Ejemplo 2. A continuación se muestran las edades de un grupo de pacientes en un


día de consulta en de la unidad de nefrología de cierto hospital. Hacer el diagrama
de caja para los datos.

20 50 55 58 59 60 62 63 65 68 75

Calculamos los cuartiles y los límites para valores atípicos y extremos, así:

Q1 = 55; Q2= 60; Q3= 65; RI =10

f1 = Q1 - 1,5*RI = 55 +1,5*10 = 40 F1 = Q1 - 2*(1,5*RI) = 55 +3*10 = 25


f2 = Q3 + 1,5*RI = 65 +1,5*10 = 80 F2 = Q3 + 2*(1,5*RI) = 65 +3*30 = 95

Valores atípicos
Datos entre F1 y f1 entre 25 y 40: No hay datos
Datos entre f2 y F2 entre 80 y 95: No hay datos
Valores extremos
Datos menores que F1 menor que 25: hay 1 dato: 20
Datos mayores que F2 mayor que 95: no hay datos

Hay un paciente de 20 años en la consulta de nefrología, esto representa un valor


extremo para este grupo particular de datos, es decir, de edades en este grupo de
pacientes, por lo tanto, el bigote izquierdo se extiende hasta el valor más cercano a
f1, esto es 50 y el bigote derecho hasta el valor máximo de los datos que es 75, pues
a la derecha no hay valores atípicos ni extremos.

La media es 56,8 y se marca a la izquierda de la mediana, esto era de esperarse pues


los datos están sesgados a la izquierda.

El diagrama de caja para la edad del grupo de pacientes de la consulta de nefrología


se muestra a continuación:

* X Edad

20 25 30 35 40 45 50 55 60 65 70 75 80 85 95
F1 f1 f2 F2

En los paquetes (programas) estadísticos el diagrama de caja suele presentarse con


el eje de datos en forma vertical. A continuación, se muestra la gráfica obtenida con
el programa Excel para el ejemplo anterior, observe que el valor extremo en este
programa es simbolizado por un pequeño círculo (◦) en lugar de un asterisco (*).
Ejemplo 3.

En un estudio de la eficacia de 2 medicamentos para la diabetes tipo II se


tomaron 16 pacientes diabéticos en condiciones similares, se dividieron en 2
grupos al azar y a cada uno se le administró un tratamiento distinto, al primer
grupo el tratamiento I y al segundo grupo el tratamiento II. Al cabo de 1 mes
de tratamiento se les tomaron muestras de sangre y se midió la glicemia, los
resultados se muestran en la tabla 1. Se pide comparar los 2 grupos de
tratamiento mediante los diagramas de caja:

Tabla 1. Glicemia en sangre (mg/dl) en 2 grupos pacientes diabéticos tipo II


medicados con 2 tratamientos concentraciones distintas de metformina
Tratamiento I 90 95 77 98 100 110 120 130
Tratamiento II 90 100 102 110 115 120 140 200

Para el grupo del tratamiento I:

Q1 = 96; Q2= 99; Q3= 115; RI =11

f1 = Q1 - 1,5*RI = 96 +1,5*11 = 79,5


f2 = Q3 + 1,5*RI = 115 +1,5*11 = 131,5

F1 = Q1 - 2*(1,5*RI) = 96 +3*11 = 63
F2 = Q3 + 2*(1,5*RI) = 115 +3*11 = 148

𝑋̅1 = 105

Valores atípicos
Datos entre F1 y f1 entre 63 y 79,5: No hay datos
Datos entre f2 y F2 entre 131,5 y 148: No hay datos

Valores extremos
Datos menores que F1 menor que 63: no hay datos
Datos mayores que F2 mayor que 140: no hay datos
Como no hay valores atípicos ni extremos, el bigote izquierdo se extiende
hasta el valor mínimo de los datos 90; y el bigote derecho se extiende hasta el
máximo de los datos 130, el diagrama queda entonces así:

Tratamiento I X

20 40 60 80 100 120 140 160 180 200 220

En el diagrama se observa un sesgo de los datos hacia la derecha

Para el grupo del tratamiento II:

Q1 = 101; Q2= 113; Q3= 130; RI = 29

f1 = Q1 - 1,5*RI = 101 +1,5*29 = 57,5


f2 = Q3 + 1,5*RI = 130 +1,5*29 = 173,5

F1 = Q1 - 2*(1,5*RI) = 101 +3*29 = 14


F2 = Q3 + 2*(1,5*RI) = 130 +3*29 = 217

𝑋̅1 = 122

Valores atípicos
Datos entre F1 y f1 entre 14 y 57,5: No hay datos
Datos entre f2 y F2 entre 173,5 y 217: hay 1 dato: 200

Valores extremos
Datos menores que F1 menor que 14: No hay datos
Datos mayores que F2 mayor que 217: No hay datos

Tenemos un valor atípico: 200 significa que, para la población a la que pertenece este
grupo de pacientes, este nivel de glicemia se considera un valor poco probable. Se
recomienda entonces calcular la media y la desviación típica con y sin este valor para
decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al
paciente y de ser un dato real reconsiderar su tratamiento, pues su nivel de glicemia
está muy elevado con respecto al rango normal de 80-110 mg/dl.
Como hay sólo un dato atípico a la derecha, el bigote izquierdo se extiende hasta el
valor mínimo de los datos que es 90; y el bigote derecho se extiende hasta el máximo
de los datos que sea menor a F2, esto es el dato 140.

Vamos a graficar este diagrama de caja sobre el anterior para comparar los 2
tratamientos, así tenemos entonces en siguiente diagrama:


Tratamiento II X

Tratamiento I X

20 40 60 80 100 120 140 160 180 200 220

En el tratamiento II se observa una mayor dispersión de los datos, pues la caja es


más larga; sin embargo, la caja es más simétrica que la del tratamiento I, aunque la
media no coincide con la mediana pues se ve muy afectada por el valor atípico de
glicemia de 200. Considerando el rango normal de glicemia ¿Qué opinión le merece
estos dos tratamientos?

Vamos a mostrar el diagrama de caja dado por el Excel (el eje de datos es vertical):

En el Excel se utiliza otra fórmula particular más complicada para calcular los
cuartiles que la de la mediana para los dos grupos de datos vista en clase. Cuando n
es par, esta fórmula hace una interpolación de los datos que están al lado de la
posición de un cuartil particular Qj según la distancia que separe al este par de datos
y la posición i calculada del cuartil j. Como vimos un cuartil Qj en particular es un
valor que garantiza que el j% de los datos estarán por debajo de él, esa es la única
restricción, por eso existen varias formas de calcularlo. En este ejemplo en particular,
si calculamos los cuartiles con el Excel usando la función “QUARTILE:EXC”
obtendremos los siguientes resultados:

"QUARLE.EXC" Tratamiento I Tratamiento II


Q1 95,5 100,5
Q2 99 112,5
Q3 117,5 135
RI 22 34,5

Si observamos con detalle el gráfico de caja generado por el Excel observaremos que
cada caja está limitada por estos valores particulares de Q1 y Q2, quedando
ligeramente desplazada con respecto a los valores de los cuartiles obtenidos con la
fórmula de la mediana vista en clase. Esto no representa un problema siempre y
cuando se utilice el mismo método para calcular los cuartiles en todas las cajas en
un problema en particular y el resultado del análisis es el mismo.

Los dos grupos de pacientes provienen de una misma población de pacientes


diabetes tipo 2; sin embargo, cuando se dividen en 2 grupos y se cada grupo a un
tratamiento en particular por un período de tiempo, el análisis teórico en principio
es como si pertenecieran a 2 poblaciones distintas una son los pacientes con el
tratamiento I y la otra son los pacientes con el tratamiento II.

El valor atípico de 200 significa que, para la población a la que pertenece el grupo de
pacientes del tratamiento II, este nivel de glicemia se considera un valor poco
probable. Se recomienda entonces calcular la media y la desviación típica con y sin
este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se
debe revisar al paciente con el dato atípico y de ser un dato real en este caso
reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con
respecto al rango normal de 80-110 mg/dl. Los cálculos de la media y la desviación
típica se muestran en la siguiente tabla:
Tratamiento II
con el valor atípico 200 sin el valor atípico 200
media 122 111
desv tip 33 15

Observamos que al eliminar el valor atípico la media de glicemia del grupo II baja
hasta un valor considerado normal, por ende, la desviación típica también se reduce.
Queda la decisión de eliminar o no este dato en futuros análisis en manos de los
expertos. En este caso por ser un ejemplo didáctico no contamos con suficientes
datos para tomar decisiones estadísticas sobre la efectividad de los tratamientos.

Bibliografía

Milton, Susan. Estadística para Ciencias de la Salud

También podría gustarte