Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Escala de medida
de la variable
3. Construir una caja o rectángulo sobre la escala usando como límites los
valores de Q1 y Q3. (el ancho es discrecional)
Q1 Q3
Q1 Q2 Q3
f1 = Q1 – 1,5*RI
f2 = Q3 + 1,5*RI
7. Determinar los límites F1 y F2 a partir de los cuales se considera que un dato
es un valor extremo:
F1 = Q1 – 2*(1,5*RI)
F2 = Q3 + 2*(1,5*RI)
F1 f1 Q1 Q2 Q3 f2 F2
9. Los datos que se encuentren entre los límites entre [F1 - f1] y/o entre [f2 - F2]
se consideran valores atípicos.
10. Los datos mayores que F2 y/o menores que F1 se consideran valores
extremos.
Valores Valores
Valores Valores
extremos atípicos
atípicos extremos
F1 f1 Q1 Q2 Q3 f2 F2
11. Si no hay valores atípicos ni extremos, se extiende una línea desde los
extremos de la caja hasta los valores máximo y mínimo de los datos, esta línea
se llama bigote.
F1 f1 mín Q1 Q2 Q3 máx f2 F2
12. Cuando hay valores atípicos y/o extremos, los bigotes se extienden hasta el
valor menor más cercano a f1 y el valor mayor más cercano a f2. Los valores
atípicos se marcan con un círculo pequeño (○) y los valores extremos con un
asterisco (*), alineados con los bigotes. En el siguiente diagrama de caja se
observan 2 valores atípicos y un valor extremo:
F1 f1 Q1 Q2 Q3 f2 F2
F1 f1 Q1 Q2 Q3 f2 F2
sesgo
F1 f1 Q1 Q2 Q3 f2 F2
sesgo
F1 f1 Q1 Q2 Q3 f2 F2
Grupo II
Grupo I
• El grupo I es más disperso que el grupo II, esto se observa por su caja
que es más larga; por otro lado, presenta un sesgo a la izquierda y un
valor atípico y otro extremo también la izquierda, lo que influye sobre
la media colocándola a la izquierda de la mediana.
Tratamiento de los valores atípicos
Puede demostrarse que si los datos vienen de una distribución normal (simétrica)
sólo 7 valores de 1.000 caerán en las zonas entre f1 y F1 ó f2 y F2. Puesto que estos
valores son muy inusuales o poco probables, se consideran datos atípicos.
Los datos atípicos deben tratarse con cuidado, pues como se sabe su presencia tiene
un impacto crucial sobre los estadísticos como la media, la varianza, la desviación
típica y el rango, es decir, sobre medidas usuales de tendencia central y dispersión.
En los dos últimos casos puede borrarse el punto del conjunto de datos y
completarse el análisis con los datos restantes. En el primer caso se sugiere que se
dé a conocer la presencia del dato atípico y se calculen los estadísticos con y sin el
dato atípico. De esta forma el investigador, que es el experto en la materia, puede
tomar la decisión de incluir o no el dato atípico en futuros análisis.
20 50 55 58 59 60 62 63 65 68 75
Calculamos los cuartiles y los límites para valores atípicos y extremos, así:
Valores atípicos
Datos entre F1 y f1 entre 25 y 40: No hay datos
Datos entre f2 y F2 entre 80 y 95: No hay datos
Valores extremos
Datos menores que F1 menor que 25: hay 1 dato: 20
Datos mayores que F2 mayor que 95: no hay datos
* X Edad
20 25 30 35 40 45 50 55 60 65 70 75 80 85 95
F1 f1 f2 F2
F1 = Q1 - 2*(1,5*RI) = 96 +3*11 = 63
F2 = Q3 + 2*(1,5*RI) = 115 +3*11 = 148
𝑋̅1 = 105
Valores atípicos
Datos entre F1 y f1 entre 63 y 79,5: No hay datos
Datos entre f2 y F2 entre 131,5 y 148: No hay datos
Valores extremos
Datos menores que F1 menor que 63: no hay datos
Datos mayores que F2 mayor que 140: no hay datos
Como no hay valores atípicos ni extremos, el bigote izquierdo se extiende
hasta el valor mínimo de los datos 90; y el bigote derecho se extiende hasta el
máximo de los datos 130, el diagrama queda entonces así:
Tratamiento I X
𝑋̅1 = 122
Valores atípicos
Datos entre F1 y f1 entre 14 y 57,5: No hay datos
Datos entre f2 y F2 entre 173,5 y 217: hay 1 dato: 200
Valores extremos
Datos menores que F1 menor que 14: No hay datos
Datos mayores que F2 mayor que 217: No hay datos
Tenemos un valor atípico: 200 significa que, para la población a la que pertenece este
grupo de pacientes, este nivel de glicemia se considera un valor poco probable. Se
recomienda entonces calcular la media y la desviación típica con y sin este valor para
decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al
paciente y de ser un dato real reconsiderar su tratamiento, pues su nivel de glicemia
está muy elevado con respecto al rango normal de 80-110 mg/dl.
Como hay sólo un dato atípico a la derecha, el bigote izquierdo se extiende hasta el
valor mínimo de los datos que es 90; y el bigote derecho se extiende hasta el máximo
de los datos que sea menor a F2, esto es el dato 140.
Vamos a graficar este diagrama de caja sobre el anterior para comparar los 2
tratamientos, así tenemos entonces en siguiente diagrama:
○
Tratamiento II X
Tratamiento I X
Vamos a mostrar el diagrama de caja dado por el Excel (el eje de datos es vertical):
En el Excel se utiliza otra fórmula particular más complicada para calcular los
cuartiles que la de la mediana para los dos grupos de datos vista en clase. Cuando n
es par, esta fórmula hace una interpolación de los datos que están al lado de la
posición de un cuartil particular Qj según la distancia que separe al este par de datos
y la posición i calculada del cuartil j. Como vimos un cuartil Qj en particular es un
valor que garantiza que el j% de los datos estarán por debajo de él, esa es la única
restricción, por eso existen varias formas de calcularlo. En este ejemplo en particular,
si calculamos los cuartiles con el Excel usando la función “QUARTILE:EXC”
obtendremos los siguientes resultados:
Si observamos con detalle el gráfico de caja generado por el Excel observaremos que
cada caja está limitada por estos valores particulares de Q1 y Q2, quedando
ligeramente desplazada con respecto a los valores de los cuartiles obtenidos con la
fórmula de la mediana vista en clase. Esto no representa un problema siempre y
cuando se utilice el mismo método para calcular los cuartiles en todas las cajas en
un problema en particular y el resultado del análisis es el mismo.
El valor atípico de 200 significa que, para la población a la que pertenece el grupo de
pacientes del tratamiento II, este nivel de glicemia se considera un valor poco
probable. Se recomienda entonces calcular la media y la desviación típica con y sin
este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se
debe revisar al paciente con el dato atípico y de ser un dato real en este caso
reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con
respecto al rango normal de 80-110 mg/dl. Los cálculos de la media y la desviación
típica se muestran en la siguiente tabla:
Tratamiento II
con el valor atípico 200 sin el valor atípico 200
media 122 111
desv tip 33 15
Observamos que al eliminar el valor atípico la media de glicemia del grupo II baja
hasta un valor considerado normal, por ende, la desviación típica también se reduce.
Queda la decisión de eliminar o no este dato en futuros análisis en manos de los
expertos. En este caso por ser un ejemplo didáctico no contamos con suficientes
datos para tomar decisiones estadísticas sobre la efectividad de los tratamientos.
Bibliografía