Está en la página 1de 21

Unidad 1:

Tema 1.9 Gráfica de caja


INICIO
Identificando valores atípicos
• La ciencia de datos tiene como objetivo extraer información de los datos a través de diferentes herramientas de la estadística y las
matemáticas. Sin embargo, en muchas situaciones la colección primaria de datos con la que se trabaja en ciencia de datos esta fuera
del alcance que tiene esta disciplina.

• En muchas situaciones prácticas de adquisición de datos hay errores en la captura de información que pueden ser inherentes al
instrumento de medición o simplemente situaciones fortuitas que producen datos atípicos dentro de un conjunto de datos esperado.

• Cuando se recogen datos cuantitativos a través de instrumentos escritos, puede haber errores en la escritura que produzcan valores
atípicos que entran al conjunto de datos a analizar.

• En algunas circunstancias los valores atípicos son evidentes como en el ejercicio de las medidas de tendencia central en el que se
supuso que una persona incrementaba considerablemente su estatura a 340 cm. Este es evidentemente un dato atípico, por lo que se
concluye que, si el instrumento de medición fue registrado o copiado a mano, se puede atribuir a un error humano.
Identificando valores atípicos
• En otras circunstancias, viendo una gráfica de la recolección de datos no es tan fácil
diferenciar si algunos datos son valores atípicos o no.

Supongamos que se está Típicamente una señal de este Es difícil saber a simple vista de la
midiendo una señal de una estilo mide frecuencias de la gráfica si los valores con
transmisión de televisión digital señal en el eje de las abscisas e intensidad de campo eléctrico en
terrestre. intensidad de campo eléctrico en 20 o 30 dBuV/m son valores
el eje de las ordenadas, como se atípicos o no.
muestra en la siguiente imagen
ilustrativa.
Identificando valores atípicos
• Calcular la media aritmética y la mediana no sería en muchos casos una respuesta concluyente porque los valores son muy parecidos.
• Tomar algunos valores de la intensidad de campo eléctrico de la siguiente tabla y calcular la media y la mediana del conjunto de datos.
• Preguntar: ¿A partir del cálculo de las dos medidas de tendencia central se puede establecer si el dato de 30 dBuV/m es atípico o no?

Las dos medidas de tendencia central: Media = 15.31, Mediana= 14.5, presentan una diferencia = 0.8, no son muy
diferentes, por lo que es difícil discernir si es una dato atípico o no.

Esto no implica que las medidas de tendencia central no sirvan, sino que ciertas preguntas estadísticas requieren de
herramientas diferentes.
DESARROL
LO
La gráfica de caja o bigote ofrece una representación visual de los datos basada en
el resumen de cinco números.
• La línea vertical dibujada dentro de la caja representa a la mediana. La línea vertical a la izquierda de la caja representa la ubicación
del cuartil 1 (Q1) y la línea vertical a la derecha de la caja representa la ubicación del cuartil 3 (Q3). De esta forma, la caja contiene al
50% de los valores de la distribución. El 25% inferior de los datos se representa mediante una línea (es decir, un bigote) que une el
lado izquierdo de la caja con la ubicación del menor valor, (X menor). De la misma manera, el 25% superior de los datos se representa
mediante un bigote que une el lado derecho de la caja con la ubicación del valor mayor, (X mayor).
Cuartiles
• Los cuartiles dividen a un conjunto de datos en cuatro partes iguales: el primer cuartil Q1 separa al 25.0%, que abarca a los valores
más pequeños, del 75.0% restante, constituido por los que son mayores. El segundo cuartil Q2 es la mediana: 50.0% de sus valores
son menores que la mediana y 50.0% son mayores. El tercer cuartil Q3 separa al 25.0%, que abarca a los valores más grandes, del
75.0% restante constituido por los que son menores. Para calcular los cuartiles, se utilizan las siguientes reglas:

• Regla 1: Si el resultado es un número entero, entonces el cuartil es igual al valor clasificado. Por ejemplo, si el tamaño de la muestra
es n = 7, el primer cuartil Q1 es igual a (7 + l)/4 = segundo valor clasificado.

• Regla 2: Si el resultado es una fracción de mitad (2.5, 4.5, etcétera), entonces el cuartil es igual al promedio de los valores clasificados
correspondientes. Por ejemplo, si el tamaño de la muestra es n = 9, el primer cuartil Q1 es igual al valor clasificado como (9 + l)/4 =
2.5, la mitad entre los valores clasificados como segundo y tercero.

• Regla 3: Si el resultado no es un número entero ni una fracción de mitad, se redondea al entero más cercano y se selecciona ese valor
clasificado. Por ejemplo, si el tamaño de la muestra es n =10, el primer cuartil Q1 es igual a (10 + l)/4 = valor clasificado como 2.75.
Se redondea el 2.75 a 3 y se utiliza en valor clasificado como tercero.
Cuartiles
• La fórmula para obtener el valor del primer cuartil es la siguiente: Q1 (cuartil 1) = (( 𝑛+1))/4 =
• Al sustituir los valores se obtiene lo siguiente: Q1 (cuartil 1) = ((9+1))/4 = 2.5
• Por lo tanto, al utilizar la segunda regla, resulta que Q1 es el valor clasificado como 2.5, que está justo a la mitad entre los valores
clasificados como segundo y tercero. Como el valor clasificado como segundo es 39.2 y el tercero es 44.2, el primer cuartil Q1 es el
que está justo en medio de 39.2 y 44.2. De esta forma:
• Q1 (cuartil 1) = ((39.2 + 44.2))/2 = 41.7

Valor clasificado 37.3 39.2 44.2 44.5 53.8 56.6 59.3 62.4 66.5

Clasificación 1 2 3 4 5 6 7 8 9
Cuartiles
• Para encontrar el tercer cuartil Q3: Q3 (cuartil 3) = (3( 𝑛 + 1))/4 = Valor clasificado
• Al sustituir los valores se obtiene lo siguiente: Q3 (cuartil 3) = (3(9 + 1))/4 = 7.5
• Así, al utilizar la segunda regla, Q3 es el valor clasificado entre los valores séptimo y octavo. Como el valor clasificado como séptimo
es 59.3 y el octavo es 62.4, el tercer cuartil Q3 es el que está justo en medio de 59.3 y 62.4. De esta forma:
• Q3 (cuartil 3) = (59.3 + 62.4)/2 = 60.85

Valor clasificado 37.3 39.2 44.2 44.5 53.8 56.6 59.3 62.4 66.5

Clasificación 1 2 3 4 5 6 7 8 9
Ejemplo
• En este caso se tiene la edad de 14 personas de un grupo de amigos y se quiere construir una gráfica de bigote a partir de estos datos.

11 15 14 16 17 10 15
11 18 16 12 14 15 14
• Para ello se realizan las siguientes acciones.
• 1. Ordenar los datos de menor a mayor. Al organizar los datos se pueden obtener fácilmente dos valores; el valor mínimo (10) y el
valor máximo (18) que se encuentran en los extremos de la serie de números.

10 11 11 12 14 14 14 15 15 15 16 16 17 18
10 11 11 12 14 14 14 15 15 15 16 16 17 18

• Lo más sencillo es seguir el procedimiento con la ayuda del gráfico para realizar las operaciones.
• Lo mejor es obtener primero el valor del segundo cuartil que corresponde a la mediana de los datos, en este caso al ser un número de
datos par es necesario obtener el promedio de los dos números centrales (14.5).

• 3. Obtener dos divisiones, datos de la izquierda y datos de la derecha, al haber utilizado los datos centrales estos se descartan, del lado
izquierdo se obtiene el cuartil 1 al encontrar la media de esa fracción de los datos (11.5) y el cuartil 3 de los datos del lado derecho
(16).

10 11 11 12 14 14 14 15 15 15 16 16 17 18

• 4. El rango se obtiene al restar al valor máximo el valor mínimo (8) y el rango intercuartil, es decir, la distancia entre los dos extremos
de la caja que muestra la variabilidad del 50% de los datos, (entre menor sea la longitud de la caja menor será la variabilidad de los
datos). El valor intercuartil se conoce al restar el valor del primer cuartil al valor del tercero (16 - 11.5= 4.5).

• Una vez que se cuenta con todos los valores, se puede construir el gráfico:

• Valor mínimo= 10
Valor máximo = 18
• Mediana o cuartil 2 = 14.5
Cuartil 1 = 11.5
• Cuartil 3 = 16

• El primer cuartil contiene el 25% de los datos, el segundo el 50%, el tercero el 75% y el resto comprendería el 100% de los datos. La
posición de la mediana indica la simetría de los datos, si se encuentra justo en el centro de la caja, su valor será el mismo que el de la
media y la moda (distribución simétrica o en forma de campana).
• En caso de que se encuentre más cerca del cuartil uno se establece que los datos tienen una asimetría positiva (la media es mayor que
la mediana y la moda) y si están más cerca del cuartil 3 se establece una asimetría negativa (la media es menor que la mediana y la
moda).
Ejemplo
• Conocer la manera de interpretar una gráfica de bigotes es necesario para poder generar conclusiones. Es importante recordar que la
distribución de los datos permite hacer comparaciones e inferencias sobre una variable; por ejemplo, en tres restaurantes se ha
registrado el tiempo que tardan en entregar un mismo platillo a los comensales, y la distribución se muestra en la siguiente imagen:

Haciendo uso de la gráfica se puede responder una serie de


preguntas; primero, ¿Cuál restaurante muestra mayor rango de
tiempo de espera?, esta pregunta se responde al calcular el
rango de cada conjunto de datos: 

• Fórmula: Rango máximo – Rango mínimo= X


• Local 1: 10 - 6= 4
• Local 2: 12 - 6= 6
• Local 3: 17 - 7= 10

R: Se observa que el local 3 tiene el rango más amplio de


tiempo de espera, 6 minutos más que el local 1 y 4 más que el
local 2.
Ejemplo
• ¿Cuál restaurante minimiza el tiempo de espera?, esta pregunta
se responde al calcular el rango intercuartil de cada conjunto
de datos:

• Fórmula: Q3 – Q2
• Local 1: 9 - 7= 2
• Local 2: 10 – 7= 3
• Local 3: 14 – 9= 5

• R: Se observa que el rango intercuartil más pequeño


corresponde al local 1, también es apreciable a simple vista,
pues la caja es más corta.

Ejemplo
• Una última pregunta puede ser si se establece un tiempo
de espera de 8 minutos ¿Cuál local ofrece mejor servicio?
¿por qué?

• R: Se observa que la mediana del local 1 y 2 es la misma


(8 minutos); sin embargo, el local 1 muestra menor
variabilidad en los tiempos de entrega por lo que se
considera una mejor opción, pues en el peor de los casos
un cliente tendría que esperar dos minutos más, mientras
que en el local 2 su tiempo podría extenderse hasta 4
minutos más.
Ejemplo
CIERRE
Cuartileando
• Conformar dos equipos de manera equitativa.
• Escribir la edad de cada miembro del equipo 1.
• Escribir la estatura de cada miembro del equipo 2.
• Realizar la gráfica de caja o bigotes con los datos obtenidos (las gráficas deben contar con los siguientes elementos y datos: Rango,
valor mínimo, valor máximo, cuartil 1, cuartil 2 o mediana, cuartil 3, regla numérica y rango intercuartil respetando el diseño del
gráfico).
• Dibujar la gráfica en el piso.
• Acomodarse en la gráfica en el cuartil que corresponda a cada miembro del equipo.
• Definir quienes son los valores atípicos.
• Escribir las conclusiones y compartirlas con el grupo
• Nota: Gana el equipo que elabore e interprete primero su gráfica correctamente.
Cuartileando

Cuartil 1 Cuartil 2 Cuartil 3 Valor mínimo Valor máximo

10.25 30.75 Mediana


152 170
155 165 161.5

Dato 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Eda 1
d 152 152 153 153 153 5 154 155 155 155 155 156 156 156 157 158 158 159 159 161 162 162 162 163 163 163 164 164 165 165 165 166 166 167 167 168 168 168 170 170
4

También podría gustarte