Está en la página 1de 4

Histograma y diagrama de caja

Histograma
Un histograma es una representación gráfica de una
distribución de frecuencia para datos numéricos. Es
un gráfico de barras que a menudo se usa como el
primer paso para determinar la distribución de
probabilidad de un conjunto de datos o una
muestra. Permite evaluar visual y rápidamente la forma
de la distribución, la tendencia central, la cantidad de
variación en los datos y la presencia de lagunas, valores
atípicos o puntos de datos inusuales.

Un histograma puede informarle sobre la distribución subyacente de los datos y si puede


aplicar ciertas pruebas estadísticas para realizar posibles oportunidades de mejora. Muestra
si la variabilidad en los datos está dentro de los límites de especificación y si el proceso es
capaz o no. También se utiliza para identificar cambios en el proceso y para verificar que
los cambios que realizó fueron una mejora real.

Los histogramas se usan normalmente para representar una cantidad moderada a gran
cantidad de datos continuos y necesitamos al menos 25 puntos de datos para determinar si
un histograma sigue una distribución particular. Si el tamaño de los datos es demasiado
pequeño o el sistema de medición tiene una resolución baja, el histograma puede mostrar
muy pocas columnas y puede no mostrar con precisión la forma de la distribución. Los
diagramas de puntos son preferibles a los histogramas cuando representan una pequeña
cantidad de datos y cuando se comparan entre distribuciones múltiples.

Siempre es una buena práctica trazar sus datos en un histograma después de


recopilarlos. Esto le dará una idea de la naturaleza de los datos, los valores mínimos y
máximos, la forma de la distribución y si es normal, exponencial, chi-cuadrado, etc.
También le indica si la distribución es simétrica o no simétrica. y si es unimodal, bimodal o
multimodal. Si los datos se distribuyen simétricamente y se centran alrededor de la media,
podemos decir que los datos se distribuyen normalmente.

Para construir un histograma, primero debe


dividir los datos en intervalos llamados bins. Se
debe construir una barra sobre cada bin para
representar la frecuencia de los valores de datos
dentro de cada intervalo. Las barras deben ser
adyacentes sin espacios entre ellas para indicar la
continuidad de los datos. Debe haber un pequeño
espacio antes de la primera barra de un
histograma. La media de los datos y los límites
de especificación a menudo se indican en el
histograma.
El siguiente es un histograma que representa la distribución de diámetros de cable en un
proceso de fabricación. El resultado debe resumirse utilizando un lenguaje cotidiano
como: "La distribución parece simétrica alrededor del diámetro medio del cable (0,546
cm) y parece ajustarse bastante bien a la Distribución Normal".

El cuadro anterior muestra los resultados de un conjunto de datos que pertenece a minitab
inc.jñ

Diagrama de caja
Un diagrama de caja es una forma gráfica que resume los aspectos importantes de la
distribución de datos continuos. Es particularmente
útil cuando se comparan entre varios grupos de
conjuntos de datos o muestras. Al igual que los
histogramas, deben usarse para una cantidad de
datos moderada a grande, ya que el tamaño del
diagrama de caja puede variar significativamente si
el tamaño de los datos es demasiado pequeño. Sin
embargo, son menos detallados y ocupan menos
espacio, lo que permite una fácil comparación de
múltiples conjuntos de datos.
Los diagramas de caja se usan principalmente
cuando se comparan varias distribuciones entre
sí. Resumen estadísticas clave de los datos y las muestran en un formato de caja y
bigotes. Proporcionan una forma rápida de examinar la variación presente en los datos. Un
diagrama de caja de rango más amplio indica más variabilidad. Los diagramas de caja
también se utilizan para verificar si hay una diferencia significativa en el proceso después
de implementar una iniciativa de mejora del proceso.
Los diagramas de caja pueden decirnos si
la distribución es simétrica o sesgada y si
hay datos atípicos en los datos. Los
espacios entre las diferentes partes de un
diagrama de caja indican la dispersión y
el sesgo presente en los datos. Los datos
se grafican de manera que el 50% de los
puntos de datos del medio encaja dentro
del cuadro, el 25% inferior de los puntos
de datos ubicados debajo del cuadro y el
25% superior de los puntos de datos
ubicados arriba del cuadro. Cada bigote
puede extenderse hasta 1.5 veces la
longitud de la caja.
La línea media del cuadro es la mediana
de los puntos de datos. Algunos gráficos
de caja también muestran la media de los
puntos de datos con un carácter
adicional. Todos los datos más allá de los
bigotes se consideran valores atípicos y
se representan como asteriscos (*). Los valores atípicos a menudo reflejan errores en el
registro o ingreso de datos, y si los valores son reales, debe investigar lo que estaba
sucediendo en el proceso en ese momento.
Ejemplo:
Los siguientes son diagramas de caja que muestra el rendimiento de un cultivo después de
aplicar dos fertilizantes diferentes. Fertilizantes 2 parece tener un rendimiento mayor que el
fertilizante 1. ¿Qué otros comentarios harían sobre los diagramas de caja a continuación?
piense en la variación, así como en la presencia de valores inusuales.
El cuadro anterior muestra los resultados de un conjunto de datos que pertenecen a minitab
inc.
Mas información
 Los histogramas a veces se llaman Gráficos de frecuencia, mientras que los
gráficos de caja se denominan Gráficos de caja y bigotes.
 Los histogramas y los diagramas de caja se pueden dibujar vertical u
horizontalmente. Existen muchas herramientas gráficas que pueden generar
histogramas y diagramas de caja rápida y fácilmente (como Minitab).
 Los histogramas a menudo se confunden con los gráficos de barras. Un
histograma se usa normalmente para datos continuos, mientras que un gráfico de
barras es un gráfico de datos de conteo.
 Aunque los histogramas son métodos gráficos eficientes para describir la
distribución de los datos, no pueden ver cambios y tendencias a lo largo del
tiempo.
 Los gráficos de valores individuales se prefieren a los gráficos de caja cuando
representan una pequeña cantidad de datos.

También podría gustarte