Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LABORATORIO 1
“Análisis Exploratorio de Datos (EDA)”
I. Base teórica
El uso del método científico, ampliado al enfoque estadístico (método estadístico),
constituye la base objetiva y sistemática de la cual debe partir la toma de decisiones
acerca de un proceso o población.
Los métodos estadísticos juegan un papel determinante en el mejoramiento de la
calidad. Proporcionan los medios principales para llevar a cabo el muestreo, prueba y
evaluación de un producto; así mismo la información contenida en esos datos se usa
para controlar y mejorar los procesos. Además, los métodos estadísticos constituyen el
lenguaje en el que los ingenieros de desarrollo, manufactura, compras, administración
y otros componentes funcionales del negocio se comunican acerca de la calidad.
La información de un determinado proceso (de producción, de medida, económico,
financiero, sociológico, médico, bilógico, demográfico, etc.), en su perspectiva de
triple rol, se presenta en su mayoría contenida en datos, los cuales son obtenidos como
resultado de la aplicación de procesos de medición o evaluación. Los datos que se
obtienen, aunque se mantengan las mismas condiciones de los factores que influyen
en el funcionamiento de los procesos, siempre están dispersos, y nunca tienen un único
valor constante, por esta razón las características a medir constituyen variables
aleatorias (como sucede con las medidas de calidad). Surge entonces el problema de
detectar y modelar el patrón de comportamiento de la variabilidad de los datos. Para
ayudar en esta tarea existe un conjunto de herramientas estadísticas para la
construcción de gráficos y de síntesis de los datos que se agrupan en el área de la
estadística que se conoce como Análisis Exploratorio de Datos (AED)1.
Se ha desarrollado software para implementar el análisis estadístico en la ingeniería de
la calidad realizando los cálculos necesarios, generando gráficos, aplicando las reglas
asociadas a la calidad seleccionadas, permitiendo el análisis para establecer los
potenciales de mejora y su acción sobre ellos, etc.
Entre las herramientas de software estadístico para la calidad se cuenta con
programas estadísticos de paga (como el Statgraphics, Minitab, XLSTAT, otros);
Software de programación (como R, Scilab, Octave, otros) y hojas de cálculo como
Excel.
1
El profesor John Tukey acuño este nombre, Exploratory Data Analysis en la década de los setenta, cuando publicó
su famoso libro que lleva ese nombre, a través de la editorial Addison-Wesley.
1
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
Ejemplo 1
OBJETIVO DEL PROBLEMA: Describir la variabilidad del volumen desalojado por una
pipeta de 10 ml, gráfica y numéricamente a través del cálculo de estadísticos de
posición, dispersión y forma. Este estudio se realiza con el objetivo de verificar que la
pipeta desaloja en promedio los 10 ml de líquido.
2
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
A partir de office 2016, Excel permite construir de forma directa los siguientes tipos de
gráficos estadísticos para variables unidimensionales: histogramas, diagramas de cajas
(Box Plot), diagramas de puntos, polígono de frecuencias.
El cálculo directo de resúmenes numéricos se puede desarrollar de dos formas a través
de Excel:
3
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
De esta forma se
calculan todos los
estadísticos que
se necesiten.
4
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
5
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
a.1) Aplicando la herramienta de análisis de datos el cálculo de estadísticos viene dado por:
También dentro de la
herramienta de análisis de
datos es posible construir el
histograma, polígono de
frecuencias y tabla de
frecuencias, como se verá más
adelante en la sección de
construcción de gráficos
6
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
7
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
Diagrama de puntos:
8
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
9
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
Una vez incluidos los datos a analizar, se emplea una columna por cada variable a ser
analizada y se sigue esta secuencia: Describir > Datos Numericos > Análisis de una Variable:
10
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
Al dar doble click sobre cada ventana se despliegan los diferentes resultados.
11
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
En la tabla 1 y figura 1 se muestran los resultados del análisis estadístico del volumen desalojado
por una pipeta de 10 ml que está siendo calibrada. Se tomó una muestra de 50 medidas. Así,
en la Tabla 1 se muestran las medidas descriptivas numéricas de dicha variable y en la figura
1a) su diagrama de puntos, 1b) su diagrama de cajas y 1c) su histograma y tabla de
frecuencias.
La media del volumen desalojado ha sido 9.98184 ml, su mediana 9.982 ml y su moda 9.986, el
parecido entre los tres valores de tendencia central refleja el elevado grado de simetría en la
variabilidad de la variable lo cual se pone de manifiesto tanto en el histograma como en su
diagrama de cajas (cuyo comportamiento se explica más adelante). Se deriva que, para
describir la tendencia central de los datos, es imprescindible apoyarse tanto en la media como
en la mediana y la moda. Cuando la media es muy diferente a la mediana es señal de que
existen datos atípicos o existe un sesgo importante en la distribución de variabilidad, por lo que
será mejor reportar como medida de tendencia central a la mediana e investigar a qué se
deben los datos atípicos o bien el sesgo en la distribución, ya que en ocasiones reflejan un
aspecto importante del proceso. De lo anterior se deriva que, para describir la tendencia
central de los datos, es imprescindible apoyarse tanto en la media como en la mediana y la
moda. Cuando la media es muy diferente a la mediana es señal de que existen datos atípicos
o existe un sesgo importante, por lo que será mejor reportar como medida de tendencia
central a la mediana e investigar a qué se deben los datos atípicos, ya que en ocasiones
reflejan un aspecto importante del proceso.
En cuanto a las medidas de dispersión, la desviación estándar y la varianza que representan la
diferencia promedio entre los datos de la muestra con respecto a su media tiene el valor de
0.00564371, lo que refleja una pequeña variación que inicia en la tercera cifra decimal. Otras
medidas de dispersión que son el rango y el rango intercuartílico, son útiles cuando en la
distribución de variabilidad de los datos existen sesgos significativos. En cuanto al coeficiente de
variación es una medida de variabilidad que indica la magnitud relativa de la desviación
estándar en comparación con la media. Es útil para contrastar la variación de dos o más
variables que están medidas en diversas escalas, para este ejemplo no es importante. Reducir
la variación de los procesos es un objetivo clave de los sistemas de ingeniería de la calidad,
como por ejemplo el sistema Seis Sigma.
En cuanto a los coeficientes de asimetría y curtosis estandarizados, -0.236462 y -0.409335,
respectivamente, por estar ambos dentro del intervalo de [-2, 2], dan un indicio de que no
existen datos atípicos o un sesgo importante en la distribución de variabilidad de los resultados,
lo cual es coherente con la observación de la tendencia central.
12
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
%
Clase Frecuencia acumulado
9.969 1 2.00%
9.97257143 2 6.00%
9.97614286 5 16.00%
9.97971429 8 32.00%
9.98328571 17 66.00%
9.98685714 7 80.00%
9.99042857 7 94.00%
y mayor... 3 100.00%
En el diagrama de puntos se observa que hay una mayor densidad de puntos hacia el centro,
con tendencia al valor de 9.98 ml, dispersándose simétricamente hacia los lados. No se
observan puntos que estén separados de la distribución, lo que puede indicar la no existencia
de datos anómalos. Tampoco se observa, densidad de puntos hacia ninguno de los extremos
con puntos que se dispersen hacia un lado, lo que indicaría presencia de sesgos.
El diagrama de caja se basa en los cuartiles y divide los datos ordenados en cuatro grupos, que
contienen, cada uno, 25% de las mediciones. El primer cuartil de la distribución es 9.978 ml
indicando que el 25% de los valores cae por debajo de este valor. El segundo cuartil (la
mediana) es 9.982 ml indicando que el 50% de los datos está por debajo de dicho valor,
finalmente el tercer cuartil es 9.986 ml indicando que el 75% de los valores cae por debajo de
9.986 ml. Se observa igual distancia entre el primer y segundo cuartil y entre el segundo y tercer
cuartil indicando con ello simetría en la distribución. El diagrama no es muy largo indicando con
ello poca dispersión de los datos. Se observa que ambos brazos del diagrama tienen la misma
amplitud lo que indica que no hay sesgo en la distribución. Si uno de los brazos fuera
notoriamente más largo que el otro, entonces se diría que la distribución de los datos estaría
sesgada en la dirección del brazo más largo. Dado que no se observan datos fuera de las
barreras interiores y exteriores2, no se considera la existencia de datos anómalos o atípicos 3.
2
Barrera interior izquierda, Ci − 1.5Rc e interior derecha Cs + 1.5Rc; Barrera exterior izquierda, Ci − 3Rc, y exterior derecha Cs + 3Rc; Rc Rango
intercuartilico, Rc = Cs – Ci.
3
En caso que el diagrama esté basado en una cantidad suficiente de datos (por ejemplo 10 como mínimo), es necesario ver si hay datos fuera
de las barreras interiores, marcados con un punto, ya que entre más alejado esté un dato del final del brazo, será señal de que probablemente
sea un dato atípico. Si los datos caen más allá de las barreras exteriores, prácticamente es un hecho que tales datos son atípicos o aberrantes.
13
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
78 81 84
68 76 91
70 84 39
35 49 31
41 35 43
78 86 78
84 76 80
87 48 43
42 34 34
42 38 29
82 80
75 82
77 49
34 30
45 39
85 73
78 85
82 39
44 43
42 42
14
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.
5.2 5.4 5.4 4.7 5.1 4.7 5.0 5.1 5.0 4.9 4.3 4.7
5.3 4.6 4.8 4.4 4.7 4.9 5.6 4.7 4.7 4.5 5.1 4.7
4.7 5.1 5.3 5.0 5.3 4.5 4.4 4.7 5.6 5.2 4.7
15