Está en la página 1de 15

UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS

GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

LABORATORIO 1
“Análisis Exploratorio de Datos (EDA)”
I. Base teórica
El uso del método científico, ampliado al enfoque estadístico (método estadístico),
constituye la base objetiva y sistemática de la cual debe partir la toma de decisiones
acerca de un proceso o población.
Los métodos estadísticos juegan un papel determinante en el mejoramiento de la
calidad. Proporcionan los medios principales para llevar a cabo el muestreo, prueba y
evaluación de un producto; así mismo la información contenida en esos datos se usa
para controlar y mejorar los procesos. Además, los métodos estadísticos constituyen el
lenguaje en el que los ingenieros de desarrollo, manufactura, compras, administración
y otros componentes funcionales del negocio se comunican acerca de la calidad.
La información de un determinado proceso (de producción, de medida, económico,
financiero, sociológico, médico, bilógico, demográfico, etc.), en su perspectiva de
triple rol, se presenta en su mayoría contenida en datos, los cuales son obtenidos como
resultado de la aplicación de procesos de medición o evaluación. Los datos que se
obtienen, aunque se mantengan las mismas condiciones de los factores que influyen
en el funcionamiento de los procesos, siempre están dispersos, y nunca tienen un único
valor constante, por esta razón las características a medir constituyen variables
aleatorias (como sucede con las medidas de calidad). Surge entonces el problema de
detectar y modelar el patrón de comportamiento de la variabilidad de los datos. Para
ayudar en esta tarea existe un conjunto de herramientas estadísticas para la
construcción de gráficos y de síntesis de los datos que se agrupan en el área de la
estadística que se conoce como Análisis Exploratorio de Datos (AED)1.
Se ha desarrollado software para implementar el análisis estadístico en la ingeniería de
la calidad realizando los cálculos necesarios, generando gráficos, aplicando las reglas
asociadas a la calidad seleccionadas, permitiendo el análisis para establecer los
potenciales de mejora y su acción sobre ellos, etc.
Entre las herramientas de software estadístico para la calidad se cuenta con
programas estadísticos de paga (como el Statgraphics, Minitab, XLSTAT, otros);
Software de programación (como R, Scilab, Octave, otros) y hojas de cálculo como
Excel.

II. Base práctica

A continuación, se aplica el Análisis Exploratorio de Datos (EDA), a través de la solución


de un ejercicio práctico utilizando directamente las fórmulas, así como sistemas
computacionales.

1
El profesor John Tukey acuño este nombre, Exploratory Data Analysis en la década de los setenta, cuando publicó
su famoso libro que lleva ese nombre, a través de la editorial Addison-Wesley.

1
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

Ejemplo 1

Se realizó la calibración de una pipeta de 10 ml, a través del siguiente procedimiento:


Se pesaron un matraz volumétrico pequeño y su tapón. Con la pipeta que se quería
calibrar, se transfirieron 10 ml de agua al matraz, y nuevamente se pesó el matraz y su
tapón, pero ahora conteniendo el agua. También se midió la temperatura del agua
para saber su densidad. La masa del agua se calculó como la diferencia entre las dos
masas, y esta diferencia se dividió entre la densidad del agua para conocer el
volumen vertido por la pipeta. El experimento se repitió 50 veces. En la tabla 1 se
presentan los volúmenes obtenidos. Describa la variabilidad de los datos a través de:

a) El cálculo de los estadísticos de posición; de dispersión y de forma.


b) La construcción de la tabla de distribución de frecuencias.
c) La construcción de los siguientes gráficos: diagrama de cajas, histogramas,
diagrama de puntos y Q – Q plot.
d) ¿Qué opinión tiene respecto a la variabilidad de los datos? (respecto a la pauta
de variabilidad normal).
e) ¿Cuáles son las posibles causas de variabilidad de los resultados?

OBJETIVO DEL PROBLEMA: Describir la variabilidad del volumen desalojado por una
pipeta de 10 ml, gráfica y numéricamente a través del cálculo de estadísticos de
posición, dispersión y forma. Este estudio se realiza con el objetivo de verificar que la
pipeta desaloja en promedio los 10 ml de líquido.

TABLA 1 MEDICIONES REPETIDAS EN LA CALIBRACIÓN DE UNA PIPETA DE 10 ml


Ensayo Volumen, ml Ensayo Volumen, ml Ensayo Volumen, ml
1 9.988 18 9.975 35 9.976
2 9.973 19 9.980 36 9.990
3 9.986 20 9.994 37 9.988
4 9.980 21 9.992 38 9.971
5 9.975 22 9.984 39 9.986
6 9.982 23 9.981 40 9.978
7 9.986 24 9.987 41 9.986
8 9.982 25 9.978 42 9.982
9 9.981 26 9.983 43 9.977
10 9.990 27 9.982 44 9.977
11 9.980 28 9.991 45 9.986
12 9.989 29 9.981 46 9.978
13 9.978 30 9.969 47 9.983
14 9.971 31 9.985 48 9.980
15 9.982 32 9.977 49 9.983
16 9.983 33 9.976 50 9.979
17 9.988 34 9.983

CÁLCULOS Y SOLUCIÓN: a continuación, se describirá como hacer los cálculos y la


construcción de gráficos utilizando la hoja de datos Excel y el software estadístico
Statgraphics. Luego se describirá el análisis de la información obtenida retomando los
valores y los gráficos obtenidos, independientemente de cómo se hayan generado.

2
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

a) Por medio de Excel

A partir de office 2016, Excel permite construir de forma directa los siguientes tipos de
gráficos estadísticos para variables unidimensionales: histogramas, diagramas de cajas
(Box Plot), diagramas de puntos, polígono de frecuencias.
El cálculo directo de resúmenes numéricos se puede desarrollar de dos formas a través
de Excel:

1. Aplicando funciones estadísticas a la serie de datos, como las siguientes:

Promedio (A1:AX): para la media aritmética de los X datos


Mediana (A1:AX): para obtener la mediana
Moda (A1:AX): para obtener la moda
Desvest (A1:AX): calcula la desviación estándar de los datos
Otras.
De la siguiente forma:

3
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

De esta forma se
calculan todos los
estadísticos que
se necesiten.

2. Utilizando el complemento de Excel “Herramientas para análisis”: En la opción


análisis de datos dentro del menú Datos. Si la opción análisis de datos no está
activada, hay que hacerlo agregando el complemento correspondiente, de la
siguiente forma:

Si esta opción no está activada, debe activarse de la siguiente forma:

4
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

A continuación, se desarrolla el cálculo de estadísticos y construcción de gráficos


mediante el uso de Excel.

5
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

a.1) Aplicando la herramienta de análisis de datos el cálculo de estadísticos viene dado por:

También dentro de la
herramienta de análisis de
datos es posible construir el
histograma, polígono de
frecuencias y tabla de
frecuencias, como se verá más
adelante en la sección de
construcción de gráficos

6
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

Al chequear o activar esta opción se


permite el cálculo de un buen grupo de
estadísticos de posición, dispersión y forma.
No calcula directamente los coeficientes de
curtósis y asimetría estandarizados, ni los
cuartiles ni percentiles, sin embargo,
pueden escribirse las ecuaciones de cálculo
para el caso de los coeficientes de curtósis y
asimetría estandarizados y buscarse la
función para el caso de del cálculo de los
cuartiles y percentiles.

7
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

a.2) Construcción de gráficos:

Diagrama de cajas (Box plot):

Diagrama de puntos:

8
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

Tabla de frecuencia, Histogramas, diagrama de frecuencia acumulada:

Dentro de la opción análisis de datos buscar la herramienta histograma:

b) Por medio de Statgraphics

La fortaleza de Statgraphics radica en que se trata de un software estadístico, muy


orientado al uso de la estadística dentro de la investigación experimental.
Puede descargarse la versión demo de Statgraphics centurión 18 por 30 días del sitio
siguiente https://www.statgraphics.com/download18.

9
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

Con esta opción que se


obtiene sombreando la
columna y dando click
derecho se nomina la
variable y se establece la
escala de medida

Una vez incluidos los datos a analizar, se emplea una columna por cada variable a ser
analizada y se sigue esta secuencia: Describir > Datos Numericos > Análisis de una Variable:

Al activar la opción aparece una ventana en la que se introducirá la variable y se desplegaran

10
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

los cálculos de los estadísticos y los gráficos en diferentes ventanas.

Al dar doble click sobre cada ventana se despliegan los diferentes resultados.

A continuación, se presenta la solución del ejercicio:

11
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

En la tabla 1 y figura 1 se muestran los resultados del análisis estadístico del volumen desalojado
por una pipeta de 10 ml que está siendo calibrada. Se tomó una muestra de 50 medidas. Así,
en la Tabla 1 se muestran las medidas descriptivas numéricas de dicha variable y en la figura
1a) su diagrama de puntos, 1b) su diagrama de cajas y 1c) su histograma y tabla de
frecuencias.
La media del volumen desalojado ha sido 9.98184 ml, su mediana 9.982 ml y su moda 9.986, el
parecido entre los tres valores de tendencia central refleja el elevado grado de simetría en la
variabilidad de la variable lo cual se pone de manifiesto tanto en el histograma como en su
diagrama de cajas (cuyo comportamiento se explica más adelante). Se deriva que, para
describir la tendencia central de los datos, es imprescindible apoyarse tanto en la media como
en la mediana y la moda. Cuando la media es muy diferente a la mediana es señal de que
existen datos atípicos o existe un sesgo importante en la distribución de variabilidad, por lo que
será mejor reportar como medida de tendencia central a la mediana e investigar a qué se
deben los datos atípicos o bien el sesgo en la distribución, ya que en ocasiones reflejan un
aspecto importante del proceso. De lo anterior se deriva que, para describir la tendencia
central de los datos, es imprescindible apoyarse tanto en la media como en la mediana y la
moda. Cuando la media es muy diferente a la mediana es señal de que existen datos atípicos
o existe un sesgo importante, por lo que será mejor reportar como medida de tendencia
central a la mediana e investigar a qué se deben los datos atípicos, ya que en ocasiones
reflejan un aspecto importante del proceso.
En cuanto a las medidas de dispersión, la desviación estándar y la varianza que representan la
diferencia promedio entre los datos de la muestra con respecto a su media tiene el valor de
0.00564371, lo que refleja una pequeña variación que inicia en la tercera cifra decimal. Otras
medidas de dispersión que son el rango y el rango intercuartílico, son útiles cuando en la
distribución de variabilidad de los datos existen sesgos significativos. En cuanto al coeficiente de
variación es una medida de variabilidad que indica la magnitud relativa de la desviación
estándar en comparación con la media. Es útil para contrastar la variación de dos o más
variables que están medidas en diversas escalas, para este ejemplo no es importante. Reducir
la variación de los procesos es un objetivo clave de los sistemas de ingeniería de la calidad,
como por ejemplo el sistema Seis Sigma.
En cuanto a los coeficientes de asimetría y curtosis estandarizados, -0.236462 y -0.409335,
respectivamente, por estar ambos dentro del intervalo de [-2, 2], dan un indicio de que no
existen datos atípicos o un sesgo importante en la distribución de variabilidad de los resultados,
lo cual es coherente con la observación de la tendencia central.

Tabla 1. Estadísticos ejercicio calibración de pipeta de 10 ml.

Medidas de posición Medidas de dispersión Medidas de forma

Media 9.98184 Error típico 0.00079814 Curtosis -0.2835956


Coeficiente de
Desviación
Mediana 9.982 0.00564371 Curtosis -0.409335
estándar
estandarizado
Coeficiente de
Moda 9.986 Varianza 3.1851E-05 -0.081913
asimetría
Coeficiente de
Primer cuartil 9.978 Rango 0.025 asimetría -0.236462
estandarizado
Segundo cuartil 9.982
Tercer cuartil 9.986

12
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

%
Clase Frecuencia acumulado
9.969 1 2.00%
9.97257143 2 6.00%
9.97614286 5 16.00%
9.97971429 8 32.00%
9.98328571 17 66.00%
9.98685714 7 80.00%
9.99042857 7 94.00%
y mayor... 3 100.00%

Figura 1. Descripción grafica de la variabilidad de la variable volumen desalojado de la pipeta de 10 ml.

En el diagrama de puntos se observa que hay una mayor densidad de puntos hacia el centro,
con tendencia al valor de 9.98 ml, dispersándose simétricamente hacia los lados. No se
observan puntos que estén separados de la distribución, lo que puede indicar la no existencia
de datos anómalos. Tampoco se observa, densidad de puntos hacia ninguno de los extremos
con puntos que se dispersen hacia un lado, lo que indicaría presencia de sesgos.
El diagrama de caja se basa en los cuartiles y divide los datos ordenados en cuatro grupos, que
contienen, cada uno, 25% de las mediciones. El primer cuartil de la distribución es 9.978 ml
indicando que el 25% de los valores cae por debajo de este valor. El segundo cuartil (la
mediana) es 9.982 ml indicando que el 50% de los datos está por debajo de dicho valor,
finalmente el tercer cuartil es 9.986 ml indicando que el 75% de los valores cae por debajo de
9.986 ml. Se observa igual distancia entre el primer y segundo cuartil y entre el segundo y tercer
cuartil indicando con ello simetría en la distribución. El diagrama no es muy largo indicando con
ello poca dispersión de los datos. Se observa que ambos brazos del diagrama tienen la misma
amplitud lo que indica que no hay sesgo en la distribución. Si uno de los brazos fuera
notoriamente más largo que el otro, entonces se diría que la distribución de los datos estaría
sesgada en la dirección del brazo más largo. Dado que no se observan datos fuera de las
barreras interiores y exteriores2, no se considera la existencia de datos anómalos o atípicos 3.

2
Barrera interior izquierda, Ci − 1.5Rc e interior derecha Cs + 1.5Rc; Barrera exterior izquierda, Ci − 3Rc, y exterior derecha Cs + 3Rc; Rc Rango
intercuartilico, Rc = Cs – Ci.
3
En caso que el diagrama esté basado en una cantidad suficiente de datos (por ejemplo 10 como mínimo), es necesario ver si hay datos fuera
de las barreras interiores, marcados con un punto, ya que entre más alejado esté un dato del final del brazo, será señal de que probablemente
sea un dato atípico. Si los datos caen más allá de las barreras exteriores, prácticamente es un hecho que tales datos son atípicos o aberrantes.

13
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

El histograma se construyó a partir de la tabla de frecuencias, puede observarse una tendencia


central en el histograma que se refleja en el rectángulo más alto que indica el rango de valores
de la variable con una mayor frecuencia. Si se contara con los límites máximos y mínimos de los
límites de especificaciones podría establecerse más claramente el centrado del proceso. En
cuanto a la variabilidad se observa que el histograma no es muy amplio lo que indica que la
variabilidad es pequeña. En relación a la forma del histograma se observa que hay simetría, es
decir una distribución bastante similar a los dos lados del rectángulo central, si se traza una línea
continua siguiendo la silueta del histograma se observa la formación de una campana de
gaus. Tampoco se observan rectángulos aislados lo que sería indicación de la presencia de
datos atípicos

Ejercicios a resolver para el laboratorio


Desarrollar los siguientes ejercicios:

1. En un área de servicios dentro de una empresa de manufactura se hace una encuesta


para evaluar la calidad del servicio proporcionada y el nivel de satisfacción de los
clientes internos. La encuesta consiste de 10 preguntas, donde cada una de ellas
evalúa diferentes aspectos del servicio proporcionado. Las respuestas para cada
pregunta es un número entre 0 y 10. Para hacer un primer análisis de los resultados
obtenidos, se suman los puntos obtenidos de las 10 preguntas para cada cuestionario. A
continuación, se muestran los puntos obtenidos en 50 cuestionarios.

78 81 84
68 76 91
70 84 39
35 49 31
41 35 43
78 86 78
84 76 80
87 48 43
42 34 34
42 38 29
82 80
75 82
77 49
34 30
45 39
85 73
78 85
82 39
44 43
42 42

a) A los datos anteriores calcúleles sus medidas de tendencia central, de dispersión y


dé una primera opinión sobre la calidad en el servicio.
b) Realice el histograma e interprételo con cuidado.
a) ¿Qué es lo más destacado que observa en el histograma?
c) ¿Con base en el análisis anterior qué decisión tomaría o qué otro análisis haría?
d) ¿Tendría alguna utilidad hacer un análisis por separado de cada una de las
preguntas? Explique.
e) ¿Tendría alguna utilidad hacer un análisis por separado de cada una de las
preguntas? Explique.

14
UES-FIA-ESCUELA DE INGENIERÍA QUÍMICA E INGENIERÍA DE ALIMENTOS
GESTIÓN E INGENIERÍA DE LA CALIDAD T.E.

2. En la fabricación de láminas de material aislante un equipo de mejora detectó que se


tienen problemas en cuanto a que no se está cumpliendo el grosor especificado que es
de 5 mm, con una tolerancia de 0.8 mm. Con el objetivo de corregir la situación el
grupo pone en práctica un plan de mejora. Para verificar si el plan tuvo éxito, se toman
aleatoriamente 35 láminas de la producción de la semana posterior a las
modificaciones. Los espesores obtenidos se presentan a continuación:

5.2 5.4 5.4 4.7 5.1 4.7 5.0 5.1 5.0 4.9 4.3 4.7
5.3 4.6 4.8 4.4 4.7 4.9 5.6 4.7 4.7 4.5 5.1 4.7
4.7 5.1 5.3 5.0 5.3 4.5 4.4 4.7 5.6 5.2 4.7

Calcule la media, mediana y desviación estándar y, comparándolas con los respectivos


~
X  4.73; X  4.7; s  0.48)
estadísticos antes de la mejora , decida si el plan dio resultado.
¿Es suficiente esta comparación?; b) Diseñe una hoja de verificación para analizar el
grosor de las láminas de asbesto. c) Construya un histograma e inserte en él las
especificaciones. Investigue si el plan fue exitoso. Argumente.

3. En una industria alimenticia se quiere garantizar que la concentración mínima de grasa


de un producto sea de 1.8%. En la tabla se muestran los datos obtenidos para un estudio
inicial. Realice el EDA para describir la variabilidad de la variable % de grasa en el
producto alimenticio.

1.88 1.98 1.88


1.93 1.89 1.94
1.92 1.90 1.98
1.89 1.90 1.94
1.95 1.90 1.93
2.00 1.94 1.89
1.95 1.97 1.85
1.87 1.96 2.04
1.96 1.98 1.88
1.99 2.01 2.02
1.93 1.90 1.93
1.95 1.89 1.90
1.88 1.88 1.90
1.97 1.92 1.96
1.91 1.96 1.93
1.98 1.92 1.91
1.93 1.95 1.90
1.82 1.95 1.94
2.00 1.99 1.95
1.98 1.96 1.88

15

También podría gustarte