Curso 4. Estadisticas y Herramientas Graficas Basicas

Estadísticas y
herramientas
gráficas básicas
Análisis de riesgos en el proceso e identificación de mejoras rápidas
Bienvenida al curso
Bienvenido al curso: Estadísticas y Herramientas Gráficas Básicas.
Para comenzar, te invitamos a revisar la siguiente información, la cual te

permitirá conocer un panorama general de lo que aprenderás con el estudio de
este curso.
Durante este curso aprenderás a realizar Pruebas de Hipótesis enfocadas a

la Bondad de Ajuste para identificar la distribución que siguen los datos;
examinaremos las principales medidas de tendencia central y dispersión para
saber su posición y qué tanto varían con respecto a la media; después
abordaremos algunas de las principales herramientas gráficas para caracterizar
(comprender) de mejor manera el proceso que pretendemos mejorar y
finalmente estableceremos la capacidad inicial de nuestro proceso a fin de tener
un valor de referencia (Nivel de Z, Nivel de Sigmas, partes por millón defectuosas
o Defectos Por Millón de Oportunidades, más comúnmente conocido como
DPMO), que se comparará con el que se obtenga una vez que se hayan
implementado las mejoras y el proceso esté bajo control en la Fase CONTROLAR.
Para llevar a cabo este recorrido, nuevamente lo haremos a través el proceso de
Pedir Café.
Nuevamente, te invito para que revises los contenidos que fueron elaborados
especialmente para ti.
Elemento de competencia
A lo largo de este curso, el participante:
 Emplea herramientas de estadística descriptiva como pruebas de bondad
de ajuste, histogramas y Box Plot para comprender el proceso.
 Establece la capacidad de proceso acorde a tipo de datos del CTQ.
Temario
Los temas que estudiarás son los siguientes:
Estadísticas y herramientas gráficas básicas
Tema 1. Pruebas de bondad de ajuste
Tema 2. Medidas de centralidad y dispersión
Tema 3. Herramientas gráficas: Gráfica de puntos, Histograma y Gráfica de caja
Tema 4. Introducción a la capacidad de proceso para variables continuas y
discretas
Contexto
Antes de comenzar con los temas, te presentamos un breve contexto de la industria
automotriz, en la cual se desarrollará el contenido de este curso.
Contexto industrial automotriz
La industria automotriz es una de las industrias más sólidas del mercado a nivel
mundial. De acuerdo a información disponible en internet se estima que se
construyeron alrededor de 95.6 millones de vehículos en el mundo durante el 2018.
México se encuentra en el top 10 en la producción anual de vehículos. En nuestro país
se comercializan alrededor de 40 marcas diferentes y se encuentran instaladas al
menos 10 armadoras automotrices. La importancia que permite fabricar vehículos
con poca variabilidad en cada uno de sus componentes es crucial para asegurar altos
estándares de calidad. En la medida que las compañías sean capaces de producir
vehículos que tengan pocos defectos hará que las personas prefieran seguir
comprando la misma marca o decidan cambiar por otro dentro del mismo segmento
de su poder adquisitivo.
Calidad
Como los vehículos están compuestos por cientos o miles de partes, se necesita de
proveedores. Para ser proveedor de estas compañías se requiere seguir ciertos
parámetros de calidad y de procesos que las OEM (Original Equipment Manufacturer
o Fabricante de equipos originales, también conocidos como “armadoras”) exigen en
un mercado muy competitivo. Algunos de estos proveedores son por ejemplo los
fabricantes de parabrisas, de frenos, de neumáticos o de bolsas de aire por citar
algunos ejemplos. Si un fabricante nuevo desea ser proveedor de la industria
automotriz debe mostrar con evidencia estadística que es capaz de satisfacer las
especificaciones establecidas por la armadora, que su proceso es estable y está en
control y por tanto que su habilidad para producir productos sin defectos es muy alta,
porque en caso de no hacerlo, los costos asociados de hacer un recall son muy altos.
Los vehículos
Algunos ejemplos del llamado a revisión o reparación se dieron el pasado septiembre

de 2019, cuando Ford realiza un recall a más de 600,000 unidades en México, Estados
Unidos y Canadá, porque instaló un mecanismo manual deficiente en los asientos
delanteros que podría provocar falta de sujeción pudiendo ocasionar lesiones graves
en caso de un accidente. En el caso de VW (Volkswagen) en julio de 2019, también
llamó a revisión a 30,000 unidades por fallas de fabricación en los muelles, debido a
los materiales de fabricación incorrectos pudiendo provocar la ruptura de estos
ocasionando daño a las llantas y consecuentemente aumentando el riesgo de

accidentes.
Más casos
Así como estos ejemplos, podemos citar otros tanto como Toyota con el mecanismo
eléctrico de los cristales o el pedal del acelerador que provocaba repentinamente una
aceleración no intencionada o el llamado dieselgate de VW. No obstante, el caso más
emblemático es el de los 100 millones de bolsas de aire potencialmente defectuosas
de Takata, bolsas que se habían instalado en 198 modelos de vehículo en más de 10
compañías armadoras, cuyo principal problema era, al activarse ante una colisión se
fragmentaba al dispositivo metálico que las contiene disparando así fragmentos de
metal hacia los pasajeros.
Los ejemplos anteriores son de suma relevancia porque a pesar de ser capaces de
fabricar vehículos que cumplen con las regulaciones de los países, los procesos que a
veces siguen las compañías armadoras no siempre producen pocos vehículos
defectuosos y es aquí donde debemos determinar cuántas unidades por cada millón
se consideran defectuosas, tema del que nos ocupamos hacia el final de nuestro
curso.
Aprendizaje
En el presente curso, aprenderás a calcular la cantidad de defectos o productos

defectuosos que potencialmente puede generar tu proceso, tanto en el corto
como en el largo plazo, en función del tipo de variable asociada a tu proyecto.
Estos cálculos los referirás como capacidad de proceso, Nivel de Z, Nivel de
Sigmas, partes por millón defectuosas o Defectos Por Millón de Oportunidades
más comúnmente conocido como DPMO. Podrás hacer estas operaciones tanto
con el software de Minitab o con la calculadora de Sigmas que te proporciono.
Tema 1. Pruebas de bondad de ajuste
A continuación conocerás el proceso de recolección de datos a través de pruebas

de bondad.
Pruebas de Bondad de Ajuste describen qué tan bien se ajustan los datos
recolectados a una determinada distribución de probabilidad.
Con este tipo de pruebas pudiéramos establecer qué tipo de distribución siguen los
datos recolectados cuando nos interesar saber cuántas horas trabajan en promedio
los empleados, quién trabaja más y en qué porcentaje se puede llegar a exceder de
las horas permitidas, cuántas horas extras trabaja el 50% de los empleados, si existe
algún empleado que trabaja mucho más tiempo del permitido por la ley y así
sucesivamente.
Aunque en la práctica se suele asumir que los datos se comportan de forma normal,
vale la pena dedicarle un espacio a este tipo de pruebas ya que, aunque tengamos
Minitab o cualquier otro paquete computacional que nos calcule los estadísticos, es
una buena práctica corroborarlo porque nos permitirá utilizar diferentes pruebas y
gráficas estadísticas asociadas a la misma.
Esto es importante porque la distribución normal es la distribución más utilizada a lo

largo del tiempo. En este sentido, si la variable se comportará como normal,
heredaría todas las propiedades de esta distribución, en caso contrario, se podría
proceder de dos formas, la primera es aplicar alguna transformación para convertir
los datos en normales aplicando alguna función u operación, y la segunda, trabajar
con los datos originales y aplicando pruebas no paramétricas.
Los datos normales no son comunes en el mundo transaccional, por lo que debes
tener presente que el hecho de que tus datos no sea normales no significa algo malo,
antes bien significa que puede que tengas que pensar en tus datos de una manera
ligeramente diferente.
Dicho lo anterior, veamos primero en qué consiste la distribución normal y luego

cómo se determina si una variable se comporta o no de forma normal.
La distribución normal tiene algunas características o propiedades muy particulares,

las cuales se describen a continuación:
Cálculo de una probabilidad
A través del siguiente ejemplo puedes revisar a detalle las distribuciones de cálculo.
La fórmula para calcular una probabilidad bajo la curva está dada por:
Afortunadamente no deberás preocuparte, ya que contamos con tablas para la
distribución de probabilidad estándar que tiene media 0 y desviación estándar 1, lo
que nos permite convertir cualquier distribución de probabilidad normal en una
distribución de probabilidad normal estándar si se resta la media de cada
observación y dividimos la diferencia entre la desviación estándar. Los resultados
reciben el nombre de valores z.
De esta manera podemos decir que el valor z es la distancia de la media, medida en
unidades de desviación estándar y su fórmula es:

Donde:
• X: es el valor de cualquier observación y medición.
• μ: es la media de la distribución.
• σ: es la desviación estándar de la distribución.
Hemos dicho que la distribución normal es una familia de distribuciones, en los que
podemos ver algunos casos particulares, por ejemplo:
Podemos tener dos conjuntos de datos teniendo la misma desviación estándar

(dispersión) pero con diferente media, y nos serviría para comparar el rendimiento de
dos procesos, el tiempo promedio de dos empleados, las ventas promedio de dos
unidades de negocio, etc.
También es posible tener los dos procesos, empleados, unidades de negocio, etc.
teniendo diferentes medias y diferentes desviaciones entandar, donde lo que nos
importará estará en función de más es mejor, por ejemplo, si decimos que es en
términos de ingresos promedio, evidentemente entre más grande sea la media será
mejor, pero si lo que queremos es reducir el número de errores promedio de cafés
mal preparados entonces entre más pequeña sea la media mejor.
No obstante, para nuestro caso, cobra especial interés la forma en que se disperse el
proceso, lo importante será considerar las desviaciones estándar, las cuales entre
más pequeñas será mucho mejor toda vez que nuestra metodología DMAIC se basa
justo en eso, en las sigmas, que son las desviaciones estándar. Por tanto,
procuraremos tener valores pequeños en la dispersión como se muestra en la
siguiente figura.
Pruebas de hipótesis
Ahora que ya conoces las características de la distribución normal, y haz establecido

algunos valores de referencia de los sigma, a continuación se presenta el caso de las
pruebas hipotéticas.
Pruebas de bondad
Las pruebas de bondad de ajuste requieren el establecimiento de pruebas de

hipótesis estadísticas.
Hipótesis Estadística
Una hipótesis estadística es cualquier afirmación acerca de un parámetro de la

población, ésta afirmación es la que es sometida a una prueba. La prueba de
hipótesis es por tanto un procedimiento para la comprobación de una hipótesis
estadística basado en evidencias de la muestra para decidir sobre el rechazo o no de
la hipótesis.
Hipótesis Nula (H0)
La Hipótesis Nula (H0), es la afirmación que se supone al principio como cierta, y que
será sometida a una prueba de hipótesis. Se rechaza en favor de la alternativa sólo si
la muestra ofrece suficiente evidencia como para rechazar H0.
Hipótesis Alternativa (H1)
La Hipótesis Alternativa (H1), generalmente representa la pregunta que debe

responderse o la teoría que debe probarse, si la muestra no contradice de forma
contundente a H0, se continúa con la creencia de que la hipótesis nula es verdadera.
Valor en las hipótesis
Dadas las variables, a continuación se presentan cómo se categorizan las premisas

hipotéticas.
Los valores
Los valores que se manejan en las pruebas de hipótesis son 1%, 5%, y 10%, sin
embargo el más empleado es el del 5% que significa que el analista está dispuesto a
cometer hasta un 5% de error en sus resultados o equivocarse en 5 de cada 100 veces
en sus conclusiones. En la medida que se ponga en riesgo la integridad de las
personas, el valor del porcentaje debe disminuir para garantizar la confiabilidad, por
ejemplo, de medicamentos.
Planteamiento de hipótesis
Tradicionalmente en la metodología Six Sigma, planteamos las hipótesis como:
H0 (Hipótesis nula): Sin relación, sin cambios, no hay diferencia, no afecta, no incide,
no influye, “No pasa nada”
H1 (Hipótesis alternativa): Sí hay relación, sí hay cambio, sí hay diferencia, sí afecta, sí

incide, sí influye, “Algo pasó”.
Valores de alpha
 10% o 0.10 la probabilidad de cometer un error es grande, es muy flexible.

 5% o 0.05 la probabilidad de cometer un error es aceptable, es la aceptada en
la literatura científica.
 1% o 0.01 la probabilidad de cometer un error es mínima, es muy rígida.
Conclusión
La intención es, generalmente, rechazar H0 para aceptar H1, ya que nos interesa
probar que algo sucedió, algo pasó, la variable X sí afecta a la variable Y.
Para que la hipótesis nula se rechace necesitamos que los resultados del valor p (p-
value) sean menores al 5% (nuestro margen de error o la probabilidad de tomar una
decisión equivocada) caso contrario decimos que no rechazamos H0 (la aceptamos) y
concluimos que en realidad la variable X no influye sobre la variable Y.
Aunque lo anteriormente explicado de las Pruebas de Hipótesis es como

generalmente procedemos en Six Sigma, en las pruebas de bondad de ajuste, lo que
buscamos es NO rechazar H0, para decir, buscamos que los datos provienen de una
distribución normal o se comportan como una distribución normal o tienden a
comportarse como normales, tema del que nos ocuparemos enseguida. Buscamos
que se comporten de forma normal por los beneficios o características que heredarán
al comportarse como tal y que fueron expuestas línea arriba.
Comprobación del supuesto de normalidad
Como último subtema conocerás el uso de la prueba Anderson-Darling, sus

parámetros y donde aplicarlo.
Supuesto de normalidad
Es la situación, de no comprobar el tipo de distribución que siguen los datos, se

puede dar ya sea por desidia del investigador o por desconocimiento de la prueba, en
el caso de Six Sigma es fundamental la comprobación de este.
Comprobación
La importancia de la comprobación del supuesto de normalidad radica en que

muchos procedimientos estadísticos requieren, o funcionan de mejor manera,
cuando el supuesto de normalidad se cumple. Esto influye directamente sobre las
inferencias y estimaciones de los resultados obtenidos.
Aunque existen varias pruebas para corroborar la normalidad de los datos, el más
importante, el más potente o robusto es el de Anderson-Darling y es el que
utilizaremos para validar la normalidad a través de una prueba de hipótesis llamada
Prueba de Bondad de Ajuste. Cabe decir que el estadístico Anderson-Darling mide
qué tan bien siguen los datos una distribución específica más allá de solo emplearlo
para la normalidad por lo que en términos generales, mientras mejor se ajuste la
distribución a los datos, menor será este estadístico.
Hipótesis
Las hipótesis se plantean de la siguiente manera:
H0: Lo datos siguen una distribución específica (normal en nuestro caso)
H1: Lo datos NO siguen una distribución específica (normal en nuestro caso)
La forma gráfica en que validamos si los datos se comportan de forma normal es

corroborando que la mayoría de los datos queden cerca de la línea normal trazada
(incluso existe una prueba empírica llamada “prueba del lápiz grueso” que indica que
imaginemos un lápiz sobrepuesto sobre los puntos graficados y que si la mayoría de
los datos están cubiertos por este lápiz, podemos decir, que probablemente los datos
son normales) o de manera numérica es si el valor-p es mayor a 0.05. Entre más
grande sea este valor tendremos mayor confianza en que los datos tienden a
comportarse de forma normal. Recuerda que aquí buscamos NO rechazar H0, esto
es, queremos “Aceptar” H0 para concluir que los datos se comportan o provienen de
una distribución normal.
Caso de Estudio
En este ejemplo tendrás la oportunidad de revisar cómo aplicar lo aprendido al caso

de pedir café.
Pedir café
En un sector de una de las regiones de la compañía de café, se cree que la mala

preparación de café se debe a las horas extras trabajadas, por lo que el gerente
de operaciones decide investigar el tiempo extra que laboran y decidir si éste
influye o no en la preparación de cafés incorrectos. Para ello, decide revisar la
lista de asistencia y encuentra la siguiente información:
Empleado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Horas Extra 13 13 12 15 7 15 5 12 6 7 12 10 9 13 12
Conjunto de datos
El gerente sabe que lo primero que se debe hacer SIEMPRE con un conjunto de datos,
es validar la normalidad y a partir de ahí realizar los estudios que cree pertinentes.
Por lo anterior emplea Minitab y obtiene los siguientes resultados presentados el
gráfico superior.
Resultados
La gráfica nos muestra información respecto a cómo se distribuyen los datos con
relación a la distribución de la normal y el valor-p o p-value que es de 0.085. Este
valor-p nos confirma que hay evidencia estadística suficiente para concluir que no
rechazamos H0, es decir, que aceptamos que los datos se comportan de forma
normal.
Como puede ver en las elipses señaladas, en ambos casos, se corrobora que los datos
ya sea que provienen o tienden a comportarse de forma normal, por lo que el gerente
ya puede realizar los análisis que crea convenientes, por ejemplo, usar herramientas
gráficas.
Tema 2. Medidas de centralidad y dispersión

Medidas de centralidad y dispersión
En este tema conocerás el comportamiento del proceso con dos formas de

escritura de los datos cuantitativos: las medidas de centralidad o ubicación y las
medidas de dispersión.
Medias de centralidad o ubicación. Las medidas de ubicación generalmente se

les llaman promedios y tienen como objetivo señalar el centro de un conjunto de
valores y de ahí que también sean conocidos como medidas de centralidad.
La relación que existe entre las medidas de centralidad y de dispersión estriba en que
si solo se tomará en cuenta las primeras, se llegaría a una conclusión incorrecta, por
lo que para robustecer tales conclusiones es necesario que tomes en cuanta las
segundas.
Las medidas de dispersión son tan importantes que son la base de la metodología de
Six Sigma, porque como su nombre lo indica, se basa en la dispersión o desviación o
variación existente en torno a la media.
Conceptos
En el siguiente esquema se presentan algunos conceptos importantes que debes

recordar para utilizarlos durante el curso.
Medidas de centralidad o ubicación

En el siguiente PDF, revisa las herramientas del proceso principal de medición.
Media, promedio
La media poblacional, es la suma de todos los valores observados o registrados en la

población dividida entre total de valores de la población. Su fórmula es:
Donde:
• μ : representa la media poblacional; es la letra minúscula griega mu.

• N : es el número total de valores en la población.
• X : es cualquier valor particular contenido en la población.
• Σ : es la letra mayúscula griega sigma e indica la operación de suma.
• i : es el subíndice que cambia cada vez que se introduce un nuevo dato, sus
valores son desde 1 hasta el número total de los datos.
Para el caso de la media muestral, la fórmula es:
Donde:
• X̄: representa la media muestral; es la letra x testada.

• n : es el número total de valores en la población.
• X : es cualquier valor particular contenido en la población.
• Σ : es la letra mayúscula griega sigma e indica la operación de suma.
• i : es el subíndice que cambia cada vez que se introduce un nuevo dato, sus
valores son desde 1 hasta el número total de los datos.
Retomando el ejemplo de las horas laboradas por los empleados en una de las
regiones de la compañía de café, lo que tenemos que hacer es sumar cada uno de los
valores de las horas de los empleados:
En este caso, se debe sumar desde el empleado 1 con 13 horas laboradas hasta el
empleado 15 con las 12 horas trabajadas y luego dividir esa suma entre los 15
empleados
=10.733
También Minitab corrobora que la media de 10.733. Aquí no necesitamos calcular la

media muestral porque son todos los empleados y por tanto, los datos son
poblacionales, pero si se quiera hacer la operación, sería de la misma manera.
Statistics
Por lo anterior, se puede decir, que todos los trabajadores laboran en promedio un
total de 10.733 horas, pensando que son semanales. Aquí, se declara tener una
primera conclusión, que los empleados están trabajando en promedio más de lo que
normalmente se esperaría y es comprensible que debido al cansancio se estén
preparando mal los cafés.
Con base en lo anterior, se dice que todo conjunto de datos posee una media, que
todos los datos se encuentran incluidos en el cálculo de ella, y ésta es única, ya que
solo existe una media para cualquier conjunto de datos.
Finalmente con respecto a la media, a pesar de que ésta es ampliamente utilizada, no

siempre es adecuado su empleo ya que como se ve en el ejemplo, todos los valores
se emplean para calcularla, cabe la posibilidad que existan valores extremadamente
grandes o pequeños comparados con la mayoría de los datos, haciendo que la media
no sea la adecuada para representar los datos, y por tanto, se requiera de otra
medida más apropiada para la representación de estos, la mediana, que a
continuación se presenta.
Mediana
La mediana se emplea cuando se debe dividir en dos partes iguales el total de los
datos, no importan si son datos muy pequeños o muy grandes, por lo que el 50% de
los datos estarán por encima y por debajo del valor calculado. Es importante para
calcularla que los datos estén ordenados de mayor a menor o viceversa. Al obtener el
punto medio de los valores (la posición de los datos), no siempre es posible tener un
valor contenido en el conjunto de los datos, sin embargo, ese dato o valor es el que
divide en exactamente dos partes iguales al conjunto de los datos. Veamos los dos
casos.
En el ejemplo de las horas extras, tenemos 15 empleados como se muestra una vez
más en la tabla de abajo.
Debemos ahora ordenar los datos ya sea de menor a mayor o viceversa. En este caso,
ordenaremos de menor a mayor y asignaremos una posición a cada valor.
Emplearemos la fórmula de la mediana:
Donde
̃ : Representa la mediana
•𝑿
• n : es el número total de valores.

Por tanto, la mediana es el valor que se encuentra en la posición 8, en este caso, es el

valor 12. De aquí se deduce que el 50% de los datos se encuentran por debajo del
valor 12 y 50% por encima del mismo. Aquí se interpreta que el 50% de los empleados
trabaja menos de 12 horas extras y el otro 50% trabaja más de 12 horas extras.
Minitab nos muestra el resultado que hemos encontrado:
Statistics
Cuando el número total de datos es par, la mediana es el promedio del valor que se
encuentra al lado izquierdo y al lado derecho. Por ejemplo, si el conjunto en lugar de
15 fuera 16, siguiendo la fórmula sería (16+1)/2 = 8.5, por tanto la mediana sería el
promedio de los valores en la posiciones 8 y 9.
Con base en lo anterior entonces, que la mediana no influyen valores

extremadamente grandes o pequeños, consecuentemente, la mediana es una medida
de ubicación muy valiosa cuando dichos valores se presentan.
Moda
La moda es el dato u observación que aparece con más frecuencia en el conjunto de

los datos. Comparte con la mediana la característica de que no influyen en ella los
valores extremadamente pequeños o grandes, pero tiene una desventaja por la cual
se usa menos que la media o la mediana debido a que hay conjuntos de datos en los
cuales no es posible establecer la moda, como cuando no existen datos que se
repitan dentro del conjunto analizado. En ocasiones existe más de una moda, en este
caso podría ser bimodal, trimodal, tetramodal o pentamodal.
No existe una fórmula para la moda, solo se podría decir que se obtiene a partir de
indicar las frecuencias para cada dato observado y el que contabiliza más es la que se
define como la moda con tantas veces su aparición o frecuencia, no obstante, su
símbolo es:
Para el caso de las horas extras laboradas podemos ver claramente que el valor 12 se
repite en cuatro ocasiones, por lo que este dato es la moda.
La interpretación que podríamos darle es que de los 15 empleados que laboran en la

compañía, hay 4 empleados que trabajan exactamente 12 horas extras.
Minitab confirma la moda que hemos encontrado
Statistics
Variable Mode N for Mode

Horas Extras 12 4
Aunque aquí se han separado los resultados para cada una de las medidas de
ubicación o centralidad, Minitab, nos puede dar en una sola corrida estos valores y a
partir de ellos se puede llegar a las mismas conclusiones que se han establecido.
Statistics
Variable Total Count Mean Median Mode N for Mode

Horas Extras 15 10.733 12.000 12 4
Los datos indican que analizando la variable de horas extras, se puede establecer que
los 15 empleados trabajan en promedio 10.733 horas, que el 50% de los empleados
trabaja por debajo de 12 horas y el resto por encima de las mismas y que 4
empleados de los 15 trabajan 12 horas.
En el siguiente tema abordarás otra manera de llegar a las mismas conclusiones pero
con herramientas gráficas.
Medida de dispersión
Medidas de Ubicación
Las medidas de ubicación como la media y la mediana solo describen el centro de los
datos, las cuales son valiosas pero no dicen nada con relación a la dispersión de los
datos.
Medida de Dispersión Pequeña
Las medidas de dispersión indican qué tanto se alejan los datos de la media (o
tendencia central).
Medida de Dispersión Grande
Si la medida de dispersión es grande se dice que la media no es del todo confiable.
Revisión de la Dispersión
Otra razón por la cual se debe revisar la dispersión es para comparar dos o más
conjuntos de datos.
Medida de dispersión
En el siguiente documento se presentan las 3 variantes de medición, observa sus

diferencias para una correcta aplicación.
Rango
El rango es la medida de dispersión más simple y se obtiene restando el valor

más pequeño (mínimo) del valor más grande (máximo). El rango se emplea más
en la Fase CONTROLAR.
Existe una carta de control llamada I-MR utilizada para monitorear la media y la
variación del proceso cuando se tienen observaciones individuales de tipo
continuo (lo abordarás con profundidad en esa fase).
El rango representa el intervalo que contiene a todos los valores de los datos que
están siendo analizados.
Se utiliza para comprender la cantidad de dispersión existente en el conjunto de

los datos.
Un valor grande indica que hay mucha dispersión, en tanto que uno pequeño
indica que es menor la dispersión de los datos.
La fórmula para calcular el rango o la dispersión de un conjunto de da tos es:
Rango = Valor máximo – Valor mínimo
En el caso de las horas extras de los empleados del negocio de café podemos ver
que el valor máximo es el 15 y el mínimo es 5, por tanto el rango es 10, obtenido
de 15-5 = 10.
La interpretación que se puede dar a ese valor, son las horas extras trabajadas
que se distribuyen con una variación o dispersión de 10 horas, siendo 5 el menor
número de horas trabajadas por los empleados y hasta un máximo de 15. Aquí
no se puede decir, si es poca o mucha la variación o dispersión de los datos,
porque se necesita un valor de referencia o bien, compararlo con otro conjunto
de datos para llegar a esa conclusión.
El resultado que arroja Minitab es el mismo que hemos calculado previamente.
Statistics
Variable Minimum Maximum Range

Horas Extras 5.000 15.000 10.000
Aquí se muestra que el valor mínimo del conjunto de datos es 5, el máximo es 15

y que el rango es 10, donde es la diferencia de 15 con 5.
Esto indica que, el rango no considera en ningún momento a la media, en tanto

que la desviación estándar sí lo hace, y es la medida de dispersión más utilizada.
Además, el rango solo emplea a dos datos, el máximo y el mínimo, ignorando al
resto del conjunto de los datos, y es este su principal inconveniente.
Varianza
La varianza es una medida que indica qué tanto se alejan en promedio las
diferencias cuadradas de cada dato respecto de su media.
La varianza es el cuadrado de la desviación estándar. Debes tener cuidado a la

hora de trabajar con los datos, debido a que existen dos fórmulas para calcular la
varianza, la primera es la poblacional (cuando tomas todos los datos) y la

segunda es la muestral (cuando seleccionas solo algunos o no dispones de todos
los datos).
Varianza poblacional:
Donde:
• σ2 : es la varianza de la población: (“σ” es la letra minúscula griega sigma)
• Xi : es el valor de cada observación de la población
• μ : es la media de la población
• N : es el total de observaciones de la población
• Σ : Indica sumatoria
Varianza muestral:
Donde:
• 𝒔𝟐 : es la varianza de la muestra
• Xi : es el valor de cada observación de la muestra
• ̃ : es la media de la muestra.
𝑿
• n : es el total de observaciones de la muestra.
Para el caso de las horas laboradas en el café, el cálculo se haría calculando la

varianza poblacional ya que el gerente incluyó a todos los trabajadores:
Como las unidades de la varianza son cantidades elevadas al cuadrado, en

realidad su uso o interpretación, se complica en la práctica toda vez que no se
tienen muchas unidades en términos cuadráticos.
Por ejemplo: no tenemos tiempo cuadrado, dinero cuadrado, personas

cuadradas, etc. Aquí se debe decir, que la variación en torno a la media de las
horas trabajadas es de 9.662 horas cuadradas, lo cual carece de sentido y por eso
utilizamos la desviación estándar, de la que nos ocuparemos a continuación, no
sin antes calcular el resultado si los datos hubieran sido muestrales:
Como te das cuenta, el hecho de considerar los datos muestrales hace que el
valor de la varianza aumente porque en lugar de dividir entre el total de los
datos, lo hacemos con un dato menos, que es un factor de corrección por
subestimar la varianza poblacional.
Consecuentemente, debes definir y tener cuidado al momento de seleccionar ya

sea toda tu población o una parte de ella.
Los resultados que arroja Minitab son en relación a la muestra porque casi
siempre estamos trabajando con ella en lugar de los datos poblacionales.
Statistics
Variable Mean Variance

Horas 10.733 10.352
Extras
Como puedes observar, existe una variación cuadrática en torno a la media

muestral de10.352 horas cuadradas, unidades de tiempo que no tienen sentido y
por eso es necesario de la desviación estándar.
Desviación estándar
La desviación estándar nos indica qué tan dispersos están los datos alrededor
de la media.
Como la desviación estándar es la raíz cuadrada de la varianza, es más práctica

trabajar con ella porque utiliza las mismas unidades que los datos originales, por
lo que es más fácil de interpretar. Un valor grande de la desviación estándar
indica mayor dispersión de los datos en torno a la media, en tanto que si es
pequeña, nos indicará que existe muy poca dispersión de los mismos en torno a
la media.
Recuerda de que independientemente de qué tan grande o pequeña es la

dispersión, aproximadamente el 68.27% de los datos caen dentro de más -menos
una desviación estándar, que el 95.45% de los datos caen en mas -menos 2
desviaciones estándar y que el 99.73% de los datos caen en mas -menos 3
desviaciones estándar alrededor de la media.
La fórmula para la desviación estándar poblacional es:
Donde:
• σ : es la desviación estándar de la población: (“σ” es la letra minúscula

griega sigma)
• X i : es el valor de cada observación de la población
• μ : es la media de la población
• N : es el total de observaciones de la población
La desviación estándar muestral:

Donde:
• s : es la desviación estándar de la muestra
• X i : es el valor de cada observación de la muestra
•𝒙
̃ : es la media de la muestra.
• n : es el total de observaciones de la muestra.
Regresando nuevamente al caso de las horas extras de los empleados del café
Se puede ver que la desviación estándar poblacional sería calculada de la

siguiente manera:
Afortunadamente esta medida de dispersión ya está en las mismas unidades que

los datos originales, es decir, en horas extras debido a que existe una dispersión
de 3.108 horas entorno a la media poblacional.
La desviación estándar muestras sería:

A partir de este dato, es posible realizar algunas operaciones con relación a

intervalos de confianza a 1, 2 o 3 desviaciones estándar, pero antes es pertinente
corroborar con Minitab el resultado.
Statistics
Variable Mean StDev

Horas
Extras 10.733 3.218
La diferencia en el tercer decimal es por el redondeo obtenido, ya que en

realidad la desviación estándar es de 3.2175.
Si el gerente quisiera definir un intervalo de confianza con base en las medias y

las desviaciones estándar, obtendría lo siguiente:
Tengamos en cuenta que como los datos son poblacionales, el intervalo generado
a más menos una desviación estándar va de 7.625 a 13.842 horas, esto es, que el
68.27% de los empleados trabaja entre 7.625 a 13.842 horas, lo que también
puede interpretarse que de cada 100 empleados aproximadamente 68 trabajan
entre 7.625 a 13.842 horas. También podemos deducir que el 95.45% de los
empleados trabaja de 4.517 a 16.950 horas. Así mismo también nos indica que de
cada 100 empleados, aproximadamente 95 trabajarían entre 4.517 a 16.950
horas. Como vemos ya son muchas y por ende, el riesgo de preparar café
equivocado se incrementa debido al cansancio.
Finalmente, podemos ver que aproximadamente 99.73% de los empleados

trabajan entre 1.408 y 20.059 horas, este porcentaje casi implica al 100%, por lo
que podríamos casi afirmar que de cada 100 empleados casi todos trabajan al
menos 1.408 hora y cuando mucho 20.059 horas, tiempo que es demasiado con
respecto a su jornada laboral normal.
Si establecemos que un empleado trabaja 8 horas diariamente durante 6 días a la

semana, estaríamos diciendo que algunos empleados trabajan 3.333 horas extras
diariamente (20.059/6 = 3.333), lo que representa un total de 11.333 horas
laborales y si a esto se le suma su hora de comida, podemos decir que el
empleado pasa más tiempo en el trabajo que en su casa y si agregamos el tiempo
de desplazamiento de casa al trabajo y viceversa, es comprensible por qué hay

cierta cantidad de cafés mal preparados toda vez que el empleado puede estar
cansado.
Los intervalos de confianza poblacionales se calcularon de la siguiente forma:
A la media poblacional se suma y se le resta el valor de la desviación estándar

poblacional, por ejemplo ±1σ = 10.352 ± 13.108= [7.625, 13.842]
Para el caso de los intervalos de confianza muestrales es exactamente el mismo

procedimiento pero tomando en cuenta la media y desviación estándar
muestrales.
Tema 3. Herramientas gráficas: Gráfica de puntos,

Histograma y Gráfica de caja
Cálculo de probabilidad
Al igual que las herramientas empleadas en el tema anterior, ahora tendrás la

oportunidad de conocer tres más.
Gráfica de puntos
A continuación revisa los detalles de la primera herramienta.
Gráfica de puntos
Una gráfica de puntos es una representación gráfica de los datos trazados o

graficados cada uno de ellos sobre una recta (eje de la x).
Dato repetido
Si un dato se repite se representa con un punto encima de otro (nos indica

rápidamente la moda) y de esta manera se puede ver gráficamente la tendencia,
la variabilidad y la forma de la distribución de los datos, de igual manera se
pueden determinar inmediatamente las observaciones mínimas y máximas.
Datos originales
Como los datos se grafican uno encima del otro, se mantienen los datos
originales evitándose la pérdida de los mismos. Esta gráfica funciona mejor
cuando el tamaño de la muestra es pequeño en tanto que los histogramas lo
hacen mejor para conjuntos de datos grandes.
Ejemplo de un gráfico de puntos
A continuación revisa las características de aplicación de la gráfica de café en el

caso pedir café.
Histograma
¿Qué es?
Un histograma es una herramienta gráfica que divide los valores del conjunto de
datos en muchos intervalos (llamadas clases) y representa su frecuencia por
medio de la altura de una barra.
Representación gráfica
El histograma se asemeja mucho a una gráfica de barras salvo que ésta se

emplea para datos cualitativos y aquella para datos cuantitativos.
Ubicación de clases
Las clases se colocan en el eje horizontal y las frecuencias de clase en el eje

vertical.
Consideración de uso
Es importante que consideres que como se trabaja con datos cuantitativos y se

miden con escalas continuas, el eje horizontal (el eje de las x) representa todos
los valores posibles y las barras se colocan de forma adyacente para que
muestren la naturaleza continua de los datos.
Caso horas extras
A través de estas herramientas, revisa la aplicación del caso con un histograma y

cómo se grafica la normal.
Del ejemplo de las horas extras podemos ver el histograma obtenido con Minitab
a continuación:
Histograma
Al igual que en la gráfica de puntos, se ve la misma información dado que los

datos son mediciones, las barras se encuentran adyacentes unas de las otras
cuando existe esas mediciones. Evidentemente existen espacios vacíos porque no
existen personas que hayan laborados 8, 11 o 14 horas en la región analizada por
parte del gerente de operaciones. Visualmente tiene mayor impacto utilizar un
histograma que una gráfica de puntos, además de que se aprovecha mejor
cuando el conjunto de datos es grande.
Gráfica de la normal
Minitab incluso nos ofrece la posibilidad de trazar la curva de la normal sobre el

histograma y poder corroborar también gráficamente cómo se comporta el
proceso (el conjunto de datos), como lo mostramos en seguida.
Adicionalmente, puedes ver que Minitab muestra información tanto del tamaño
de la muestra como de la media y desviación estándar. No olvides, que Minitab
calcula los estadísticos muestrales, la media y la desviación estándar muestral.
Gráfica de caja
Explora la tercera herramienta a continuación:
Una gráfica de caja es una representación visual, basada en cuartiles, que ayuda
a presentar un conjunto de datos.
La cual proporciona un resumen gráfico de la distribución de un conjunto de

datos.
La gráfica de caja muestra la forma, la tendencia central y dispersión de los datos,

es muy útil identificar cualquier posible valor atípico.
Al construir un diagrama de caja, sólo necesita cinco estadísticos: el valor mínimo,

Q1 (primer cuartil), la mediana (Q2), Q3 (tercer cuartil) y el valor máximo.
Función de los cuartiles
Antes de hacer un diagrama de caja, revisa a detalle cómo funcionan los cuartiles.
Los cuartiles
Los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales

como su nombre lo indica (aunque también hay deciles y percentiles, el primero
divide en 10 partes iguales al conjunto de datos en tanto que el segundo en 100).
Para trabajar con los cuartiles necesitamos que los datos estén ordenados de
menor a mayor y después aplicar la fórmula:
Donde:
• Q i : representa la ubicación a calcular

• n : es el total de los datos
• i : el número del cuartil que se desea calcular
En el caso de las horas extras, habiendo ya ordenado los datos como lo hicimos
para calcular la mediana, la información sería de la siguiente manera:
Los cuartiles calculados se muestran a continuación:
En el caso del Cuartil 1 (Q1), el valor 4 indica la posición, por tanto, el dato
referido es el 7, significa que el 25% de los empelados trabaja 7 o menos horas
(inclusive las 7 porque el dato 3 también es 7) y el 75% de los empleados trabaja
7 o más horas extras a la semana.
En el caso del Cuartil 2 o la mediana (Q2), puede notar que es la posición 8 y nos
dice que el 50% de los trabajadores labora 12 o menos horas extras (en este caso
como la posición 7 también contiene al 12, entonces se incluiría el valor para
decir que trabajan 12 horas o menos) y el otro 50% trabaja 12 o más horas (una
vez más como los datos 9 y 10 también son 12 horas, entonces se afirmaría que
el 50% trabaja al menos 12 horas).
Con relación al Cuartil 3 (Q3) que corresponde al dato 12, que el 75% de los
empleados trabaja 13 o menos horas y el 25% restante 13 o más de esa cantidad
(se aplica el mismo criterio del Q1 y Q2 dado que existen datos que se repiten en
la posición 13).
También se puede saber con los datos ordenados que el valor mínimo es el 5 y el
valor máximo es el 15 y dentro de la nomenclatura del diagrama de caja, a estos
valores se les denomina bigotes. Finalmente, un estadístico que no aparece pero
que es relevante, es el rango intercuartil, que se obtiene de la diferencia de Q3 -
Q1 y representa al 50% de los datos, en este caso, dado que Q3=13 y Q1=7,
entonces el rango intercuartil es 6, obtenido de 13-7.
En el caso de Minitab, nos proporciona la gráfica de caja, pero no nos muestra los
datos duros (números) de los cuartiles, por lo que en su momento será necesario
colocar el puntero encima del diagrama para que te muestra la información que
hemos obtenido manualmente.
No obstante, también es posible obtener esos resultados de la misma forma en

que lo hicimos con la media, mediana, moda, rango, varianza y desviación
estándar.
Statistics
Variable Total Count Minimum Q1 Median Q3 Maximum IQR

Horas 15 5.000 7.000 12.000 13.000 15.000 6.000
Extras
Como se ha visto, cuando se coloque encima de la gráfica, se obtendrá la misma

información en el rectángulo de color amarillo:
Como puedes ver, existe mucha dispersión de Q1 a la mediana a pesar de que se

tienen la misma cantidad de datos (hay una diferencia de 5 horas extras), de igual
manera es evidente que donde menor dispersión hay es de la mediana a Q3 (hay
una diferencia de 1 hora).
También se puede observar que los datos superiores a la mediana tienen menor
dispersión que los inferiores a ella (de 12 a 15 siendo el rango de 3 para la parte
superior en tanto que la inferior es de 5 a 12 siendo el rango de 7). Esto indica
que el 50% de los trabajadores trabajan al menos 12 horas a la semana en
comparación con los trabajadores que laboran mucho menos tiempo extra, de
donde podemos inferir nuevamente, que al menos la mitad de los empleados
están trabajando mucho tiempo extra ocasionando potencialmente que se
preparen mal los cafés solicitados por los clientes.
A manera de cierre de este tema, lo que nos muestra la gráfica de caja y la razón
por la cual es muy importante tenerla siempre en nuestros proyectos de Lean Six
Sigma, es la información que aparece en la gráfica de abajo:
En ella se identifican los valores atípicos pequeños (que están por debajo de Q1-
1.5*Rango Intercuartil), el valor mínimo (bigote inferior), el cuartil 1, la mediana,
el cuartil 3, el rango intercuartil, el valor máximo y valores atípicos grandes (que
están por encima de Q3+1.5*Rango Intercuartil). Estos datos atípicos (es un valor
que no concuerda con el resto de los datos) normalmente aparecen con un
asterisco ya sea en la parte inferior o superior del diagrama de caja.
Tema 4. Introducción a la capacidad de proceso para variables

continuas y discretas
Introducción a la capacidad de procesos para variables continuas y
discretas.
Hemos llegado al último tema de la fase de MEDIR, que concluye con determinar
cuál es la capacidad de nuestro proceso para producir artículos buenos.
Recordemos
Recordemos que, el análisis de capacidad proporciona una evaluación

cuantitativa de la habilidad que tiene un proceso para cumplir con los requisitos
o especificaciones que se le imponen, es usado para evaluar los resultados de los
procesos a través de índices de capacidad, que es la razón o proporción de la Voz
del cliente entre la voz del proceso. Es decir, es la habilidad del proceso para
cumplir con las especificaciones de los clientes. Es importante establecer esta
habilidad inicial, para que se logre como referencia y luego comparar una vez
terminado el proyecto y establecer la mejora que se obtuvo.
Objetivo
El objetivo de los estudios de capacidad de proceso es monitorear si un proceso

está en control estadístico, y si el proceso es capaz de cumplir con las
especificaciones, estos estudios tienen significado cuando el proceso es estable y
predecible, esto es, que está bajo control estadístico y que sabemos con cierta
confianza de que la(s) siguiente(s) observación(es) caerá(n) dentro de los límites
de control. Adicionalmente el análisis de capacidad se suele reportar como
Niveles de Sigma. En estos estudios, se cuenta con dos datos de salida relevantes,
uno es la variación presente en el proceso y qué tan centrado es el mismo con
relación a las especificaciones.
Consideración
Bajo esta consideración, entonces podemos afirmar que el resultado de cualquier

proceso es definido como si es o no capaz, si está o no centrado (considerando
que está bajo control). Esta capacidad y centralidad determinan el número de
defectos generados. Si el proceso no es capaz (que se producen muchas piezas
defectuosas porque no se cumple con las especificaciones) debe encontrarse una
manera de reducir la variación, en tanto que, si no está centrado, se debe
encontrar una manera de cambiar el desempeño. Cuando un proceso no es capaz
y además no está centrado, lo primero que debes lograr es minimizar y controlar
la variación debido a que una alta variación genera incertidumbre, ya luego te

preocuparás por mover la media del proceso.
Diferencias
Existen diferentes formas de ver la diferencia entre los datos a corto y largo
plazo. En el corto plazo, básicamente estamos controlando todas las fuentes de
variación, ya sea un turno en particular, una línea de producción, cierto empleado
u operario, pocos proveedores, etc. En términos sencillos, los datos a corto plazo
son una "instantánea" de la habilidad o capacidad del proceso. Para considerar
que se trabaja en el corto plazo, podemos decir que incluye algunos días y hasta
un par de semanas inclusive. Por lo contrario, los datos largo plazo incluyen (en
teoría) toda la variación que podríamos ver en nuestro proceso, las cuales
incluyen, muchos turnos, varias líneas de producción, diferentes empleados,
muchos proveedores, etc., por lo que se convierte en un “video” del desempeño
del proceso. Para considerar que se trabaja en el largo plazo, se puede incluir un
par de meses, aunque generalmente se establece alrededor de 4 meses, aunque
depende mucho de las variables que estemos analizando. Con base en lo
anterior, ya sabes que la variación de largo plazo es mayor que la de corto debido
principalmente a las diferencias de las condiciones de operación, por ejemplo,
temperatura, humedad, múltiples empleados, diferentes proveedores
proporcionando diferente calidad y tipo de materia prima, desgaste de la
maquinaria, etc.
Herramientas
Hay diferentes indicadores de capacidad de proceso, por ejemplo, para datos

continuos se emplea el Cp (capacidad potencial de corto plazo), Cpk (capacidad
real de corto plazo), Pp (desempeño potencial en el largo plazo) y Ppk
(desempeño real en el largo plazo) o bien a través de los Niveles de Sigma (o
Zlevel). En el caso de las variables discretas, por ejemplo, de tipo Binomial, se
calcula el porcentaje de defectuosos o bien partes defectuosas por millón (PPM
Defectuosas) y también el Nivel de Sigma (o Zlevel). Si los datos son de tipo
Poisson, calcularemos tanto los Defectos por Unidad (DPU) como Defectos por
Millón de Oportunidades (DPMO), al igual que el Nivel de Sigma (o Zlevel).
Capacidad de proceso datos continuos
A continuación se presenta el proceso continuo y comprobación de distribución.
Capacidad de proceso de datos continuos
Antes de realizar un análisis de capacidad para datos continuos se debe verificar

la forma de la distribución, ya que según sea, se deberán determinar las
herramientas estadísticas idóneas. Es importante mencionar que las fórmulas y
procedimientos que se presentan en esta sección son válidas para distribuciones
normales.
Process capability
Para conocer el índice de la habilidad potencial del proceso (process capability) en

el corto plazo empleados la siguiente fórmula:
Donde:
• Cp : Capacidad potencial del proceso en el corto plazo
• USL : Límite Superior de Especificación
• LSL : Límite Inferior de Especificación
• σST : Desviación estándar de corto plazo
La desviación estándar de corto plazo, es promedio del rango que existe del
subgrupo (muestra o dato) 1 el subgrupo 2, del 2 con el 3 y así sucesivamente,
todo dividido entre la constante d 2 (generalmente de tamaño 2 con un valor de
1.128):
Para determinar la capacidad real del proceso en el corto plazo empleamos la

siguiente fórmula:
Comprobación de distribución
El Cpk, considera el valor mínimo entre el Cpl y Cpu. El Cpk, toma como referencia
el valor de la media al límite de especificación más cercano.
Con respecto a la capacidad potencial del proceso, mejor conocida como

desempeño del proceso (process performance) en el largo plazo empleamos la
siguiente fórmula:
Donde:
• Pp : Capacidad potencial del proceso en el corto plazo

• USL : Límite Superior de Especificación
• LSL : Límite Inferior de Especificación
• σLT : Desviación estándar de largo plazo
•
La desviación estándar de largo plazo considera la variación de todo el proceso

durante un período prolongado de tiempo y se calcula con la desviación estándar
muestral:
Para establecer la capacidad real del proceso en el largo plazo empleados la

siguiente fórmula:
Caso pedir café
Pedir Café (Capacidad de proceso datos continuos)
Veamos el ejemplo del proceso Pedir Café:
Una vez que el gerente ha validado la confiabilidad del MSA para variables
continuas, entonces solicita a sus empleados recolectar una taza de café de 240
ml, cada 10 minutos durante una jornada de 8 horas. El total de tazas es de 48
unidades (cada una de ellas es llamada subgrupo racional de tamaño 1) y son
medidas en términos de su volumen de 240
ml, con un margen de error más-menos 3 ml. Por tanto, la especificación

establece por tanto que el límite inferior sea de 237 ml, y el superior de 243 ml,
(obtenidos de 240-3 y de 240+3). Los datos recolectados se muestran a
continuación:
A partir de estos datos se aplican las fórmulas previas y obtenemos:
La desviación estándar de corto plazo es obtener el promedio de todos los

rangos y dividirlo entra la constante d2 eso nos arroja el valor de 0.8488 que
empleamos para calcular la capacidad potencial de corto plazo, la cual solo
relaciona las especificaciones con 6 veces la variabilidad del proceso, obteniendo
1.1781.
Este valor de 1.1781, es un valor relativamente bajo, debido que indica que el
proceso es apenas capaz para producir piezas que cumplen con las
especificaciones del cliente, lo ideal es un valor de Cp=2, que representa un nivel
de Six Sigma, se producen no más de 3.4 PPM defectuosas o no conformes.
La capacidad real, Cpk, la obtenemos con el valor mínimo ya sea de Cpl o de Cpu,
donde para el primero es de 1.1454 y 1.2108 para el segundo, por tanto,
establece cpk a 1.1454, que como muestra la primera gráfica de Minitab, está
redondeado a 2 decimales, siendo 1.15.
Se aprecia que el valor de Cpk es menor al de Cp, siempre ocurre así salvo una
excepción cuando ambos son iguales y esto se da cuando la media del proceso
está centrado en los límites de especificación, en cuyo caso tanto Cp y Cpk son
iguales a 2.
En la gráfica inferior son diferentes escenarios en los que la media del proceso se
mueve y con ello el Cpk es diferente en cada uno de los ejemplos a pesar de que
el Cp=2, debido a que no toma en cuenta la media del proceso como sí lo hace el
Cpk.
Cuando el Cpk es negativo, refleja que más de la mitad de los servicios y/o
productos, son no conformes.
Cuando el Cpk=0 estamos generando, aproximadamente la mitad de los

productos defectuosos, como refleja en el ejemplo 2.
Si el Cpk está entre 0 y 1, parte de la producción es defectuosa.
Para los 3 ejemplos previos, indican que el proceso no es capaz, por la

producción de piezas como defectuosas.
Cuando el Cpk=1 el proceso ya es capaz, teóricamente todo lo que produciría el

proceso será bueno, no habría defectuosos (la realidad es que siempre los hay
aún), por lo que un valor cada vez más grande implica que el proceso es cada vez
mejor para producir artículos o servicios buenos, libres de defectos. Idealmente,
se pretende que sea cercano o superior a 2
Con relación al cálculo de la capacidad potencial en el largo plazo, debemos

calcular primero la desviación acumulada del proceso, la de largo plazo,
obteniendo el siguiente resultado:
Esta desviación o variación se debe a disponibilidad de los turnos, a las líneas de

producción, a los diferentes empleados, a que se tengan muchos proveedores,
etc.
La fórmula para calcular esta capacidad potencial en el largo plazo es muy similar
a la empleada en el corto plazo, con la salvedad de la distribución estándar
empleada. De ahí que el resultado de Pp sea inferior al de Cp, como se muestra
en el cálculo de abajo.
Por lo que se infiere, de acuerdo a lo dicho de la imagen anterior (ejemplo 3), que
el proceso en el largo plazo ya no será capaz, ya que para desgracia de la
compañía, estará produciendo piezas defectuosas.
De la misma manera se procede para estimar la capacidad real del proceso en el

largo plazo, el Ppk es inferior al Pp, por lo que es evidente que se están
produciendo piezas defectuosas toda vez que el proceso no es capaz.
Los cálculos realizados se confirman con la salida de Minitab que muestra

algunos datos redondeados a dos dígitos decimales, particularmente lo
concerniente al análisis de capacidad.
• En el recuadro inferior derecho, se aprecia la información respecto a los Datos

del Proceso:
• El Límite Inferior de
Especificación es 237, no
existe un valor objetivo, el
Límite Superior de
Especificación es 243, la
Media de la muestra es
239.917, el total de los
datos recolectados es 48
(las tazas de café), la
desviación estándar de
largo plazo (overall) es de
1.00707 en tanto que la de
corto plazo es de 0.8488 (within).
• El histograma muestra la caracterización del proceso en el corto (la curva

normal de color roja) y largo plazo (curva normal color negra punteada) junto
con los límites de especificación a los costados.
• En el recuadro del lado derecho podemos apreciar el desempeño de largo

plazo (overall) y corto plazo (within) con sus respectivos valores según los
hemos calculado manualmente.
• En el recuadro inferior Minitab muestra el desempeño del proceso, tanto el

observado (de los subgrupos recolectados), como el esperado en el corto y
largo plazo, todo en función de las PPM que son inferiores al límite inferior de
especificación como al superior y la suma de ambos. Estos números
representan el total de PPM defectuosas. Es importante considerar que a
pesar de que en la muestra no se observó ninguna pieza (café) fuera de las
especificaciones, la metodología nos indica que en el corto plazo se esperan
alrededor de 435 o 436 (se sugiere siempre el techo), en tanto que en el largo
plazo, aproximadamente 2989.
• Así mismo la gráfica indica que el proceso se está inclinando a poner menos
contenido del promedio, la media del proceso está por debajo del promedio
de la especificación, se espera en el corto plazo más unidades que están por
abajo del límite inferior de especificación, en tanto que en el largo plaz o,
también hay más defectuosos en el límite inferior que en el superior. Se
observa también que en las gráficas de la normal, la variación de largo plazo
es mayor que la de corto, debido fundamentalmente a la variación acumulada
y eso nos genera más defectos o unidades no conformes y por esa razón van
de 436 en el corto plazo a 2989 en el largo.
Otra manera de lleva a cabo

este análisis es con relación a
los Niveles de la Six Sigma o
Benchmark de la Z, ya que
existe una correspondencia
entre estos niveles y los
valores de Cp. Por ejemplo:
puedes comparar entre la
gráfica anterior de Minitab y la
siguiente figura que cuando el
Cp=1.18, el Z.Bench de corto
plazo (Zlevel-ST) es de 3.33 o
que cuando el el Pp=0.99, el
Z.Bench de largo plazo (Zlevel-LT) es de 2.75. Incluso te darás cuenta que las no
conformidades son exactamente iguales. Con base en esto, se pueden utilizar los
valores de Zlevel para hacer más fácil la comprensión cuando nos referimos a la
capacidad de proceso dentro de la metodología.
Otra manera de calcular el Zbench es

con la Calculadora de Six Sigma que está
disponible como Sigma calculator en el
apartado de recursos de apoyo, cuyo
resultado coincide con lo que hemos
estado haciendo de forma manual. Es
importante que tengas tanto los límites
de especificación como de control así
como también la desviación estándar de
largo plazo y definir el tamaño del
subgrupo racional, que para nuestro
caso fue 1.
Los datos referidos aparecen en color verde y el Zbench en color amarillo, que se
puede corroborar con el obtenido por Minitab.
Capacidad de proceso para variables Binomiales
Revisa la siguiente información para predecir otros resultados.
Propiedades de Caso pedir café
A continuación revisa las propiedades de capacidad de proceso para variables

binomiales que ya viste en el caso pedir café.
En la primera, se dice que un café es clasificado como conforme o no conforme

(aceptado o rechazado, cumple o no con especificación del cliente).
En la segunda propiedad, cada café preparado correcta o incorrectamente se suma a

la cantidad de conforme o no durante una jornada.
En la tercera, se considera que preparar un café que cumpla con las especificaciones
del cliente tiene la misma probabilidad que cualquier otro café preparado.
La cuarta propiedad, al preparar café, si éste cumple o no las especificaciones, no hay

impacto sobre la preparación de otro, es independiente uno del otro.
Muestra de datos preparación de café
A continuación revisa la cantidad de PPM´s durante el periodo de prueba.
Muestra de datos
Al tener procesos que generan datos de atributos, deben existir alternativas de

comparación con otros procesos que generen datos variables, para comenzar, se
necesita conocer el porcentaje de no conformes (datos de atributo), posteriormente
convertirlos a Z (datos variables).
La tabla siguiente muestra los datos de cafés mal preparados en una sucursal
durante un período de 50 días (2 meses trabajados):
Sabemos que podemos hacer un análisis de capacidad para variables atributo,

particularmente binomial, porque solo existen dos opciones del resultado de
preparar un café, cumple o no cumple. De ahí que debemos calcular el
porcentaje de cafés no conformes para cada día y luego obtener el promedio o
bien sumar los cafés no conformes y dividirlos entre el total de cafés preparados
en ese lapso.
La fórmula que empleamos para calcular el porcentaje de no conformes es:

Cuando la aplicamos al caso del café, tenemos que incluir los cafés no conformes
por cada uno de los días y dividirlo entre el total de cafés preparados en ese
lapso, como se muestra en la siguiente operación:
PPM defectuosos
Como nos interesa conocer el total de cafés no conformes en un millón, que es

otra medida empleada, debemos multiplicar la proporción resultante por un
millón. El resultado nos muestra que dadas las condiciones actuales si
preparamos un millón de cafés, 38,550 cafés serían no conformes, es decir, que
serían rechazados y habría que rehacerlos en su caso.
Dado que nos puede interesar tener alguna referencia respecto a los niveles de Z,
debemos buscar el área bajo la curva del lado derecho de la distribución normal
que corresponda a la proporción no conforme, en este caso 0.03855021. Se te
muestra el área acumulada de cola izquierda, entonces deberás restar a 1 la
proporción encontrada (1.00 - 0.03855021 = 0.96144979).
En este caso, el valor más cercano es 0.9616364 que corresponde a una Z =
1.77). Ahí que se está trabajando a 1.77 sigmas.
Si se calculará un valor más preciso, se puede utilizar la fórmula en Excel
“=NORM.S.INV(0.96144979” (la fórmula está expresada en inglés) o bien proceder
de la misma manera cómo se indicó el cálculo de la Z en ese tema. El valor
resultante de Z es 1.76776367. Si se interesará saber cuál es tu Zbench o Zlevel
o ZST, se debe sumar a este valor 1.5, lo que resultaría en 3.26776367 y se
comprueba con el uso de la Calculadora de Sigmas que está disponible como
“Anexo 1 Sigma Calculator.xls” cuyo resultado coincide con lo que se ha estado
haciendo de forma manual.
Todo lo que se vio en el ejemplo, Minitab lo puede también realizar, incluso

proporciona un poco más de información como se muestra en la siguiente
imagen:
Análisis de capacidad
En esta imagen podemos apreciar 4 gráficas y un resumen estadístico, las

describimos a continuación:
 En la gráfica superior izquierda, podemos ver a través del “Gráfico de Control

p” (que analizarás a mayor detalle en la Fase CONTROLAR), que se encuentra
en control el proceso, que el promedio de no conformes es de 0. que es el
mismo que calculamos.
 En la esquina superior derecha, podemos ver la tasa de defectuosos para cada
una de las muestras donde incluso puedes notar que a medida que el tamaño
de la muestra aumenta, el porcentaje de defectuosos empieza a disminuir.
 En la esquina inferior izquierda, se muestran las 50 muestras y su porcentaje
de no conformes.
 En la cuarta gráfica, esquina inferior derecha, se muestra el histograma del %
de defectos y la frecuencia presentada.
 En torno al resumen estadístico, puedes notar que el porcentaje no conforme
es 3.86 y se establece un intervalo de confianza del 95% para los no
conformes que va de 3.63% a 4.09%. También puedes corroborar que los
defectos por millón resultaron ser 38550 tal como lo calculamos nosotros. Es
posible también apreciar un intervalo del 95% para estos defectos, de manera
tal que el mínimo de cafés mal preparados serían 36262 y como máximo se
esperan 40940. Finalmente, los valores de Zlevel que corresponde a 1.7678 y
que nosotros obtuvimos como 1.76776367, que al redondearlo a 4 decimales
es el mismo resultado 1.7678.
Como puedes ver, tienes diferentes maneras de calcular el índice de capacidad de

tu variable atributo, particularmente la binomial, sea por fórmula, sea por sigma
calculator o sea por Minitab.
Capacidad del proceso para variable Poisson

Los cuartiles
Al igual que la capacidad de proceso para variables atributos binomiales, la de

Poisson, hereda las propiedades de las distribuciones de probabilidad de Poisson
y su distribución de probabilidad describe el número de veces que se presenta un
evento durante un intervalo específico ya sea tiempo, distancia, área o volumen.
Entre las propiedades que caracterizan a la distribución de Poisson, la variable
aleatoria es el número de veces que ocurre un evento durante un intervalo
definido; la probabilidad de que ocurra el evento es proporcional al tamaño del
intervalo y sus intervalos no se superponen y son independientes entre sí.
Para trabajar con esta distribución es necesario la media del número de defectos,
de errores o de la característica que nos interesa. En el caso del ca fé, aunque
pudieran ser múltiples los errores al seleccionar la opción del café (expresso con
todas sus variedades, cappuchino, latte, moka, macchiato, etc) en realidad lo que
interesa es la oportunidad de cometer un error porque independientemente de
que seleccione uno incorrecto, solo existe esa misma oportunidad de equivocarse
(una oportunidad es la posibilidad de cometer un error). En este sentido, lo
mismo ocurre con el tipo de leche (deslactosada, light, entera, almendra, etc.),
por lo que bajo esta consideración podemos ya decir, que existen 6
oportunidades para cometer un error al momento preparar un café: 1) decidir si
la bebida es descafeinada; 2) el número de shots; 3) el jarabe empleado; 4) tipo
de leche solicitada; 5) si requiere personalización y 6) el tipo de bebida. De ahí
que puede ocurrir que un café tenga o no un error o múltiples errores y habría
que contabilizarlos para saber cuántos se cometieron con respecto a la cantidad
de bebidas preparadas.
La tabla siguiente muestra los datos de una sucursal de café para una muestra de
100 cafés, seleccionados aleatoriamente en el mismo período de 2 meses y que
pueden o no contener algún tipo de error en las 6 oportunidades mencionadas
en el párrafo anterior.
Al sumar los cafés con defectos de la tabla anterior, se obtienen 13 defectos en

100 cafés preparados. Se aprecia que existen cafés preparados correctamente
(89), otros con un error (9) y que la cantidad de errores cuando mucho es de dos
(2).
A partir de esta información, se puede calcular algunas métricas como son los
Defectos Por Unidad, Defectos Por Oportunidad y Defectos Por Millón de
Oportunidades (DPU, DPO y DPMO respectivamente por sus siglas en inglés), las
cuales indican cómo está operando el proceso o producto con base en la
cantidad de defectos. Es importante seleccionar adecuadamente la métrica
debido a que ayuda a evaluar el rendimiento con relación a las expectativas del
cliente, también sirven de base para los proyectos y objetivos de mejora al mismo
tiempo que para comunicar el nivel de conformidad a nuestros clientes.
Veamos cada uno de ellos:
Concepto Aplicación
Los defectos por unidad es el número total de defectos dividido

entre el número total de unidades incluidas en el conjunto de
los datos, generalmente una muestra. Para el caso del café, la
fórmula empleada y los resultados se muestran en seguida.
DPU = Defectos Por Unidad
El resultado de 0.13 indica que cada café tiene en promedio

0.13 defectos o que se requieren aproximadamente 8 cafés
para que exista un café con un error (0.13 * 8 = 1.04).
Los defectos por oportunidad es el número total de defectos

dividido entre el número total de oportunidades de defectos en
el conjunto de los datos. Para el ejemplo señalado, la fórmula
empleada y los resultados se muestran a continuación,
teniendo presente que cada café puede llegar a tener hasta 6
DPO = Defectos Por errores.
Oportunidad
El 0.0216 es la posibilidad de que un defecto (de los 6 posibles)

se presente a la hora de preparar el café.
Los defectos por millón de oportunidades es el número total de

defectos dividido entre el número total de oportunidades
multiplicado por un millón. Esta métrica nos sirve para
comparar procesos con diferentes complejidades porque
estandariza el número de defectos en el nivel de oportunidad.
La fórmula aplicada y el resultado se muestra a continuación.
DPMO = Defectos Por

Millón de Oportunidades
Esto indica que existen 21667 defectos por millón de

oportunidades, es decir, se producirán 21667 defectos por cada
millón de cafés preparados.
De la misma manera que se emplea Minitab para variables continuas y para

variables binomiales, haremos lo respectivo con la Variable Poisson para
determinar sus métricas, con la salvedad de que se necesitarán hacer algunos
cálculos adicionales para calcular estas métricas.
Esta imagen nos muestra información sobre el análisis de capacidad de los

defectos presentes en la preparación de café. Podemos apreciar lo siguiente:
• En la esquina superior izquierda que el promedio de defectos por unidad es

de 0.13 (la línea central) así como también que existen algunas muestras que
están violando la prueba 1 de “establece” que hay un punto más allá de 3
desviaciones estándar a partir del centro (esta gráfica U, la analizarás más a
detalle en la fase CONTROLAR).
• La gráfica superior derecha es la gráfica de Poisson que nos contrasta los
defectos observados con respecto a los esperados.
• La gráfica inferior izquierda nos muestra los defectos por unidad
acumulativos.
• La cuarta y última gráfica es el histograma que nos indica por clase (los
valores 0, 1 y 2) el número de defectos contenidas en cada una de ellas, 89
cafés libres de defectos, 9 con un error y 2 con dos errores cometidos al
momento de la preparación).
• En el cuadro de resumen podemos encontrar a un intervalo de confianza al
95% que la media de los defectos es 0.13, que cuando menos habrá 0.0692 y
como máximo 0.2223 defectos por unidad, además, que la media de los
defectos por unidad es de 0.13 con sus límites que son los mismos que los
señalados recientemente en la media de los defectos, finalmente que el
mínimo de defectos por unidad es de 0 .0000 y el máximo es de 2.0000 y no
existió un defecto por unidad objetivo en el análisis.
Estos mismos resultados se pueden encontrar usando la calculadora de sigma

que empleamos para el análisis de capacidad para variables continuas y para la
distribución Bimonial:
El cálculo de Zlevel o ZST, se puede realizar buscando en la Tabla de la

Distribución Normal Estándar del Anexo 1 del Curso de la Fase DEFINIR, el valor
de 0.978333 (1.00 - 0.021667 = 0.978333).
En este caso el valor más cercano es 0.978333 que corresponde a una Z = 2.02, al
que se deberá sumar 1.5 sigmas y obtendrás el valor de 3.52 que es el valor
encontrado con la calculadora. Recuerda que si quisieras un valor de mayor
precisión deberás emplear en Excel la fórmula “=NORM.S.INV(0.978333”, la cual
otorga un valor de 2.02047636 que sumados a 1.5 sigmas es 3.52047636 que es
valor obtenido con la calculadora con redondeo a 5 decimales.
Cualquiera que sea la forma que elijas para calcular el análisis de capacidad,
recuerda que los resultados son los mismos, solo toma en cuenta que cuando
emplees Minitab para calcular el DPO y el DPMO, debes hacer incluir el número
de oportunidades en la operación.
Reflexión final
A continuación se presentan las ideas y herramientas de reflexión.
Aprendizaje
En este curso has aprendido sobre la importancia de determinar de forma
apropiada el índice de capacidad acorde a la variable de interés medible o a
través de los atributos tanto Binomial como Poisson. Has aprendido a calcular
estos índices de 3 maneras diferentes, sea de manera manual utilizando el apoyo
de las tablas de la Distribución Normal Estándar con apoyo de Ms -Excel, Minitab
o utilizando la calculadora de sigmas proporcionadas como una herramienta más
en esta fase de MEDIR.
Aplicaciones
A pesar de que solemos utilizar la habilidad potencial (Cp) y el desempeño del
proceso (Pp) es conveniente acostumbrarte a utilizar los niveles de Z, conocimo s
como Zbench o Zlevel en sus dimensiones de corto o largo plazo.
La importancia de haber terminado esta fase y haber comprendido los conceptos
es que te permite sentar los cimientos estadísticos para aplicarlos en tu proyecto,
ya que si no existe evidencia de cómo está tu proceso actualmente, te será muy
difícil comprobar una mejora significativa en los niveles de Sigma, logrando con
ello los beneficios económicos correspondientes acorde al proyecto que has
seleccionado.
Referencias
Las fuentes bibliográficas y materiales de apoyo que puedes consultar para

profundizar en los contenidos del curso son los siguientes:
Bibliografía
• Kubiak, T.M. y Benbow, D.W. (2017). The Certified Six Sigma Black Belt
Handbook. United States of America: ASQ
• Munro, R., et. al. (2015). The Certified Six Sigma Green Belt Handbook. USA:
ASQ Quality Press.
• Open Source Six Sigma. (2014). Black Belt Training Materials. USA.
• Wortman, Bill, et. al. (2014). The Certified Six Sigma Black Belt Primer. USA:
Quality Council of Indiana
Materiales de apoyo
• Minitab 19 Statistical Software (2019). [Computer software]. State College, PA:

Minitab, Inc. (www.minitab.com)
• Anexo1. Tabla_Distribucion_Normal_Estandar
• Anexo2. Tabla_Conversion (Zlevel a ppm)
• Sigma calculator
Créditos
Autor: Profesor Froylan Franco Herrera
Equipo de diseño y producción: Vicerrectoría Académica y de Innovación

Educativa.
Aviso legal
Se prohíbe la reproducción total o parcial del sitio o cualquier contenido del

mismo. D.R.© Instituto Tecnológico y de Estudios Superiores de Monterrey,
México. 2020. Ave. Eugenio Garza Sada 2501 Sur Col. Tecnológico C.P. 64849 |
Monterrey, Nuevo León | México | Aviso Legal | Aviso de privacidad.
Derechos Reservados 2020 Tecnológico de Monterrey

Prohibida la reproducción total o parcial de esta obra sin
expresa autorización del Tecnológico de Monterrey.

Curso 4. Estadisticas y Herramientas Graficas Basicas

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso 4. Estadisticas y Herramientas Graficas Basicas

Cargado por

Copyright:

Formatos disponibles

Estadísticas y

Para comenzar, te invitamos a revisar la siguiente información, la cual te

Durante este curso aprenderás a realizar Pruebas de Hipótesis enfocadas a

A lo largo de este curso, el participante:

 Emplea herramientas de estadística descriptiva como pruebas de bondad

de ajuste, histogramas y Box Plot para comprender el proceso.

 Establece la capacidad de proceso acorde a tipo de datos del CTQ.

Los temas que estudiarás son los siguientes:

Estadísticas y herramientas gráficas básicas

Tema 1. Pruebas de bondad de ajuste

Tema 2. Medidas de centralidad y dispersión

Tema 3. Herramientas gráficas: Gráfica de puntos, Histograma y Gráfica de caja

Tema 4. Introducción a la capacidad de proceso para variables continuas y

Contexto industrial automotriz

Algunos ejemplos del llamado a revisión o reparación se dieron el pasado septiembre

ocasionando daño a las llantas y consecuentemente aumentando el riesgo de

En el presente curso, aprenderás a calcular la cantidad de defectos o productos

Tema 1. Pruebas de bondad de ajuste

A continuación conocerás el proceso de recolección de datos a través de pruebas

Esto es importante porque la distribución normal es la distribución más utilizada a lo

Dicho lo anterior, veamos primero en qué consiste la distribución normal y luego

La distribución normal tiene algunas características o propiedades muy particulares,

Cálculo de una probabilidad

Afortunadamente no deberás preocuparte, ya que contamos con tablas para la

distribución de probabilidad estándar que tiene media 0 y desviación estándar 1, lo

que nos permite convertir cualquier distribución de probabilidad normal en una

distribución de probabilidad normal estándar si se resta la media de cada

observación y dividimos la diferencia entre la desviación estándar. Los resultados

reciben el nombre de valores z.

De esta manera podemos decir que el valor z es la distancia de la media, medida en

unidades de desviación estándar y su fórmula es:

• X: es el valor de cualquier observación y medición.

• σ: es la desviación estándar de la distribución.

Podemos tener dos conjuntos de datos teniendo la misma desviación estándar

Ahora que ya conoces las características de la distribución normal, y haz establecido

Las pruebas de bondad de ajuste requieren el establecimiento de pruebas de

Una hipótesis estadística es cualquier afirmación acerca de un parámetro de la

Hipótesis Nula (H0)

Hipótesis Alternativa (H1)

La Hipótesis Alternativa (H1), generalmente representa la pregunta que debe

Valor en las hipótesis

Dadas las variables, a continuación se presentan cómo se categorizan las premisas

Tradicionalmente en la metodología Six Sigma, planteamos las hipótesis como:

H1 (Hipótesis alternativa): Sí hay relación, sí hay cambio, sí hay diferencia, sí afecta, sí

 10% o 0.10 la probabilidad de cometer un error es grande, es muy flexible.

Aunque lo anteriormente explicado de las Pruebas de Hipótesis es como

Comprobación del supuesto de normalidad

Como último subtema conocerás el uso de la prueba Anderson-Darling, sus

Es la situación, de no comprobar el tipo de distribución que siguen los datos, se

La importancia de la comprobación del supuesto de normalidad radica en que

Las hipótesis se plantean de la siguiente manera:

H0: Lo datos siguen una distribución específica (normal en nuestro caso)

H1: Lo datos NO siguen una distribución específica (normal en nuestro caso)

La forma gráfica en que validamos si los datos se comportan de forma normal es

En este ejemplo tendrás la oportunidad de revisar cómo aplicar lo aprendido al caso

En un sector de una de las regiones de la compañía de café, se cree que la mala

Tema 2. Medidas de centralidad y dispersión

En este tema conocerás el comportamiento del proceso con dos formas de

Medias de centralidad o ubicación. Las medidas de ubicación generalmente se

En el siguiente esquema se presentan algunos conceptos importantes que debes

Medidas de centralidad o ubicación

En el siguiente PDF, revisa las herramientas del proceso principal de medición.

La media poblacional, es la suma de todos los valores observados o registrados en la