Módulo Estadística-1. Conceptos Básicos

Six Sigma – Green Belts 2022
Módulo de Estadística
Conceptos Básicos
Ing. Ricardo Ingaramo
1
Objetivos:
 Conocer las herramientas estadísticas útiles para el análisis de datos

registrados por una organización
 Aplicar en forma práctica esas herramientas, interpretar adecuadamente sus

resultados, y tomar decisiones con base estadística
 Realizar el procesamiento estadístico empleando el software Minitab
 Valorar la importancia de la estadística como soporte del Programa Six Sigma
2
Estudio de la variación
El Área de Recursos Humanos debe encargar una nueva partida de uniformes para el personal de
planta. Para determinar qué cantidad de uniformes necesita pedir de cada talle, se realiza un
relevamiento sobre las características físicas del personal. Uno de los datos que se analiza es la
altura. Registremos la altura de cada uno de los participantes de este curso, y veamos qué
conclusiones podemos extraer del relevamiento:
155 160 165 170 175 180 185 190 195

Altura (cm.)
Conclusiones:
Si es inevitable encontrar variación dentro de cualquier proceso ¿cuál es el sentido de su estudio?
3
La Estadística Descriptiva es la parte de la estadística que proporciona las herramientas
necesarias para evaluar y cuantificar la variabilidad de un proceso.
Supongamos que participamos de una prueba piloto previa a la producción en serie de un nuevo
producto.
Después de finalizar la prueba hemos relevado una gran cantidad de datos “en bruto”, que en ese
estado no son de utilidad. Para poder extraer la “información” contenida en los datos es necesario
realizar el procesamiento adecuado de los mismos.
¿Qué herramientas estadísticas se pueden utilizar en la etapa de procesamiento preliminar? Los

datos se pueden agrupar en tablas de frecuencias, la distribución de frecuencias se puede
representar gráficamente, y finalmente se pueden calcular medidas analíticas que resuman las
principales propiedades de los datos.
La finalidad de este análisis es evaluar el comportamiento general de los datos, identificar

patrones, detectar tendencias, etc., con el propósito de generar información que permita extraer
conclusiones de utilidad en relación al problema analizado, y tomar decisiones con fundamento
estadístico.
100
6531
50000
2473
432
124
732
15
Procesamiento estadístico
DATOS INFORMACIÓN
CONOCIMIENTO
Población y muestras
En cualquier análisis estadístico existe un marco de referencia denominado población, que es el

conjunto formado por todos los elementos que son objeto del estudio (por ejemplo toda la
producción de una máquina). Cuando la población es infinita o muy grande, como el caso
anterior, los estudios estadísticos se realizan a través de muestras, que son subconjuntos
representativos de la población (por ejemplo tomar 5 artículos producidos consecutivamente por
la máquina cada una hora de trabajo).
4
Tipos de datos
Los datos que relevamos para un estudio estadístico pueden ser:
Cualitativos, cuando el resultado de la medición no se puede representar numéricamente, sino

que se lo expresa mediante categorías. A este tipo de datos los denominaremos variables
categóricas. Las variables categóricas pueden ser ordinales (cuando existe un cierto
ordenamiento lógico entre sus valores) o no ordinales (caso contrario).
Cuantitativos, cuando el dato surge de un conteo o una medición que da como resultado un
valor numérico. A estos datos los llamaremos variables numéricas. Las variables pueden ser
discretas (si toman únicamente valores numerables, como cuando se realiza un conteo) o
continuas (si pueden tomar infinitos valores dentro del rango para el cual están definidas, como
cuando se realiza una medición).
Procesamiento de los datos
a) Procesamiento de variables categóricas
Se analiza el comportamiento de la variable “Tipo de defecto” en un proceso de estampado, para

el período 2020/21. En primer lugar agrupamos los resultados en una tabla de frecuencias.
La tabla anterior muestra la distribución de frecuencias de la variable. La información procesada

en la tabla la podemos volcar en un diagrama de barras o de torta.
5
Gráfica circular de Tipo defecto
Categoría
Bollo negativo
Bollo positivo
Componente mal soldado
Deformación
Dimensional
Falla de laminado
Falta de componentes
Falta de material
Falta operación
Fisura
Marca de scrap
Puntinatura
Retrabajo defectuoso
Soldadura defectuosa
Gráfica de Tipo defecto
40
30
Conteo
20
10
0
l s l
o vo do ió n na do te ri a ió n ra p
ur
a so sa
tiv is ti a c io a n e ac su sc
ra
at uo uo
g a ld a s in n e a t r Fi n c t ct
ne po so rm en m
po m e de nt
i
fe fe
lo llo al efo im e
la
m d e op c a Pu de de
l m D d o t a ar
Bo Bo e D
la c lta Fa
l jo ra
ent al de Fa
M
aba adu
n F a t r ld
lt
po Fa Re So
m
Co
Tipo defecto
Sin embargo, como la variable expresa “causas de problemas”, lo más conveniente es elaborar un
diagrama de Pareto
6
Interprete los diagramas obtenidos:
Hay situaciones donde interesa ponderar la frecuencia de ocurrencia de cada categoría por algún
factor, como podría ser en este caso el costo de los defectos.
Por ejemplo, si analizamos la cantidad de retrabajos para cada tipo de componente para el
período enero-julio de 2022, se obtiene el siguiente diagrama.
7
Si hacemos el mismo análisis por horas de retrabajo se obtiene lo siguiente.
Analice las diferencias entre los diagramas obtenidos:
8
b) Procesamiento de variables numéricas
Elaboramos en primer lugar la tabla de frecuencias de la variable “cantidad de fisuras” en una

pieza.
Contar
Cantidad
de fisuras Conteo Porcentaje CntAcum PrcAcum
0 6 12,00 6 12,00
1 12 24,00 18 36,00
2 11 22,00 29 58,00
3 9 18,00 38 76,00
4 7 14,00 45 90,00
5 4 8,00 49 98,00
6 1 2,00 50 100,00
N= 50
El gráfico que se emplea para representar la distribución de frecuencias de una variable discreta es
el diagrama de barras.
Gráfica de Cantidad de fisuras

25
20
Porcentaje
15
10
0
0 1 2 3 4 5 6
Cantidad de fisuras
Porcentaje en todos los datos.
Analice los resultados obtenidos obtenidos:
9
Procesamos ahora la variable “Horas de retrabajo”. El gráfico que se usa para representar la
distribución de frecuencias de una variable continua es el histograma.
Histograma de Horas
70
60
50
Frecuencia
40
30
20
10
0
0 45 90 1 35 1 80 225
Horas
Existen otros diagramas posibles, como la gráfica de densidad de puntos.
Gráfica de puntos de Horas
0 35 70 1 05 1 40 1 75 21 0
Horas
Interprete los diagramas obtenidos:
10
Cálculo de medidas analíticas
Una forma más objetiva de analizar el comportamiento de los datos, es calculando cantidades
estadísticas representativas, como rangos, promedios, etc., que resumen las principales
propiedades de una variable, o de su distribución de frecuencias.
Supongamos que comparamos el tiempo destinado a capacitación por género en el Area de

Administración de una empresa, obteniendo las siguientes distribuciones:
0,40
Varones Mujeres
0,30
0,20
0,10
0,00
5,00 7,50 10,00 12,50 15,00
Tiempo
¿En qué se parecen las dos distribuciones?: ambas tienen dispersión y forma similares. ¿En
qué se diferencian? En la ubicación de las dos distribuciones en el eje de las X. Es evidente que
el personal femenino ha recibido en general más horas de capacitación que el masculino. Para
cuantificar esta propiedad se utilizan las medidas de posición (o de tendencia central, porque
dan una idea alrededor de qué valores centrales tienden a distribuirse los datos).
Supongamos ahora que comparamos el tiempo de capacitación por género en el área de

Producción, obteniendo las siguientes distribuciones:
0,40
Varones
0,30
0,20
Mujeres
0,10
0,00
5,00 7,50 10,00 12,50 15,00
Tiempo
11
Es evidente en este caso que la diferencia fundamental está en la dispersión de los datos, los datos
del personal masculino son más homogéneos.
Finalmente, la comparación del tiempo de capacitación por género en el área de Servicios produjo
las siguientes distribuciones:
Varones
Mujeres
0,61
0,46
0,31
0,15
0,00
0,00 1,53 3,05 4,57 6,10
Tiempo
Aquí se observa que las dos distribuciones se diferencian fundamentalmente en su forma.
Veamos el cálculo de las principales medidas analíticas:
a) Medidas de posición
Media aritmética: Es el promedio de los valores de la serie.
La media aritmética se puede interpretar gráficamente, ya que indica la abscisa del centro de
gravedad de la distribución de frecuencias.
Datos
Media
12
Media truncada: Es el promedio de la variable, excluyendo el 5 % de los valores menores y el 5
% de los mayores de la serie ordenada.
Mediana: Es el valor central de la serie, es decir que un 50 % de los datos quedan por debajo de
ese valor, y el otro 50 % por encima. Se lo ubica en la posición (n+1) de los datos ordenados.
Moda: Es el valor de la variable más frecuente en la distribución de frecuencias.
Cuartiles: Cantidades que surgen de dividir a la distribución de frecuencias en 4 partes. El

cuartil 1 (Q1) se ubica en la posición (n+1)/4 de los datos ordenados, y representa el valor de la
variable que supera al 25 % de las observaciones, y es superado por el otro 75 %. El cuartil 2
(Q2) coincide con la mediana. El cuartil 3 (Q3) es el valor que supera al 75 % de los datos y es
superado por el restante 25 %, y se lo encuentra en la posición 3(n+1)/4 de los datos ordenados.
Con los cuartiles se puede elaborar el diagrama de caja de los datos. Para construirlo, se grafica
un rectángulo (caja) cuyos extremos son el primer cuartil (Q1) y el tercer cuartil (Q3)
respectivamente, que tiene a la mediana (Q2) representada dentro de la caja, y cuyo largo se
denomina rango intercuartil (RI).
Este rectángulo muestra dónde está ubicado el 50% central de los datos. Además de la caja se
prolongan extensiones (brazos), que representan el otro 50% de los datos: el brazo inferior
muestra la cuarta parte de los datos con valores más bajos y el superior la cuarta parte de los
datos con valores más altos.
La información visual que proporciona este tipo de gráfico no es una prueba formal sobre las
propiedades de la variable y acerca de la presencia de datos atípicos, sino más bien una
herramienta de diagnóstico.
La determinación de cuáles observaciones pueden ser consideradas atípicas varía según el

criterio utilizado, pero generalmente se considera como un dato extremo aquel que esté a más de
1,5 veces el rango intercuartil (desde el Q1 hacia abajo y desde el Q3 hacia arriba). Para trazar un
diagrama de caja necesitamos entonces determinar lo siguiente:
El 1º cuartil Q1
La mediana (2º cuartil) Me
El 3º cuartil Q3
Rango Intercuartil RI = (Q3 - Q1)
El valor mínimo Mín. (dentro de 1,5 veces RI)
El valor máximo Máx. (dentro de 1,5 veces RI)
Dato
atípico
Q1 Me Q3
1,5*RI RI 1,5*RI
13
Para el caso de la “Horas de retrabajo”, el diagrama de caja es el siguiente:
Gráfica de caja de Horas

250
200
1 50
Horas
1 00
50
Para que los resultados del análisis estadístico sean representativos, y las conclusiones que se
obtienen sean correctas, es fundamental trabajar con series homogéneas, es decir que entre los
datos no haya valores atípicos (outliers).
Una buena práctica es analizar estos valores en particular para ver si hubo algún error de
medición o de trancripción de datos, o si se produjeron como resultado de alguna causa especial
que afectó al proceso. En esos casos lo más conveniente es remover estos valores de la serie, ya
que son datos no representativos, y distorsionan los resultados del análisis estadístico.
b) Medidas de dispersión
Rango: Es la diferencia entre la mayor y menor observación de la serie.
R = xmax - xmin
Rango intercuartil: Es la diferencia entre el cuartil 3 y el cuartil 1.
RQ = Q3 - Q1
14
Varianza: Es el promedio de los desvíos cuadráticos con respecto a la media.
Desvío estándar: Es la raíz cuadrada de la varianza.
Coeficiente de Variación: Es una medida de variación adimensional, que expresa el porcentaje

de la media que representa el desvío estándar.
S
Cv = *100
x
Desigualdad de Chebyshev
Este teorema plantea que, cualquiera sea la distribución de una variable, al menos unas ¾ partes
de la misma (75 %) estarán entre ± 2 desvíos de la media, y al menos 8/9 partes de la
distribución (aproximadamente el 90 %) estarán entre ± 3 desvíos de la media. El teorema nos
ayuda a comprender mejor el significado físico del desvío estándar como medida de dispersión, y
nos brinda otro criterio práctico para identificar valores extraños dentro de una serie de datos.
En la serie de la variable “Horas de retrabajo” determine si existen valores atípicos usando el

criterio anterior.
c) Medidas de forma
Coeficiente de asimetría:
Cas = 0 La distribución es simétrica

Si Cas > 0 La distribución tiene asimetría positiva, con sesgo hacia la derecha.
Cas < 0 La distribución tiene asimetría negativa, con sesgo hacia la izquierda.
15
Dibuje aproximadamente una distribución con asimetría positiva, otra con asimetría negativa, y
finalmente una con asimetría nula. Indique a qué tipo de fenómeno o variable podría responder
cada uno de estos comportamientos.
Coeficiente de Kurtosis:
Para tener un idea del significado de este coeficiente, el Ck para una variable con Distribución
Normal (campana de Gauss) vale 3. Si el Ck es mayor que 3, la distribución es más “empuntada”
que una normal, y si es menor que 3 es más “achatada”.
Veamos ahora el resúmen de medidas analíticas para las variables “Cantidad de fisuras” y “Horas
de retrabajo”:
Cantidad de fisuras
Estadísticos descriptivos: Cantidad de fisuras
Estadísticas
Variable N Media MediaRec Desv.Est. Varianza CoefVar Q1 Mediana Q3
Cantidad de fisuras 50 2,300 2,250 1,568 2,459 68,18 1,000 2,000 3,250
Variable IQR Asimetría Curtosis
Cantidad de fisuras 2,250 0,37 -0,66
16
Horas de retrabajo
Informe de resumen de Horas

Prueba de normalidad de Anderson-Darling
A-cuadrado 1 2,21
Valor p <0,005
Media 47,470
Desv.Est. 49,656
Varianza 2465,690
Asimetría 1 ,50434
Curtosis 1 ,85842
N 205
Mínimo 0,000
1 er cuartil 1 1 ,205
Mediana 29,250
3er cuartil 70,200
Máximo 234,000
Intervalo de confianza de 95% para la media
0 45 90 1 35 1 80 225
40,632 54,308
Intervalo de confianza de 95% para la mediana
1 9,500 39,000
Intervalo de confianza de 95% para la desviación estándar
45,269 54,991
Intervalos de confianza de 95%
Media
Mediana
20 30 40 50
Elabore un análisis de los resultados obtenidos.
Estratificación de datos
Una posibilidad que brindan las herramientas estadísticas es separar los datos en distintos
subgrupos, de acuerdo a algún criterio de interés, para comparar el comportamiento de
los diferentes grupos o poblaciones obtenidos.
Por ejemplo, tenemos datos de entregas a diferentes clientes durante el año 2021, y nos
interesa comparar los resultados.
17
Se elaboraron diagramas de puntos para cada cliente:
Gráfica de valores individuales de Ent_Fiat. Ent_Renault. Ent_GM

500000
400000
300000
Datos
200000
1 00000
Ent_Fiat Ent_Renault Ent_GM
Se realizaron diagramas de caja:
Gráfica de caja de Ent_Fiat. Ent_Renault. Ent_GM

500000
400000
300000
Datos
200000
1 00000
Ent_Fiat Ent_Renault Ent_GM
18
Se dibujaron diagramas de densidad de puntos:
Gráfica de puntos de Ent_Fiat. Ent_Renault. Ent_GM
Ent_Fiat
Ent_Renault
Ent_GM
0 70000 1 40000 21 0000 280000 350000 420000
Datos
Finalmente se calcularon las principales medidas analíticas con los datos de cada cliente:
Estadísticas
MediaRe Desv.Est CoefVa Median
Variable N Media c . Varianza r Q1 a Q3
Ent_Fiat 4 28794 289800 91217 832056847 31,68 21420 289038 36621
3 3 8 0 7
Ent_Renaul 4 85746 85981 24976 623821327 29,13 68523 91740 10364
t 3 3
Ent_GM 4 11165 112623 58990 347979093 52,83 64209 125232 16460
3 8 6 3
Variable IQR Asimetría Curtosis
Ent_Fiat 152017 -0,26 -0,51
Ent_Renault 35120 -0,21 -0,84
Ent_GM 100394 -0,33 -1,10
Compare las tres distribuciones, y elabore una opinión sobre los resultados obtenidos.
19
Probabilidades
La probabilidad es un número que mide la chance de ocurrencia de un suceso que depende del
azar. Una de las principales propiedades de la probabilidad es la siguiente:
0  p(A)  1
Es decir que la probabilidad es un número que está entre cero y uno. Un suceso con
probabilidad igual a cero se dice que es un suceso imposible (que no puede ocurrir, por ejemplo
que al tirar un dado salga un 7), mientras que una probabilidad igual a uno indica un suceso
cierto (que ocurre si o si, por ejemplo que al tirar un dado salga un número entre 1 y 6).
Cuando estudiamos un proceso real, seguramente estaremos interesados en conocer la

probabilidad de ciertos sucesos de interés, como por ejemplo:
- que una pieza resulte rechazada;
- que el diámetro de una pieza supere los 100 milímetros;
- que en un lote en recepción no haya ninguna pieza fallada.
- que durante un día cualquiera se caiga el sistema;
- que una documentación administrativa contenga errores.
¿Cómo se calculan esas probabilidades? A continuación veremos la forma de asignar

probabilidades a un suceso cualquiera.
Una alternativa en ese sentido es usar el método de asignación clásica (también llamado de
asignación “a priori”, ya que la probabilidad se puede determinar de antemano sin necesidad de
hacer ningún experimento), que se calcula del siguiente modo:
número de casos favorables a A

p(A) 
número de casos posibles
Este criterio se puede emplear para calcular probabilidades con los juegos de azar, que se
caracterizan por tener un número finito de resultados posibles, todos igualmente probables.
Sin embargo, tampoco es el método usual de calcular probabilidades en casos reales, en donde
tenemos que utilizar el método de asignación frecuencial, que se plantea del siguiente modo:
número de casos favorables al suceso A
p(A)  límite
número de intentos realizados (n)
n
Esta es la forma general de asignación de probabilidades, también denominada asignación “a

posteriori” ya que es necesario realizar el experimento un gran número de veces (miles ó
millones de intentos), y calcular la frecuencia con que ocurre el suceso que estamos analizando.
20
Variables aleatorias y distribuciones de probabilidades
Una variable aleatoria es en realidad una función que asigna un valor numérico a cada uno de
los resultados de un experimento aleatorio.
En el ejemplo del lanzamiento de un dado, podemos definir la siguiente v.a.:
X: Número que sale al tirar un dado.
Los valores que toma esta variable (que se suele denominar “población” de la v.a.) son los
siguientes: 1, 2, 3, 4, 5, 6.
Por convención, las variables aleatorias se simbolizan con letras mayúsculas, y cada uno de los
valores que puede tomar con minúsculas:
X: x1, x2, x3, ..., xn
Las variables aleatorias pueden ser de dos tipos:
- Discretas, cuando toman valores numerables. Ejemplos: nº que sale al tirar un dado, cantidad
de defectos de una pieza, nº de errores en un proceso, nº de fallas del sistema.
- Continuas, cuando pueden tomar cualquier valor dentro del rango de valores para el cual
está definida la variable. Ejemplos: diámetro de una pieza, rugosidad, temperatura de un
fluído, tiempo que demanda una cierta operación, gastos en papelería, monto de facturación.
Si a cada valor de una v.a. le asignamos una probabilidad, obtenemos la distribución de

probabilidades de esa v.a., que describe el comportamiento esperado de la variable.
Para el ejemplo del lanzamiento del dado, la distribución de probabilidades es la siguiente (las
probabilidades se pueden calcular en este caso por el método clásico):
x p(x)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
21
p(x)
0.15
0.10
0.05
0.00
1 2 3 4 5 6
x
Una distribución de probabilidades se puede analizar de manera análoga a una distribución de

frecuencias en cuanto a sus principales propiedades (ubicación, dispersión y forma).
Propiedades de una variable aleatoria
De manera similar a lo que vimos en Estadística Descriptiva, una v.a. puede ser caracterizada
mediante cantidades estadísticas que resuman sus principales propiedades: posición, dispersión
y forma de la distribución.
Vamos a revisar los operadores más utilizados en la práctica:
a) Valor Esperado
Es el promedio ponderado de una v.a., donde el factor de ponderación es la probabilidad, y se

calcula de la siguiente manera:
E(x)   x i  p(x i )
para v.a. discreta
E(x)   x f(x) dx
para v.a. continua
b) Varianza
Es el valor esperado de los desvíos cuadráticos con relación a la media de la v.a.:
Var(x)  E[(x - E(x))2 ]   (xi  E(x))2 p(x i )

para v.a. discreta
Var(x)  E[(x - E(x))2 ]   ( x  E(x))2 f(x) dx

para v.a. continua
22
Modelos
Supongamos que en una línea de producción se quiere determinar la distribución de

probabilidades de la variable “X: Número de defectos en cada unidad”. Para esto tenemos que
definir los valores que puede tomar esa variable, y luego determinar la probabilidad de
ocurrencia de cada uno de esos valores. En este caso deberíamos realizar una asignación de
probabilidades “a posteriori”, es decir realizar la operación de armado “muchas” veces
(teóricamente miles o millones de veces), y establecer la frecuencia con que aparecieron los
diferentes valores de la variable.
Supongamos que después de hacer ese análisis obtenemos la siguiente distribución:
0,3
p(x)
0,2
0,1
0,0
0 1 2 3 4 5 6
X
Determinar la distribución de probabilidades de X es fundamental para elaborar información de

utilidad relacionada con el proceso que estamos analizando, por ejemplo:
- Calcular las principales propiedades de la variable (media y varianza).

- Evaluar la forma de la distribución.
- Identificar valores normales, valores poco probables, etc.
- Conocer la probabilidad asociada a distintos valores de la variable, o para diferentes rangos
de valores.
Sin embargo en la práctica resulta inviable poder reunir los miles y miles de datos necesarios
como para calcular la distribución de probabilidades específica de una variable en particular.
¿Qué podemos hacer entonces? Afortunadamente numerosos matemáticos y estadísticos se han

tomado el trabajo de desarrollar herramientas analíticas denominadas modelos probabilísticos,
o modelos de probabilidades, que permiten representar el comportamiento esperado de
diferentes fenómenos (y variables) que encontramos en la realidad.
Un modelo es una simplificación de la realidad, que se utiliza para estudiar un fenómeno o

sistema complejo. Hay modelos “físicos” (una maqueta por ejemplo) o “matemáticos” (una
23
función matemática). Un modelo de probabilidad es una función que representa el
comportamiento teórico o esperado de una variable aleatoria.
Existe una amplia gama de modelos específicos, cuya elección depende principalmente de los
siguientes factores:
- Tipo de variable a modelar (discreta o continua).
- Tipo de fenómeno a caracterizar.
En el proceso de modelación de una variable se siguen las siguientes etapas:
1- Definir con claridad el problema en estudio, e identificar una variable aleatoria asociada
con el problema.
2- Seleccionar el modelo de probabilidad apropiado para representar el comportamiento de esa
variable.
3- Ajustar el modelo (determinar el valor de sus parámetros) para el fenómeno particular que
estamos analizando.
4- Comprobar la validez del modelo, y continuar el estudio o volver al paso 2.
Como se puede ver, el punto clave de todo este análisis se encuentra en la etapa 2:
identificación del modelo apropiado. En la literatura especializada existe una amplia variedad
de modelos que permiten estudiar diferentes categorías de fenómenos aleatorios.
En este módulo vamos a revisar los modelos más usados en la práctica, y para cada uno de ellos
vamos a analizar los siguientes aspectos:
- Formulación matemática del modelo y sus aplicaciones.

- Parámetros del modelo.
- Propiedades de la distribución: media y varianza.
- Cálculo de probabilidades.
Modelo Normal
Este es uno de los modelos más usados en la práctica, ya que muchas de las variables que
encontramos en la realidad tienen esta distribución de probabilidades, y además porque
establece un punto de contacto entre varias de las distribuciones estudiadas tanto para
variables discretas como continuas.
La distribución Normal fue desarrollada inicialmente tratando de explicar el comportamiento

de los errores de medición. Supongamos que una pieza tiene una característica dimensional
cuyo valor verdadero es . Si realizamos muchas veces la medición de esa dimensión, los
resultados difícilmente van a repetirse (por problemas de precisión del instrumento de
medición, de apreciación por parte del operador, etc.), pero lo más probable es que tengan un
patrón de comportamiento bien definido, con forma de campana simétrica, donde las
observaciones se distribuyen proporcionalmente a ambos lados de la magnitud verdadera, y la
mayor parte de las mediciones están concentradas alrededor de la misma.
24
La función de densidad de probabilidad del modelo Normal es la siguiente:
 x 
2
1  
  
f ( x)  e - < x < +
2 
Los parámetros de este modelo son  y 2, que coinciden con las principales propiedades de
la variable: el valor esperado y la varianza.
Estos parámetros tienen una interpretación gráfica. La media  es la abscisa del centro de
gravedad de la distribución. Los puntos de inflexión de la curva se encuentran hacia ambos
lados a una distancia igual a 1 desvío () de la media.
Por lo tanto, si cambia la media cambia la ubicación de la distribución, mientras que si cambia
el desvío (o la varianza) se modifica la dispersión de los datos en torno a la media.
La notación generalmente usada para especificar que una variable tiene distribución Normal
con parámetros  y 2 es la siguiente:
X  N( , 2)
Otra de las características gráficas de este modelo son las áreas encerradas bajo la curva:
- Entre (  ) se encuentra el 68.26 % de la distribución.

- Entre (  2) se encuentra el 95.44 % de la distribución.
- Entre (  3) se encuentra el 99.74 % de la distribución.
Esto justifica el uso del modelo Normal para representar el comportamiento de variables no
negativas (como peso, altura, etc.), ya que si  >3 la cola de la distribución que cae en zona
de valores negativos es prácticamente nula. También se puede aplicar este criterio para
detectar la existencia de valores atípicos en una serie de datos.
Como regla general, este modelo se aplica para representar variables que tienen las siguientes
características:
- Son variables dimensionales, que surgen como resultado de la medición sobre alguna
escala continua: kg., cm., $, T°, etc.
25
- Son variables que surgen como resultado de la superposición de muchos efectos que
actúan de manera aleatoria, como el caso que mencionamos de los errores de medición
que son provocados por la suma de varios factores difíciles de cuantificar
individualmente, o una característica dimensional de una pieza que varía como resultado
de la acción de las 6 M.
En resumen, las características de esta distribución son las siguientes:
DISTRIBUCION NORMAL
Función de Densidad de Probabilidad:
 x 
2
1  
  
f ( x)  e
2 
Parámetros Valor Esperado Varianza

, 2  2
Aplicaciones
 Variables aleatorias originadas en mediciones sobre escalas
continuas, que surgen como resultado de la superposición de
muchos pequeños factores de variación, que dan como resultado
una distribución de probabilidades simétrica.
El cálculo de probabilidades con este Modelo es bastante laborioso, ya que la función no se

puede integrar directamente y se debe resolver por métodos numéricos. Por eso, cuando el
cálculo se hace en forma manual, se realiza la siguiente transformación lineal:
x 
Z

Se demuestra que la variable transformada tiene distribución Normal con media cero y
varianza uno, por lo que se la denomina “Normal Estandar”. Todos los libros de Estadística
incluyen una Tabla para calcular probabilidades acumuladas para la variable Z.
El área de Compras ha determinado que los gastos mensuales de papelería tienen

distribución Normal, con una media de 500 pesos y un desvío de 40 pesos. A fin de
determinar con más precisión las previsiones para la compra del próximo mes, vamos a
determinar los siguientes valores:
a) La probabilidad de que los gastos superen los 600 pesos.
b) La probabilidad de que los gastos sean menores a 450 pesos.
26
c) La probabilidad de que los gastos estén entre 450 y 550 pesos.
d) El gasto cuya probabilidad de ser superado es del 5 %.
e) El rango de valores de gastos, simétricos alrededor de la media, que encierran una

probabilidad del 95 %.
f) Si un mes cualquiera el gasto es de 650 pesos, de acuerdo al comportamiento general de

la variable ¿cómo evaluaría ese valor?
Modelo Exponencial
El Area de Mantenimiento ha calculado que recibe en promedio aproximadamente unos 9

requerimientos de servicio por día. Para estudiar la distribución del tiempo entre dos pedidos
consecutivos, que es una variable continua, se puede utilizar el modelo exponencial, cuya
función de densidad de probabilidad es la siguiente:
1
f (t)  e t /   t>0 >0

El parámetro de la función es , y las principales propiedades de este modelo son:
=
2 = 2
Volviendo al ejemplo anterior, podemos hacer el siguiente razonamiento: si el Area de

Mantenimiento recibe 9 requerimientos por día, y la jornada normal de trabajo es de 9 horas,
luego está recibiendo en promedio una llamada por hora. Por lo tanto el valor medio del tiempo
entre llamadas es de 1 hora, o 60 minutos. Con este dato se puede estimar el valor del
parámetro , de la siguiente manera:
 =  = 60
La función de densidad de probabilidad queda como sigue:

1  t / 60
f (t)  e
60
27
Gráficamente, la forma de esta función es la siguiente:
0,02
0,01
0
0 40 80 120 160 200
La función de distribución acumulada de la exponencial tiene la siguiente forma:
F( t )  P(T  t )  1  e  t / 
De esta manera, para conocer la probabilidad de que entre dos pedidos consecutivos del
servicio de mantenimiento pasen (por ejemplo) menos de 30 minutos, se puede hacer el
siguiente cálculo:
F(30)  P(T  30)  1  e 30 / 60  0.3935
El modelo exponencial se utiliza en general para describir tiempos de espera, por ejemplo
tiempo que tarda un cliente en ser atendido, tiempo que demora un camión hasta ser
descargado, tiempo que pasa entre el arribo de dos buques a un puerto, etc.
Otra de las aplicaciones prácticas de la distribución exponencial es dentro del tema

confiabilidad, para modelar la vida útil de componentes que tienen una tasa de falla constante.
En resumen, las características de este modelo son las siguientes:
Función de Densidad de Probabilidad:

1
f (x)  e x / 

Parámetros Valor Esperado Varianza

  2
Aplicaciones
 Variables aleatorias continuas del tipo “tiempo entre” dos eventos
de Poisson, o vida útil de una componente.
28
Modelo de Weibull
Una variable continua cuya distribución es asimétrica puede ser modelada mediante la
distribución de Weibull, que tiene la siguiente función de densidad de probabilidad:

x  1e ( x / )
f (x)   x > 0,  > 0,  > 0

Sus parámetros son  y , denominados respectivamente factor de forma y de escala, ya que

describen la forma y la ubicación de la distribución. Por ejemplo, para =2 y =1 la
distribución es la siguiente:
Modelo de Weibull
ML Estimates - Complete Data
Probability Density Function Weibull Probability
0,9
Shape 1,9737
99
0,8 95
90
Scale 0,9928
80
70
0,7 60
50 MTTF 0,88
40
30
0,6 20 Failure 1000
10
0,5 Censor 0
Percent
0,4
1
0,3 Goodness of Fit
0,2
AD* 0,178
0,1
0,0
0 1 2 3 0,01 0,10 1,00
Survival Function Hazard Function

1,0
5
4
Probability
3
0,5
Rate
0,0 0
0 1 2 3 0 1 2 3
De acuerdo a los valores que toman los parámetros de la Weibull, se puede representar desde
una distribución Exponencial (para =1), pasando por una distribución con forma de campana
con asimetría positiva (para 1<<2), aproximadamente una Normal, hasta una distribución con
asimetría negativa.
Una de las aplicaciones clásicas de esta distribución es en el análisis de confiabilidad, para

modelar la vida útil de componentes cuya tasa de falla disminuye con el tiempo (<1), es
constante (=1), o aumenta con el tiempo (>1).
29

Módulo Estadística-1. Conceptos Básicos

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Módulo Estadística-1. Conceptos Básicos

Cargado por

Copyright:

Formatos disponibles

Six Sigma – Green Belts 2022

Ing. Ricardo Ingaramo

 Conocer las herramientas estadísticas útiles para el análisis de datos

 Aplicar en forma práctica esas herramientas, interpretar adecuadamente sus

 Realizar el procesamiento estadístico empleando el software Minitab

 Valorar la importancia de la estadística como soporte del Programa Six Sigma

155 160 165 170 175 180 185 190 195

Si es inevitable encontrar variación dentro de cualquier proceso ¿cuál es el sentido de su estudio?

¿Qué herramientas estadísticas se pueden utilizar en la etapa de procesamiento preliminar? Los

La finalidad de este análisis es evaluar el comportamiento general de los datos, identificar

En cualquier análisis estadístico existe un marco de referencia denominado población, que es el

Los datos que relevamos para un estudio estadístico pueden ser:

Cualitativos, cuando el resultado de la medición no se puede representar numéricamente, sino

Procesamiento de los datos

a) Procesamiento de variables categóricas

Se analiza el comportamiento de la variable “Tipo de defecto” en un proceso de estampado, para

La tabla anterior muestra la distribución de frecuencias de la variable. La información procesada

Gráfica de Tipo defecto

Analice las diferencias entre los diagramas obtenidos:

Elaboramos en primer lugar la tabla de frecuencias de la variable “cantidad de fisuras” en una

Gráfica de Cantidad de fisuras

Analice los resultados obtenidos obtenidos:

Existen otros diagramas posibles, como la gráfica de densidad de puntos.

Gráfica de puntos de Horas

Interprete los diagramas obtenidos:

Supongamos que comparamos el tiempo destinado a capacitación por género en el Area de

Supongamos ahora que comparamos el tiempo de capacitación por género en el área de

Aquí se observa que las dos distribuciones se diferencian fundamentalmente en su forma.

Veamos el cálculo de las principales medidas analíticas:

Media aritmética: Es el promedio de los valores de la serie.

Moda: Es el valor de la variable más frecuente en la distribución de frecuencias.

Cuartiles: Cantidades que surgen de dividir a la distribución de frecuencias en 4 partes. El

La determinación de cuáles observaciones pueden ser consideradas atípicas varía según el

Gráfica de caja de Horas

Rango: Es la diferencia entre la mayor y menor observación de la serie.

Desvío estándar: Es la raíz cuadrada de la varianza.

Coeficiente de Variación: Es una medida de variación adimensional, que expresa el porcentaje

En la serie de la variable “Horas de retrabajo” determine si existen valores atípicos usando el

Cas = 0 La distribución es simétrica

Informe de resumen de Horas

Intervalos de confianza de 95%

Elabore un análisis de los resultados obtenidos.

Gráfica de valores individuales de Ent_Fiat. Ent_Renault. Ent_GM

Ent_Fiat Ent_Renault Ent_GM

Se realizaron diagramas de caja:

Gráfica de caja de Ent_Fiat. Ent_Renault. Ent_GM

Ent_Fiat Ent_Renault Ent_GM

Gráfica de puntos de Ent_Fiat. Ent_Renault. Ent_GM

Cuando estudiamos un proceso real, seguramente estaremos interesados en conocer la

¿Cómo se calculan esas probabilidades? A continuación veremos la forma de asignar

número de casos favorables a A

Esta es la forma general de asignación de probabilidades, también denominada asignación “a

En el ejemplo del lanzamiento de un dado, podemos definir la siguiente v.a.:

X: Número que sale al tirar un dado.

X: x1, x2, x3, ..., xn

Las variables aleatorias pueden ser de dos tipos:

Si a cada valor de una v.a. le asignamos una probabilidad, obtenemos la distribución de

Una distribución de probabilidades se puede analizar de manera análoga a una distribución de

Propiedades de una variable aleatoria

Vamos a revisar los operadores más utilizados en la práctica:

Es el promedio ponderado de una v.a., donde el factor de ponderación es la probabilidad, y se

Es el valor esperado de los desvíos cuadráticos con relación a la media de la v.a.:

Var(x)  E[(x - E(x))2 ]   (xi  E(x))2 p(x i )