Está en la página 1de 32

Metodología 6 Sigma

Para Procesos Operaciones y Servicios

Fundamentos de
Probabilidad y Estadística
Measure

1
Objetivos
Al final de este módulo, usted deberá ser capaz de:
Entender los fundamentos de probabilidad y estadística
Entender el conceptos de distribuciones de probabilidad
Describir los conceptos de la distribución normal
Determinar si los datos son normales

2
Estadística en el mundo moderno
Estadística es la ciencia que permite la obtención, organización,
análisis, interpretación y representación de datos
Los métodos estadísticos son fundamentales para la resolución
de problemas
Sin las herramientas estadísticas, las acciones correctivas
identificadas pueden caer en un rango comprendido entre
resolución por pura suerte, … hasta efectos desastrosos!
El concepto fundamental detrás de todos los métodos
estadísticos es el concepto de variación, que dice que no existen
dos entidades que sean perfectamente idénticas

Estadística

La estadística ayuda a analizar la información correctamente y a tomar


decisiones mas acertadas, teniendo en cuenta la existencia de variación

3
Definición de probabilidad
La probabilidad de un cierto evento puede variar entre
0 Imposibilidad de ocurrencia y
1 Certeza
Una definición de probabilidad se basa en el concepto de
frecuencia: Si un cierto evento A puede ocurrir c veces de un total
de n casos posibles, la probabilidad de ocurrencia de dicho
evento será:
c Cantidad de casos favorables
P ( A)  
n Cantidad de casos posibles
Ejemplo: La probabilidad de obtener un 6 al arrojar un dado es,

Cantidad de casos favorables 1


P (6)  
Cantidad de casos posibles 6

4
Teoremas básicos de probabilidades
Si P(A) es la probabilidad de ocurrencia de un evento A
 1 – P(A) será la probabilidad de que el evento A no ocurra,
dado que la probabilidad de que ocurra o no ocurra
comprende todas las opciones posibles
 Tenemos certeza (probabilidad = 1) de que el evento ocurrirá
o no ocurrirá
P ( A)  P ( A )  P ( A)  [1  P ( A)]  1
Ejemplo: La probabilidad de obtener un 6 o de no obtener un 6 al
arrojar un dado es
P (6)  P ( 6 )  P (6)  [ P (5)  P ( 4)  P (3)  P ( 2)  P (1)]
1 1 1 1 1 1
      
6  6 6 6 6 6
1 5
  1
6 6

5
Presentación de la información
Lo primero que hacemos cuando realizamos mediciones es
registrarlas en forma tabular, sin embargo, una serie de números
en una tabla son muy difíciles de interpretar
Para visualizar la información usamos diversos métodos gráficos
Como regla general, SIEMPRE, antes de embarcarse en cualquier
análisis estadística se debe comenzar por representar la
información en forma gráfica

6
Gráficos
Los gráficos ayudan a entender la naturaleza de la variación
Los gráficos hacen que la naturaleza de los datos sea más
accesibles a la mente humana
Los gráficos ayudan a ilustrar el contexto de los datos
Los gráficos deberían ser la principal herramienta de
presentación de datos para el análisis
Si no puede mostrarlo gráficamente, posiblemente no tiene una
buena explicación

¡SIEMPRE grafique los datos!

Donald Wheeler: Understanding Variation

7
Histograma
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
2.85 Histogram of Observacion
3.40 7
4.28
6
3.85
2.95 5

2.72

Frequency
4
4.08
1.78 3

3.18 2
4.00
4.09 Comenzamos a ver el 1

2.89 concepto de distribución 0


1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
3.42 Observacion

8
Dotplot
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
2.85 Dotplot of Observacion
3.40
4.28
3.85
2.95
2.72
4.08
1.78 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
3.18 Observacion

4.00
4.09
2.89
3.42

9
Boxplot
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
2.85 Boxplot of Observacion
3.40 5

4.28
3.85 Q3 P75 Max
4
2.95
2.72

Observacion
4.08 Mediana
3
1.78 Q2 P50
3.18
4.00 2
4.09 Q1 P25
2.89 Min
3.42 1

10
Indicadores cuantitativos
La información puede ser resumida usando medidas de:
Tendencia central para ver adonde se agrupan la mayoría de los
datos
– Media
– Mediana
Dispersión para ver como se distribuyen los datos
– Rango
– Varianza
– Desviación estándar

11
Parámetros de la población
Versus estadísticas de la muestra

Estadísticas Parámetros de
de la muestra la población
X = Media de la Muestra m = Media de Población

s = Desviación estándar s = Desviación estándar


de la Muestra de la Población

Estadísticas Estimativa Parámetros

12
Medidas de tendencia central
La medida más común de tendencia central es la Media Aritmética o
Promedio de las observaciones
 Refleja la contribución de todas las observaciones
 Muy sensible a valores extremos

X
 X ¿Por qué será que en
general usamos el
n
Donde: X = Promedio de la muestra
promedio en los
X = Observación individual proyectos de mejora?
n = Tamaño de la muestra
S = Sumatoria

Otro indicador de tendencia central es la mediana, definida como el


valor que queda justo en el medio cuando se ordenan las lecturas en
forma creciente o decreciente (existe la misma cantidad de
observaciones arriba y abajo de la mediana)
 No toma en consideración el valor de cada observación
 Muy robusta a valores extremos

13
Medidas de tendencia central
Como jefe de Departamento de Comunicaciones de la universidad, se le
ha pedido hacer un estudio de los salarios iniciales de los graduados de
la escuela

$10, 20, 30, 40, 50 ($ en Miles)

¿Cuál e el promedio? ¿Cuál es la mediana de


(o “centro de gravedad”)? ingresos?

Siguiendo el consejo del Departamento de Relaciones Públicas, decide


incluir el salario de uno de sus graduados, Shaquille O‘Neal

$10, 20, 30, 40, 5000 ($ en Miles)


¿Cuál e el promedio? ¿Cuál es la mediana de
(o “centro de gravedad”)? ingresos?

14
Medidas de dispersión
La medida más común de dispersión es la Desviación Estándar

s
 ( X  X ) 2

n 1
El cuadrado de la desviación estándar se conoce como Varianza

s2 
 ( X  X ) 2

n 1
Otro indicador de dispersión muy usado, es el Rango, definido
como la diferencia entre la mayor y la menor lectura en la
muestra

R  X MAX  X MIN ¿Por qué será que en


general usamos la
desviación estándar?
15
Distribuciones de probabilidad
Una función de distribución de probabilidad es una fórmula
matemática que relaciona los valores de una cierta
característica con la probabilidad de ocurrencia en la población
De acuerdo con Wilkipedia
 En la teoría de las probabilidades, una distribución de
probabilidades es una función de las probabilidades
individuales de eventos independientes y mutuamente
exclusivos
 Asigna una probabilidad a cada intervalo de números reales
de forma a satisfacer los axiomas de probabilidades
 Las distribuciones de probabilidades son un caso especial
de las mediciones de probabilidades
Las distribuciones de probabilidades pueden ser empleadas
para hacer predicciones o inferencias acerca de los parámetros
de la población, usando estadísticas calculadas a través de los
datos obtenidos de una muestra extraída de dicha población

16
Distribuciones de probabilidad
Las distribuciones pueden ser de dos tipos:
Continuas: Cuando los datos son continuos o, en otras palabras,
puede haber un número infinito de valores en un dado
intervalo de observación dependiendo sólo de la
discriminación del sistema de medición
La distribución continua más conocida es
probablemente la distribución Normal mas existen
otras como las distribuciones t de Student, Weibull,
Exponencial y muchas otras
Discretas: Cuando los datos son discretos, categóricos o
atributos, generalmente el resultado de una
clasificación o inspección
Las distribuciones discretas más comunes son la
Binomial, Poisson e Hipergeométrica

17
Las distribuciones normales
La distribución “Normal” tiene ciertas propiedades
Estas propiedades son muy útiles para entender las
características de los procesos de donde se obtienen los datos
La mayoría de los fenómenos naturales siguen o pueden ser
representados por una distribución normal
En la distribución normal, la media, la mediana y la moda son
todas iguales (medidas de tendencia central)

18
La función de distribución normal
Muchos fenómenos físicos, naturales, así como procesos
industriales y transaccionales siguen una distribución normal
Una distribución normal puede considerarse como la
contribución combinada de un número muy grande de pequeñas
causas de variación (normal)
La función de distribución normal responde a la fórmula:
( X m )2
1 
y e 2s 2

s 2p

Donde e = 2.718, la base de los logaritmos neperianos


p = 3.14159
m = Media de la población
s = Desviación estándar de la población ¿Realmentetengo
que saber todo esto?

19
La distribución normal
Propiedad 1
Cualquier distribución normal queda totalmente caracterizada
conociendo:
 Media
 Desviación estándar
Distribución 1

Distribución 2

Distribución 3

¿Cuál es la diferencia entre estas distribuciones?

20
La distribución normal
Propiedad 2
El área abajo de las secciones de la curva pueden ser utilizadas para
estimar la probabilidad acumulada para que cierto evento ocurra
El área bajo la curva
representa la probabilidad
68.26% acumulada de obtener un
Probabilidad de ocurrencia

40% valor dentro de los


intervalos indicados
30%
95.46%

20%

99.73%
10%

0%
-4 -3 -2 -1 0 1 2 3 4
Distancia a la media en unidades de desviaciones estándar

21
Reglas empíricas para desvío estándar
Las reglas previas de la probabilidad acumulada aplican en
muchos casos, aunque los datos no estén perfectamente
distribuidos según una distribución normal
Compare los valores para una distribución teóricamente
(perfecta) a una distribución empírica (mundo-real)

Número de
Desv. Est. Normal Teórica Normal Empírica

+/- 1s
68% 60-75%

+/- 2s
95% 90-98%

+/- 3s
99.7% 99-100%

22
Predicciones usando la distribución normal
Se pueden hacer predicciones conociendo sólo dos estadísticas
y una tabla (o Minitab, …)
Estas estadísticas son las dos estimativas de los parámetros de
la población:
 La media de la muestra X  m̂
 La desviación estándar de la muestra s  ŝ
Para esto, calculamos la variable reducida

( X  mˆ )
Z

Y determinamos, por ejemplo, la probabilidad de que cualquier
parámetro de la población esté dentro de un determinado
intervalo, a partir de las estadísticas de la muestra

23
Predicciones usando la distribución normal
Observación
Calculando las estadísticas de los datos mostrados
2.81 resulta:
2.78

X  3.10
1.13
2.34
3.43
2.54 s  0.838
4.53
3.58
3.12 Suponiendo que para este proceso toda observación
2.15
3.68 X > 4.50 fuese un defecto, calculando el valor Z para
1.94
2.85 X = 4.50, podríamos determinar la probabilidad de
3.40
4.28 encontrar un ítem defectuoso, usando como base la
3.85
2.95
2.72
información que nos provee la muestra
4.08
1.78 4.50  3.10
3.18 Z Minitab puede hacer los cálculos
4.00 0.838 utilizando directamente los
4.09
valores originales de media y
2.89  1.67064 desviación estándar
3.42

24
Predicciones usando la distribución normal
Usamos Minitab para determinar la probabilidad de encontrar un
artículo sin defecto (área debajo de la curva entre –  y Z = 1.6719)
La probabilidad de encontrar un ítem no conforme será el
complemento a 1, o sea el área a la derecha de la curva para todo
Z > 1.6719, aproximadamente 5%
mˆ  3.10 Cumulative Distribution Function
sˆ  0.838
Normal with mean = 0 and standard
deviation = 1

X  4.50 x P( X <= x )
1.67064 0.952604
x P(X > x)
1.67064 1 – 0.952604 ≈ 0.05

Normal with mean = 3.1 and standard


  deviation = 0.838
Z 0 Z  1.671
Z 1 x P( X <= x )
4.5 0.952604

25
Distribución normal
4 formas de verificar si los datos son normales
1) Histograma
¿La curva tiene forma de campana?
2) Gráfica de normalidad
¿Los datos siguen una línea recta?
3) El p-Value de la prueba de normalidad
Es el p-Value > 0.05?
4) Resumen gráfica

Puede usar cualquiera de estas funciones en


Minitab para determinar la normalidad de los datos

26
Gráfica de normalidad
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
2.85 Probability Plot of Observacion
3.40 Normal - 95% CI
99
4.28 Mean 3.101
StDev 0.8378
3.85 95 N 25
AD 0.166
90
2.95 P-Value 0.930
80
2.72 70

Percent
4.08 60
50
1.78 40
30
3.18 20

4.00 ¿Los datos son 10

5
4.09
2.89
normales? 1
0 1 2 3 4 5 6
3.42 Observacion

Prueba de normalidad, también conocida


como prueba de Anderson Darling

27
¿Pero los datos son normales?
Para determinar si las observaciones provienen de una población
que sigue una cierta distribución de probabilidad, se utilizan las
gráficas de probabilidad (en este caso, una gráfica de
“normalidad”)
Continuando con los mismos datos, graficamos en Minitab y
observamos que los puntos rojos, representando las
observaciones, caen aproximadamente sobre la línea central,
dentro de la faja formada por las dos líneas exteriores, el intervalo
de confianza
El p-Value = 0.930 nos indica que existe una probabilidad de 93%
de equivocarnos si decimos que los datos no provienen de una
distribución normal

Cuanto más de cerca los puntos siguen a la línea recta central, mejor el ajuste de
la distribución teórica de probabilidad a los datos de la muestra
Cuidado, no todos los procesos son normales mas, no ser normal no significa que
existe un problema, sólo que hace falta considerar otros tipos de distribuciones

28
Graphical summary
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
Summary for Observacion
2.85 A nderson-Darling N ormality Test

3.40 A -S quared
P -V alue
0.17
0.930
4.28 M ean 3.1008
S tDev 0.8378
3.85 V ariance
S kew ness
0.7020
-0.394821
2.95 Kurtosis
N
-0.114419
25

2.72 M inimum
1st Q uartile
1.1300
2.6300
4.08 M edian
3rd Q uartile
3.1200
3.7650
1 2 3 4 M aximum 4.5300
1.78 95% C onfidence Interv al for M ean

3.18 2.7550 3.4466


95% C onfidence Interv al for M edian
4.00 2.7859 3.5503
95% C onfidence Interv al for S tDev
4.09
Mean
9 5 % C onfidence Inter vals
0.6542 1.1656 ¿Los datos son
2.89
3.42
Median normales?
2.8 3.0 3.2 3.4 3.6

29
Ejemplo:
Prueba de normalidad
Abra el proyecto de Minitab TR Blue Belt.MPJ, hoja Distributions

Time Bob
Normal
99
Mean 24.85
StDev 0.8700
95 N 30
AD 0.561
90
P-Value 0.135
80

Percent 70
60
50
¿Los datos son 40
30

normales? 20

10

1
23 24 25 26 27
Time_Bob

30
Ejercicio:
Prueba de normalidad
Propósito: Adquirir práctica en el uso de Minitab para obtener
algunas estadísticas básicas
Grupo: Trabajo individual
Ejercicio:
 Abra la hoja Freight Cost en el proyecto de Minitab
TR BLUE BELT.MPJ
 Genere un histograma y un gráfico de cajas (boxplot)
 Calcule la media, mediana, rango, desviación estándar
y varianza
 Haga un análisis “Graphical summary”
 Determine si los datos son normales
Reporte: Discusión de clase
Tiempo: 15 min

31
Resumen

Durante la fase de medición (Measure) usted deberá obtener


datos del proceso bajo estudio
Estos datos serán analizados en la fase de análisis (Analyze) para
identificar las diferentes familias de variación y las causas raíces
El uso de estas estadísticas, su representación gráfica, y el
análisis son temas que serán empleados y desarrollados en más
detalle en las siguientes fases del adiestramiento de GB y BB

Recuerde
¡Siempre grafique los datos!

32

También podría gustarte