Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Seleccionando las Distribuciones de Probabilidad de Entrada para modelos de Simulacin por Averill M. Law, Ph.D. Averill M. Law & Associates Tucson, AZ 520-795-6265
Copyright 2002 by Averill M. Law. All rights reserved.
Principios Generales: 1. La importancia de usar la distribucin correcta 2. Las fuentes de aleatoriedad en sistemas simulados 3. Los mtodos para representar la aleatoriedad dada a los datos del sistema 4. Ajustando una distribucin terica a los datos 5. Escogiendo una distribucin en ausencia de datos
Trabajos en cola
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Caso 1 tiempos entre llegadas y tiempos de servicios exponenciales (M/M/1 cola, asume el sistema actual) Nmero promedio a largo plazo en la cola 98 Caso 2 -- constante entre llegadas y tiempos de servicio Nmero promedio en cola = 0
Ejemplo 2: Usando la distribucin incorrecta El sistema de cola de un solo servidor con los tiempos entre llegadas exponenciales Distribuciones Weibull, exponencial, normal, y lognormal fueron ajustadas a 200 observaciones de los tiempos de servicio (ver histograma en Figura 1).
Histogram
0.20
0.15
Proportion
0.10
0.05
Interval Midpoint
15 intervals of width 0.2 between 0 and 3
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Puede mostrarse que la distribucin de Weibull mantiene el mejor ajuste para los datos [ver Figura 2 debajo y Seccin 6.7 en Law y Kelton(2000)].
Density/Histogram Overplot
0.25
0.20
Density/Proportion
0.15
0.10
0.05
Interval Midpoint
15 intervals of width 0.2 between 0 and 3 2 - Lognormal 1 - Weibull 3 - Exponential
*Mejor ajuste
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Sistemas relacionados con la defensa: El resultado de un enfrentamiento, las distancias erradas, tiempos de reparacin para un motor de avin Sistemas de transportes: Tiempos entre llegadas de consumidores, tiempos de carga para un buque petrolero
Sistemas de servicio: Tiempos de servicio en un banco, tiempos para procesar papeles en una compaa de seguros
Histogram
0.15
Proportion
0.10
0.05
Interval Midpoint
31 intervals of width 2.4 between 0 and 74.4
Figura 3. Histograma de 890 tiempos de proceso para General Motors. Weibull es el mejor ajuste
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Histogram
0.35 0.30 0.25
Proportion
0.20 0.15 0.10 0.05 0.00 2.50 22.50 42.50 62.50 82.50 102.50 122.50
Interval Midpoint
25 intervals of width 5 between 0 and 125
Figura 4. Histograma de 1606 tiempos entre fallas para Kimberly- Clark. Se us distribucin emprica
Histogram
0.25
0.20
Proportion
0.15
0.10
0.05
Interval Midpoint
17 intervals of width 25 between 0 and 425
Figura 5. Histograma de 88 tiempos de reparacin para Reynolds Metals. El mejor ajuste es Pearson Tipo 6
Histogram
0.15
Proportion
0.10
0.05
0.00 50.3 52.3 54.3 56.3 58.3 60.3 62.3 64.3 66.3 68.3
Interval Midpoint
38 intervals of width 0.5 between 50 and 69
Figura 6. Histograma de 1000 rollos de papeles en yardas para Kimberly-Clark. Weibull es el mejor ajuste
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Histogram
0.30
0.25
Proportion
0.20
0.15
0.10
0.05
Interval Midpoint
22 intervals of width 0.1 between 0 and 2.2
Figura 8. Histograma de 219 tiempos entre llegadas de automviles a un banco. El exponencial es el mejor ajuste
Figura 9. Histograma de 255 longitudes de estada en una clnica medica. lognormal es el mejor ajuste
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
3. Los mtodos de representar la aleatoriedad dados los datos del sistema Observados los datos IID del sistema x1, x2, ..., xn ,desde una distribucin continua (Ej., tiempos de servicio) 1. Generar valores aleatorios desde una distribucin terica estndar. 2. Generar valores desde una distribucin emprica.
1. Generar valores aleatorios desde una distribucin terica estndar (e.j., exponencial) ajustada" a x1, x2, , xn .
Las Desventajas:
Uno no siempre puede encontrar una distribucin que proporcione una buena representacin. Posibles razones:
+
Los datos son de dos o ms poblaciones heterogneas Los datos han sido redondeados
2. Generar valores aleatorios desde una funcin de distribucin emprica F(x) calculada desde x1, x2, ..., xn . Desventajas: No puede generar valores fuera del rango de los datos observados La distribucin emprica puede tener "irregularidades Requiere valores de 2n para ser ingresado y almacenado en un computador
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Recomendacin: Use una distribucin terica estndar si puede encontrar la adecuada. De lo contrario, use una distribucin emprica.
Tipo y cantidad de datos para reunir: Si es posible, reunir al menos 100 observaciones en la variable aleatoria de inters. Para una variable aleatoria continua, los valores de los datos deben tener suficiente resolucin de modo que la muestra tenga un gran nmero de valores distintos. Usted deber entender el proceso que gener los datos, en lugar de tratar las observaciones como simples nmeros abstractos.
4. Ajustando una distribucin terica a los datos Parmetros para distribuciones continuas: ubicacin (o shift) A medida que cambia, la densidad vara de izquierda a derecha. Si la distribucin de la variable aleatoria X tiene un parmetro de ubicacin de 0, entonces la distribucin de la variable aleatoria Y = X + tiene un parmetro de ubicacin de .
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Escala Un cambio en comprime o expande la densidad. Si la distribucin de X tiene un parmetro de escala de 1, entonces la distribucin de Y = X tiene un parmetro de escala de . forma Un cambio en fundamentalmente altera las propiedades de distribucin (Ej., la asimetra).
Permita que X sea una variable aleatoria exponencial, gamma, Weibull, Pearson Tipo V, Pearson Tipo VI, o log-logstica, cuyo parmetro de ubicacin normalmente es 0. Luego Y = X + tiene un parmetro de ubicacin de . Una estimacin para se discutir en las pginas 376-377 de Law & Kelton.
Exponencial - expo()
f(x)
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Gamma - gamma(, )
f(x)
= 1/2
=1 =2 =3
Weibull - Weibull(, )
f(x) =3 =2 =1
= 1/2
f(x)
=5 =4
10
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Normal - N(, 2)
f(x)
Lognormal - LN(, 2)
f(x)
= 3/2
= 1/2
=1
=4
=2
=1 = 1/2
11
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
2 = 4
1 = 1
2 = 2
2 = 1 x
f(x)
2 = 4
2 = 2
1 = 2
2 = 1
Log-logistic - LL(, )
f(x)
=3
=2
=1 = 1/2
12
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Beta - beta(1,2, a, b)
f(x)
2.5
2.0
1.5
1 = 1 .5 2 = 5
1 = 5 2 = 5
1 = 5 2 = 1.5
1.0
0.5
0.0 0.0
x
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
f(x)
5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.0 0.0
1 = 1 2 = 5
x
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Johnson SB - JSB(1,2, a, b)
f(x)
4.0
3.5
3.0
2.5
1 = 2 2 = 2
1 = 0 2 = 2
1 = -2 2 = 2
2.0
1.5
1.0
0.5
0.0 0.0
x
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
13
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Escoger la distribucin terica que mejor represente un conjunto de datos es una tarea difcil, consumidora de tiempo, y propensa a cometer errores. Por lo tanto, se recomienda el uso de un paquete de software.
Enfoque recomendado para elegir una distribucin terica : Paso 0: Use un histograma y un resumen de estadsticas para determinar las caractersticas de la distribucin implcita. Histograma: Estimacin grfica de la funcin de densidad Use la amplitud de intervalo ms pequea que proporcione un histograma razonablemente uniforme.
Resumen de estadsticas:
Media Mediana x0.5 Moda Desviacin estndar Coeficiente de variacin, cv = / Coeficiente de sesgo,
3
Medida de tendencia central Medida de tendencia central Medida de tendencia central Medida de variabilidad
= E[(X - )3 ]/( 2 ) 2 ]
14
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Relaciones
Paso 1:
Uso de resultados desde el paso 0 para seleccionar un conjunto de distribuciones razonables. Ajuste cada una de estas distribuciones a los datos X1, X2, ..., Xn usando el mtodo de mxima verosimilitud (pp. 343-347). Para una distribucin particular, el mtodo procede eligiendo aquellos valores para los parmetros que maximizan la probabilidad de haber obtenido los datos observados.
Paso 2:
Determinar cual de las distribuciones fijadas (si hay alguna) mejor representa los datos observados usando uno o ms heursticos apropiados (e.j., comparaciones grficas histograma vs funcin de densidad o vs diagrama de frecuencias).
15
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Paso 3: Determinar la calidad de la mejor distribucin(es) usando comparaciones grficas y tests de bondad de ajuste Comparaciones Grficas: Densidad / histograma
Trace la funcin de densidad f (x ) de la distribucin fijada sobre el histograma.
Trace la funcin de distribucin Trace la funcin de distribucin de la distribucin fijada y la funcin de distribucin de la muestra Fn(x) en el mismo grfico, donde Fn(x) = (nmero de Xis x) / n (ver Figura 11 para una ilustracin).
F (x )
Trace las diferencias de funcin de distribucin Trace F (x )-Fn (x ) para todos los valores de x en la muestra se desea una lnea a la altura de 0.
Tests de bondad de ajuste: La meta es probar formalmente la siguiente hiptesis nula: H0: Las Xi son una muestra independiente de la distribucin fijadaF (x ) Prueba de Chi-cuadrado Divida el rango de F (x ) en intervalos k : [a0, a1), ... , [aj-1, aj), , [ak-1, ak)
16
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Deje Nj = nmeros de Xi en el intervalo j Ej = nmero esperado de Xi en el intervalo j si F (x ) estuviesen correctos =n Entonces el estadstico chi-cuadrado esta dado por 2 (2 0)
Rechazamos H0 al nivel (ej., 0.1) si 2 > 2k - 1, 1 - donde 2 - 1, 1 - es el (1 - ) - cuantil k para una distribucin chi-cuadrado con k - 1 g.l. (p. 709).
17
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Kolmogorov-Smirnov Test
Sea X1, X2, , Xn (datos ordenados de menor a mayor valor), el estadstico, Dn , se calcula de la siguiente manera:
donde:
= m ax { D
+ n
, D
_ n
D D
+ n
i = m ax F$ ( X 1 i n n = m a x F$ ( X 1 i n
(i)
(i)
i 1 n
si
> d
n , 1
Pruebas de Anderson-Darling (A-D) Diseadas para detectar discrepancias en las colas de una distribucin Ms poderoso que la prueba K-S Tambin aplicable a las distribuciones gama y Pearson Tipo V Cada distribucin tiene sus propios valores crticos A menudo mal utilizados en paquetes de software de simulacin
18
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
5. Eligiendo una distribucin en la ausencia de datos Asuma que la variable aleatoria X es continua y asigne un tiempo para la tarea. Consulte con un experto en la materia para las siguientes estimaciones subjetivas: a = tiempo mnimo de tarea b = tiempo mximo de tarea m = tiempo probable de tarea (modo)
Luego represente X por una funcin de densidad triangular en el intervalo [a, b]:
f(x)
area = 1 h x a m b
Ejemplo 5: Peligro de no recopilar los datos y usar cuidadosamente una distribucin triangular (pp. 386-389).
Sistema de colas de servidor individual: Tiempos entre llegadas exponenciales con media 1 Tiempos de servicios Lognormal con media 0.9 y varianza 1.39 Suponga que la distribucin de tiempos de servicio es desconocida y aproximada por cada una de las siguientes distribuciones triangulares :
19
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Distribucin triangular 1: a = 0, m = 0.20, y b = 1.97 (90 percentil de lognormal) Distribucin triangular 2: a = 0, m = 0.20, y = 0.90, resulta en b = 2.50 [ = (a + m + b) / 3 para una distribucin triangular]
0.75
f(x)
0.50 0.25 0.00 0.00
0.25
0.50
0.75
1.00
1.25
1.50
1.75
X-Value
1 - Lognormal 2 - Triangular
0.75
f(x)
0.50 0.25 0.00 0.00
0.25
0.50
0.75
1.00
1.25
1.50
1.75
2.00
2.25
X-Value
1 - Lognormal 2 - Triangular
20
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
--88.2 48.7
Conclusin: Es indispensable recolectar los datos en las variables del sistema importantes y elegir cuidadosamente las distribuciones correspondientes.
Lectura recomendada Secciones 6.1, 6.2, 6.4 hacia 6.7, 6.11 en Law & Kelton
21
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
Bibliografa recomendada. Law, A. M. and W. D. Kelton: Simulation Modeling and Analysis, Tercera Edicin, McGraw-Hill, New York (2000). Banks, Carson, Nelson, Nicol, Discrete-Event System Simulation, 4ta Edicin, Pearson Prentice Hall. Barcel, Jaime. Simulacin de Sistemas Discretos, Isdefe, Espaa, 1998. Law, Averil; Simulation Modeling and Analysis, McGraw Hill, USA, 2006.
f(x)
0.25
0.50
0.75
1.00
1.25
1.50
1.75
2.00
2.25
2.50
X-Value
1 - Weibull
0.75
f(x)
0.50
0.25
0.00 0.0
1.0
2.0
3.0
4.0
5.0
6.0
X-Value
2 - Exponential
22
Simulation Modeling for System Design and Analysis: Fundamental Principles - Chapter 6
f(x)
0.00
0.50
1.00
1.50
2.00
X-Value
3 - Normal
f(x)
0.60 0.50 0.40 0.30 0.20 0.10 0.00 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
X-Value
4 - Lognormal
23