Está en la página 1de 26

Simulación de Sistemas

Capítulo 4:
Adquisición y análisis de datos de entrada

Wilmer Atoche Díaz


2019-1 Miguel Fernández Pérez
Clase 4

Adquisición de Datos
1. Recolección de datos
2. Identificación de la distribución de probabilidad
3. Determinación de los parámetros de la distribución de probabilidad
4. Evaluación de la elección de la distribución de probabilidad

Lectura: Banks, Carson, Nelson & Nicol (2001)


Adquisición de Datos

Importancia de la adquisición de datos


La adquisición de datos es fundamental, porque tener datos buenos
es tan importante como tener la lógica correctamente comprendida. Si
no se toman datos adecuadamente, es difícil que el modelo se pueda
validar contra la realidad actual del sistema. Es común decir que “si
entre basura, sale basura...…”
En un caso real, el hecho de determinar los datos que se deben usar
(tipos de datos y cantidad de éstos) es una tarea difícil y consume
mucho tiempo.
¿Qué tipo de datos se suelen requerir para un modelo de
simulación?  Tiempo entre llegadas  Tiempos de reparación

 Demandas  Tiempos de viaje

 Tiempos de carga y descarga  Porcentaje de partes que no pasan


la inspección
 Tiempos de procesamiento
 Porcentaje de entidades que
 Tiempos entre fallas requieren distintos servicios, entre
otros.
Adquisición de Datos

Método para la adquisición de datos


Para desarrollar un buen modelo de input se deben seguir los pasos
siguientes:

Paso 1: Recolección de datos

Cuando la información no está disponible se puede utilizar opinión experta o


de conocimiento del proceso. Se puede inferir de sistemas similares.
Si el sistema si existe, se pueden obtener datos de la operación actual o datos
históricos como: reportes de producción, estudios de tiempos y movimientos,
reportes de calidad, ventas, compras, mantenimientos, paradas de máquina,
en general documentos que se tenga a disposición y donde se pueda entender
las condiciones en que fueron obtenidos.
Si los datos existen entonces se puede muestrear de la distribución teórica o
trabajar con la distribución empírica (en este caso se puede muestrear la
misma distribución).
Adquisición de Datos

Método para la adquisición de datos

Paso 2: Identificar la distribución de probabilidad que represente el proceso de input

Cuando la información está disponible se empieza por construir la distribución


de frecuencias o histograma de la información. Basándonos en el histograma y
el conocimiento del proceso podemos escoger una familia de distribuciones.

Paso 3: Escoger los parámetros que determina la instancia específica de la familia de


distribuciones.

Paso 4: Evaluar la bondad de ajuste a la distribución escogida


Si no estamos satisfechos con la distribución escogida regresamos al paso
dos. Si repetimos varias veces y el procedimiento no nos da un ajuste entre la
distribución asumida y la data entonces pasamos a trabajar con la empírica.
Adquisición de Datos

Recomendaciones

Planifique con sesiones de práctica o pre observación, utilice


formatos para la recolección de datos. Verifique
circunstancias inusuales.

Intente analizar la información mientras la recolecte. No es


necesario recolectar data superflua.

Intente combinar grupos homogéneos de data. Verifique si


existe homogeneidad entre periodos sucesivos de tiempo o
en el mismo periodo de días distintos.

Construya diagramas de dispersión para analizar la relación


entre variables.

Considere la posibilidad de que una secuencia de


observaciones que parece independiente en realidad tiene
correlación (periodos o entidades sucesivas).
Estimación de parámetros
Alternativas
Existen varias alternativas de cuantificar los estimados probabilísticos
dados por la gente involucrada en el proceso que se desea simular.

Caso A: Cuando se tiene un promedio solamente

Se puede usar el promedio como una constante, siempre y cuando la


variabilidad sea pequeña, y dependiendo de la actividad a simular, porque ya
no sería un modelo estocástico sino determinístico.

Podría justificarse usar una distribución Exponencial con el valor dado de


promedio, pero hay que considerar que la distribución exponencial tiene una
gran variabilidad.

Se puede introducir cierta variabilidad, tomando el estimado del promedio,


más y menos algún porcentaje de él. Con estos datos se puede usar una
distribución uniforme o una distribución triangular.
Estimación de parámetros
Alternativas

Caso B: Cuando se tiene el rango o alcance solamente

La mayor parte de los autores recomiendan usar distribución uniforme.

Con frecuencia tiene más sentido usar distribución triangular con el promedio
como punto medio.

Si la distribución normal se puede (considerando valores positivos solamente)


justificar, el promedio debe ser igual al punto medio con una desviación
estándar igual a 1/4 del rango, es decir, rango = 4s. En este caso un problema
es el rango de la distribución normal, el cual teóricamente va de +  a - .
Como este rango no tiene sentido en la mayoría de los casos (no hay tiempos
entre llegadas negativos) es una buena práctica truncar los valores generados
que parezcan irreales.
Estimación de parámetros
Alternativas

Caso C: Cuando se tiene el rango y la moda

Si además de tener los máximos y mínimos, se tiene un buen estimado de la


moda, entonces la distribución triangular, beta, o normal podrían ser usadas.

La distribución triangular es la distribución más conveniente cuando se tienen


disponibles estimados del mínimo, máximo y de los valores más frecuentes.

Otra posibilidad es usar la distribución beta, la cual se usa mucho para


estimar tiempo para completar tareas
Ajustes de Distribuciones
Construcción de una distribución teórica
Para ajustar datos a una distribución teórica se deben seguir tres pasos:
Paso 1: Seleccionar la forma de una distribución
Se genera con este fin un histograma:
1. Divida el rango en intervalos (usualmente de igual tamaño)
2. Grafique el eje x de acuerdo a los intervalos calculados.
3. Determinar la frecuencia de ocurrencias en cada intervalo.
4. Grafique el eje y para que todas las ocurrencias puedan ser modeladas en
cada intervalo.
5. Plotee las frecuencias en el eje vertical.
El histograma de las frecuencias, junto con el tipo de dato permitirán
intuir que distribuciones pueden ser la que permitan obtener el mejor
ajuste posterior
Revisando algunas de las distribuciones….
Ajustes de Distribuciones
Construcción de una distribución teórica
Paso 1: Seleccionar la forma de una distribución
 Exponencial: tiempo entre llegadas de un gran número
de clientes.
Distribuciones Discretas  Binomial: número de éxitos en “n” intentos
Uniforme independientes
 Gamma: con probabilidad
para variables p. Número de
aleatorias no negativas.
Geométrica defectuosos en un lote de tamaño “n”.
Binomial  Beta: para variables aleatorias acotadas (límites
Poisson Binomial negativa:
 inferiores número de intentos requeridos para
o superiores)
lograr k éxitos. Número de chips que debemos
 Erlang: una red de computadoras falla cuando una
inspeccionar para encontrar 4 defectuosos.
Distribuciones Continuas computadora y dos back ups fallan y cada una tiene
Uniforme Poisson:a falla
 tiempo número de clientes
exponencial. queespecial
Caso llegan en una hora,
gamma.
Gamma
número de defectos en 30m2 de tela.
Triangular  Weibull: modela el tiempo a falla (o tiempo de vida) de
Weibull Normal: distribución
 componentes. de unesproceso
Exponencial un caso que puede ser
especial.
Exponencial considerado como la suma de varios componentes.
Normal
Tiempo de ensamblaje en línea
Erlang
Lognormal  Lognormal: distribución de un proceso que puede ser
Beta visto como producto de componentes. Tasa de retorno
de una inversión con interés compuesto.
Ajustes de Distribuciones
Construcción de una distribución teórica
Paso 2: Estimar los parámetros

n
Estimar los parámetros a utilizar en la
distribución seleccionada, para lo cual, en _ X i

muchos casos, el promedio de la muestra y la X i 1

varianza, proveen un estimado de los n


parámetros de la distribución seleccionada, por 2
1 n 2 _
ejemplo en el caso de las distribuciones S   Xi  X
2

Exponencial, Poisson, Normal y Lognormal. n i 1


Si se trata de una distribución Gamma, Erlang y Beta, se utilizan
estimados del promedio y la varianza, para construir estimados para los
parámetros de la distribución. Por ejemplo en el caso de la distribución
Gamma, esta tiene un parámetro de forma  y un parámetro para la
escala , y estos se estiman mediante:
 2
2

   
  
Ajustes de Distribuciones
Construcción de una distribución teórica
Paso 3: Bondad de Ajuste

Determinar la bondad de ajuste relativa, utilizando el método


apropiado, una vez que se haya seleccionado una distribución,
basándonos en los histogramas, y que se haya determinado los
parámetros, lo que procede es una Prueba de Bondad de Ajuste, para
determinar la calidad de nuestro ajuste:

Chi-Square: Distribuciones Discretas y Continuas


Kolmogorov-Smirnov: Distribuciones Continuas
Ajustes de Distribuciones
Construcción de una distribución empírica

Si después de realizar las pruebas de bondad de ajuste con la


intención de ajustar una distribución conocida a los datos de la
simulación y se rechaza la hipótesis nula, se debe crear una
distribución específica a los datos a utilizar.
Ajustes de Distribuciones
Construcción de una distribución empírica
Variables Discretas

Tener en cuenta que en el gráfico


mostrado, los valores que puede tomar la
variable aleatoria solo son 1, 2, … 7.
Ajustes de Distribuciones
Construcción de una distribución empírica
Variables Continuas
Tener en cuenta que en este caso los
puntos son unidos por líneas rectas, y los
valores que se pueden obtener para la
variable aleatoria pueden ser cualquiera
que está entre 15.3 y 75.3.
Determinación de tamaño de muestra

Consideraciones generales
La primera pregunta fundamental antes de iniciar la recolección de datos
debe ser saber cuantos datos van a ser tomados. Esto se determina
empleando una fórmula de determinación de tamaño de muestra, que
toma en cuenta:
El tipo de muestreo
El parámetro a estimar
El error muestral admisible
La varianza poblacional (σ ²)
El nivel de confianza (1 – )
En el tamaño de una muestra de una población tenemos que tener
presente además si es conocida o no la varianza poblacional. Si no es
conocida, debemos estimarla de una muestra aleatoria pequeña recogida
inicialmente.
Determinación de tamaño de muestra

Estimación de la media de una población

Para determinar el tamaño de muestra “n” necesario para estimar con un


error máximo permisible prefijado (e) y conocida la varianza
poblacional (σ ² ) podemos utilizar la siguiente fórmula, que se obtiene de
reconocer que es el error estándar o error máximo prefijado y está dado por
la expresión para un nivel de confianza 1 –  :

Cuando no se conoce la varianza poblacional es necesario hacer un muestro


inicial o piloto, por ejemplo de 30 datos que nos permita calcular la varianza
muestral s² de los n datos de la muestra piloto.

s 
2
n
xi  x 2 Se emplea entonces s² de la muestra inicial en
la fórmula superior en lugar de σ² para
i 1 n 1 determinar el tamaño de muestra requerido.
Determinación de tamaño de muestra

Estimación de la media de una población

Población (N)
Parámetros: u y σ ² Estadísticos:
n
x   xi
i 1

Muestra
s 
2
n
xi  x  2

i 1 n 1

Si la varianza poblacional* se conoce, trabajar con “ “ y no con “s”


*A veces es necesario estimar la varianza poblacional con estudios previos debido a
que algunas veces las muestras no necesariamente contienen a la media de la
población
Determinación de tamaño de muestra
Estimación de la media de una población

   
 x  1 . 96 , x  1 . 96
n n 

 x 
x  1.96 x  1.96 Muestra 1
n n
x
Muestra 2
x
Muestra 3
x
Muestra 4
x
Muestra 5
No contiene a
la media de la x
Muestra 6
población

Determinación de tamaño de muestra
Estimación de la media de una población

   
 x  1 . 96 , x  1 . 96
n n 

 x 
x  z1 x  z1 Muestra 1
2 n 2 n
e x
Muestra 2
x e
Muestra 3
e x
Muestra 4
x e
Muestra 5
e x
Muestra 6


Tamaño de muestra
Ejercicio 1

Suponga que un centro de cómputo regional desea evaluar el desempeño


de su sistema de memoria en disco. Una medida del desempeño es el
tiempo medio entre fallas de su unidad de disco. A fin de estimar este valor,
el centro registró el tiempo entre fallas para una muestra aleatoria de 45
fallas de la unidad de disco.

Se calcularon las siguientes estadísticas:


 = 1762 horas
2 = (215)2 horas2.

Determinar el tamaño de muestra, si se desea un error de 24 horas, con


un nivel de confianza de 95%.
Tamaño de muestra
Ejercicio 2

A partir de una muestra, se requiere estimar la media de las edades de las


personas que trabajan en cierta rama de la industria, de tal modo que la
longitud del intervalo al nivel del 95% de confianza sea menor o igual que 1.
¿Cuántas personas deben incluirse en la muestra, si se supone normalidad
y que la varianza de la variable que describe las edades es 16?
Determinación de tamaño de muestra

Estimación de la proporción de una población


Un parámetro recurrente en diversas aplicaciones lo constituye la proporción
de elementos en la población que comparten cierta característica común. Por
ejemplo, la proporción de artículos defectuosos en una línea de ensamble.
El estimador de dicha proporción será denotado por la letra “p”, donde
p = y / n, donde y es el número de “éxitos” y n es el tamaño de muestra.
y exitos
p 
n muestra
Para determinar el tamaño de muestra “n” necesario para estimar “p” con un
error máximo permisible “e” prefijado, podemos utilizar la formula:
p(1  p)
e  z1
2 n

De donde se despeja n, obteniendo la siguiente fórmula:

Para el caso de poblaciones finitas (N), se aplica el


siguiente factor de corrección y la formula queda como
sigue:
Tamaño de muestra
Ejercicio 3

Es común utilizar aceros inoxidables en las plantas químicas para manejar


fluidos corrosivos. Sin embargo, estos aceros tienen especial
susceptibilidad al agrietamiento por corrosión causada por esfuerzos en
ciertos entornos. En una muestra de 295 fallas de aleaciones de acero que
ocurrieron en refinerías de petróleo y en plantas petroquímicas en Japón
durante los últimos 10 años, 118 se debieron a agrietamiento por corrosión
causada por esfuerzos y a fatiga de corrosión. Encuentre el número de
muestra al 95% de confianza, para un error máximo de 0.01
Tamaño de muestra
Ejercicio 4

La empresa Telecom cuenta con 1200 clientes para su servicio de Internet y


está interesada en realizar una encuesta con el fin de determinar, el número
de clientes que están satisfechos con su servicio y el valor deseado debe ser
de por lo menos 95%. El gerente de mercadeo desea estimar este total con
un error máximo no mayor a 30 clientes y una confianza del 99%. A
cuántos clientes deberá la empresa aplicar la encuesta?

También podría gustarte