Está en la página 1de 2

Laboratorio # 7

Simulación y Análisis de Datos

En el proceso de resolver un problema por medio de simulación, una de las preguntas más frecuentes que los
estudiantes se hacen es: “¿Cómo sé que distribución utilizar con cada variable?”. Esa es una muy buena pregunta (es lo
que usualmente dice alguien que no sabe la respuesta). Digamos que la respuesta a esta pregunta no es trivial. Para
saber que distribución utilizar para simular una variable aleatoria, es necesario contar con algún tipo de información
histórica y estadística sobre el comportamiento de dicha variable.

Veamos un ejemplo: suponga que usted está interesado en simular un proceso de manufactura y necesita saber qué
distribución utilizar para modelar el tiempo que toma a un operario realizar una actividad dentro del proceso. Usted no
tiene ninguna idea de cuál es la distribución más apropiada a utilizar, por lo que tiene 2 opciones, la primera debería ser
ir a buscar datos históricos/estadísticos de la duración de esa actividad, los cuales pueden provenir de sistemas de
información o estudios realizados previamente (buena suerte con eso!!! ;-) ). ¿Ya los encontró? JA JA JA…, no, ya en
serio, OK, no encontró nada, tranquilo, no hay tos, acostúmbrese, lamentablemente así va a ser la mayoría de veces.
Pero para eso usted es …..cha na na naaaaa….un INGENIERO INDUSTRIAL!!! (Insertar meme de su superhéroe favorito).
Así que agarre su cuadernito o su tablita, su cronómetro y su lápiz y diríjase al lugar donde se desarrolla la actividad, los
japoneses le llaman “ir a la Gemba”, ir a donde ocurre la acción, que no le digan, que no le cuenten, porque a lo mejor le
mienten!!!

OK, ya usted ha pasado un buen tiempo en el piso de trabajo y ha recopilado datos suficientes (digamos 50 o más,
mientras más, mejor) para tener una muestra suficiente. Ahora viene el trabajo estadístico con esos datos.

El script de R adjunto tiene una secuencia de análisis que demuestra la forma como se puede hacer una prueba que se
llama de “Bondad de Ajuste”. Es decir, que tan bien se ajustan los datos a una distribución determinada. En este tipo de
análisis, generalmente se inicia por explorar los datos y visualizar la forma de su distribución para poder determinar cuál
o cuáles distribuciones pueden ser candidatas a representar mejor el proceso de interés. Una vez hecho esto, se debe
obtener los parámetros de dicha distribución, pero esto no debe hacerse solamente calculándolos directamente de los
datos, para eso se utiliza la función “fitdistr()” que ajusta los datos a una distribución determinada que usted le
especifica y le devuelve los parámetros de esa distribución que mejor se ajustan a sus datos.

Luego, hay que realizar una prueba de hipótesis para confirmar si efectivamente esos datos se ajustan a esa distribución.
Para esto se utilizará la prueba de Kolmogorov Smirnov (función “ks.test()”). Esta prueba parte de la hipótesis nula que
los datos provienen de la distribución que usted le indique. La hipótesis alternativa es que los datos NO provienen de esa
distribución. Usted establece un Nivel de Significancia para la prueba (usualmente N.S. = 0.05) y al aplicar la función,
observa el p-value obtenido. Si el p-value es mayor al N.S., entonces no existe evidencia para rechazar la hipótesis nula y
puede asumir que esa distribución se ajusta bien. Si el p-value está por debajo del N.S. entonces deberá rechazar la
hipótesis nula en favor de la hipótesis alternativa, por lo que se concluye que los datos proporcionan evidencia para
decir que dichos datos NO provienen de esa distribución. Recuerde que por el nivel de significancia, esta prueba puede
arrojar falsos positivos o falsos negativos, pero por el momento no se preocupe por eso.

Lea detenidamente el script y los comentarios antes de ejecutarlo. Las instrucciones son las siguientes:

a) Vaya al sitio http://www.cs.ndsu.nodak.edu/~nygard/csci418/lecture_slides/lec3_stat2.htm y busque la primera


tabla que contiene los datos de los tiempos de vida útil de 50 microprocesadores operando a un voltaje mayor a
su diseño para simular períodos extendidos de uso y stress.
b) Seleccione y copie la tabla completa y péguela en una hoja de Excel. Luego reordénelos para que los 50 datos
queden en una sola columna.
c) Copie y pegue los datos en R ejecutando la línea 21 del script. (asegúrese primero de instalar y cargar los
paquetes en las líneas de la 5 a la 9)
d) Vaya leyendo cada comentario y ejecutando las instrucciones una a una.
e) Finalmente complete la parte experimental siguiendo fielmente las instrucciones del script y agregando el
código necesario.

También podría gustarte