Está en la página 1de 17

Universidad Nacional del Centro Facultad de Cs.

Exactas Ingeniería de Sistemas Inteligencia Artificial Julio 2009

O RGA NI Z ATI O NA L M I N I N G PA R A DE T E CTA R E QU I PO S DE T RA BA J O
UNA APLICACIÓN DE LAS TÉCNICAS DE INTELIGENCIA ARTIFICIAL ORIENTADA AL WORKFLOW MINING
Juan Francisco Hurtado Cristian Matías Merlo Mario Ezequiel Scott juan.yue@hotmail.com cristianmmerlo@gmail.com eze.scott@gmail.com

RESUMEN
Este trabajo aplica una técnica conocida de Inteligencia Artificial al dominio de Workflows, centrándose en el enfoque organizacional, donde se tienen en cuenta principalmente las personas involucradas en la organización. Así el área sobre el cual se llevó a cabo la investigación es el entorno conocido como Organizational Mining. Partiendo del hecho de que las personas son muy importantes en una organización, aún más resultan ser las relaciones existentes entre ellos, por eso nos focalizamos en la creación de grupos de trabajo. Para ello, se utiliza una técnica de Clustering para detectar los potenciales equipos que existen. En particular el algoritmo utilizado es el EM y permite encontrar grupos de personas intrínsecamente relacionadas según las tareas que desempeñan. De esta manera podemos obtener conocimiento específico sobre el dominio a tratar, partiendo de un log generado por un sistema de información orientado al Workflow Management. Luego de obtener los potenciales equipos de trabajo, resulta interesante efectuar un análisis que permita manifestar la relación existente entre los diferentes equipos formados, logrando evidenciar el grado de colaboración. Para esto se utilizó una métrica que permiten cuantificar la colaboración entre equipos. Por ultimo se intenta optimizar la cantidad de equipos creando agrupaciones de estos, estableciendo un nuevo nivel tanto semántico como jerárquico.

............................................. Compañía de Reparación de Teléfonos .............................................................................. 4................................... 3........................................................................... 8......................................... 12 Log de Ejemplo 2 .............................................3 Process Mining ................................. 11 Resultados Obtenidos ............................................................. 6....................................................... 12 6................................................... 17 2 .................................................................................................................................................. 2................ 13 Conclusión ....................... Introducción ........................................................1 6..................................... 5.......................................6 Evaluación empírica de las técnicas de clustering ....................................4 Minería de Equipos de Trabajo .....................................2 7...............................8 Algoritmo EM .....................Organizational Mining y Detección de Equipos CONTENIDO 1................. 15 Bibliografía .........

que se vale del algoritmo EM. Finalmente. También se explica en detalle el algoritmo de clustering seleccionado. Es por esta razón que el área del Organizational Mining resulta más que atractiva. Estos registros son salvados en un archivo denominado log que permite la persistencia de este historial. se describen todos los detalles del plug-in implementado. posee información acerca del comienzo y finalización de una actividad pero también el agente que lleva a cabo dicha actividad. este tipo de conocimiento resulta sumamente fructuoso ya que permite a los administradores e ingenieros de procesos entender las estructuras organizacionales y redes sociales. La implementación de nuestra investigación yace en el desarrollo de un plug-in para una poderosa herramienta de Process Mining conocida bajo el nombre de ProM (Process Mining Group.O R G A N I Z A T I O N A L M I N I N G PA R A D E TE C TAR E QUI P O S D E T R A BA JO 1. y en diversos otros dominios. la cual posee una numerosa cantidad de otros plug-ins centrados tanto en la minería de conocimiento como en el análisis de logs previamente mencionados. en bancos. es decir. Estos sistemas proveen herramientas que facilitan la administración de dichos procesos y además de las personas involucradas en cada instancia o tarea que se lleva a cabo. Idealmente estos sistemas se encargan de proveer todas las etapas del ciclo de vida de la administración de procesos comerciales: (re)diseño – configuración – ejecución – control – diagnostico. En particular. se realiza una evaluación de las técnicas de clustering para este dominio. tales como los ERP (Enterprise Resource Planning). También se intenta optimizar la cantidad de grupos estableciendo nuevas agrupaciones de los equipos de trabajo. Es aquí donde surge la Minería dentro de los Procesos. es ejecutado. ya que el comportamiento humano es altamente relevante en las organizaciones. la conclusión que cierra la idea general del trabajo y el enfoque que se le ha dado. se utilizo una técnica de clustering. como es el caso de los sistemas que se aplican en el contexto medicinal. Luego. Todos ellos tienen la particularidad de ser sistemas orientados a los procesos y por ello registran eventos mientras un proceso. ProM es una aplicación de código abierto desarrollada en JAVA que soporta perfectamente la propuesta. La mayoría de las investigaciones en esta área se centran en descubrir flujos de control. Luego. como por ejemplo las configuraciones organizacionales y la interacción entre trabajadores. logrando potenciales mejoras a los procesos involucrados. A continuación se sigue con una exposición de los resultados obtenidos por medio del plug-in desarrollado. es decir en construir modelos de procesos basados en el log. Este informe esta organizado como sigue. 2009). mejor conocida como Process Mining. donde los procesos no son completamente controlados por sistemas. en primer lugar una sección que expone qué es el Process Mining junto con todo su alcance e incumbencias. De esta forma. Sin embargo el enfoque no es meramente comercial. Cada entrada del log contiene diferente información de acuerdo al sistema que lo genera. pero otros aspectos han sido descuidados. este trabajo se sitúa dentro del Organizational Mining implementando una técnica de Inteligencia Artificial que permita la detección de Equipos de Trabajo. 3 . utilizando diferentes métricas. pero en general. el algoritmo EM. ya sea en hospitales o clínicas. Por esta razón. IN T ROD UC C IÓ N Hoy en día existen una gran cantidad de sistemas de información que permiten facilitar el manejo de los procesos que llevan a cabo una organización a través de Workflows. o también conocido como caso. Esta especialización del Data Mining provee métodos y técnicas para capturar los procesos de este log basado en eventos. Es por eso que se intenta bajo este enfoque descubrir conocimiento organizacional en cualquier ambiente donde las personas juegan un importante rol. Eindhoven Technical University. se da un paso más en la investigación y se realiza un análisis de la relación existente entre los Equipos previamente detectados. y BPM (Business Process Management) y WfMS (Workflows Management Systems). pues existen otra gran cantidad de sistemas que yacen sobre diferentes dominios. en particular descripción de procesos estructurados. determinados principalmente por la similitud de las tareas que llevan a cabo las personas. pues incide directamente en la performance de un proceso.

se consideran tres tipos básicos de tipos de Process Mining: el descubrimiento de conocimiento. También puede utilizar otro tipo de información como lo es la estampa de tiempo. Sin embargo el Process Mining no solo esta limitado a los modelos de procesos. en derivar información acerca del modelo original.Organizational Mining y Detección de Equipos 2 . Es por eso que se utiliza el log de eventos como una manera de realizar una lectura acerca de la realidad actual. o bien una parte de éste. u otro recurso como un sistema/software están relacionados. El único requerimiento necesario para la aplicación de los métodos de Process Mining es que estos sistemas produzcan logs de eventos que manifiesten el actual comportamiento del sistema. etc. La mayoría de las técnicas de Process Mining están focalizadas en el descubrimiento de conocimiento. monitorear y mejorar los procesos reales que actualmente están sucediendo. Hay que notar que este tipo de técnicas requieren un modelo a priori sobre el cual chequea la conformidad de la realidad con respecto al modelo. o sea. o sea la persona o recurso dentro de la organización que ejecuta o inicializa la actividad. Algunas técnicas explotan únicamente la información de los procesos que contiene el log. la conformidad y la extensibilidad. grupos. como lo son por ejemplo los sistemas embebidos. o algún otro dato como por ejemplo el tamaño de un pedido. que posee un enfoque hacia el análisis social. aplicable a una amplia cantidad de Sistemas. Y aquí es donde se sitúa nuestro trabajo. el contexto organizacional. Figura 2-1 – Esquema general del Process Mining. como lo son reglas del negocio predefinidas. como lo es la perspectiva organizacional o la perspectiva de casos. existen significativos baches entre los modelos de procesos planteados y lo que en realidad sucede en la organización. o bien propiedades de ejecución de los eventos. 4 . En la práctica. Esta conformidad puede estar basada ya sea en modelos organizacionales o bien en otras reglas. formulas temporales. mientras que otras usan información adicional como el originador del evento. La conformidad es una etapa que se centra en comparar un modelo a priori con el comportamiento observado a través del log. Como expone Minseok Song et. al (2008) el objetivo del Process Mining es extraer información específica de esos logs de eventos. donde no existe un modelo a priori. que pueden ser puramente Sistemas de Información o también Sistemas donde el hardware cumple un rol más importante. definiciones de Calidad de Servicio (QoS). Como se muestra en la Figura 2-1. permitiendo a la organización monitorear como las personas. P RO C E S S M I NI N G Process Mining se puede considerar como un área del Data Mining. permitiendo técnicas de análisis a posteriori que explotan la información salvada en el log. Entonces podemos decir que la idea del Process Mining es descubrir. sino que existe una reciente tendencia en focalizar en otras perspectivas.

Y justamente este es el objetivo de esta investigación. o bien por los originadores que trabajan en ese caso. o bien equipos de trabajo. En general esto es expresado en términos de redes de Petri (Rozenberg. de todas maneras es posible derivar grupos de originadores cuyas personas involucradas están capacitadas para desempeñar tareas similares. 1998). Los casos se caracterizan por ser una camino dentro del proceso. 5 . por lo que luego se pone en manifiesto la relación existente entre los equipos de trabajo detectados. pero si enriquecer el modelo antiguo con los datos del log. incluso también pueden ser caracterizados por los valores correspondientes a los elementos de datos. presta especial atención al originador de la tarea y su objetivo es clasificar a las personas en términos de roles o unidades organizacionales o bien mostrar las relaciones individuales entre los originadores. podemos decir que existen dos tipos de modelos que resultan ser relevantes para el Organizational Mining. La perspectiva de procesos se centra en el control de flujo. el análisis de performance y el perfilado de usuarios. Entonces. el cual es extendido con un nuevo aspecto o perspectiva. requerimos de la presencia de un modelo a priori. en particular el clustering a través del algoritmo EM. o de Cadenas de Procesos a través de Eventos (EPC) (Teufel. conformidad y extensión). y es aquí donde nos centramos. Nuevamente.La extensibilidad puede estar dada de numerosas maneras. Cuando se analiza el log de eventos. cabe destacar que existen tres diferentes perspectivas: la perspectiva de procesos (“¿Cómo?”). e integrar ambos modelos relevantes del Organizational Mining. pues hay muchos caminos para extender un modelo de proceso dado con perspectivas adicionales basadas en el log de evento. valiéndonos de una técnica de inteligencia artificial. detallado en la Sección 5. 1998). y tiene como objetivo encontrar una buena caracterización de todos los posibles caminos. por ejemplo en como están ordenadas las actividad. ellos son: • • El modelo organizacional que representa la actual estructura organizacional. La perspectiva de casos se focaliza en las propiedades subyacentes a los casos. Ejemplos de estas perspectivas que permiten extender el modelo son la minería de decisiones. Una vez expuestas estos tres tipos de minería de procesos (descubrimiento. y Las redes sociales que muestran la estructura comunicacional en una organización. descubrir grupos. Pero se intenta dar un paso mas.. es difícil encontrar una jerarquía explicita de las unidades organizacionales. La perspectiva organizacional (Organizational Mining). la perspectiva organizacional (¿Quienes?). cuyo objetivo no es chequear la conformidad con la realidad del nuevo modelo. mostrando su estructura comunicacional. y la perspectiva de casos (“¿Qué?”).

igual al numero total de tareas llevadas en la organización. y también tiene en cuenta el segundo objetivo al plantear una visión sobre cuán relacionados están los Equipos de Trabajo entre ellos. en nuestro caso se ha utilizado la distancia Euclídea. por lo que nos valemos de una expresión vectorial de cada Equipo. el correspondiente valor en esa posición será nulo. De esta manera se integran exitosamente los dos objetivos del Organizational Mining en una sola herramienta. el objetivo de este trabajo es desarrollar una herramienta enfocada al Organizational Mining. independientemente del Equipo que representen. El próximo paso interesante es encontrar una forma de medir cuantitativamente este nexo. que permite descubrir información específica haciendo uso de los logs de eventos antes mencionados. Dado que el proceso de clustering implica la división del dominio tratado en grupos de objetos similares. para ello nos valemos de la frecuencia con que son realizadas tales tareas (cantidad de veces que se realiza la actividad sobre el total realizado por el equipo). donde cada elemento del vector representa la frecuencia con que se realiza cada tarea. Gracias a esta estructuración. Para esto. es esencialmente el proceso que satisface nuestra necesidad de descubrir grupos de personas que estén relacionados entre ellas. el descubrimiento de los Equipos de Trabajo es realizado mediante una técnica de Inteligencia Artificial a través de un método de clustering. y resulta ser una forma sugerida de cómo agrupar a los integrantes de la organización de manera tal que se maximice el grado de cooperación y comunicación entre ellos. M I NE RÍ A D E E QU IP OS DE T RA BA JO Como ya se dijo. en este caso. Una vez que tenemos todos los clústeres bien definidos. por medio de las tareas similares que realizan. Witten. tratable por Weka (Ian H. donde su elección quedara justificada mas adelante así como su funcionamiento. o sea a un Equipo de Trabajo. podemos utilizar alguna métrica que cuantifique el grado de relación. Con el objetivo de encontrar Equipos de Trabajo de la información aportada por el log. Partiendo de esto nos es posible definir la cantidad de Equipos que es posible crear en esa estructura organizacional. esto es equivalente a detectar la pertenencia de cada par [persona. Una vez obtenidas todas las instancias que representan el log de eventos. Estos grupos son los que denominamos Equipos de Trabajo. tarea] a un clúster.Organizational Mining y Detección de Equipos 3. por cada evento registrado. si los originadores de éstos al menos realizan una actividad en común. Si algún equipo no realiza una tarea. así como qué personas los conforman y también de qué tareas estará encargado cada uno de ellos. El siguiente paso surge de la necesidad de representar estos pares como una instancia. que viene dada por: 6 . solo se tienen en cuenta los originadores y las actividades que realizan. En principio. La idea se centró en la detección de estructuras organizacionales. en nuestro caso nos valemos del algoritmo EM. entrenándolo con todas las instancias de log y con los siguientes parámetros de configuración: • • • • Máximo numero de iteraciones: 100 Mínima desviación estándar permitida: 1 x 10-6 Numero de Clústeres: detectados automáticamente por medio de Cross-Validation Numero de semillas aleatorias: 100 Dado que EM es un algoritmo probabilístico podemos determinar la distribución de probabilidades asociada a cada instancia. La dimensión de estos vectores en todo caso será la misma. También resulta interesante expresar cuán abocado se encuentra cada equipo a cada una de las tareas que lleva a cabo. Nuestra propuesta garantiza la detección de estructuras organizacionales. se ejecuta la creación de los clúster por medio de EM. mientras que el segundo es la comunicación entre las personas. perteneciente a una relación detectada entre ellos. asumimos que dos Equipos se encuentran relacionados entre sí. se procede a abordar el segundo aspecto importante del Organizational Mining: la relación entre Equipos de Trabajo. específicamente Equipos de Trabajo. 2005). teniendo siempre en mente los dos objetivos principales del Organizacional Mining: la detección de estas estructuras es el primer foco importante. quien nos provee de la implementación del algoritmo elegido.

pero cada uno con funcionalidades u objetivos diferentes dentro de la organización. se expondrán ejemplos que manifiesten el comportamiento de nuestra técnica de Organizacional Mining. cuanto más relacionados se encuentren los equipos menor va a ser el valor obtenido. y por el contrario.Siendo x e y vectores n-dimensionales. De otra manera quedarían diferentes Equipos conformados por las mismas personas. 7 . Dando un paso mas allá. cuando haya un nexo débil. o jerarquía. Más adelante en la sección de Resultados Obtenidos. podemos optimizar la cantidad de Equipos detectados. agrupando aquellos donde sus originadores son exactamente los mismos. Llevando a cabo este agrupamiento. en un nivel mayor de abstracción. Al ser una distancia usual. basándonos únicamente en las personas que participan en los Equipos. logramos crear una nueva entidad organizacional. que permitirán un mejor entendimiento del funcionamiento del plug-in. el valor se alejará de cero.

CLOPE. más que un ente formado por una colección de puntos. esto es. pero siempre que se conozca el numero de clústeres a priori. Además COBWEB pertenece a los métodos de aprendizaje conceptual o basados en modelos. SolverC2. Esto se ve en los dos gráficos siguientes: 8 . Este agrupamiento escapa visiblemente del objetivo al que apuntamos. en el caso de este algoritmo los coloca a todos ellos en clústeres separados. Esta idea se lleva a cabo mediante un parámetro de repulsión que controla la limitación de las instancias en un clúster. Al modificar este valor se puede observar que con una repulsión de 0. 1967) y FarthestFirst (Hochbaum. Al utilizar distintos valores para el parámetro antes mencionado se observan distintas asignaciones.Organizational Mining y Detección de Equipos 4 . Los algoritmos evaluados fueron Cobweb. ya que estos requieren conocer de antemano el número de clústeres que existen entre los datos. pero genera una distribución que no es la esperada. Figura 4-1 . E VA L UA C IÓ N E M P Í RI C A D E L A S T É C NI C A S D E CL US T E RI NG El algoritmo EM fue seleccionado como el candidato ideal para la detección de los Equipos de Trabajo. 1987): este algoritmo entra en la categoría de clustering jerárquico y se caracteriza por utilizar aprendizaje incremental. hay que destacar que estos algoritmos sobresalen por su alta performance y sobre todo por su bajo costo computacional y simplicidad. EM.clustering efectuado por el algoritmo Cobweb sobre un ejemplo de reparación de teléfonos Desempeño del algoritmo CLOPE (Yiling Yang. Sin embargo. Un ejemplo básico de ello es agrupar {SolverC1. 1985). la formación de 31 clústeres distintos para el caso en que sus parámetros son los por defecto. k-Means y FarthestFirst. Esto significa que cada clúster se considera como un modelo que puede describirse intrínsecamente. SolverC3} ya que comparten la realización de la tarea Repair (Simple). el tamaño que a nuestro parecer es el correcto para estos datos. ya que presenta numerosas ventajas si lo comparamos con otros algoritmos.8 se obtienen 4 clústeres. basado en k-Means.6) nos generará una cantidad grande de clústeres (21 para nuestro caso). En la Figura 4-1 puede observarse para el ejemplo dado. Durante la ejecución del algoritmo se forma un árbol (árbol de clasificación) donde las hojas representan los segmentos y el nodo raíz engloba por completo el conjunto de datos de entrada. valor que resulta imposible predecir al perseguir el objetivo planteado anteriormente. En primer lugar nos permitimos descartar de entre los candidatos a los algoritmos k-Means (MacQueen. 2002): Este algoritmo se propuso basado en la idea intuitiva de incrementar el radio ancho-a-alto del histograma del clúster. realiza las agrupaciones instancia a instancia. proveyendo más Equipos de trabajo de los que se creen necesarios a simple vista. Se realizó una evaluación empírica acerca de un grupo de algoritmos de clustering conocidos utilizando el software Weka. por ejemplo si utilizamos el valor por defecto (repulsión = 2. Desempeño del algoritmo Cobweb (Fisher. intentando así incrementar la coincidencia intra-cluster.

6 Figura 4-3 .Figura 4-2 .clustering realizado por el algoritmo CLOPE con un valor de repulsión de 2.clustering realizado por el algoritmo CLOPE con un valor de repulsión de 0.8 9 .

podemos decir que el algoritmo que mejor se adapta a nuestras exigencias es el EM. Dempster. se cree que valen la pena los recursos consumidos en pro de los resultados obtenidos. así como en el mejor de los casos. o sea. como lo es el hecho de mejorar un modelo organizacional. que en cuyo caso sería mas difícil de detectar Equipos de Trabajo de manera intuitiva. al tener cada tipo de originador tareas específicas asignadas. es el que mejor detecta los clústeres dentro de la distribución de datos. evidentemente en este caso los beneficios obtenidos escapan a cualquier complejidad computacional. 1977): Como se observa en el siguiente gráfico la distribución de los datos es la esperada. pero a la hora de realizar un análisis de alta importancia. En este caso. Figura 4-4 . mientras que la inter-cluster es baja. sumado al hecho de que desconocemos la cantidad de Equipos de Trabajo deseados. por ejemplo todos los Testers se dedican a Analyze Defect y a Test Repair.Organizational Mining y Detección de Equipos Desempeño del algoritmo EM (A.P.Clustering efectuado por el algoritmo EM para el ejemplo dado En conclusión. satisface nuestras necesidades. Un punto que no podemos obviar es su alta complejidad computacional. Este último es el caso del ejemplo evaluado. Mas adelante en el informe se realizará una descripción detallada este algoritmo ya que es el utilizado. realizando el balance costo-beneficio. Es decir. su similitud intra-cluster es alta. EM nos proporciona clústeres que son tanto compactos como separados entre si. que sería aquel donde la distribución de los eventos resulta ser homogénea. pues a simple vista es más fácil detectar el error en la formación de clústeres o Equipos de Trabajo. ya que se eligió un log en el cual los originadores realizan de manera equitativa sus tareas (en cuanto a la cantidad de veces que ejecutan sus labores asignadas). los agrupa a todos ellos en un solo Equipo de Trabajo. pues pese a su alta complejidad computacional. es decir donde la distribución de los eventos del log tiende a ser heterogénea. que puede repercutir en tomar grandes decisiones. Esto. 10 . tanto en el peor de los casos. Esto también se ve facilitado por el hecho de que no existen tareas compartidas entre los utópicos clústeres. Entonces.

θj) la función de densidad del componente j. donde donde πj son las probabilidades a priori de cada clúster cuya suma debe ser 1. Cada clúster se corresponde con las respectivas muestras de datos que pertenecen a cada una de las densidades que se mezclan. para la detección de Equipos de Trabajo. N}. Este valor de bondad se conoce como el likelihood de los datos. Se pueden estimar FDP de formas arbitrarias. Esta FDP se puede aproximar mediante una combinación lineal de N componentes. Normalmente. o sea. maximizando este likelihood (este criterio se conoce como ML . Cada uno de estos clúster estará definido por los parámetros de una distribución normal. obteniendo diferentes formas de la FDP buscada. conocido como log-likelihood ya que es más fácil de calcular de forma analítica. definidas a falta de una serie de parámetros {θ} = ∪{θj ∀j = 1 . los cuales se pueden utilizar para segmentar conjuntos de datos. procede en dos pasos que se repiten de forma iterativa: Expectation: Utiliza los valores de los parámetros iniciales o proporcionados por el paso Maximization de la iteración anterior. Se trataría entonces de estimar los parámetros buscados θ. El algoritmo EM. Poisson. Después de una serie de iteraciones. es decir. P(x) denota la FDP arbitraria y p(x.Maximun Likelihood). Es un método de clustering probabilístico donde se trata de obtener la FDP (Función de Densidad de Probabilidad) desconocida a la que pertenecen el conjunto completo de datos. Maximization: Obtiene nuevos valores de los parámetros a partir de los datos proporcionados por el paso anterior. La solución obtenida es la misma. t-Student. La forma de esta función log-likelihood es: donde NI es el número de instancias. gracias a la propiedad de monotonicidad del logaritmo. es la provista por la librería de Weka. Bernoulli.. 11 .5. Finalmente se obtendrá un conjunto de clústeres que agrupan el conjunto original. por ser éstas las más comunes. utilizándose FDP normales n-dimensionales.. La implementación de este algoritmo para nuestro caso. 1997) pertenece a una familia de modelos que se conocen como Modelos de Mezcla Finita (Finite Mixture Models). Aquí se modelarán los datos mediante distribuciones normales. el algoritmo EM tiende a un máximo local de la función L. que también forman parte de la solución buscada. El ajuste de los parámetros del modelo requiere alguna medida de su bondad. cómo de bien encajan los datos sobre la distribución que los representa. AL G O RI TM O E M El algoritmo EM (Expectation Maximazation) (Mitchell. y log-normales. que son los que hay que averiguar. que se suponen independientes entre si. lo que se calcula es el logaritmo de este likelihood.

También se puede observar en la segunda perspectiva que no existen relaciones entre los Equipos. 1 2 http://prom.tue.nl/research/wiki/_media/courses/processmining/eventlogassignment5. Y la otra forma de visualización expone el segundo aspecto: el nexo entre los Equipos. o sea dos perspectivas de acuerdo a los dos aspectos importantes del Organizational Mining: una contempla la visualización de los Equipos de Trabajos detectados y las tareas que deben llevar a cabo ese equipo. en ambas perspectivas.zip 12 . es decir se intenta mantener la interfaz amigable con el usuario. al no poseer tareas en común (Figura 6-2).zip http://prom. se obtuvieron los resultados que sugieren la formación de 4 Equipos de trabajo.nl/research/wiki/_media/tutorial/repairexample. se encuentran agrupados dentro de rectángulos azules los Grupos que representan un nivel mayor de abstracción.win. Además.Organizational Mining y Detección de Equipos 6 .Perspectiva Equipos y Tareas para el Log Ejemplo 1.mxml1 Log Ejemplo 2: EventLogAssignment5. 6.win. Así mismo también provee la posibilidad de hacer persistente los datos. Figura 6-1.tue. se analizaron dos logs de ejemplos: • • Log Ejemplo 1: Proceso de reparación de teléfonos en una compañía: repairExample. o jerarquía. y se indica el grado de dedicación que empleará cada Equipo sobre las tareas que deben realizar (Figura 6-1). RE S U LTAD OS O B TE N I D OS Para evaluar el desempeño de nuestra propuesta. como se explicó en la sección 3.1 COMPAÑÍA DE REPARACIÓN DE TELÉFONOS Luego de hacer correr el plug-in para el Log Ejemplo 1.mxml2 El plug-in desarrollado contempla una manera de visualizar los resultados acorde con el Framework. optando por expresar la salida del plug-in de una manera gráfica. Y esto queda verificado según la Figura 6-1. Otra característica del plug-in implementado es que posee dos maneras de visualizar los datos. implementada como un plug-in de la herramienta ProM bajo el nombre de “Team Miner”. que ser apoya principalmente en la teoría grafos.

y para esto nos valemos nuevamente de una matriz conformada por los vectores fila de Equipos.389 Team 0 Team 1 Team 2 Team 3 Team 4 Team 5 Team 6 Team 7 . La dedicación de cada Equipo hacia sus labores queda cuantificada según los valores de los arcos correspondientes.423 .467 .333 .333 .628 .112 Team 1 0 0 .577 0 0 0 0 Team 2 0 1 0 0 0 0 0 0 Team 3 1 0 0 0 0 0 0 0 Tabla 6-1– Matriz que expone los Equipos como vectores por fila según sus actividades para el Log Ejemplo 1.064 .Repair Repair Analyze Test Archive Inform Register Restart (Simple) (Complex) Defect Repair Repair User Repair Team 0 0 0 0 0 .013 . cuyos elementos son la frecuencia de actividades realizadas (Tabla 6-2) que nos permite evaluar la métrica propuesta anteriormente. A su vez.028 .470 0 0 0 0 0 0 0 0 0 0 0 0 0 .277 . Como el caso anterior. 13 T13 0 0 0 0 0 1 0 . por ejemplo como se aprecia en la Figura 6-3.Matriz que expone los Equipos como vectores por fila según sus actividades para el Log Ejemplo 2. Figura 6-2 – Perspectiva acerca del nexo existente entre los Equipos de Trabajo para el Log Ejemplo 1.134 . se evidencian las tareas que realizan los diferentes Equipos y el grado de dedicación hacia cada una de ellas. dado por las tareas “Survey” y “Intern Repair”. por medio de las tareas comunes “First Contact”. También se observa que el “Team 1” tiene relación con el “Team 7”. el “Team 0” tiene un nexo con el “Team 2”.306 . T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 0 0 0 0 0 .343 0 0 0 0 0 0 . En primer lugar se presentan los Equipos de Trabajo detectados. “Inform Client Wrong Place” y “ArrangeSurvey”.2 LOG DE EJEMPLO 2 Este log esta creado con fines de ejemplificar el potencial del plug-in.353 0 0 0 . Pero en particular hay que notar que los Equipos de Trabajo comparten tareas.333 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 . este ultimo equipo también se encuentra relacionado con el “Team 5” por medio de la actividad “Make Ticket”.207 Tabla 6-2 .513 . gracias a la primera perspectiva. 6. Luego resulta interesante realizar un análisis de cuán estrechamente relacionados se hayan los roles.305 .390 .

Figura 6-4.Perspectiva que muestra los nexos existentes entre los Equipos de trabajo del Log Ejemplo 2.Organizational Mining y Detección de Equipos . 14 . Figura 6-3 – Perspectiva de Equipos de Trabajos y tareas para el Log Ejemplo 2.

En nuestro caso se agrupan originadores cuya similitud entre estos esta dado por las tareas que realizan. Considerando la tarea de seleccionar un algoritmo. Es decir hemos diferenciado Equipos de Roles. pero este no es el objetivo de nuestra herramienta. Sin embargo estos grupos no se pueden considerar como Roles perfectamente definido. ya que es el que mejor arroja resultados para este dominio en particular. y arquitectos de sistemas y por otro lado tareas de limpieza. Es aquí donde surge un creciente interés en el Organizational Mining. detectando equipos con alta similitud intra-cluster y baja similitud inter-clúster. logrando descubrir información específica a partir de logs que son arrojados por las diferentes aplicaciones existentes. tanto en sistemas puramente de Información como también de Sistemas Embebidos. contendrán personas que puede que no realicen todas las tareas asignadas a ese Equipo. objetivo que se adecua sin problemas a la esencia del proceso de clustering. o particiones de un conjunto de datos. se desarrolló una herramienta que logra hacer uso efectivo de una de las técnicas de Inteligencia Artificial estudiadas. que los llevan a cabo son tal vez aun más importantes. y a su vez facilitando la administración de recursos o insumos requeridos por sus integrantes. De este modo podemos representar a un Equipo de Trabajo con uno de los clústeres detectados. maximizando la comunicación y la cooperación. Si esto mismo lo analizamos desde una perspectiva más organizacional. sea programar. entre otros aspectos. cumpliendo con la definición de clúster: un número de cosas o personas similares o cercanas agrupadas. pues permite descubrir grupos de personas que desempeñan tareas similares. sino mas bien una consecuencia directa. ya que al estar conformados por personas o recursos que realizan actividades similares. ya que la categorizan definiendo sus funciones. proveyendo de independencia entre las tareas de los demás Equipos. existirá un rol. en particular es un plug-in para el Framework ProM. Resulta evidente el hecho de que los procesos que desempeña una organización son importantes. satisfaciendo el objetivo e idea principal del plug-in. de ahí su nombre “Team Miner”. en el caso donde todos los originadores del equipo desarrollen todas las tareas que éste desempeña. pues sin ellos no existen tales procesos. Sin embargo. primero las técnicas de Inteligencia Artificial estudiadas. o bien la performance de la actividad depende directamente del desempeño del recurso. se pudo realizar una evaluación crítica de. así también como la comunicación. Esta área pretende cubrir dos de los aspectos sociales fundamentales dentro de toda organización: el análisis de las entidades organizacionales existentes y la relación que existe entre ellas. Así. Nuestra herramienta será capaz de detectar dos Equipos de Trabajo: uno de ellos dedicado a las tareas orientadas al desarrollo de sistemas y el otro con el objetivo de realizar la limpieza. Luego del análisis realizado en la Sección 4. Para dar un ejemplo. como por ejemplo software/hardware. con un cierto significado. Hay que destacar que nuestra herramienta es un detector de Equipos de Trabajo en principio. Pero pese a esto. También asumimos que por desarrollar tareas similares puede llegar a existir más afinidad entre las personas. CO N C LUS IÓ N Este trabajo logra cubrir un aspecto importante del Process Mining. y luego del algoritmo de clustering en especial a utilizar. clases. se logra maximizar la cooperación entre los originadores. sus obligaciones. y su posición. logrando detectar aquel que mejor se adapte a las necesidades de nuestra aplicación.7. se optó por utilizar el algoritmo EM. porque los Equipos de Trabajos detectados. Se cree beneficioso el hecho de generar Equipos de Trabajos. 15 . pues el asignar una persona a un Equipo no implica que ésta deba desempeñar todas las tareas que le competen al Equipo. podemos ver que estos Equipos de Trabajo conforman una entidad organizacional. teniendo claramente definidos nuestros dos Equipos de Trabajos. pues se sugerirá colocar en distintas habitaciones a la gente de desarrollo que a la de limpieza. las personas o bien recursos. La técnica fue seleccionada debido a que nuestra propuesta posee características que se pueden asociar directamente con la detección de patrones. nos podemos ver beneficiados en cuanto a la disposición de recursos. Teniendo como eje principal este enfoque. supongamos una organización donde existen personas que llevan a cabo tareas muy diferentes entre si.

ya que si el grupo se quiere ver como un nuevo equipo los integrantes van a ser los mismos solo que se el nuevo equipo estará encargado de llevar a cabo más tareas. Esto resulta beneficioso ya que de esta manera podemos optimizar la cantidad de equipos pues la cantidad de personas designadas no se ven afectadas. Finalmente podemos decir que el plug-in intentó cumplir con los objetivos propuestos y las expectativas personales de los integrantes de este trabajo: abocarnos de lleno a la Inteligencia Artificial y ver cómo se comportan las técnicas en un dominio específico. ya que al tener de manera explicita cuantificada la relación. observando que logran aportar buenos análisis que permiten mejorar el dominio investigado. profundizando los conceptos vistos en el curso. nuestra herramienta detectará una tarea compartida entre los equipos. aprendiendo todos los conceptos asociados y viendo una aplicación directa que descubre conocimiento especifico de las aplicaciones que administran Workflows.Organizational Mining y Detección de Equipos El segundo aspecto importante que debe cubrir una buena aplicación del Organizational Mining es la relación entre las entidades descubiertas. se focalizo en el área conocida como Organizational Mining. y aquí es donde podemos sacar fruto de la segunda perspectiva de nuestro plug-in. 16 . Es decir. mediante la investigación. pudiendo ver como repercutiría. en el caso de que existan equipos con exactamente los mismos originadores. y con la dedicación que las lleven a cabo. La relación está dado principalmente por las tareas en común que realicen. También permite realizar un análisis entre la incidencia que tienen unos con los otros. nos vemos ante una situación critica que requiere que se desempeñen las tareas de programación inminentemente. Podemos concluir que se logro desarrollar una aplicación que saque provecho de una técnica de Inteligencia Artificial estudiada. esta decisión debe ser respaldada con un análisis a priori de las necesidades organizacionales ya que siempre existirá la falta de una persona. Otro aprovechamiento se puede dar ante la situación de que se necesite suplantar una persona/recurso de un Equipo. ante la situación de que se ausente un programador el día anterior a la entrega de un proyecto muy importante para la empresa. coordinación y comunicación entre los recursos que lo conforman. la desaparición de un equipo. podemos elegir un originador candidato a desempeñar las tareas del faltante. Se pudo realizar una evaluación critica de los distintos algoritmos existentes de clustering. por ejemplo. se logró expresar cuantitativamente la relación que existen entre los Equipos. si en el log existió un registro de que un personal de limpieza que realizo una tarea de programación en algún momento. aplicada a un dominio desconocido hasta el inicio del trabajo: el management de organizaciones. logrando identificar el más adecuado. Entonces. Citando el ejemplo anterior. Por eso. y a través de una lectura de esta visualización. Se comprendió la gran importancia de la posición de las personas dentro de la organización. de acuerdo a la implementación detallada en la Sección 3. Detectar estas relaciones resulta beneficioso ya que se pueden crear departamentos que involucren aquellos equipos que posean una muy alta relación inter-Equipos. nos sugiere que consultemos al equipo de limpieza si alguna persona puede realizar la tarea requerida. sobre los demás. La aplicación también permite obtener un agrupamiento de los Equipos de Trabajo en un nivel de abstracción mayor. y lo beneficioso que resulta la creación de Equipos de Trabajo que maximicen las cooperación.

Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). W. Mathematics of Operations Research. (1985). Process Mining Group. Witten. Nancy. (Julio de 2009). Proceedings of the 1987 AAAI Conferences. 17 . Amsterdam. K. (2008). Machine Learning. (1997). Proceedings of KDD’02. CLOPE: A Fast and Effective Clustering Algorithm for Transactional Data. (2005). Reading MA: Addison-Wesley. Song. M. (1998). T.tue. N. Yiling Yang. Ly.8. J.. Manfred (2005) Mining Staff Assignment Rules from Event-Based Data. F. (1987). E. Stefanie and Dadam. Eindhoven Technical University. Linh Thao and Rinderle. 461-465. Some Methods for classification and Analysis of Multivariate Observations. MacGrawHill. France. (2002).win. SAP R/3 Process Oriented Implementation. L. S. San Francisco: Morgan Kaufmann Publishers. Workshop on Business Process Intelligence (BPI) in conjunction with (BPM'05). The ProM Framework.. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability (págs. V. MacQueen. Obtenido de http://prom. M. H. En Lecture Notes in Computer Science. & Aalst.nl/tools/prom/ Rozenberg. (págs. Decision Support Systems archive. (págs. 281–297). In: Proc. B. Dempster. Berlin: Springer-Verlag. The Netherlands: Elsevier Science Publishers B. (1977). M. BI BLI OG RA F Í A A. Maximum Likelihood from Incomplete Data via theEM algorithm. (1967). A best possible heuristic for the k-center problem. (págs. Peter and Reichert. Fisher. University of California Press. Improving inference through conceptual clustering. G. Ian H. X. vol 39: 1-38). Teufel.P. Mitchell. Towards comprehensive support for organizational mining. R. (1998). D. W.). 180-184). Hochbaum. Journal of the Royal Statistical Society. Lectures on Petri Nets I: Basic Models. G.