Está en la página 1de 13

G ESTIÓN DE P ROCESOS DE N EGOCIOS

U NIVERSIDAD DE C HILE , FACULTAD


DE E CONOMÍA Y N EGOCIOS

G UÍA DE E STUDIO
Process mining
2010

Santiago, March 30, 2010

1
1. INTRODUCCIÓN

1 Introducción
Esta es una guía de ejercicios de process mining. Contiene problemas simples de descubrim-
iento de las perspectivas de procesos y organizacional. Aunque es posible usar el software ProM
(www.processmining.org) para resolver los ejercicios, sugerimos hacerlos manualmente o con
uso de la planilla electrónica que se puede bajar del sitio del profesor (ver [6]). Con esta guía quer-
emos ayudar a comprender mejor cómo trabajan los algoritmos básicos de process y organizational
mining.

2 Process Perspective
Los siguientes ejercicios de la perspectiva de procesos tienen como objetivo ayudar a comprender
cómo trabaja el algoritmo α. Este algoritmo ha sido ampliado para resolver varias situaciones del
mundo real en cuyos casos no trabaja adecuadamente, a saber: actividades invisibles, actividades
duplicadas, constructos non-free-choice, short-loops, y finalmente ruido, excepciones e incompleti-
tud. Aquí mostramos el algoritmo α básico y algunos ejemplos de estos problemas.
1. (Process mining) La tabla 1 muestra 5 casos o instancias de proceso. El orden de pre-
sentación corresponde al orden de ejecución. Esta tabla representa un event log. Determine
el proceso (flujo de tareas) que se ejecutó usando el algoritmo α.

Case ID 1 2 3 3 1 1 2 4 2 2 5 4 1 3 3 4 5 5 4
Tarea A A A B B C C A B D A C D C D B E D D

Table 1: Event log del problema 1

2. (Process mining) Descubra el proceso que generó el event log mostrado en la tabla 2.

Case ID 1 2 3 3 1 1 2 4 2 1 2 3 4 3 5 4 5 4
Tarea A A A B B C C A B D D C C D E B F D

Table 2: Event log del problema 2

3. (Process mining) Considere el event log de la tabla 31 que contiene las siguientes tareas A:
recibir un ítem y registrar, B: verificar ítem, C: verificar garantía,
D: notificar cliente, E: reparar ítem, F : recibir pago, G: enviar
carta de cancelación, H: devolver ítem. Determine el proceso que se ejecutó
usando el algoritmo α.

Case ID Log events


1 (A, B, C, D, E, F, H)
2 (A, B, C, D, E, F, H)
3 (A, C, B, D, E, F, H)
4 (A, C, B, D, G, H)
5 (A, C, B, D, E, F, H)
6 (A, B, C, D, G, H)

Table 3: Event log del problema 3

4. (Actividades invisibles) Considere los casos (A, B, C, D), (A, C, B, D) y (A, D). Observe
que es similar al del problema 1, excepto que la última instancia es (A, E, D) y no (A, D). Es
decir, la actividad E es invisible. ¿Puede el algoritmo α resolver este problema con tareas
invisibles?
1 Adaptado de [4].

March 30, 2010 2 Dr. Sigifredo Laengle


3. ORGANIZATIONAL PERSPECTIVE

5. (Actividades duplicadas) Considere los casos (A, B, C, D), (A, C, B, D) y (A, B, D). ¿Es
posible descubrir el modelo? Ahora considere el siguiente modelo de la figura 1 y verifique
que genera los casos especificados.

A C D

Figure 1: Modelo con actividades duplicadas

6. (Constructos non-free-choices) Considere el modelo de la figura 2. Este es un caso de red con


cosntructo non-free-choice que no puede ser descubierto. Genere un conjunto de instancias
completas a partir del modelo y compruebe que no es posible descubrir el modelo.

A D

B E

Figure 2: Modelo con constructo free-choice que no puede ser descubierto con el algoritmo α

7. (Constructos non-free-choices) Considere el modelo de la figura 3. Este es un caso de red


non-free-choice que si puede ser descubierto. Genere un conjunto de instancias completas a
partir del modelo y compruebe que si es posible descubrir el modelo.

A X D

B Y E

Figure 3: Modelo con constructo free-choice que si puede ser descubierto con el algoritmo α

8. (Short loops) En un proceso, es posible que una actividad se ejecute muchas veces. La figura
4 muestra un ejemplo. Después de ejecutar la actividad B, la actividad C se puede ejecutar
un número arbitrario de veces. Posibles instancias son (B, D), (B, C, D), (B, C, C, D),(B, C, C, C, D),
etc. ¿Puede resolver esto el algoritmo α básico?

3 Organizational Perspective
El objetivo de process mining desde la perspectiva organizacional es descubrir las relaciones, jer-
arquías y centralidades entre originadores o grupos de ellos. Estas relaciones, jerarquías o cen-

March 30, 2010 3 Dr. Sigifredo Laengle


3. ORGANIZATIONAL PERSPECTIVE

A E
C

B D

Figure 4: Modelo con short-loops. La tarea C puede ejecutarse una cantidad arbitraria de veces

tralidades pueden medirse de acuerdo a varias métricas. Los problemas que se plantean a con-
tinuación no abordan todas estas métricas ni todas las relaciones, pero sí las más relevantes.
Una comprensión adecuada de estos problemas permitirá comprender y abordar otros casos más
grandes o complejos que pueden resolverse haciendo uso del software ProM.

1. (Default mining) Considere el siguiente event log que se muestra en la tabla 4. Determine el
proceso que generó el event log de la tabla utilizando el algoritmo α. Luego construya una
matriz del tipo originator ×task en que cada elemento ij de la matriz es el número de veces
que el originador i realiza la tarea j. ¿Qué grupos de originadores puede encontrar?

Case ID Log events


1 (A, Camila), (B1 , Ernesto), (C, Camila)
2 (A, Carlos), (B2 , Emilia ), (C, Carlos)
3 (A, Camila), (B1 , Ernesto), (C, Camila)
4 (A, Camila), (B1 , Ernesto), (C, Camila)
2 (A, Carlos), (B2 , Emilia ), (C, Carlos)
6 (A, Camila), (B1 , Ernesto), (C, Camila)

Table 4: Caso simple de event log con datos de originadores

2. (Default mining) Considere el siguiente event log2 que se muestra en la tabla 5. Determine
el proceso que generó el event log de la tabla utilizando el algoritmo α. Luego construya una
matriz del tipo originator ×task en que cada elemento ij de la matriz es el número de veces
que el originador i realiza la tarea j. ¿Qué grupos de originadores puede encontrar?

Case ID Log events


1 (A, John), (B, Mike), (C, John), (D, Sue), (E, Pete), (F, Jane), (H, Sue)
2 (A, John), (B, Fred), (C, John), (D, Clare), (E, Robert), (F, Mona), (H, Clare)
3 (A, John), (C, John), (B, Pete), (D, Sue), (E, Mike), (F, Jane), (H, Sue)
4 (A, John), (C, John), (B, Fred), (D, Clare), (G, Clare), (H, Clare)
5 (A, John), (C, John), (B, Robert), (D, Clare), (E, Fred), (F, Mona), (H, Clare)
6 (A, John), (B, Mike), (C, John), (D, Sue), (G, Sue), (H, Sue)

Table 5: Caso simple de event log con datos de originadores

3. (Joint activities metrics) Utilizando la tabla del tipo originator ×task que se determinó en el
ejercicio anterior, determine la distancia entre los originadores de acuerdo la métrica Pear-
son’s correlation coefficient según joint activities. También determine el grafo resultante en que
cada arco dirigido entre los originadores representa un coeficiente de correlación mayor que
0.
2 Adaptado de [4].

March 30, 2010 4 Dr. Sigifredo Laengle


4. RESPUESTAS A PROBLEMAS: PROCESS PERSPECTIVE

4. (Hierarchical organizational mining) Utilizando como punto de partida el resultado ante-


rior determine las jerarquías de agrupación basados en el método Agglomerative Hierarchical
Clustering.
5. (Social network – betweenness) Considere la red social entre 4 originadores que se muestra
en la figura 5. La relación entre los originadores es la métrica handover (es decir quién le pasa
la información a quién). Calcule el indicador de betweenness de cada originador. ¿Cómo se
interpreta este resultado? Ahora suponga que el criterio representado en la red social es la
subcontractor, ¿cómo se interpreta este último resultado?

2 3

1 4

Figure 5: Red simple de relaciones entre 4 originadores

6. (Social network – betweenness) Considere la red social entre 5 originadores que se muestra
en la figura 6. La relación entre los originadores es la métrica handover (es decir quién le pasa
la información a quién). Calcule el indicador de betweenness de cada originador. ¿Cómo se
interpreta este resultado? Ahora suponga que el criterio representado en la red social es la
subcontractor, ¿cómo se interpreta este último resultado?

4 Respuestas a problemas: process perspective


1. El objetivo del process mining desde la perspectiva de proceso es descubrir el modelo de
flujo de tareas a partir de un event log como el de la tabla 1. Para ello usamos el algoritmo
α que consiste en determinar el flujo a partir de las relaciones que se encuentran entre cada
par de tareas que aparecen en el event log. En este problema, las tareas son A, B, C, D y
E. En general, para cualquier par de tareas x, y, las relaciones entre ellas pueden ser de
causalidad (x →y), paralelismo (xky) y no-relacionada (x]y). Observemos que estas relaciones,
para cualquier par de tareas, se excluyen entre sí. La información que se obtiene del event log
son las sucesiones directas entre las tareas (denotamos x > y para expresar que y sucede a x de
modo directo). Antes de determinar las sucesiones directas, observemos que las instancias
del event log se pueden ordenar como se muestra en la tabla 6. De esta tabla, las sucesiones
directas se pueden encontrar más fácilmente.

Case ID Log events


1 (A, B, C, D)
2 (A, C, B, D)
3 (A, B, C, D)
4 (A, C, B, D)
5 (A, E, D)

Table 6: Instancias que se obtienen del event log del problema 1

Observemos que el caso 1 de la tabla 6 es el mismo que el caso 3, y el 2 es igual al 4. Podemos


decir que el event log contiene casos redundantes, luego sólo analizamos la información de
los casos 1, 3 y 5. Comencemos por el caso 1: las sucesiones directas son A > B, A > C
y A > E; también B > C y B > D; además C > D y C > B; finalmente, E > D. Para
encontrar las relaciones →, k y ] a partir de las sucesiones directas consideremos que para
cualquier par de tareas x, y, entonces

March 30, 2010 5 Dr. Sigifredo Laengle


4. RESPUESTAS A PROBLEMAS: PROCESS PERSPECTIVE

1 4

Figure 6: Red simple de relaciones entre 5 originadores

• x → si y sólo si x > y y no existe la relación y > x;


• xky si y sólo si no existe la relación x > y y ni tampoco la relación y > x; finalmente,
• x]y si y sólo si existen ambas relaciones x > y y y > x.
De allí obtenemos A → B, A → C, A]D, A → E, BkC, B → D, B]E, C → D, C]E y E → D.
Con esta información, podemos dibujar la Petri Net que se muestra en la figura 7.

A C D

Figure 7: Modelo descubierto a partir del event log de la tabla 1

2. Seguimos el mismo procedimiento del ejercicio anterior (algoritmo α) de donde se obtiene


el modelo de la figura 8.

B
A D
C

E F

Figure 8: Modelo descubierto a partir del event log de la tabla 2

3. Seguimos el mismo procedimiento del ejercicio anterior (algoritmo α) de donde se obtiene


el modelo de la figura 9.

March 30, 2010 6 Dr. Sigifredo Laengle


5. RESPUESTAS A PROBLEMAS: ORGANIZATIONAL PERSPECTIVE

B G

A D H

C E F

Figure 9: Modelo descubierto a partir del event log de la tabla 3

4. Una de las suposiciones básicas del process mining (no sólo del algoritmo α) es que cada
actividad ejecutada está registrada en el log. Por ello es que el algoritmo no es capaz de
descubrir tareas que no están registradas.
5. El problema con actividades duplicadas se refiere a la situación en que el mismo modelo
tiene dos nodos con la misma actividad. Este es el caso de la actividad B de la figura 1.
Es claro que es muy difícil automatizar el descubrimiento del modelo, porque no es posible
distinguir la ejecución de B en un caso del otro.
6. El modelo de la figura 7 es del tipo free-choice, porque la elección entre B y C, con E está
separada de la sincronización (nodo AND). En cambio el modelo de la figura 2 es non-free-
choice. Después de ejecutar la actividad C, hay una elección entre la actividad D y la E. Sin
embargo, la elección entre D y E está controlada por la elección realizada antes entre A y B.
Claramente tales constructos son difíciles de descubrir puesto que la elección es no-local y
el algoritmo no puede recordar eventos anteriores.
Las free-choice Petri nets son Petri nets en las cuales existen al menos dos transiciones que no
ocupan los mismos input places, es decir hay al menos dos transiciones que no comparten los
mismos input places. Esto excluye la posibilidad de mezclar elección (OR) y sincronización
(AND o paralelismo) en un mismo modelo. Las free-choice Petri nets constituyen una clase
bien conocida y estudiada de Petri nets. Los constructos non-free-choices se presentan en
situaciones en las cuales la elección entre dos actividades no está determinada dentro del
nodo del modelo del proceso sino que depende de elecciones hechas en otras partes del
modelo. Por ello se dice que tales modelos tienen un comportamiento no-local. Desafortu-
nadamente, la mayoría de los algoritmos de process mining (incluido el algoritmo α) asumen
que los modelos a descubrir son free-choices.
7. A pesar del caso anterior, hay constructos non-free-choices que pueden ser descubiertos ade-
cuadamente como el de la figura 3 usando el algoritmo α. Ahora la elección se detecta
debido a las nuevas actividades X e Y . Nótese que D sigue directamente a X, pero no así
lo hace E que sigue a Y . De esta forma se puede descubrir el place entre X y D.
8. En un proceso es posible ejecutar alguna actividad muchas veces. Si esto sucede, esto se
modela típicamente como in loop como se muestra en la figura 4. Loops que involucran sólo
una actividad, como en este caso, son fáciles de descubrir; sin embargo, en el caso de loops
de constructos más complejos no son triviales de descubrir.

5 Respuestas a problemas: organizational perspective


1. La tabla 7 corresponde a la matriz originator × task. De esta matriz es fácil observar que los
originadores están agrupados en cuatro grupos, uno para cada tarea. Si denotamos t a una
tarea cualquiera y Ot el conjunto de originadores que realiza esa tarea, entonces tenemos
los siguientes grupos: OA = {Camila, Carlos} que también corresponde a OC . Ademós
OB1 = {Ernesto} y OB2 = {Emilia}.

March 30, 2010 7 Dr. Sigifredo Laengle


5. RESPUESTAS A PROBLEMAS: ORGANIZATIONAL PERSPECTIVE

A B1 B2 C
Camila 4 0 0 4
Ernesto 0 4 0 0
Carlos 2 0 0 2
Emilia 0 0 2 0

Table 7: Matriz originator × task de la tabla 4

2. El flujo de tareas se ha descubierto en la solución del problema 3 y corresponde al modelo de


la figura 9. La matriz de originadores se muestra en la tabla 8. Los grupos de originadores
por tareas se pueden obtener fácilmente de dicha tabla.

A B C D E F G H
John 6 0 6 0 0 0 0 0
Sue 0 0 0 2 0 0 1 3
Mike 0 2 0 0 1 0 0 0
Pete 0 1 0 0 1 0 0 0
Jane 0 0 0 0 0 2 0 0
Clare 0 0 0 2 0 0 1 3
Fred 0 0 0 0 1 0 0 0
Robert 0 2 0 0 1 0 0 0
Mona 0 1 0 0 0 2 0 0

Table 8: Matriz originator × task de la tabla 5

3. La tabla 8 obtenida anteriormente nos sirve para calcular distancias entre los originadores
(distancias entre vectores que corresponden a las filas). Esta distancia se puede interpretar
cuán cerca están los originadores de actividades similares (joint activities). La métrica más
usada para medir esta distancia es el Pearson’s correlation coefficient, cuyo método de cálculo
se explica en el apéndice A. A pesar de la simplicidad del cálculo, la cantidad de operaciones
hacen algo tediosa la solución, por ello usamos una planilla electrónica que mostramos en
la figura 10 (ver [6] para bajarla).
A partir del cálculo de estos coeficientes, es posible obtener la red de relaciones entre los
originadores que se muestra en la figura 11. Los arcos considerados entre cualquier par de
nodos representan distancias mayores que 0.
4. Las jerarquías entre personas o agrupaciones que funcionan en la práctica se pueden encon-
trar con ayuda del método Agglomerative Hierarchical Clustering que se detalla en el apéndice
C. Este método agrupa sucesivamente originadores o grupos que están más cerca. Por ejem-
plo, de la tabla de Pearson’s coefficients mostrada en la parte de abajo de la figura 10 se encuen-
tran cerca los originadores Clare con Sue; Jane y Mona; Pete y Robert; y finalmente,
Fred con Mike. Esto permite construir 4 parejas más John, un total de 5 grupos. Con estos
grupos se continua el procedimiento hasta llegar a una cantidad de grupos pre-definida. El
cálculo completo es largo y tedioso, por lo que sugerimos usar la planilla electrónica (ver
[6] para bajarla). El proceso de agrupación se puede representar como una jerarquía que se
muestra en la figura 12.

5. Para calcular la métrica de betweenness de cada nodo de la red social de la figura 5, primero
se debe construir una tabla que muestre todos los caminos más cortos entre cualquier par
de nodos. Luego usamos la fórmula de la sección B para calcular el indicador. Observemos
que la red es dirigida y no existen arcos entre un nodo y sí mismo.

March 30, 2010 8 Dr. Sigifredo Laengle


5. RESPUESTAS A PROBLEMAS: ORGANIZATIONAL PERSPECTIVE

1 2 3 4
1 – 1−2 1−3 1−4
2 – – – –
3 – 3−2 – –
4 – 4−3−2 4−3 –

Table 9: Caminos más cortos entre todos los pares de nodos para calcular cB (3). Se han eliminado,
para el cálculo, la fila y la columna 3 y la diagonal

Calculamos el betweenness centrality del originador 1, es decir cB (3) que está dado por
 

 0 + 0 + 0 + 0 + 0 + 1  = 1,
1 
cB (3) =
6 |{z}
 1 1
|{z} 0
|{z} 0
|{z} 0
|{z} 1  6
|{z}
1−2 1−4 2−1 2−4 4−1 4−2

donde cada sumando corresponde al cuociente entre el número de caminos más cortos i − j
(que comienzan en i y terminan en j) y que pasan por el nodo 3 y el número total de caminos
más cortos i − j. Por ejemplo entre el nodo 4 y el 2 existe un camino más cortos: el 4 − 3 − 2 y
ambos pasan por el nodo 3, luego la fracción correspondiente es 11 (ver tabla 9). El número 6
que divide toda la suma es un factor de normalización que corresponde el número total de
comparaciones (n − 1)(n − 2), donde n es el número de nodos. Del mismo modo, se puede
calcular cB (1) = 0, cB (2) = 0 y cB (4) = 0.
6. Como en el ejercicio anterior, para calcular la métrica de betweenness de cada nodo de la red
social de la figura 6, primero se debe construir una tabla que muestre todos los caminos más
cortos entre cualquier par de nodos. Luego usamos la fórmula de la sección B para calcular
el indicador. Observemos que la red es dirigida y no existen arcos entre un nodo y sí mismo.

1 2 3 4 5
1 – 1−2 1−4−3 1−4 1−4−5
2 2 − 4 − 3 − 1,2 − 4 − 5 − 1 – 2−4−3 2−4 2−4−5
3 3−1 3−1−2 – 3−1−4 3−1−4−5
4 4 − 3 − 1,4 − 5 − 1 4 − 3 − 1 − 2,4 − 5 − 1 − 2 4−3 – 4−5
5 5−1 5−1−2 5−1−4−3 5−1−4 –

Table 10: Caminos más cortos entre todos los pares de nodos para calcular cB (3). Se han elimi-
nado, para el cálculo, la fila y la columna 1 y la diagonal

Calculamos el betweenness centrality del originador 1, es decir cB (1) que está dado por
 
1 
 0 + 0 + 0 + 1 + 1 + 0 + 1 + 2 + 0 + 1 + 1 + 1 = 7 ,

cB (1) =
12 |{z}
 1 1
|{z} 1
|{z} 1
|{z} 1
|{z} 1
|{z} 1
|{z} 2
|{z} 1
|{z} 1
|{z} 1
|{z} 1  12
|{z}
2−3 2−4 2−5 3−4 3−5 4−5 3−2 4−2 4−3 5−2 5−3 5−4

donde cada sumando corresponde al cuociente entre el número de caminos mós cortos i − j
(que comienzan en i y terminan en j) y que pasan por el nodo 1 y el número total de caminos
más cortos i − j. Por ejemplo entre el nodo 4 y el 2 existen dos caminos más cortos: el
4 − 3 − 1 − 2 y el 4 − 5 − 1 − 2 y ambos pasan por el nodo 1, luego la fracción correspondiente
es 22 . El número 12 que divide toda la suma es un factor de normalización que corresponde
el número total de comparaciones (n − 1)(n − 2), donde n es el número de nodos. Del mismo
modo se puede calcular cB (2) = 0, cB (3) = 18 , cB (4) = 12
7
y cB (5) = 18 .

March 30, 2010 9 Dr. Sigifredo Laengle


A. PEARSON’S CORRELATION COEFFICIENT

A Pearson’s correlation coefficient


Supóngase dos vectores (de dimensión mayor o igual a 2), digamos (x1 , . . . , xn ) y (y1 , . . . , yn ). La
distancia entre estos dos vectores se puede calcular según el Pearson’s correlation coefficcient (ρ) de
acuerdo a la siguiente fórmula
P P P
. n xi yi − xi yi
ρ(x, y) = p P 2 p P ,
n xi − ( xi )2 n yi2 − ( yi )2
P P
P Pn
donde xi se entiende como i=1 xi . Esta distancia es fácil de calcular en planillas electrónicas.
Por ejemplo en Numbers de Mac OS, es posible usar la función =COEF.DE.CORREL() que tiene
como argumento dos vectores de la misma dimensión.

Es fácil ver que ρ es un número entre −1 y 1. El signo indica la dirección de la correlación, si


dos vectores están positivamente correlacionados, significa que el ángulo adyacente entre ellos
es menor que 90 grados y entre 90 y 180 en el caso contrario. Si los vectores tienen correlación
perfecta (ρ igual a 1) quiere decir que apunta a la misma dirección (en este sentido son iguales).
Si los vectores no están correlacionados (ρ igual a 0) quiere decir que son perpendiculares. Si
los vectores tienen correlación inversa (ρ igual a −1) quiere decir que apuntan en direcciones
contrarias. Por eso se dice que el Pearson’s correlation coefficient entre dos vectores es una medida
del seno del ángulo que se forma entre ellos.

B Betweenness centrality
En la teoría de grafos y análisis de redes hay varias medidas de la centralidad de un vértice dentro
de un grafo que determina la importancia relativa de un vértice dentro del mismo (por ejemplo,
cuán importante es una persona en una red social o, en una red urbana, cuán bien usado es un
camino, etc.). Hay varias medidas de centralidad que se usan ampliamente en el análisis de una
red: degree centrality, betweennness, closeness y eigenvector centrality. No explicaremos aquí cada una
de las medidas, sino que mostraremos cómo calcular la betweenness centrality.

La idea es que aquellos vértices, que son parte de muchos caminos más cortos entre los otros
.
vértices, tienen un betweenness más alto que aquellos que no los son. Supongamos un grafo G =
(V, E) con un conjunto V de vértices y E de arcos entre tales vértices. La medida betweenness
centrality de un nodo v ∈ V se define como

. X σst (v)
cB (v) = ,
σst
s 6= v 6= t,
s 6= t

donde σst es el número de caminos mós cortos entre los nodos s y t; y σst (v) es el número de
caminos mós cortos que pasan por el nodo v. Normalmente este valor se normaliza al dividirlo
por el número de pares de vértices que no incluyen v, el cual es (n−1)(n−2) para grafos dirigidos
y (n − 1)(n − 2)/2 para grafos no-dirigidos. Para el cálculo asumimos que 00 toma el valor 0.

C Agglomerative Hierarchical Clustering


Supongamos que V es un conjunto de n originadores representados por vectores m-dimensionales.
Para cualquier par xi , xj de originadores que están en V se define una distancia ρ(xi , xj ) ∈ R. Se
quiere construir k ∗ subconjuntos de V (1 < k ∗ < n) tal que los elementos contenidos en cada
subconjunto tengan distancia mínima. Asumimos que si un conjunto de dos o más nodos cua-
lesquiera se puede representar por la suma de los vectores que pertenecen a ese conjunto

March 30, 2010 10 Dr. Sigifredo Laengle


REFERENCES

Data: el conjunto V = {x1 , . . . , xn }, obtener k ∗ sub-conjuntos


Result: k ∗ sub-conjuntos
k ← n − 1;
while k > k ∗ do
encontrar los sub-conjuntos más cercanos, digamos Di y Dj ;
unir Di y Dj ;
k ← k − 1;
end
Algorithm 1: Algoritmo de la técnica Agglomerative Hierarchical Clustering para determinar jer-
arquías según distancias

References
[1] van der Aalst, W. y A.J.M.M. Weijters, Process Mining, in Process-Aware Information Systems,
edited by Dumas, van der Aalst and Hofstede, Wiley and Sons, Inc, 2005.
[2] Bozkaya, M., J. Gabriels y J.M. van der Werf, Process Diagnostics: a Method Based on Process
Mining, Proceedings of the International Conference on Information, Process, and Knowl-
edge Management, 2009 (eKNOW’09), pp. 22-27.
[3] de Medeiros, A.K.A. y A.T. Weijters, ProM Framework Tutorial, Eindhoven Uni-
versity of Technology, Eindhoven, The Netherlands, November 2006 (http:
//prom.win.tue.nl/research/wiki/_media/tutorial/promtutorialv2.
pdf?id=tutorials&cache=cache).
[4] Song, M. y van der Aalst, W.M.P. "Towards comprehensive support for organizational min-
ing", Decision Support System, 46: 300-317, 1008.
[5] página del profesor: http://sites.google.com/site/sigifredolaengle2/.

[6] la planilla de cálculo se puede bajar de: http://sites.google.com/site/


sigifredolaengle2/organizational-mining.xls.

March 30, 2010 11 Dr. Sigifredo Laengle


REFERENCES

Figure 10: Planilla electrónica para calcular los Pearson’s correlation coefficient

March 30, 2010 12 Dr. Sigifredo Laengle


REFERENCES

John Jane Mone Clare Sue

Mike

Pete

Fred Robert

Figure 11: Red de relaciones entre originadores cuyos arcos representan distancias de Pearson’s
correlation Coefficient mayores que 0

G1

John G2

G3 G4

Clare Sue G5 G6

Jane Mona G7 G8

Pete Robert Fred Mike

Figure 12: Jerarquía obtenida según el criterio joint activities medido con la métrica Pearson’s cor-
relation coefficient

March 30, 2010 13 Dr. Sigifredo Laengle

También podría gustarte