Documentos de Académico
Documentos de Profesional
Documentos de Cultura
David L. Gonzalez-Alvarez*,
Miguel A. Vega-Rodrguez*, Juan A. Gomez-Pulido* y
Juan M. Sanchez-Perez*
Resumen
En este trabajo proponemos la resoluci
on de un
problema biol
ogico importante mediante inteligencia
colectiva (swarm intelligence). Descubrir motifs en
conjuntos de secuencias de ADN es uno de los problemas de an
alisis de secuencias m
as importantes hoy
en da, conocido como el Problema del Descubrimiento de Motifs (PDM). En este trabajo resolvemos este
problema aplicando dos algoritmos novedosos basados
en inteligencia colectiva: la Colonia Artificial de Abejas (ABC), un algoritmo de optimizaci
on basado en
el comportamiento de las abejas recolectoras de miel;
y el Algoritmo de B
usqueda Gravitacional (GSA),
un algoritmo reciente basado en las leyes gravitacionales y de interacciones entre masas. En la resoluci
on del PDM hemos aplicado optimizaci
on multiobjetivo (MOO), maximizando tres objetivos en conflicto: el tama
no, el soporte y la similaridad del motif. Por ello, hemos tenido que adaptar nuestros dos
algoritmos al contexto multiobjetivo, obteni
endose
dos nuevos algoritmos multiobjetivo. Para demostrar
que el funcionamiento de estos algoritmos es correcto, hemos aplicado diferentes indicadores y estadsticas, comparando los resultados obtenidos con los conseguidos por otros catorce m
etodos biol
ogicos bien
conocidos. Como ya veremos, los nuevos resultados
mejoran significativamente aquellos publicados en investigaciones previas.
Palabras clave
Inteligencia colectiva, Colonia Artificial de Abejas, Algoritmo de B
usqueda Gravitacional, ADN, descubrimiento de motifs, optimizaci
on multiobjetivo.
n
I. Introduccio
Actualmente existen muchos problemas de optimizaci
on que requieren un enorme esfuerzo computacional para su resoluci
on. Estos problemas son conocidos como NP-completos. Los algoritmos utilizados para resolver problemas NP-completos requieren
grandes tiempos de ejecuci
on y por ello es muy habitual la utilizaci
on de tecnicas como las metaheursticas. Dentro del gran mundo de las metaheursticas se
encuentra definido el concepto de inteligencia colectiva (swarm intelligence). Esta disciplina esta directamente relacionada con el comportamiento colectivo resultado de interacciones entre los individuos de
un determinado entorno. Estos algoritmos se pueden
organizar en dos grupos: aquellos basados en el comportamiento animal y aquellos basados en fenomenos
fsicos o de la naturaleza. En los u
ltimos a
nos muUniversidad Extremadura, Dept. Tecnologas de los Computadores y de las Comunicaciones, Escuela Polit
ecnica. Campus Universitario s/n, 10003, C
aceres, Espa
na.
{dlga,mavega,jangomez,sanperez}@unex.es
i=1
Para guiar la b
usqueda de soluciones hacia motifs
biologicamente relevantes, hemos incorporado varias
restricciones que deben ser satisfechas por todas las
soluciones. En el descubrimiento de motifs, estos son
normalmente muy peque
nos [3], por ello, si buscamos
soluciones de gran tama
no estamos perdiendo un
tiempo computacional muy valioso. Para abordar esta restriccion, hemos restringido el tama
no de los
motifs en el rango [7,64]. En el segundo objetivo
tambien hemos restringido el valor mnimo de soporte permitido, asignando un mnimo de 2 en los
conjuntos de datos formados por 4 o menos secuencias, y de 3 en las demas (mas de 4 secuencias). Normalmente los puntos de union estan compuestos por
motifs candidatos de todas o casi todas las secuencias, y si no considerasemos esta restriccion, sera
muy facil descubrir soluciones con grandes similaridades (incluso del 100 %) formadas, por ejemplo,
por un solo candidato. Finalmente, hemos incorporado el concepto de complejidad [4]. La complejidad
de los motifs candidatos debe ser considerada para
evitar la prediccion de soluciones poco complejas,
por ejemplo, los candidatos AAAA y AAAA son
muy parecidos, de hecho son iguales, pero no forman un motif biologicamente relevante. Calculamos
el valor de complejidad de cada motif a traves de la
ecuacion 2, donde la complejidad final de un motif
es el valor medio de complejidad obtenido por todos
los candidatos que lo componen.
Complejidad = logN Q
l!
(ni )!
(2)
TABLA I
n en (b), los motifs
Un PDM artificial. Muestra las secuencias en (a), la Matriz de Indicadores por Posicio
candidatos en (c), las tasas de concordancia entre motifs candidatos y el motif consenso en (d), la Matriz de
n en (e) y (f) incluye la Matriz de Frecuencias por Posicio
n.
Cuentas por Posicio
(a)
aa AGTGAAA taataa
gtgga ATTGGAA ttg
tct AGTTTGA aaaca
tttcta TATTGAA ag
tgac AGTTGTA acaa
a ATATGCT gtcaaca
tgtg ATTTCTT gcaa
gggatat ATAATGG t
caaa TTTAAGG gagt
ataa TAATCCT gtat
(b)
001000000000000
000001000000000
000100000000000
000000100000000
000010000000000
010000000000000
000010000000000
000000010000000
000010000000000
000010000000000
(c)
AGTGAAA
ATTGGAA
AGTTTGA
TATTGAA
AGTTGTA
ATATGCT
ATTTCTT
ATAATGG
TTTAAGG
TAATCCT
Sec. 0
S0
Sec. 1
S1
Sec. 2
S2
...
(d)
4/7
6/7
4/7
5/7
5/7
4/7
4/7
2/7 X
2/7 X
1/7 X
A:
C:
G:
T:
A:
C:
G:
T:
0.86
0.00
0.00
0.14
0.14
0.00
0.43
0.43
6
0
0
1
1
0
3
3
(e)
10
00
02
65
1
1
4
1
(f)
0.14 0.00
0.00 0.00
0.00 0.29
0.86 0.71
3
1
1
2
5
0
0
2
0.14
0.14
0.57
0.14
0.43
0.14
0.14
0.29
0.71
0.00
0.00
0.29
plotada. Las abejas obreras cuyas fuentes de alimento esten ya vacas, se convertiran en abejas exploradoras e iniciaran la b
usqueda de una nueva fuente
de alimento. Por otro lado, las abejas observadoras,
tras analizar las danzas de las abejas obreras, escogen las fuentes de alimento que explotaran. En el
ABC el n
umero total de abejas es igual al n
umero
de soluciones de la poblacion. Como el PDM es un
problema multiobjetivo, hemos tenido que adaptar
el funcionamiento del algoritmo ABC a este contexto, definiendo un nuevo algoritmo denominado Colonia Artificial de Abejas Multiobjetivo (MOABC), el
funcionamiento general de este nuevo algoritmo se
muestra en el Algoritmo 1.
El primer paso a realizar por el algoritmo es la generacion inicial de la poblacion (lnea 2 del Algoritmo
1). Como vemos, tan solo se inicializa la primera
mitad de la poblacion, correspondiente a las abejas
obreras. Tras la inicializacion, la colonia sera sujeta a una serie de procesos de b
usqueda a traves de
tres tipos de abejas: las obreras, las observadoras y
las exploradoras (lneas 4 a 23). Para ello generamos
las fuentes de alimento correspondientes a las abejas obreras y observadoras (lneas 5 a 8 y 12 a 16,
Sec. n
Sn
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
frenteDePareto
colonia C crearAbejasObreras(#obreras)
evaluarNuevasAbejas(C)
mientras no alcancemos el lmite de tiempo hacer
para i = 0 to #obreras hacer
obrera producirNuevaSolutionObrera(C[i],mutacion)
C[i] procesoSeleccionAvariciosa(C[i],obrera)
fin para
vectorProbabilidad calcularProbabilidades(C)
para i = #obreras hasta TamCol. hacer
abeja seleccionarObrera(vectorProbabilidad,C)
observad. producirNuevaObservadora(abeja,mutacion)
C[i] procesoSeleccionAvariciosa(abeja,observad.)
fin para
para i = TamCol. hasta TamCol. + #explorad. hacer
C[i] generarAbejaExploradora()
fin para
C ordenacionNoDominadaColonia(C)
C asignacionDistanciaCrowding(C)
frenteDePareto actualizarFrenteDePareto(C)
fin mientras
frenteDePareto
//Generamos las masas iniciales P = {X1 ,X2 ,...,XN }
P generarMasasIniciales(#poblacion)
mientras no alcancemos el lmite de tiempo hacer
P ordenacionNoDominadaMasas(P)
P asignacionDistanciaCrowding(P)
P calculoMOFitnessUtilizandoBias(P)
G,Kbest ,mejor,peor actualizarParametrosAlgoritmo()
para i = 0 hasta #poblacion hacer
Xi .m (Xi .M OF itness - peor ) / ( mejor - peor )
P
Xi .M (Xi .m) / ( N
j=1 Xj .m)
fin para
para d = 1 hasta #d hacer
para i = 1 hasta #poblacion hacer
para j = 1 to Kbest hacer
Rij ||Xi , Xj ||2
d
Fij
G * ((Xi .M * Xj .M ) / (Rij + )) * (Xjd - Xid )
fin para P
N
d
Xi .F d
jK
,j6=i rand[0, 1] Fij
best
Xi .aced Xi .F d / Xi .M
fin para
fin para
para d = 1 hasta #d hacer
para i = 1 hasta #poblacion hacer
Xi .veld rand[0,1] * Xi .veld + Xi .aced
Xid Xid + Xi .veld
fin para
fin para
frenteDePareto actualizarFrenteDePareto(C)
fin mientras
TABLA II
Propiedades de las instancias utilizadas.
Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r
Secuencias
Tama
no
Tiempo (sg.)
Instancias de la mosca
4
1500
15
4
2000
15
3
2500
15
Instancias del ser humano
10
1500
25
13
2000
25
7
3000
15
Instancias del raton
9
1000
15
5
500
15
4
1500
25
Instancias de la levadura
8
500
15
7
1000
15
11
1000
25
TABLA III
Mejores configuraciones encontradas para cada
algoritmo.
Par
ametros utilizados en MOABC
Tama
no de la Poblaci
on
200
Probabilidad de Mutaci
on
8%
Cantidad de Mutaci
on
30 % del valor m
aximo
Abejas Exploradoras
1
Par
ametros utilizados en MO-GSA
Tama
no de la Poblaci
on
200
G0
100
20
0.01
Par
ametros utilizados en NSGA-II [6]
Tama
no de la Poblaci
on
200
Cruce
SPX probabilidad del 60 %
Probabilidad de Mutaci
on
50 %
Cantidad de Mutaci
on
30 % del valor m
aximo
Elecci
on de Padres
Torneo Binario
Par
ametros utilizados en SPEA2 [7]
Tama
no de la Poblaci
on
200
Cruce
SPX probabilidad del 90 %
Probabilidad de Mutaci
on
90 %
Cantidad de Mutaci
on
30 % del valor m
aximo
obtenidos en las instancias del ser humano vemos como los mejores algoritmos son MOABC y MO-GSA,
nuestras dos propuestas. Pudiendose decir que nuestras heursticas logran obtener los mejores resultados
en las tres instancias mas complicadas de las doce
que hemos utilizado en nuestra experimentaci
on.
En lo referente a los resultados de las instancias
del raton, los mejores motifs son descubiertos por
MOABC, con la excepcion de la instancia mus07g,
instancia donde domina el algoritmo SPEA2. Finalmente para el caso de la levadura, es de nuevo el algoritmo MOABC el que obtiene los mejores resultados
en las instancias yst03m y yst04r. En la instancia
yst08r es el algoritmo MO-GSA el que obtiene mayores hipervol
umenes. En resumen, podemos concluir
que los resultados de nuestros algoritmos son buenos
ya que logran dominar en once de las doce instancias que hemos probado a dos algoritmos estandar
en computacion multiobjetivo como son NSGA-II y
SPEA2.
TABLA IV
menes medios obtenidos por los algoritmos.
Hipervolu
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r
Media
MOABC
83,24 %0,006
84,14 %0,009
86,43 %0,007
61,48 %0,019
56,50 %0,018
81,91 %0,035
64,17 %0,019
79,69 %0,006
88,29 %0,021
69,73 %0,019
75,57 %0,010
61,81 %0,023
74,41 %
MO-GSA
81,79 %0,015
81,82 %0,014
84,26 %0,013
61,86 %0,019
53,38 %0,019
77,83 %0,032
61,13 %0,020
76,35 %0,029
83,57 %0,025
63,30 %0,029
71,12 %0,024
66,20 %0,022
71,88 %
NSGA-II
81,56 %0,006
81,06 %0,008
84,41 %0,007
47,40 %0,027
43,32 %0,024
68,12 %0,012
59,24 %0,011
77,18 %0,004
87,01 %0,017
65,52 %0,012
74,80 %0,004
64,87 %0,012
69,54 %
SPEA2
83,17 %0,005
82,67 %0,007
86,13 %0,007
53,22 %0,010
46,59 %0,008
72,40 %0,017
59,68 %0,012
77,69 %0,004
89,50 %0,004
66,45 %0,011
71,72 %0,004
57,22 %0,011
70,54 %
TABLA V
n de Cobertura (AB).
Relacio
A
MOABC
MO-GSA
B
MO-GSA NSGA-II
SPEA2
MOABC
NSGA-II
SPEA2
dm01g 64,52 % 82,35 % 41,03 % 50,00 % 61,76 % 46,15 %
dm04g 62,86 % 100,0 % 88,37 % 43,14 % 90,24 % 65,12 %
dm05g 96,15 % 96,55 % 70,37 % 18,75 % 72,41 % 25,93 %
hm03r
2,56 %
100,0 % 100,0 % 87,10 % 97,62 % 100,0 %
hm04m 35,90 % 100,0 % 100,0 % 54,55 % 100,0 % 100,0 %
hm16g 27,78 % 100,0 % 100,0 % 65,38 % 97,50 % 95,83 %
mus02r 63,24 % 100,0 % 100,0 % 33,85 % 98,63 % 98,46 %
mus03g 48,48 % 100,0 % 92,73 % 62,86 % 82,14 % 72,73 %
mus07g 81,82 % 100,0 % 85,71 % 54,05 % 78,26 % 67,86 %
yst03m 80,46 % 94,44 % 96,34 % 27,27 % 93,06 % 81,71 %
yst04r
58,33 % 93,22 % 100,0 % 45,10 % 88,14 % 95,35 %
yst08r
0,00 %
92,86 % 100,0 % 97,96 % 98,81 % 100,0 %
media 51,84 % 96,62 % 89,55 % 53,33 % 88,21 % 79,09 %
NSGA-II
MOABC
MO-GSA
SPEA2
SPEA2
MOABC
MO-GSA
NSGA-II
nT P
(nT P + nF N )
(3)
El Valor de Predicciones Positivas (nP P V ) tambien conocido como tasa de precision, siendo la proporcion de positivos reales correctamente predichos:
nP P V =
nT P
(nT P + nF P )
(4)
nT P
(nT P + nF N + nF P )
(5)
de esta forma este indicador mide la correlacion existente entre ambos vectores. El valor de nCC va
desde -1 (indicando una perfecta anti-correlacion) a
+1 (indicando una perfecta correlaci
on).
nT P nT N nF N nF P
(6)
PN NP PP NN
donde P N = nT P + nF N , N P = nT N + nF P ,
P P = nT P + nF P y N N = nT N + nF N . Para
m
as informaci
on sobre estos indicadores ver [25]. La
Tabla VI muestra los resultados de comparar nuestras propuestas con los metodos biol
ogicos previamente definidos utilizando los cuatro indicadores biol
ogico/estadsticos: nSn, nP P V , nP C y nCC.
Dicho esto procedemos a analizar los resultados
obtenidos. En la Tabla VI(a) vemos como solo en las
instancias yst03m y yst08r (2 instancias de 12), nuestras heursticas no logran superar los resultados del
mejor metodo biol
ogico (de entre los 14), obteniendo
nuestro mejor algoritmo el septimo mejor resultado.
Lo mismo ocurre con los indicadores nP C y nCC.
Sin embargo, los motifs descubiertos por el mejor de
nuestros algoritmos en cada momento, son capaces
de lograr en estas dos instancias la quinta y tercera
mejor soluci
on para el indicador nP C (MOABC en
yst03m y yst08r); y la cuarta y tercera mejor soluci
on para el indicador nCC (MOABC en yst03m
y MO-GSA en yst08r). Si comparamos las Tablas
VI(a), VI(b), VI(c) y VI(d) con la Tabla IV, podemos notar como en las instancias hm03r y yst08r,
donde el algoritmo MO-GSA obtena los mejores
hipervol
umenes, logra tambien las mejores predicciones. Es importante destacar que las instancias de
la levadura (yst) son las m
as trabajadas biologicamente, y por ello, a nuestros algoritmos les cuesta m
as distanciarse de los dem
as metodos, siendo
Consensus y MotifSampler los metodos que mejores
predicciones realizan en ellas. Si analizamos en detalle los resultados mostrados en estas tablas podemos decir que conseguimos un incremento medio de
sensibilidad de un 23 % con respecto al mejor metodo biol
ogico. Lo mismo ocurre con los otros tres
indicadores consiguiendo un incremento medio del
19 %, 59 % y un 30 %, respectivamente. Estos resultados demuestran que, adem
as de obtener buenos
resultados desde el punto de vista informatico (a
traves de indicadores como el hipervolumen o la
Relaci
on de Cobertura), conseguimos predecir motifs
biol
ogicamente relevantes. Es tambien importante
destacar que los mejores resultados son normalmente
obtenidos siempre por el mismo metodo biologico en
cada instancia, por ejemplo, en la instancia dm01g
los mejores resultados son siempre conseguidos por
SeSiMCMC, o por ejemplo, en hm03r los mejores
resultados son conseguidos por MEME. Sin embargo, nuestros algoritmos logran buenos resultados en
todas las instancias ya pertenezcan a una u otra especie (mosca, ser humano, rat
on o levadura). Esto hace esperar que nuestras versiones multiobjetivo
de la Colonia Artificial de Abejas y del Algoritmo
TABLA VI
Comparativas de Sensibilidad (nSn), Valor de
Predicciones Positivas (nP P V ), Coeficiente de
n (nCC). (N/A si
Rendimiento (nP C) y de Correlacio
nCC =
Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r
Resultados nSn
Mejor metodo
MOABC
SeSiMCMC
0,344000
0,488000
MotifSampler 0,022222
0,370370
MEME
0,037500
0,293750
MEME
0,063726
0,274510
AlignACE
0,005952
0,321429
N/A
0,000000
0,390244
MEME
0,094828
0,323276
AlignACE
0,281690
0,500000
0,040000
0,560000
ANN Spec
Improbizer
0,340136 0,272109
Consensus
0,335878
0,551402
AlignACE
0,387097 0,308244
MO-GSA
0,472000
0,333333
0,287500
0,289216
0,291667
0,335366
0,275862
0,457746
0,550000
0,272109
0,626168
0,283154
Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r
Resultados nPPV
Mejor metodo
MOABC
SeSiMCMC
0,344000
1,000000
MotifSampler 0,032967
1,000000
MEME
0,026667
1,000000
MEME
0,108333
0,714286
AlignACE
0,006061
0,388889
N/A
0,000000
0,666667
MEME
0,142857
0,750000
AlignACE
0,256410
1,000000
0,020942
1,000000
ANN Spec
YMF
0,700000
0,750000
MITRA
0,357143
0,750000
MotifSampler 0,786408 0,558442
MO-GSA
1,000000
0,666667
0,833333
0,507576
0,395833
0,666667
0,642857
1,000000
0,794118
0,904762
0,500000
0,626984
Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r
Resultados nPC
Mejor metodo
MOABC
SeSiMCMC
0,207730
0,404762
MotifSampler 0,013453
0,295181
MEME
0,015831
0,207048
MEME
0,041801
0,208955
AlignACE
0,003012
0,183099
N/A
0,000000
0,290909
MEME
0,060440
0,214058
AlignACE
0,155039
0,408284
ANN Spec
0,013937
0,465517
oligodyad
0,261905 0,198925
Consensus
0,202765
0,390244
MotifSampler 0,269103 0,247839
MO-GSA
0,398438
0,191083
0,201754
0,222642
0,160656
0,243363
0,195122
0,352601
0,361702
0,186047
0,343590
0,242331
Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r
Resultados nCC
Mejor metodo
MOABC
SeSiMCMC
0,330043
0,628460
MotifSampler 0,013401
0,468291
MEME
0,006491
0,367374
MEME
0,063601
0,344511
AlignACE
-0,000400 0,305036
MEME
-0,005204 0,452594
MEME
0,097480
0,370738
AlignACE
0,222480
0,578040
ANN Spec
0,006056
0,640559
oligodyad
0,437304 0,356815
Consensus
0,322430
0,575254
MotifSampler 0,470596 0,404018
MO-GSA
0,616266
0,351703
0,331194
0,364109
0,272252
0,393088
0,317711
0,512006
0,524117
0,335172
0,511442
0,411904
de B
usqueda Gravitacional puedan obtener buenos
resultados en genomas de otros seres.
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
Referencias
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[21]
[22]
[23]
[24]
[25]