Está en la página 1de 8

Algoritmos Multiobjetivo Basados en

Inteligencia Colectiva para Resolver el


Problema del Descubrimiento de Motifs

David L. Gonzalez-Alvarez*,
Miguel A. Vega-Rodrguez*, Juan A. Gomez-Pulido* y
Juan M. Sanchez-Perez*
Resumen
En este trabajo proponemos la resoluci
on de un
problema biol
ogico importante mediante inteligencia
colectiva (swarm intelligence). Descubrir motifs en
conjuntos de secuencias de ADN es uno de los problemas de an
alisis de secuencias m
as importantes hoy
en da, conocido como el Problema del Descubrimiento de Motifs (PDM). En este trabajo resolvemos este
problema aplicando dos algoritmos novedosos basados
en inteligencia colectiva: la Colonia Artificial de Abejas (ABC), un algoritmo de optimizaci
on basado en
el comportamiento de las abejas recolectoras de miel;
y el Algoritmo de B
usqueda Gravitacional (GSA),
un algoritmo reciente basado en las leyes gravitacionales y de interacciones entre masas. En la resoluci
on del PDM hemos aplicado optimizaci
on multiobjetivo (MOO), maximizando tres objetivos en conflicto: el tama
no, el soporte y la similaridad del motif. Por ello, hemos tenido que adaptar nuestros dos
algoritmos al contexto multiobjetivo, obteni
endose
dos nuevos algoritmos multiobjetivo. Para demostrar
que el funcionamiento de estos algoritmos es correcto, hemos aplicado diferentes indicadores y estadsticas, comparando los resultados obtenidos con los conseguidos por otros catorce m
etodos biol
ogicos bien
conocidos. Como ya veremos, los nuevos resultados
mejoran significativamente aquellos publicados en investigaciones previas.
Palabras clave
Inteligencia colectiva, Colonia Artificial de Abejas, Algoritmo de B
usqueda Gravitacional, ADN, descubrimiento de motifs, optimizaci
on multiobjetivo.

n
I. Introduccio
Actualmente existen muchos problemas de optimizaci
on que requieren un enorme esfuerzo computacional para su resoluci
on. Estos problemas son conocidos como NP-completos. Los algoritmos utilizados para resolver problemas NP-completos requieren
grandes tiempos de ejecuci
on y por ello es muy habitual la utilizaci
on de tecnicas como las metaheursticas. Dentro del gran mundo de las metaheursticas se
encuentra definido el concepto de inteligencia colectiva (swarm intelligence). Esta disciplina esta directamente relacionada con el comportamiento colectivo resultado de interacciones entre los individuos de
un determinado entorno. Estos algoritmos se pueden
organizar en dos grupos: aquellos basados en el comportamiento animal y aquellos basados en fenomenos
fsicos o de la naturaleza. En los u
ltimos a
nos muUniversidad Extremadura, Dept. Tecnologas de los Computadores y de las Comunicaciones, Escuela Polit
ecnica. Campus Universitario s/n, 10003, C
aceres, Espa
na.
{dlga,mavega,jangomez,sanperez}@unex.es

chos algoritmos basados en estos comportamientos


colectivos se han aplicado con exito en problemas
de optimizacion de diferentes campos. Debido a esto, hemos optado por aplicar algoritmos basados en
inteligencia colectiva en este trabajo, seleccionando
dos algoritmos novedosos como la Colonia Artificial
de Abejas (ABC) [1], el cual es un algoritmo de optimizacion basado en el comportamiento de las abejas recolectoras de miel; y el Algoritmo de B
usqueda Gravitacional (GSA) [2], un nuevo algoritmo de
optimizacion basado en las leyes gravitatorias y las
leyes de interaccion entre masas. De esta forma aplicamos un algoritmo de cada grupo: uno basado en
el comportamiento animal (ABC) y otro basado en
leyes fsicas (GSA). El objetivo principal de este trabajo es resolver el Problema del Descubrimiento de
Motifs (PDM). Este es un problema de optimizaci
on
NP-completo aplicado a la tarea especfica de descubrir nuevos Puntos de Union de Factores de Transcripcion en secuencias de ADN [3]. Predecir motifs
es uno de los problemas de analisis genetico mas importantes que a
un no ha sido resuelto de una manera eficiente. En este trabajo hemos modificado la
formulacion del problema a
nadiendole varias restricciones que adaptan mejor el proceso de b
usqueda
hacia soluciones biologicas mas relevantes. El PDM
maximiza tres objetivos en conflicto: el tama
no, el
soporte y la similaridad del motif. Por ello debemos aplicar tecnicas multiobjetivo para su resolucion, adaptando el funcionamiento de nuestros algoritmos a este nuevo contexto. Tambien queremos
destacar que para demostrar que las soluciones descubiertas son biologicamente relevantes hemos realizado diferentes analisis utilizando indicadores biologicos como la Sensibilidad, el Valor de Predicciones Positivas, el Coeficiente de Rendimiento o el
de Correlacion.
En la Seccion II describimos el PDM en detalle.
La Seccion III presenta las metaheursticas aplicadas para resolver el problema, explicando el funcionamiento y las adaptaciones multiobjetivo realizadas sobre cada uno de ellos. En la Seccion IV
mostramos las mejores configuraciones de los algoritmos, junto con los resultados obtenidos. En esta
seccion tambien incluimos las comparativas con algoritmos estandar multiobjetivo y con los metodos
biologicos. Finalmente, resumimos las conclusiones e
incluimos el trabajo futuro en la Seccion V.

II. Problema del descubrimiento de motifs


En este trabajo resolvemos el PDM descubriendo patrones de ADN biol
ogicamente relevantes en
secuencias de seres vivos. Para descubrir motifs con
cierta relevancia biol
ogica debemos satisfacer una serie de objetivos especficos a la vez que cumplimos
ciertas restricciones biol
ogicas. El PDM lo hemos
abordado definiendo tres objetivos: el tama
no, el
soporte y la similaridad. Dado un conjunto de secuencias S = {Si |i = 1, 2, ..., D} de nucleotidos
definidos en el alfabeto B = {A, C, G, T }. Si =
{Sij |j = 1, 2, ..., wi } es una secuencia de nucleotidos, donde wi es el tama
no de la secuencia. El conjunto de todas las subsecuencias contenidas en S es
{sji i |i = 1, 2, ..., D, ji = 1, 2, ..., wi l + 1}, donde
ji es el punto de uni
on de un posible motif canno del
didato sji de la secuencia Si , y l es el tama
motif, primer objetivo a maximizar. Para obtener los valores de los otros dos objetivos tenemos
que construir la Matriz de Indicadores por Posicion
(PIM) A = {Ai |i = 1, 2, ..., D} del motif, donde
Ai = {Aji |j = 1, 2, ..., wi } es el vector fila de indicadores de la secuencia Si . Aji es 1 si la posicion j
en Si es un punto de uni
on, y 0 en caso contrario.
Nos referimos
al
n
u
mero
de
motifs candidatos como
PD Pwi
|A| = i=1 j=1
Aji . En este proceso tambien necesitamos obtener el motif consenso extrado de los
motifs candidatos. En este trabajo consideramos un
solo motif candidato por secuencia, y solo aquellos
que tengan una cierta calidad con respecto al motif
consenso se tendr
an en cuenta en la construccion del
motif final. Esto se indica a traves del soporte.
Adem
as, S(A) = {S(A)1 , S(A)2 , ..., S(A)|A| }
es el conjunto de |A| motifs candidatos, donde
S(A)i = S(A)1i S(A)2i ...S(A)li es el i-esimo motif candidato de |A|. S(A) puede extenderse tambien como (S(A)1 , S(A)2 , ..., S(A)l ), donde S(A)j =
S(A)j1 S(A)j2 ...S(A)j|A| es la lista de nucle
otidos del
motif candidato de la posici
on j-esima.
A continuaci
on construimos la Matriz de Cuentas por Posici
on (PCM) N (A) con el n
umero de nucle
otidos en cada posici
on de los motifs candidatos
(A) que hayan superado el umbral correspondiente al soporte. N (A) = {N (A)1 , N (A)2 , ..., N (A)l }
y N (A)j = {N (A)jb |b B}, donde N (A)jb =
|{S(A)ji |S(A)ji = b}|. El valor obtenido por el nucle
otido dominante en cada una de las posiciones se
normaliza en la Matriz de Frecuencias por Posicion
b = N (A) . Finalmente calculamos el valor
(PFM) N
|A|
de la similaridad con la media aritmetica de todos
los valores dominantes en cada posici
on del PFM,
tal y como indica la siguiente expresi
on:
Pl

maxb {f (b, i)}


(1)
l
donde f (b, i) es el valor obtenido por el nucleotido
b en la columna i de la PFM y maxb {f (b, i)} es el
valor obtenido por el nucle
otido dominante de i.
Similaridad(M otif ) =

i=1

Para guiar la b
usqueda de soluciones hacia motifs
biologicamente relevantes, hemos incorporado varias
restricciones que deben ser satisfechas por todas las
soluciones. En el descubrimiento de motifs, estos son
normalmente muy peque
nos [3], por ello, si buscamos
soluciones de gran tama
no estamos perdiendo un
tiempo computacional muy valioso. Para abordar esta restriccion, hemos restringido el tama
no de los
motifs en el rango [7,64]. En el segundo objetivo
tambien hemos restringido el valor mnimo de soporte permitido, asignando un mnimo de 2 en los
conjuntos de datos formados por 4 o menos secuencias, y de 3 en las demas (mas de 4 secuencias). Normalmente los puntos de union estan compuestos por
motifs candidatos de todas o casi todas las secuencias, y si no considerasemos esta restriccion, sera
muy facil descubrir soluciones con grandes similaridades (incluso del 100 %) formadas, por ejemplo,
por un solo candidato. Finalmente, hemos incorporado el concepto de complejidad [4]. La complejidad
de los motifs candidatos debe ser considerada para
evitar la prediccion de soluciones poco complejas,
por ejemplo, los candidatos AAAA y AAAA son
muy parecidos, de hecho son iguales, pero no forman un motif biologicamente relevante. Calculamos
el valor de complejidad de cada motif a traves de la
ecuacion 2, donde la complejidad final de un motif
es el valor medio de complejidad obtenido por todos
los candidatos que lo componen.
Complejidad = logN Q

l!
(ni )!

(2)

donde N = 4 en secuencias de ADN, l es el tama


no
del motif, y ni es el n
umero de nucleotidos del tipo
i {A, C, G, T }. Por ejemplo, si consideramos el motif AAAA (nA = 4, nT = 0, nG = 0 y nC = 0)
obtendramos la mnima complejidad,
ya que obtenQ
emos el valor maximo en
(ni )!. Por el contrario,
si tenemos, por ejemplo, el motif ACGT (nA = 1,
nT = 1, nG = 1 y nC = 1) obtendramos el valor maximo de complejidad. Ademas, como podemos
ver en la ecuacion 2, si no normalizamos las complejidades obtenidas cuando comparamos motifs, tenemos que las complejidades maximas son extremadamente dependientes del tama
no de los motifs. Por
este motivo, la definicion de este concepto se revis
o,
calculando el valor maximo de complejidad para cada solucion antes de ejecutar los algoritmos. Durante
la ejecucion de los mismos, cada complejidad obtenida se normaliza en el intervalo [0,1] donde la complejidad maxima es 1 y as, comparamos soluciones
en igualdad de condiciones. Esta mejora se detalla
ampliamente en [5].
Ejemplo
La Tabla I muestra un PDM artificial con un motif de tama
no 7. Utilizando los motifs candidatos
de las Tablas Ia y Ic obtenemos el motif consenso:
A[GT]TTGAA. Ya que, como podemos ver, tenemos

TABLA I
n en (b), los motifs
Un PDM artificial. Muestra las secuencias en (a), la Matriz de Indicadores por Posicio
candidatos en (c), las tasas de concordancia entre motifs candidatos y el motif consenso en (d), la Matriz de
n en (e) y (f) incluye la Matriz de Frecuencias por Posicio
n.
Cuentas por Posicio

(a)
aa AGTGAAA taataa
gtgga ATTGGAA ttg
tct AGTTTGA aaaca
tttcta TATTGAA ag
tgac AGTTGTA acaa
a ATATGCT gtcaaca
tgtg ATTTCTT gcaa
gggatat ATAATGG t
caaa TTTAAGG gagt
ataa TAATCCT gtat

(b)
001000000000000
000001000000000
000100000000000
000000100000000
000010000000000
010000000000000
000010000000000
000000010000000
000010000000000
000010000000000

(c)
AGTGAAA
ATTGGAA
AGTTTGA
TATTGAA
AGTTGTA
ATATGCT
ATTTCTT
ATAATGG
TTTAAGG
TAATCCT

un empate en la segunda posici


on de los motifs, seleccionamos uno de los dos de forma aleatoria, en
este caso hemos optado por el nucle
otido T. Con el
motif consenso hallado, calculamos el valor del segundo objetivo en la Tabla Id. Las secuencias cuyos
motifs candidatos excedan el valor umbral del 50 %
establecido para el soporte se tendr
an en cuenta en
este objetivo, en este ejemplo tenemos soporte = 7.
El u
ltimo paso es construir la PCM y la PFM utilizando los nucle
otidos de los motifs candidatos que
han superado el umbral de concordancia. Hecho esto,
podemos obtener el valor final de similaridad aplicando la ecuaci
on 1. En este ejemplo obtenemos una
similaridad = 0,65.
n de los algoritmos
III. Descripcio
En esta secci
on describimos el funcionamiento de
los algoritmos desarrollados en este trabajo, detallando las modificaciones y adaptaciones realizadas
sobre cada uno de ellos. La representaci
on de los individuos en todos nuestros algoritmos es la mostrada
en la Figure 1, donde incluimos el tama
no del motif y las posiciones iniciales de las subsecuencias que
componen el motif final.
Longitud Motif

Sec. 0
S0

Sec. 1
S1

Sec. 2
S2

...

(d)

4/7

6/7

4/7

5/7

5/7

4/7

4/7
2/7 X
2/7 X
1/7 X

A:
C:
G:
T:

A:
C:
G:
T:

0.86
0.00
0.00
0.14

0.14
0.00
0.43
0.43

6
0
0
1

1
0
3
3

(e)
10
00
02
65

1
1
4
1

(f)
0.14 0.00
0.00 0.00
0.00 0.29
0.86 0.71

3
1
1
2

5
0
0
2

0.14
0.14
0.57
0.14

0.43
0.14
0.14
0.29

0.71
0.00
0.00
0.29

plotada. Las abejas obreras cuyas fuentes de alimento esten ya vacas, se convertiran en abejas exploradoras e iniciaran la b
usqueda de una nueva fuente
de alimento. Por otro lado, las abejas observadoras,
tras analizar las danzas de las abejas obreras, escogen las fuentes de alimento que explotaran. En el
ABC el n
umero total de abejas es igual al n
umero
de soluciones de la poblacion. Como el PDM es un
problema multiobjetivo, hemos tenido que adaptar
el funcionamiento del algoritmo ABC a este contexto, definiendo un nuevo algoritmo denominado Colonia Artificial de Abejas Multiobjetivo (MOABC), el
funcionamiento general de este nuevo algoritmo se
muestra en el Algoritmo 1.
El primer paso a realizar por el algoritmo es la generacion inicial de la poblacion (lnea 2 del Algoritmo
1). Como vemos, tan solo se inicializa la primera
mitad de la poblacion, correspondiente a las abejas
obreras. Tras la inicializacion, la colonia sera sujeta a una serie de procesos de b
usqueda a traves de
tres tipos de abejas: las obreras, las observadoras y
las exploradoras (lneas 4 a 23). Para ello generamos
las fuentes de alimento correspondientes a las abejas obreras y observadoras (lneas 5 a 8 y 12 a 16,

Sec. n
Sn

Algoritmo 1 Pseudocodigo del MOABC


Fig. 1
n de un individuo.
Representacio

A. Colonia Artificial de Abejas Multiobjetivo


La Colonia Artificial de Abejas (ABC) es un algoritmo evolutivo definido por Dervis Karaboga [1] en
2005 motivado por el comportamiento colectivo de
las abejas recolectoras de miel. En el ABC, la colonia de abejas contiene tres tipos de abejas: las abejas obreras, las observadoras y las exploradoras. Las
abejas obreras, tras ir a explotar las diversas fuentes
de alimento, vuelven a la colmena y danzan para comunicar a las dem
as abejas la calidad de la fuente ex-

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:

frenteDePareto
colonia C crearAbejasObreras(#obreras)
evaluarNuevasAbejas(C)
mientras no alcancemos el lmite de tiempo hacer
para i = 0 to #obreras hacer
obrera producirNuevaSolutionObrera(C[i],mutacion)
C[i] procesoSeleccionAvariciosa(C[i],obrera)
fin para
vectorProbabilidad calcularProbabilidades(C)
para i = #obreras hasta TamCol. hacer
abeja seleccionarObrera(vectorProbabilidad,C)
observad. producirNuevaObservadora(abeja,mutacion)
C[i] procesoSeleccionAvariciosa(abeja,observad.)
fin para
para i = TamCol. hasta TamCol. + #explorad. hacer
C[i] generarAbejaExploradora()
fin para
C ordenacionNoDominadaColonia(C)
C asignacionDistanciaCrowding(C)
frenteDePareto actualizarFrenteDePareto(C)
fin mientras

respectivamente). Tras estos dos procesos de generaci


on, el algoritmo aplica una selecci
on avariciosa
multiobjetivo donde se escoge la mejor solucion entre dos dadas (la fuente de alimento antigua y la
generada) tal y como se puede ver en las lneas 7 y
15. En esta funci
on aplicamos el concepto de dominancia para seleccionar el mejor motif. Al final de
cada generaci
on, la colonia trabaja muchas fuentes
de alimento simult
aneamente (soluciones del algoritmo), y solamente las mejores fuentes se mantendr
an en la siguiente generaci
on del algoritmo. Para
asegurarnos de que el algoritmo escoge las mejores
fuentes de alimento aplicamos ciertos criterios multiobjetivo que nos permiten ordenar y seleccionar
las nuevas soluciones en cada generaci
on. El algoritmo MOABC incorpora dos funciones del algoritmo
est
andar NSGA-II [6]: la ordenaci
on no-dominada y
el c
alculo de la distancia de crowding. En las lneas
21 y 22 ordenamos la poblaci
on haciendo uso de estas dos funciones, calculando los valores correspondientes de distancia crowding para las soluciones del
frente de Pareto en conflicto, y escogiendo las fuentes
de alimento que mejores valores obtienen. Todo este
proceso se repite hasta alcanzar el tiempo de finalizaci
on.
B. Alg. Multiobjetivo de B
usqueda Gravitacional
El Algoritmo de B
usqueda Gravitacional (GSA)
es una nueva heurstica introducida por Rashedi et
al. [2]. Este algoritmo basa su comportamiento en
teoras fsicas, siendo sus agentes (individuos) un
conjunto de masas. As, la poblaci
on del algoritmo
forma un sistema de masas que se atraen y repelen debido a una fuerza gravitacional. Esta fuerza
causa por tanto un movimiento global de todos los
Algoritmo 2 Pseudoc
odigo del MO-GSA
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:

frenteDePareto
//Generamos las masas iniciales P = {X1 ,X2 ,...,XN }
P generarMasasIniciales(#poblacion)
mientras no alcancemos el lmite de tiempo hacer
P ordenacionNoDominadaMasas(P)
P asignacionDistanciaCrowding(P)
P calculoMOFitnessUtilizandoBias(P)
G,Kbest ,mejor,peor actualizarParametrosAlgoritmo()
para i = 0 hasta #poblacion hacer
Xi .m (Xi .M OF itness - peor ) / ( mejor - peor )
P
Xi .M (Xi .m) / ( N
j=1 Xj .m)
fin para
para d = 1 hasta #d hacer
para i = 1 hasta #poblacion hacer
para j = 1 to Kbest hacer
Rij ||Xi , Xj ||2
d
Fij
G * ((Xi .M * Xj .M ) / (Rij + )) * (Xjd - Xid )
fin para P
N
d
Xi .F d
jK
,j6=i rand[0, 1] Fij
best

Xi .aced Xi .F d / Xi .M
fin para
fin para
para d = 1 hasta #d hacer
para i = 1 hasta #poblacion hacer
Xi .veld rand[0,1] * Xi .veld + Xi .aced
Xid Xid + Xi .veld
fin para
fin para
frenteDePareto actualizarFrenteDePareto(C)
fin mientras

objetos hacia aquellos con mayores masas (mejores


soluciones). De esta forma las masas cooperan y se
comunican. Como el PDM es un problema multiobjetivo, hemos tenido que adaptar el funcionamiento del algoritmo GSA a este contexto, definiendo
un nuevo algoritmo denominado Algoritmo Multiobjetivo de B
usqueda Gravitacional (MO-GSA), el
funcionamiento general de este nuevo algoritmo se
muestra en el Algoritmo 2.
Primero generamos la poblacion multiobjetivo de
forma aleatoria (lnea 3 del Algoritmo 2). A continuacion, el algoritmo comienza su ejecucion hasta alcanzar el tiempo de finalizacion. En este punto
debemos tener en cuenta que, para el correcto funcionamiento del algoritmo, cada solucion debe poseer
un valor de fitness u
nico, facilitando as las tareas
de ranking y seleccion del mejor y peor individuo.
Este nuevo algoritmo primero ordena la poblaci
on
en distintos frentes de Pareto, teniendo en cuenta los frentes a los que pertenece cada soluci
on y
los correspondientes valores de distancia crowding
(lneas 5 y 6), dos conceptos obtenidos del algoritmo NSGA-II. Para obtener un valor u
nico de fitness,
aplicamos entonces un bias lineal br (lnea 7) a cada
elemento r esimo de la poblacion haciendo uso de
la expresion: br = 1/r, obteniendose valores de fitness de entre 1 y 1/N (siendo N el n
umero de individuo). Tras este proceso actualizamos las variables
del algoritmo (todas ellas toman los valores propuestos por los autores en [2]). Una vez actualizados
los parametros y evaluados los individuos, procedemos al calculo de las masas asignadas a cada soluci
on
(lneas 9 a 12), las fuerzas que act
uan entre ellas y
en su conjunto (lneas 15 a 18 y 19), las nuevas velocidades que toman las masas (lneas 20 y 25) y la
nueva posicion que ocupara cada solucion en la dimension correspondiente (lnea 26). Como podemos
ver en la lnea 13, todo este proceso se realiza para
cada dimension (cromosoma de nuestros individuos), definiendose as las nuevas posiciones de nuestras
masas en el espacio de b
usqueda. Todo este proceso
se repite hasta alcanzar el tiempo de finalizacion del
algoritmo.
IV. Resultados experimentales y
comparativas
En esta seccion explicamos la metodologa seguida para configurar cada algoritmo, describimos las
instancias utilizadas en nuestra experimentaci
on y
mostramos los resultados obtenidos por nuestros algoritmos. En este punto compararemos tambien los
resultados obtenidos por nuestras heursticas con los
obtenidos por dos algoritmos estandar multiobjetivo
(NSGA-II [6] y SPEA2 [7]) y con los obtenidos por
catorce metodos biologicos bien conocidos.
En cada experimento hemos realizado 30 ejecuciones independientes para asegurar la relevancia estadstica de los datos. Los resultados los mostramos
a traves del indicador hipervolumen [8] para facilitar

TABLA II
Propiedades de las instancias utilizadas.
Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r

Secuencias
Tama
no
Tiempo (sg.)
Instancias de la mosca
4
1500
15
4
2000
15
3
2500
15
Instancias del ser humano
10
1500
25
13
2000
25
7
3000
15
Instancias del raton
9
1000
15
5
500
15
4
1500
25
Instancias de la levadura
8
500
15
7
1000
15
11
1000
25

las comparativas, mostr


andose los valores medios logrados en las 30 ejecuciones. El volumen de referencia se calcula con los valores m
aximos de cada objetivo en cada instancia, por ejemplo, una instancia con
cinco secuencias tendra: Soporte=5, Tama
no=64
y Similaridad=1. Para comparar el comportamiento de los algoritmos hemos utilizado tambien la
Relaci
on de Cobertura [9] que es u
til para analizar
que algoritmos obtienen los mejores frentes de Pareto. Las configuraciones de los par
ametros se organizan teniendo en cuenta la influencia de cada uno
de ellos en cada algoritmo. Todos los experimentos
se han realizado sobre un Pentium 4 (2.8 GHz) con
1 GB de RAM; y los algoritmos se han compilado
utilizando gcc sin opciones de optimizaci
on. Como
benchmark hemos utilizado doce instancias reales
seleccionadas de la base de datos biol
ogica TRANSFAC [10]. La Tabla II muestra las propiedades de
cada una de ellas. Los tiempos de ejecuci
on establecidos para cada instancia se incluyen en la u
ltima
columna de la Tabla II. Por u
ltimo destacar que en
cada algoritmo desarrollado en este trabajo hemos
ajustado el valor de todos los par
ametros para obtener la mejor configuraci
on posible para este problema.
En la Tabla III incluimos las configuraciones de cada
algoritmo.
Con los algoritmos configurados y los experimentos realizados podemos comenzar con el analisis de
los datos. El primer an
alisis se ha realizado utilizando el indicador hipervolumen. En la Tabla IV
mostramos los resultados y comportamientos de los
algoritmos en todas las instancias utilizadas. Si analizamos la tabla por especies, podemos notar como,
para las instancias correspondientes a la mosca,
los algoritmos que mejores hipervol
umenes obtienen
son MOABC y SPEA2 (superando el MOABC al
SPEA2), estos resultados demuestran que ambos algoritmos son capaces de descubrir buenos motifs en
instancias peque
nas (con no demasiados nucleotidos). Por otro lado, si analizamos los resultados

TABLA III
Mejores configuraciones encontradas para cada
algoritmo.
Par
ametros utilizados en MOABC
Tama
no de la Poblaci
on
200
Probabilidad de Mutaci
on
8%
Cantidad de Mutaci
on
30 % del valor m
aximo
Abejas Exploradoras
1
Par
ametros utilizados en MO-GSA
Tama
no de la Poblaci
on
200
G0
100

20

0.01
Par
ametros utilizados en NSGA-II [6]
Tama
no de la Poblaci
on
200
Cruce
SPX probabilidad del 60 %
Probabilidad de Mutaci
on
50 %
Cantidad de Mutaci
on
30 % del valor m
aximo
Elecci
on de Padres
Torneo Binario
Par
ametros utilizados en SPEA2 [7]
Tama
no de la Poblaci
on
200
Cruce
SPX probabilidad del 90 %
Probabilidad de Mutaci
on
90 %
Cantidad de Mutaci
on
30 % del valor m
aximo

obtenidos en las instancias del ser humano vemos como los mejores algoritmos son MOABC y MO-GSA,
nuestras dos propuestas. Pudiendose decir que nuestras heursticas logran obtener los mejores resultados
en las tres instancias mas complicadas de las doce
que hemos utilizado en nuestra experimentaci
on.
En lo referente a los resultados de las instancias
del raton, los mejores motifs son descubiertos por
MOABC, con la excepcion de la instancia mus07g,
instancia donde domina el algoritmo SPEA2. Finalmente para el caso de la levadura, es de nuevo el algoritmo MOABC el que obtiene los mejores resultados
en las instancias yst03m y yst04r. En la instancia
yst08r es el algoritmo MO-GSA el que obtiene mayores hipervol
umenes. En resumen, podemos concluir
que los resultados de nuestros algoritmos son buenos
ya que logran dominar en once de las doce instancias que hemos probado a dos algoritmos estandar
en computacion multiobjetivo como son NSGA-II y
SPEA2.
TABLA IV
menes medios obtenidos por los algoritmos.
Hipervolu

dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r
Media

MOABC
83,24 %0,006
84,14 %0,009
86,43 %0,007
61,48 %0,019
56,50 %0,018
81,91 %0,035
64,17 %0,019
79,69 %0,006
88,29 %0,021
69,73 %0,019
75,57 %0,010
61,81 %0,023
74,41 %

MO-GSA
81,79 %0,015
81,82 %0,014
84,26 %0,013
61,86 %0,019
53,38 %0,019
77,83 %0,032
61,13 %0,020
76,35 %0,029
83,57 %0,025
63,30 %0,029
71,12 %0,024
66,20 %0,022
71,88 %

NSGA-II
81,56 %0,006
81,06 %0,008
84,41 %0,007
47,40 %0,027
43,32 %0,024
68,12 %0,012
59,24 %0,011
77,18 %0,004
87,01 %0,017
65,52 %0,012
74,80 %0,004
64,87 %0,012
69,54 %

SPEA2
83,17 %0,005
82,67 %0,007
86,13 %0,007
53,22 %0,010
46,59 %0,008
72,40 %0,017
59,68 %0,012
77,69 %0,004
89,50 %0,004
66,45 %0,011
71,72 %0,004
57,22 %0,011
70,54 %

TABLA V
n de Cobertura (AB).
Relacio
A
MOABC
MO-GSA
B
MO-GSA NSGA-II
SPEA2
MOABC
NSGA-II
SPEA2
dm01g 64,52 % 82,35 % 41,03 % 50,00 % 61,76 % 46,15 %
dm04g 62,86 % 100,0 % 88,37 % 43,14 % 90,24 % 65,12 %
dm05g 96,15 % 96,55 % 70,37 % 18,75 % 72,41 % 25,93 %
hm03r
2,56 %
100,0 % 100,0 % 87,10 % 97,62 % 100,0 %
hm04m 35,90 % 100,0 % 100,0 % 54,55 % 100,0 % 100,0 %
hm16g 27,78 % 100,0 % 100,0 % 65,38 % 97,50 % 95,83 %
mus02r 63,24 % 100,0 % 100,0 % 33,85 % 98,63 % 98,46 %
mus03g 48,48 % 100,0 % 92,73 % 62,86 % 82,14 % 72,73 %
mus07g 81,82 % 100,0 % 85,71 % 54,05 % 78,26 % 67,86 %
yst03m 80,46 % 94,44 % 96,34 % 27,27 % 93,06 % 81,71 %
yst04r
58,33 % 93,22 % 100,0 % 45,10 % 88,14 % 95,35 %
yst08r
0,00 %
92,86 % 100,0 % 97,96 % 98,81 % 100,0 %
media 51,84 % 96,62 % 89,55 % 53,33 % 88,21 % 79,09 %

Tras el estudio de los hipervol


umenes hemos analizado tambien los motifs descubiertos por los algoritmos (las soluciones no-dominadas) utilizando un
segundo indicador, la Relaci
on de Cobertura. Este
concepto es presentado por [9] en su estudio de optimizaci
on multiobjetivo utilizando algoritmos evolutivos. Considerando dos soluciones x1 y x2 , la
Relaci
on de Cobertura considera que x1 cubre a x1 si
y solo si x1  x2 o x1 = x2 . Este concepto se aplica a
todas las soluciones no-dominadas obtenidas por los
algoritmos y se utiliza como criterio de comparacion.
La Tabla V muestra los resultados de esta comparativa. Podemos observar como los mayores valores
medios (
ultima fila de la Tabla V) son obtenidos por
nuestras dos propuestas, por ejemplo, vemos como
las soluciones no-dominadas del MOABC cubren el
96,62 % de las soluciones del NSGA-II y el 89,55 %
de las soluciones del SPEA2. Mientras que estos dos
algoritmos (NSGA-II y SPEA2) solo logran cubrir el
6,23 % y el 17,10 % de las soluciones del MOABC respectivamente. Lo mismo ocurre cuando analizamos
los resultados obtenidos por el algoritmo MO-GSA,
sus soluciones no-dominadas son capaces de cubrir el
88,21 % y el 79,09 % de las soluciones del NSGA-II
y SPEA2, mientras que ellos solo cubren el 11,97 %
y el 20,33 % de las soluciones del MO-GSA. Por otro
lado, si comparamos las soluciones obtenidas por
nuestras dos heursticas vemos como los resultados
son muy similares ya que las soluciones del MOABC
cubren el 51,84 % de las soluciones del MO-GSA y las
soluciones de este cubren el 53,33 % de las soluciones
del MOABC. En resumen, la mayora de los motifs
descubiertos por nuestras propuestas dominan a los
motifs descubiertos por los algoritmos NSGA-II y
SPEA2, por ello, los frentes de Pareto conseguidos
por nuestras propuestas son de mayor calidad.
En esta secci
on hemos comparado tambien los
motifs descubiertos por nuestras propuestas con las
predicciones de otros metodos. M
as concretamente,
hemos comparado los mejores motifs de nuestros algoritmos (soluciones no-dominadas) con las mejores

NSGA-II
MOABC

MO-GSA

SPEA2
SPEA2

MOABC

MO-GSA

NSGA-II

27,08 % 35,48 % 38,46 % 56,25 % 51,61 % 79,41 %


9,80 % 22,86 % 11,63 % 29,41 % 28,57 % 92,68 %
15,63 % 34,62 % 18,52 % 62,50 % 76,92 % 93,10 %
0,00 %
0,00 %
47,27 %
0,00 %
0,00 %
35,71 %
0,00 %
0,00 %
41,33 %
0,00 %
0,00 %
65,75 %
0,00 %
0,00 %
33,33 %
0,00 %
0,00 %
60,00 %
0,00 %
1,47 %
26,15 %
0,00 %
1,47 %
69,86 %
14,29 % 24,24 % 50,91 % 30,00 % 31,82 % 73,21 %
0,00 % 13,64 %
7,14 %
27,03 % 40,91 % 95,65 %
0,00 %
5,75 %
46,34 %
0,00 %
12,64 % 45,83 %
5,88 %
5,56 %
93,02 %
0,00 %
0,00 %
8,47 %
2,04 %
0,00 %
96,08 %
0,00 %
0,00 %
2,38 %
6,23 % 11,97 % 42,52 % 17,10 % 20,33 % 60,17 %

soluciones descubiertas por catorce metodos biol


ogicos bien conocidos. As, demostramos que las predicciones de nuestras propuestas tienen una importante relevancia biologica. Los metodos biologicos
con los que hemos comparado son AlignACE [11],
ANN Spec [12], Consensus [13], GLAM [14], Improbizer [15], MEME [16], MEME3 [16], MITRA
[17], MotifSampler [18], oligo/dyad-analysis [19] y
[20], QuickScore [21], SeSiMCMC [22], Weeder [23]
y YMF [24]. Una breve descripcion de cada uno se incluye en [25]. Para cada metodo M y cada instancia
D tenemos un conjunto de puntos de union predichos
y un conjunto de puntos de union conocidos. La correccion de M en D se asegura, a nivel de nucle
otidos, definiendo: verdaderos positivos (nT P ), falsos
negativos (nF N ), verdaderos negativos (nT N ) y falsos positivos (nF P ). Pudiendose definir varios indicadores biologico/estadsticos como: la Sensibilidad
(nSn), que mide la proporcion actual de positivos
correctamente identificados:
nSn =

nT P
(nT P + nF N )

(3)

El Valor de Predicciones Positivas (nP P V ) tambien conocido como tasa de precision, siendo la proporcion de positivos reales correctamente predichos:
nP P V =

nT P
(nT P + nF P )

(4)

El Coeficiente de Rendimiento (nP C):


nP C =

nT P
(nT P + nF N + nF P )

(5)

Y finalmente, el Coeficiente de Correlacion (nCC)


el cual es el Coeficiente de Correlacion de Pearson en
el caso particular de dos variables binarias, tambien
conocido como Coeficiente de Correlacion Phi. Las
dos variables binarias analizadas son vectores caracterstica de las posiciones de los nucleotidos conocidos y de las posiciones de los nucleotidos predichos,

de esta forma este indicador mide la correlacion existente entre ambos vectores. El valor de nCC va
desde -1 (indicando una perfecta anti-correlacion) a
+1 (indicando una perfecta correlaci
on).
nT P nT N nF N nF P

(6)
PN NP PP NN
donde P N = nT P + nF N , N P = nT N + nF P ,
P P = nT P + nF P y N N = nT N + nF N . Para
m
as informaci
on sobre estos indicadores ver [25]. La
Tabla VI muestra los resultados de comparar nuestras propuestas con los metodos biol
ogicos previamente definidos utilizando los cuatro indicadores biol
ogico/estadsticos: nSn, nP P V , nP C y nCC.
Dicho esto procedemos a analizar los resultados
obtenidos. En la Tabla VI(a) vemos como solo en las
instancias yst03m y yst08r (2 instancias de 12), nuestras heursticas no logran superar los resultados del
mejor metodo biol
ogico (de entre los 14), obteniendo
nuestro mejor algoritmo el septimo mejor resultado.
Lo mismo ocurre con los indicadores nP C y nCC.
Sin embargo, los motifs descubiertos por el mejor de
nuestros algoritmos en cada momento, son capaces
de lograr en estas dos instancias la quinta y tercera
mejor soluci
on para el indicador nP C (MOABC en
yst03m y yst08r); y la cuarta y tercera mejor soluci
on para el indicador nCC (MOABC en yst03m
y MO-GSA en yst08r). Si comparamos las Tablas
VI(a), VI(b), VI(c) y VI(d) con la Tabla IV, podemos notar como en las instancias hm03r y yst08r,
donde el algoritmo MO-GSA obtena los mejores
hipervol
umenes, logra tambien las mejores predicciones. Es importante destacar que las instancias de
la levadura (yst) son las m
as trabajadas biologicamente, y por ello, a nuestros algoritmos les cuesta m
as distanciarse de los dem
as metodos, siendo
Consensus y MotifSampler los metodos que mejores
predicciones realizan en ellas. Si analizamos en detalle los resultados mostrados en estas tablas podemos decir que conseguimos un incremento medio de
sensibilidad de un 23 % con respecto al mejor metodo biol
ogico. Lo mismo ocurre con los otros tres
indicadores consiguiendo un incremento medio del
19 %, 59 % y un 30 %, respectivamente. Estos resultados demuestran que, adem
as de obtener buenos
resultados desde el punto de vista informatico (a
traves de indicadores como el hipervolumen o la
Relaci
on de Cobertura), conseguimos predecir motifs
biol
ogicamente relevantes. Es tambien importante
destacar que los mejores resultados son normalmente
obtenidos siempre por el mismo metodo biologico en
cada instancia, por ejemplo, en la instancia dm01g
los mejores resultados son siempre conseguidos por
SeSiMCMC, o por ejemplo, en hm03r los mejores
resultados son conseguidos por MEME. Sin embargo, nuestros algoritmos logran buenos resultados en
todas las instancias ya pertenezcan a una u otra especie (mosca, ser humano, rat
on o levadura). Esto hace esperar que nuestras versiones multiobjetivo
de la Colonia Artificial de Abejas y del Algoritmo

TABLA VI
Comparativas de Sensibilidad (nSn), Valor de
Predicciones Positivas (nP P V ), Coeficiente de
n (nCC). (N/A si
Rendimiento (nP C) y de Correlacio

ningun metodo logra descubrir nada)

nCC =

Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r

Resultados nSn
Mejor metodo
MOABC
SeSiMCMC
0,344000
0,488000
MotifSampler 0,022222
0,370370
MEME
0,037500
0,293750
MEME
0,063726
0,274510
AlignACE
0,005952
0,321429
N/A
0,000000
0,390244
MEME
0,094828
0,323276
AlignACE
0,281690
0,500000
0,040000
0,560000
ANN Spec
Improbizer
0,340136 0,272109
Consensus
0,335878
0,551402
AlignACE
0,387097 0,308244

MO-GSA
0,472000
0,333333
0,287500
0,289216
0,291667
0,335366
0,275862
0,457746
0,550000
0,272109
0,626168
0,283154

Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r

Resultados nPPV
Mejor metodo
MOABC
SeSiMCMC
0,344000
1,000000
MotifSampler 0,032967
1,000000
MEME
0,026667
1,000000
MEME
0,108333
0,714286
AlignACE
0,006061
0,388889
N/A
0,000000
0,666667
MEME
0,142857
0,750000
AlignACE
0,256410
1,000000
0,020942
1,000000
ANN Spec
YMF
0,700000
0,750000
MITRA
0,357143
0,750000
MotifSampler 0,786408 0,558442

MO-GSA
1,000000
0,666667
0,833333
0,507576
0,395833
0,666667
0,642857
1,000000
0,794118
0,904762
0,500000
0,626984

Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r

Resultados nPC
Mejor metodo
MOABC
SeSiMCMC
0,207730
0,404762
MotifSampler 0,013453
0,295181
MEME
0,015831
0,207048
MEME
0,041801
0,208955
AlignACE
0,003012
0,183099
N/A
0,000000
0,290909
MEME
0,060440
0,214058
AlignACE
0,155039
0,408284
ANN Spec
0,013937
0,465517
oligodyad
0,261905 0,198925
Consensus
0,202765
0,390244
MotifSampler 0,269103 0,247839

MO-GSA
0,398438
0,191083
0,201754
0,222642
0,160656
0,243363
0,195122
0,352601
0,361702
0,186047
0,343590
0,242331

Instancia
dm01g
dm04g
dm05g
hm03r
hm04m
hm16g
mus02r
mus03g
mus07g
yst03m
yst04r
yst08r

Resultados nCC
Mejor metodo
MOABC
SeSiMCMC
0,330043
0,628460
MotifSampler 0,013401
0,468291
MEME
0,006491
0,367374
MEME
0,063601
0,344511
AlignACE
-0,000400 0,305036
MEME
-0,005204 0,452594
MEME
0,097480
0,370738
AlignACE
0,222480
0,578040
ANN Spec
0,006056
0,640559
oligodyad
0,437304 0,356815
Consensus
0,322430
0,575254
MotifSampler 0,470596 0,404018

MO-GSA
0,616266
0,351703
0,331194
0,364109
0,272252
0,393088
0,317711
0,512006
0,524117
0,335172
0,511442
0,411904

de B
usqueda Gravitacional puedan obtener buenos
resultados en genomas de otros seres.

[8]

V. Conclusiones y trabajo futuro

[9]

En este trabajo hemos aplicado dos algoritmos


novedosos basados en inteligencia colectiva (swarm
intelligence): la Colonia de Abejas Artificiales (ABC)
y el Algoritmos de B
usqueda Gravitacional (GSA),
para resolver el Problema del Descubrimiento de
Motifs (PDM). Adem
as hemos adaptado estos algoritmos al contexto multiobjetivo dando lugar a
dos nuevos algoritmos multiobjetivo. En este trabajo
hemos combinado aspectos computacionales con aspectos biol
ogicos, demostrando a traves de varios indicadores y estadsticas que los resultados obtenidos
por nuestros algoritmos son relevantes en ambos
campos. Para terminar, destacamos como contribuciones de este trabajo: la adaptaci
on, dise
no e implementaci
on de dos nuevos algoritmos multiobjetivo basados en inteligencia colectiva, el analisis detallado de los resultados obtenidos y la generacion
de nuevos resultados que mejoran significativamente
aquellos publicados en la literatura.
Evaluar, implementar y probar nuevos algoritmos
para resolver el PDM es una tarea pendiente para
el futuro. Adem
as, tambien investigaremos la aplicaci
on de tecnicas paralelas y distribuidas que nos
permitan abordar conjuntos de datos mayores.
Agradecimientos
Este trabajo est
a parcialmente financiado por
el Ministerio de Ciencia e Innovaci
on y el FEDER (Fondo Europeo de Desarrollo Regional), bajo
el proyecto TIN2008-06491-C04-04 (proyecto M*).
Gracias tambien a la Fundaci
on Valhondo por el
apoyo econ
omico ofrecido a David L. Gonzalez
Alvarez
para hacer posible este trabajo.

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]
[18]

[19]

[20]

Referencias
[1]
[2]
[3]
[4]

[5]

[6]

[7]

D. Karaboga, An idea based on honey bee swarm for


numerical optimization, Technical report-tr06, Erciyes
University, Turkey, 2005.
E. Rashedi, H. Nezamabadi-pour y S. Saryazdi, GSA:
A gravitational search algorithm, Information Sciences,
vol. 179, no. 13, pp. 22322248, 2009.
P. Dhaeseleer, What are DNA sequence motifs?, Nature Biotechnology, vol. 24, no. 4, pp. 423425, 2006.
G. B. Fogel, D. G. Weekes, G. Varga, E. R. Dow, H. B.
Harlow, J. E. Onyia y C. Su, Discovery of sequence
motifs related to coexpression of genes using evolutionary
computation, Nucleic Acids Research, vol. 32, no. 13,
pp. 38263835, 2004.
G. B. Fogel, V. W. Porto, G. Varga, E. R. Dow, A. M.
Craven, D. M. Powers, H. B. Harlow, E. W. Su, J. E.
Onyia y C. Su, Evolutionary computation for discovery
of composite transcription factor binding sites, Nucleic
Acids Research, vol. 36, no. 21, pp. e142, 2008.
K. Deb, A. Pratap, S. Agarwal y T. Meyarivan, A fast
and elitist multiobjective genetic algorithm: NSGA-II,
IEEE Transactions on Evolutionary Computation, vol.
6, pp. 182197, 2002.
E. Zitzler, M. Laumanns y L. Thiele, SPEA2: Improving
the strength pareto evolutionary algorithm, Technical
report tik-report 103, Swiss Federal Institute of Technology Zurich, Switzeland (2001).

[21]
[22]

[23]
[24]

[25]

L. While, P. Hingston, L. Barone y S. Huband, A faster


algorithm for calculating hypervolume, IEEE Transactions on Evolutionary Computation, vol. 10, no. 1, pp.
2938, 2006.
E. Zitzler, K. Deb y L. Thiele, Comparison of multiobjective evolutionary algorithms: empirical results,
Evolutionary Computation, vol. 8, no. 2, pp. 173195,
2000.
E. Wingender, P. Dietze, H. Karas y R. Knuppel,
TRANSFAC: a database on transcription factors and
their DNA binding sites, Nucleic Acids Research, vol.
24, no. 1, pp. 238241, 1996.
F. P. Roth, J. D. Hughes, P. W. Estep y G. M. Church,
Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole-genome mRNA
quantitation, Nature Biotechnology, vol. 16, no. 10, pp.
939945, 1998.
C. T. Workman y G. D. Stormo, ANN-Spec: a method
for discovering transcription factor binding sites with improved specificity, Pacific Symposium on Biocomputing, pp. 467478, 2000.
G. Z. Hertz y G. D. Stormo, Identifying DNA and
protein patterns with statistically significant alignments
of multiple sequences, Bioinformatics, vol. 15, no. 7-8,
pp. 563577, 1999.
M. C. Frith, U. Hansen, J. L. Spouge y Z. Weng, Finding functional sequence elements by multiple local alignment, Nucleic Acids Research, vol. 32, no. 1, pp. 189
200, 2004.
W. Ao, J. Gaudet, W. J. Kent, S. Muttumu y S. E.
Mango, Environmentally induced foregut remodeling
by PHA-4/FoxA and DAF-12/NHR, Science, vol. 305,
no. 5691, pp. 17431746, 2004.
T. L. Bailey y C. Elkan, Unsupervised learning of multiple motifs in biopolymers using expectation maximization, Machine Learning, vol. 21, no. 1-2, pp. 5180,
1995.
E. Eskin y P. A. Pevzner, Finding composite regulatory
patterns in DNA sequences, Bioinformatics, vol. 18
(Suppl 1), pp. S354S363, 2002.
G. Thijs, M. Lescot, K. Marchal, S. Rombauts,
B. De Moor, P. Rouz
e y Y. Moreau, A higher-order
background model improves the detection of promoter
regulatory elements by Gibbs sampling, Bioinformatics, vol. 17, no. 12, pp. 11131122, 2001.
J. van Helden, B. Andre y J. Collado-Vides, Extracting regulatory sites from the upstream region of yeast
genes by computational analysis of oligonucleotide frequencies, Journal of Molecular Biology, vol. 281, no. 5,
pp. 827842, 1998.
J. van Helden, A. F. Rios y J. Collado-Vides, Discovering regulatory elements in non-coding sequences by analysis of spaced dyads, Nucleic Acids Research, vol. 28,
no. 8, pp. 18081818, 2000.
M. Regnier y A. Denise, Rare events and conditional
events on random strings, Discrete Mathematics and
Theoretical Computer Science, vol. 6, pp. 191214, 2004.
A. V. Favorov, M. S. Gelfand, A. V. Gerasimova, D. A.
Ravcheev, A. A. Mironov y V. J. Makeev, A Gibbs
sampler for identification of symmetrically structured,
spaced DNA motifs with improved estimation of the signal length, Bioinformatics, vol. 21, no. 10, pp. 2240
2245, 2005.
G. Pavesi, G. Mauri y G. Pesole, An algorithm for
finding signals of unknown length in DNA sequences,
Bioinformatics, vol. 17 (Suppl 1), pp. S207S214, 2001.
S. Sinha y M. Tompa, YMF: A program for discovery
of novel transcription factor binding sites by statistical
overrepresentation, Nucleic Acids Research, vol. 31, no.
13, pp. 35863588, 2003.
M. Tompa, N. Li, T. L. Bailey, G. M. Church,
B. De Moor, E. Eskin, A. V. Favorov, M. C. Frith, Y. Fu,
W. J. Kent, V. J. Makeev, A. A. Mironov, W. S. Noble,
G. Pavesi, G. Pesole, M. Regnier, N. Simonis, S. Sinha,
G. Thijs, J. van Helden, M. Vandenbogaert, C. Weng,
Z. Workman, C. Ye y Z. Zhu, Assessing computational tools for the discovery of transcription factor binding
sites, Nature Biotechnology, vol. 23, no. 1, pp. 137144,
2005.