Está en la página 1de 135

MONOGRAFA TECNOLOGAS BIOINFORMTICAS PARA EL ANLISIS DE

SECUENCIAS DE ADN.

LIZETH VANESSA ROZO MURILLO


JHENIFER FRANCO SOTO

UNIVERSIDAD TECNOLOGICA DE PEREIRA


FACULTAD DE INGENIERAS
PROGRAMA DE INGENIERA DE SISTEMAS Y COMPUTACIN
PEREIRA
2011
MONOGRAFA TECNOLOGAS BIOINFORMTICAS PARA EL ANLISIS DE
SECUENCIAS DE ADN.

LIZETH VANESSA ROZO MURILLO


JHENIFER FRANCO SOTO

Monografa

Asesor: Cesar Augusto Meneses Escobar


Ingeniero de Sistemas y Computacin

UNIVERSIDAD TECNOLOGICA DE PEREIRA


FACULTAD DE INGENIERAS
PROGRAMA DE INGENIERA DE SISTEMAS Y COMPUTACIN
PEREIRA
2011
DEDICATORIA

Dedicado a todos los Ingenieros de


Sistemas y Bilogos que deseen
compartir entre ellos conocimientos
y unirse para apoyar
la investigacin Bioinformtica,
y por supuesto tambin
a nuestros seres amados.
AGRADECIMIENTOS

Aprovechamos este espacio para testimoniar y reiterar nuestro sincero


agradecimiento y gratitud, primeramente a Dios por darnos la inteligencia y la
capacidad para concluir esta etapa de nuestras vidas, y a todas las personas que
contribuyeron al desarrollo de este proyecto.

A nuestros padres, Elas Rozo Salinas y Nubia Murillo Lpez, y Deiber Franco
Villada y Liliana Soto Uribe, por su apoyo fiel y su paciencia. Nuestro triunfo es el
de ustedes!

A nuestros compaeros sentimentales Mauro Mazuela y Diego Fernando Acevedo


Rendn, por acompaarnos durante este proceso de formacin con su cario, sus
consejos y su ayuda incondicional.

A nuestras familias, especialmente a Cristhian Elas Rozo Murillo, Laura Susana


Rozo Murillo, Nancy Soto Uribe y Edelmira Uribe Aguirre, por tendernos la mano
cuando ms lo necesitamos; y as mismo a Marleny Marn, porque sin su apoyo
este hubiese sido un camino mucho ms fatigoso de recorrer.

A nuestro asesor de proyecto, el Ingeniero Carlos Augusto Meneses Escobar y a


la Ingeniera Ligia Stella Bustos Ros por compartir sus conocimientos con nosotras
y contribuir al buen desarrollo de este documento.

Y finalmente, a todos nuestros compaeros de carrera con quienes compartimos


los mejores y los ms difciles momentos de este proceso de crecimiento
intelectual y personal.
CONTENIDO

pg.

1. TTULO DEL PROYECTO 8

2. INTRODUCCION 9

3. DEFINICIN DEL PROBLEMA 10

4. JUSTIFICACIN 11

5. OBJETIVOS 12

5.1 OBJETIVO GENERAL 12

5.2 OBJETIVOS ESPECFICOS 12

6. CAPITULO 1. MARCO CONCEPTUAL 13

6.1 QU ES LA BIOINFORMATICA? 13

6.2. OBJETIVOS DE LA BIOINFORMTICA 13

6.3 ANLISIS DE SECUENCIAS DE ADN 14

6.3.1 Alineacin de secuencias de ADN 14

6.4 ALGORITMOS GENTICOS 15

6.5 EXPRESIN GNICA 16

6.6 ANOTACIN DEL GENOMA 17

7. CAPITULO 2. ESTADO DEL ARTE 19

7.1 ESTADO DEL ARTE DE LA BIOINFORMTICA 19


7.1.1 Resea histrica de la Bioinformtica 19

7.1.2 Alcance de la Bioinformtica 20

7.1.3 Cmo se puede aplicar la Bioinformtica? 21

7.1.4 Nuevo Temas en la Bioinformtica 24

7.1.5 Bioinformtica en Colombia 24

7.2 GENERALIDADES DEL ALINEAMIENTO DE SECUENCIAS 27

7.2.1 Base evolutiva del Alineamiento de Secuencias 27

7.2.2 Montaje y alineacin de secuencias Biolgicas 28

7.3 TECNOLOGAS COMPUTACIONALES APLICADAS


A LA BIOINFORMTICA 31

7.3.1 Bases de Datos 31

7.3.2 Bodegas de Datos 46

7.3.3 Minera de Datos 55

7.3.4 Mquinas de aprendizaje en Bioinformtica 68

7.3.5 Soft computing 83

7.3.6 MATLAB para Bioinformtica 87

7.3.7 Microarrays 91

7.3.8 Biotecnologa de Sistemas 97

8. CAPITULO 3. ANLISIS DE LAS TECNOLOGAS BIOINFORMTICAS


UTILIZADAS PARA EL ANLISIS DE SECUENCIAS DE ADN 99

8.1 BASES DE DATOS 99

8.2 BODEGAS DE DATOS 100

8.3 MINERA DE DATOS 100


8.3.1 Minera de texto 101

8.4 MQUINAS DE APRENDIZAJE 101

8.5 SOFT COMPUTING 102

8.6 MICROARRAYS 102

9. DISEO METODOLGICO 104

9.1 HIPTESIS 104

9.2 POBLACIN 104

9.3 MUESTRA 104

9.4 VARIABLES 104

9.5 INSTRUMENTOS 104

10. CONCLUSIONES 107

11. REFERENCIAS BIBLIOGRFICAS 108


LISTA DE TABLAS

pg.

Tabla 1. Principales Bases de Datos Biolgicas disponibles a travs de la


World Wide Web 33

Tabla 2. Investigaciones existentes sobre bioinformtica que han aplicado


tcnicas de Mquinas de Aprendizaje 71

Tabla 3. Bases de datos de secuencias 98


LISTA DE FIGURAS

pg.

Figura 1. Crecimiento de los datos en GenBank 22

Figura 2. Formato NCBI GenBank/GenPept que muestra los principales


componentes de un rbol de un archivo de secuencia 38

Figura 3. Proceso en Bodegas de Datos 52


1. TITULO
Monografa Tecnologas Bioinformticas para el Anlisis de Secuencias de ADN.

8
2. INTRODUCCIN

Los datos biolgicos siguen creciendo de manera exponencial en tamao y


complejidad, como resultado de ello, se introducen nuevos tipos de datos que
antes no haban sido vistos ni siquiera en la biologa molecular, por lo que es
importante que las tecnologas de informacin avanzadas se apliquen para apoyar
la investigacin biolgica y sus innovaciones. Las actividades especficas de las
tecnologas de la informacin estn echando races en algunas partes de la
comunidad de investigacin biolgica, y se espera que se beneficien con la
tecnologa de la informacin.
Las enormes cantidades de datos biolgicos y crecientes demandas de la
investigacin biolgica moderna exigen cada vez ms la sofisticacin y
computacin potente de las tecnologas de la informacin (TI). Ms
concretamente, la utilizacin ptima de estos instrumentos exige proximal de la
informacin, y conocer en qu puntos se encuentran los datos en lo que transcurre
la investigacin biolgica. En este trabajo, se presentar la aplicacin de
conceptos bien establecidos y las metodologas y tcnicas computacionales que
ms se utilizan para el anlisis de secuencias de ADN, para llegar a resultados de
alta calidad, y que a su vez puedan ser utilizados como base para desarrollar
herramientas prcticas en trabajos futuros.
El contenido del presente trabajo monogrfico est dividido en tres captulos
principales de la siguiente manera:
El capitulo 1 que consta del marco conceptual, el cual contiene los conceptos
principales de la bioinformtica, sus objetivos, se define qu es el anlisis y
alineacin de secuencias de ADN, algoritmos genticos, expresin gnica y
anotacin del genoma.
El capitulo 2 representa el estado del arte de la bioinformtica, una pequea
resea histrica, se definen los alcances de la bioinformtica, como se puede
aplicar, nuevos temas y bioinformtica en Colombia; contiene tambin las
generalidades del alineamiento de secuencias, su base evolutiva, el montaje y la
alineacin de secuencias biolgicas y finalmente hace un recuento detallado de
las tecnologis computacionales aplicadas a la bioinformtica como bases de
datos, minera de datos, mquinas de aprendizaje en bioinformtica, Soft
computing, MATLAB para Bioinformtica, teora de Microarrays y Biotecnologa de
sistemas.
Y el capitulo 3 que consta del anlisis de las tecnologas Bioinformticas utilizadas
para el anlisis de secuencias de ADN.

9
3. DEFINICIN DEL PROBLEMA

Algunos autores afirman que existe la necesidad imperiosa de poseer un


conocimiento general en bioinformtica que abarque a estudiantes,
investigadores y a la industria, sta necesidad surgi debido a que se requera una
evolucin a partir de la interaccin activa de dos disciplinas de rpido desarrollo
como la biologa y las tecnologas de la informacin. La solucin de problemas
biolgicos modernos requiere mtodos computacionales avanzados y sofisticados,
ya que el volumen de los datos en estos dominios sigue creciendo de manera
exponencial en tamao y complejidad.1

Ejemplo de esto es el centro de investigacin CENBIOTEP2, donde se han


presentado problemas con la gran cantidad de datos biolgicos que desean
procesar, debido a que no poseen el conocimiento informtico suficiente para
llevar a cabo su investigacin de manera eficaz y en el tiempo deseado.3

Es indispensable y urgente que las tecnologas de informacin avanzadas sean


aplicadas para apoyar la investigacin biolgica basada en el anlisis de
secuencias de ADN.

Qu tecnologas informticas se usan para la solucin de problemas biolgicos


relacionados con el anlisis de secuencias de ADN?

1
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.V
2
Centro de Biologa molecular y Biotecnologa de la Universidad Tecnolgica de Pereira.
3
Doctor Duverney Gaviria Arias, Centro de Investigacin CENBIOTEP. Ver pag. 105

10
4. JUSTIFICACIN

La solucin del problema biolgico e informtico del procesamiento de grandes


volmenes de datos que contienen informacin de las secuencias de ADN
requiere mtodos computacionales avanzados, buscando as una optimizacin
del tiempo en el que se realiza este proceso actualmente y tambin podran
permitir en un futuro colaborar con las investigaciones de las ciencias biolgicas.

La Bioinformtica, puede considerarse como la combinacin de varias disciplinas


cientficas que incluyen la biologa, la bioqumica, las matemticas y la informtica.
Esto implica el uso de las tecnologas informticas y mtodos estadsticos para
manejar y analizar un gran volumen de datos biolgicos sobre el ADN, el ARN y
las secuencias de protenas, entre otras.4 Se pretende conocer cules son las
herramientas bioinformticas especficas que permitan el avance de los estudios
cientficos en el anlisis de secuencias de ADN.

4
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.2

11
5. OBJETIVOS

5.1 OBJETIVO GENERAL

Investigar qu tecnologas bioinformticas son relevantes en el desarrollo de las


soluciones biolgicas para el anlisis de secuencias de ADN.

5.2 OBJETIVOS ESPECFICOS

Definir los conceptos bsicos de Bioinformtica.

Establecer que son las tecnologas computacionales y bioinformticas.

Investigar las tecnologas bioinformticas que ms se utilicen para el anlisis


de secuencias de ADN.

12
6. CAPITULO 1. MARCO CONCEPTUAL

6.1 QU ES LA BIOINFORMTICA?

En los ltimos aos, la Bioinformtica ha atrado una gran atencin de varias


disciplinas, como la informtica, las matemticas y las ciencias biolgicas no
tradicionales. Esto se debe a la disponibilidad de enormes cantidades de datos
biolgicos pblicos y privados, y a la necesidad imperiosa de transformar datos en
informacin biolgica til y en conocimiento.

Las tareas ms importantes en la bioinformtica son entender las correlaciones,


las estructuras y los patrones en los datos biolgicos. La informacin y el
conocimiento de estas disciplinas se pueden utilizar de modo inteligente para
aplicaciones que cubran el descubrimiento de frmacos, anlisis del genoma y
control biolgico; esto implica el uso de tecnologas informticas y mtodos
estadsticos para manejar y analizar un gran volumen de datos biolgicos sobre el
ADN, el ARN y las secuencias de protenas, estructuras de las protenas, los
perfiles de expresin gentica y las interacciones de la protena.
En concreto, la bioinformtica abarca el desarrollo de bases de datos para
almacenar y recuperar datos biolgicos, los algoritmos para analizar y determinar
las relaciones de datos biolgicos, y las herramientas estadsticas para identificar
e interpretar conjuntos de minas de datos.

6.2 OBJETIVOS DE LA BIOINFORMTICA

Uno de los principales objetivos de la bioinformtica es comprender mejor una


clula viva y cmo funciona a nivel molecular. Mediante el anlisis de secuencias
moleculares en bruto y de datos estructurales, la investigacin bioinformtica
puede generar nuevas ideas y proporcionar una perspectiva global de la clula.

La razn de que las funciones de una clula pueden entenderse mejor mediante el
anlisis de datos de las secuencias, es, porque el flujo de informacin gentica
est dictado por el dogma central de la biologa, en la cual el ADN se transcribe a
ARN, y este se traduce en protenas.

Las funciones celulares se llevan a cabo principalmente por protenas cuyas


capacidades estn determinadas por sus secuencias. Por lo tanto, la solucin de

13
problemas funcionales utilizando la secuencia y, a veces los enfoques
estructurales han demostrado ser una tarea fructfera.5

6.3 ANLISIS DE SECUENCIAS DE ADN

El anlisis de la secuencia es el descubrimiento de similitudes funcionales y


estructurales, y las diferencias entre mltiples secuencias biolgicas. Esto puede
hacerse comparando las nuevas (desconocidas) con las bien-estudiadas y
anotadas (conocidas) secuencias.

Los cientficos han encontrado que dos secuencias similares poseen el mismo
papel funcional, va de reglamentacin o bioqumica, y la estructura de la protena.
Si hay dos secuencias similares de diferentes organismos, se dice que son
secuencias homlogas.6

6.3.1 Alineacin de secuencias de ADN. La comparacin de la secuencia se


encuentra en el centro del anlisis de la bioinformtica. Se trata de un importante
primer paso hacia el anlisis estructural y funcional de las
secuencias recientemente determinadas.

Como nuevas secuencias biolgicas se estn generando a un ritmo


exponencial, la comparacin de secuencias est cobrando cada vez ms
importancia para extraer la inferencia funcional y evolutiva de una nueva
protena con las protenas ya existentes en la base de datos.

El proceso ms fundamental en este tipo de comparacin es la alineacin de


secuencias. Este es el proceso por el cual se comparan las secuencias mediante
la bsqueda de patrones de caracteres comunes y el establecimiento de los
residuos de correspondencia entre las secuencias relacionadas. El alineamiento
de pares de secuencias es el proceso de alineacin de dos secuencias, y es la
base de la bsqueda de similitudes en la base de datos y el alineamiento de
secuencias mltiples.7
Un concepto importante en el anlisis de la secuencia es una homologa de
secuencia. Cuando dos secuencias son descendientes de un origen evolutivo
comn, se dice que tienen una relacin homloga u homologa. Un trmino
relacionado, pero diferente es la similitud de secuencias, que es el porcentaje de
residuos alineados que son similares en las propiedades fsico-qumicas tales

5
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 5
6
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.7
7
XION, Op cit., p. 31

14
como el tamao, el costo, y la hidrofobicidad. Es importante distinguir la homologa
de secuencia del trmino relacionado similitud de secuencia, porque los dos
trminos son confundidos a menudo por algunos investigadores que los utilizan
indistintamente en la literatura cientfica. Para ser claros, la homologa de
secuencia es una inferencia o conclusin de una relacin ancestral comn
extrada de la comparacin de similitud de secuencias, cuando las dos secuencias
comparten un alto grado de similitud suficiente.

Por otro lado, la similitud es un resultado directo de la observacin de la alineacin


de secuencia. La similitud de secuencias se puede cuantificar con porcentajes, la
homologa es un estado cualitativo. Por ejemplo, se puede decir que dos
secuencias comparten el 40% de similitud. Es incorrecto decir que las dos
secuencias comparten el 40% de homologa. Las secuencias son homlogas o no
homlogas.

Por lo general, si el nivel de similitud de las secuencias es lo suficientemente alto,


se puede deducir una relacin comn evolutiva. Al tratar con los problemas reales
de investigacin, no siempre est claro qu nivel de similitud se puede inferir de
las relaciones homlogas. La respuesta depende del tipo de secuencias que se
examinen y las longitudes de la secuencia. Las secuencias de
nucletidos consisten en slo cuatro caracteres, y por lo tanto, las secuencias no
relacionadas tienen por lo menos un 25% de posibilidad de ser idnticos. Para las
secuencias de protenas, hay veinte posibles residuos de aminocidos, y por lo
tanto dos secuencias no relacionadas pueden coincidir con el 5% de los residuos
por una oportunidad al azar. Si la diferencia est permitida, el porcentaje podra
aumentar al 10-20%.

La longitud de la secuencia es tambin un factor crucial. Cuanto ms corta sea la


secuencia, mayor es la probabilidad de que cierta aproximacin se puede atribuir a
la casualidad. Cuanto ms larga sea la secuencia, es menos probable que la
coincidencia en el mismo nivel de similitud se deba a la casualidad. 8

6.4 ALGORITMOS GENTICOS

El algoritmo gentico ha sido aplicado con xito para resolver muchos problemas
prcticos en la bioinformtica. Los algoritmos genticos se han utilizado para
resolver problemas de alineacin de secuencias mltiples. Un enfoque bien
conocido es SAGA9, el cual crea una poblacin inicial de alineaciones al azar y
cuasi-evoluciona. Se considera que SAGA supera a la solucin ms comn de los

8
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 32
9
System for Automated Geoscientific Analyses (Sistema Automatizado de Anlisis Geocientfica).

15
problemas relacionados con alineacin mltiple que utilizan un enfoque
progresivo.

Las nuevas tcnicas tienden a combinar el algoritmo gentico con otros mtodos
computacionales, tales como el Mtodo del K-vecino10 ms cercano y la red
neuronal de Keedwell11 y Narayanan12, para resolver los problemas de la
expresin gnica. Se les denomina mtodos hibrido-genticos. Keedwell y
Narayanan utilizan un algoritmo gentico para seleccionar un conjunto de genes
para la clasificacin y el uso de una red neuronal para determinar la idoneidad de
los genes.13

6.5 EXPRESIN GNICA

Con muy pocas excepciones, cada clula del cuerpo contiene un conjunto
completo de cromosomas y genes idnticos, pero solo una fraccin de estos
genes se activan, sin embargo, es el subconjunto que se expresa el que le
confiere propiedades nicas para cada tipo de clula.

La expresin gnica es el trmino utilizado para describir la transcripcin de la


informacin contenida en el ADN, el repositorio de la informacin gentica, en las
molculas de ARNm14 o mensajero que se traducen en las protenas que realizan
la mayor parte de las funciones crticas de las clulas. Los cientficos estudian los
tipos y cantidades de ARNm producido por la clula para saber qu genes se
expresan, y a su vez proporcionan la informacin detallada sobre cmo la clula
responde a sus necesidades cambiantes.

La expresin de genes es un proceso muy complejo y bien regulado que permite a


la clula responder dinmicamente a los estmulos ambientales y a sus propias
necesidades cambiantes. Este mecanismo acta como un interruptor on/off para
controlar que genes se expresan en una clula, as como un control de volumen

10
Disponible en Internet: <http://www.tdr.cesca.es/TESIS_UPC/AVAILABLE/TDX-0725105-
143853//04Caja04de07.pdf>
11
Dr. Ed Keedwell: Recibi una Licenciatura en Ciencia Cognitiva (1998) y es doctorando en Ciencias de la
Computacin (2003), ambos de la Universidad de Exeter.
12
Ajit Narayanan: Profesor y Director de la Escuela de Informtica y Ciencias Matemticas (School of
Computing and Mathematical). Es Licenciado de la Universidad Aston y PhD de la Universidad de Exeter.
13
PHOEBE CHEN, Op. cit., p.140.
14
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.

16
que aumenta o disminuye el nivel de expresin de determinados genes como sea
necesario.15

6.6 ANOTACIN DEL GENOMA

Antes de depositar en una base de datos la secuencia ensamblada, esta tiene que
ser analizada por sus caractersticas biolgicas tiles.

El proceso de anotacin del genoma contiene las observaciones de las


caractersticas. Esto implica dos pasos: la prediccin de genes y la
asignacin funcional. Algunos ejemplos de las anotaciones terminadas de
genes en GenBank16 se han descrito en la seccin de bases de datos biolgicas.

Como un ejemplo del mundo real, la anotacin de genes del genoma


humano cuenta con una combinacin de prediccin terica y
verificacin experimental. La estructura de los genes se predijo por primera
vez por programas de prediccin ab initio17 exn como GENSCAN18 o FgenesH19.
La prediccin se verifica por medio de bsquedas BLAST20 contra una base de
datos de secuencia. Los genes predichos estn adicionalmente comparados con
las secuencias ADNc21 y EST22 experimentalmente determinadas
usando programas de alineamiento por pares, como GeneWise23,
Spidey24, SIM425 y EST2Genome26.Todas las predicciones son revisadas
manualmente por los curadores humanos.
15
NCBI. Microarrays: chipping away at the mysteries of science and medicine [en lnea]. Julio de 2007. Bethesda Estados
Unidos de America. Disponible desde internet en: <http://www.ncbi.nlm.nih.gov/About/primer/microarrays.html>
[citado en julio 16 de 2011].
16
GenBank es la base de datos de secuencias genticas del Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
17
desde el principio.
18
Disponible desde Internet en: <http://genes.mit.edu/GENSCAN.html>
19
Disponible desde Internet en: < http://mendel.cs.rhul.ac.uk/mendel.php?topic=fgen-file>
20
Ver pag. 58
21
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm. Se
genera por accin de la enzima trasncriptasa inversa y tiene mltiples usos tanto en investigacin bsica como
aplicada a biomedicina.
22
Una secuencia tag expresada o EST es una pequea porcin de un gen entero que puede ser usada para
ayudar a identificar genes desconocidos y para mapear sus posiciones dentro de un genoma.
23
Disponible desde Internet en: < http://www.ebi.ac.uk/Tools/Wise2/>
24
Disponible desde Internet en: <http://www.ncbi.nlm.nih.gov/spidey/>
25
Disponible desde Internet en: < http://pbil.univ-
lyon1.fr/members/duret/cours/inserm210604/exercise4/sim4.html>
26
Disponible desde Internet en: < http://imed.med.ucm.es/cgi-
bin/emboss.pl?_action=input&_app=est2genome>

17
Una vez abiertos los marcos de lectura son determinados, la
asignacin funcional de las protenas codificadas se lleva a cabo mediante la
bsqueda de homologa utilizando bsquedas BLAST contra una base de datos de
protenas. Adems, se aaden descripciones funcionales mediante la
bsqueda de motivos de protenas y dominios de bases de datos,
como Pfam27 y InterPro28, as como tambin apoyndose en la literatura
publicada.29

27
Disponible desde Internet en: < http://pfam.sanger.ac.uk/>
28
Disponible desde Internet en: <http://www.ebi.ac.uk/interpro/>
29
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 250

18
7. CAPITULO 2. ESTADO DEL ARTE

7.1 ESTADO DEL ARTE DE LA BIOINFORMTICA

7.1.1 Resea histrica de la Bioinformtica. El inicio de la biologa molecular, la


bioqumica y la gentica, ciencias vinculadas a la informtica, tuvo lugar
aproximadamente hace 50 aos, cuando en 1953 Watson y Crick los padres del
ADN30 propusieron el modelo de la doble hlice para explicar su estructura.
Watson y Crick no percibieron la gran cantidad de volumen de informacin que se
generara y que crecera en forma exponencial a partir de ese momento.
En forma contraria a lo que podra suponerse, las herramientas computacionales
comenzaron a aplicarse en la biologa molecular mucho antes del comienzo de la
era de la Internet o de los proyectos de secuenciacin del genoma 31 y con la
constante produccin de informacin biolgica, la cual creca a un ritmo lento
comparado con el actual volumen de generacin de datos, se cre la necesidad de
recopilar y organizar toda la informacin generada a partir de dichos proyectos de
secuenciacin.
En 1965, Margaret Dayhoff cre la primera base de datos de secuencias
biolgicas, en la cual almacen y puso a disposicin de la comunidad cientfica
todas las secuencias de ADN y protenas descritas hasta la fecha. Ocho aos ms
tarde, en 1973, se anunci y cre la base de datos ms antigua que se conoce y la
cual sigue vigente, el Protein Data Bank32.
Hoy, 27 aos despus de su lanzamiento, adems de servir como base de datos
de estructuras de protenas, tambin lo hace como reservorio de estructuras de
toda clase de macromolculas conocidas: ADN, ARN y grandes complejos
proteicos asociados con todo tipo de biomolculas.
Durante 1978, de nuevo Margaret Dayhoff fue la encargada de generar la primera
matriz de substitucin de aminocidos, denominada PAM33. Tal avance en la
interpretacin de patrones de secuencia, obtenidos a partir de informacin
biolgica, abri el camino a los estudios sobre evolucin molecular que

30
La Jornada. 20 de octubre de 2007. Watson y Crick, los padres del AND [en lnea]. Mxico, D.F. Disponible
desde Internet en:
<http://www.jornada.unam.mx/2007/10/20/index.php?section=ciencias&article=a03n1cie> [citado en 7 de
octubre de 2010].
31
Colombia Mdica [en lnea]. Universidad del Valle: Cali, 2008 [citado en 7 de octubre de 2010]. Vol. 39,
No. 001. (enero-marzo 2008). Disponible desde Internet en:
<http://redalyc.uaemex.mx/redalyc/pdf/283/28339115.pdf > ISSN 1657-9534.
32
PDB: Banco de Datos de Proteinas.
33
Point Accepted Mutation (Mutacin Puntual Aceptada).

19
actualmente aportan una visin ms aproximada a las verdaderas relaciones
filogenticas entre especies.
En la dcada de los aos 80, la bioinformtica ya tena nombre en el mbito de la
investigacin cientfica, y teniendo conocimiento de ello, varios grupos de
investigacin de prestigio, dieron origen a la base de datos ms conocida en el
mundo, el GenBank34. Dicho proyecto fue financiado por los National Institutes of
Health de los Estados Unidos y otras instituciones gubernamentales, como el
United States Departament of Energy y el United States Department of Defense.
Pocos aos despus de la creacin del GenBank, se gener su versin europea y
asitica, conocidas como la base de datos EMBL35 y DDBJ36 en 1981 y 1984,
respectivamente. En 1985 se report el algoritmo FASTA o FAST-All de
comparacin de secuencias, el cual directamente operaba como motor de
bsqueda de secuencias similares dentro de la base de datos GenBank.
Durante los aos 1987 a 1990, se dio impulso a las bases de datos para
secuencias de protenas que dio como resultado la creacin de SwissProt37 y
PIR38. En 1990, se origin otro de los hitos ms importantes de la bioinformtica.
La implementacin del algoritmo BLAST39 revolucion completamente la
exploracin y bsqueda de secuencias biolgicas en bases de datos
En 1993 se inici la era genmica con la ejecucin del proyecto de secuenciacin
de genoma humano. Siendo ste un proyecto tan ambicioso, se logro secuenciar
los primeros genomas no virales. En el ao 2003, se finaliz la secuencia definitiva
del genoma humano, este hecho se logr gracias a la proyeccin y explotacin del
potencial de la industria con base biotecnolgica.40

7.1.2 Alcance de la Bioinformtica. La Bioinformtica se compone de dos


subcampos: el desarrollo de herramientas informticas y bases de datos, y la
aplicacin de estas en la generacin de conocimientos biolgicos para
comprender mejor los sistemas vivos. Estos dos subcampos son complementarios
entre s.

34
GenBank es la base de datos de secuencias genticas del Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
35
European Molecular Biology Laborator (Laboratorio Europeo de Biologa Molecular).
36
DNA Data Bank of Japan (Banco de Datos de ADN de Japn).
37
Base de datos biolgica de secuencia de protenas.
38
Protein Information Resource (Recursos de Informacin de Proteina).
39
Basic Local Alignment Search Tool (Alineacin de base local de herramientas de bsqueda).
40
Biomdica [online]. Grupo de Anlisis Bioinformtico GABi, Centro de Investigacin y Desarrollo en
Biotecnologa CIDBIO: Bogot, 2010 - [citado en 6 de octubre de 2010]. Vol 30, No.2. (abril-junio 2010).
Disponible desde Internet en: <http://www.scielo.unal.edu.co/scielo.php?script=sci_arttext&pid=S0120
41572010000200004&lng=en&nrm=iso > ISSN 0120-4157.

20
El desarrollo de herramientas incluye el software de grabacin de la secuencia, el
anlisis estructural y funcional, as como la construccin y la conservacin de
bases de datos biolgicas. Estas herramientas se utilizan en varias reas de
investigacin genmica y biologa molecular como el anlisis de la secuencia
molecular.

El anlisis de los datos biolgicos a menudo genera nuevos problemas y desafos


que a su vez estimulan el desarrollo de nuevas y mejores herramientas
computacionales. Las reas de anlisis de secuencias incluyen la alineacin de
secuencias, la bsqueda en la base de datos de secuencia, el descubrimiento de
patrones, la reconstruccin de las relaciones evolutivas, y la formacin y la
comparacin del genoma.

7.1.3 Cmo se puede aplicar la Bioinformtica? La Bioinformtica no slo se


ha convertido en una ciencia esencial para la genmica bsica y la investigacin
en biologa molecular, tambin est teniendo un gran impacto en muchas reas de
la biotecnologa y las ciencias biomdicas. Tiene aplicaciones, que estn basadas
por ejemplo, en los conocimientos de diseo de frmacos, anlisis forense de
ADN y Biotecnologa agrcola.

Un enfoque basado en la informtica reduce significativamente el tiempo y el costo


necesario para desarrollar medicamentos con mayor potencia y con menos
efectos secundarios, y una menor toxicidad que el uso del tradicional ensayo y
error.

En medicina forense, los resultados de los anlisis filogenticos moleculares han


sido aceptados como pruebas en los tribunales penales. Alguna estadstica
bayesiana sofisticada y basada en la verosimilitud de los mtodos de anlisis
de ADN se han aplicado en el anlisis forense de la identidad.

Vale la pena mencionar que la genmica y la bioinformtica estn a punto de


revolucionar los sistemas de salud mediante el desarrollo de la medicina
personalizada. La secuencia genmica de alta velocidad junto con la tecnologa
informtica sofisticada le permitir a un mdico en una clnica secuenciar el ADN
de un paciente de forma rpida, y detectar as posibles mutaciones dainas
convirtindose el genoma en protagonista para participar en el diagnstico precoz
y el tratamiento eficaz de las enfermedades.

Las herramientas de la bioinformtica se estn utilizando en la agricultura tambin,


las bases de datos del genoma de plantas y el anlisis de expresin gnica de
este perfil han desempeado un papel importante en el desarrollo de nuevas

21
variedades de cultivos que tienen una mayor productividad y ms resistencia a las
enfermedades.41

El campo de la bioinformtica desempea un papel cada vez ms creciente en el


estudio de problemas biolgicos fundamentales, debido al crecimiento exponencial
de la secuencia y a la informacin estructural.

A modo de ejemplo, la cantidad de entradas de una base de datos de secuencias


genticas en GenBank42 ha pasado de 1.765.847 a 22.318.883 en los ltimos
cinco aos. Estas entradas tienden a duplicarse cada 15 meses43.

En abril de 2011, se calcularon aproximadamente 126.551.501.141 bases en


135.440.924 registros de secuencias en las divisiones tradicionales de GenBank44.

Figura 1. Crecimiento de los datos en GenBank

Fuente http://www.ncbi.nih.gov/Genbank/genbankstats.html

41
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 7
42
GenBank es la base de datos de secuencias genticas del Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
43
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.2
44
NCBI. 3 de mayo de 2011. What is GenBank? [en lnea]. Bethesda, Estados Unidos de Amrica. Disponible
desde Internet en: <http://www.ncbi.nlm.nih.gov/genbank/> [citado en 10 de julio de 2011].

22
Hay dos reas principales de desafo en la bioinformtica: (1) de gestin de datos
y (2) descubrimiento de conocimientos.

Con el surgimiento de tecnologas de alto rendimiento, tales como la


secuenciacin completa del genoma y los microarrays de ADN, se generan
grandes volmenes de datos. La gestin eficiente de los datos biolgicos es
deseable.

Un desafo para la gestin de datos implica la gestin y la integracin de las bases


de datos biolgicas existentes. Existen varios tipos de bases de datos disponibles
para los investigadores en el campo de la biologa. Los ms utilizados son:

a. Bases de datos primarios de cido nucleico


GenBank (NCBI),
La base de datos de secuencias de nucletidos (EMBL), y
Datos de ADN del Banco de Japn (DDBJ)

b. Bases de datos de secuencias de protenas


SWISS-PROT, y
TrEMBL

c. Bases de datos estructurales


Protein Data Bank (PDB), y
Base de Datos Estructura de Macromolculas (MSD)

d. Bases de datos de la literatura


Medline

Sin embargo, en algunas situaciones, una sola base de datos no puede dar
respuestas a los complejos problemas de los bilogos. La integracin o la
recopilacin de informacin de varias bases de datos para resolver problemas y
descubrir nuevos conocimientos son otros retos importantes en bioinformtica45.
La transformacin de datos biolgicos voluminosos en informacin til y en
conocimiento valioso es un reto a la hora de descubrir conocimientos. La
identificacin e interpretacin de patrones interesantes que estn escondidos en
miles de millones de datos biolgicos genticos es una meta clave de la

45
KUONEN, 2003; NG y WONG, 2004; WONG, 2000; y WONG, 2002.

23
bioinformtica. Este objetivo abarca la identificacin de las estructuras de genes
tiles en secuencias biolgicas, la derivacin de los conocimientos de diagnstico
a partir de datos experimentales, y la extraccin cientfica de la informacin de la
literatura46.

7.1.4 Nuevos Temas en la Bioinformtica. A pesar de las dificultades, no hay


duda de que la bioinformtica es un campo que tiene un gran potencial para
revolucionar la investigacin biolgica en las prximas dcadas.

En la actualidad, el campo est en una importante fase de expansin . Adems de


proporcionar herramientas de clculo ms fiables y ms rigurosas para la
secuencia, estructura, y el anlisis funcional, el mayor desafo para el futuro
desarrollo de la bioinformtica es el desarrollo de herramientas para el
esclarecimiento de las funciones e interacciones de todos los productos de los
genes en una clula. Esto presenta un desafo enorme, ya que requiere la
integracin de los diferentes campos de conocimiento biolgico y una variedad de
complejas herramientas matemticas y estadsticas.

Para tener una mejor comprensin de las funciones celulares, son necesarios los
modelos matemticos para simular una amplia variedad de reacciones
intracelulares y las interacciones a nivel de clulas enteras. Esta simulacin
molecular de todos los procesos celulares se denomina biologa de
sistemas. Alcanzar esta meta representa un gran paso hacia la comprensin plena
de un sistema vivo.

Es por eso que la simulacin a nivel de sistema y la integracin son consideradas


el futuro de la bioinformtica. Este tipo de modelos de redes complejas y hacer
predicciones sobre su conducta presenta grandes retos y oportunidades para los
bioinformticos. El objetivo ltimo de esta iniciativa es transformar la biologa de
una ciencia cualitativa a una ciencia cuantitativa y de prediccin. Este es un
momento verdaderamente emocionante para la bioinformtica.47

7.1.5 Bioinformtica en Colombia. Lejos de los avances que han contribuido


enormemente a la progresin de la bioinformtica a nivel global, Colombia debe
posicionarse objetivamente como una sociedad de muy baja produccin de
conocimiento bioinformtico.

Dejando de lado las dificultades econmicas que impiden tener un mayor progreso
cientfico-tecnolgico a cualquier nivel, el pobre desarrollo de la bioinformtica en
Colombia tiene factores adicionales de fondo. Dichos factores radican

46
HAN y KAMBER, 2001; JAGOTA, 2000; NARAYANAN, et al., 2002; y NG Y WONG, 2004.
47
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 8

24
esencialmente en el dficit acadmico en cuanto a la enseanza de la
bioinformtica.

Teniendo en cuenta que la academia es el principal gestor de la investigacin


cientfica, tanto en el contexto de la educacin pblica como de la privada, la
carencia de adecuados programas de formacin produce un crecimiento nulo y,
por ende, una pobre oferta de investigadores en este campo.

Aunque la bioinformtica como tal se presenta como una ciencia multidisciplinaria,


en la cual es necesario poseer una adecuada formacin en diversas reas de las
ciencias naturales y ciencias exactas, ya se han logrado establecer programas
acadmicos competitivos en Europa y Estados Unidos, y algunos en
Latinoamrica. La mayora de los programas de formacin de investigadores se
basan en ttulos propios de maestra y doctorado, los cuales van en aumento a
medida que se revisan los programas acadmicos superiores.

En Colombia, en la actualidad no se ha desarrollado ningn programa slido para


la formacin integral de bioinformticos competentes. No obstante, algunos
programas de maestra y doctorado de instituciones como la Universidad Nacional
de Colombia y la Universidad de los Andes, han incorporado mdulos semestrales
de bioinformtica que, a su vez, estn lejos de tener el poder educativo requerido
para generar verdaderos profesionales en este campo. A cambio, dichas ctedras
slo funcionan como herramienta difusora, ms no orientadora, de la existencia de
la bioinformtica como tema de investigacin.

7.1.5.1 Situacin actual de la investigacin en Bioinformtica en Colombia.


Haciendo una bsqueda por los grupos y centros de investigacin que realizan
estudios de componente bioinformtico, se encontr que son pocos los grupos
dedicados a ello y an menos los que han podido proyectar su trabajo a nivel
internacional con publicaciones de mediano impacto.

Entre estos ltimos, se debe mencionar a GEPAMOL48 de la Universidad del


Quindo, el Centro de Bioinformtica del Instituto de Biotecnologa de la
Universidad Nacional de Colombia, el Grupo de Investigacin en Bioqumica
Computacional de la Pontificia Universidad Javeriana y GABi49 del Centro de
Investigacin y Desarrollo en Biotecnologa.

Esta muestra, aunque pequea, no deja de ser vital y demuestra el potencial


investigador en el campo de la bioinformtica de los grupos colombianos. Ella
debe ser, ante todo, un punto de partida concreto para el apoyo de la investigacin

48
Grupo de Parasitologa Molecular. Disponible desde internet en: <
http://201.234.78.173:8080/gruplac/jsp/visualiza/visualizagr.jsp?nro=00000000000255>
49
Grupo de Anlisis Bioinformtico. Disponible desde Internet en: <http://gabi.cidbio.org/group.html>

25
en bioinformtica que se genere a partir de las nuevas polticas para desarrollo
biotecnolgico en el pas.

Adems de la latente produccin cientfica de nuestros grupos de investigacin,


cabe destacar la accin de impacto mundial que desarrollan desde hace varios
aos CENICAFE50 y su proyecto Genoma del Caf, el cual tiene como objeto
principal un extenso anlisis de genmica funcional y estructural del caf
colombiano.

Finalmente, hay que mencionar y destacar la misin de algunos grupos de


investigacin que constantemente promueven y difunden el conocimiento en
bioinformtica. Desde comienzos de la actual dcada, han organizado diversos
seminarios, simposios y cursos de entrenamiento en herramientas bioinformticas.
Dichos entrenamientos estn dirigidos a complementar la formacin cientfica de
los investigadores colombianos, as como a proyectar sus estudios a un nuevo
campo de actuacin donde se contemple el anlisis computacional como piedra
angular de las investigaciones contemporneas. Algunos de los grupos
promotores de entrenamientos son el grupo BIMAC de la Universidad del Cauca,
el Centro de Bioinformtica del Instituto de Biotecnologa de la Universidad
Nacional de Colombia y el GABi. Estos dos ltimos, miembros partcipes activos
de las reuniones programadas en el marco de la Red Iberoamericana de
Bioinformtica red que en el 2005 tuvo como lugar de encuentro la ciudad de
Cartagena de Indias y que rene anualmente a grupos de investigacin
bioinformtica de habla hispana.

En una perspectiva general se puede concluir que, aunque pobre en


infraestructura, ms no en calidad, existe una verdadera actividad de investigacin
en el campo de la bioinformtica en Colombia. Lamentablemente, dada la actual
coyuntura econmica del pas, esta rama de la ciencia corre serio peligro de ser
uno ms de los muchos campos de actuacin cientfica que queda a la deriva por
falta de apoyo financiero en nuestro pas.

Sin embargo, es de esperar que la nueva ley de ciencia, tecnologa e innovacin,


aprobada por el Congreso de la Repblica de Colombia a finales de 2008, mejore
el desarrollo cientfico y tecnolgico del pas, y proporcione un mayor apoyo a la
biotecnologa, y que con esta ltima pueda destinar recursos que promuevan
definitivamente la investigacin bioinformtica en Colombia.51

50
Disponible desde internet en: < http://bioinformatics.cenicafe.org >
51
Biomdica [online]. Grupo de Anlisis Bioinformtico GABi, Centro de Investigacin y Desarrollo en
Biotecnologa CIDBIO: Bogot, 2010. Vol 30, No.2. (abril-junio 2010). ISSN 0120-4157.

26
7.2 GENERALIDADES DEL ALINEAMIENTO DE SECUENCIAS

7.2.1 Base evolutiva del Alineamiento de secuencias. El ADN y las


protenas son los productos de la evolucin. Los bloques de construccin de
estas macromolculas biolgicas, las bases de nucletidos y aminocidos
forman secuencias lineales que determinan la estructura primaria de las
molculas. Estas molculas pueden considerarse fsiles moleculares que
codifican la historia de millones de aos de evolucin. Durante este perodo de
tiempo, las secuencias moleculares sufren cambios al azar, algunos de los
cuales son seleccionados durante el proceso de la evolucin.

Como las secuencias seleccionadas gradualmente acumulan mutaciones y


divergen en el tiempo, las huellas de la evolucin todava pueden permanecer
en ciertas porciones de las secuencias que permiten la identificacin de
la ascendencia comn. La presencia de rastros evolutivos se debe a que algunos
de los residuos que llevan a cabo funciones claves y estructurales tienden a ser
preservadas por la seleccin natural, mientras que otros residuos que pueden ser
menos cruciales para la estructura y funcin tienden a mutar con ms
frecuencia. Por ejemplo, los residuos del sitio activo de una familia de
enzimas tienden a ser conservados, ya que son los responsables de las funciones
catalticas. Por lo tanto, mediante la comparacin de secuencias a travs de la
alineacin, los patrones de la conservacin y la variacin pueden ser identificados.

El grado de conservacin de la secuencia en la alineacin revela las relaciones


evolutivas de las diferentes secuencias, mientras que la variacin entre las
secuencias refleja los cambios que se han producido durante la evolucin en la
forma de sustituciones, inserciones y eliminaciones.

Identificar las relaciones evolutivas entre las secuencias ayuda a caracterizar la


funcin de las secuencias desconocidas. Cuando un alineamiento de secuencias
revela una importante similitud entre un grupo de secuencias, estas pueden ser
consideradas como pertenecientes a la misma familia. Si uno de los
miembros dentro de la familia tiene una estructura y funcin conocida, a
continuacin, esa informacin puede ser transferida a los que todava no se han
caracterizado experimentalmente. Por lo tanto, el alineamiento de secuencias se
puede usar como base para la prediccin de la estructura y la funcin de las
secuencias sin caracterizar.

La alineacin de secuencias proporciona la inferencia de la relacin de dos


secuencias que se estudian. Si las dos secuencias comparten una importante
similitud, es muy poco probable que la gran similitud entre estas dos se haya
adquirido al azar, lo que significa que las dos secuencias se han derivado de un
origen evolutivo comn.

27
Cuando un alineamiento de secuencias se genera correctamente, refleja
las relaciones evolutivas de las dos secuencias: las regiones que estn alineadas
pero no son idnticas representan sustituciones de residuos; las regiones en las
que los residuos de una secuencia corresponden a nada en la otra, representan
inserciones o eliminaciones que han tenido lugar en una de las secuencias
durante la evolucin.

Tambin es posible que dos secuencias se hayan derivado de un ancestro comn,


pero puede haber divergido hasta tal punto que las
relaciones ancestrales comunes no sean reconocibles en la secuencia. En ese
caso, las relaciones evolutivas distantes tienen que ser detectadas por otros
mtodos.52

7.2.2 Montaje y Alineacin de secuencias Biolgicas. Las tecnologas


informticas han jugado un papel cada vez ms importante en la biologa desde el
lanzamiento del Proyecto Genoma Humano53. La computacin paralela, que acta
como un medio eficaz para acelerar la informtica biolgica ha sido utilizada en
muchas aplicaciones biolgicas.

El montaje y el alineamiento de secuencias son las partes ms intensivas de la


computacin biolgica, adems se han beneficiado enormemente de la
computacin paralela, y tambin beneficiar a ms de una nueva investigacin
sobre este tema.

El montaje de secuencia54, tambin llamado conjunto de fragmentos, se utiliza


para recuperar los fragmentos y construir las secuencias originales; este es un
paso muy importante en la secuenciacin del ADN. Ya que debido a la gran
cantidad de datos biolgicos, tomar mucho tiempo reunir los fragmentos de un
genoma de tamao mediano, como el arroz, por ejemplo.

El montaje de secuencia paralela de Euler, este enfoque almacena todos los datos
genmicos en forma de tablas hash distribuidas a fin de reunir estos datos en su
conjunto. Esto elimina los errores incurridos particionando los fragmentos
en grupos y ensamblndolos en grupos, como en otros enfoques.

Adems, este sistema puede funcionar en las redes de estaciones de trabajo o en


supercomputadoras. Es especialmente adecuado para aquellos que no tienen

52
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 31
53
DAHL, Carol A. y STRAUSBERG, Robert L. Revolutionizing Biology Through Leveraging Technology. En:
Engineering in Medicine and Biology Magazine, IEEE. vol. 15, Issue: 4. Julio Agosto, 1996. p. 106-110. ISSN
0739-5175.
54
MYERS, E.M. Toward Simplifying and Accurately Formulating Fragment Assembly. En: Journal of
Computational Biology. vol. 2, Issue: 2. p. 275-290.

28
acceso a las supercomputadoras, sino a los recursos informticos tales como
estaciones de trabajo y PCs que estn conectados mediante una red local. Este es
el primer esfuerzo de poner en paralelo el algoritmo de montaje de secuencia de
Euler para ensamblar un genoma a gran escala. 55

7.2.2.1 Montaje de secuencia a gran escala

Investigaciones relacionadas. El montaje de secuencia se utiliza para


recuperar los fragmentos que se dividen a partir de secuencias de ADN y
ensamblarlos en la secuencia original. En la actualidad, el mtodo
ms ampliamente utilizado para romper las secuencias de ADN es WGS56, que es
menos costoso y ms rpido que otros mtodos57. El WGS fragmenta el
genoma en muchos pedazos de diferentes tamaos, esta fragmentacin se puede
hacer de varias maneras, tales como agitando el ADN fsicamente y se corta con
enzimas de restriccin. 58

Ensamble de secuencia de Euler. El ensamble de secuencia


de Euler fue propuesto por Pavel A. Pevzner59. La principal contribucin del
ensamble de secuencia de Euler es que transforma el problema del ensamble de
la secuencia biolgica en un problema de ruta de Euler, el cual tiene una
solucin polinmica, que es una solucin al notorio problema de repeticin.

En el enfoque del ensamble de secuencia de Euler, las tuplas son las unidades
mnimas para ser ensambladas, en lugar de las lecturas como en otros
enfoques. Las tuplas se generan a partir de lecturas, y a su vez son todas las
subcadenas que se leen con la misma longitud, que normalmente es 20.

Todas las tuplas generadas forman un grfico de bruijn. Los vrtices de la grfica
son las tuplas como tal. Suponiendo que la longitud de una tupla es l, si los ltimos
cidos nucleicos de una tupla l-1 son los mismos que la primera tupla l-1 de
cidos nucletidos de otra tupla, habr un extremo dirigido en el grfico que
conecta estos dos tuplas adyacentes.

55
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.244
56
Whole Genome Shotgun (Disparo sobre la totalidad del genoma).
57
WEBER, James y MYERS, Eugene. Whole Genome Shotgun Sequencing. En: Genome
Research. vol. 7. 1997. p. 401-409. ISSN 1054-9803/97.
58
PHOEBE CHEN, Op. cit., p. 245
59
PEVZNER, Pavel; TANG, Haixu y WATERMAN, Michael. An Eulerian Path Approach to DNA Fragment
Assembly. En: Proceedings of National Academy of Sciences of the United States of America. vol. 98,
Issue:17. Agosto 14 de 2001. p. 9748-9753.

29
El enfoque del montaje de Euler es encontrar todos los caminos de Euler en el
grfico. El ncleo del enfoque de Euler es la regla del anlisis de consistencia,
que resuelve los problemas de seleccin de ruta para las sucursales en la
bsqueda de caminos de Euler en una grfica.60

Algoritmo de montaje de secuencia PESA61. El montaje de secuencias


biolgicas a menudo cuesta mucho en tiempo de cmputo, incluso para los
genomas pequeos o medianos, debido a la gran magnitud de
cmputo iterativo, pero la mayora de los ensambladores actuales son programas
secuenciales.

Los datos biolgicos tienen que ser particionados antes de aplicar estos
programas para ensamblar el genoma. La particin se lleva a cabo de acuerdo a
las similitudes. Este proceso no es exacto, as que los errores podran ser
introducidos en dicha particin). Estos errores no pueden ser corregidos por los
ensambladores, por lo tanto, el ensamblador secuencial no puede cumplir con los
requisitos exigidos por el montaje de secuencia. La investigacin sobre el
ensamblador de secuencia paralela esta slo en sus comienzos.

El algoritmo PESA propone una paralelizacin eficaz del enfoque de ensamble de


secuencia de Euler ya que incluye la distribucin de datos y distribucin de la
computacin. Las tuplas se generan a partir de todas las lecturas y se almacenan
en una tabla hash distribuida. Una tabla hash distribuida aprovecha al mximo
la memoria de los recursos de una plataforma de computacin paralela. Con ms
nodos de computacin o ms memoria que se agregue a la plataforma
informtica, la tabla hash en consecuencia pueden llegar a ser grandes y dar
cabida a ms datos sobre el genoma. Esta tabla se distribuye uniformemente
sobre mltiples nodos de computacin, y cada nodo es responsable de su propia
parte de la tabla hash. No slo la tabla de hash contiene todos los datos los cuales
eliminarn el cuello de botella para almacenar una gran cantidad de datos del
genoma.62

60
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p. 249
61
Parallel Euler Sequence Assembly (Montaje de Secuencias Paralelas de Euler).
62
PHOEBE CHEN, Op. cit., p. 249

30
7.3 TECNOLOGAS COMPUTACIONALES APLICADAS A LA
BIOINFORMATICA

7.3.1 Bases de Datos. Una base de datos es un archivo informtico utilizado para
almacenar y organizar los datos de tal manera que esa informacin pueda ser
recuperada fcilmente a travs de una variedad de criterios de bsqueda. Las
bases de datos se componen de software y hardware para la gestin de datos.

El objetivo principal del desarrollo de una base de datos es organizar los


datos en un conjunto estructurado de registros que permitan la fcil recuperacin
de la informacin. Cada registro, tambin llamado una entrada, debe contener un
nmero de campos que contienen los elementos de datos reales, por ejemplo, los
campos para los nombres, nmeros de telfono, direcciones, fechas. Para
recuperar un registro concreto de la base de datos, un usuario puede
especificar una determinada pieza de informacin, llamada valor, que se
encuentra en un campo determinado y se espera que el computador recupere el
registro de datos completo. Este proceso se llama hacer una consulta.

A pesar de que la recuperacin de datos es el objetivo principal de todas las bases


de datos, las bases de datos biolgicas a menudo tienen un nivel de exigencia,
conocido como el descubrimiento del conocimiento, lo que se refiere a la
identificacin de las conexiones entre piezas de informacin que no se conocan
cuando la informacin se introdujo en primer lugar. Por ejemplo, las bases de
datos con informacin de la secuencia en bruto pueden
realizar tareas adicionales de computacin para identificar homologa de
secuencia o motivos conservados63. Estas caractersticas facilitan
el descubrimiento de nuevos conocimientos biolgicos a partir de los datos en
bruto.64

7.3.1.1 Bases de Datos Biolgicas. Las actuales bases de datos biolgicas usan
tres tipos de estructuras de base de datos: ficheros planos, relacionales
y orientados a objetos. A pesar de las obvias desventajas de la utilizacin
de archivos planos en gestin de base de datos, muchas bases de datos
biolgicas todava utilizan este formato. La justificacin de esto es que este
sistema implica una cantidad mnima de diseo de base de datos y los resultados
de la bsqueda pueden ser fcilmente entendidos por los bilogos que consultan
dicha tecnologa.

63
Un motivo es un elemento conservado en la secuencia de aminocidos, que habitualmente se asocia con
una funcin concreta. Los motivos se generan a partir de alineamientos mltiples de regiones con elementos
funcionales o estructurales conocidos, por lo que son tiles para predecir la existencia de esos mismos
elementos en otras protenas de funcin y estructura desconocida.
64
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 10

31
Con base en su contenido, las bases de datos biolgicas se pueden dividir en tres
categoras: bases de datos primarias, bases de datos secundarias, y bases de
datos especializadas.

Las bases de datos primarias contienen datos biolgicos originales. Son archivos
de secuencia en bruto o datos estructurales presentados por la comunidad
cientfica. GenBank65 y Protein Data Bank66 son ejemplos de bases de datos
primarias. Las bases de datos secundarias contienen informacin procesada
computacionalmente o manualmente curada67, con base en la informacin original
a partir de bases de datos primarias. Las bases de datos de secuencias de
protenas traducidas contiene la anotacin funcional perteneciente a esta
categora. Ejemplos de esto son Swiss-Prot68 y PIR69. Las bases de datos
especializadas son aquellas que atienden a un inters de investigacin en
particular. Por ejemplo, Flybase, la base de datos de secuencias del
VIH, y Ribosomal Database Project son las bases de datos que se especializan en
un determinado organismo o un determinado tipo de datos.

Una lista de algunas bases de datos de uso frecuente se presenta en la Tabla 1.70

65
GenBank es la base de datos de secuencias genticas de los Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
66
PDB: Banco de Datos de Proteinas.
67
Bases de Datos Curadas: los datos estn confirmados biolgicamente.
68
Base de datos biolgica de secuencia de protenas.
69
Protein Information Resource (Recursos de Informacin de Proteina).
70
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 14

32
Tabla 1. Principales Bases de Datos Biolgicas disponibles a travs de la World
Wide Web
Principales bases de datos biolgicas disponibles a travs de la World Wide Web
Bases de Datos y
Sistemas de Breve resumen del contenido URL
Recuperacin
AceDB Base de datos del genoma del www.acedb.org
Caenorhabditis elegans
DDBJ Principal base de datos de www.ddbj.nig.ac.jp
secuencias de nucletidos en
Japn
EMBL Principal base de datos de www.ebi.ac.uk/embl/index.html
secuencias de nucletidos en
Europa
Entrez Portal de la NCBI para una www.ncbi.nlm.nih.gov/gquery/gquery.
variedad de bases de datos fcgi
biolgicas
ExPASY Base de datos de la protemica http://us.expasy.org/
FlyBase Base de datos del genoma de http://flybase.bio.indiana.edu/
Drosophila
FSSP Estructuras secundarias de www.bioinfo.biocenter.helsinki.fi:8080
protenas /dali/index.html
GenBank Principal base de datos de www.ncbi.nlm.nih.gov/Genbank
secuencias de nucletidos en la
NCBI
HIV databases Datos de la secuencia del VIH y la www.hiv.lanl.gov/content/index
informacin inmunolgica relaciona
da
Microarrays gene Microarrays de datos de ADN y www.ebi.ac.uk/microarray
expression database herramientas de anlisis
OMIM Informacin gentica de www.ncbi.nlm.nih.gov/entrez/query.fc
enfermedades humanas gi?db=OMIM
PIR Secuencias de protenas anotadas http://pir.georgetown.edu/pirwww/pirh
ome3.shtml
PubMed Informacin de literatura biomdica www.ncbi.nlm.nih.gov/PubMed
Ribosomal database Secuencias de ARN ribosomal y http://rdp.cme.msu.edu/html
Project rboles filogenticos derivados de
las secuencias
SRS Sistemas generales de http://srs6.ebi.ac.uk
recuperacin de secuencia
SWISS-Prot Bases de datos de secuencias de www.ebi.ac.uk/swissprot/access.html
71
protenas curadas
TAIR Bases de datos de informacin del www.arabidopsis.org
Arabidopsis

Fuente XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica:


Cambridge University Press, 2006. p. 15

71
Datos curados: datos biolgicamente confirmados.

33
Bases de Datos Primarias72. Hay tres principales bases de datos pblicas
de secuencias que almacenan los datos en bruto de las secuencias del
cido nucleico producido y presentado por los investigadores de todo el mundo: la
base de datos de secuencias genticas de los Institutos Nacionales de Salud
GenBank, el Laboratorio Europeo de Biologa Molecular (EMBL) y la base de
datos de ADN del Banco de datos de Japn (DDBJ), que estn disponibles
gratuitamente en Internet.

La mayor parte de los datos en las bases de datos son aportados directamente por
los autores con un nivel mnimo de anotacin. Un pequeo nmero de secuencias,
especialmente las publicadas en la dcada de 1980, se introdujeron
manualmente de la literatura publicada por el personal de gestin de base de
datos.

En la actualidad, el ingreso de una secuencia a cualquiera de las estas bases de


datos: GenBank, EMBL, o DDBJ, es una condicin previa para su publicacin en
la mayora de las revistas cientficas, para de esta manera asegurar que los
datos moleculares fundamentales sean puestos a libre disposicin. Estas
tres bases de datos pblicas se colaboran estrechamente y hacen intercambio de
datos diariamente.

GenBank, EMBL, o DDBJ en conjunto constituyen la base de datos


de colaboracin internacional de secuencias de nucletidos. Esto significa
que mediante la conexin a cualquiera de las tres bases de datos, se debe tener
acceso a los mismos datos de una secuencia de nucletidos.

A pesar de que las tres bases de datos contienen los mismos conjuntos de datos
en bruto, cada una de las bases de datos individuales tiene un tipo de formato
ligeramente diferente para representar los datos. Afortunadamente, para
la estructura tridimensional de macromolculas biolgicas, slo hay una base de
datos centralizada, el PDB73. Esta base de datos archiva las coordenadas
atmicas de las macromolculas (protenas y cidos nucleicos) determinadas por
cristalografa de rayos X74 y NMR.

PDB utiliza un formato de archivo plano para representar el nombre de la protena,


los autores, los datos experimentales, la estructura secundaria, cofactores, y las
coordenadas atmicas. La interfaz web de PDB tambin proporciona
herramientas de visualizacin para la manipulacin de imgenes simples.

72
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 14
73
PDB: Banco de Datos de Protenas.
74
Cristalografa de rayos X: es esencialmente una forma de microscopa de alta resolucin. Permite visualizar
estructuras de protenas a nivel atmico y mejorar la comprensin de la funcin de la protena.

34
GenBank75. GenBank es la coleccin ms completa de datos anotados de
secuencias de cidos nuclicos para casi todos los organismos. El contenido
incluye ADN genmico, ARNm76, ADNc77, EST78, datos crudos de la secuencia
de alto rendimiento de procesamiento, y polimorfismos de la secuencia.

Tambin hay una base de datos de secuencias de protenas GenPept79, la


mayora de las cuales son translaciones conceptuales de la secuencia de
ADN, aunque un pequeo nmero de secuencias de aminocidos se obtienen
usando tcnicas de secuenciacin de pptidos.

Hay dos formas de bsqueda de secuencias en el GenBank. Uno de ellos es el


uso de texto basados en palabras claves similares a una bsqueda en
PubMed80. El otro es usando secuencias moleculares de bsqueda por
similitud de secuencias con BLAST.

Formato de Secuencia de GenBank. Para buscar en GenBank con eficacia


utilizando el mtodo basado en texto, se requiere una comprensin del
formato de secuencia de GenBank. Esta es una base de datos relacional. Sin
embargo, los resultados de la bsqueda para los archivos de la secuencia se
producen como archivos planos para una fcil lectura.

Los archivos planos resultantes contienen tres secciones: Encabezado,


Caractersticas, y Entrada de la secuencia (figura 2). Hay muchos campos en
el encabezado y Seccin de caractersticas. Cada campo tiene un nico
identificador para la fcil indexacin por el software informtico. Comprender la
estructura de los archivos de GenBank ayuda en el diseo de estrategias
efectivas de bsqueda.

La seccin de encabezado describe el origen de la secuencia, la identificacin


del organismo, e identificadores nicos asociados con el registro. La
lnesuperior de la seccin de encabezado es el Lugar (Locus), que contiene un
nico identificador de la base de datos para una secuencia de ubicacin en la

75
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 21
76
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
77
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm. Se
genera por accin de la enzima trasncripta a la inversa y tiene mltiples usos tanto en investigacin bsica como
aplicada a biomedicina.
78
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 21
79
Disponible desde Internet en: <http://www.renabi.fr/article202.html>
80
Servicio de la Biblioteca Nacional de Medicina de los Estados Unidos de Amrica, que incluye ms de 20
millones de citas de la literatura biomdica a partir de MEDLINE, revistas de ciencias biolgicas, y libros en
lnea. Las citas pueden incluir vnculos a contenido de texto completo desde PubMed Central y los sitios web
de los editores.

35
base de datos. El identificador es seguido por la longitud de la secuencia y el
tipo de molcula (por ejemplo, ADN o ARN). Esto es seguido por un cdigo de
tres letras para las divisiones de GenBank.

Hay 17 divisiones en total, que se establecieron basndose simplemente en la


conveniencia del almacenamiento de datos sin necesidad de tener una base
cientfica rigurosa, por ejemplo, PLN para las plantas, hongos, algas y
secuencias; PRI para las secuencias de los primates; MAM de secuencias de
mamferos no primates, BCT de secuencias bacterianas, y EST para las
secuencias de EST.

Al lado de la divisin esta la fecha en que el registro fue publicado (que es


diferente de la fecha en que los datos fueron ingresados). La siguiente lnea
"DEFINITION", proporciona la informacin de resumen de la secuencia del
registro, incluyendo el nombre de la secuencia, el nombre y la taxonoma del
organismo de origen si se conoce, y si la secuencia es completa o parcial. Esto
es seguido por un nmero de acceso de la secuencia, que es un nmero nico
asignado a una pieza de ADN cuando se ingres por primera vez a GenBank y
est permanentemente asociado con esa secuencia. Este es el nmero que
debe ser citado en las publicaciones. Tiene dos formatos diferentes: dos cartas
con cinco dgitos, o una carta de seis dgitos.

Para una secuencia de nucletidos que se ha traducido en una secuencia de


protenas, se da un nuevo nmero de acceso en forma de una cadena de
caracteres alfanumricos.

Adems del nmero de acceso, tambin hay un nmero de versin y un


nmero de ndice de genes (GI). La utilidad de estos nmeros es identificar la
versin actual de la secuencia. Si la anotacin de la secuencia es revisada en
una fecha posterior, el nmero de acceso sigue siendo el mismo, pero el
nmero de revisin es incrementado al igual que el nmero GI. Una secuencia
de protena traducida tambin tiene un nmero GI diferente de la secuencia de
ADN que se deriva de l.

La siguiente lnea en la seccin del encabezado es el campo "ORGANISM",


que incluye la fuente del organismo con el nombre cientfico de la especie y, a
veces el tipo de tejido. Junto con el nombre cientfico esta la informacin de la
clasificacin taxonmica del organismo.

Existen diferentes niveles de la clasificacin que son un hipervnculo a la base


de datos taxonmica NCBI con descripciones ms detalladas. Esto esta
seguido por el campo de "REFERENCE", el cual proporciona la citacin de la
publicacin relacionada con la entrada de la secuencia. La parte de
REFERENCE incluye el autor y el ttulo del trabajo publicado (o el ttulo
provisional de los trabajos no publicados).

36
El campo "JOURNAL" incluye la informacin de la citacin, as como la fecha
del ingreso de la secuencia. La citacin tiene a menudo un hipervnculo con el
registro de PubMed para el acceso a la informacin de la literatura original. La
ltima parte del encabezado es la informacin de contacto del submitter de la
secuencia.

La seccin "Features" incluye la informacin sobre la anotacin de genes y


productos gnicos, as como las regiones de importancia biolgica registradas
en la secuencia, con identificadores y calificadores. El campo "Source"
proporciona la longitud de la secuencia, el nombre cientfico del organismo, y el
nmero de identificacin de la taxonoma. Alguna informacin opcional incluye
el origen de la clonacin, el tipo de tejido y la lnea celular.

El campo "gene" es la informacin sobre la secuencia de nucletidos


codificada y su nombre. Para las entradas de ADN, hay un campo "CDS", el
cual es la informacin acerca de los lmites de la secuencia que pueden ser
traducidas en aminocidos. Para el ADN eucariota, este campo tambin
contiene informacin de la ubicacin de los exones y es introducida la
secuencia de protena traducida.

La tercera seccin del archivo plano es la misma secuencia que comienza con
la etiqueta "ORIGIN". El formato de la visualizacin de la secuencia puede ser
cambiado por la seleccin de opciones en una pantalla de men desplegable
en la esquina superior izquierda.

Para las entradas de ADN, hay un informe CUENTA DE BASE (BASE


COUNT), que incluye los nmeros de A, G, C y T en la secuencia. En esta
seccin, tanto para las secuencias de ADN o de protenas, termina con dos
barras inclinadas (el smbolo "/ /").

En la recuperacin de secuencias de ADN o de protena a partir de GenBank,


la bsqueda puede ser limitada a diferentes campos de anotacin como
"organism", "accession number", "authors" y "publication date". Por un lado se
puede usar una combinacion de las opciones de "Limits" y "Preview/Index"
como se describe. Alternativamente, un nmero de calificadores de la
bsqueda pueden ser utilizados, cada uno definiendo uno de los campos en un
archivo de GenBank. Los calificativos son similares pero no son iguales que las
etiquetas del campo en PubMed. Por ejemplo, en GenBank, [GENE]
representa el campo para el nombre del gen, [AUTH] para el nombre del autor,
y [ORGN] para el nombre del organismo.

37
Figura 2. Formato NCBI GenBank/GenPept que muestra los principales
componentes de un rbol de un archivo de secuencia.

Fuente XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica:


Cambridge University Press, 2006. p. 22

38
Bases de Datos Secundarias. La informacin de la anotacin de la
secuencia en la base de datos primaria suele ser mnima. Para activar la
informacin de la secuencia en bruto en ms conocimientos
biolgicos sofisticados, es necesario ms post-procesamiento de la informacin de
la secuencia. Esto plantea la necesidad de bases de datos secundarias, que
contengan informacin de secuencias procesadas computacionalmente derivadas
de las bases de datos primarias.

La cantidad de trabajo de procesamiento computacional vara mucho entre las


bases de datos secundarias, algunos son simples archivos de datos de las
secuencias traducidas identificadas a partir de marcos de lectura abierta en el
ADN, en tanto que otras ofrecen anotacin e informacin adicional relacionada
con los niveles ms altos de la informacinrespecto a la estructura y las funciones.

Un ejemplo destacado de bases de datos secundarias es SWISS-PROT81, que


proporciona una anotacin detallada de la secuencia que incluye la estructura,
funcin y misin de la familia de protenas. Los datos de la secuencia se derivan
principalmente de TrEMBL82, una base de datos de traduccin de secuencias de
cidos nucleicos almacenadas en la base de datos EMBL83.

La anotacin de cada entrada es cuidadosamente curada por expertos humanos y


por lo tanto es de buena calidad. La anotacin de protenas incluye la
funcin, estructura de dominios, sitios catalticos84, unin del
cofactor, modificacin post-traslacional, informacin va metablica, asociacin
con la enfermedad y similitud con otras secuencias. Mucha de esta informacin es
obtenida de la literatura cientfica e ingresada por los curadores de la base de
datos.

La anotacin proporciona un importante valor aadido a cada registro de la


secuencia original. El registro de datos tambin proporciona enlaces de
referencias cruzadas a otros recursos de inters en lnea.

Otras caractersticas tales como redundancia muy baja y alto nivel de


integracin con otras bases de datos primarias y secundarias han hecho a SWISS-
PROT85 muy popular entre los bilogos. Un esfuerzo reciente para
combinar SWISS-PROT, TrEMBL86 y PIR87 ha llevado a la creacin de la base de

81
Base de datos biolgica de secuencia de protenas.
82
Traduccin automtica de las secuencias de la EMBL.
83
European Molecular Biology Laborator (Laboratorio Europeo de Biologa Molecular).
84
Sitios catalticos o sitos activos: zona de la enzima a la que se une el sustrato para ser catalizado.
85
Base de datos biolgica de secuencia de protenas.
86
Traduccin automtica de las secuencias de la EMBL.
87
Protein Information Resource (Recursos de Informacin de Proteina).

39
datos UniProt88, que tiene mayor cobertura que cualquiera de las tres bases de
datos, mientras que al mismo tiempo mantiene las caractersticas originales de
SWISS-PROT de baja redundancia, referencias cruzadas, y una alta calidad de la
anotacin.

Tambin hay bases de datos secundarias que se refieren a la clasificacin de las


familias de protenas de acuerdo a las funciones o estructuras. Las bases de
datos Pfam89 y Blocks90 contienen informacin de secuencias alineadas de
protenas, as como motivos91 derivados y patrones, que pueden ser
utilizados para la clasificacin de familias de protenas y la inferencia de las
funciones de las protenas.

La base de datos DALI es una base de datos de estructura de protenas


secundaria, la cual es vital para la clasificacin de la estructura de protenas para
identificar a distancia las relaciones evolutivas entre las protenas.

Bases de Datos Especializadas92. Las bases de datos especializadas sirven


normalmente a una comunidad de investigacin especfica o se centran en un
determinado organismo.

El contenido de estas bases de datos puede ser secuencias u otros tipos de


informacin. Las secuencias en estas bases de datos pueden traslaparse con una
base de datos primaria, pero tambin pueden hacer que los nuevos datos sean
presentados directamente por los autores.

Ya que los datos son a menudo curados por los expertos en la materia, pueden
tener organizaciones nicas y anotaciones adicionales asociadas a las
secuencias. Muchas bases de datos genmicas que son taxonmicamente
especficas, entran dentro de esta categora. Los ejemplos incluyen Flybase93,
WormBase94, AceDB95, y TAIR96.

88
Disponible desde internet en: <http://www.uniprot.org/>
89
Pfam: base de datos con las alineaciones de dominio de protenas derivadas de las secuencias
en SwissProt yTrEMBL. Disponible desde internet en: <http://pfam.sanger.ac.uk>
90
BLOCKS: base de datos que utiliza varias alineaciones derivadas de las ms conservadas, regiones sin
huecos de secuencias de protenas homlogas. Disponible desde internet
en:<http://blocks.fhcrc.org/blocks>
91
Patrn corto de secuencias conservadas asociadas a las distintas funciones de una protena o ADN.
92
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
93
Base de datos del genoma de Drosophila.
94
Bases de datos genticos de los Caenorhabditis elegans y de los nematodos relacionados.
95
Base de datos del genoma del Caenorhabditis elegans.
96
Bases de datos de informacin del Arabidopsis.

40
Adems, tambin hay bases de datos especializadas que contienen los datos
originales derivados del anlisis funcional. Por ejemplo, la base de datos de
GenBank EST97 y la Base de Datos de Microarray para la expresin gnica en el
Instituto Europeo de la Bioinformtica (EBI) son algunas de las bases de datos de
la expresin gnica disponibles.98

7.3.1.2 Interconexin entre las bases de datos biolgicas99. Segn lo


mencionado, las bases de datos primarias son los depsitos y los distribuidores
centrales de la informacin cruda de la secuencia y de la estructura. Ellas apoyan
casi el resto de los tipos de bases de datos biolgicas de una manera similar a la
Associated Press que proporciona nuevas noticias a los medios de noticias
locales, quienes entonces adaptan las noticias a sus propias necesidades
particulares.

Por lo tanto, en la comunidad biolgica, hay una frecuente necesidad de conectar


las bases de datos secundarias y especializadas a las bases de datos primarias, y
de actualizar permanentemente la informacin de la secuencia. Adems, un
usuario necesita a menudo conseguir la informacin de bases de datos primarias y
secundarias para completar una tarea porque la informacin en una sola base de
datos es a menudo insuficiente.

En lugar de permitir que los usuarios visiten mltiples bases de datos, es


conveniente que las entradas en una base de datos sean de una referencia
cruzada y vinculadas o linkeadas a las entradas relacionadas en otras bases de
datos que contengan informacin adicional. Todas estas generan una demanda de
ser linkeadas a diferentes bases de datos.

La barrera principal al enlazar diversas bases de datos biolgicas es la


incompatibilidad del formato que las bases de datos biolgicas actuales utilizan,
los tres tipos de estructuras de base de datos: archivos planos, relacionales y
orientados a objetos. Las estructuras de base de datos heterogneas limitan la
comunicacin entre las bases de datos.

Una solucin a las bases de datos de redes es el uso de un lenguaje de


especificacin llamado Common Object Request Broker Architecture100 (CORBA),
que permite a los programas de bases de datos en diferentes lugares comunicarse
en una red a travs de un "corredor de interfaz" sin tener que entender cada

97
Divisin de GenBank que contiene los datos de la secuencia y otra informacin sobre "single-pass"
secuencias del cDNA, o "Etiquetas de Secuencias Expresadas", de un nmero de organismos.
98
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
99
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
100
Common Object Request Broker Architecture (Arquitectura comn de intermediarios en peticiones a
objetos).

41
estructura de las diferentes base de datos. Trabaja de una manera similar al
HyperText Markup Language (HTML) para las pginas web, etiquetando las
entradas de la base de datos usando un sistema de etiquetas comunes.

Un protocolo similar llamado eXtensible Markup Language (XML) tambin ayuda


en el enlace de las bases de datos. En este formato, cada registro biolgico se
divide en pequeos componentes bsicos que se marcan con etiquetas de
agrupamiento jerrquico. Esta estructura de base de datos, mejora
significativamente la distribucin y el intercambio de anotaciones complejas de la
secuencia entre las bases de datos.101

7.3.1.3 Peligros de las Bases de Datos Biolgicas102. Uno de los problemas


relacionados con las bases de datos biolgicas es el exceso de confianza en la
informacin de las secuencias y las anotaciones relacionadas, sin comprender la
fiabilidad de la informacin. Lo que a menudo se ignora es el hecho de que hay
muchos errores en las bases de datos de secuencias. Las anotaciones de los
genes tambin pueden ser en ocasiones falsas o incompletas. Todos estos tipos
de errores pueden ser transmitidos a otras bases de datos, haciendo que los
errores se propaguen.

Por ejemplo, la mayora de los errores en las secuencias de nucletidos son


causados por errores en la secuenciacin. Algunos de esos errores causan
desplazamiento que hacen que toda la identificacin del gen se dificulte o que la
traduccin de la protena sea imposible. A veces, las secuencias de genes estn
contaminadas con secuencias de vectores de clonacin. Generalmente los errores
de este tipo son ms comunes en secuencias producidas antes de los aos 1990
(actualmente la calidad ha mejorado).103

Tambin hay altos niveles de redundancia en las bases de datos primarias, y


existen varias razones que causan esta duplicacin: la publicacin repetida en la
base de datos de secuencias idnticas o coincidentes por los mismos autores o
diferentes, la revisin de las anotaciones, la descarga de datos de etiquetas de
secuencias expresadas (EST104), y la pobre administracin de base de datos que
no puede detectar la redundancia. Esto hace que algunas bases de datos
primarias sean excesivamente grandes y pesadas para la recuperacin de la
informacin.

101
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
102
Ibid., p. 17
103
RODRIGUEZ T, Eduardo Dr. Bases de Datos Biolgicas [PDF]. Mxico: Centro de Investigacin y de
Estudios Avanzados del Instituto Politcnico Nacional, 2011. Disponible desde Internet en:
<http://www.tamps.cinvestav.mx/~ertello/bioinfo/sesion03.pdf> [citado en 17 de julio de 2011].
104
Divisin de GenBank que contiene los datos de la secuencia y otra informacin sobre "single-pass"
secuencias del cDNA, o "Etiquetas de Secuencias Expresadas", de un nmero de organismos.

42
Se han tomado medidas para reducir la redundancia. El National Center for
Biotechnology Information (NCBI)105 ha creado una base de datos no redundantes,
llamada RefSeq106, en el que las secuencias idnticas del mismo organismo y los
frangmentos de secuencia asociadas se fusionan en una sola entrada. Las
secuencias de las protenas derivadas de las mismas secuencias del ADN se ligan
explcitamente como entradas relacionadas.

Las variantes de las secuencia del mismo organismo, con diferencias muy
pequeas, que bien podran ser causada por la secuencia de errores, son tratadas
como entradas distintivamente relacionadas. Esta base de datos cuidadosamente
curada puede ser considerada como una base de datos secundaria.

Segn lo mencionado, la base de datos de SWISS-PROT107 tambin tiene una


redundancia mnima para las secuencias de la protena comparadas a la mayora
de las otras bases de datos.

Otra manera de abordar el problema de la redundancia es crear las bases de


datos de secuencia-cluster tales como UniGene108 que unen secuencias EST109
que son derivadas del mismo gene.

Otro problema comn es el de las anotaciones errneas. A menudo, la secuencia


del gen se vuelve a encontrar bajo diferentes nombres como resultado de
mltiples entradas y la confusin acerca de los datos. O por el contrario, se
encuentran en la base de datos genes no relacionados con el mismo nombre.

Para aliviar el problema de los nombres de los genes, es necesaria la re-anotacin


de genes y protenas utilizando un vocabulario comn, controlado para describir
un gen o una protena. El objetivo es proporcionar un sistema coherente e
inequvoco de nomenclatura para todos los genes y las protenas. Un ejemplo
destacado de estos sistemas es Gene Ontology110.

Algunas de las inconsistencias en la anotacin podran ser causadas por el


desacuerdo genuino entre los investigadores en el campo; otros pueden resultar
de la asignacin imprudente de las funciones de protenas por los submitters111
de las secuencias. Hay tambin algunos errores que son causados simplemente
105
National Center for Biotechnology Information (Centro Nacional de Informacin sobre Biotecnologa).
106
Reference Sequence (Secuencia de Referencia).
107
Base de datos biolgica de secuencia de protenas.
108
Base de datos NCBI EST cluster. Cada grupo es un conjunto de la superposicin de secuencias EST que son
procesados computacionalmente para representar a un solo gen expresado.
109
Divisin de GenBank que contiene los datos de la secuencia y otra informacin sobre "single-pass"
secuencias del ADNc, o "Etiquetas de Secuencias Expresadas", de un nmero de organismos.
110
Ver pag. 44. Disponible desde Internet en: <http://www.geneontology.org/>
111
Persona que ingresa las secuencias en las bases de datos biolgicas.

43
por omisiones o errores en mecanografa.

Los errores en la anotacin pueden ser particularmente perjudiciales porque la


gran mayora de nuevas secuencias son funciones asignadas basadas en
similitudes con las secuencias en las bases de datos que estn ya anotadas. Por
lo tanto, una anotacin incorrecta se puede transferir fcilmente a todos los genes
similares en la base de datos entera.

Es posible que algunos de estos errores se puedan corregir a nivel informtico


estudiando los dominios y las familias de las protenas. Sin embargo, otros errores
tienen que ser corregidos eventualmente usando el trabajo experimental.

Gene Ontology112. El problema surge cuando se utiliza una literatura


existente, porque la descripcin de una funcin gentica utiliza un
lenguaje natural, que es a menudo ambiguo e impreciso.

Los investigadores que trabajan en diferentes organismos tienden a


aplicar diferentes trminos para el mismo tipo de genes o protenas. Por otra parte,
la misma terminologa usada en diferentes organismos puede actualmente hacer
referencia a diferentes genes o protenas. Por lo tanto, hay una necesidad de
estandarizar las descripciones funcionales de las protenas. Esta demanda ha
impulsado el desarrollo Gene Ontology (GO), el cual utiliza un vocabulario limitado
para describir las funciones moleculares, los procesos biolgicos, y los
componentes celulares.

El vocabulario controlado es organizado de tal manera que una funcin de


protena est relacionada con la funcin celular a travs de una jerarqua de
descripciones con un incremento de la especificidad. La parte superior de la
jerarqua proporciona un panorama general de la clase funcional, mientras que la
parte ms baja en la jerarqua especifica ms precisamente el papel funcional. De
esta manera, la funcionalidad de la protena puede ser definida de una forma
estandarizada y sin ambigedades.

Una descripcin de una protena GO ofrece tres tipos de informacin: proceso


biolgico, componente celular y la funcin molecular, cada uno de ellos utiliza un
nico conjunto de vocabularios que no se superponen. La estandarizacin de los
nombres, actividades y vas asociadas proporcionan consistencia en la descripcin
general de las funciones de la protena y facilita el agrupamiento de las funciones
de protenas relacionadas.

Una bsqueda de base de datos usando GO para una protena en particular


puede fcilmente arrojar otras funciones de protenas relacionadas de la misma
112
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 250

44
manera como cuando se usa un diccionario de sinnimos. Usando GO, un editor
del genoma puede asignar las propiedades funcionales de un producto del gen113
en diferentes niveles jerrquicos, dependiendo de que tanto se conoce sobre el
producto del gen.

En la actualidad, las bases de datos GO han sido desarrolladas para un nmero


de organismos modelo por el consorcio internacional, en el que cada gen es
asociado con una jerarqua de trminos de GO. Estos han facilitado en gran
medida los esfuerzos de anotacin del genoma.114

7.3.1.4 Recuperacin de la Informacin de las Bases de Datos Biolgicas115.


Segn lo mencionado, un objetivo fundamental en el desarrollo de las bases de
datos es proporcionar un fcil y eficiente acceso a los datos almacenados.

Hay una serie de sistemas de recuperacin de datos biolgicos. Uno de los ms


populares para bases de datos biolgicas es Entrez116 que proporciona acceso a
mltiples bases de datos para la recuperacin de los resultados de bsquedas
integradas.

Entrez117. La NCBI118 desarroll y mantiene Entrez, un sistema de


recuperacin de base de datos biolgicos. Se trata de una entrada que permite
bsquedas basadas en texto para una amplia variedad de datos, incluyendo
informacin de anotacin de secuencias genticas, la informacin estructural, as
como citas y resmenes, textos completos y datos taxonmicos.

La caracterstica clave de Entrez es su capacidad para integrar la informacin, que


proviene de las referencias cruzadas entre las bases de datos del NCBI y las
relaciones lgicas y pre-existentes entre las entradas individuales.

Este sistema es muy prctico: los usuarios no tienen que visitar varias bases de
datos ubicadas en lugares diferentes. Por ejemplo, en una pgina de secuencia de
nucletidos, se pueden encontrar enlaces de referencias cruzadas a la secuencia
de la protena traducida, mapa de los datos del genoma, o la informacin
relacionada con la literatura en PubMed119, y estructuras de las protenas si est
113
Producto del gen: ARN o protena que resulta de la expresin de un gen. La cantidad de producto del
gen es una medida del grado de actividad del gen.
114
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 250
115
Ibid., p. 18
116
Portal de la NCBI para una variedad de bases de datos biolgicas.
117
XION, Jin, Op cit., p. 19
118
National Center for Biotechnology Information (Centro Nacional de Informacin sobre Biotecnologa).
119
Servicio de la Biblioteca Nacional de Medicina de los Estados Unidos de Amrica, que incluye ms de 20
millones de citas de la literatura biomdica a partir de MEDLINE, revistas de ciencias biolgicas, y libros en

45
disponible.

7.3.2 Bodegas de Datos. La Bioinformtica es el uso de herramientas


computacionales que permiten analizar, depurar y agilizar el manejo de grandes
cantidades de datos de la biologa en trminos fisicoqumicos y permitir
comprender y organizar la informacin asociada. La bioinformtica parte de datos
encontrados experimentalmente, los cuales son almacenados y sobre estos se
aplican tcnicas de consulta, de anlisis y de extraccin de conocimiento.
Uno de los asuntos centrales la actualidad en este campo es definir el esquema de
almacenamiento y las herramientas de anlisis de los grandes volmenes de
datos generados y disponibles.

7.3.2.1 Referente histrico de las Bodegas de Datos. En 1866 Johann Gregor


Mendel120 descubre los genes. Posteriormente, en 1871 se descubren los cidos
nucleicos: la gran molcula de la vida. Los primeros pasos en la gentica fueron
lentos y hasta el siglo siguiente no se hicieron descubrimientos nuevos, como por
ejemplo en 1953, ao en que se descubri la estructura del ADN. A partir de este
descubrimiento se empezaron a buscar a los genes en dicha estructura y, por
consiguiente, la existencia de un cdigo gentico.

Segn Rodriguez et al. (2006)121, entre 1975 y 1979, se asla el primer gen
humano. A partir de este momento la Genmica da un salto espectacular y se
pasa de estudiar un slo gen a tener descifrados cdigos genticos sencillos
pertenecientes a bacterias para finalmente llegar a conseguir la secuenciacin
completa del genoma humano. Una gran cantidad de datos generados gracias a la
tecnologa y que necesita de sta para poder ser manejada.

La mayor dificultad probablemente se encuentra en la tarea de capturar y modelar


los diversos objetos biolgicos y su complejo de relaciones.

Para Rodriguez et al. (2006) la Bioinformtica representa un campo cientfico muy


amplio que resumen a partir de tres perspectivas distintas. La primera de sus
perspectivas es la clula. El dogma central de la Biologa Molecular es que el

lnea. Las citas pueden incluir vnculos a contenido de texto completo desde PubMed Central y los sitios web
de los editores.
120
Bilogo austriaco.
121
RODRGUEZ BAENA, Domingo Savio; SANTOS RIQUELME, Jos C. y AGUILAR RUIZ, Jess S. Anlisis de
datos de Expresin Gentica mediante tcnicas de Biclustering [en lnea]. Sevilla, Espaa. 2006. p. 12. [citado
29 marzo 2010]. Disponible desde internet: < http://www.lsi.us.es/docs/doctorado/memorias/Memoria-
v2.pdf>

46
ADN122 es transcrito a ARN123 y transformado en protenas.

A partir de la clula suben de nivel de abstraccin hasta los organismos


individuales, los cuales representan la segunda perspectiva de la Bioinformtica.
Los genes, lejos de ser entidades estticas, son regulados dinmicamente en
respuesta al paso del tiempo, la regin y el estado fisiolgico.

Por ltimo, desde el ms alto nivel de abstraccin posible, proponen la tercera


perspectiva de la Bioinformtica: el rbol de la vida.

A continuacin se relacionan varios de los trabajos ms importantes y desde


diversas visiones que se han desarrollado o aun estn en desarrollo en este
campo.

7.3.2.2 Estado del arte de las Bodegas de Datos. Desde el ao 1980, las bases
de datos del Laboratorio de Biologa Molecular Europeo, EMBL (European
Molecular Biology Laboratory), del NCBI (Estados Unidos) y del laboratorio
japons DDBJ (DNA Databank of Japan) han recopilado las secuencias
nucleotdicas publicadas hasta hoy. Actualmente existe una colaboracin entre
todas ellas, de forma que cada nueva entrada es automticamente intercambiada
con las otras dos restantes.

Las secuencias proticas son almacenadas y distribuidas por las bases de datos
SWISS-PROT. Es una base de datos no redundante y mantiene numerosas
referencias cruzadas con 26 bases de datos diferentes (BIB-GEN124). Las
secuencias nucleotdicas son incorporadas a las bases de datos a un ritmo de 210
millones de pares de bases de datos al ao. Sus datos se encuentran divididos en
entradas, cada una de las cuales tiene un nmero de acceso, un conjunto de
anotaciones que incluyen la descripcin de la secuencia, informacin taxonmica
del organismo del que deriva, lista de nombres de autores, referencias
bibliogrficas, caractersticas generales as como regiones de inters biolgico y
finalmente, la secuencia en s.125
Pero este campo ha abierto muchos caminos y opciones a investigadores de
diferentes latitudes y disciplinas, mostrndose como un espacio de gran
dinamismo.

122
cido Desoxirribonucleico, molcula que contiene y transmite la informacin gentica de los organismos
excepto en algunos tipos de virus (retrovirus).
123
cido Ribonucleico, molcula formada por un poli-ribonucletido de longitud variable que contiene
Uracilo en vez de Timina.
124
Bases de datos genticas.
125
Bib-Gen Instituto de salud Carlos III. 18 de febrero de 2004. Acceso a fuentes de informacin genmica y
herramientas bioinformticas bsicas. Espaa. Disponible desde Internet en: <http://bvs.isciii.es/bib-
gen/Actividades/curso_virtual/Ftes_informacion/fteinformacion4.htm> [citado en 29 de marzo de 2011].

47
En un llamativo artculo Escobar (2006)126 muestra las posibilidades y ventajas
que brindan las nuevas herramientas de virtualizacin de objetos reales con fines
educativos, para ser usados en la generacin de animaciones tridimensionales
virtuales que permitan transmitir de manera audiovisual la informacin anatmica,
fisiolgica y quirrgica, con el fin de simplificar y complementar el proceso
educativo tradicional de la medicina y ciencias de la salud. Resume trabajos
previos sobre el Corazn Virtual Animado, la Tcnica de Prostatectoma
Laparoscpica Dedo Asistida y el Sistema de informacin a pacientes.

Prieto et al. (2006)127 plantean una solucin al problema de descentralizacin y


diagnstico de las diferentes divisiones hospitalarias, enfocada en cuatro aspectos
fundamentales como son: procesamiento de imgenes para generar diagnstico,
soporte de interconectividad fsica para compartir la informacin, administracin
eficiente de informacin referente a los estudios y administracin de la
interconexin. Reconocen la dificultad e importancia de administrar los datos
recolectados en los procedimientos mdicos y la necesidad de su centralizacin y
administracin.

Wang et al128 en un artculo presentado describen su propuesta de modelamiento


multidimensional para datos biomdicos, basados en una bodega de datos.
Desarrollan un nuevo modelo llamado esquema BioStar que puede capturar la rica
semntica de datos biomdicos y proporcionar una mayor extensibilidad y
flexibilidad para la rpida evolucin de las metodologas de investigacin biolgica.
Esto se garantiza con el almacenamiento de las diferentes medidas en n-tablas
separadas, las cuales son usadas para manejar las relaciones de muchos-a-
muchos entre la entidad central y las dimensiones y pueden estar diseados para
soportar caractersticas especficas de una medida (por ejemplo, soporte bi-
temporal de algunos datos clnicos). Adems, es ms eficiente el proceso para
actualizar una m-tabla para relaciones con incertidumbre o con datos imprecisos
en las entradas, que para una tabla central de hechos de un esquema tradicional
en estrella.

126
Aplicaciones virtuales en biomedicina [en lnea]. ESCOBAR ROA, Juan Miguel. Facultad de Ingeniera
Electrnica, Universidad El Bosque: Bogot, 2006 - [citado el 30 de marzo de 2011]. Vol 1 No. 1. Disponible
desde Internet en:
<http://artemisa.unbosque.edu.co/facultades/electronica/pdfs/RevistaN1/Articulo%206.pdf>
127
Central de procesamiento de imgenes mdicas para General Mdica de Colombia S.A. [en lnea]. PRIETO
REYES, Sandy Johana; SALCEDO LPEZ, Dennys Marcela y TORRES ROMERO, Oscar Mauricio. Facultad de
Ingeniera Electrnica, Universidad El Bosque: Bogot, 2006 - [citado el 30 de marzo de 2011]. Vol 1 No. 1.
Disponible desde Internet en:
<http://artemisa.unbosque.edu.co/facultades/electronica/pdfs/RevistaN1/Articulo%202.pdf>
128
BioStar models of clinical and genomic data for biomedical data warehouse design [en lnea]. WANG,
Liangjiang; RAMANATHAN, Murali y ZHANG, Aidong. State University of New York at Buffalo: New York,
Estados Unidos de Amrica, 2005 - [citado el 30 de marzo de 2011]. Disponible desde Internet en:
<http://www.cse.buffalo.edu/DBGROUP/bioinformatics/papers/ijbra05.pdf>

48
Darmont y Olivier (2006)129 proponen e implementan un Data Warehouse130 para
personalizacin de procesos en medicina. Plantean que el creciente uso de las
nuevas tecnologas genera cambios significativos en las ciencias de la salud, tales
como los registros electrnicos, que permiten personalizar la asistencia en salud
de por vida y el tratamiento pre-sintomtico aprovechando varios anlisis sobre
una poblacin dada de pacientes.

Su objetivo es hacer que las personas administren como su capital su propia


salud, formulando recomendaciones en relacin con, por ejemplo, estilo de vida,
nutricin o actividad fsica. Para lograr este objetivo, el sistema de apoyo a las
decisiones deber permitir anlisis transversal de una poblacin determinada y el
almacenamiento de datos mdicos globales biomtricos tales como, datos
biolgicos, cardio-vasculares, clnicos y psicolgicos.

Ligand Depot es una fuente de datos integrado para encontrar informacin acerca
de las molculas pequeas en las protenas y los cidos nucleicos. La versin
inicial (versin 1.0, noviembre, 2003) se centra en proporcionar informacin
qumica y estructural para pequeas molculas encontradas como parte de las
estructuras depositadas en el Banco de Datos de Protena (PDB).

Ligand Depot acepta consultas basadas en palabras clave y tambin proporciona


una interfaz grfica para la realizacin de bsquedas en subestructura qumica.
Una amplia variedad de recursos Web que contienen informacin sobre las
molculas pequeas pueden accederse a travs de Ligand Depot.

Ligand Depot posee una interfaz de usuario y ha sido implementado como una
aplicacin Web cliente/ servidor de tres capas. Cuenta con navegador web en el
cliente, un servidor de base de datos MySQL como el back-end y un servidor
Tomcat131 en la aplicacin servidor como nivel medio. El back-end tiene un
conjunto normalizado de tablas que almacenan las direcciones URL y otras
informaciones sobre los sitios web relacionados con pequeas molculas.

La lgica de procesamiento que ocurre en el nivel medio y es manejado por el


servidor de aplicaciones usando Java Servlets132. Ofrece capacidades flexibles de
consulta una herramienta de dibujo para la realizacin de bsquedas de
subestructura y un medio para importar y exportar archivos grficos de molculas
129
DARMONT, Jrme y OLIVIER, Emerson. A Complex Data Warehouse For Personalized, Anticipative
Medicine. Francia: University of Lyon, 2006. Disponible desde Internet en:
<http://arxiv.org/ftp/arxiv/papers/0809/0809.2688.pdf> [citado en 30 de marzo de 2011].
130
Almacenamiento de Datos.
131
Apache Tomcat es una implementacin de software de cdigo abierto de Java Servlet y tecnologas
JavaServer Pages.
132
La tecnologa Java Servlet proporciona a los desarrolladores web un mecanismo simple y consistente para
extender la funcionalidad de un servidor Web y para acceder a los sistemas empresariales existentes.

49
pequeas.

Un Data Warehouse Ligand Depot optimiza la consulta y el reporte ligando la


informacin presente en el PDB. Plantean como trabajos futuros la
implementacin de capacidades mejoradas de bsqueda y la incorporacin de una
ms sofisticada interfaz grfica de usuario133.

En un llamativo y avanzado trabajo presentado por Barton y otros (2008)134


exponen el software llamado EMAAS135 que es una rica aplicacin multi-usuario
en Internet con una facilidad simple y robusta para acceso a los recursos
actualizados a un microarray de almacenamiento de datos y anlisis, combinado
con herramientas integradas para optimizacin en tiempo real, apoyo a los
usuarios y la formacin.

El framework EMAAS permite a los usuarios importar datos de microarrays de


diversas fuentes hacia una base de datos subyacente, pre-procesar, evaluar y
analizar la calidad de los datos, realizar anlisis funcionales. Un nmero de
paquetes de anlisis, incluidos R-Bioconductor136 y Affymetrix Power Tools
(APT)137 se han integrado en el servidor y estan disponibles mediante libreras
Postgres-PLR138 o en Clusters Grid139. Los recursos integrados distribuidos
incluyen la herramienta de anotacin funcional DAVID140, GeneCards141 y los

133
FENG, Zukang, et al. Ligand Depot: a data warehouse for ligands bound to macromolecules. En: Bioinformatics
Applications Note [en lnea]. 1 de abril de 2004. vol. 20. no. 13. Disponible desde Internet en:
<http://bioinformatics.oxfordjournals.org/content/20/13/2153.full.pdf+html?sid=5fbc13fd-7bee-4364-829b-
ef27e2d53032>
134
BMC Bioinformatics. 25 de noviembre de 2008. BARTON, G., et al. EMAAS: An extensible grid-based Rich Internet
Application for microarray data analysis and management. Frederick: Estados Unidos de Amrica, Londres. Disponible
desde Internet en: <http://www.biomedcentral.com/1471-2105/9/493> [citado en 30 de marzo de 2011].
135
Extensible MicroArray Analysis System (Sistema de Anlisis de MicroArray extensible).
136
Herramienta principal del anlisis integrado en EMMAS, resultante de la unin entre el lenguaje y entorno de
programacin para anlisis estadstico y grfico R y el proyecto de cdigo abierto para el anlisis de datos en gentica
Bioconductor.
137
Conjunto de programas multi-plataforma de lnea de comandos que implementan algoritmos para analizar y trabajar
con Affymetrix GeneChip matrices. APT es un proyecto de cdigo abierto bajo la licencia GNU General Public License
(GPL).
138
PL/R es un lenguaje procedural para PostgreSQL que le permite escribir las funciones de base de datos almacenada
en R.
139
Es una combinacin entre la Computacin Cluster que es un sistema de computacin basado en hardware estndar
conectado por una red dedicada dedicado a un propsito especfico, y la Computacin Grid que es un sistema que
coordina recursos que no estn sujetos a un control centralizado, utilizando protocolos de propsito general e
interfaces, ambos abiertos y estndares, para entregar servicios de calidad.
140
The Database for Annotation, Visualization and Integrated Discovery (La base de datos de Anotacin, Visualizacin y
Deteccin Integrada), un sitio web para el anlisis de enriquecimiento funcional, que permite el descubrimiento de los
grupos biolgicos de inters potenciales asociados con una lista particular de genes.
141
Base de datos de genes humanos que proporciona informacin concisa genmica relacionada a todos los genes
humanos conocidos y previstos.

50
repositorios de datos de microarrays GEO142, CELSIUS143 y Mimir144.

7.3.2.3 Data Warehouse construccin de la alternativa propuesta. Las


principales dificultades que se obtienen en el proceso de investigacin a la hora de
administrar los datos y la informacin, son:

Inters en manejar grandes volmenes de datos.


Mltiples y variadas fuentes de informacin.
Informacin dispersa y no oportuna con una alta probabilidad de
inconsistencias.
Altos volmenes de informacin no estructurada que requieren anlisis.
Dificultad en acceso a la informacin histrica.
Falta de flexibilidad en la manipulacin de informacin.

A partir de la revisin de los proyectos se encuentra que los requerimientos de


este campo exigen el almacenamiento de grandes volmenes de datos, con
mltiples dimensiones, de periodos de tiempo extensos y con formatos
heterogneos al igual que sus fuentes.

Un Data Warehouse es un conjunto de datos integrados orientados a una materia,


que varan con el tiempo y que no son transitorios, los cuales soportan el proceso
de toma de decisiones de la administracin145.

Data Warehouse es un concepto relativamente nuevo, orientado al manejo de


grandes volmenes de datos, provenientes de diversas fuentes, de muy diversos
tipos. Estos datos cubren largos perodos de tiempo, lo que trae consigo que se
tengan diferentes esquemas de las bases de datos fuentes.
Su misin consiste en, a partir de estos datos y apoyado en herramientas
sofisticadas de anlisis, obtener informacin til para el soporte a la toma de
decisiones146. El data warehousing o almacenamiento de datos es el proceso de
reunir informacin histrica de una organizacin en una(s) base(s) de datos

142
Gene Expression Omnibus (Gen de expresin mnibus), Depsito publico internacional de archivos que
distribuye libremente microarrays, la secuenciacin de prxima generacin, y otras formas de datos
funcionales de alto rendimiento genmica presentadas por la comunidad cientfica.
143
Sistema de almacenamiento de datos para agregar archivos Affymetrix y los metadatos asociados.
144
Plataforma integrada para el intercambio de datos de microarrays, la minera y el anlisis.
145
HARJINDER S, Gill y PRAKASH C, Rao. Data Warehousing. La Integracion de Informacion para la Mejor
Toma de Decisiones. Mxico: Prentice Hall, 1996. 382p. ISBN 968-880-792-3.
146
DUQUE, Nstor Daro y TAMAYO, Alonso. Data Warehouse: Herramienta para la toma de decisiones
(Parte II). En: NOOS. Enero 2011. no.13.

51
central(es)147.

Los procesos asociados a Data Warehouse (Duque, 2001)148, (Escalante, 1996)149


como se muestra en la figura 1 son:

Poblacin (Cargue inicial, actualizaciones).


Almacenamiento (Estrategias para lograr eficiencia y disponibilidad).
Uso de herramientas para obtencin de informacin y extraccin del
conocimiento.

Figura 3. Proceso en Bodegas de Datos

D
a
t
o
s
O
p
e ORDENACION/
r
TRANSPORTE/ LIMPIEZA MEZCLA
EXTRACCION
a
c
i
o
n
a DATA WAREHOUSE
l
e
s

Fuente DUQUE, Nstor Daro y TAMAYO, Alonso. Data Warehouse: Herramienta


para la toma de decisiones (Parte II). En: NOOS. Enero 2011. no.13
Este ltimo proceso reviste gran importancia pero se fundamenta en el contenido
de la bodega de datos, con posibilidades de obtener informacin a partir de
simples consultas o aplicando herramientas OLAP150, que permiten obtener
informacin relacional y multidimensional, y mejor aun apoyarse en tcnicas de
minera de datos para extraer conocimiento oculto y realizar tareas descriptivas e
incluso predictivas.

Otra decisin a tomar en la propuesta del modelo informtico es la seleccin de la


arquitectura. La arquitectura enfoca el proyecto como componentes (Fuente de

147
ORFALI, Robert; HARKEY, Dan y EDWARDS, Jeri. Cliente/Servidor Gua de Supervivencia. 2 ed. Mxico:
McGraw-Hill, 1997. ISBN 9701017609.
148
DUQUE. Op. cit.
149
ESCALANTE, Ivn. Data Warehouse. En: Soluciones Avanzadas. Junio 1996. no.34.
150
On-Line Analytical Processing (Procesamiento Analtico en lnea).

52
datos, bodega de datos, datamart y el acceso y uso). La correcta definicin de la
misma es una condicin para el xito del proyecto151.

Estas son algunas de las tareas que deben ser sorteadas por el equipo encargado
del diseo, implementacin y montaje del sistema de bodegas de datos 152: La
integracin de datos y metadatos de diferentes fuentes y pocas; limpieza, filtrado
y refinacin de los datos; en los sistemas de procesamiento en lnea (OLTP153) el
detalle de las operaciones son muy importantes mientras que el Data Warehouse
se busca almacenar datos en forma condensada y agrupada.

Siendo la bodega de datos el resultado de la importacin de datos de diferentes


fuentes, las cuales son dinmicas, cambian con el tiempo, se requiere generar
mecanismos que garanticen la sincronizacin y aseguren la actualizacin a partir
de los cambios en las fuentes.

Para una correcta operacin de la bodega de datos es necesario tener correcta


informacin sobre los datos que se tienen almacenados, la administracin de
metadatos toma importancia.

El diseo de las bodegas de datos incluye el modelamiento dimensional, el


anlisis de fuentes de datos, el diseo fsico y el diseo de la arquitectura tcnica.
La definicin de los requerimientos de anlisis como un modelamiento
dimensional, permite identificar las tablas de hechos y las dimensiones asociadas,
incluyendo el detalle de atributos y jerarquas.

7.3.2.4 Datos en el objeto de estudio. Los datos de la bioinformtica consisten en


informacin biolgica y medica de diversos tipos:

Identificacin del paciente, factores de riesgo: vivienda, el entorno, sntomas,


enfermedades, caractersticas del paciente, examen fsico: mediciones, exmenes
para-clnicos, marcadores moleculares: secuencias, exmenes especializados:
imagen, radiografas.

Estos datos incluyen secuencias biolgicas (ADN, ARN, y protenas), genes o


expresin de protena, caractersticas funcionales, interacciones moleculares, datos
clnicos, descripciones de sistemas, y publicaciones relacionadas.

151
DUQUE, Nstor Daro y TAMAYO, Alonso. Data Warehouse: Herramienta para la toma de decisiones
(Parte I). En: NOOS. Enero 2011. no.12. p. 118-126.
152
Ibid.
153
Online transaction processing (Procesamiento de transacciones en lnea).

53
Los datos aparecen como secuencias, anotaciones de secuencias, modelos
estructurales, mapas fsicos, expedientes clnicos, caminos de interaccin, genes y
expresiones de la protena, interacciones de la protena-protena, y otras fuentes
tales como bases de datos, colecciones de los datos confidenciales, y publicaciones
relacionadas.

7.3.2.5. Seleccin de Arquitectura del Data Warehouse. Recogiendo conceptos


de Duque (2001) y Harjinder (1996) es necesario reconocer que otro elemento que
reviste importancia al momento de implementar una bodega de datos, es la
seleccin de la arquitectura. La arquitectura enfoca el proyecto como
componentes (Fuente de datos, bodega de datos, Datamart154 y el acceso y uso).

Los diferentes proveedores ofrecen diferentes modelos, de los cuales varios


enfoques son elegibles:

Consultas desde un esquema virtual hacia los datos operacionales.


Normalmente una bodega de datos se asocia con un almacn donde se hacen
copias de datos de aplicaciones en produccin y de carcter histrico. En esta
arquitectura se elimina la copia y actualizacin y se usan los datos de las
bases de datos operacionales, a partir del metamodelo del Data Warehouse,
los cuales se accesarn al momento de la consulta.

Almacenamiento propio a partir de varias fuentes. Bodega de datos


empresarial, no necesariamente centralizada. Se apoya en la normal
necesidad de preprocesar los datos desde las fuentes en operacin y aboga
por realizar esta tarea una vez y almacenarlos en bases propias, que sern
actualizadas peridicamente. A partir de stas se aplican las herramientas de
anlisis. Esta estrategia asegura la consistencia, pero es complejo de crear.

Datamarts o mercado de datos nicamente. Plantea y reconoce las


particularidades de cada rea o departamento de una organizacin y la
imposibilidad de ser satisfechos sus requerimientos por un solo Data
Warehouse. El concepto de datamarts es una analoga a tiendas de vecindario
que sirven a la poblacin del sector, en lugar de un gran supermercado que
abastece toda la ciudad. Los Datamarts son sub-bodegas, organizadas por
temas a nivel de departamentos. Esta arquitectura solo usa datamart.

Data Warehouse y mercado de datos. Es una combinacin de las dos


anteriores. El Data Warehouse corporativo es un recopilador y distribuidor de la
informacin sin desconocer las particularidades especificas de cada rea. Esta
154
Base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio
especfica. Puede ser alimentado desde los datos de un data warehouse, o integrar por si mismo un
compendio de distintas fuentes de informacin.

54
estrategia permite posibles inconsistencias en los datos.

Cliente Servidor en dos capas. Solo existen servidores de datos y clientes que
los usan. En el servidor (o servidores) residen las fuentes de datos, el Data
Warehouse y los datamarts. En los clientes, se ejecutan las herramientas de
acceso del usuario final; stas son generalmente aplicaciones grficas.

Cliente Servidor en tres capas. Las tareas se dividen en tres niveles:

Un servidor de datos, que contiene las fuentes de los datos.


Un servidor de aplicaciones, que contienen los datos de la bodega de
datos y manejan el software de Data Warehouse y datamarts.
La porcin cliente, que manejan las aplicaciones de consulta y
reporte.155

7.3.3 Minera de Datos. Definiciones formales de Minera de datos se han dado


en diferentes maneras. He aqu tres ejemplos: "el descubrimiento de conocimiento
en bases de datos es el proceso no trivial de la identificacin de informacin
vlida, potencialmente til y los patrones comprensibles en los datos"156 y,
"minera de datos es el proceso de extraer informacin vlida, previamente
desconocida, comprensible, y aplicable a partir de grandes bases de datos y
utilizable para tomar decisiones cruciales de negocios"157 o, para ser ms simple,
"minera de datos es encontrar informacin oculta en una base de datos"158.

El objetivo de la minera de datos es descubrir la informacin oculta, sin embargo


la informacin revelada debe ser:

1. Nueva: los hechos conocidos no son lo que se busca.


2. Correcta: la seleccin o representacin inapropiada de los datos dar lugar a
resultados incorrectos. La informacin que se extrae debe ser cuidadosamente
verificada por expertos en la materia.

3. Significativa: la informacin extrada debe significar algo y debe ser entendible.

4. Aplicable: la informacin que se extrae debe ser capaz de ser utilizada en el


155
BUSTOS RIOS, Ligia Stella; MORENO LAVERDE, Ricardo; DUQUE MENDEZ, Nestor Dario. MODELO DE UNA
BODEGA DE DATOS PARA EL SOPORTE A LA INVESTIGACIN BIOINFORMTICA. En: Scientia et Technica.
Universidad Tecnolgica de Pereira. ISSN 01221701.
156
FAYYAD, Usama M. Data mining and knowledge discovery: Making sense out of data. En: IEEE EXPERT.
vol. 11, Issue: 5. Octubre, 1996. p. 20
157
EVANGELOS, Simoudis. Reality check for data mining. En: IEEE Expert. vol. 1, Issue: 5. 1996. p.26
158
DUNHAM, Margaret H. Data mining: Introductory and advanced topics. New Jersey: Prentice Hall, 2003.
p.3.

55
dominio de un determinado problema.

7.3.3.1 Minera de datos para Bioinformtica. La minera de datos en


bioinformtica implica extraer informacin valiosa de una gran cantidad de datos
biolgicos; son necesarias herramientas de software eficientes para recuperar
datos, comparar secuencias biolgicas, descubrir patrones y visualizar el
descubrimiento del conocimiento.159

Anlisis de datos biomdicos. Los avances recientes en la investigacin de


la biologa molecular y la genmica, tales como los mtodos de secuenciacin de
alto rendimiento y tecnologa de microarray del ADNc 160, han generado una
cantidad enorme de datos, adems el anlisis eficiente de estos datos por
mtodos computacionales se est convirtiendo en un reto importante y con el afn
de lograr esto, muchos algoritmos se han desarrollado para la clasificacin de las
secuencias, la deteccin de similitudes, separando regiones de cdigos de
protenas de regiones no codificantes en Secuencias de ADN, la prediccin de la
estructura de las protenas, reconstruyendo as la historia evolutiva subyacente.

Una secuencia de ADN se compone de cuatro componentes, la adenina (A),


citosina (C), guanina (G) y timina (T), especificando el cdigo gentico del
organismo. Una secuencia de la protena est formada por 20 aminocidos,
codificados de la regin codificante de una secuencia de ADN.

Un desafo importante en la investigacin en bioinformtica es predecir la


estructura y la funcin de biosecuencias mediante el anlisis de diferentes datos
biomoleculares. La disponibilidad de bases de datos completas y herramientas de
software de gran alcance, han facilitado en gran medida la investigacin en estas
reas.

Base de datos de secuencias de nucletidos, Base de datos de secuencia


de protenas y base de datos de expresin gnica. Para facilitar la
investigacin y el intercambio de informacin entre los evolucionados
campos de la genmica y la bioinformtica, se han creado muchas bases
de datos pblicas en lnea. Estas bases de datos permiten a los
investigadores compartir sus trabajos o acceder a los trabajos de los dems
de la manera ms actualizada.
159
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.63.
160
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm.
Se genera por accin de la enzima trasncriptasa inversa y tiene mltiples usos tanto en investigacin bsica
como aplicada a biomedicina.

56
De hecho, el nico mtodo de conseguir al da informacin de secuencias
de cidos nuclicos y de protenas es accediendo a un
computador. Adems, varias revistas que publican investigaciones sobre
secuenciacin hoy en da requieren que los investigadores depositen sus
secuencias electrnicamente en una de las principales bases de datos
antes de la publicacin de sus trabajos. Por lo tanto, es importante estar
familiarizado con las principales bases de datos.

Herramientas de Software para la Investigacin de Bioinformtica. Debido a


la gran cantidad de datos disponibles, el anlisis de datos biomdicos est
cobrando ms importancia que nunca. Muchas herramientas de software han sido
desarrolladas para este propsito.

Las herramientas de software que facilitan la investigacin en bioinformtica


pueden clasificarse en cuatro clases: (1) herramientas de recuperacin de datos,
(2) comparacin de la secuencia y las herramientas de alineacin, (3)
herramientas de descubrimiento de patrones, y (4) herramientas de visualizacin.

Una herramienta importante para la recuperacin de datos es Entrez161, es un


sistema integrado de recuperacin de datos desarrollado por la NCBI que
proporciona un acceso integrado a una amplia gama de dominios de datos,
incluyendo la literatura de secuencias, nucletidos y protenas, genomas
completos, estructuras 3D, y mucho ms. Se puede utilizar Entrez para:

Identificar un registro representativo, una buena anotacin de la secuencia


de ARNm162 de las millones de secuencias en el dominio de datos de
Entrez Nucleotide.
Recuperar la literatura y los registros asociados a la protena.
Identificar dominios conservados dentro de la protena.
Identificar las mutaciones conocidas en el gen o la protena.
Encontrar una estructura tridimensional resuelta para la protena, o, en su
defecto, identificar las estructuras de secuencia homloga.
ver el contexto genmico del gen y descargar la regin de la secuencia.

161
GEER, Renata C. y SAYERS, Eric W. Entrez: Making use of its power. En: Briefings in Bioinformatics. vol. 4,
no. 2. Junio, 2003. p. 179.
162
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.

57
Las herramientas de comparacin de la secuencia de uso comn y
alineacin son BLAST163 y FASTA164. La principal caracterstica del BLAST es su
velocidad, pudiendo tomar pocos minutos para realizar cualquier bsqueda en la
totalidad de la base de datos. De hecho, los resultados se presentan en pantalla
inmediatamente despus de calculados.

BLAST puede hacer bsquedas en una base de datos no redundante (nr) la cual
tiene los registros no redundantes entre las dos bases de datos principales a nivel
mundial: GenBank en los Estados Unidos de Amrica y EMBL (European
Molecular Biology Laboratories) en Europa. Adems, BLAST tiene cinco mdulos
de bsqueda que amplan las posibilidades:

BLASTp: compara una secuencia problema de aminocidos contra una


base de datos de secuencias de protenas.
BLASTn: compara una secuencia problema de nucletidos contra una base
de datos de secuencias de nucletidos.
BLASTx: compara una secuencia problema de nucletidos traducida en sus
seis posibles marcos de lectura contra una base de secuencias de
protenas.
TBLASTn: compara una secuencia problema de aminocidos contra toda la
base de datos de nucletidos traducida en sus seis posibles marcos de
lectura.
TBLASTx: compara las seis traducciones en sus marcos de lectura de la
secuencia problema de nucletidos, contra las seis traducciones en sus
marcos de lectura de toda la base de datos de nucletidos.

BLAST resulta ser el algoritmo a escoger en una bsqueda preliminar de similitud


entre una secuencia problema y las bases de datos disponibles. Provee como
primer resultado una medida cuantitativa de la similitud de la secuencia problema
contra cada una de las secuencias de la bases de datos. Es una herramienta de
alineamiento local por pares. Consiste en hacer coincidir un par de secuencias. Es
decir, slo producen alineamientos por pares de la secuencia problema con cada
una de las secuencias de la base de datos con las que muestra alta similitud.165
FASTA se puede utilizar para hacer una comparacin rpida de protenas o una
comparacin rpida de nucletidos.

163
Basic Local Alignment Search Tool (Alineacin de base local de herramientas de bsqueda).
164
Fast Alignment (Alineamiento Rpido). Disponible desde internet en:
<http://www.EBI.ac.uk/Tools/sss/fasta/>
165
EMBnet Colombia. s.f. Algoritmos de Comparacion de Secuencias BLAST [en lnea]. Bogot, Colombia.
Disponible desde internet en: <http://bioinf.ibun.unal.edu.co/documentos/BLAST/BLAST.php>. [citado en
julio 12 de 2011].

58
El programa alcanza un alto nivel de sensibilidad para la bsqueda de similitud a
alta velocidad mediante la realizacin de bsquedas optimizadas para
alineamientos locales, utilizando una matriz de sustitucin.

La alta velocidad de este programa se logra utilizando el patrn observado de


accesos de palabras para identificar coincidencias potenciales antes de intentar la
bsqueda de consumo de tiempo optimizado.166

Para la alineacin de secuencias mltiples, la herramienta disponible es


ClustalW167. Esta se puede utilizar para alinear las secuencias de ADN o de
protenas con el fin de dilucidar sus relaciones, as como su origen evolutivo.

La ltima versin es la 2.0.12 (2009), cuya principal novedad es que fue


completamente reescrita en C++.1 Hay dos variantes:

ClustalW2: interfaz de lnea de comandos.


ClustalX: esta versin tiene una interfaz grfica. Est disponible para
Unix/Linux, Mac OS y Windows.

Este programa acepta un amplio rango de formatos de entrada. Incluyendo


NBRF/PIR, FASTA, EMBL/Swissprot, Clustal, GCC/MSF, GCG9 RSF y GDE.168

Las herramientas de descubrimiento de patrones se utilizan para buscar patrones


o caractersticas de los datos. Una herramienta importante utilizada para esto es el
Anlisis de Cluster, el cual se utiliza para encontrar grupos en un determinado
conjunto de datos de tal manera que los objetos en el mismo grupo sean similares
entre s, mientras que los objetos en los distintos grupos sean diferentes.

El anlisis de cluster se ha utilizado ampliamente en el anlisis de datos 169 de la


expresin gnica, de otra aplicacin importante de las herramientas de
descubrimiento de patrones en el anlisis de secuencias. Este tipo de
herramientas utiliza el modelado matemtico avanzado y las inferencias
estadsticas para encontrar subsecuencias especficas, sitios funcionales y
estructuras, tales como los genes de la prediccin, el exn/intrones, sitios de

166
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.69.
167
Disponible desde internet en: <http://www.EBI.ac.uk/Tools/msa/clustalw2/>
168
Clustal: Multiple Sequence Alignment. 26 de junio de 2011. Multiple alignment of nucleic acid and protein
sequences [en lnea]. s.l. Disponible desde internet en: <http://www.clustal.org/#News> [citado en julio 12
de 2011].
169
Disponible desde internet en: <http://rana.lbl.gov/EisenSoftware.htm>

59
empalme, los sitios de unin del factor de transcripcin, promotores y estructura
de la protena en 2D y 3D.

Una herramienta til integrada para el descubrimiento de patrones de expresin es


GeneQuiz170. GeneQuiz es un sistema integrado de gran escala, para el anlisis
de secuencias biolgicas usando una variedad de mtodos de bsqueda y
anlisis, puesta al da de protenas y bases de datos de ADN.

Se compone de cuatro mdulos: (1) GQupdate, la actualizacin de la base de


datos, (2) GQsearch, el sistema de bsqueda, que tambin incluye muchas
herramientas de anlisis de la secuencia para el anlisis funcional de la secuencia
de la protena, (3) GQreason el mdulo de interpretacin, y (4) GQbrowse la
visualizacin y sistema de navegacin.

Las herramientas de visualizacin permiten una visualizacin interactiva y grfica


de los datos genmicos. Los ms grandes paquetes de anlisis, tales como
Expression Profiler171 y GeneQuiz, tienen una herramienta de visualizacin
integrada en ellos. Adems, muchos paquetes de software de visualizacin
tambin se encuentran disponibles gratuitamente en Internet. Algunos ejemplos
son los siguientes:

TreeView: que proporciona una representacin grfica de los resultados de


la agrupacin y otros anlisis del Cluster acompaados en un paquete, y
soporta los rboles y la imagen de navegacin basada en los rboles
jerrquicos.172
Protein Explorer173: que proporciona una visualizacin en 3D de la
estructura de protenas en un sistema interactivo.174
En resumen, con la riqueza de la informacin generada por el cambio tecnolgico
y el avance en las ciencias biolgicas, es un requisito bsico tener cierta
familiaridad con las diversas bases de datos y herramientas informticas y permitir
a su vez que un investigador se beneficie de los esfuerzos y contribuciones de
muchos bilogos y cientficos.175

170
Disponible desde internet en: <http://swift.cmbi.kun.nl/swift/genequiz/>
171
Expresin Profiler: Next Generation es una abierta y extensible plataforma web de colaboracin para la expresin de
microarrays de genes, la secuencia y el anlisis de los datos de PPI, la exposicin de distintos componentes de conexin
de cadenas para clusters, el descubrimiento de patrones, las estadsticas (a travs de R), los algoritmos de aprendizaje
automtico y la visualizacin.
172
Disponible desde internet en: <http://rana.lbl.gov/EisenSoftware.htm>
173
Disponible desde internet en: <http://www.proteinexplorer.org>
174
MARTZ, Eric. 3D molecular visualization with Protein Explorer. En: KRAWETZ, Stephen A., WOMBLE, David D.
Introduction to Bioinformatics: A Theoretical and Practical Approach. Totowa, New Jersey: Humana Press, 2003. p. 565.
175
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.71.

60
Comparacin y alineacin de secuencia. Despus de que se obtiene una
secuencia de ADN, el siguiente paso es estudiar la informacin estructural y
funcional codificada en dicha secuencia. Una forma de hacerlo es mediante la
comparacin de la nueva secuencia con las secuencias que ya estn bien
estudiadas y documentadas. Las secuencias que son similares probablemente
tienen la misma funcin, ya sea un papel funcional (es decir, ORFs176) que
codifican protenas similares, el papel de regulador, o las propiedades
estructurales en el caso de las protenas.

Adems, si dos secuencias de diferentes organismos son similares, puede haber


una secuencia ancestro comn, y se dice entonces que las secuencias son
homologas. La relacin entre las secuencias homlogas tiene importantes
implicaciones en el estudio de la especiacin y el anlisis filogentico.

Un mtodo para la comparacin de la secuencia es la alineacin de secuencias.


La alineacin de la secuencia es el procedimiento de comparacin de dos
(alineacin de pares) o ms (alineamiento de secuencias mltiples) secuencias
mediante la bsqueda de una serie de caracteres individuales o patrones de
caracteres que se encuentran en el mismo orden en dichas secuencias. Para la
comparacin, base por base de dos secuencias, se necesita una alineacin
rigurosa de las dos secuencias utilizando tcnicas de comparacin de cadenas.

El mtodo estndar de la alineacin por parejas se basa en la programacin


dinmica177 este mtodo compara todos los pares de caracteres en las dos
secuencias, y genera un alineamiento y una anotacin, que depende del sistema
de puntuacin utilizado (es decir, una matriz de puntuacin para las distintas
combinaciones de pares de bases). En esta alineacin se incluyen caracteres
coincidentes y no coincidentes y las brechas en las dos secuencias que se
colocan, por lo que el nmero de coincidencias entre los caracteres idnticos es el
mximo posible.

Los alineamientos de secuencias pueden ser globales178 o locales. El alineamiento


global trata de alinear toda la secuencia, de tal manera que se maximice el grado
de similitud entre las dos secuencias. Sin embargo, para la mayora de las
comparaciones de secuencias de ADN, por lo general estn ms interesados en

176
ORF: Open Reading Frame, es una herramienta de anlisis grfico que encuentra todos los frames de
lectura abierta de un tamao mnimo seleccionable en la secuencia de un usuario o en una secuencia que ya
estn en la base de datos.
177
SMITH, Temple F. y WATERMAN, Michael S. Comparison of biosequences. En: Advances in applied
mathematics. 2 ed. California: Academic Press, 1981. p. 482.
178
SMITH, Temple F. y WATERMAN, Michael S. Comparison of biosequences. En: Advances in applied
mathematics. 2 ed. California: Academic Press, 1981. p. 487.

61
encontrar patrones de conservacin o segmentos en dos secuencias de la
alineacin local.

En la alineacin local, la alineacin se detiene en los extremos de las regiones de


gran similitud, y se le da mucha ms prioridad a la bsqueda de estas regiones
locales que a la ampliacin de la alineacin para incluir ms pares vecinos. El
algoritmo Smith-Waterman encuentra un par de segmentos, uno por cada dos
secuencias de largo, de tal manera que no hay otro par de segmentos con mayor
similitud.

Tanto el algoritmo Needleman-Wunsch y el algoritmo de Smith-Waterman para


alineamiento de secuencias estn disponibles libremente en EMBOSS179 , el cual
fue desarrollado especialmente para las necesidades de la comunidad de usuarios
de biologa molecular, por ejemplo, EMBnet. Este software hace frente
automticamente a los datos en una variedad de formatos e incluso permite la
recuperacin transparente de los datos de la secuencia de la web.

EMBOSS tambin integra una serie de paquetes disponibles en la actualidad y las


herramientas para el anlisis de secuencias, en pocas palabras EMBOSS rompe
la tendencia histrica hacia los paquetes de software comercial. Adems se
establece una nueva versin cada ao.180

A pesar de que la programacin dinmica para la alineacin de la secuencia es


una tcnica matemtica eficaz para una alineacin ptima, todava es demasiado
lenta para la comparacin de un gran nmero de bases. Las bases de datos
tpicas de ADN de hoy en da contienen miles de millones de bases, y el nmero
est aumentando rpidamente.

Para permitir que la bsqueda de secuencia y la comparacin se realicen en un


plazo razonable, se han desarrollado rpidos algoritmos heursticos locales para
alineacin. Aunque la alineacin resultante no se garantiza que sea la ms ptima,
la ventaja de la tremenda velocidad de los algoritmos parece ser muy superior a
sus deficiencias en la optimizacin o la sensibilidad.

La herramienta ms utilizada de bsqueda heurstica es la base de datos BLAST,


que va uno a dos rdenes de magnitud ms rpido que el algoritmo de Smith-
Waterman; sta se ha convertido en el estndar para la alineacin de secuencias
y la bsqueda de bases de datos. BLAST est disponible gratuitamente en
muchos sitios web en todo el mundo, como el NCBI y el EBI.

179
The European Molecular Biology Open Software Suite (La Suite Europe de Biologa Molecular de
Software Libre).
180
EMBnet. s.f. EMBOSS [en lnea]. Bari, Italia. Disponible desde internet en:
<http://www.embnet.org/en/node/114 > [citado en julio 15 de 2011].

62
Tambin se han desarrollado variantes de BLAST para la bsqueda de diferentes
tipos de bases de datos y para diferentes aplicaciones, por ejemplo, el sitio web de
NCBI ofrece diferentes tipos de bases de datos de bsqueda BLAST que
permitirn a los usuarios la bsqueda de secuencias de protenas, secuencias de
ADN/ARN, la bsqueda del genoma entero, etc.181

Tcnicas de minera de datos en Bioinformtica.

KDD. Existe cierta tendencia a identificar como sinnimos a la minera de


datos y el descubrimiento de conocimientos en bases de datos, que de
forma abreviada se refiere con las siglas KDD182, la convergencia del
aprendizaje automtico, la estadstica, el reconocimiento de patrones, la
inteligencia artificial, las bases de datos, la visualizacin de datos, los
sistemas para el apoyo a la toma de decisiones, la recuperacin de
informacin y otros muchos campos.

El KDD es el proceso completo de extraccin de conocimientos, no triviales,


previamente desconocidos y potencialmente tiles a partir de un conjunto
de datos, mientras que la minera de datos es una compilacin de tcnicas
reunidas para crear mecanismos adecuados para la toma de decisiones.
Entre estas tcnicas se pueden citar la estadstica, el reconocimiento de
patrones, la clasificacin y la prediccin, la excavacin de informacin
relevante de la administracin empresarial, el control de la produccin, el
anlisis de los mercados, el diseo en ingeniera y la exploracin cientfica.

En otras palabras, el concepto minera de datos se asocia al proceso de


construccin de reglas a partir de colecciones de datos con una finalidad
previamente determinada y para su uso en la toma de decisiones con
respecto a dicha finalidad. El concepto de KDD no comprende
necesariamente esta segunda parte. Esta diferencia, muchas veces
inadvertida, puede ser la causa de que ambos conceptos se utilicen
indistintamente en gran parte de la literatura.183

181
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.77.
182
Knowledge Discovery from Database (Descubrimiento del Conocimiento de Bases de Datos).
183
FEBLES RODRGUEZ, Juan Pedro y GONZLEZ PREZ, Abel. Aplicacin de la minera de datos en la
bioinformtica. En: ACIMED Revista Cubana de los Profesionales de la Informacin y la Comunicacin en
Salud. vol.10 no. 2. Marzo - abril 2002. ISSN 1024-9435.

63
Minera de Texto184. Debido a que la mayor parte de la informacin sobre
funciones e interacciones de genes se encuentra en la literatura y en las
bases de datos biomdicas, es necesaria la aplicacin de nuevos y
potentes mtodos de procesamiento y acceso a la informacin.

La minera de datos y la minera de texto o minera textual surgen como


tecnologas emergentes que sirven de soporte para el descubrimiento de
conocimiento que poseen los datos almacenados.

La minera textual se orienta a la extraccin de conocimiento a partir de


datos no-estructurados en lenguaje natural almacenados en las bases de
datos textuales, se identifica con el descubrimiento de conocimiento en los
textos y se le denomina comnmente KDT185. Tanto la minera de datos
como la minera de texto son tcnicas de anlisis de informacin.

En el caso de la informacin textual, mediante el proceso de anlisis se le


agrega valor a la informacin hasta convertirla en conocimiento, slo las
computadoras pueden manipular rpidamente la gran cantidad de datos.

La minera de texto es una herramienta de anlisis encargada del


descubrimiento de conocimiento que no exista explcitamente en ningn
texto de la coleccin, pero que surge de relacionar el contenido de varios de
ellos186.

Segn Hearst (1999)187 la minera de texto adopta un enfoque


semiautomtico, estableciendo un equilibrio entre el anlisis humano y
automtico: antes de la etapa de descubrimiento de conocimiento es
necesario procesar de forma automtica la informacin disponible en
grandes colecciones documentales y transformarla en un formato que
facilite su comprensin y anlisis. El procesamiento de grandes volmenes
de texto libre no-estructurado para extraer conocimiento requiere la
aplicacin de una serie de tcnicas de anlisis ya utilizadas en la
Recuperacin de Informacin (RI), el Procesamiento del Lenguaje Natural
(PLN) y la Extraccin de Informacin (EI), tales como la identificacin y
extraccin de patrones, anlisis de clustering, clasificacin, o visualizacin
de datos.

184
GLVEZ, Carmen, PhD. MINERA DE TEXTOS: LA NUEVA GENERACIN DE ANLISIS DE LITERATURA
CIENTFICA EN BIOLOGA MOLECULAR Y GENMICA. Granada, Espaa: Facultad de Comunicacin y
Documentacin, 2008. 14p.
185
Knowledge-Discovery in Text (Descubrimiento del conocimiento en el texto).
186
HEARST, Marti A.. Automated Discovery of wordnet relations. En: FELLBAUN, Christiane. WordNet: An
Electronic Lexical Database. Cambridge, Reino Unido: MIT Press. 1998. S.d.
187
HEARST, M. Untangling text data mining. En: Proceedings of ACL'99: the 37th Annual Meeting of the
Association For Computational Linguistic ACL. 1999. p. 3-10.

64
Las bases de datos biolgicas pueden ser clasificadas en dos tipos 188 de
bancos de datos estructurados, con registros sobre secuencias y
estructuras moleculares, tales como las bases de datos SwissProt7 o
GenBank; y 2) bases de datos textuales no-estructuradas, con registros en
lenguaje natural, tales como PubMed y MEDLINE. La relacin entre estas
dos formas de informacin estructura y no estructurada es clave.

El conocimiento sobre el genoma no se limita al ADN o las secuencia


genmicas, hay una gran cantidad de informacin sobre estos genes,
almacenada en formatos no-estructurados dentro de millones de
publicaciones. Los bilogos pueden extraer medidas entre dos secuencias
de ADN de un banco de datos, como GenBank, pero esta relacin puede
ser identificada y descrita semnticamente con relaciones conceptuales
extradas de PubMed o MEDLINE.

Generalmente, el conocimiento biolgico en las bases de datos textuales


puede ser descubierto a travs de tres procesos bsicos189 1) aproximacin
top-down, en la cual los investigadores formulan hiptesis que conducen a
experimentos especficos, o se crean ontologas para describir la
terminologa y el conocimiento en un dominio dado; 2) aproximacin
bottom-up, que persiguen descubrir patrones interesantes o asociaciones
en los datos existentes, que a su vez se usan para formular nuevas
hiptesis, las tcnicas de clustering son las que se usan de forma ms
frecuente para este propsito; y 3) mtodos hbridos, que implican la
combinacin de varias tcnicas y fuentes de conocimiento, tales como
mtodos de recuperacin de informacin y anlisis de co-ocurrencia, para
obtener conjuntos de documentos que puedan ayudar a los investigadores
a articular nuevas hiptesis.

En relacin con lo anterior, la minera de la literatura constituye un campo


de investigacin de la lingstica computacional que combina diversos
procedimientos y tcnicas de anlisis de textos con el propsito de
establecer relaciones entre entidades biolgicas (como relaciones gen-gen,
gen-enfermedad, gen-protena, o gen-drogas) para interpretar funciones
biolgicas o formular hiptesis de investigacin.

188
STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and visualization from co-occurences of
gene names in Medline abstracts. En: In Proceedings of the Fifth Annual Pacific Symposium on Biocomputing.
2000. p. 529-540.
189
LEROY, G y CHEN, H. Genescene: An ontology-enhanced integration of linguistic and co-occurrence based
relations in biomedical texts. En: Journal of the American Society for Information Science and Technology.
vol. 56, no. 5. 2005. p. 457-468.

65
La informacin textual, como la que se encuentra en MEDLINE, es una
fuente infrautilizada de informacin biolgica para los investigadores. Por
esta razn, cada vez son ms los sistemas dedicados a analizar resmenes
de MEDLINE para ofrecer servicios de informacin bio-relacionada.

El objetivo de la minera de textos en Biologa Molecular y Genmica sera,


por tanto, permitir a los investigadores identificar informacin de forma
eficaz, descubrir relaciones no percibidas, ante el gran volumen de
informacin disponible, y ayudar a descubrir conocimiento.

Por otra parte, el inters creciente de esta rama de la lingstica


computacional se refleja en el desarrollo de diversos proyectos de minera
de la literatura, como Suiseki190, MedMiner191, GeneCards192, XplorMed193,
EDGAR194, BioBibliometrics195, GENIS196, o GIS197. Tambin, son cada vez
ms frecuentes los congresos internacionales que reflejan el inters de la
aplicacin de las tcnicas de minera a la Biomedicina y Biologa Molecular,
tales como ISMB (Intelligent Systems for Molecular Biology), ECCB
(European Conference on Computational Biology) o PSB (Pacific
Symposium on Biocomputing).

Anlisis de clustering, categorizacin automtica y visualizacin grfica. Los


algoritmos de minera se dividen generalmente en mtodos no-
supervisados, tales como algoritmos de clustering y tcnicas de
visualizacin, y mtodos supervisados, tales como clasificacin de
documentos en una serie de categoras preestablecidas, o en ontologas
creadas previamente.

Los algoritmos de clustering agrupan las muestras de entrada en una serie


de grupos, atendiendo a diferentes criterios, uno de los ms habituales lo
190
BLASCHKE, C. y VALENCIA, A. The frame-based module of the SUISEKI information extraction system. En:
IEEE Intelligent Systems. vol. 17, no. 2. 2002. p. 14-20.
191
TANABE, L., et al. MedMiner: an Internet tex-mining tool for biomedical information, with application
togene expression profiling. En: BioTechniques. vol. 27, no. 6. 1999. p. 1210-1217.
192
SAFRAN, M., et al. GeneCards 2000: towards a complete, objectoriented, human gene compendium. En:
Bioinformatics. vol. 18. 2002. p. 1542-1543.
193
PEREZ-IRATXETA, C., BORK, P. y ANDRADE, M. XplorMed: a tool for exploring MEDLINE abstracts. En:
Trends in Biochemical Sciences. vol. 26, no. 9. 2001. p. 573-575.
194
RINDFLESCH, T. C., et al. EDGAR: extraction of drugs, genes and relations from the biomedical literature.
En: Pacific Symposium on Biocomputing. 2000. p. 517-528.
195
STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and visualization from co-occurences of
gene names in Medline abstracts. En: In Proceedings of the Fifth Annual Pacific Symposium on Biocomputing.
2000. p. 529-540.
196
FRIEDMAN, C., et al. GENIS: a natural-language processing system for the extraction of molecular
pathways from journal articles. En: Bioinformatics. vol. 17, no. 1. 2001. p. 74-82.
197
CHIANG, J.; YU, H. y HSU, H. GIS: a biomedical text-mining system for gene information discovery. En:
Bioinformatics. vol. 20, no. 1. 2004. p. 120-121.

66
constituyen las relaciones de co-ocurrencia. En el caso de un banco de
datos, los bilogos pueden establecer relaciones binarias numricas entre
entidades por alineamiento, o medidas de co-ocurrencia numrica, entre
secuencias de ADN. En el caso de un corpus textual, los bilogos pueden
establecer relaciones binarias semnticas entre entidades por medio de la
co-ocurrencia de trminos, como propone la Bio-Bibliometra198.

Aunque la forma ms simple de detectar relaciones entre entidades


biolgicas es calcular la co-occurencia de trminos o smbolos, las
interacciones entre se pueden visualizar en mapas o redes biolgicas 199.
Por otra parte, la tcnica de categorizacin automtica ms utilizada en la
minera textual biomdica consiste en clasificar textos biomdicos
asociando entidades biolgicas con trminos seleccionados de ontologas,
como los cdigos Gene Ontology (GO)200.

Estadistica en la minera de datos. La minera de datos incluye los aspectos


de la estadstica, la ingeniera y la informtica. Las tareas de minera de
datos estadsticos se pueden dividir en dos grupos:

Aprendizaje supervisado: en el que se tiene conocimiento de que los


ejemplos son agrupados por adelantado y en el que el objetivo es deducir la
forma de clasificar las futuras observaciones201. Ejemplos: la prediccin de
los genes si una terapia determinada ser eficaz o no. Clasificacin de las
transacciones de tarjeta de crdito como fraudulenta y no fraudulenta.

Aprendizaje no supervisado: consiste en la deteccin previa de los


grupos hasta ahora desconocidos de casos "similares" en los
datos. Ejemplo: Agrupacin de los depredadores con respecto a
su presa. La identificacin de genes con una funcin biolgica similar.202

198
STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and visualization from co-occurences of
gene names in Medline abstracts. En: In Proceedings of the Fifth Annual Pacific Symposium on Biocomputing.
2000. p. 529-540.
199
NG y WONG, 1999; BLASCHKE y VALENCIA, 2002; y GALVEZ y MOYA-ANEGN, 2007.
200
RAYCHAUDHURI, S., et al. Associating genes with gene ontology codes using a maximum entropy analysis
of biomedical literature. En: Genome Research. vol. 12. 2002. p. 203-214.
201
La clasificacin predice una variable nominal, mientras que la regresin general predice una variable
continua, aunque hay tcnicas de regresin de las variables nominales tambin.
202
VOS, Wiesner y EVERS, Ludger. MSc in Bioinformatics: Statistical Data Mining. 14 de septiembre de 2004.
p. 8. Disponible desde internet en: <http://www.stats.ox.ac.uk/~nicholls/ms1/VosEversFullNotes.pdf>
[citado en julio 14 de 2011].

67
7.3.4 Mquinas de Aprendizaje en Bioinformtica

7.3.4.1 Introduccin. Dada la complejidad y el volumen gigantesco de la


informacin biolgica, los algoritmos tradicionales y las ciencias tcnicas de un
ordenador no pueden resolver los complejos problemas biolgicos del mundo real.
Sin embargo, existen modernos enfoques computacionales llamados Mquinas de
Aprendizaje que pueden resolver las limitaciones de las tcnicas tradicionales.

Una mquina de aprendizaje es un proceso adaptativo que permite a las


computadoras aprender de la experiencia, aprender con el ejemplo, y aprender por
analoga. Las capacidades de aprendizaje son esenciales para mejorar de forma
automtica el rendimiento de un sistema computacional a travs del tiempo sobre
la base de los resultados anteriores.

Un modelo tpico de aprendizaje bsico consiste en los siguientes cuatro


componentes:

elemento de aprendizaje, responsable de mejorar su rendimiento,


elemento de rendimiento, el cual elige las acciones a tomar,
elemento crtico, que cuenta como el elemento de aprendizaje realiza el
algoritmo, y
generador de problemas, responsable de sugerir acciones que puedan
informar o conducir a nuevas experiencias.203

La mquina de aprendizaje generalmente se puede dividir en tres fases, de la


siguiente manera:

1. anlisis de un conjunto de ejemplos de capacitacin y generacin de las reglas


del grupo de entrenamiento,

2. verificacin de las normas por expertos humanos o el conocimiento automatico


basado en components, y

3. uso de las normas validadas en respuesta a algunos nuevos conjuntos de datos


de prueba.204

Hay una serie de razones por las que los enfoques de aprendizaje automtico son

203
ADELI, 1995; FINLAY y DIX, 1996; KUONEN, 2004; NARAYANAN et al., 2002; NEGNEVITSKY, 2002;
NILSSON, 1996; BALDI y BRUNAK, 2001; y WESTHEAD et al., 2002.
204
FINLAY, Janet y DIX, Alan. An Introduction to Artificial Intelligence. Reino Unido: UCL Press, Taylor &
Francis Group, 1996. ISBN 1-85728-399-6.

68
ampliamente utilizados en la prctica, especialmente en bioinformtica:205

Tradicionalmente, el ser humano construye un sistema experto mediante la


recopilacin de conocimientos de expertos especficos. Los expertos
siempre puede explicar qu factores utilizan para evaluar una situacin, sin
embargo, a menudo es difcil para los expertos decir cules son las normas
que utilizan, por ejemplo, para el anlisis de la enfermedad y control. Este
problema puede resolverse mediante los mecanismos de mquinas de
aprendizaje.

Los sistemas a menudo producen resultados diferentes a los deseados.


Esto puede ser causado por propiedades desconocidas o funciones de
entradas durante el diseo del sistema. Esta situacin siempre ocurre en el
mundo biolgico, debido a las complejidades y a los misterios de las
ciencias de la vida. Sin embargo, con su capacidad de mejora dinmica, las
mquinas de aprendizaje pueden hacer frente a este problema.

En la investigacin de la biologa molecular, todos los das se generan


nuevos datos y conceptos, y estos actualizan o reemplazan a los antiguos.
Las mquinas de aprendizaje se pueden adaptar fcilmente a un entorno
cambiante. Este sistema beneficia a los diseadores, ya que no es
necesario redisear cada vez que cambia el entorno.

Unas de las caractersticas de los datos biolgicos es que son faltantes y


ruidosos. Las tcnicas informticas convencionales fallan al manejar estos
datos. Las mquinas de aprendizaje automticas son capaces de hacer
frente a estos datos faltantes y ruidosos.

Con los avances en biotecnologa, se generan enormes volmenes de


datos biolgicos. Adems, es posible que existan importantes relaciones
ocultas y correlaciones entre los datos. Los mtodos de las mquinas de
aprendizaje estn diseados para manejar conjuntos de datos muy
grandes, y pueden ser utilizados para extraer este tipo de relaciones.

Existen algunos problemas biolgicos en los que los expertos slo pueden
especificar pares de entrada/salida, pero no las relaciones entre las
entradas y salidas, tales como la prediccin de la estructura de la protena y
secuencias estructurales y funcionales. Esta limitacin puede ser abordada
por los mtodos de las mquinas de aprendizaje. Ellas son capaces de
ajustar su estructura interna para producir resultados aproximados para los
problemas planteados.

205
NARAYANAN, et al., 2002; NILSSON, 1996; BALDI y BRUNAK, 2001; y WESTHEAD, et al., 2002.

69
Los mecanismos de la mquina de aprendizaje son la base de los sistemas
adaptativos. En investigacin bioinformtica, una serie de enfoques de las
mquinas de aprendizaje se aplican para descubrir nuevos conocimientos
significativos de las bases de datos biolgicas, para analizar y predecir
enfermedades, agrupar elementos genticos similares, y encontrar relaciones o
asociaciones en los datos biolgicos. Ejemplos de los enfoques de las mquinas
de aprendizaje en la investigacin bioinformtica se muestran en la Tabla 1.1.

70
Tabla 2. Investigaciones existentes sobre bioinformtica que han aplicado tcnicas
de Mquinas de Aprendizaje

rea de Investigacin Aplicacin Referencia


Alineacin de BLAST http://www.ncbi.nlm.nih.gov/BLAST/
secuencias
FASTA http://www.ebi.ac.uk/fasta33/
Alineacin de multiples ClustalW http://www.ebi.ac.uk/clustalw/
secuencias
MultiAlin
http://multalin.toulouse.inra.fr/multalin/
DiAlign

http://www.genomatix.de/cgi-
bin/dialign/dialign.pl
Prediccin de genes Genscan http://genes.mit.edu/GENSCAN.html

http://genes.mit.edu/genomescan/
GenomeScan
http://exon.gatech.edu/GeneMark/
GeneMark
Anlisis de protenas e Pfam http://pfam.sanger.ac.uk/
identificacin de
dominio
BLOCKS http://blocks.fhcrc.org/

ProDom
http://prodom.prabi.fr/prodom/current/
html/home.php
Patrn de identificacin Gibbs Sampler http://bayesweb.wadsworth.org/gibbs/
gibbs.html

AlignACE http://atlas.med.harvard.edu/cgi-
bin/alignace.pl

MEME http://meme.sdsc.edu/meme/meme-
intro.html
Plegamiento de PredictProtein http://www.predictprotein.org/
prediccin de proteinas http://swissmodel.expasy.org/

SwissModle

Fuente PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania:


Springer-Verlag Berlin Heidelberg, 2005. p.119.

71
7.3.4.2 Redes neuronales artificiales206. El proceso de aprendizaje es un
fenmeno complejo. Muchas preguntas desconcertantes surgen del mismo.
Cmo se pueden reconocer los rostros de los dems? Cmo se pueden
identificar los patrones complejos de la cara? Cmo se pueden discriminar
imgenes y fondos? Cmo se aprende un acceso directo para ir a una
universidad? Para responder a estas preguntas, es necesario saber cmo
funciona el cerebro.

Los Neuronistas afirman que el cerebro es una coleccin de unas 10 mil millones
de unidades celulares llamadas neuronas densamente interconectadas. Cada
neurona se compone de un cuerpo llamado soma celular, un nmero de
extensiones conectadas a un millar de neuronas adyacentes llamadas dendritas, y
una lnea de transmisin extendida desde el soma llamada axn.

La dos extensiones especializadas de un soma son responsables de llevar la


informacin desde /hasta un cuerpo celular. Las dendritas llevan la informacin a
un cuerpo celular y los axones la toman de l (la informacin fuera del cuerpo
celular). La conexin entre dos neuronas, en particular, entre un axon terminal y
otra neurona, es llamada sinapsis.

Cada neurona utiliza las reacciones bioqumicas para recibir y transmitir los
procesos de la informacin. Las neuronas se comunican entre s a travs de un
proceso electroqumico, esto significa que los productos qumicos crean una seal
elctrica y cuando una neurona no enva una seal, se encuentra en un estado de
reposo. El interior de la neurona tiene un potencial elctrico negativo. Cuando una
neurona enva una seal, causa un cambio en el potencial elctrico del cuerpo
celular. El cambio se produce debido a la liberacin de sustancias qumicas de la
clula sinptica, llamados neurotransmisores. Cuando el potencial supera un cierto
umbral, se produce una accin potencial. En consecuencia, la neurona dispara
una seal elctrica por medio del axn.

Una caracterstica esencial de las redes neuronales biolgicas es la plasticidad,


una habilidad del cerebro para reorganizar con el aprendizaje, basado en la
experiencia o estimulacin sensorial. Los cientficos creen que hay dos tipos de
modificaciones que constituyen la base del aprendizaje en el cerebro, estas son,
1) un cambio en la estructura interna de la sinapsis y 2) un aumento en el nmero
de sinapsis entre las neuronas.

El poder natural de una red neuronal biolgica, en particular, el potencial de


aprendizaje, motiva a los cientificos de la computacin a disear y desarrollar una
nueva plataforma en red que funcione de manera similar a la de las neuronas

206
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.124.

72
biolgicas207. Y esto lleva a la introduccin de las Redes Neuronales Artificiales
(ANN).

Una red neuronal artificial (ANN) es un modelo de procesamiento de la


informacin capaz de capturar y representar las complejas relaciones de entrada y
salida. La motivacin del desarrollo de la tcnica de redes naturales artificiales
vino de un deseo de un sistema artificial inteligente que pueda procesar
informacin de la misma manera que el cerebro humano. Su nueva estructura es
representada como mltiples capas de simples elementos de procesamiento, que
operan en paralelo para resolver problemas especficos.

Las ANN se parecen al cerebro humano en dos aspectos: el proceso de


aprendizaje y el almacenamiento de conocimiento experimental. Una red neuronal
artificial aprende y clasifica un problema a travs de ajustes repetidos de la
coneccin de pesos entre los elementos. En otras palabras, una ANN aprende a
partir de ejemplos y generaliza el aprendizaje ms all de los ejemplos
proporcionados.

Cada elemento (similar a una neurona) en la red est conectado a sus vecinos con
los pesos (similar a las sinapsis) que representan los puntos fuertes de las
conexiones. Normalmente, un nico elemento del proceso recibe un nmero de
entradas (anloga a las dendritas) a travs de su conexin, las combina, ejecuta
una operacion (no-) lineal en el resultado, y a continuacin produce el resultado
final (anlogo a un axn). La entrada puede ser la informacin de ambientes
externos o salidas de otras neuronas. La salida puede ser una solucin definitiva
al problema o una entrada a otras neuronas.

Para construir una red artificial, se debe decidir que arquitectura de red y algoritmo
de aprendizaje debe ser utilizado. La arquitectura de la red dice cmo son usadas
las neuronas, y cmo estn conectados en una red. El objetivo de la funcin de
aprendizaje consiste en modificar los pesos de los entradas para lograr las salidas
deseadas.

Basado en el rden de los nodos internos de la capa de red, la arquitectura de


redes neuronales pueden ser clasificada en diferentes tipos: perceptrn, redes
feedforward, y redes de retroalimentacin.

El tipo ms simple de red neuronal es un perceptrn208. Consta de una sola capa


en donde los pesos son entrenados para producir una salida correcta cuando se

207
ADELI, 1995; FREEMAN y SKAPURA, 1991; HAYKIN, 1994; MLLER Y REINHARDT, 1990; NEGNEVITSKY,
2002.
208
ROSENBLATT, F. The perceptron: a probabilistic model for information storage and organization in the
brain. En: Psychological Review. vol. 65, no. 6, 1958. p. 386-408.

73
presenta con las entradas. El perceptrn se suele utilizar para la clasificacin de
clases, donde las clases son linealmente separables, sin importar el tipo de
funcin de activacin.

Una red feedforward es una red de neuronas que tienen seales que viajan de la
capa de entrada a la capa de salida solamente. Por el contrario, las redes de
retroalimentacion permiten que las seales viajen en ambas direcciones (de la
capa de entrada a capa de salida y viceversa).

Aplicaciones en la Bioinformtica209. La red neuronal es una de las


mquinas de varios enfoques de aprendizaje que se han aplicado con xito a la
solucin de una amplia variedad de problemas bioinformticos. En el anlisis de la
secuencia, las RNA210 se han aplicado o integrado con otros mtodos o sistemas.
Por ejemplo, un sistema de red neuronal basado en el conocimiento neuronal fue
aplicado al anlisis de la secuencia de ADN211.

Una red neuronal artificial fue entrenada para predecir la secuencia del gen
supresor de tumores en el humano, TP53212 basado en un GeneChip p53213. Una
ANN feed-forward multicapa fue desarrollada como una herramienta para predecir
una secuencia promotora de micobacterias en una secuencia de nucletidos214.

Existen dos buscadores de genes ms populares que dieron lugar a las ANN.
GRAIL215 es el primer programa buscador de genes, que fue diseado para
identificar genes, exones, y varias caractersticas en las secuencias de ADN. ste
utiliza una red neural que combina una serie de algoritmos de codificacin de
prediccin para reconocer el potencial de codificacin en ventanas de longitud fija
sin buscar caractersticas adicionales.

GRAIL es una herramienta para examinar las relaciones entre genes de diferentes

209
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.125.
210
Redes Neuronales Artificiales.
211
FU, Limin. Knowledge Discovery Based on Neural Networks. En: Communications of the ACM (CACM). vol.
42, Issue: 11, Noviembre 1999. p. 47-50.
212
Disponible desde Internet en: <http://www.genecards.org/cgi-bin/carddisp.pl?gene=TP53v>
213
Spicker, Jeppe, et al. Neural network predicts sequence of TP53 gene based on DNA chip. En:
Bioinformatics. vol. 18, Issue: 8, Febrero de 2002. p. 1133-1134.
214
KALATE, Rupali; TAMBE, Sanjeev y KULKARNI, Bhaskar. Artificial neural networks for prediction of
mycobacterial promoter sequences. En: Computational Biology and Chemistry. vol. 27, Issue: 6. 2003. p. 555-
564.
215
UBERBACHER, Edward y Mural, Richard. Locating Protein Coding Regions in Human DNA Sequences Using
a Multiple Sensor-Neural Network Approach. En: Proceedings of the National Academy of Sciences of United
States of America. vol. 88, Diciembre de 1991. p. 11261-11265.

74
enfermedades asociadas a loci216. Teniendo en cuenta varias regiones genmicas
o SNPs217 asociados con un fenotipo particular o enfermedad, GRAIL busca
similitudes en los textos cientficos publicados entre los genes asociados.

Como entrada, los usuarios pueden subir los SNP que han surgido de un amplio
estudio de asociacin del genoma o de ciertas regiones del genoma que han
surgido de un vnculo de exploracin o estan asociadas a comunes o raras
variantes de nmero de copia. Los SNPs cotizados de acuerdo a su RSS218, y
deber estar inscrito en el HapMap219. Las regiones genmicas son especificadas
mediante un identificador definifo por el usuario, el cromosoma que es localizado,
y el inicio y la posicin final para la regin de pares de bases.

GRAIL fue desarrollado por Soumya Raychaudhuri en los laboratorios de David


Altshuler y Daly Marcos en el Centro de Investigacin Gentica (Center for Human
Genetic Research) del Hospital General de Massachusetts (Massachusetts
General Hospital) y la Escuela Mdica de Harvard (Harvard Medical School) y el
Instituto Broad (Broad Institute). GRAIL se encuentra descrito en un manuscrito,
actualmente en preparacin.220

Otro sistema de buscador de genes es Gene Parser221. Fue diseado para


identificar y determinar la fina estructura de los genes de la protena en las
secuencias de ADN genmico. Comprende dos variaciones de red de una sola
capa: 1) una completamente conectada y una parcialmente conectada con una
activacin en sesgo aadido a algunas entradas, y 2) una parcialmente conectada
a dos capas de red. La programacin dinmica se ha utilizado como algoritmo de
aprendizaje para capacitar el sistema de secuenciacin de protenas.

Las redes neuronales artificiales han sido ampliamente utilizadas en la prediccin


estructural y funcional de protenas. La prediccin de la estructura secundaria de
protenas utilizando redes neuronales se llev a cabo anteriormente en 1988 222.
Sin embargo, esto tiene requisitos de formacin de varias redes neuronales y de
aadir una capa adicional. Gran parte del trabajo se ha hecho para mejorar los

216
Loci: es una posicin fija sobre un cromosoma, como la posicin de un gen o de un biomarcador
(marcador gentico).
217
Single Nucleotide Polymorphism (SNP pronunciado "snip", Polimorfismo de Nucletido nico): es un
cambio de una sola letra en el ADN que contribuye a la variacin gentica en una poblacin, la creacin de la
diversidad.
218
Receive Side Scaling.
219
Catlogo completo de la variacin gentica humana, y mapas que se refieren a las enfermedades para
explorar sus causas y as mismo la historia evolutiva humana. Disponible desde Internet en:
<http://www.broadinstitute.org/news/258>
220
BROAD INSTITUTE. s.f. GRAIL: Gene Relationships Across Implicated Loci. Cambridge, Massachusetts.
Disponible desde Internet en: <http://www.broadinstitute.org/mpg/grail/> [citado en 14 de abril de 2011].
221
SNYDER y STORMO, 1993, 1997.
222
BOHR, et al., 1990; y QIAN y SEJNOWSKI, 1988.

75
mtodos eficaces223. La mayora de los mtodos recientes usan conjuntos de
redes neuronales.

Las ANN tambin se han utilizado para llevar a cabo anlisis de expresin. Un
sistema neural artificial para clasificacin de genes llamado GenCANS224 fue
desarrollado para analizar y gestionar un gran volumen de datos de secuenciacin
molecular del Proyecto del Genoma Humano225. GenCANS est basado en una
red de retropropagacin feedforward de tres capas.

GenCANS fue inicialmente diseado para clasificar las secuencias desconocidas


en clases conocidas. Hay dos importantes obras de ampliacin de GenCANS:
GenCANS-RDP226 y GenCANS-PIR227. GenCANS-RDP es el sistema de
clasificacin de ARN que agrupa a una serie de subunidades de pequeos ARN
ribosomales juntos basados en clases filogenticas RDP228 . GenCANS-PIR es el
sistema de clasificacin de protenas que actualmente clasifica las secuencias de
protenas en ms de 3300 superfamilas PIR229.

GENSCAN fue desarrollado por Chris Burge en el grupo de investigacin de


Samuel Karlin, Departamento de matemticas de la Universidad de Stanford
(Department of Mathematics, Stanford University).

El servidor Web GENSCAN que proporciona el acceso al programa Genscan para


predecir los lugares y las estructuras intron-exn de los genes en secuencias
genmicas de diferentes organismos.

El aprendizaje no supervisado de las redes neuronales pueden ser generalmente


clasificado en los siguientes tipos:

Mapa de auto-organizacin (SOM230)231,


Arboles de auto-organizacin de (SOTA232)233, y
teora de la resonancia adaptativa (ART234)235.
223
BALDI, Pierre, et al., 2000; FAIRCHILD, S., et al., 1995; RIIS, Soren y KROGH, Anders, 1996; ROST, B. y SANDER, C.,1993.
224
Disponible desde Internet en: < http://genes.mit.edu/GENSCAN.html>
225
WU, Cathy, 1993, 1996; y WU, Cathy, et al., 1992.
226
WU, Cathy y SHIVAKUMAR, Sailaja. Back-Propagation And Counter-Propagation Neural Networks For Phylogenetic
Classification Of Ribosomal RNA Sequences. En: Nucleic Acids Research. vol. 22, Issue: 20, 1994. p. 4291-4299.
227
WU, Cathy, et al. Neural Networks For Full- Scale Protein Sequence Classification: Sequence Encoding With Singular
Value Decomposition. En: Machine Learning. vol. 21, no. 1-2, 1995. p. 177-193.
228
Ribosomal Database Project (Proyecto de Base de Datos Ribosomal).
229
Protein Information Resource (Recurso de Identificacin de Protenas).
230
Self-Organising Map (Mapa auto-organizado).
231
GOLUB, Todd R., et al., 1999; TAMAYO, Pablo., et al., 1999; y TORONEN, et al., 1999.
232
Self-Organising Tree Algorithm (rbol de algoritmos auto-organizados).
233
HERRERO, Javier; VALENCIA, Alfonso y DOPAZO, Joaqun. A hierarchical unsupervised growing neural network for
clustering gene expression patterns. En: Bioinformatics. vol. 17, Issue: 2, 2001. p. 126-136.

76
Estos tipos se han utilizado para analizar la expresin gnica de datos. ART se
utiliz para demostrar que las herramientas de aprendizaje sin supervisin de
redes neuronales superan el anlisis y visualizacin de perfiles de expresin
gnica. (ART fue usado para mostrar las mejoras de las herramientas de
aprendizaje no supervisado de redes neuronales para el anlisis y visualizacin de
perfiles de expresin gnica).

Arquitecturas de redes neuronales y sus aplicaciones. Las redes neuronales


son sistemas paralelos y sistemas distribuidos de procesamiento de informacin
que estn inspirados por y derivados de los sistemas de aprendizaje biolgico
tales como el cerebro humano.

La arquitectura de las redes neuronales consiste en una red de procesamiento no


lineal de elementos de informacin que estn normalmente dispuestos en capas y
se ejecutan en paralelo. Esta disposicin en capas es denominada (referida) como
la topologa de una red neuronal. Los elementos de procesamiento no lineal de
informacin en la red son llamadas neuronas, y las interconexiones entre estas
neuronas en la red se llaman sinapsis o pesos.

Un algoritmo de aprendizaje debe ser utilizado para capacitar una red neuronal de
manera que pueda procesar la informacin de forma til y significativa. Las redes
neuronales se utilizan en una amplia variedad de aplicaciones en la clasificacin
de patrones, procesamiento del lenguaje, el modelado de sistemas complejos, el
control, optimizacin, y prediccin236.

Las redes neuronales tambin han sido activamente utilizadas en muchas


aplicaciones de la bioinformtica como la prediccin de secuencias de ADN,
prediccin de estructura secundaria de protenas, clasificacin de perfiles de
expresin gnica y anlisis de patrones de expresin gnica237.

Aplicaciones de redes neuronales en Bioinformtica. Las redes neuronales

234
Adaptive Resonance Theory (Teora de la Resonancia Adaptativa).
235
AZUAJE, F., 2003; y TOMIDA, Shuta, et al., 2001.
236
LIPPMAN, Richard P. An introduction to computing with neural nets. En: IEEE Acoustics, Speech, and
Signal Processing Magazine. Abril de 1987. 22p.
237
Wu, Cathy y McLarty, Jerry. Vol. 1 Methods in Computational Biology and Biochemistry. En: Neural
Networks and Genome Informatics. s.l: Elsevier, 2000. 205p.

77
han sido ampliamente utilizadas en la biologa desde principios de la dcada de
1980238. Pueden ser utilizados para:

predecir los sitios de iniciacin de la traduccin en secuencias de


ADN239,
explicar la teora de redes neuronales con aplicaciones en biologa 240,
predecir pptidos inmunolgicamente interesantes por la combinacin de
un algoritmo evolutivo241,
estudio de human TAP transporter242,
llevar a cabo la clasificacin de patrones y procesamiento de seales con
xito en la bioinformtica; de hecho, un gran nmero de aplicaciones de
redes neuronales se pueden encontrar en esta zona,
realizar la clasificacin de secuencias de protenas, las redes neuronales
se aplican a la clasificacin de secuencias de protenas mediante la
extraccin de caractersticas a partir de datos de protenas y su
utilizarcin en combinacin con la red neuronal Bayesiana (BNN243)244,
predecir la prediccin de estructura secundaria de protenas245,
analizar los patrones de expresin gnica como una alternativa a los
grupos jerrquicos246; genes expresin, incluso puede ser analizado
mediante una red neuronal de capa nica247.

7.3.4.3 Algoritmo Gentico. El algoritmo gentico es un sistema artificial basado

238
BRUSIC, Vladimir y ZELEZNIKOW, John. Knowledge discovery and data mining in biological databases. En:
The Knowledge Engineering Review. Septiembre de 1999. vol. 14, Issue 3. p. 257-277.
239
STORMO, G. D., et al. Use of Perceptron algorithm to distinguish translational initiation in E.coli. En:
Nucleic Acids Research. 11 de Mayo de 1982. vol. 10, no. 9. p. 2997-3011.
240
BALDI, Pierre y BRUNAK, Soren. Bioinformatics: the Machine Learning Approach. s.l.: MIT Press, Febrero
de 1998. 360p. ISBN 0-262-0244-X.
241
BRUSIC, V., et al. Prediction of MHC class-II binding peptides using an evolutionary algorithm and artificial
neural network. En: Bioinformatics. 1998. vol. 14, Issue 2. p. 121-130.
242
BRUSIC, Vladimir, et al. A Neural Network Model Approach to the Study of Human TAP Transporter. En: In
Silico Biology. 1998. vol. 1.
243
Bayesian Neural Network (Redes Neuronales Bayesianas).
244
WU, Cathy, et al., 1993, 1995, 1997, 2000.
245
QIAN, Ning y SEJNOWSKI, Terrence J. Predicting the secondary structure of globular proteins using neural
network models. En: Journal of Molecular Biology. vol. 202, 1988.
p. 865-884.
246
TORONEN, P, et al., 1999; WANG, Jason, et al., 2000; BICCIATO, Silvio, et al., 2001; y TORKKOLA, Kari, et
al., 2001.
247
NARAYANAN, A., et al. Single-Layer Artificial Neural Networks for Expression Analysis. En: Special Issue on
Bioinformatics of Neurocomputing. 2003b. vol. 61. p. 217-240.

78
en mecanismos de la evolucin biolgica248. Una moderna teora de la evolucin
biolgica comenz a existir con la incorporacin de la gentica y la teora de la
biologa de la poblacin en la clsica teora de la evolucin de Charles
Darwin249.Esto se puede definir como los cambios heredables, a travs de los
materiales genticos de una poblacin de cromosomas, de una generacin a la
siguiente.

La teora de la evolucin biolgica inspir a unos equipos de cientficos para


desarrollar un sistema inteligente que es capaz de imitar los principios de la
evolucin natural. Un mecanismo automtico que sepa adaptarse y aprender es
deseable para la produccin de buenas soluciones. Este es el punto de partida de
un algoritmo gentico.

El algoritmo gentico es un algoritmo de bsqueda que funciona en las piezas de


la informacin. Es similar a un proceso evolutivo natural que opera en la
informacin almacenada en los genes. En el algoritmo gentico, los cromosomas
son representados como cadenas binarias, estas cadenas son modificadas de la
misma manera que las poblaciones de los cromosomas evolucionan en la
naturaleza.

La poblacin de cadenas mejora su condicin fsica durante las interacciones, y


despus de una serie de generaciones, la poblacin, finalmente evoluciona hacia
la mejor solucin para un problema dado. En cada generacin, todas las cadenas
son evaluadas por una funcin fitness para su desempeo. En base a estas
evaluaciones, una nueva poblacin de cadenas, con eficacia y bien adaptada, se
forma mediante el uso de los operadores genticos, como la seleccin, el
cruzamiento y la mutacin.

El algoritmo gentico es un modelo computacional simple en comparacin con el


mecanismo natural, sin embargo, se han desarrollado complejas e interesantes
estructuras utilizando algoritmos genticos. La mayora de los algoritmos
genticos consisten en los siguientes pasos250:

Paso 1.
a. Codificar las variables del problema como un cromosoma, lo que representa
una cadena binaria de longitud fija.
b. Elegir un tamao de la poblacin, N.

248
HOLLAND, John H. Adaptation in Natural and Artificial Systems: an introductory analysis with applications
to biology, control, and artificial intelligence. Michigan (Estados Unidos de Amrica): University of Michigan
Press, 1975. 183p. ISBN 0472084607.
249
DARWIN, Charles. On the Origin of Species by means of natural selection: or, The preservation of favoured
races in the struggle for life. Londres: Yushodo Bookseller's, 1859. 502p.
250
COLEY, David A., 1999; GHANEA-HERCOCK, Robert, 2003; y GOLDBERG, David, 1989.

79
c. Definir una funcin fitness251 para medir la probabilidad de que un cromosoma
ser seleccionado como un cromosoma padre para generar nuevos
cromosomas.

Paso 2. Generar aleatoriamente una poblacin de cromosomas de tamao, N.

Paso 3. Probar cada cromosoma en la poblacin con la funcin fitness.

Paso 4. Llevar a cabo los siguientes sub-pasos hasta que se d la condicin de


terminacin tal como se especifican en los mejores valores de fitness.
a. Seleccionar un par de cromosomas de la poblacin con la aptitud de mayor
valor como los cromosomas padres para la reproduccin.
b. Aplicar los operadores genticos a los cromosomas de origen seleccionado,
para crear un par de cromosomas hijos.
c. Permitir a los cromosomas hijos y a sus padres formar la nueva poblacin.
d. Reemplazar la poblacin cromosoma actual con la nueva poblacin.
e. Calcular el valor de aptitud de cada cromosoma de la nueva de la poblacin.

Paso 5. Salida de las soluciones ptimas para un problema dado.

Los algoritmos genticos tienen una serie de ventajas.

Un algoritmo gentico es una bsqueda paralela, es decir, en cada


generacin varias soluciones son revisadas a la vez. Genera soluciones
slidas y optimizadas a travs de operadores de gran alcance, por ejemplo,
las soluciones malas son filtradas por la seleccin, y las soluciones ptimas
locales pueden ser evitadas por la mutacin.

Un algoritmo gentico puede proporcionar buenas soluciones, aunque muy


poca informacin sobre el problema proporcionado. Como resultado, los
algoritmos genticos son ampliamente utilizados en la clasificacin y

251
Funcin Fitness: La nica restriccin para usar un algoritmo gentico es que exista una funcin llamada
fitness, que le informe de cuan bueno es un individuo dado en la solucin de un problema. Esta funcin
fitness o de evaluacin es el principal enlace entre el Algoritmo Gentico a un problema real, es la
efectividad y eficiencia de la funcin fitness que se tome, por lo tanto debe procurarse que la funcin fitness
sea similar, si no igual a la funcin objetivo que se quiere optimizar. Esta medida se utiliza como parmetro
de los operadores y gua la obtencin de nuevas poblaciones.

80
optimizacin.

Sin embargo, existen limitaciones con el algoritmo gentico.

La codificacin de un problema determinado en una representacin


adecuada (por ejemplo, la cadena de bits) es difcil y muchas veces cambia
la naturaleza del problema investigado. La evolucin natural no siempre
produce una buena solucin. Tampoco un algoritmo gentico. Con
frecuencia converge al ptimo local.

Un algoritmo gentico consiste en varios parmetros, como la


representacin, tamao de la poblacin, y la funcin fsica. En la prctica,
es difcil de definir o crear estos parmetros debido a la falta de directrices
para la eleccin de ellos.

Algoritmos genticos en bioinformtica. El algoritmo gentico ha sido aplicado


con xito para resolver muchos problemas prcticos en muchas disciplinas, en
particular, en la bioinformtica.

Los algoritmos genticos se han utilizado para resolver los problemas de


alineacin de secuencias mltiples.

Un enfoque bien conocido es SAGA252. SAGA253 crea aleatoriamente una


poblacin inicial de alineaciones y evoluciona en una forma cuasi-evolutiva. A
travs de cada generacin, el fitness de la poblacin est mejorando
gradualmente. Los autores muestran que SAGA supera a la solucin ms comn
del problema de alineamiento mltiple que utiliza enfoque progresivo254.

La primera generacin crea inicialmente una poblacin al azar que consiste en un


conjunto de alineaciones. Las generaciones posteriores se derivan de los mejores
padres, segn lo medido por la calidad del alineamiento mltiple. Cuando se crean
los hijos, los operadores genticos estn involucrados en la seleccin de los
mejores padres, en la mezcla de los contenidos, y en la modificacin de un nico
padre. Estos pasos se repiten iterativamente para aumentar la fitness de la
poblacin hasta que no se puedan hacer mas mejoras.

252
System for Automated Geoscientific Analyses (Sistema Automatizado de Anlisis Geocientfico).
253
OHNO-MACHADO, Lucila; VINTERBO, Staal y WEBER, Griffin. Classification of gene expression data using
fuzzy logic. En: Journal of Intelligent and Fuzzy Systems. 2002. vol. 12, no. 1. p. 19-24.
254
BARTON, G.J. y STERNBERG, M.J, 1987; FENG, D.F. y DOOLITLE, R.F., 1987; y THOMPSON, J.D.; HIGGINS,
D.G. y GIBSON, T.J., 1994.

81
Adems de SAGA, existen algunos enfoques que han aplicado los algoritmos
genticos a multiples alineamientos de secuencias. Los algoritmos genticos han
sido comnmente aplicados a un conjunto de secuencias de ARN para encontrar
comunes estructuras secundarias de ARN255.

Los primeros mtodos propuestos slo pueden ocuparse de una sola secuencia
de ARN, mientras que la ltima mejora de los mtodos se puede utilizar para
determinar estructuras de ARN en las secuencias de ARN.

La tendencia a utilizar algoritmos genticos para analizar la expresin gnica de


datos ha disminuido. Las nuevas tcnicas tienden a combinar el algoritmo gentico
con otros mtodos computacionales, tales como el Mtodo K- del vecino ms
cercano256 y la Red Neuronal257, para resolver los problemas de la expresin
gnica, estos se denominan mtodos genticos hbridos neuronales.

Keedwell y Narayanan utilizan un algoritmo gentico para seleccionar un conjunto


de genes para la clasificacin y el uso de una red neuronal con el fin de determinar
la idoneidad de los genes.

Los pasos que deben seguirse en los mtodos genticos hbridos


neuronales. El pre-procesamiento, es el primer paso para convertir cada
atributo del conjunto de datos en el campo binario. A continuacin, el
algoritmo gentico inicializa aleatoriamente una poblacin de cromosomas.
La poblacin se convierte en la entrada de la red neuronal. La red se
entrena hasta que la salida deseada (mnimo error) es producida. El error
de cada cromosoma acta como una funcin fitness para determinar la
mutacin, cruce y seleccin para la siguiente generacin de cromosomas.
El proceso de creacin de generacin se itera hasta que el nmero mximo
de generaciones se cumple, es decir, hasta que la correcta clasificacin de
los genes es finalmente descubierta.

255
BENEDETTI, Giorgio y MOROSETTI, Stefano, 1995; CHEN, J.H.; LE, S.Y. y MAIZEL, J.V., 2000; GULTYAEV,
A.P.; VAN BATENBURG, F.H. y PLEIJ, C.W., 1995; SHAPIRO, Bruce y NAVETTA, Joseph, 1994; SHAPIRO, Bruce,
et al., 2001; y WU, Cathy y SHAPIRO, Bruce, 1999.
256
LI, Leping, et al. Gene selection for sample classification based on gene expression data: study of
sensitivity to choice of parameters of the GA/KNN method. En: Bioinformatics. 2001. vol. 17, Issue 12. p.
1131-1142.
257
KEEDWELL, E. y NARAYANAN, A. Genetic algorithms for gene expression analysis. En: Applications of
Evolutionary Computation: Proceedings of the 1st European Workshop on Evolutionary Bioinformatics.
Berlin, Heidelberg: Springer-Verlag, 2003. p. 76-86.

82
7.3.5 Soft Computing. El avance en las tcnicas de Soft computing demuestra el
alto nivel de tecnologa, algoritmos y herramientas de la bioinformtica para fines
dedicados tales como la secuenciacin fiable del genoma y en paralelo, la rpida
comparacin de secuencia, la bsqueda en bases de datos, la identificacin
automatizada de genes, modelado eficiente y el almacenamiento de datos
heterogneos, etc.

Los problemas bsicos de la bioinformtica son la prediccin de estructura de


protenas, la alineacin mltiple, etc. Para todos estos problemas, el soft
computing ofrece un enfoque prometedor para lograr una solucin heurstica
eficiente y confiable. Por otro lado el continuo desarrollo de la biotecnologa de alta
calidad, por ejemplo, tcnicas de microarray que proporcionan patrones complejos
para la caracterizacin directa de los procesos celulares, se ofrecen ms
oportunidades prometedoras para la investigacin en bioinformtica avanzada.

El Soft computing en bioinformtica debe cruzar la frontera hacia una integracin


masiva de los aspectos y la experiencia en las materias bsicas diferentes como la
informtica y las estadsticas, para una comprensin integrada de los procesos
que afectan la biologa de sistemas. Esto pone a los nuevos desafos no slo para
el almacenamiento de datos adecuado, la visualizacin y la recuperacin de
informacin heterognea, sino tambin sobre los mtodos de Soft computing y las
herramientas utilizadas en este contexto, que debe procesar adecuadamente e
integrar informacin heterognea en una imagen global. 258

7.3.5.1 Paradigmas del Soft Computing. Soft Computing es un consorcio de las


metodologas que actan de forma sinrgica y ofrece, de una forma u otra, las
capacidades flexibles de procesamiento de la informacin para el manejo
de situaciones ambiguas de la vida real.

Su objetivo, a diferencia del convencional Hard Computing, es explotar


la tolerancia a la imprecisin, la incertidumbre, el razonamiento aproximado y la
verdad parcial, con el fin de conseguir tratabilidad, robustez, soluciones de
bajo coste, y la estrecha semejanza con humanos, como la toma de decisiones. 259

7.3.5.2 Por qu utilizar tcnicas de Soft Computing en Bioinformtica? Hay


una serie de razones por las cuales los enfoques de Soft computing son
ampliamente utilizados en la prctica, especialmente en bioinformtica:

1. Tradicionalmente, el ser humano construye un sistema experto mediante la

258
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 192.
259
Ibid., p. 193.

83
recopilacin de conocimientos de los expertos especficos. Los expertos siempre
pueden explicar cules son los factores que utilizan para evaluar una situacin, sin
embargo, a menudo es difcil para ellos decir cules son las reglas que utilizan
(por ejemplo, para el anlisis y control de enfermedades). Este problema puede
ser resuelto por los mecanismos de Soft computing. Un mecanismo de Soft
computing se puede extraer de la descripcin de la situacin oculta, en trminos
de los factores y las normas que coinciden con el comportamiento del experto.

2. Los sistemas a menudo producen resultados diferentes a los deseados. Esto


puede ser causado por propiedades desconocidas o funciones de las entradas en
el diseo de los sistemas. Esta situacin se produce siempre en el mundo
biolgico, debido a las complejidades y los misterios de las ciencias de la vida. Sin
embargo, con su capacidad de mejora dinmica, el soft computing puede hacer
frente a este problema.

3. En la investigacin de la biologa molecular, los nuevos datos y conceptos se


generan todos los das, y los nuevos datos y conceptos actualizan o sustituyen a
los antiguos. El Soft computing se puede adaptar fcilmente a un entorno
cambiante. Esto beneficia a los diseadores de sistemas, ya que no es necesario
redisear los sistemas cada vez que cambia el entorno.

4. Los datos faltantes e inentendibles son unas de las caractersticas de los datos
biolgicos. Las tcnicas informticas convencionales no pueden manejar
esto. Mientras que las tcnicas basadas en Soft computing son capaces de hacer
frente a los datos que faltan y los que son incomprensibles.

5. Con los avances en la biotecnologa, se generan enormes volmenes de datos


biolgicos. Adems, es posible que existan importantes relaciones ocultas y
correlaciones en los datos. Algunos mtodos de Soft computing estn diseados
para manejar grandes conjuntos de datos, y tambin pueden ser utilizados para
extraer este tipo de relaciones.260

7.3.5.3 Lgica Difusa en Bioinformtica. La lgica difusa es una tcnica


relativamente nueva (por primera vez en 1970) para resolver problemas de
ingeniera de control. Esta tcnica se puede utilizar fcilmente para implementar
sistemas que van desde pequeos y simples, o incluso incorporada a los grandes
sistemas en red. Tambin puede ser utilizado para ser implementado en software
o hardware.

La idea clave de la lgica difusa es que utiliza una forma fcil y sencilla con el fin
de obtener la(s) salida(s) a partir de la(s) entrada(s), en realidad las salidas estn

260
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 193

84
relacionadas con las entradas usando las sentencias if y este es el secreto detrs
de la facilidad de esta tcnica. Lo ms fascinante de la lgica difusa es la
aceptacin de las incertidumbres que se heredan en las entradas reales y trata
estas incertidumbres, de tal manera que su efecto es insignificante, por lo que
resulta en una salida precisa.

La lgica difusa es una tcnica en la que el significado es lo ms importante,


mientras que en otras lgicas la precisin es el aspecto ms importante. Tambin
ofrece una forma sencilla de llegar a una conclusin definitiva basada en vagas,
ambiguas, informacin imprecisa, ruidosa o inentendible, o datos que faltan. En
pocas palabras imita la lgica del humano.261

7.3.5.4 Aplicaciones en Bioinformtica262. Los sistemas difusos se han aplicado


con xito en varias reas en la prctica. En bioinformtica, los sistemas difusos
juegan un papel importante para la construccin de sistemas basados en el
conocimiento. Se puede controlar y analizar los procesos y diagnosticar y tomar
decisiones en las ciencias biomdicas.

Hay muchas reas de aplicacin de la ciencia biomdica y la bioinformtica, donde


las tcnicas de lgica difusa pueden ser aplicadas con xito. Algunas de las
aplicaciones importantes de la lgica difusa son las siguientes:

1. Para aumentar la flexibilidad de los motivos de protenas.

2. Para estudiar las diferencias entre polinucletidos.263

3. Para analizar los datos experimentales de expresin 264 utilizando la teora difusa
de resonancia adaptativa.

4. Para alinear las secuencias basadas en una difusa refundicin de un algoritmo


de programacin dinmica.265
5. La secuenciacin del ADN gentico utilizando sistemas difusos.266

261
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 195
262
Ibid., p. 196
263
TORRES, Angela y NIETO, Juan. The Fuzzy polynucleotide space: basic properties. En: Bioinformatics. vol.
19, Issue: 5. 2003. p. 92
264
TOMIDA, Shutta, et al. Analysis of expression profile using fuzzy adaptive resonance theory. En: Bioinformatics. vol.
18, Issue: 8. 2002. p.1073-1083
265
SCHLOSSHAUER, Maximilian y OHLSSON, Mattias. A novel approach to local reliability of sequence alignments. En:
Bioinformatics. vol 18, no.6. 2002. p. 847-854.
266
CORDN, Oscar, et al. Ten years of genetic fuzzy systems. En: Fuzzy Sets and Systems. vol. 141, Issue: 1. 2004. p. 5-
31.

85
6. Para cluster de genes a partir de datos de microarrays.

7. Para predecir las protenas subcelulares, su composicin dipptido267, usando el


algoritmo difuso del vecino k-ms cercano.

8. Para simular los rasgos complejos influenciados por los genes con valores
difusos con efecto en las poblaciones con pedigr.268

9. Para atribuir valores de atributos de cluster a los genes269 la aplicacin de un


mtodo de particin fuzzy, fuzzy C-means.

10. Para analizar los datos de expresin gnica270.

11. Para analizar las relaciones entre los genes y descifrar una red gentica271.

12. Para procesar imgenes de microarrays de cido desoxirribonucleico


complementario.272 El procedimiento debe ser automatizado debido a la gran
cantidad de puntos y se logra utilizando un marco de vector difuso de filtrado.

13. Para clasificar las secuencias de aminocidos en diferentes super familias.273

267
HUANG, Ying y LI, Yanda. Prediction of protein subcellular locations using fuzzy k-NN method. En:
Bioinformatics. vol.20, Issue: 1. 2004. p.21
268
CARLEOS, C., et al. Simulating complex traits influenced by genes with fuzzy-valued effects in pedigreed
populations. En: Bioinformatics. vol. 19, Issue: 1. 2003. p. 144-148.
269
DEMBL, Doulaye y KASTNER, Philippe. Fuzzy C-means method for clustering microarray data.En:
Bioinformatics. vol. 19, Issue: 8. 2003. p. 973-980.
270
WOOLF, Peter y WANG, Yixing. A fuzzy logic approach to analyzing gene expression data. En:
Physiological Genomics. vol.3, Issue: 1. 2000. p. 9-15.
271
RESSOM, H.; REYNOLDS R. y VARGHESE R. Increasing the efficiency of fuzzy logic based gene expression
data analysis. En: Physiological Genomics. vol. 13, Issue: 2. 2003. p. 107117.
272
LUKAC, R., et al. cDNA microarray image processing using fuzzy vector filtering framework. En: Journal
Fuzzy Sets and Systems. vol. 152, Issue: 1. 2005. p. 1735.
273
BANDYOPADHYAY, Sanghamitra. An efficient technique for super family classification of amino acid
sequences: feature extraction, fuzzy clustering and prototype selection. En: Journal Fuzzy Sets and Systems.
vol. 152, Issue: 1. 2005. p. 516.

86
7.3.6 MATLAB aplicado a la Bioinformatica274. MATLAB es el nombre
abreviado de MATrix LABoratory. Es un entorno de computacin y desarrollo de
aplicaciones totalmente integrado orientado para llevar a cabo proyectos en donde
se encuentren implicados elevados clculos matemticos y la visualizacin grfica
de los mismos.

Integra anlisis numrico, clculo matricial, proceso de seal y visualizacin


grfica en 2D y 3D en un entorno completo donde los problemas y sus soluciones
son expresados del mismo modo en que se escribiran normalmente, sin
necesidad de hacer uso de la programacin tradicional.

Tambin tiene un lenguaje de programacin propio, que permite crear aplicaciones


basadas en el robusto cdigo de MATLAB.

MATLAB dispone tambin en la actualidad de un amplio abanico de programas de


apoyo especializado, denominados Toolboxes, que extienden significativamente el
nmero de funciones incorporadas en el programa principal. Estos Toolboxes
cubren en la actualidad prcticamente casi todas las reas principales en el
mundo de la ingeniera y la simulacin.

7.3.6.1 Bioinformatics Toolbox. Bioinformatics Toolbox ofrece a los bilogos


moleculares y a otros investigadores cientficos un entorno abierto y extensible, en
el cual pueden explorar ideas, hacer prototipos de nuevos algoritmos, y construir
aplicaciones en investigacin de drogas, ingeniera gentica, y otros proyectos
genmicos y protemicos.

Toolbox provee acceso a formatos de datos genmicos y proteomicos, tcnicas de


anlisis y visualizaciones especializadas para secuencias genmicas y
proteomicas y anlisis de microarrays.

La mayora de las funciones estn implementadas en el lenguaje abierto de


MATLAB, lo que permite personalizar los algoritmos o desarrollar los propios. Con
este ltimo Toolbox The MathWorks est entregando el poder y versatilidad de su
ambiente informtico tcnico integrado directamente a la biotecnologa y las
industrias farmacuticas.

Como resultado, los bioinformticos pueden usar toolbox para enfocar los
esfuerzos en su trabajo - la investigacin y anlisis - sin los riesgos asociados con
usar programas o software dispares.

274
Secuencia ADN. 30 de julio de 2009. Matlab Aplicado a la Bioninformtica [en lnea]. Buenos Aires,
Argentina. Disponible desde internet en:
<http://www.secuenciaadn.com.ar/index.php?option=com_content&view=article&id=46:matlab-aplicado-
a-la-bioinformatica&catid=1:latest-news&Itemid=50> [Citado en julio 15 de 2011].

87
Entre sus numerosos rasgos y capacidades, Bioinformatics Toolbox proporciona el
acceso a archivos del genoma en formatos normales, los bancos de datos
basados en la web como GenBank y PIR, y las fuentes de los datos en lnea.
Toolbox tambin ofrece las rutinas especializadas para visualizar los datos de
Microarrays (micro-arreglos o biochips), incluyendo las cajas de grfico, los
grficos I-R y los mapas espaciales de calor.

Caractersticas de Bioinformatics Toolbox:

Archivos y expresiones en formato comprensibles en gentica, genmica


protemica.
Acceso a bases de datos de Internet.
Herramientas de anlisis de secuencias.
Conversin, adaptacin y estadsticas de secuencias del genoma y
protenas.
Herramientas de anlisis de rboles filogenticos.
Grficas de puntos, grficas de grupos, grficas de sectores y otras
representaciones grficas de datos genmicos y protemicos.
Funciones para alineamiento por pares y alineamientos mltiples de
secuencias.
Capacidad para analizar y visualizar datos de microarrays.
Soporte para pre-procesamiento y anlisis de espectrometra de masas.
Funcionalidad de Ontologa de los Genes275.

275
Ver pag. 44

88
Formatos de archivo y acceso a bases de datos. Se puede acceder a muchos
formatos estndar para datos biolgicos, bases de datos de Internet, y otros
recursos online desde la Bioinformatics Toolbox. Por ejemplo, es posible:

Leer secuencias de datos desde formatos de archivos estndar, incluyendo


FASTA, PDB y SCF.
Leer datos de un Microarray, de formatos de archivo como Affymetrix DAT,
EXP, CEL, CHP y CDF; formato de resultados de ImaGene; archivos
Agilent; y archivos GenePix GPR y GAL.
Interfaz con las principales bases de datos de la web, como GenBank,
EMBL, NCBI, BLAST y PDB.
Importar datos directamente del sitio web de NCBI, usando un solo
comando.

Usos de Bioinformatics Toolbox en el anlisis de secuencias.276

Anlisis de secuencias. La toolbox de bioinformtica provee funciones para


el secuenciamiento y visualizacin de secuencias genmicas y
proteomicas.

Alineamiento de secuencias. La toolbox de bioinformtica ofrece un


detallado conjunto de mtodos de anlisis para secuenciamiento de pares,
perfiles de secuencias, y alineamiento mltiple de secuencias. Esto incluye:

Implementaciones en MATLAB de algoritmos estndar para


alineamientos locales y globales de secuencias, tal como los
algoritmos Needleman-Wunsch, Smith-Waterman y modelos ocultos
de Markov.

Alineamiento progresivo de mltiples secuencias.

276
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].

89
Representaciones grficas de las matrices resultantes del
alineamiento.

Matrices estndar de puntajes, como las familias de matrices PAM y


BLOSUM.

Utilidades de secuencias y estadsticas277. Puedes manipular y analizar tus


secuencias para ganar un conocimiento profundo de tus datos. Las rutinas
de la toolbox de bioinformtica te permiten:

Convertir secuencias de ADN o ARN a secuencias de aminocidos


usando el cdigo gentico.

Realizar anlisis estadsticos sobre las secuencias y buscar patrones


especficos dentro de la secuencia.

Visualizacin de la secuencia. Bioinformatics Toolbox contiene


herramientas para visualizar secuencias y alineamientos. Puedes ver
mapas lineales o circulares de secuencias anotadas con caractersticas
GenBank. Visores interactivos te permiten ver, modificar y explorar pares y
alineamientos mltiples de secuencias.

Anlisis de rboles filogenticos. Bioinformatics Toolbox permite crear y


editar rboles filogenticos. Se puede calcular distancias entre nucletidos
alineados y no alineados o secuencias de aminocidos usando un amplio
rango de mtricas similares, como Jukes-Cantor, p-distance, alignment-
score, o un mtodo definido por el usuario. Los rboles filogenticos son
construidos usando lazos jerrquicos con una variedad de tcnicas,
incluyendo junta de vecinos, ligaduras simples y completas, y UPGMA.

Anlisis de caractersticas de las protenas. Bioinformatics Toolbox provee


varios mtodos de anlisis de protenas, as como rutinas para calcular
propiedades de secuencias peptidcas, como composicin atmica, punto
isoelctrico, y peso molecular. Se pueden determinar la composicin de

277
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].

90
aminocidos de una secuencia de protenas, cortando la protena con una
enzima. Una GUI permite ver las propiedades a lo largo de la secuencia.278

7.3.7 Microarrays279. Microarrays es una herramienta para el anlisis de


expresin gnica, que consiste en una pequea membrana o lmina de vidrio que
contienen muestras de muchos genes dispuestos en un patrn regular.

7.3.7.1 Microarrays de ADN: las bases tcnicas. Los Microarrays de ADN son
pequeos y slidos soportes sobre las cuales las secuencias de miles de genes
diferentes son inmovilizadas o capturadas en ubicaciones fijas. Los soportes
suelen ser portaobjet os de vidrio, del tamao de dos meiques de lado a lado,
tambin pueden ser chips de silicio o membranas de nylon. El ADN es impreso,
manchado, o es sintetizado directamente sobre el soporte.

El American Heritage Dictionary define " matriz " o array como "colocar en una
disposicin ordenada. Es importante que las secuencias de los genes en un
microarray estn colocadas en su soporte slido de manera ordenada o fijas, ya
que el investigador utiliza la ubicacin de cada punto de la matriz para identificar
una secuencia gentica particular. Las manchas pueden ser AND, ADNc280 o de
oligonucletidos281.

Mediante el uso de la matriz que contiene muchas muestras de ADN, los


cientficos pueden determinar, en un solo experimento, los niveles de expresin de
cientos o miles de genes dentro de una clula mediante la medicin de la cantidad
de ARNm unido a cada sitio en la matriz. Con la ayuda de una computadora, la
cantidad de ARNm unido a las manchas en la micromatriz se mide con precisin,
lo que genera un perfil de expresin gnica en las clulas.

278
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].
279
NCBI. Microarrays: chipping away at the mysteries of science and medicine [en lnea]. Julio de 2007.
Bethesda Estados Unidos de America. Disponible desde internet en:
<http://www.ncbi.nlm.nih.gov/About/primer/microarrays.html> [citado en julio 16 de 2011].
280
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm.
Se genera por accin de la enzima trasncriptasa inversa y tiene mltiples usos tanto en investigacin bsica
como aplicada a biomedicina.
281
Un oligonucletido, u oligo como se le llama comnmente, es un breve fragmento de un ADN de cadena
simple que suele ser de 5 a 50 nucletidos de largo.

91
7.3.7.2 Bases de datos de secuencias para microarrays. Los Microarrays de
ADN contienen secuencias que se han derivado de las bases de datos de
secuencias de ADN. El archivo de salida con los resultados numricos del
experimento con microarrays que se analizan, tambin contiene una serie de
campos que se relacionan con estas secuencias de las bases de datos de las
cuales se derivan. A continuacin se describirn el significado de estos campos y
la naturaleza de las bases de datos.

Un gen tiene variantes de empalme si el organismo puede hacer diferentes


transcripciones de los genes mediante el uso de diferentes exones282. Se cree que
muchos genes de los organismos eucariotas tienen variantes de empalme. El
empalme de variantes diferentes de un gen tiene secuencias diferentes, por lo
tanto en el diseo y el uso de microarrays, es importante saber que secuencias
estn en la matriz.

A continuacin se mencionaran las bases de datos de secuencias que se utilizan


para seleccionar y anotar los genes que el microarray detecta y las secuencias
que aparecen en la matriz.

UniGene. UniGene es la base de datos con el mayor uso histrico para la


seleccin de secuencias de microarrays. Se trata de un intento de
dividir secuencias de GenBank en clusters, cada uno de ellos est destinado a
representar un gen nico.

Los mismos clusters pueden contener secuencias de ARNm283 y EST284, por


lo que representan los dos genes conocidos y los genes putativos basados en el
material expresado que ha sido secuenciado.

Los clusters se construyen mediante la comparacin de todas las secuencias de


ARNm y en GenBank y asignando secuencias superpuestas al mismo cluster.285

Cada entrada UniGene es un conjunto de secuencias de transcripcin286 que


parecen provenir del mismo lugar de la transcripcin (gen expresado), junto con la

282
Exones: Secuencias de ADN especficas de genes, que codifican secuencias de aminocidos en las
protenas.
283
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
284
Una secuencia tag expresada o EST es una pequea porcin de un gen entero que puede ser usada para
ayudar a identificar genes desconocidos y para mapear sus posiciones dentro de un genoma.
285
STEKEL, Dov. Microarray Bioinformatics. Reino Unido: Cambridge University Press, 2003. p. 28.
286
Transcripcin: es el proceso de obtencin de un ARN mensajero (ARNm) a partir del ADN correspondiente
a un gen.

92
informacin sobre las similitudes de protenas, la expresin de genes, ADNc 287 y
locacin gentica.

Adems de las secuencias de genes bien caracterizados, se han incluido cientos


de miles de secuencias EST. En consecuencia, esta coleccin de secuencias
puede ser de gran utilidad para la comunidad como un recurso para el
descubrimiento de genes.

UniGene tambin ha sido utilizado por los investigadores para seleccionar los
reactivos para los proyectos de cartografa gentica y anlisis de expresin a gran
escala.

Los procedimientos para la agrupacin de secuencias automaticas estn todava


en desarrollo, y se espera que los resultados cambien de vez en cuando con las
mejoras. Los usuarios han brindado muchos aportes en la identificacin de los
problemas.288

Con qu frecuencia se actualiza UniGene? El tiempo necesario para


actualizar con nuevas secuencias de UniGene vara. En general, esto
lleva ms de 1 semana, pero menos de 1 mes.

Para cada secuencia de nucletidos en UniGene, se realiza una


bsqueda de similitud de secuencias de protenas conocidas de ocho
organismos. Esto se hace utilizando BLASTX. ste compara los
productos conceptuales de seis fotogramas de traduccin conceptual,
con una consulta de secuencia de nucletidos de (ambas cadenas)
contra una base de datos de secuencias de protenas. BLASTx ha
alineado con huecos "dentro del marco" y utiliza las estadsticas de la
suma de vincular las alineaciones de las distintas estructuras.

Las bases de datos de pptidos utilizados por UniGene son los que
representan a Homo sapiens musculus, mus, Rattus norvegicus,
Drosophila melanogaster, el Caenorhabditis elegans, Saccharomyces
cerevisiae, la Escherichia coli. y Arabidopsis thaliana .

Las protenas asignadas a un cluster UniGene se eligen entre las


protenas prot_sim asignadas a los componentes de las secuencias del

287
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm.
Se genera por accin de la enzima trasncripta a la inversa y tiene mltiples usos tanto en investigacin bsica
como aplicada a biomedicina.
288
NCBI. s.f. UniGene: An organized view of the transcriptome [en lnea]. Bethesda Estados Unidos de
Amrica. Disponible desde internet en: <http://www.ncbi.nlm.nih.gov/unigenel>. [citado en julio 16 de
2011].

93
cluster. El algoritmo exacto utilizado para seleccionar el representante
de protena se encuentra en revisin.289

RefSeq290 . RefSeq tiene como objetivo proporcionar un conjunto de


secuencias completo, integrado y no redundante, incluyendo el ADN
genmico, las transcripciones y las protenas.

RefSeq es una fundacin de estudios mdicos, funcionales y de diversidad


que proporcionan una referencia estable para la anotacin del genoma, la
identificacin y caracterizacin de genes, mutaciones y anlisis de los
polimorfismos, estudios de expresin y anlisis comparativos.

La caracterstica principal de esta herramienta es que est vinculado


explcitamente a secuencias de nucletidos y protenas. Adems se puede
acceder a RefSeq a travs de BLAST, Entrez, y el sitio FTP de NCBI.

NCBI proporciona RefSeqs para organismos taxonmicamente diversos como


eucariotas, bacterias y virus. Los registros adicionales se aaden a la
coleccin de datos que sern de conocimiento pblico.291

7.3.7.3 Mtodos de clustering. Histricamente, se han venido utilizando muchos


y muy diversos mtodos para agrupar los datos procedentes de microarrays,
incluyendo la simple inspeccin visual. Sin embargo, es mejor aplicar mtodos
estadsticos robustos y fiables.

a. Clustering no supervisado. conjunto de tcnicas que agrupan los datos en


funcin de una distancia sin utilizar ningn tipo de informacin externa para
organizar los grupos. Dependiendo de la forma en la que los datos son
agrupados, podemos distinguir dos tipos de clustering:

Jerrquico: El clustering jerrquico aglomertico es un mtodo determinista


basado en una matriz de distancias. Establece pequeos grupos de
genes/condiciones que tienen un patrn de expresin comn y
posteriormente construye un dendograma292 de forma secuencial. El rbol o

289
NCBI. s.f. UniGene FAQ [en lnea]. Bethesda Estados Unidos de Amrica. Disponible desde internet en:
<http://www.ncbi.nlm.nih.gov/unigene/help.cgi?item=FAQ> [citado en julio 16 de 2011].
290
Reference Sequence (Secuencia de Referencia).
291
NCBI. s.f. NCBI Reference Sequences [en lnea]. Bethesda Estados Unidos de Amrica. Disponible desde
internet en: <http://www.ncbi.nlm.nih.gov/RefSeq>. [citado en julio 16 de 2011]
292
Representacin grafica de un grupo de relaciones basadas en la cercana o similitud entre los datos.

94
dendograma, establece una relacin ordenada de los grupos previamente
definidos y la longitud de sus ramas es una representacin de la distancia
entre los distintos nodos del mismo.

En el desarrollo del clustering jerrquico se han utilizado diferentes


algoritmos (UPGMA, Ward, etc.) aunque todos siguen la misma estrategia
en general: separan cada gen en un nodo diferente, calculan la distancia
entre los dos genes ms prximos y los juntan en un cluster. Entonces se
vuelve a calcular la matriz de distancias sustituyendo los dos patrones que
se han unido por el promedio de ambos. En cada paso, los algoritmos son
capaces de juntar los genes no solo de dos en dos sino muchos ms a la
vez. Muchos de ellos simplemente se diferencian en la forma en la que
calculan la distancia del nuevo cluster formado al resto de los elementos de
la matriz, y en este sentido, la aproximacin del Average linkage293 es la
ms utilizada.

Por otro lado existe el clustering jerrquico divisivo que es similar al anterior
pero agrupa los genes de forma inversa. Mientras que el clustering
aglomerativo separa inicialmente todos los genes y posteriormente los va
agrupando para construir clusters ms grandes, el clustering divisivo agrupa
inicialmente todos los genes en un nico cluster y sucesivamente los va
separando hasta que cada uno se encuentre aislado como una entidad. Es
decir, el mtodo divisivo va identificando aquellos genes con un patrn mas
diferente para separarlos en el espacio lo ms posible. Este es el caso de
SOTA294.

A pesar de que no est exento de problemas, el clustering es una


herramienta poderosa para la reduccin de los datos obtenido de
micorarrays y para el estudio de posibles hiptesis que relacionan los
clusters de genes obtenidos con el fenotipo. Sin embargo, este tipo de
relaciones deben ser formalmente validadas por otros experimentos
adicionales.

No jerrquico: En este caso los algoritmos comienzan a calcular la matriz


de distancias a partir de un numero predefinido de clusters y van
recolocando de forma iterativa los genes en los diferentes grupos hasta
minimizar la dispersin interna de cada cluster. Los dos algoritmos ms
representativos de este tipo de clustering son:

K-Medias: es un algoritmo que comienza con una muestra de k


genes elegidos al azar de la matriz original de datos. Cada uno de

293
Algoritmo que opera agrupando iterativamente los genes o clusters que presentan la distancia media ms
pequea en cada paso sucesivo del clculo de la matriz de distancias.
294
Self-Organising Tree Algorithm (rbol de algoritmos auto-organizados).

95
ellos se utiliza como el centroide inicial de los k clusters que se van
a a formar. La matriz de distancias se calcula desde dicho centroide
hasta cada uno de los genes de la matriz de datos y cada uno de
ellos ser asignado de esta forma al centroide ms cercano.
Entonces la matriz de distancias se recalcula reemplazando cada
centroide por la media de los genes asignados a l y el algoritmo
repite entonces el proceso anterior. El mapa de clusters que ofrece
este algoritmo carece de topologa.

SOM: los mapas auto-organizados295 son redes neuronales. El


algoritmo permite, de forma iterativa, que los patrones ms parecidos
se vayan juntando entre si y alejndose de aquellos otros que son
mas diferentes. Este tipo de algoritmos son ms fiables y robustos
puesto que se basan en redes neuronales que por definicin son
capaces de trabajar con grandes cantidades de datos con ruido. Sin
embargo, no carece de ciertos inconvenientes. SOM es una
herramienta particularmente til en el tratamiento de datos
procedentes de series temporales.

El gran problema que presentan estos mtodos no jerrquicos es que al no


generar un dendograma no permiten hacerse una idea de la representacin
espacial de los genes, la cual suele ofrecer un conocimiento intuitivo de
cmo analizar los datos de microarrays.

b. Clustering supervisado: se basa en la idea de que para la clasificacin de la


mayora de muestras biolgicas ya existe informacin preliminar que puede
utilizarse para agrupacin de nuevos datos en clusters. Los mtodos
supervisados aprenden de esta informacin previa, generalmente ofrecida por
un conjunto de datos de entrenamiento, la forma en que deben clasificar los
nuevos datos (genes o condiciones) que se les presentan.

SVM296: es una tcnica lineal que utiliza hiperplanos para separar los datos
en el espacio como puntos negativos o positivos. Los datos de estudio son
clasificados respecto de otro conjunto de datos previamente conocido.
Pereceptrones: estn basados en redes neuronales. Tienen algunas
ventajas sobre las SVM como por ejemplo la capacidad de clasificar

295
Self-Organising Maps (Mapas auto-organizados).
296
Supported Vector Machines (Mquinas de Vectores de Soporte).

96
muchas muestras al mismo tiempo y discriminar entre varias clases
diferentes.297

7.3.8 Biotecnologa de Sistemas. La biotecnologa es considerada una de las


principales tecnologas del siglo XXI, teniendo en cuenta su amplia gama de
aplicaciones potenciales en la salud, farmacutica, qumica, alimentos y
agroindustria; igual que en otras disciplinas de ingeniera, es importante para el
desarrollo de bajo costo y alto rendimiento de los procesos biotecnolgicos.

Para lograr este objetivo, ha sido objeto significativo de investigacin centrarse en


el desarrollo significativo de variedades mejoradas por recombinante298, en otros
mtodos de biologa molecular y la mejora de las estrategias de fermentacin. Sin
embargo, los esfuerzos no siempre han tenido xito, debido a cambios
inesperados en la fisiologa y el metabolismo de las cepas del husped. Los
enfoques racionales de ingeniera metablica y celular se han tomado con xito en
una serie de casos para resolver estos problemas, pero se han limitado a la
manipulacin de pocas (generalmente uno o dos) enzimas y protenas.

El desarrollo de herramientas de alto rendimiento experimental que permite


realizar miles de anlisis en paralelo dio lugar a una rpida acumulacin de datos
biolgicos, y sent las bases para una mejor comprensin de los procesos
biolgicos. Esto significa que los procesos de la biotecnologa se pueden
desarrollar de manera racional y sistemtica (la biotecnologa de sistemas),
evitando las tradicionales aproximaciones de "prueba y error".

Por lo tanto, la biotecnologa permitir realizar esfuerzos en el desarrollo de


sistemas sobre la base de una comprensin global del metabolismo y el desarrollo
del proceso a travs la optimizacin, lo que conducir al desarrollo de procesos
biotecnolgicos con la alta eficiencia. La esencia de la biotecnologa de sistemas
reside en la integracin de experimentos hacia el objetivo de un diseo metablico
racional.299

297
BIOTIC Area de Bioinformtica y Salud Pblica. s.f. Bioinformtica Asociada/Metodologa/Anlisis de
datos [en lnea]. Madrid, Espaa. Disponible desde internet en:
<http://infobiochip.isciii.es/Textos/Metodologia/bioinfo%20asociada/metodologia/analisis%20de%20datos.
htm> [citado en julio 16 del 2011].
298
Recombinante: Se dice del individuo con combinaciones de alelos distintas a las encontradas en sus
ancestros como resultado de una recombinacin en una de las meiosis progenitoras. Disponible desde
internet en: <http://www.medicoscubanos.com/diccionario_medico.aspx?q=R&p=10>
299
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.156

97
7.3.8.1 Herramientas para la Biotecnologa de Sistemas

Tabla 3. Bases de datos de secuencias

BASE DE DATOS DESCRIPCIN URL


GenBank Una anotada coleccin http://www.ncbi.nlm.nih.gov/gen
de todas las secuencias bank/
disponibles de
nucletidos y de
protenas
SWISS-PROT Base de datos curada http://www.expasy.org/sport
de secuencias de
protena con un alto
nivel de anotacin
GOLD Base de datos en lnea. http://www.genomesonline.org
Contiene un listado de
proyectos de genoma
completados y en curso
KEGG La enciclopedia de http://www.genome.jp/kegg/
genes y genomas de
Kioto Sitio integrado
de bases de datos de
genes, protenas y vas
metablicas
BIOSILICO Base de datos integrada http://biosilico.kaist.ac.kr:8017/bi
para el anlisis del ochemdb/index.jsp
metabolismo y
composicin de
estructuras.

Fuente PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania:


Springer-Verlag Berlin Heidelberg, 2005.p.158.

98
8. ANLISIS DE LAS TECNOLOGAS BIOINFORMTICAS UTILIZADAS PARA
EL ANLISIS DE SECUENCIAS DE ADN

En la medicina forense, los resultados de los anlisis filogenticos moleculares


han sido aceptados como pruebas en los tribunales penales. Alguna estadstica
bayesiana sofisticada y basada en la verosimilitud de los mtodos de anlisis
de ADN se han aplicado en el anlisis forense de la identidad.

La secuencia genmica de alta velocidad junto con la tecnologa informtica


sofisticada le permitir a un mdico en una clnica de secuenciar el ADN de un
paciente de forma rpida, y detectar as posibles mutaciones dainas
convirtindose en protagonista del genoma para participar en el diagnstico
precoz y el tratamiento eficaz de las enfermedades.

Las herramientas de la bioinformtica se estn utilizando en la agricultura tambin,


las bases de datos del genoma de plantas y anlisis de expresin gnica de este
perfil han desempeado un papel importante en el desarrollo de nuevas
variedades de cultivos que tienen una mayor productividad y ms resistencia a las
enfermedades.300

8.1 BASES DE DATOS

La Bioinformtica es un rea donde los datos crecen a un ritmo exponencial y se


puede decir que el conocimiento crece solo a ritmo lineal. Por ello debera ser un
desafo para la comunidad biolgica y los desarrolladores de Base de Datos,
ayudar a cerrar la brecha entre el crecimiento de datos y los
conocimientos. Recientemente se han desarrollado tecnologas KDD para abordar
esta cuestin; KDD depende en gran medida de la presencia de un conjunto de
datos actualizado y bien organizado, pero en realidad, esto requiere una tediosa
limpieza de datos y muchos esfuerzos de integracin debido a la diversidad,
distribucin y tamao de los datos biolgicos.

En la actualidad, se considera que no todos los conceptos de almacenamiento de


datos se han aplicado a la bioinformtica. Como el modelo de datos dimensional
en base a tablas relacionales no es visto en la bioinformtica, debido a la
complejidad de los datos reales. Se concluye que el almacenamiento de datos ha
sido desarrollado histricamente con los sistemas de bases de datos relacionales,
principalmente, porque se cree que no son tan ampliamente utilizados en la
bioinformtica.

300
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 7

99
Si se realiza una comparacin del almacenamiento de datos en el mbito
empresarial con el almacenamiento de datos biolgicos, se puede decir que en el
mbito empresarial el crecimiento de los datos se dio en tamao y en complejidad,
y esto tambin caus muchas dificultades en la gestin y anlisis de la
informacin. Con los aos, el campo del almacenamiento de datos evolucion
rpidamente, y sus tcnicas fueron ampliamente aplicadas para la inteligencia
empresarial y tambin para el apoyo a las decisiones empresariales importantes.
En bioinformtica podra estar emergiendo lo mismo. Se considera que el
crecimiento de los datos dar lugar a una creciente necesidad de un sistema de
gestin de datos a gran escala y un sistema de anlisis ms complejo en el futuro
cercano.

8.2 BODEGAS DE DATOS

Las bases de datos que existen en todo el mundo que contienen datos de ms de
milln y medio de secuencias siguen creciendo ao tras ao. La administracin de
esta informacin exige contar, con equipos ms potentes y con grandes
capacidades de procesamiento. Ya que cada vez ms, los estudios biolgicos
parten de la conexin de mltiples bases de datos, de complejos sistemas de
Datamining y Webs para formular hiptesis que versan sobre la organizacin de los
genes, el anlisis de su secuenciacin y la prediccin de su estructura y
comportamiento.

8.3 MINERA DE DATOS

El desarrollo de la tecnologa de minera de datos esta en un punto de


consolidacin, con respecto a las aplicaciones.

La aplicacin de la minera de datos, permite el descubrimiento del conocimiento,


soporta las investigaciones y las aplicaciones en la rama biolgica. En este
sentido, es necesario continuar elaborando herramientas computacionales
apropiadas para su uso en varios proyectos y elevar el nivel de conocimientos
sobre su utilidad para los investigadores. Y que a su vez, vaya superando los
obstculos que se consideran, por ejemplo, que se necesite mucha experiencia
para utilizar herramientas de la tecnologa y que no se establezca una adecuada
comunicacin en los equipos de trabajo para elegir la herramienta adecuada y
que, por lo tanto, no se alcancen los resultados esperados.

Debido a que la cantidad de datos biolgicos est aumentando cada vez ms, la
redundancia de datos debera ser un problema constante para los desarrolladores,
por lo que se espera que constantemente estn integrando herramientas que

100
permitan que los datos se actualicen y se corrijan constantemente, para ello se
considera necesario almacenar todo en aplicaciones centralizadas mas enfocadas
a investigaciones del mismo tipo, por ejemplo, una base de datos colaborativa que
recopile secuencias de una especie o bacteria en especfico, que contenga una
nomenclatura universal para evitar la duplicacin de publicaciones que se ingresen
con diferente nombre pero la misma secuencia, que administre o se conecte con
varias bases de datos que se enfoquen en la misma investigacin, con el fin de
tener siempre al alcance informacin ms organizada y a la que sea ms fcil
acceder.

8.3.1 Minera de Texto. La minera de texto es una poderosa herramienta de


anlisis para la extraccin de conocimiento a partir de datos biolgicos no-
estructurados. Sin embargo, se cree que esta herramienta se enfrenta a grandes
retos, entre ellos se encuentra la necesidad de tcnicas que permitan la deteccin
correcta de las anotaciones biolgicas, debido a la complejidad y falta de
unificacin y concordancia de las nomenclaturas biomdicas.

Adems, es necesario establecer una tctica de evaluacin comn y ms


generalizada, como los que existen para la evaluacin de los sistemas de
recuperacin de la informacin, para que se utilice a su vez sobre las mismas
colecciones de documentos (en ste caso habra que establecer tambin cuales
son las fuentes de informacin biolgica confiable), de forma que se pueda
comparar la eficacia de tales sistemas para realizar determinadas tareas.

No obstante, y a pesar de las limitaciones, se considera que la situacin se


encuentra ante un prometedor instrumento de anlisis de informacin en el que
convergen, diversos campos de la biomedicina, la recuperacin de la informacin
y el procesamiento del lenguaje natural, debido la complejidad del dominio de
conocimiento.

Se estima que el futuro de esta tecnologa se encontrara, en aproximaciones


multidisciplinares, en la que muchos investigadores de diferentes reas puedan
realizar un esfuerzo coordinado para alcanzar el potencial cientfico completo que
plantean los proyectos de minera textual en las diversas reas de biologa y las
ciencias de la informacin.

8.4 MAQUINAS DE APRENDIZAJE

En resumen, una red neuronal se presenta con un patrn en sus nodos de


entrada, y la red produce un patrn de salida basado en su algoritmo de
aprendizaje durante la fase de entrenamiento. Una vez capacitados, la red
neuronal se puede aplicar para clasificar los nuevos patrones de entrada. Esto

101
hace que las redes neuronales sean adecuadas para el anlisis de patrones de
expresin gnica, la prediccin de estructura de protenas y otros procesos
relacionados con la bioinformtica.

Segn YI-Ping Phoebe Chen301 cuando expresa como una dificultad del algoritmo
gentico el que en la prctica es difcil definir o recrear los parmetros como la
representacin, el tamao de la poblacin y la funcin fsica como parte del
algoritmo gentico, debido a la falta de directrices para la eleccin de dichos
parmetros, se considera que debido a que cuando no se tiene conocimiento
exacto de las correlaciones y las relaciones ocultas entre estas mtricas, es
posible que la investigacin siempre se encamine hacia destinos desconocidos
para el investigador. Para ello, se cree que las maquinas de aprendizaje son
herramientas que permiten ajustar la estructura interna para producir resultados
aproximados para los problemas planteados sin embargo, se considera que la
computacin siempre estar cada vez ms cerca de las soluciones absolutas de
cualquier problema presentado en las investigaciones sobre biologa.

8.5 SOFT COMPUTING

El Soft Computing en bioinformtica debera atravesar los lmites en la integracin


masiva de los aspectos tericos y prcticos en reas diferentes como la
informtica y la estadstica, para una comprensin integrada y completa de los
procesos que afectan la biologa de sistemas. Esto impone nuevos desafos no
slo para el almacenamiento de datos, la visualizacin y la recuperacin de
informacin; sino tambin sobre los mtodos de Soft Computing y las
herramientas utilizadas en el contexto biolgico y molecular, que deben procesar
adecuadamente e integrar informacin heterognea en una imagen y visualizacin
global de un sistema de datos.

8.6 MICROARRAYS

Se considera que las tcnicas de micro-array las cuales generan patrones


complejos para la caracterizacin de los procesos celulares de las muestras
biolgicas son producto del continuo desarrollo de la biotecnologa de alta calidad,
se estima que esto ofrece muchas ms oportunidades prometedoras para la
investigacin bioinformtica avanzada, dado a la integracin de tcnicas
informticas con otras reas como la electrnica en el rea cientfica, las cuales a
su vez abrirn muchas puertas a la solucin integral de problemas, sin embargo,

301
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.

102
se considera que la implementacin y el uso de microarrays necesitar estar a la
vanguardia en relacin a avances biotecnolgicos de ltima generacin.

103
9. DISEO METODOLGICO

9.1 HIPTESIS

La investigacin en herramientas bioinformticas para el anlisis de secuencias


en ADN permitir ampliar el conocimiento que se requiere para las investigaciones
futuras?

9.2 POBLACIN

Centros de Investigacin en Bioinformtica.

9.3 MUESTRA

Centro de Investigacin CENBIOTEP302.

9.4 VARIABLES

Nivel de conocimiento en Bioinformtica.

9.5 INSTRUMENTOS

Se realiz una entrevista al Doctor Duverney Gaviria Arias, investigador del grupo
CENBIOTEP para conocer las necesidades de un investigador.

302
Centro de Biologa molecular y Biotecnologa de la Universidad Tecnolgica de Pereira.

104
ENCUESTA AL DOCTOR DUVERNEY GAVIRIA ARIAS, INVESTIGADOR DEL
GRUPO CENBIOTEP

1. En pocas palabras, explique en qu consiste el proyecto que estn


desarrollando en la lnea de investigacin: Factores de Riesgo en Enfermedad
Cardiovascular.
R. El proyecto consiste en la identificacin de factores genticos que afectan
el desarrollo y el destino de las enfermedades cardiovasculares.

2. Quines estn trabajando en este proyecto?


R. Coordinador: lvaro Alegra.
Investigadores: Lucero Ramos, Duverney Gaviria Arias y Germn Moreno.

3. Qu desean hacer con los datos que poseen de las secuencias de ADN de
los pacientes con enfermedades cardiovasculares de la ciudad de Pereira?
R. Establecer una lnea base para realizar estudios posteriores.

4. Cuntos datos se encuentran procesando actualmente y cuantos desean


procesar?
R. Actualmente se procesan 4 marcadores moleculares por persona en 120
pacientes, y se desean procesar 400 marcadores por persona en una cantidad
de 10.000 a 20.000 pacientes.

5. Cmo realizan este proceso? Si usan alguna herramienta tecnolgica,


descrbala.
R. Se almacenan en Excel y se procesan con programas estadsticos.

6. Cunto tiempo tardan en procesar esa cantidad de datos?


R. Un mes aproximadamente.

7. En cunto tiempo desean procesar la cantidad de datos que quieren


aumentar?
R. En el tiempo ms corto posible.

105
8. Qu conocimiento poseen acerca del procesamiento de grandes volmenes
de secuencias de ADN?
R. El conocimiento que poseen en herramientas informticas es muy bsico y
el conocimiento que poseen en estadstica es ms avanzado.

9. Con qu personal han trabajando anteriormente?


R. Anteriormente se contaban con 10 mdicos y profesionales de ciencias del
deporte y la salud.

106
10. CONCLUSIONES

El almacenamiento de datos aparece en la bioinformtica para apoyar el


descubrimiento de los conocimientos biolgicos y tambin para facilitar la
investigacin y el intercambio de informacin.

Se considera que las aplicaciones web biolgicas colaborativas han revolucionado


la investigacin biolgica, debido al fcil acceso que se tienen a los trabajos
propios y ajenos, y a los nuevos desarrollos que abarcan el tema de investigacin.
Sin embargo se requiere adquirir bastante conocimiento sobre el rea informtica
por lo que se considera indispensable que el profesional en informtica acompae
al cientfico para que este haga un uso ms correcto de las tecnologas y pueda
aprovechar al mximo todas las caractersticas tcnicas de las bases de datos, y
que esto a su vez permita llevar a cabo la tarea investigativa de una manera ms
eficiente y completa.

An no est claro si la bioinformtica eventualmente se convertir en una parte


integral de la informtica (de la misma manera como, por ejemplo, grficos de
computadora y bases de datos), o simplemente se le dar un enfoque orientado
hacia la aplicacin de tcnicas computacionales.

Las principales investigaciones de este siglo y los esfuerzos de desarrollo


probablemente sean dirigidos hacia las ciencias biolgicas y de la salud. Se
recomienda que los desarrolladores y/o profesionales en el rea de la
computacin diversifiquen su rea de desarrollo, dado a que se puede ganar
muchsimo en conocimiento y aplicacon a travs de la pronta entrada de la
bioinformtica y las soluciones a los problemas biolgicos que constantemente se
presentan.

A pesar de que una gran cantidad de atencin se presta al rea biolgica en


trminos de investigacin y de inversin, la comprensin terica debe
perfeccionarse todava para que el resultado del anlisis biolgico computacional
sea mucho ms eficaz al servicio de la humanidad.

Como trabajo futuro se requiere definir las plataformas tecnolgicas y la


implementacin de los procesos asociados como solucin propuesta para los
problemas biolgicos. No obstante en esta fase los investigadores ven
representados sus intereses y requerimientos, lo que es condicin fundamental para
el xito del sistema planteado.

107
11. REFERENCIAS BIBLIOGRFICAS

A Brief Introduction to Protein Crystallography by Dave Lawson. s.f. What is X-ray


Crystallography?[en lnea]. Colney, Reino Unido. Disponible desde Internet en: <
http://www.jic.ac.uk/staff/david-lawson/xtallog/summary.htm> [citado en 13 de julio
de 2011].

ADELI, Hojjat y HUNG, Shih-Lin. Machine learning : neural networks, genetic


algorithms, and fuzzy systems. New York: John Wiley & Sons, Inc. 1995. 211p.
ISBN 0-471-01633-0.

Affymetrix. 2009. Affymetrix Power Tools. Santa Clara, CA, Estados Unidos de
Amrica. Disponible desde Internet en:
<http://www.affymetrix.com/partners_programs/programs/developer/tools/powertoo
ls.affx> [citado en 18 de marzo de 2011].

AGATONOVIC-KUSTRIN, S.; BERESFORD, R. Basic concepts of artificial neural


network (ANN) modeling and its application in pharmaceutical research. En:
Journal of Pharmaceutical and Biomedical Analysis. Junio de 2000. vol. 22, Issue
5. p. 717-727.

AP Associated Press. Marzo de 2011. Facts & Figures [en lnea]. Estados Unidos
de Amrica. Disponible desde Internet en:
<http://www.ap.org/pages/about/about.html> [citado en 17 de julio de 2011].

Aplicaciones virtuales en biomedicina [en lnea]. ESCOBAR ROA, Juan Miguel.


Facultad de Ingeniera Electrnica, Universidad El Bosque: Bogot, 2006 - [citado
el 30 de marzo de 2011]. Vol 1 No. 1. Disponible desde Internet en:
<http://artemisa.unbosque.edu.co/facultades/electronica/pdfs/RevistaN1/Articulo%
206.pdf>

Argonne NATIONAL LABORATORY. 27 de agosto de 2010. IAN T. FOSTER.


Argonne, Chicago (Estados Unidos de Amrica). Disponible desde Internet en:
<http://www.mcs.anl.gov/about/people_detail.php?id=285> [citado en 1 de abril de
2011].

108
AUT University. 15 de octubre de 2010. Our Staff: Ajit Narayanan. Auckland,
Nueva Zelanda. Disponible desde Internet en:
<http://oldwww.aut.ac.nz/schools/computing_and_mathematical_sciences/our_staf
f/ajit_narayanan.htm> [citado en 15 de octubre de 2010].

AZUAJE, F. A computational evolutionary approach to evolving game strategy and


cooperation. En: IEEE Transactions on Systems, Man, and Cybernetics, Part B.
vol. 33, Issue: 3, Junio de 2003. p. 498-503. ISSN 1083-4419.

BALDI, Pierre, et al. Bidirectional IOHMMs and Recurrent Neural Networks for
Protein Secondary Structure Prediction. En: CASADIO, Rita y MASOTTI,
Lanfranco. Protein Sequence Analysis in the Genomic Era. Bolonia (Italia): CLUEB
Eds, 2000.

BALDI, Pierre y BRUNAK, Soren. Bioinformatics: The Machine Learning Approach.


2 ed. Londres: The MIT Press. 2001. 477p. ISBN 026202506X.

--------.--------. s.l.: MIT Press, Febrero de 1998. 360p. ISBN 0-262-0244-X.

BANDYOPADHYAY, Sanghamitra. An efficient technique for super family


classification of amino acid sequences: feature extraction, fuzzy clustering and
prototype selection. En: Journal Fuzzy Sets and Systems. vol. 152, Issue: 1. 2005.
p. 516.

BARTON, G.J. y STERNBERG, M.J. A strategy for the rapid multiple alignment of
protein sequences: Confidence levels from tertiary structure comparisons. En:
Journal of Molecular Biology. Noviembre de 1987. vol. 198, Issue 2. p. 327-337.

BENEDETTI, Giorgio y MOROSETTI, Stefano. A genetic algorithm to search for


optimal and suboptimal RNA secondary structures. En: Biophysical Chemistry.
Agosto de 1995. vol. 55, Issue 3. p. 253-259.

Bib-Gen Instituto de salud Carlos III. 18 de febrero de 2004. Acceso a fuentes de


informacin genmica y herramientas bioinformticas bsicas. Espaa. Disponible
desde Internet en: <http://bvs.isciii.es/bib-
gen/Actividades/curso_virtual/Ftes_informacion/fteinformacion4.htm> [citado en 29
de marzo de 2011].

109
BICCIATO, Silvio, et al. Analysis of an Associative Memory Neural Network for
Pattern Identification in Gene Expression Data. En: 1st Workshop on Data Mining
in Bioinformatics (in conjunction with 7th ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining). San Francisco, CA(Estados Unidos de
Amrica): ACM, 2001.

BIOInformatics. 16 de noviembre de 2006. Bioinformatics Research Group,


K.U.Leuven [en lnea]. Leuven-Heverlee (Blgica). Disponible desde Internet en:
<http://www.kuleuven.be/bioinformatics/> [citado en 13 de octubre de 2010].

Bioinformatics Research Group. 20 de julio de 2010. Bioinformatics Group [en


lnea]. Waterloo (Canad). Disponible desde Internet en:
<http://monod.uwaterloo.ca/> [citado en 14 de octubre de 2010].

Bioinformatics Research Group at SRI International. 31 de marzo de 2010. SRI [en


lnea]. Menlo Park (Estados Unidos de Amrica). Disponible desde Internet en:
<http://bioinformatics.ai.sri.com/> [citado en 14 de octubre de 2010].

Bioiformatics WEB server. s.f. Gene Finding: Gene models construction, Splice
sites, Protein coding exons [en lnea]. Londres. Disponible desde internet en: <
http://mendel.cs.rhul.ac.uk/mendel.php?topic=fgen-file> [citado en julio 19 de 2011].

Biomdica [online]. Grupo de Anlisis Bioinformtico GABi, Centro de


Investigacin y Desarrollo en Biotecnologa CIDBIO: Bogot, 2010 - [citado en 6
de octubre de 2010]. Vol 30, No.2. (abril-junio 2010). ISSN 0120-4157. Disponible
desde Internet en:
<http://www.scielo.unal.edu.co/scielo.php?script=sci_arttext&pid=S0120-
1572010000200004&lng=en&nrm=iso > ISSN 0120-4157>

BioStar models of clinical and genomic data for biomedical data warehouse design
[en lnea]. WANG, Liangjiang ; RAMANATHAN, Murali y ZHANG, Aidong. State
University of New York at Buffalo: New York, Estados Unidos de Amrica, 2005 -
[citado el 30 de marzo de 2011]. Disponible desde Internet en:
<http://www.cse.buffalo.edu/DBGROUP/bioinformatics/papers/ijbra05.pdf>

110
BIOTIC Area de Bioinformtica y Salud Pblica. s.f. Bioinformtica
Asociada/Metodologa/Anlisis de datos [en lnea]. Madrid, Espaa. Disponible
desde internet en:
<http://infobiochip.isciii.es/Textos/Metodologia/bioinfo%20asociada/metodologia/an
alisis%20de%20datos.htm> [citado en julio 16 del 2011].

BLASCHKE, C. y VALENCIA, A. The frame-based module of the SUISEKI


information extraction system. En: IEEE Intelligent Systems. vol. 17, no. 2. 2002. p.
14-20.

BMC Bioinformatics. 25 de noviembre de 2008. BARTON, G., et al. EMAAS: An


extensible grid-based Rich Internet Application for microarray data analysis and
management. Frederick: Estados Unidos de Amrica, Londres (Reino Unido).
Disponible desde Internet en: <http://www.biomedcentral.com/1471-2105/9/493>
[citado en 30 de marzo de 2011].

--------. Junio 2009. Functional Annotation Analysis. Londres (Reino Unido).


Disponible desde Internet en: <http://www.biomedcentral.com/1471-2105/9/493>
[citado en 1 de abril de 2011].

--------.--------. Server Side. Londres (Reino Unido). Disponible desde Internet en:
<http://www.biomedcentral.com/1471-2105/9/493> [citado en 1 de abril de 2011].

BOHR, H, et al. A novel approach to prediction of the 3-dimensional structures of


protein backbones by neural networks. En: FEBS Letters. vol. 261, no. 1. Febrero
1990. p. 43- 46.

BROAD INSTITUTE. s.f. First edition of HapMap released, a "catalog" of human


genetic variation. Cambridge, Massachusetts. Disponible desde Internet en: <
http://www.broadinstitute.org/news/258> [citado en 15 de abril de 2011].

--------.--------. GRAIL: Gene Relationships Across Implicated Loci. Cambridge,


Massachusetts. Disponible desde Internet en: <
http://www.broadinstitute.org/mpg/grail/> [citado en 14 de abril de 2011].

111
BROAD INSTITUTE. s.f. SNP. Cambridge, Massachusetts. Disponible desde
Internet en: <http://www.broadinstitute.org/education/glossary> [citado en 15 de
abril de 2011].

BROWN, Michael P.S.; GRUNDY, William N.; et al. Knowledge-based analysis of


microarray gene expression data by using support vector machines. En: PNAS. 4
de enero de 2000. vol. 97, no. 1. p. 262-267.

BRUSIC, Vladimir, et al. A Neural Network Model Approach to the Study of Human
TAP Transporter. En: In Silico Biology. 1998. vol. 1.

--------. Prediction of MHC class-II binding peptides using an evolutionary algorithm


and artificial neural network. En: Bioinformatics. 1998. vol. 14, Issue 2. p. 121-130.

BRUSIC, Vladimir y ZELEZNIKOW, John. Knowledge discovery and data mining in


biological databases. En: The Knowledge Engineering Review. Septiembre de
1999. vol. 14, Issue 3. p. 257-277.

CARLEOS, C., et al. Simulating complex traits influenced by genes with fuzzy-
valued effects in pedigreed populations. En: Bioinformatics. vol. 19, Issue: 1. 2003.
p. 144-148.

Cenicaf Centro Nacional de Investigaciones de Caf. 6 de julio de 2011. Misin


de Cenicaf [en lnea]. Chinchin (Caldas), Colombia. Disponible desde Internet
en: <http://www.cenicafe.org/> [citado en 13 de julio de 2011].

Central de procesamiento de imgenes mdicas para General Mdica de


Colombia S.A. [en lnea]. PRIETO REYES, Sandy Johana; SALCEDO LPEZ,
Dennys Marcela y TORRES ROMERO, Oscar Mauricio. Facultad de Ingeniera
Electrnica, Universidad El Bosque: Bogot, 2006 - [citado el 30 de marzo de
2011]. Vol 1 No. 1. Disponible desde Internet en:
<http://artemisa.unbosque.edu.co/facultades/electronica/pdfs/RevistaN1/Articulo%
202.pdf>

Cetisa Editores, S.A. Algoritmos genticos: Introduccin, mtodos de bsqueda y


optimizacin. En: Mundo Electrnico. 2000, no. 313.

112
CHEN, J.H.; LE, S.Y. y MAIZEL, J.V. Prediction of common secondary structures
of RNAs: a genetic algorithm approach. Nucleic Acids Res. 15 de febrero de 2000.
vol. 28, Issue 4. p. 991-999.

CHIANG, J.; YU, H. y HSU, H. GIS: a biomedical text-mining system for gene
information discovery. En: Bioinformatics. vol. 20, no. 1. 2004. p. 120-121.

CLAVERIE, Jean-Michel, PhD y NOTREDAME, Cedric, PhD. Bioinformatics for


Dummies. 2 ed. Indianpolis: Wiley Publishing Inc, 2007. 436p. ISBN13: 978-0-
470-08985-9.

Clustal: Multiple Sequence Alignment. 26 de junio de 2011. Multiple alignment of


nucleic acid and protein sequences [en lnea]. s.l. Disponible desde internet en:
<http://www.clustal.org/#News> [citado en julio 12 de 2011].

COLEY, David A. An introduction to genetic algorithms for scientists and


engineers. Singapore: World Scientific, 1999. 227p. ISBN 9810236026.

Colombia Mdica [en lnea]. Universidad del Valle: Cali, 2008 [citado en 7 de
octubre de 2010]. Vol. 39, No. 001. (enero-marzo 2008). Disponible desde Internet
en: <http://redalyc.uaemex.mx/redalyc/pdf/283/28339115.pdf > ISSN 1657-9534

Computacin Cluster y Grid. Cluster computing [en lnea]. Disponible desde


Internet en:
<http://laurel.datsi.fi.upm.es/_media/docencia/asignaturas/ccg/clustering-
computing-4pp.pdf> [citado en 1 de abril de 2011]

Computacin Evolutiva. s.f. Introduccin y conceptos bsicos [en lnea].s.l.


Disponible desde internet en:
<http://members.tripod.com/jesus_alfonso_lopez/AgIntro.html> [citado en 13 de
julio de 2011].

CORDN, Oscar, et al. Ten years of genetic fuzzy systems. En: Fuzzy Sets and
Systems. vol. 141, Issue: 1. 2004. p. 5-31.

113
CRISTIANINI, Nello y SHAWE-TAYLOR, John. An Introduction to Support Vector
Machines (and other kernel-based learning methods). Cambridge (United
Kingdom): Press Syndicate of the University of Cambridge, 2000. ISBN 0-521-
78019-5.

DAHL, Carol A. y STRAUSBERG, Robert L. Revolutionizing Biology Through


Leveraging Technology. En: Engineering in Medicine and Biology Magazine, IEEE.
vol. 15, Issue: 4. Julio Agosto, 1996. p. 106-110. ISSN 0739-5175.

DARMONT, Jrme y OLIVIER, Emerson. A Complex Data Warehouse For


Personalized, Anticipative Medicine. Francia: University of Lyon, 2006. Disponible
desde Internet en: <http://arxiv.org/ftp/arxiv/papers/0809/0809.2688.pdf> [citado en
30 de marzo de 2011].

DARWIN, Charles. On the Origin of Species by means of natural selection: or, The
preservation of favoured races in the struggle for life. Londres: Yushodo
Bookseller's, 1859. 502p.

DefinicionesDe. 22 de marzo de 2011. Definicion de Locus [en lnea]. Disponible


desde internet en : <http://www.definicionesde.com/e/locus/> [citado el 19 de julio
de 2011].

DEMBL, Doulaye y KASTNER, Philippe. Fuzzy C-means method for clustering


microarray data.En: Bioinformatics. vol. 19, Issue: 8. 2003. p. 973-980.

DOPAZO, Joaqun y CARAZO, Jos Mara. Phylogenetic reconstruction using a


unsupervised growing neural work that adopts the topology of a phylogenetic tree.
En: Journal of Molecular Evolution. Madrid (Espaa): Springer-Verlag, 1997. vol.
44, no.2. p. 226-233.

DUQUE, Nstor Daro y TAMAYO, Alonso. Data Warehouse: Herramienta para la


toma de decisiones (Parte I). En: NOOS. Enero 2011. no.12. p. 118-126.

--------. Data Warehouse: Herramienta para la toma de decisiones (Parte II). En:
NOOS. Enero 2011. no.13.

114
DUNHAM, Margaret H. Data mining: Introductory and advanced topics. New
Jersey: Prentice Hall, 2003. 315p.

Eisein Lab. 27 de noviembre de 2002. Microarray Image Analysis [en lnea]. s.l.
Disponible desde internet en: <http://rana.lbl.gov/EisenSoftware.htm> [citado en 9
de julio de 2011].

EMBL-EBI. 4 de Julio de 2011. InterPro protein sequence analysis & classification


[en lnea]. Cambidge, Reino unido. Disponible desde internet en:
<http://www.ebi.ac.uk/interpro/> [citado en julio 19 de 2011].

--------. 6 de septiembre de 2010. Groups at the EBI [en lnea]. Cambridge (Reino
Unido). Disponible desde Internet en: <www.ebi.ac.uk/Groups/> [citado en 14 de
octubre de 2010].

--------. s.f. ClustalW2 Multiple Sequence Alignment [en lnea]. Reino Unido.
Disponible desde internet en: <http://www.EBI.ac.uk/Tools/msa/clustalw2/> [citado
en 10 de julio de 2011].

--------.--------. Expression Profiler at the EBI [en lnea]. Cambidge, Reino unido.
Disponible desde internet en: <http://www.ebi.ac.uk/expressionprofiler/> [citado en
julio 13 de 2011].

--------.--------. FASTA/SSEARCH/GGSEARCH/GLSEARCH Protein Similiraty


Search [en lnea]. Reino Unido. Disponible desde internet en:
<http://www.EBI.ac.uk/Tools/sss/fasta/> [citado en 10 de julio de 2011].

--------.--------. Wise2 Intelligent algoritms for DNA searches [en lnea]. Reino
Unido. Disponible desde internet en: <http://www.ebi.ac.uk/Tools/Wise2/> [citado
en julio 19 de 2011].

EMBnet Colombia. s.f. Algoritmos de Comparacion de Secuencias BLAST [en


lnea]. Bogot, Colombia. Disponible desde internet en:
<http://bioinf.ibun.unal.edu.co/documentos/Blast/blast.php>. [citado en julio 12 de
2011].

115
EMBnet. s.f. EMBOSS [en lnea]. Bari, Italia. Disponible desde internet en:
<http://www.embnet.org/en/node/114 > [citado en julio 15 de 2011].

EMBOSS GUI v.1.12: est2genome. s.f. EST2GENOME [en lnea]. s.l. Disponible
desde internet en: <http://imed.med.ucm.es/cgi-
bin/emboss.pl?_action=input&_app=est2genome > [citado en julio 19 de 2011].

ESCALANTE, Ivn. Data Warehouse. En: Soluciones Avanzadas. Junio 1996.


no.34.

EVANGELOS, Simoudis. Reality check for data mining. En: IEEE Expert. vol. 1,
Issue: 5. 1996. p.26-33.

ExPASy Proteomics Server. 1 de julio de 2011. PROSITE [en lnea]. Suiza.


Disponible desde Internet en: <http://www.expasy.ch/prosite/> [citado en 14 de
octubre de 2010].

--------. 5 de octubre de 2010. PROSITE [en lnea]. Disponible desde Internet en:
<http://www.expasy.ch/prosite/> [citado en 14 de octubre de 2010].

FAIRCHILD, S.; PACHTER, R. y PERRIN, R. Protein Structure Analysis and


Prediction. En: The Mathematica Journal. vol. 5, Issue:4, 1995.

FAYYAD, Usama M. Data mining and knowledge discovery: Making sense out of
data. En: IEEE EXPERT. vol. 11, Issue: 5. Octubre, 1996. p. 20-25.

FEBLES RODRGUEZ, Juan Pedro y GONZLEZ PREZ, Abel. Aplicacin de la


minera de datos en la bioinformtica. En: ACIMED Revista Cubana de los
Profesionales de la Informacin y la Comunicacin en Salud. vol.10 no. 2. Marzo -
abril 2002. ISSN 1024-9435.

FENG, D.F. y DOOLITLE, R.F. Progressive sequence alignment as a prerequisite


to correct phylogenetic trees. En: Journal of Molecular Evolution. 1987. vol. 25,
Issue 4. p. 351-360.

116
FENG, Zukang, et al. Ligand Depot: a data warehouse for ligands bound to
macromolecules. En: Bioinformatics Applications Note [en lnea]. 1 de abril de
2004. vol. 20. no. 13. Disponible desde Internet en:
<http://bioinformatics.oxfordjournals.org/content/20/13/2153.full.pdf+html?sid=5fbc
13fd-7bee-4364-829b-ef27e2d53032>

FINLAY, Janet y DIX, Alan. An Introduction to Artificial Intelligence. Reino Unido:


UCL Press, Taylor & Francis Group, 1996. ISBN 1-85728-399-6.

FREEMAN, James A. y SKAPURA, David M. Neural networks : algorithms,


applications, and programming techniques. Michigan (Estados Unidos de
Amrica): Addison-Wesley. 1991. 401p. ISBN 0201513765.

FRIEDMAN, C., et al. GENIS: a natural-language processing system for the


extraction of molecular pathways from journal articles. En: Bioinformatics. vol. 17,
no. 1. 2001. p. 74-82.

FRITZKE, Bernd. Growing cell structures--a self-organizing network for


unsupervised and supervised learning. En: Neural Networks. vol. 7, Issue 9. 1994.
p. 1141-1160.

FU, Limin. Knowledge Discovery Based on Neural Networks. En: Communications


of the ACM (CACM). vol. 42, Issue: 11, Noviembre 1999. p. 47-50.

FUREY, Terrence; CRISTIANINI, Nello, et al. Support vector machine classification


and validation of cancer tissue samples using microarray expression data. En:
Bioinformatics. 4 de abril de 2000. vol. 16, Issue 10. p. 906-914.

GABi Bioinformatic Analysis Group. 4 de septiembre de 2010. Group Background


[en lnea]. Bogot D.C. Disponible desde Internet en:
<http://gabi.cidbio.org/group.html> [citado en 14 de octubre de 2010].

GLVEZ, Carmen, PhD. MINERA DE TEXTOS: LA NUEVA GENERACIN DE


ANLISIS DE LITERATURA CIENTFICA EN BIOLOGA MOLECULAR Y
GENMICA. Granada, Espaa: Facultad de Comunicacin y Documentacin,
2008. 14p.

117
GALVEZ, C. y MOYA-ANEGN, F. Aproximacin Bio-Bibliomtrica a la deteccin
de relaciones biolgicas entre genes. En: II Conferncia Ibrica de Sistemas e
Tecnologias de Informao - CISTI 2007. 2007. p. 469-480.

GEER, Renata C. y SAYERS, Eric W. Entrez: Making use of its power. En:
Briefings in Bioinformatics. vol. 4, no. 2. Junio, 2003. p. 179-184.

GeneCards. 13 de febrero de 2011. About GeneCards. Israel. Disponible desde


Internet en: <http://www.genecards.org/> [citado en 18 de marzo de 2011].

GeneQuiz. s.f. GeneQuiz home page [en lnea]. s.l. Disponible desde internet en:
<http://swift.cmbi.kun.nl/swift/genequiz/> [citado en 9 de julio de 2011].

GHANEA-HERCOCK, Robert. Applied evolutionary algorithms in Java. New York:


Springer, 2003. 219p. ISBN 0387955682.

Glosario.Net. 9 de noviembre de 2006. ADN. Disponible desde Internet en: <


http://ciencia.glosario.net/genetica/adn-dna-4813.html> [citado en 29 de marzo de
2011].

--------.--------. ARN. Disponible desde Internet en: <


http://ciencia.glosario.net/genetica/arn-rna-4843.html> [citado en 29 de marzo de
2011].

--------. Abril de 2007. Exones [en lnea]. s.l. Disponible desde internet en:
<http://ciencia.glosario.net/biotecnologia/exones-10096.html> [citado en julio 16 de
2011].

GOLDBERG, David. Genetic algorithms in search, optimization, and machine


learning. Michigan (Estados Unidos de Amrica): Addison-Wesley Pub. Co., 1989.
412p. ISBN 0201157675.

GOLUB, Todd R., et al. Molecular classification of cancer: class discovery and
class prediction by gene expression monitoring. En: Science. vol. 286, 15 de
octubre de 1999. p. 531-537.
GRANZOW, M, et al. Tumour classification by gene expression profiling:

118
comparison and validation of five clustering methods. En: ACM SIGBIO Newsletter.
Abril de 2001. vol. 21, Issue 1. p. 16-22.

GrupLAC Plataforma SCienceTI Colombia. s.f. GEPAMOL [en lnea]. Armenia


(Quindio), Colombia. Disponible desde internet en: <
http://201.234.78.173:8080/gruplac/jsp/visualiza/visualizagr.jsp?nro=00000000000
255> [citado en 9 de julio de 2011].

GULTYAEV, A.P.; VAN BATENBURG, F.H. y PLEIJ, C.W. The Computer


Simulation of RNA Folding Pathways using a Genetic Algorithm. En: Journal of
Molecular Biology. 30 de junio de 1995. vol. 250, Issue 1. p. 37-51.

HAN, Jiawei y KAMBER, Micheline. Data Mining: Concepts and Techniques. San
Francisco, California: Morgan Kaufmann Publishers, 2001.

HARJINDER S, Gill y PRAKASH C, Rao. Data Warehousing. La Integracion de


Informacion para la Mejor Toma de Decisiones. Mxico: Prentice Hall, 1996. 382p.
ISBN 968-880-792-3.

HAYKIN, Simon S. Neural networks: a comprehensive foundation. Michigan


(Estados Unidos de Amrica): Macmillan. 1994. 696p. ISBN 0023527617.

HEARST, M. Untangling text data mining. En: Proceedings of ACL'99: the 37th
Annual Meeting of the Association For Computational Linguistic ACL. 1999. p. 3-
10.

Helmholtz Zentrum Mnchen. 10 de agosto de 2010. AG BIODV Software


Developments [en lnea]. Neuherberg (Alemania). Disponible desde Internet en:
<http://www.helmholtz-muenchen.de/en/ieg/group-ag-biodv/ag-biodv-software-
developments/index.html> [citado en 14 de octubre de 2010].

HERRERO, Javier; VALENCIA, Alfonso y DOPAZO, Joaqun. A hierarchical


unsupervised growing neural network for clustering gene expression patterns. En:
Bioinformatics. vol. 17, Issue: 2, 2001. p. 126-136.

HOLLAND, John H. Adaptation in Natural and Artificial Systems: an introductory

119
analysis with applications to biology, control, and artificial intelligence. Michigan
(Estados Unidos de Amrica): University of Michigan Press, 1975. 183p. ISBN
0472084607.

HUANG, Ying y LI, Yanda. Prediction of protein subcellular locations using fuzzy k-
NN method. En: Bioinformatics. vol.20, Issue: 1. 2004. p.21-28.

INSTITUTO COLOMBIANO DE NORMAS TCNICAS Y CERTIFICACIN.


Documentacin: Presentacin de Tesis, Trabajos de grado y otros trabajos de
investigacin. NTC 1486. 6 ed. Bogot D.C.: El Instituto, 2008. 36 p.

--------. Referencias bibliogrficas: Contenido, forma y estructura. NTC 5613.


Bogot D.C.: El Instituto, 2008. 33 p.

--------. Referencias documentales para fuentes de informacin electrnicas. NTC


4490. Bogot D.C.: El Instituto, 1998. 23 p.

JAAKKOLA, Tommi; DIEKHANS, Mark y HAUSSLER, David. (1999) Using the


Fisher kernel method to detect remote protein homologies. En: Proceedings of the
Seventh International Conference on Intelligent Systems for Molecular Biology.
Santa Cruz, California: AAAI Press, 1999. ISBN 1-57735-083-9.

JAGOTA, Arun. Data Analysis and Classification for Bioinformatics. California: Bay
Press, 2000. 92p.

JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En:


European Journal of Scientific Research. vol 26, no.2. 2009. p. 189-203. ISSN
1450-216X.

KALATE, Rupali; TAMBE, Sanjeev y KULKARNI, Bhaskar. Artificial neural


networks for prediction of mycobacterial promoter sequences. En: Computational
Biology and Chemistry. vol. 27, Issue: 6. 2003. p. 555-564.

120
KEEDWELL, E. y NARAYANAN, A. Genetic algorithms for gene expression
analysis. En: Applications of Evolutionary Computation: Proceedings of the 1st
European Workshop on Evolutionary Bioinformatics. Berlin, Heidelberg: Springer-
Verlag, 2003. p. 76-86.

KOHONEN, Teuvo. Self-organized formation of topologically correct feature maps.


En: Biological Cybernetics. Finlandia: Springer-Verlag, 1982. vol. 43, no. 1. p. 59-
69.

KUONEN, Diego. Challenges in bioinformatics for statistical data miners. En: The
Swiss Statistical Society. vol, 46. 2003. p. 10-17.

--------. Challenges in Bioinformatics for Statistical Data Miners. En: ENBIS


MAGAZINE (SCIENTIFIC COMPUTING WORLD). Noviembre Diciembre, 2004.
vol. 46, p. 10-17.

La Jornada. 20 de octubre de 2007. Watson y Crick, los padres del ADN. Mxico,
D.F. Disponible desde Internet en:
<http://www.jornada.unam.mx/2007/10/20/index.php?section=ciencias&article=a03
n1cie> [citado en 7 de octubre de 2010].

La Patria. 28 de Julio de 2010. Manizales, sede del Centro de investigacin en


Bioinformtica [en lnea]. Manizales. Disponible desde Internet en:
<http://www.lapatria.com/story/manizales-sede-del-centro-de-
investigaci%C3%B3n-en-bioinform%C3%A1tica> [citado en 14 de octubre de
2010].

LEROY, G. y CHEN, H. Genescene: An ontology-enhanced integration of linguistic


and co-occurrence based relations in biomedical texts. En: Journal of the American
Society for Information Science and Technology. vol. 56, no. 5. 2005. p. 457-468.

LI, Leping, et al. Gene selection for sample classification based on gene
expression data: study of sensitivity to choice of parameters of the GA/KNN
method. En: Bioinformatics. 2001. vol. 17, Issue 12. p. 1131-1142.

LIPPMAN, Richard P. An introduction to computing with neural nets. En: IEEE


Acoustics, Speech, and Signal Processing Magazine. Abril de 1987. 22p.

121
Lofti A. Zadeh. s.f. Zadeh, Lofti A. Argentina. Disponible desde Internet en:
<http://www.eltercertiempo.com.ar/ventanitas/Biog_Zadeh.htm> [citado en 17 de
mayo de 2011].

LUKAC, R., et al. cDNA microarray image processing using fuzzy vector filtering
framework. En: Journal Fuzzy Sets and Systems. vol. 152, Issue: 1. 2005. p. 17
35.

Marcadores moleculares y la extraccin de ADN. En: Facultad de Ciencias


Agropecuarias [en lnea]. Marzo 2005. vol. 3, no. 1. Disponible desde Internet en:
<http://www.unicauca.edu.co/biotecnologia/ediciones/vol3/Art32.pdf>.

MARTZ, Eric. 3D molecular visualization with Protein Explorer. En: KRAWETZ,


Stephen A., WOMBLE, David D. Introduction to Bioinformatics: A Theoretical and
Practical Approach. Totowa, New Jersey: Humana Press, 2003. p. 565.

Medicina Molecular. 10 de noviembre de 2007. ARNm [en lnea]. Granada,


Espaa. Disponible desde internet en: <http://www.medmol.es/glosario/47/> [citado
en 20 de marzo de 2011].

--------.--------. Transcripcin [en lnea]. Granada, Espaa. Disponible desde internet


en: <http://www.medmol.es/temas/66/> [citado en julio 16 de 2011].

--------. 5 de marzo de 2008. ADN Complementario [en lnea]. Granada, Espaa.


Disponible desde internet en: <http://www.medmol.es/glosario/94/> [citado en 15 de
marzo de 2011].

Medicina Molecular: Presente y Futuro [online]. Chile, 1999 - [citado 6 octubre


2010]. 127: en prensa. Disponible desde internet:
<http://escuela.med.puc.cl/deptos/gastro/artzanlungo2.html>

MedicineNet.com. 27 de abril de 2011. Gene product [en lnea]. San Clemente,


California. Disponible desde Internet en:
<http://www.medterms.com/script/main/art.asp?articlekey=3569> [citado en 18 de
julio de 2011].

122
MINSKY, Marvin L. y PAPERT, Seymour A. Perceptrons. Cambridge,
Massachusetts: MIT Press. 1969. s.d.

MKM Publicaciones Informticas. 31 de marzo de 2009. Bioinformtica [en lnea].


Madrid. Disponible desde Internet en: <http://www.mkm-
pi.com/mkmpi.php?rubrique500> [citado en 13 de octubre de 2010].

MYERS, E.M. Toward Simplifying and Accurately Formulating Fragment Assembly.


En: Journal of Computational Biology. vol. 2, Issue: 2. p. 275-290.

MLLER, Berndt y REINHARDT, Joachim. Neural networks: an introduction.


Berlin, New York: Springer-Verlag. 1990. 266p. ISBN 3540520384.

NARAYANAN, A., et al. Single-Layer Artificial Neural Networks for Expression


Analysis. En: Special Issue on Bioinformatics of Neurocomputing. 2003b. vol. 61.
p. 217-240.

NARAYANAN, A.; KEEDWELL, E.C. y OLSSON, B. Applied bioinformatics:


Artificial intelligence techniques for bioinformatics. s.l. 2002. vol. 1, p. 191-222.
ISSN 1175-5636.

--------. Artificial Intelligence Techniques for Bioinformatics. En: Applied


Bioinformatics. 2003a. vol.1, Issue 4. p. 191-222.

NCBI. 29 de enero de 2010. What is GenBank? [en lnea]. Bethesda, Estados


Unidos de Amrica. Disponible desde Internet en:
<http://www.ncbi.nlm.nih.gov/genbank/> [citado en 7 de octubre de 2010].

--------. 13 de abril de 2009. What is dbEST? [en lnea]. Estados Unidos de


Amrica. Disponible desde Internet en: <http://www.ncbi.nlm.nih.gov/dbEST/>
[citado en 15 de julio de 2011].
NCBI. 15 de julio de 2011. RefSeq [en lnea]. Estados Unidos de Amrica.
Disponible desde Internet en: <http://www.ncbi.nlm.nih.gov/RefSeq/> [citado en 17
de julio de 2011].

123
NCBI GEO Gene Expression Omnibus. 31 de enero de 2011. GEO Overview.
Estados Unidos de Amrica. Disponible desde Internet en:
<http://www.ncbi.nlm.nih.gov/geo/info/overview.html> [citado en 18 de marzo de
2011].

NCBI. Microarrays: chipping away at the mysteries of science and medicine [en
lnea]. Julio de 2007. Bethesda Estados Unidos de America. Disponible desde
internet en: <http://www.ncbi.nlm.nih.gov/About/primer/microarrays.html> [citado
en julio 16 de 2011].

NCBI PubMed.gov U.S. National Library of Medicine National Institutes of Health.


2007. CELSIUS. Estados Unidos de Amrica. Disponible desde Internet en:
<http://www.ncbi.nlm.nih.gov/pubmed/17570842> [citado en 18 de marzo de
2011].

--------.--------. MIMIR. Estados Unidos de Amrica. Disponible desde Internet en:


<http://www.ncbi.nlm.nih.gov/pubmed/18801157> [citado en 18 de marzo de
2011].

--------. s.f. PubMed [en lnea]. Estados Unidos de Amrica. Disponible desde
Internet en: <http://www.ncbi.nlm.nih.gov/pubmed> [citado en 17 de julio de 2011].

NCBI. s.f. ORF FINDER [en lnea]. Bethesda, Estados Unidos de Amrica.
Disponible desde internet en: <http://www.ncbi.nlm.nih.gov/gorf/gorf.html> [citado
en julio 15 de 2011].

--------. s.f. Spidey [en lnea]. Estados Unidos de Amrica. Disponible desde internet
en: <http://www.ncbi.nlm.nih.gov/spidey/> [citado en julio 19 de 2011].

--------. s.f. UniGene [en lnea]. Estados Unidos de Amrica. Disponible desde
Internet en: <http://www.ncbi.nlm.nih.gov/unigene/> [citado en 17 de julio de 2011].

NEGNEVITSKY, Michael. Artificial Intelligence: A Guide to Intelligent Systems.


New York: Addison-Wesley. 2002. 394p. ISBN 0201711591.

124
NG, See-Kiong y Limsoon, WONG. Accomplishments and challenges in
bioinformatics. En: IT Professional. vol 6, Issue: 1. 2004. p. 44- 50.

--------. Toward routine automatic pathway discovery from on-line scientific text
abstracts. En: Proceedings of Genome Informatics. 1999. p. 104-112.

NILSSON, N.J. Introduction to Machine learning. Stanford, California: Robotics


Laboratory, Department of Computer Science, Stanford University. 1996. 201p.

NOTREDAME, C. y HIGGINS, D.G. SAGA: Sequence alignment by genetic


algorithm. En: Nucleic Acids Res. 1996. vol. 24, Issue 8. p. 1515-1524.

OHNO-MACHADO, Lucila; VINTERBO, Staal y WEBER, Griffin. Classification of


gene expression data using fuzzy logic. En: Journal of Intelligent and Fuzzy
Systems. 2002. vol. 12, no. 1. p. 19-24

OMGs CORBA Website. 6 de enero de 2011. CORBA [en lnea]. Needham,


Estados Unidos de Amrica. Disponible desde Internet en: <http://www.corba.org/>
[citado en 17 de julio de 2011].

ORACLE. 11 de febrero de 2009. Java Servlet Technology [en lnea]. Redwood


Shores, California (Estados Unidos de Amrica). Disponible desde Internet en:
<http://www.oracle.com/technetwork/java/javaee/servlet/index.html> [citado en 1
de abril de 2011].

ORFALI, Robert; HARKEY, Dan y EDWARDS, Jeri. Cliente/Servidor Gua de


Supervivencia. 2 ed. Mxico: McGraw-Hill, 1997. ISBN 9701017609.

PBIL. 5 de enero de 2008. SIM4 - a program to align cDNA and genomic DNA[en
lnea]. s.l. Disponible desde internet en: <http://pbil.univ-
lyon1.fr/members/duret/cours/inserm210604/exercise4/sim4.html> [citado en julio
19 de 2011].

PEREZ-IRATXETA, C., BORK, P. y ANDRADE, M. XplorMed: a tool for exploring


MEDLINE abstracts. En: Trends in Biochemical Sciences. vol. 26, no. 9. 2001. p.
573-575.

125
PEVZNER, Pavel; TANG, Haixu y WATERMAN, Michael. An Eulerian Path
Approach to DNA Fragment Assembly. En: Proceedings of National Academy of
Sciences of the United States of America. vol. 98, Issue:17. Agosto 14 de 2001. p.
9748-9753.

PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag


Berlin Heidelberg, 2005. 396p. ISBN 3-540-20873-9.

PLR Postgres OnLine Journal. 28 de noviembre de 2010. What is R and PL/R and
why should you care? [en lnea]. Boston (Estados Unidos de Amrica). Disponible
desde Internet en: <http://www.postgresonline.com/journal/categories/13-PLR>
[citado en 1 de abril de 2011].

Pontificia Universidad Javeriana, Facultad de Ingeniera Ingenieria y universidad.


Minera de datos especiales en bsqueda de la verdadera informacin. En:
Ingeniera y Universidad. Enero-Junio, 2009, vol. 13, no. 1.

Protein Explorer Option. Septiembre de 2010. Proteopedia [en lnea].s.l. Disponible


desde internet en: <http://www.proteinexplorer.org> [citado en 9 de julio de 2011].

QIAN, Ning y SEJNOWSKI, Terrence J. Predicting the secondary structure of


globular proteins using neural network models. En: Journal of Molecular Biology.
vol. 202, 1988. p. 865-884.

RAMAKRISHNAN, Raghu y GEHRKE, Johannes. Sistema de gestin de bases de


datos. Traducido por Jess Correas Fernandez. 3 ed. Espaa: Mcgraw-Hill
Interamericana de Espaa, S.A.U., 2007. 654 p. ISBN 9788448156381.

RAYCHAUDHURI, S., et al. Associating genes with gene ontology codes using a
maximum entropy analysis of biomedical literature. En: Genome Research. vol. 12.
2002. p. 203-214.

ReNaBi. 9 de febrero de 2011. Protein Database Genpept [en lnea]. s.l.


Disponible desde internet en: <http://www.renabi.fr/article202.html> [citado en julio
19 de 2011].

126
RESSOM, H.; REYNOLDS R. y VARGHESE R. Increasing the efficiency of fuzzy
logic based gene expression data analysis. En: Physiological Genomics. vol. 13,
Issue: 2. 2003. p. 107117.

RIIS, Soren y KROGH, Anders. Improving prediction of protein secondary structure


using structured neural networks and multiple sequence alignments. En: Journal of
Computational Biology. vol. 3, Issue: 1, 1996. p. 163-183.

RINDFLESCH, T. C., et al. EDGAR: extraction of drugs, genes and relations from
the biomedical literature. En: Pacific Symposium on Biocomputing. 2000. p. 517-
528.

RODRGUEZ BAENA, Domingo Savio; SANTOS RIQUELME, Jos C. y AGUILAR


RUIZ, Jess S. Anlisis de datos de Expresin Gentica mediante tcnicas de
Biclustering [en lnea]. Sevilla (Espaa). 2006. [citado 29 marzo 2010]. Disponible
desde internet: < http://www.lsi.us.es/docs/doctorado/memorias/Memoria-v2.pdf>

RODRIGUEZ T, Eduardo Dr. Bases de Datos Biolgicas [PDF]. Mxico: Centro de


Investigacin y de Estudios Avanzados del Instituto Politcnico Nacional, 2011.
Disponible desde Internet en:
<http://www.tamps.cinvestav.mx/~ertello/bioinfo/sesion03.pdf> [citado en 17 de
julio de 2011].

ROSENBLATT, F. The perceptron: a probabilistic model for information storage


and organization in the brain. En: Psychological Review. 1958. vol. 65. p. 386-408.

ROST, B. y SANDER, C. Prediction of protein secondary structure at better


than 70% accuracy. En: Journal of Molecular Biology. vol. 232, 1993. p. 584-599.

SAFRAN, M., et al. GeneCards 2000: towards a complete, objectoriented, human


gene compendium. En: Bioinformatics. vol. 18. 2002. p. 1542-1543.

SANTINELLI, Mariano y ANDRE, Gustavo. QU ES LA COMPUTACIN GRID?


[en lnea]. Lujn (Argentina). 2004. Disponible desde Internet en:
<http://www.unlu.edu.ar/~tyr/tyr/TYR-trab/2004/computacion_grid-santinelli-
andre.pdf> [citado en 1 de abril de 2011].

127
SCHLOSSHAUER, Maximilian y OHLSSON, Mattias. A novel approach to local
reliability of sequence alignments. En: Bioinformatics. vol 18, no.6. 2002. p. 847-
854.

SHAPIRO, Bruce, et al. The massively parallel genetic algorithm for RNA folding:
MIMD implementation and population variation. En: Bioinformatics. 2001. vol. 17,
Issue 2. p. 137-148.

SHAPIRO, Bruce y NAVETTA, Joseph. A massively parallel genetic algorithm for


RNA secondary structure prediction. En: Journal of Supercomputing. 1994. vol. 8,
no. 3. p. 195-207.

Sinnexus Business Intelligence + Informtica estratgica. Marzo de 2009.


Datamart. A Corua, Espaa. Disponible desde Internet en:
<http://www.sinnexus.com/business_intelligence/datamart.aspx> [citado en 29 de
marzo de 2011].

SMITH, Temple F. y WATERMAN, Michael S. Comparison of biosequences. En:


Advances in applied mathematics. 2 ed. California: Academic Press, 1981.

Spicker, Jeppe, et al. Neural network predicts sequence of TP53 gene based on
DNA chip. En: Bioinformatics. vol. 18, Issue: 8, Febrero de 2002. p. 1133-1134.

STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and


visualization from co-occurences of gene names in Medline abstracts. En: In
Proceedings of the Fifth Annual Pacific Symposium on Biocomputing. 2000. p.
529-540.

STEKEL, Dov. Microarray Bioinformatics. Reino Unido: Cambridge University


Press, 2003. 263p. ISBN 9780521525879.

STORMO, G. D., et al. Use of Perceptron algorithm to distinguish translational


initiation in E.coli. En: Nucleic Acids Research. 11 de Mayo de 1982. vol. 10, no.
9. p. 2997-3011.

128
Swiss Institute of Bioinformatics. 23 de septiembre de 2010. WELCOME [en lnea].
Suiza. Disponible desde Internet en: <http://www.isb-sib.ch/> [citado en 14 de
octubre de 2010].

SYNDER, Eric y STORMO, Gary. Identifying genes in genomic DNA sequences.


En: BISHOP, M. J. y RAWLINGS C. J. DNA and Protein Sequence. NewYork:
Oxford University Press, 1997. p. 209-224.

--------. Identification of coding regions in genomic DNA sequences: an application


of dynamic programming and neural net- works. En: Nucleic Acids Research. vol.
21, Issue: 3, 1993. p. 607-613.

TAMAYO, Pablo., et al. Interpreting patterns of gene expression with self-


organizing maps: methods and application to hematopoietic differentiation. En:
Proc. Natl. Acad. Sci, USA. vol. 96, Marzo de 1999. p. 2907-2912.

TANABE, L., et al. MedMiner: an Internet tex-mining tool for biomedical


information, with application togene expression profiling. En: BioTechniques. vol.
27, no. 6. 1999. p. 1210-1217.

The Apache Software Foundantion. 11 de marzo de 2011. Apache Tomcat.


Estados Unidos de Amrica. Disponible desde Internet en:
<http://tomcat.apache.org/index.html> [citado en 18 de marzo de 2011].

The Barton Group. 24 de septiembre de 2010. Bioinformatics Reasearch [en lnea].


Dundee (Reino Unido). Disponible desde Internet en:
<http://www.compbio.dundee.ac.uk/> [citado en 13 de octubre de 2010].

The Institute of electrical and electronics engineering. A software chasm: software


engineering and scientific computing. En: IEEE software. Noviembre-diciembre,
2007. vol. 24, no. 6

THOMPSON, J.D.; HIGGINS, D.G. y GIBSON, T.J. CLUSTAL W: Improving the


sensitivity of progressive multiple sequence alignment through sequence
weighting, position-specific gap penalties and weight matrix choice. En: Nucleic
Acids Res. 11 de noviembre de 1994. vol. 22, Issue 22. p. 4673-4680.

129
TORKKOLA, Kari, et al. Self-organizing maps in mining gene expression data. En:
Information Sciences. Noviembre de 2001. vol. 139, Issue 1-2. p. 79-96.

TOMIDA, Shutta, et al. Analysis of expression profile using fuzzy adaptive


resonance theory. En: Bioinformatics. vol. 18, Issue: 8. 2002. p. 1073-1083.

--------. Gene Expression Analysis Using Fuzzy ART. En: Genome Informatics. vol.
12, 2001. p. 245-246.

TORONEN, P., et al. Analysis of gene expression data using self-organizing maps.
En: FEBS Letters. vol. 451, Issue: 2, 21 de mayo de 1999. p. 142-146.

TORRES, ngela y NIETO, Juan. The Fuzzy polynucleotide space: basic


properties. En: Bioinformatics. vol. 19, Issue: 5. 2003. p. 587-592.

UNAV. s.f. Motivos y Dominos [en lnea]. Navarra, Espaa. Disponible desde
Internet en: <http://www.unav.es/genetica/bioinfo/motivos.html> [citado en 11 de
julio de 2011].

UBERBACHER, Edward y Mural, Richard. Locating Protein Coding Regions in


Human DNA Sequences Using a Multiple Sensor-Neural Network Approach. En:
Proceedings of the National Academy of Sciences of United States of America. vol.
88, Diciembre de 1991. p. 11261-11265.

Unidad de Bioinformtica. 16 de abril de 2009. UNIDAD y GRUPO DE


INVESTIGACN BIOINFORMTICA [en lnea]. Salamanca (Espaa). Disponible
desde Internet en: <http://ubioinfo.cicancer.org/index.html> [citado en 14 de
octubre de 2010].

Universidad de Navarra. 4 de marzo de 2010. Bases de datos Biolgicas. Navarra,


Espaa. Disponible desde Internet en:
<http://www.unav.es/genetica/bioinfo/dbbiologicas.html> [citado en 7 de octubre de
2010].

130
Universidad Nacional de Colombia. 10 de octubre de 2010. C.B.I.B. [en lnea].
Bogot D.C. Disponible desde Internet en: <http://bioinf.ibun.unal.edu.co/cbib/>
[citado en 14 de octubre de 2010].

--------. s.f. Unigene [en lnea]. Bogot, Colombia. Disponible desde internet en:
<http://bioinf.ibun.unal.edu.co/cbib/estudiantes/1-07/expoEst/unigene.pdf> [citado
en julio 17 de 2011].

University of Exeter. 28 de julio de 2007. Dr. Edward Keedwell. Exeter, Reino


Unido. Disponible desde Internet en: < http://centres.exeter.ac.uk/cws/people/69-
dr-edward-keedwell> [citado en 15 de octubre de 2010].

URDANETA, Guido. Funciones Hash [en lnea]. 11 de febrero de 2010. Disponible


desde Internet en: <http://www.ica.luz.ve/~guidox/eda/guias/funciones_hash.pdf>
[citado en 18 de julio de 2011].

VALENTINI, G. Gene expression data analysis of human lymphoma using support


vector machines and output coding ensembles. En: Artificial Intelligence in
Medicine. Noviembre de 2002. vol. 26, Issue 3. p. 281-304.

VAPNIK, Vladimir N. The nature of statistical learning theory. Berlin: Springer-


Verlag, 1996. ISBN 0387945598.

VOS, Wiesner y EVERS, Ludger. MSc in Bioinformatics: Statistical Data Mining. 14


de septiembre de 2004. 124p. Disponible desde internet en:
<http://www.stats.ox.ac.uk/~nicholls/ms1/VosEversFullNotes.pdf> [citado en julio
14 de 2011].

WANG, Jason T.L., et al. Application of neural networks to biological data mining: a
case study in protein sequence classification. En: Proceedings of the 6th ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining. New
York (Estados Unidos de Amrica): ACM, 2000. p. 305-309. ISBN 1-58113-233-6.

WEBER, James y MYERS, Eugene. Whole Genome Shotgun Sequencing. En:


Genome Research. vol. 7. 1997. p. 401-409. ISSN 1054-9803/97.

131
Welcome trust sanger institue. s.f. Pfam: Home Page [en lnea]. Reino Unido.
Disponible desde internet en: <http://pfam.sanger.ac.uk/ > [citado en julio 19 de
2011].

WESTHEAD, David R.; PARISH, J. y TWYMAN, Richard. Instant Notes:


Bioinformatics. Oxford (Reino Unido): BIOS Scientific Publishing Ltd. 2002. 257p.
ISBN 1-85996-272-6.

WONG, Limsoon. Kleisli, a functional query system. En: Journal of Functional


Programming. vol. 10, 2000. p. 19-56.

--------. Technologies for integrating biological data. En: Briefings in Bioinformatics.


vol. 3. 2002. p. 389-404.

WOOLF, Peter y WANG, Yixing. A fuzzy logic approach to analyzing gene


expression data. En: Physiological Genomics. vol.3, Issue: 1. 2000. p. 9-15.

WU, Cathy. Artificial neural networks for molecular sequence analysis. En:
Computers and Chemistry. 1997. vol. 21, Issue 4. p. 237-256.

--------. Classification Neural Networks For Rapid Sequence Annotation And


Automated Database Organization. En: Computer & Chemistry. vol. 17, Issue: 2,
1993. p. 219-227.

--------. Gene Classification Artificial Neural System. En: COLOWICK, Sidney P.


Methods In Enzymology: Computer Methods for Macromolecular Sequence
Analysis. Academic Press, 1996, vol. 266. p. 71-88.

WU, Cathy, et al. Neural Networks For Full- Scale Protein Sequence Classification:
Sequence Encoding With Singular Value Decomposition. En: Machine Learning.
vol. 21, no. 1-2, 1995. p. 177-193.

--------. Protein Classification Artificial Neural System. En: Protein Science. vol. 1,
Mayo 1992. p. 667- 677.

132
WU, Cathy y MCLARTY, Jerry. Vol. 1 Methods in Computational Biology and
Biochemistry. En: Neural Networks and Genome Informatics. s.l: Elsevier, 2000.
205p.

WU, Cathy y SHAPIRO, Bruce. A Boltzmann filter improves the prediction of RNA
folding pathway in a massively parallel genetic algorithm. En: Journal of
Biomolecular Structure and Dynamics. Diciembre de 1999. vol. 17, Issue 3. p. 581-
595.

WU, Cathy y SHIVAKUMAR, Sailaja. Back-Propagation And Counter-Propagation


Neural Networks For Phylogenetic Classification Of Ribosomal RNA Sequences.
En: Nucleic Acids Research. vol. 22, Issue: 20, 1994. p. 4291-4299.

XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge


University Press, 2006. 331p. ISBN 978-0-511-16815-4.

133

También podría gustarte