Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SECUENCIAS DE ADN.
Monografa
A nuestros padres, Elas Rozo Salinas y Nubia Murillo Lpez, y Deiber Franco
Villada y Liliana Soto Uribe, por su apoyo fiel y su paciencia. Nuestro triunfo es el
de ustedes!
pg.
2. INTRODUCCION 9
4. JUSTIFICACIN 11
5. OBJETIVOS 12
6.1 QU ES LA BIOINFORMATICA? 13
7.3.7 Microarrays 91
pg.
pg.
8
2. INTRODUCCIN
9
3. DEFINICIN DEL PROBLEMA
1
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.V
2
Centro de Biologa molecular y Biotecnologa de la Universidad Tecnolgica de Pereira.
3
Doctor Duverney Gaviria Arias, Centro de Investigacin CENBIOTEP. Ver pag. 105
10
4. JUSTIFICACIN
4
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.2
11
5. OBJETIVOS
12
6. CAPITULO 1. MARCO CONCEPTUAL
6.1 QU ES LA BIOINFORMTICA?
La razn de que las funciones de una clula pueden entenderse mejor mediante el
anlisis de datos de las secuencias, es, porque el flujo de informacin gentica
est dictado por el dogma central de la biologa, en la cual el ADN se transcribe a
ARN, y este se traduce en protenas.
13
problemas funcionales utilizando la secuencia y, a veces los enfoques
estructurales han demostrado ser una tarea fructfera.5
Los cientficos han encontrado que dos secuencias similares poseen el mismo
papel funcional, va de reglamentacin o bioqumica, y la estructura de la protena.
Si hay dos secuencias similares de diferentes organismos, se dice que son
secuencias homlogas.6
5
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 5
6
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.7
7
XION, Op cit., p. 31
14
como el tamao, el costo, y la hidrofobicidad. Es importante distinguir la homologa
de secuencia del trmino relacionado similitud de secuencia, porque los dos
trminos son confundidos a menudo por algunos investigadores que los utilizan
indistintamente en la literatura cientfica. Para ser claros, la homologa de
secuencia es una inferencia o conclusin de una relacin ancestral comn
extrada de la comparacin de similitud de secuencias, cuando las dos secuencias
comparten un alto grado de similitud suficiente.
El algoritmo gentico ha sido aplicado con xito para resolver muchos problemas
prcticos en la bioinformtica. Los algoritmos genticos se han utilizado para
resolver problemas de alineacin de secuencias mltiples. Un enfoque bien
conocido es SAGA9, el cual crea una poblacin inicial de alineaciones al azar y
cuasi-evoluciona. Se considera que SAGA supera a la solucin ms comn de los
8
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 32
9
System for Automated Geoscientific Analyses (Sistema Automatizado de Anlisis Geocientfica).
15
problemas relacionados con alineacin mltiple que utilizan un enfoque
progresivo.
Las nuevas tcnicas tienden a combinar el algoritmo gentico con otros mtodos
computacionales, tales como el Mtodo del K-vecino10 ms cercano y la red
neuronal de Keedwell11 y Narayanan12, para resolver los problemas de la
expresin gnica. Se les denomina mtodos hibrido-genticos. Keedwell y
Narayanan utilizan un algoritmo gentico para seleccionar un conjunto de genes
para la clasificacin y el uso de una red neuronal para determinar la idoneidad de
los genes.13
Con muy pocas excepciones, cada clula del cuerpo contiene un conjunto
completo de cromosomas y genes idnticos, pero solo una fraccin de estos
genes se activan, sin embargo, es el subconjunto que se expresa el que le
confiere propiedades nicas para cada tipo de clula.
10
Disponible en Internet: <http://www.tdr.cesca.es/TESIS_UPC/AVAILABLE/TDX-0725105-
143853//04Caja04de07.pdf>
11
Dr. Ed Keedwell: Recibi una Licenciatura en Ciencia Cognitiva (1998) y es doctorando en Ciencias de la
Computacin (2003), ambos de la Universidad de Exeter.
12
Ajit Narayanan: Profesor y Director de la Escuela de Informtica y Ciencias Matemticas (School of
Computing and Mathematical). Es Licenciado de la Universidad Aston y PhD de la Universidad de Exeter.
13
PHOEBE CHEN, Op. cit., p.140.
14
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
16
que aumenta o disminuye el nivel de expresin de determinados genes como sea
necesario.15
Antes de depositar en una base de datos la secuencia ensamblada, esta tiene que
ser analizada por sus caractersticas biolgicas tiles.
17
Una vez abiertos los marcos de lectura son determinados, la
asignacin funcional de las protenas codificadas se lleva a cabo mediante la
bsqueda de homologa utilizando bsquedas BLAST contra una base de datos de
protenas. Adems, se aaden descripciones funcionales mediante la
bsqueda de motivos de protenas y dominios de bases de datos,
como Pfam27 y InterPro28, as como tambin apoyndose en la literatura
publicada.29
27
Disponible desde Internet en: < http://pfam.sanger.ac.uk/>
28
Disponible desde Internet en: <http://www.ebi.ac.uk/interpro/>
29
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 250
18
7. CAPITULO 2. ESTADO DEL ARTE
30
La Jornada. 20 de octubre de 2007. Watson y Crick, los padres del AND [en lnea]. Mxico, D.F. Disponible
desde Internet en:
<http://www.jornada.unam.mx/2007/10/20/index.php?section=ciencias&article=a03n1cie> [citado en 7 de
octubre de 2010].
31
Colombia Mdica [en lnea]. Universidad del Valle: Cali, 2008 [citado en 7 de octubre de 2010]. Vol. 39,
No. 001. (enero-marzo 2008). Disponible desde Internet en:
<http://redalyc.uaemex.mx/redalyc/pdf/283/28339115.pdf > ISSN 1657-9534.
32
PDB: Banco de Datos de Proteinas.
33
Point Accepted Mutation (Mutacin Puntual Aceptada).
19
actualmente aportan una visin ms aproximada a las verdaderas relaciones
filogenticas entre especies.
En la dcada de los aos 80, la bioinformtica ya tena nombre en el mbito de la
investigacin cientfica, y teniendo conocimiento de ello, varios grupos de
investigacin de prestigio, dieron origen a la base de datos ms conocida en el
mundo, el GenBank34. Dicho proyecto fue financiado por los National Institutes of
Health de los Estados Unidos y otras instituciones gubernamentales, como el
United States Departament of Energy y el United States Department of Defense.
Pocos aos despus de la creacin del GenBank, se gener su versin europea y
asitica, conocidas como la base de datos EMBL35 y DDBJ36 en 1981 y 1984,
respectivamente. En 1985 se report el algoritmo FASTA o FAST-All de
comparacin de secuencias, el cual directamente operaba como motor de
bsqueda de secuencias similares dentro de la base de datos GenBank.
Durante los aos 1987 a 1990, se dio impulso a las bases de datos para
secuencias de protenas que dio como resultado la creacin de SwissProt37 y
PIR38. En 1990, se origin otro de los hitos ms importantes de la bioinformtica.
La implementacin del algoritmo BLAST39 revolucion completamente la
exploracin y bsqueda de secuencias biolgicas en bases de datos
En 1993 se inici la era genmica con la ejecucin del proyecto de secuenciacin
de genoma humano. Siendo ste un proyecto tan ambicioso, se logro secuenciar
los primeros genomas no virales. En el ao 2003, se finaliz la secuencia definitiva
del genoma humano, este hecho se logr gracias a la proyeccin y explotacin del
potencial de la industria con base biotecnolgica.40
34
GenBank es la base de datos de secuencias genticas del Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
35
European Molecular Biology Laborator (Laboratorio Europeo de Biologa Molecular).
36
DNA Data Bank of Japan (Banco de Datos de ADN de Japn).
37
Base de datos biolgica de secuencia de protenas.
38
Protein Information Resource (Recursos de Informacin de Proteina).
39
Basic Local Alignment Search Tool (Alineacin de base local de herramientas de bsqueda).
40
Biomdica [online]. Grupo de Anlisis Bioinformtico GABi, Centro de Investigacin y Desarrollo en
Biotecnologa CIDBIO: Bogot, 2010 - [citado en 6 de octubre de 2010]. Vol 30, No.2. (abril-junio 2010).
Disponible desde Internet en: <http://www.scielo.unal.edu.co/scielo.php?script=sci_arttext&pid=S0120
41572010000200004&lng=en&nrm=iso > ISSN 0120-4157.
20
El desarrollo de herramientas incluye el software de grabacin de la secuencia, el
anlisis estructural y funcional, as como la construccin y la conservacin de
bases de datos biolgicas. Estas herramientas se utilizan en varias reas de
investigacin genmica y biologa molecular como el anlisis de la secuencia
molecular.
21
variedades de cultivos que tienen una mayor productividad y ms resistencia a las
enfermedades.41
Fuente http://www.ncbi.nih.gov/Genbank/genbankstats.html
41
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 7
42
GenBank es la base de datos de secuencias genticas del Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
43
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.2
44
NCBI. 3 de mayo de 2011. What is GenBank? [en lnea]. Bethesda, Estados Unidos de Amrica. Disponible
desde Internet en: <http://www.ncbi.nlm.nih.gov/genbank/> [citado en 10 de julio de 2011].
22
Hay dos reas principales de desafo en la bioinformtica: (1) de gestin de datos
y (2) descubrimiento de conocimientos.
Sin embargo, en algunas situaciones, una sola base de datos no puede dar
respuestas a los complejos problemas de los bilogos. La integracin o la
recopilacin de informacin de varias bases de datos para resolver problemas y
descubrir nuevos conocimientos son otros retos importantes en bioinformtica45.
La transformacin de datos biolgicos voluminosos en informacin til y en
conocimiento valioso es un reto a la hora de descubrir conocimientos. La
identificacin e interpretacin de patrones interesantes que estn escondidos en
miles de millones de datos biolgicos genticos es una meta clave de la
45
KUONEN, 2003; NG y WONG, 2004; WONG, 2000; y WONG, 2002.
23
bioinformtica. Este objetivo abarca la identificacin de las estructuras de genes
tiles en secuencias biolgicas, la derivacin de los conocimientos de diagnstico
a partir de datos experimentales, y la extraccin cientfica de la informacin de la
literatura46.
Para tener una mejor comprensin de las funciones celulares, son necesarios los
modelos matemticos para simular una amplia variedad de reacciones
intracelulares y las interacciones a nivel de clulas enteras. Esta simulacin
molecular de todos los procesos celulares se denomina biologa de
sistemas. Alcanzar esta meta representa un gran paso hacia la comprensin plena
de un sistema vivo.
Dejando de lado las dificultades econmicas que impiden tener un mayor progreso
cientfico-tecnolgico a cualquier nivel, el pobre desarrollo de la bioinformtica en
Colombia tiene factores adicionales de fondo. Dichos factores radican
46
HAN y KAMBER, 2001; JAGOTA, 2000; NARAYANAN, et al., 2002; y NG Y WONG, 2004.
47
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 8
24
esencialmente en el dficit acadmico en cuanto a la enseanza de la
bioinformtica.
48
Grupo de Parasitologa Molecular. Disponible desde internet en: <
http://201.234.78.173:8080/gruplac/jsp/visualiza/visualizagr.jsp?nro=00000000000255>
49
Grupo de Anlisis Bioinformtico. Disponible desde Internet en: <http://gabi.cidbio.org/group.html>
25
en bioinformtica que se genere a partir de las nuevas polticas para desarrollo
biotecnolgico en el pas.
50
Disponible desde internet en: < http://bioinformatics.cenicafe.org >
51
Biomdica [online]. Grupo de Anlisis Bioinformtico GABi, Centro de Investigacin y Desarrollo en
Biotecnologa CIDBIO: Bogot, 2010. Vol 30, No.2. (abril-junio 2010). ISSN 0120-4157.
26
7.2 GENERALIDADES DEL ALINEAMIENTO DE SECUENCIAS
27
Cuando un alineamiento de secuencias se genera correctamente, refleja
las relaciones evolutivas de las dos secuencias: las regiones que estn alineadas
pero no son idnticas representan sustituciones de residuos; las regiones en las
que los residuos de una secuencia corresponden a nada en la otra, representan
inserciones o eliminaciones que han tenido lugar en una de las secuencias
durante la evolucin.
El montaje de secuencia paralela de Euler, este enfoque almacena todos los datos
genmicos en forma de tablas hash distribuidas a fin de reunir estos datos en su
conjunto. Esto elimina los errores incurridos particionando los fragmentos
en grupos y ensamblndolos en grupos, como en otros enfoques.
52
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 31
53
DAHL, Carol A. y STRAUSBERG, Robert L. Revolutionizing Biology Through Leveraging Technology. En:
Engineering in Medicine and Biology Magazine, IEEE. vol. 15, Issue: 4. Julio Agosto, 1996. p. 106-110. ISSN
0739-5175.
54
MYERS, E.M. Toward Simplifying and Accurately Formulating Fragment Assembly. En: Journal of
Computational Biology. vol. 2, Issue: 2. p. 275-290.
28
acceso a las supercomputadoras, sino a los recursos informticos tales como
estaciones de trabajo y PCs que estn conectados mediante una red local. Este es
el primer esfuerzo de poner en paralelo el algoritmo de montaje de secuencia de
Euler para ensamblar un genoma a gran escala. 55
En el enfoque del ensamble de secuencia de Euler, las tuplas son las unidades
mnimas para ser ensambladas, en lugar de las lecturas como en otros
enfoques. Las tuplas se generan a partir de lecturas, y a su vez son todas las
subcadenas que se leen con la misma longitud, que normalmente es 20.
Todas las tuplas generadas forman un grfico de bruijn. Los vrtices de la grfica
son las tuplas como tal. Suponiendo que la longitud de una tupla es l, si los ltimos
cidos nucleicos de una tupla l-1 son los mismos que la primera tupla l-1 de
cidos nucletidos de otra tupla, habr un extremo dirigido en el grfico que
conecta estos dos tuplas adyacentes.
55
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.244
56
Whole Genome Shotgun (Disparo sobre la totalidad del genoma).
57
WEBER, James y MYERS, Eugene. Whole Genome Shotgun Sequencing. En: Genome
Research. vol. 7. 1997. p. 401-409. ISSN 1054-9803/97.
58
PHOEBE CHEN, Op. cit., p. 245
59
PEVZNER, Pavel; TANG, Haixu y WATERMAN, Michael. An Eulerian Path Approach to DNA Fragment
Assembly. En: Proceedings of National Academy of Sciences of the United States of America. vol. 98,
Issue:17. Agosto 14 de 2001. p. 9748-9753.
29
El enfoque del montaje de Euler es encontrar todos los caminos de Euler en el
grfico. El ncleo del enfoque de Euler es la regla del anlisis de consistencia,
que resuelve los problemas de seleccin de ruta para las sucursales en la
bsqueda de caminos de Euler en una grfica.60
Los datos biolgicos tienen que ser particionados antes de aplicar estos
programas para ensamblar el genoma. La particin se lleva a cabo de acuerdo a
las similitudes. Este proceso no es exacto, as que los errores podran ser
introducidos en dicha particin). Estos errores no pueden ser corregidos por los
ensambladores, por lo tanto, el ensamblador secuencial no puede cumplir con los
requisitos exigidos por el montaje de secuencia. La investigacin sobre el
ensamblador de secuencia paralela esta slo en sus comienzos.
60
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p. 249
61
Parallel Euler Sequence Assembly (Montaje de Secuencias Paralelas de Euler).
62
PHOEBE CHEN, Op. cit., p. 249
30
7.3 TECNOLOGAS COMPUTACIONALES APLICADAS A LA
BIOINFORMATICA
7.3.1 Bases de Datos. Una base de datos es un archivo informtico utilizado para
almacenar y organizar los datos de tal manera que esa informacin pueda ser
recuperada fcilmente a travs de una variedad de criterios de bsqueda. Las
bases de datos se componen de software y hardware para la gestin de datos.
7.3.1.1 Bases de Datos Biolgicas. Las actuales bases de datos biolgicas usan
tres tipos de estructuras de base de datos: ficheros planos, relacionales
y orientados a objetos. A pesar de las obvias desventajas de la utilizacin
de archivos planos en gestin de base de datos, muchas bases de datos
biolgicas todava utilizan este formato. La justificacin de esto es que este
sistema implica una cantidad mnima de diseo de base de datos y los resultados
de la bsqueda pueden ser fcilmente entendidos por los bilogos que consultan
dicha tecnologa.
63
Un motivo es un elemento conservado en la secuencia de aminocidos, que habitualmente se asocia con
una funcin concreta. Los motivos se generan a partir de alineamientos mltiples de regiones con elementos
funcionales o estructurales conocidos, por lo que son tiles para predecir la existencia de esos mismos
elementos en otras protenas de funcin y estructura desconocida.
64
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 10
31
Con base en su contenido, las bases de datos biolgicas se pueden dividir en tres
categoras: bases de datos primarias, bases de datos secundarias, y bases de
datos especializadas.
Las bases de datos primarias contienen datos biolgicos originales. Son archivos
de secuencia en bruto o datos estructurales presentados por la comunidad
cientfica. GenBank65 y Protein Data Bank66 son ejemplos de bases de datos
primarias. Las bases de datos secundarias contienen informacin procesada
computacionalmente o manualmente curada67, con base en la informacin original
a partir de bases de datos primarias. Las bases de datos de secuencias de
protenas traducidas contiene la anotacin funcional perteneciente a esta
categora. Ejemplos de esto son Swiss-Prot68 y PIR69. Las bases de datos
especializadas son aquellas que atienden a un inters de investigacin en
particular. Por ejemplo, Flybase, la base de datos de secuencias del
VIH, y Ribosomal Database Project son las bases de datos que se especializan en
un determinado organismo o un determinado tipo de datos.
Una lista de algunas bases de datos de uso frecuente se presenta en la Tabla 1.70
65
GenBank es la base de datos de secuencias genticas de los Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
66
PDB: Banco de Datos de Proteinas.
67
Bases de Datos Curadas: los datos estn confirmados biolgicamente.
68
Base de datos biolgica de secuencia de protenas.
69
Protein Information Resource (Recursos de Informacin de Proteina).
70
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 14
32
Tabla 1. Principales Bases de Datos Biolgicas disponibles a travs de la World
Wide Web
Principales bases de datos biolgicas disponibles a travs de la World Wide Web
Bases de Datos y
Sistemas de Breve resumen del contenido URL
Recuperacin
AceDB Base de datos del genoma del www.acedb.org
Caenorhabditis elegans
DDBJ Principal base de datos de www.ddbj.nig.ac.jp
secuencias de nucletidos en
Japn
EMBL Principal base de datos de www.ebi.ac.uk/embl/index.html
secuencias de nucletidos en
Europa
Entrez Portal de la NCBI para una www.ncbi.nlm.nih.gov/gquery/gquery.
variedad de bases de datos fcgi
biolgicas
ExPASY Base de datos de la protemica http://us.expasy.org/
FlyBase Base de datos del genoma de http://flybase.bio.indiana.edu/
Drosophila
FSSP Estructuras secundarias de www.bioinfo.biocenter.helsinki.fi:8080
protenas /dali/index.html
GenBank Principal base de datos de www.ncbi.nlm.nih.gov/Genbank
secuencias de nucletidos en la
NCBI
HIV databases Datos de la secuencia del VIH y la www.hiv.lanl.gov/content/index
informacin inmunolgica relaciona
da
Microarrays gene Microarrays de datos de ADN y www.ebi.ac.uk/microarray
expression database herramientas de anlisis
OMIM Informacin gentica de www.ncbi.nlm.nih.gov/entrez/query.fc
enfermedades humanas gi?db=OMIM
PIR Secuencias de protenas anotadas http://pir.georgetown.edu/pirwww/pirh
ome3.shtml
PubMed Informacin de literatura biomdica www.ncbi.nlm.nih.gov/PubMed
Ribosomal database Secuencias de ARN ribosomal y http://rdp.cme.msu.edu/html
Project rboles filogenticos derivados de
las secuencias
SRS Sistemas generales de http://srs6.ebi.ac.uk
recuperacin de secuencia
SWISS-Prot Bases de datos de secuencias de www.ebi.ac.uk/swissprot/access.html
71
protenas curadas
TAIR Bases de datos de informacin del www.arabidopsis.org
Arabidopsis
71
Datos curados: datos biolgicamente confirmados.
33
Bases de Datos Primarias72. Hay tres principales bases de datos pblicas
de secuencias que almacenan los datos en bruto de las secuencias del
cido nucleico producido y presentado por los investigadores de todo el mundo: la
base de datos de secuencias genticas de los Institutos Nacionales de Salud
GenBank, el Laboratorio Europeo de Biologa Molecular (EMBL) y la base de
datos de ADN del Banco de datos de Japn (DDBJ), que estn disponibles
gratuitamente en Internet.
La mayor parte de los datos en las bases de datos son aportados directamente por
los autores con un nivel mnimo de anotacin. Un pequeo nmero de secuencias,
especialmente las publicadas en la dcada de 1980, se introdujeron
manualmente de la literatura publicada por el personal de gestin de base de
datos.
A pesar de que las tres bases de datos contienen los mismos conjuntos de datos
en bruto, cada una de las bases de datos individuales tiene un tipo de formato
ligeramente diferente para representar los datos. Afortunadamente, para
la estructura tridimensional de macromolculas biolgicas, slo hay una base de
datos centralizada, el PDB73. Esta base de datos archiva las coordenadas
atmicas de las macromolculas (protenas y cidos nucleicos) determinadas por
cristalografa de rayos X74 y NMR.
72
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 14
73
PDB: Banco de Datos de Protenas.
74
Cristalografa de rayos X: es esencialmente una forma de microscopa de alta resolucin. Permite visualizar
estructuras de protenas a nivel atmico y mejorar la comprensin de la funcin de la protena.
34
GenBank75. GenBank es la coleccin ms completa de datos anotados de
secuencias de cidos nuclicos para casi todos los organismos. El contenido
incluye ADN genmico, ARNm76, ADNc77, EST78, datos crudos de la secuencia
de alto rendimiento de procesamiento, y polimorfismos de la secuencia.
75
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 21
76
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
77
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm. Se
genera por accin de la enzima trasncripta a la inversa y tiene mltiples usos tanto en investigacin bsica como
aplicada a biomedicina.
78
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 21
79
Disponible desde Internet en: <http://www.renabi.fr/article202.html>
80
Servicio de la Biblioteca Nacional de Medicina de los Estados Unidos de Amrica, que incluye ms de 20
millones de citas de la literatura biomdica a partir de MEDLINE, revistas de ciencias biolgicas, y libros en
lnea. Las citas pueden incluir vnculos a contenido de texto completo desde PubMed Central y los sitios web
de los editores.
35
base de datos. El identificador es seguido por la longitud de la secuencia y el
tipo de molcula (por ejemplo, ADN o ARN). Esto es seguido por un cdigo de
tres letras para las divisiones de GenBank.
36
El campo "JOURNAL" incluye la informacin de la citacin, as como la fecha
del ingreso de la secuencia. La citacin tiene a menudo un hipervnculo con el
registro de PubMed para el acceso a la informacin de la literatura original. La
ltima parte del encabezado es la informacin de contacto del submitter de la
secuencia.
La tercera seccin del archivo plano es la misma secuencia que comienza con
la etiqueta "ORIGIN". El formato de la visualizacin de la secuencia puede ser
cambiado por la seleccin de opciones en una pantalla de men desplegable
en la esquina superior izquierda.
37
Figura 2. Formato NCBI GenBank/GenPept que muestra los principales
componentes de un rbol de un archivo de secuencia.
38
Bases de Datos Secundarias. La informacin de la anotacin de la
secuencia en la base de datos primaria suele ser mnima. Para activar la
informacin de la secuencia en bruto en ms conocimientos
biolgicos sofisticados, es necesario ms post-procesamiento de la informacin de
la secuencia. Esto plantea la necesidad de bases de datos secundarias, que
contengan informacin de secuencias procesadas computacionalmente derivadas
de las bases de datos primarias.
81
Base de datos biolgica de secuencia de protenas.
82
Traduccin automtica de las secuencias de la EMBL.
83
European Molecular Biology Laborator (Laboratorio Europeo de Biologa Molecular).
84
Sitios catalticos o sitos activos: zona de la enzima a la que se une el sustrato para ser catalizado.
85
Base de datos biolgica de secuencia de protenas.
86
Traduccin automtica de las secuencias de la EMBL.
87
Protein Information Resource (Recursos de Informacin de Proteina).
39
datos UniProt88, que tiene mayor cobertura que cualquiera de las tres bases de
datos, mientras que al mismo tiempo mantiene las caractersticas originales de
SWISS-PROT de baja redundancia, referencias cruzadas, y una alta calidad de la
anotacin.
Ya que los datos son a menudo curados por los expertos en la materia, pueden
tener organizaciones nicas y anotaciones adicionales asociadas a las
secuencias. Muchas bases de datos genmicas que son taxonmicamente
especficas, entran dentro de esta categora. Los ejemplos incluyen Flybase93,
WormBase94, AceDB95, y TAIR96.
88
Disponible desde internet en: <http://www.uniprot.org/>
89
Pfam: base de datos con las alineaciones de dominio de protenas derivadas de las secuencias
en SwissProt yTrEMBL. Disponible desde internet en: <http://pfam.sanger.ac.uk>
90
BLOCKS: base de datos que utiliza varias alineaciones derivadas de las ms conservadas, regiones sin
huecos de secuencias de protenas homlogas. Disponible desde internet
en:<http://blocks.fhcrc.org/blocks>
91
Patrn corto de secuencias conservadas asociadas a las distintas funciones de una protena o ADN.
92
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
93
Base de datos del genoma de Drosophila.
94
Bases de datos genticos de los Caenorhabditis elegans y de los nematodos relacionados.
95
Base de datos del genoma del Caenorhabditis elegans.
96
Bases de datos de informacin del Arabidopsis.
40
Adems, tambin hay bases de datos especializadas que contienen los datos
originales derivados del anlisis funcional. Por ejemplo, la base de datos de
GenBank EST97 y la Base de Datos de Microarray para la expresin gnica en el
Instituto Europeo de la Bioinformtica (EBI) son algunas de las bases de datos de
la expresin gnica disponibles.98
97
Divisin de GenBank que contiene los datos de la secuencia y otra informacin sobre "single-pass"
secuencias del cDNA, o "Etiquetas de Secuencias Expresadas", de un nmero de organismos.
98
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
99
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
100
Common Object Request Broker Architecture (Arquitectura comn de intermediarios en peticiones a
objetos).
41
estructura de las diferentes base de datos. Trabaja de una manera similar al
HyperText Markup Language (HTML) para las pginas web, etiquetando las
entradas de la base de datos usando un sistema de etiquetas comunes.
101
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
102
Ibid., p. 17
103
RODRIGUEZ T, Eduardo Dr. Bases de Datos Biolgicas [PDF]. Mxico: Centro de Investigacin y de
Estudios Avanzados del Instituto Politcnico Nacional, 2011. Disponible desde Internet en:
<http://www.tamps.cinvestav.mx/~ertello/bioinfo/sesion03.pdf> [citado en 17 de julio de 2011].
104
Divisin de GenBank que contiene los datos de la secuencia y otra informacin sobre "single-pass"
secuencias del cDNA, o "Etiquetas de Secuencias Expresadas", de un nmero de organismos.
42
Se han tomado medidas para reducir la redundancia. El National Center for
Biotechnology Information (NCBI)105 ha creado una base de datos no redundantes,
llamada RefSeq106, en el que las secuencias idnticas del mismo organismo y los
frangmentos de secuencia asociadas se fusionan en una sola entrada. Las
secuencias de las protenas derivadas de las mismas secuencias del ADN se ligan
explcitamente como entradas relacionadas.
Las variantes de las secuencia del mismo organismo, con diferencias muy
pequeas, que bien podran ser causada por la secuencia de errores, son tratadas
como entradas distintivamente relacionadas. Esta base de datos cuidadosamente
curada puede ser considerada como una base de datos secundaria.
43
por omisiones o errores en mecanografa.
44
manera como cuando se usa un diccionario de sinnimos. Usando GO, un editor
del genoma puede asignar las propiedades funcionales de un producto del gen113
en diferentes niveles jerrquicos, dependiendo de que tanto se conoce sobre el
producto del gen.
Este sistema es muy prctico: los usuarios no tienen que visitar varias bases de
datos ubicadas en lugares diferentes. Por ejemplo, en una pgina de secuencia de
nucletidos, se pueden encontrar enlaces de referencias cruzadas a la secuencia
de la protena traducida, mapa de los datos del genoma, o la informacin
relacionada con la literatura en PubMed119, y estructuras de las protenas si est
113
Producto del gen: ARN o protena que resulta de la expresin de un gen. La cantidad de producto del
gen es una medida del grado de actividad del gen.
114
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 250
115
Ibid., p. 18
116
Portal de la NCBI para una variedad de bases de datos biolgicas.
117
XION, Jin, Op cit., p. 19
118
National Center for Biotechnology Information (Centro Nacional de Informacin sobre Biotecnologa).
119
Servicio de la Biblioteca Nacional de Medicina de los Estados Unidos de Amrica, que incluye ms de 20
millones de citas de la literatura biomdica a partir de MEDLINE, revistas de ciencias biolgicas, y libros en
45
disponible.
Segn Rodriguez et al. (2006)121, entre 1975 y 1979, se asla el primer gen
humano. A partir de este momento la Genmica da un salto espectacular y se
pasa de estudiar un slo gen a tener descifrados cdigos genticos sencillos
pertenecientes a bacterias para finalmente llegar a conseguir la secuenciacin
completa del genoma humano. Una gran cantidad de datos generados gracias a la
tecnologa y que necesita de sta para poder ser manejada.
lnea. Las citas pueden incluir vnculos a contenido de texto completo desde PubMed Central y los sitios web
de los editores.
120
Bilogo austriaco.
121
RODRGUEZ BAENA, Domingo Savio; SANTOS RIQUELME, Jos C. y AGUILAR RUIZ, Jess S. Anlisis de
datos de Expresin Gentica mediante tcnicas de Biclustering [en lnea]. Sevilla, Espaa. 2006. p. 12. [citado
29 marzo 2010]. Disponible desde internet: < http://www.lsi.us.es/docs/doctorado/memorias/Memoria-
v2.pdf>
46
ADN122 es transcrito a ARN123 y transformado en protenas.
7.3.2.2 Estado del arte de las Bodegas de Datos. Desde el ao 1980, las bases
de datos del Laboratorio de Biologa Molecular Europeo, EMBL (European
Molecular Biology Laboratory), del NCBI (Estados Unidos) y del laboratorio
japons DDBJ (DNA Databank of Japan) han recopilado las secuencias
nucleotdicas publicadas hasta hoy. Actualmente existe una colaboracin entre
todas ellas, de forma que cada nueva entrada es automticamente intercambiada
con las otras dos restantes.
Las secuencias proticas son almacenadas y distribuidas por las bases de datos
SWISS-PROT. Es una base de datos no redundante y mantiene numerosas
referencias cruzadas con 26 bases de datos diferentes (BIB-GEN124). Las
secuencias nucleotdicas son incorporadas a las bases de datos a un ritmo de 210
millones de pares de bases de datos al ao. Sus datos se encuentran divididos en
entradas, cada una de las cuales tiene un nmero de acceso, un conjunto de
anotaciones que incluyen la descripcin de la secuencia, informacin taxonmica
del organismo del que deriva, lista de nombres de autores, referencias
bibliogrficas, caractersticas generales as como regiones de inters biolgico y
finalmente, la secuencia en s.125
Pero este campo ha abierto muchos caminos y opciones a investigadores de
diferentes latitudes y disciplinas, mostrndose como un espacio de gran
dinamismo.
122
cido Desoxirribonucleico, molcula que contiene y transmite la informacin gentica de los organismos
excepto en algunos tipos de virus (retrovirus).
123
cido Ribonucleico, molcula formada por un poli-ribonucletido de longitud variable que contiene
Uracilo en vez de Timina.
124
Bases de datos genticas.
125
Bib-Gen Instituto de salud Carlos III. 18 de febrero de 2004. Acceso a fuentes de informacin genmica y
herramientas bioinformticas bsicas. Espaa. Disponible desde Internet en: <http://bvs.isciii.es/bib-
gen/Actividades/curso_virtual/Ftes_informacion/fteinformacion4.htm> [citado en 29 de marzo de 2011].
47
En un llamativo artculo Escobar (2006)126 muestra las posibilidades y ventajas
que brindan las nuevas herramientas de virtualizacin de objetos reales con fines
educativos, para ser usados en la generacin de animaciones tridimensionales
virtuales que permitan transmitir de manera audiovisual la informacin anatmica,
fisiolgica y quirrgica, con el fin de simplificar y complementar el proceso
educativo tradicional de la medicina y ciencias de la salud. Resume trabajos
previos sobre el Corazn Virtual Animado, la Tcnica de Prostatectoma
Laparoscpica Dedo Asistida y el Sistema de informacin a pacientes.
126
Aplicaciones virtuales en biomedicina [en lnea]. ESCOBAR ROA, Juan Miguel. Facultad de Ingeniera
Electrnica, Universidad El Bosque: Bogot, 2006 - [citado el 30 de marzo de 2011]. Vol 1 No. 1. Disponible
desde Internet en:
<http://artemisa.unbosque.edu.co/facultades/electronica/pdfs/RevistaN1/Articulo%206.pdf>
127
Central de procesamiento de imgenes mdicas para General Mdica de Colombia S.A. [en lnea]. PRIETO
REYES, Sandy Johana; SALCEDO LPEZ, Dennys Marcela y TORRES ROMERO, Oscar Mauricio. Facultad de
Ingeniera Electrnica, Universidad El Bosque: Bogot, 2006 - [citado el 30 de marzo de 2011]. Vol 1 No. 1.
Disponible desde Internet en:
<http://artemisa.unbosque.edu.co/facultades/electronica/pdfs/RevistaN1/Articulo%202.pdf>
128
BioStar models of clinical and genomic data for biomedical data warehouse design [en lnea]. WANG,
Liangjiang; RAMANATHAN, Murali y ZHANG, Aidong. State University of New York at Buffalo: New York,
Estados Unidos de Amrica, 2005 - [citado el 30 de marzo de 2011]. Disponible desde Internet en:
<http://www.cse.buffalo.edu/DBGROUP/bioinformatics/papers/ijbra05.pdf>
48
Darmont y Olivier (2006)129 proponen e implementan un Data Warehouse130 para
personalizacin de procesos en medicina. Plantean que el creciente uso de las
nuevas tecnologas genera cambios significativos en las ciencias de la salud, tales
como los registros electrnicos, que permiten personalizar la asistencia en salud
de por vida y el tratamiento pre-sintomtico aprovechando varios anlisis sobre
una poblacin dada de pacientes.
Ligand Depot es una fuente de datos integrado para encontrar informacin acerca
de las molculas pequeas en las protenas y los cidos nucleicos. La versin
inicial (versin 1.0, noviembre, 2003) se centra en proporcionar informacin
qumica y estructural para pequeas molculas encontradas como parte de las
estructuras depositadas en el Banco de Datos de Protena (PDB).
Ligand Depot posee una interfaz de usuario y ha sido implementado como una
aplicacin Web cliente/ servidor de tres capas. Cuenta con navegador web en el
cliente, un servidor de base de datos MySQL como el back-end y un servidor
Tomcat131 en la aplicacin servidor como nivel medio. El back-end tiene un
conjunto normalizado de tablas que almacenan las direcciones URL y otras
informaciones sobre los sitios web relacionados con pequeas molculas.
49
pequeas.
133
FENG, Zukang, et al. Ligand Depot: a data warehouse for ligands bound to macromolecules. En: Bioinformatics
Applications Note [en lnea]. 1 de abril de 2004. vol. 20. no. 13. Disponible desde Internet en:
<http://bioinformatics.oxfordjournals.org/content/20/13/2153.full.pdf+html?sid=5fbc13fd-7bee-4364-829b-
ef27e2d53032>
134
BMC Bioinformatics. 25 de noviembre de 2008. BARTON, G., et al. EMAAS: An extensible grid-based Rich Internet
Application for microarray data analysis and management. Frederick: Estados Unidos de Amrica, Londres. Disponible
desde Internet en: <http://www.biomedcentral.com/1471-2105/9/493> [citado en 30 de marzo de 2011].
135
Extensible MicroArray Analysis System (Sistema de Anlisis de MicroArray extensible).
136
Herramienta principal del anlisis integrado en EMMAS, resultante de la unin entre el lenguaje y entorno de
programacin para anlisis estadstico y grfico R y el proyecto de cdigo abierto para el anlisis de datos en gentica
Bioconductor.
137
Conjunto de programas multi-plataforma de lnea de comandos que implementan algoritmos para analizar y trabajar
con Affymetrix GeneChip matrices. APT es un proyecto de cdigo abierto bajo la licencia GNU General Public License
(GPL).
138
PL/R es un lenguaje procedural para PostgreSQL que le permite escribir las funciones de base de datos almacenada
en R.
139
Es una combinacin entre la Computacin Cluster que es un sistema de computacin basado en hardware estndar
conectado por una red dedicada dedicado a un propsito especfico, y la Computacin Grid que es un sistema que
coordina recursos que no estn sujetos a un control centralizado, utilizando protocolos de propsito general e
interfaces, ambos abiertos y estndares, para entregar servicios de calidad.
140
The Database for Annotation, Visualization and Integrated Discovery (La base de datos de Anotacin, Visualizacin y
Deteccin Integrada), un sitio web para el anlisis de enriquecimiento funcional, que permite el descubrimiento de los
grupos biolgicos de inters potenciales asociados con una lista particular de genes.
141
Base de datos de genes humanos que proporciona informacin concisa genmica relacionada a todos los genes
humanos conocidos y previstos.
50
repositorios de datos de microarrays GEO142, CELSIUS143 y Mimir144.
142
Gene Expression Omnibus (Gen de expresin mnibus), Depsito publico internacional de archivos que
distribuye libremente microarrays, la secuenciacin de prxima generacin, y otras formas de datos
funcionales de alto rendimiento genmica presentadas por la comunidad cientfica.
143
Sistema de almacenamiento de datos para agregar archivos Affymetrix y los metadatos asociados.
144
Plataforma integrada para el intercambio de datos de microarrays, la minera y el anlisis.
145
HARJINDER S, Gill y PRAKASH C, Rao. Data Warehousing. La Integracion de Informacion para la Mejor
Toma de Decisiones. Mxico: Prentice Hall, 1996. 382p. ISBN 968-880-792-3.
146
DUQUE, Nstor Daro y TAMAYO, Alonso. Data Warehouse: Herramienta para la toma de decisiones
(Parte II). En: NOOS. Enero 2011. no.13.
51
central(es)147.
D
a
t
o
s
O
p
e ORDENACION/
r
TRANSPORTE/ LIMPIEZA MEZCLA
EXTRACCION
a
c
i
o
n
a DATA WAREHOUSE
l
e
s
147
ORFALI, Robert; HARKEY, Dan y EDWARDS, Jeri. Cliente/Servidor Gua de Supervivencia. 2 ed. Mxico:
McGraw-Hill, 1997. ISBN 9701017609.
148
DUQUE. Op. cit.
149
ESCALANTE, Ivn. Data Warehouse. En: Soluciones Avanzadas. Junio 1996. no.34.
150
On-Line Analytical Processing (Procesamiento Analtico en lnea).
52
datos, bodega de datos, datamart y el acceso y uso). La correcta definicin de la
misma es una condicin para el xito del proyecto151.
Estas son algunas de las tareas que deben ser sorteadas por el equipo encargado
del diseo, implementacin y montaje del sistema de bodegas de datos 152: La
integracin de datos y metadatos de diferentes fuentes y pocas; limpieza, filtrado
y refinacin de los datos; en los sistemas de procesamiento en lnea (OLTP153) el
detalle de las operaciones son muy importantes mientras que el Data Warehouse
se busca almacenar datos en forma condensada y agrupada.
151
DUQUE, Nstor Daro y TAMAYO, Alonso. Data Warehouse: Herramienta para la toma de decisiones
(Parte I). En: NOOS. Enero 2011. no.12. p. 118-126.
152
Ibid.
153
Online transaction processing (Procesamiento de transacciones en lnea).
53
Los datos aparecen como secuencias, anotaciones de secuencias, modelos
estructurales, mapas fsicos, expedientes clnicos, caminos de interaccin, genes y
expresiones de la protena, interacciones de la protena-protena, y otras fuentes
tales como bases de datos, colecciones de los datos confidenciales, y publicaciones
relacionadas.
54
estrategia permite posibles inconsistencias en los datos.
Cliente Servidor en dos capas. Solo existen servidores de datos y clientes que
los usan. En el servidor (o servidores) residen las fuentes de datos, el Data
Warehouse y los datamarts. En los clientes, se ejecutan las herramientas de
acceso del usuario final; stas son generalmente aplicaciones grficas.
55
dominio de un determinado problema.
56
De hecho, el nico mtodo de conseguir al da informacin de secuencias
de cidos nuclicos y de protenas es accediendo a un
computador. Adems, varias revistas que publican investigaciones sobre
secuenciacin hoy en da requieren que los investigadores depositen sus
secuencias electrnicamente en una de las principales bases de datos
antes de la publicacin de sus trabajos. Por lo tanto, es importante estar
familiarizado con las principales bases de datos.
161
GEER, Renata C. y SAYERS, Eric W. Entrez: Making use of its power. En: Briefings in Bioinformatics. vol. 4,
no. 2. Junio, 2003. p. 179.
162
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
57
Las herramientas de comparacin de la secuencia de uso comn y
alineacin son BLAST163 y FASTA164. La principal caracterstica del BLAST es su
velocidad, pudiendo tomar pocos minutos para realizar cualquier bsqueda en la
totalidad de la base de datos. De hecho, los resultados se presentan en pantalla
inmediatamente despus de calculados.
BLAST puede hacer bsquedas en una base de datos no redundante (nr) la cual
tiene los registros no redundantes entre las dos bases de datos principales a nivel
mundial: GenBank en los Estados Unidos de Amrica y EMBL (European
Molecular Biology Laboratories) en Europa. Adems, BLAST tiene cinco mdulos
de bsqueda que amplan las posibilidades:
163
Basic Local Alignment Search Tool (Alineacin de base local de herramientas de bsqueda).
164
Fast Alignment (Alineamiento Rpido). Disponible desde internet en:
<http://www.EBI.ac.uk/Tools/sss/fasta/>
165
EMBnet Colombia. s.f. Algoritmos de Comparacion de Secuencias BLAST [en lnea]. Bogot, Colombia.
Disponible desde internet en: <http://bioinf.ibun.unal.edu.co/documentos/BLAST/BLAST.php>. [citado en
julio 12 de 2011].
58
El programa alcanza un alto nivel de sensibilidad para la bsqueda de similitud a
alta velocidad mediante la realizacin de bsquedas optimizadas para
alineamientos locales, utilizando una matriz de sustitucin.
166
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.69.
167
Disponible desde internet en: <http://www.EBI.ac.uk/Tools/msa/clustalw2/>
168
Clustal: Multiple Sequence Alignment. 26 de junio de 2011. Multiple alignment of nucleic acid and protein
sequences [en lnea]. s.l. Disponible desde internet en: <http://www.clustal.org/#News> [citado en julio 12
de 2011].
169
Disponible desde internet en: <http://rana.lbl.gov/EisenSoftware.htm>
59
empalme, los sitios de unin del factor de transcripcin, promotores y estructura
de la protena en 2D y 3D.
170
Disponible desde internet en: <http://swift.cmbi.kun.nl/swift/genequiz/>
171
Expresin Profiler: Next Generation es una abierta y extensible plataforma web de colaboracin para la expresin de
microarrays de genes, la secuencia y el anlisis de los datos de PPI, la exposicin de distintos componentes de conexin
de cadenas para clusters, el descubrimiento de patrones, las estadsticas (a travs de R), los algoritmos de aprendizaje
automtico y la visualizacin.
172
Disponible desde internet en: <http://rana.lbl.gov/EisenSoftware.htm>
173
Disponible desde internet en: <http://www.proteinexplorer.org>
174
MARTZ, Eric. 3D molecular visualization with Protein Explorer. En: KRAWETZ, Stephen A., WOMBLE, David D.
Introduction to Bioinformatics: A Theoretical and Practical Approach. Totowa, New Jersey: Humana Press, 2003. p. 565.
175
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.71.
60
Comparacin y alineacin de secuencia. Despus de que se obtiene una
secuencia de ADN, el siguiente paso es estudiar la informacin estructural y
funcional codificada en dicha secuencia. Una forma de hacerlo es mediante la
comparacin de la nueva secuencia con las secuencias que ya estn bien
estudiadas y documentadas. Las secuencias que son similares probablemente
tienen la misma funcin, ya sea un papel funcional (es decir, ORFs176) que
codifican protenas similares, el papel de regulador, o las propiedades
estructurales en el caso de las protenas.
176
ORF: Open Reading Frame, es una herramienta de anlisis grfico que encuentra todos los frames de
lectura abierta de un tamao mnimo seleccionable en la secuencia de un usuario o en una secuencia que ya
estn en la base de datos.
177
SMITH, Temple F. y WATERMAN, Michael S. Comparison of biosequences. En: Advances in applied
mathematics. 2 ed. California: Academic Press, 1981. p. 482.
178
SMITH, Temple F. y WATERMAN, Michael S. Comparison of biosequences. En: Advances in applied
mathematics. 2 ed. California: Academic Press, 1981. p. 487.
61
encontrar patrones de conservacin o segmentos en dos secuencias de la
alineacin local.
179
The European Molecular Biology Open Software Suite (La Suite Europe de Biologa Molecular de
Software Libre).
180
EMBnet. s.f. EMBOSS [en lnea]. Bari, Italia. Disponible desde internet en:
<http://www.embnet.org/en/node/114 > [citado en julio 15 de 2011].
62
Tambin se han desarrollado variantes de BLAST para la bsqueda de diferentes
tipos de bases de datos y para diferentes aplicaciones, por ejemplo, el sitio web de
NCBI ofrece diferentes tipos de bases de datos de bsqueda BLAST que
permitirn a los usuarios la bsqueda de secuencias de protenas, secuencias de
ADN/ARN, la bsqueda del genoma entero, etc.181
181
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.77.
182
Knowledge Discovery from Database (Descubrimiento del Conocimiento de Bases de Datos).
183
FEBLES RODRGUEZ, Juan Pedro y GONZLEZ PREZ, Abel. Aplicacin de la minera de datos en la
bioinformtica. En: ACIMED Revista Cubana de los Profesionales de la Informacin y la Comunicacin en
Salud. vol.10 no. 2. Marzo - abril 2002. ISSN 1024-9435.
63
Minera de Texto184. Debido a que la mayor parte de la informacin sobre
funciones e interacciones de genes se encuentra en la literatura y en las
bases de datos biomdicas, es necesaria la aplicacin de nuevos y
potentes mtodos de procesamiento y acceso a la informacin.
184
GLVEZ, Carmen, PhD. MINERA DE TEXTOS: LA NUEVA GENERACIN DE ANLISIS DE LITERATURA
CIENTFICA EN BIOLOGA MOLECULAR Y GENMICA. Granada, Espaa: Facultad de Comunicacin y
Documentacin, 2008. 14p.
185
Knowledge-Discovery in Text (Descubrimiento del conocimiento en el texto).
186
HEARST, Marti A.. Automated Discovery of wordnet relations. En: FELLBAUN, Christiane. WordNet: An
Electronic Lexical Database. Cambridge, Reino Unido: MIT Press. 1998. S.d.
187
HEARST, M. Untangling text data mining. En: Proceedings of ACL'99: the 37th Annual Meeting of the
Association For Computational Linguistic ACL. 1999. p. 3-10.
64
Las bases de datos biolgicas pueden ser clasificadas en dos tipos 188 de
bancos de datos estructurados, con registros sobre secuencias y
estructuras moleculares, tales como las bases de datos SwissProt7 o
GenBank; y 2) bases de datos textuales no-estructuradas, con registros en
lenguaje natural, tales como PubMed y MEDLINE. La relacin entre estas
dos formas de informacin estructura y no estructurada es clave.
188
STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and visualization from co-occurences of
gene names in Medline abstracts. En: In Proceedings of the Fifth Annual Pacific Symposium on Biocomputing.
2000. p. 529-540.
189
LEROY, G y CHEN, H. Genescene: An ontology-enhanced integration of linguistic and co-occurrence based
relations in biomedical texts. En: Journal of the American Society for Information Science and Technology.
vol. 56, no. 5. 2005. p. 457-468.
65
La informacin textual, como la que se encuentra en MEDLINE, es una
fuente infrautilizada de informacin biolgica para los investigadores. Por
esta razn, cada vez son ms los sistemas dedicados a analizar resmenes
de MEDLINE para ofrecer servicios de informacin bio-relacionada.
66
constituyen las relaciones de co-ocurrencia. En el caso de un banco de
datos, los bilogos pueden establecer relaciones binarias numricas entre
entidades por alineamiento, o medidas de co-ocurrencia numrica, entre
secuencias de ADN. En el caso de un corpus textual, los bilogos pueden
establecer relaciones binarias semnticas entre entidades por medio de la
co-ocurrencia de trminos, como propone la Bio-Bibliometra198.
198
STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and visualization from co-occurences of
gene names in Medline abstracts. En: In Proceedings of the Fifth Annual Pacific Symposium on Biocomputing.
2000. p. 529-540.
199
NG y WONG, 1999; BLASCHKE y VALENCIA, 2002; y GALVEZ y MOYA-ANEGN, 2007.
200
RAYCHAUDHURI, S., et al. Associating genes with gene ontology codes using a maximum entropy analysis
of biomedical literature. En: Genome Research. vol. 12. 2002. p. 203-214.
201
La clasificacin predice una variable nominal, mientras que la regresin general predice una variable
continua, aunque hay tcnicas de regresin de las variables nominales tambin.
202
VOS, Wiesner y EVERS, Ludger. MSc in Bioinformatics: Statistical Data Mining. 14 de septiembre de 2004.
p. 8. Disponible desde internet en: <http://www.stats.ox.ac.uk/~nicholls/ms1/VosEversFullNotes.pdf>
[citado en julio 14 de 2011].
67
7.3.4 Mquinas de Aprendizaje en Bioinformtica
Hay una serie de razones por las que los enfoques de aprendizaje automtico son
203
ADELI, 1995; FINLAY y DIX, 1996; KUONEN, 2004; NARAYANAN et al., 2002; NEGNEVITSKY, 2002;
NILSSON, 1996; BALDI y BRUNAK, 2001; y WESTHEAD et al., 2002.
204
FINLAY, Janet y DIX, Alan. An Introduction to Artificial Intelligence. Reino Unido: UCL Press, Taylor &
Francis Group, 1996. ISBN 1-85728-399-6.
68
ampliamente utilizados en la prctica, especialmente en bioinformtica:205
Existen algunos problemas biolgicos en los que los expertos slo pueden
especificar pares de entrada/salida, pero no las relaciones entre las
entradas y salidas, tales como la prediccin de la estructura de la protena y
secuencias estructurales y funcionales. Esta limitacin puede ser abordada
por los mtodos de las mquinas de aprendizaje. Ellas son capaces de
ajustar su estructura interna para producir resultados aproximados para los
problemas planteados.
205
NARAYANAN, et al., 2002; NILSSON, 1996; BALDI y BRUNAK, 2001; y WESTHEAD, et al., 2002.
69
Los mecanismos de la mquina de aprendizaje son la base de los sistemas
adaptativos. En investigacin bioinformtica, una serie de enfoques de las
mquinas de aprendizaje se aplican para descubrir nuevos conocimientos
significativos de las bases de datos biolgicas, para analizar y predecir
enfermedades, agrupar elementos genticos similares, y encontrar relaciones o
asociaciones en los datos biolgicos. Ejemplos de los enfoques de las mquinas
de aprendizaje en la investigacin bioinformtica se muestran en la Tabla 1.1.
70
Tabla 2. Investigaciones existentes sobre bioinformtica que han aplicado tcnicas
de Mquinas de Aprendizaje
http://www.genomatix.de/cgi-
bin/dialign/dialign.pl
Prediccin de genes Genscan http://genes.mit.edu/GENSCAN.html
http://genes.mit.edu/genomescan/
GenomeScan
http://exon.gatech.edu/GeneMark/
GeneMark
Anlisis de protenas e Pfam http://pfam.sanger.ac.uk/
identificacin de
dominio
BLOCKS http://blocks.fhcrc.org/
ProDom
http://prodom.prabi.fr/prodom/current/
html/home.php
Patrn de identificacin Gibbs Sampler http://bayesweb.wadsworth.org/gibbs/
gibbs.html
AlignACE http://atlas.med.harvard.edu/cgi-
bin/alignace.pl
MEME http://meme.sdsc.edu/meme/meme-
intro.html
Plegamiento de PredictProtein http://www.predictprotein.org/
prediccin de proteinas http://swissmodel.expasy.org/
SwissModle
71
7.3.4.2 Redes neuronales artificiales206. El proceso de aprendizaje es un
fenmeno complejo. Muchas preguntas desconcertantes surgen del mismo.
Cmo se pueden reconocer los rostros de los dems? Cmo se pueden
identificar los patrones complejos de la cara? Cmo se pueden discriminar
imgenes y fondos? Cmo se aprende un acceso directo para ir a una
universidad? Para responder a estas preguntas, es necesario saber cmo
funciona el cerebro.
Los Neuronistas afirman que el cerebro es una coleccin de unas 10 mil millones
de unidades celulares llamadas neuronas densamente interconectadas. Cada
neurona se compone de un cuerpo llamado soma celular, un nmero de
extensiones conectadas a un millar de neuronas adyacentes llamadas dendritas, y
una lnea de transmisin extendida desde el soma llamada axn.
Cada neurona utiliza las reacciones bioqumicas para recibir y transmitir los
procesos de la informacin. Las neuronas se comunican entre s a travs de un
proceso electroqumico, esto significa que los productos qumicos crean una seal
elctrica y cuando una neurona no enva una seal, se encuentra en un estado de
reposo. El interior de la neurona tiene un potencial elctrico negativo. Cuando una
neurona enva una seal, causa un cambio en el potencial elctrico del cuerpo
celular. El cambio se produce debido a la liberacin de sustancias qumicas de la
clula sinptica, llamados neurotransmisores. Cuando el potencial supera un cierto
umbral, se produce una accin potencial. En consecuencia, la neurona dispara
una seal elctrica por medio del axn.
206
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.124.
72
biolgicas207. Y esto lleva a la introduccin de las Redes Neuronales Artificiales
(ANN).
Cada elemento (similar a una neurona) en la red est conectado a sus vecinos con
los pesos (similar a las sinapsis) que representan los puntos fuertes de las
conexiones. Normalmente, un nico elemento del proceso recibe un nmero de
entradas (anloga a las dendritas) a travs de su conexin, las combina, ejecuta
una operacion (no-) lineal en el resultado, y a continuacin produce el resultado
final (anlogo a un axn). La entrada puede ser la informacin de ambientes
externos o salidas de otras neuronas. La salida puede ser una solucin definitiva
al problema o una entrada a otras neuronas.
Para construir una red artificial, se debe decidir que arquitectura de red y algoritmo
de aprendizaje debe ser utilizado. La arquitectura de la red dice cmo son usadas
las neuronas, y cmo estn conectados en una red. El objetivo de la funcin de
aprendizaje consiste en modificar los pesos de los entradas para lograr las salidas
deseadas.
207
ADELI, 1995; FREEMAN y SKAPURA, 1991; HAYKIN, 1994; MLLER Y REINHARDT, 1990; NEGNEVITSKY,
2002.
208
ROSENBLATT, F. The perceptron: a probabilistic model for information storage and organization in the
brain. En: Psychological Review. vol. 65, no. 6, 1958. p. 386-408.
73
presenta con las entradas. El perceptrn se suele utilizar para la clasificacin de
clases, donde las clases son linealmente separables, sin importar el tipo de
funcin de activacin.
Una red feedforward es una red de neuronas que tienen seales que viajan de la
capa de entrada a la capa de salida solamente. Por el contrario, las redes de
retroalimentacion permiten que las seales viajen en ambas direcciones (de la
capa de entrada a capa de salida y viceversa).
Una red neuronal artificial fue entrenada para predecir la secuencia del gen
supresor de tumores en el humano, TP53212 basado en un GeneChip p53213. Una
ANN feed-forward multicapa fue desarrollada como una herramienta para predecir
una secuencia promotora de micobacterias en una secuencia de nucletidos214.
Existen dos buscadores de genes ms populares que dieron lugar a las ANN.
GRAIL215 es el primer programa buscador de genes, que fue diseado para
identificar genes, exones, y varias caractersticas en las secuencias de ADN. ste
utiliza una red neural que combina una serie de algoritmos de codificacin de
prediccin para reconocer el potencial de codificacin en ventanas de longitud fija
sin buscar caractersticas adicionales.
GRAIL es una herramienta para examinar las relaciones entre genes de diferentes
209
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.125.
210
Redes Neuronales Artificiales.
211
FU, Limin. Knowledge Discovery Based on Neural Networks. En: Communications of the ACM (CACM). vol.
42, Issue: 11, Noviembre 1999. p. 47-50.
212
Disponible desde Internet en: <http://www.genecards.org/cgi-bin/carddisp.pl?gene=TP53v>
213
Spicker, Jeppe, et al. Neural network predicts sequence of TP53 gene based on DNA chip. En:
Bioinformatics. vol. 18, Issue: 8, Febrero de 2002. p. 1133-1134.
214
KALATE, Rupali; TAMBE, Sanjeev y KULKARNI, Bhaskar. Artificial neural networks for prediction of
mycobacterial promoter sequences. En: Computational Biology and Chemistry. vol. 27, Issue: 6. 2003. p. 555-
564.
215
UBERBACHER, Edward y Mural, Richard. Locating Protein Coding Regions in Human DNA Sequences Using
a Multiple Sensor-Neural Network Approach. En: Proceedings of the National Academy of Sciences of United
States of America. vol. 88, Diciembre de 1991. p. 11261-11265.
74
enfermedades asociadas a loci216. Teniendo en cuenta varias regiones genmicas
o SNPs217 asociados con un fenotipo particular o enfermedad, GRAIL busca
similitudes en los textos cientficos publicados entre los genes asociados.
Como entrada, los usuarios pueden subir los SNP que han surgido de un amplio
estudio de asociacin del genoma o de ciertas regiones del genoma que han
surgido de un vnculo de exploracin o estan asociadas a comunes o raras
variantes de nmero de copia. Los SNPs cotizados de acuerdo a su RSS218, y
deber estar inscrito en el HapMap219. Las regiones genmicas son especificadas
mediante un identificador definifo por el usuario, el cromosoma que es localizado,
y el inicio y la posicin final para la regin de pares de bases.
216
Loci: es una posicin fija sobre un cromosoma, como la posicin de un gen o de un biomarcador
(marcador gentico).
217
Single Nucleotide Polymorphism (SNP pronunciado "snip", Polimorfismo de Nucletido nico): es un
cambio de una sola letra en el ADN que contribuye a la variacin gentica en una poblacin, la creacin de la
diversidad.
218
Receive Side Scaling.
219
Catlogo completo de la variacin gentica humana, y mapas que se refieren a las enfermedades para
explorar sus causas y as mismo la historia evolutiva humana. Disponible desde Internet en:
<http://www.broadinstitute.org/news/258>
220
BROAD INSTITUTE. s.f. GRAIL: Gene Relationships Across Implicated Loci. Cambridge, Massachusetts.
Disponible desde Internet en: <http://www.broadinstitute.org/mpg/grail/> [citado en 14 de abril de 2011].
221
SNYDER y STORMO, 1993, 1997.
222
BOHR, et al., 1990; y QIAN y SEJNOWSKI, 1988.
75
mtodos eficaces223. La mayora de los mtodos recientes usan conjuntos de
redes neuronales.
Las ANN tambin se han utilizado para llevar a cabo anlisis de expresin. Un
sistema neural artificial para clasificacin de genes llamado GenCANS224 fue
desarrollado para analizar y gestionar un gran volumen de datos de secuenciacin
molecular del Proyecto del Genoma Humano225. GenCANS est basado en una
red de retropropagacin feedforward de tres capas.
76
Estos tipos se han utilizado para analizar la expresin gnica de datos. ART se
utiliz para demostrar que las herramientas de aprendizaje sin supervisin de
redes neuronales superan el anlisis y visualizacin de perfiles de expresin
gnica. (ART fue usado para mostrar las mejoras de las herramientas de
aprendizaje no supervisado de redes neuronales para el anlisis y visualizacin de
perfiles de expresin gnica).
Un algoritmo de aprendizaje debe ser utilizado para capacitar una red neuronal de
manera que pueda procesar la informacin de forma til y significativa. Las redes
neuronales se utilizan en una amplia variedad de aplicaciones en la clasificacin
de patrones, procesamiento del lenguaje, el modelado de sistemas complejos, el
control, optimizacin, y prediccin236.
234
Adaptive Resonance Theory (Teora de la Resonancia Adaptativa).
235
AZUAJE, F., 2003; y TOMIDA, Shuta, et al., 2001.
236
LIPPMAN, Richard P. An introduction to computing with neural nets. En: IEEE Acoustics, Speech, and
Signal Processing Magazine. Abril de 1987. 22p.
237
Wu, Cathy y McLarty, Jerry. Vol. 1 Methods in Computational Biology and Biochemistry. En: Neural
Networks and Genome Informatics. s.l: Elsevier, 2000. 205p.
77
han sido ampliamente utilizadas en la biologa desde principios de la dcada de
1980238. Pueden ser utilizados para:
238
BRUSIC, Vladimir y ZELEZNIKOW, John. Knowledge discovery and data mining in biological databases. En:
The Knowledge Engineering Review. Septiembre de 1999. vol. 14, Issue 3. p. 257-277.
239
STORMO, G. D., et al. Use of Perceptron algorithm to distinguish translational initiation in E.coli. En:
Nucleic Acids Research. 11 de Mayo de 1982. vol. 10, no. 9. p. 2997-3011.
240
BALDI, Pierre y BRUNAK, Soren. Bioinformatics: the Machine Learning Approach. s.l.: MIT Press, Febrero
de 1998. 360p. ISBN 0-262-0244-X.
241
BRUSIC, V., et al. Prediction of MHC class-II binding peptides using an evolutionary algorithm and artificial
neural network. En: Bioinformatics. 1998. vol. 14, Issue 2. p. 121-130.
242
BRUSIC, Vladimir, et al. A Neural Network Model Approach to the Study of Human TAP Transporter. En: In
Silico Biology. 1998. vol. 1.
243
Bayesian Neural Network (Redes Neuronales Bayesianas).
244
WU, Cathy, et al., 1993, 1995, 1997, 2000.
245
QIAN, Ning y SEJNOWSKI, Terrence J. Predicting the secondary structure of globular proteins using neural
network models. En: Journal of Molecular Biology. vol. 202, 1988.
p. 865-884.
246
TORONEN, P, et al., 1999; WANG, Jason, et al., 2000; BICCIATO, Silvio, et al., 2001; y TORKKOLA, Kari, et
al., 2001.
247
NARAYANAN, A., et al. Single-Layer Artificial Neural Networks for Expression Analysis. En: Special Issue on
Bioinformatics of Neurocomputing. 2003b. vol. 61. p. 217-240.
78
en mecanismos de la evolucin biolgica248. Una moderna teora de la evolucin
biolgica comenz a existir con la incorporacin de la gentica y la teora de la
biologa de la poblacin en la clsica teora de la evolucin de Charles
Darwin249.Esto se puede definir como los cambios heredables, a travs de los
materiales genticos de una poblacin de cromosomas, de una generacin a la
siguiente.
Paso 1.
a. Codificar las variables del problema como un cromosoma, lo que representa
una cadena binaria de longitud fija.
b. Elegir un tamao de la poblacin, N.
248
HOLLAND, John H. Adaptation in Natural and Artificial Systems: an introductory analysis with applications
to biology, control, and artificial intelligence. Michigan (Estados Unidos de Amrica): University of Michigan
Press, 1975. 183p. ISBN 0472084607.
249
DARWIN, Charles. On the Origin of Species by means of natural selection: or, The preservation of favoured
races in the struggle for life. Londres: Yushodo Bookseller's, 1859. 502p.
250
COLEY, David A., 1999; GHANEA-HERCOCK, Robert, 2003; y GOLDBERG, David, 1989.
79
c. Definir una funcin fitness251 para medir la probabilidad de que un cromosoma
ser seleccionado como un cromosoma padre para generar nuevos
cromosomas.
251
Funcin Fitness: La nica restriccin para usar un algoritmo gentico es que exista una funcin llamada
fitness, que le informe de cuan bueno es un individuo dado en la solucin de un problema. Esta funcin
fitness o de evaluacin es el principal enlace entre el Algoritmo Gentico a un problema real, es la
efectividad y eficiencia de la funcin fitness que se tome, por lo tanto debe procurarse que la funcin fitness
sea similar, si no igual a la funcin objetivo que se quiere optimizar. Esta medida se utiliza como parmetro
de los operadores y gua la obtencin de nuevas poblaciones.
80
optimizacin.
252
System for Automated Geoscientific Analyses (Sistema Automatizado de Anlisis Geocientfico).
253
OHNO-MACHADO, Lucila; VINTERBO, Staal y WEBER, Griffin. Classification of gene expression data using
fuzzy logic. En: Journal of Intelligent and Fuzzy Systems. 2002. vol. 12, no. 1. p. 19-24.
254
BARTON, G.J. y STERNBERG, M.J, 1987; FENG, D.F. y DOOLITLE, R.F., 1987; y THOMPSON, J.D.; HIGGINS,
D.G. y GIBSON, T.J., 1994.
81
Adems de SAGA, existen algunos enfoques que han aplicado los algoritmos
genticos a multiples alineamientos de secuencias. Los algoritmos genticos han
sido comnmente aplicados a un conjunto de secuencias de ARN para encontrar
comunes estructuras secundarias de ARN255.
Los primeros mtodos propuestos slo pueden ocuparse de una sola secuencia
de ARN, mientras que la ltima mejora de los mtodos se puede utilizar para
determinar estructuras de ARN en las secuencias de ARN.
255
BENEDETTI, Giorgio y MOROSETTI, Stefano, 1995; CHEN, J.H.; LE, S.Y. y MAIZEL, J.V., 2000; GULTYAEV,
A.P.; VAN BATENBURG, F.H. y PLEIJ, C.W., 1995; SHAPIRO, Bruce y NAVETTA, Joseph, 1994; SHAPIRO, Bruce,
et al., 2001; y WU, Cathy y SHAPIRO, Bruce, 1999.
256
LI, Leping, et al. Gene selection for sample classification based on gene expression data: study of
sensitivity to choice of parameters of the GA/KNN method. En: Bioinformatics. 2001. vol. 17, Issue 12. p.
1131-1142.
257
KEEDWELL, E. y NARAYANAN, A. Genetic algorithms for gene expression analysis. En: Applications of
Evolutionary Computation: Proceedings of the 1st European Workshop on Evolutionary Bioinformatics.
Berlin, Heidelberg: Springer-Verlag, 2003. p. 76-86.
82
7.3.5 Soft Computing. El avance en las tcnicas de Soft computing demuestra el
alto nivel de tecnologa, algoritmos y herramientas de la bioinformtica para fines
dedicados tales como la secuenciacin fiable del genoma y en paralelo, la rpida
comparacin de secuencia, la bsqueda en bases de datos, la identificacin
automatizada de genes, modelado eficiente y el almacenamiento de datos
heterogneos, etc.
258
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 192.
259
Ibid., p. 193.
83
recopilacin de conocimientos de los expertos especficos. Los expertos siempre
pueden explicar cules son los factores que utilizan para evaluar una situacin, sin
embargo, a menudo es difcil para ellos decir cules son las reglas que utilizan
(por ejemplo, para el anlisis y control de enfermedades). Este problema puede
ser resuelto por los mecanismos de Soft computing. Un mecanismo de Soft
computing se puede extraer de la descripcin de la situacin oculta, en trminos
de los factores y las normas que coinciden con el comportamiento del experto.
4. Los datos faltantes e inentendibles son unas de las caractersticas de los datos
biolgicos. Las tcnicas informticas convencionales no pueden manejar
esto. Mientras que las tcnicas basadas en Soft computing son capaces de hacer
frente a los datos que faltan y los que son incomprensibles.
La idea clave de la lgica difusa es que utiliza una forma fcil y sencilla con el fin
de obtener la(s) salida(s) a partir de la(s) entrada(s), en realidad las salidas estn
260
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 193
84
relacionadas con las entradas usando las sentencias if y este es el secreto detrs
de la facilidad de esta tcnica. Lo ms fascinante de la lgica difusa es la
aceptacin de las incertidumbres que se heredan en las entradas reales y trata
estas incertidumbres, de tal manera que su efecto es insignificante, por lo que
resulta en una salida precisa.
3. Para analizar los datos experimentales de expresin 264 utilizando la teora difusa
de resonancia adaptativa.
261
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 195
262
Ibid., p. 196
263
TORRES, Angela y NIETO, Juan. The Fuzzy polynucleotide space: basic properties. En: Bioinformatics. vol.
19, Issue: 5. 2003. p. 92
264
TOMIDA, Shutta, et al. Analysis of expression profile using fuzzy adaptive resonance theory. En: Bioinformatics. vol.
18, Issue: 8. 2002. p.1073-1083
265
SCHLOSSHAUER, Maximilian y OHLSSON, Mattias. A novel approach to local reliability of sequence alignments. En:
Bioinformatics. vol 18, no.6. 2002. p. 847-854.
266
CORDN, Oscar, et al. Ten years of genetic fuzzy systems. En: Fuzzy Sets and Systems. vol. 141, Issue: 1. 2004. p. 5-
31.
85
6. Para cluster de genes a partir de datos de microarrays.
8. Para simular los rasgos complejos influenciados por los genes con valores
difusos con efecto en las poblaciones con pedigr.268
11. Para analizar las relaciones entre los genes y descifrar una red gentica271.
267
HUANG, Ying y LI, Yanda. Prediction of protein subcellular locations using fuzzy k-NN method. En:
Bioinformatics. vol.20, Issue: 1. 2004. p.21
268
CARLEOS, C., et al. Simulating complex traits influenced by genes with fuzzy-valued effects in pedigreed
populations. En: Bioinformatics. vol. 19, Issue: 1. 2003. p. 144-148.
269
DEMBL, Doulaye y KASTNER, Philippe. Fuzzy C-means method for clustering microarray data.En:
Bioinformatics. vol. 19, Issue: 8. 2003. p. 973-980.
270
WOOLF, Peter y WANG, Yixing. A fuzzy logic approach to analyzing gene expression data. En:
Physiological Genomics. vol.3, Issue: 1. 2000. p. 9-15.
271
RESSOM, H.; REYNOLDS R. y VARGHESE R. Increasing the efficiency of fuzzy logic based gene expression
data analysis. En: Physiological Genomics. vol. 13, Issue: 2. 2003. p. 107117.
272
LUKAC, R., et al. cDNA microarray image processing using fuzzy vector filtering framework. En: Journal
Fuzzy Sets and Systems. vol. 152, Issue: 1. 2005. p. 1735.
273
BANDYOPADHYAY, Sanghamitra. An efficient technique for super family classification of amino acid
sequences: feature extraction, fuzzy clustering and prototype selection. En: Journal Fuzzy Sets and Systems.
vol. 152, Issue: 1. 2005. p. 516.
86
7.3.6 MATLAB aplicado a la Bioinformatica274. MATLAB es el nombre
abreviado de MATrix LABoratory. Es un entorno de computacin y desarrollo de
aplicaciones totalmente integrado orientado para llevar a cabo proyectos en donde
se encuentren implicados elevados clculos matemticos y la visualizacin grfica
de los mismos.
Como resultado, los bioinformticos pueden usar toolbox para enfocar los
esfuerzos en su trabajo - la investigacin y anlisis - sin los riesgos asociados con
usar programas o software dispares.
274
Secuencia ADN. 30 de julio de 2009. Matlab Aplicado a la Bioninformtica [en lnea]. Buenos Aires,
Argentina. Disponible desde internet en:
<http://www.secuenciaadn.com.ar/index.php?option=com_content&view=article&id=46:matlab-aplicado-
a-la-bioinformatica&catid=1:latest-news&Itemid=50> [Citado en julio 15 de 2011].
87
Entre sus numerosos rasgos y capacidades, Bioinformatics Toolbox proporciona el
acceso a archivos del genoma en formatos normales, los bancos de datos
basados en la web como GenBank y PIR, y las fuentes de los datos en lnea.
Toolbox tambin ofrece las rutinas especializadas para visualizar los datos de
Microarrays (micro-arreglos o biochips), incluyendo las cajas de grfico, los
grficos I-R y los mapas espaciales de calor.
275
Ver pag. 44
88
Formatos de archivo y acceso a bases de datos. Se puede acceder a muchos
formatos estndar para datos biolgicos, bases de datos de Internet, y otros
recursos online desde la Bioinformatics Toolbox. Por ejemplo, es posible:
276
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].
89
Representaciones grficas de las matrices resultantes del
alineamiento.
277
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].
90
aminocidos de una secuencia de protenas, cortando la protena con una
enzima. Una GUI permite ver las propiedades a lo largo de la secuencia.278
7.3.7.1 Microarrays de ADN: las bases tcnicas. Los Microarrays de ADN son
pequeos y slidos soportes sobre las cuales las secuencias de miles de genes
diferentes son inmovilizadas o capturadas en ubicaciones fijas. Los soportes
suelen ser portaobjet os de vidrio, del tamao de dos meiques de lado a lado,
tambin pueden ser chips de silicio o membranas de nylon. El ADN es impreso,
manchado, o es sintetizado directamente sobre el soporte.
El American Heritage Dictionary define " matriz " o array como "colocar en una
disposicin ordenada. Es importante que las secuencias de los genes en un
microarray estn colocadas en su soporte slido de manera ordenada o fijas, ya
que el investigador utiliza la ubicacin de cada punto de la matriz para identificar
una secuencia gentica particular. Las manchas pueden ser AND, ADNc280 o de
oligonucletidos281.
278
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].
279
NCBI. Microarrays: chipping away at the mysteries of science and medicine [en lnea]. Julio de 2007.
Bethesda Estados Unidos de America. Disponible desde internet en:
<http://www.ncbi.nlm.nih.gov/About/primer/microarrays.html> [citado en julio 16 de 2011].
280
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm.
Se genera por accin de la enzima trasncriptasa inversa y tiene mltiples usos tanto en investigacin bsica
como aplicada a biomedicina.
281
Un oligonucletido, u oligo como se le llama comnmente, es un breve fragmento de un ADN de cadena
simple que suele ser de 5 a 50 nucletidos de largo.
91
7.3.7.2 Bases de datos de secuencias para microarrays. Los Microarrays de
ADN contienen secuencias que se han derivado de las bases de datos de
secuencias de ADN. El archivo de salida con los resultados numricos del
experimento con microarrays que se analizan, tambin contiene una serie de
campos que se relacionan con estas secuencias de las bases de datos de las
cuales se derivan. A continuacin se describirn el significado de estos campos y
la naturaleza de las bases de datos.
282
Exones: Secuencias de ADN especficas de genes, que codifican secuencias de aminocidos en las
protenas.
283
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
284
Una secuencia tag expresada o EST es una pequea porcin de un gen entero que puede ser usada para
ayudar a identificar genes desconocidos y para mapear sus posiciones dentro de un genoma.
285
STEKEL, Dov. Microarray Bioinformatics. Reino Unido: Cambridge University Press, 2003. p. 28.
286
Transcripcin: es el proceso de obtencin de un ARN mensajero (ARNm) a partir del ADN correspondiente
a un gen.
92
informacin sobre las similitudes de protenas, la expresin de genes, ADNc 287 y
locacin gentica.
UniGene tambin ha sido utilizado por los investigadores para seleccionar los
reactivos para los proyectos de cartografa gentica y anlisis de expresin a gran
escala.
Las bases de datos de pptidos utilizados por UniGene son los que
representan a Homo sapiens musculus, mus, Rattus norvegicus,
Drosophila melanogaster, el Caenorhabditis elegans, Saccharomyces
cerevisiae, la Escherichia coli. y Arabidopsis thaliana .
287
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm.
Se genera por accin de la enzima trasncripta a la inversa y tiene mltiples usos tanto en investigacin bsica
como aplicada a biomedicina.
288
NCBI. s.f. UniGene: An organized view of the transcriptome [en lnea]. Bethesda Estados Unidos de
Amrica. Disponible desde internet en: <http://www.ncbi.nlm.nih.gov/unigenel>. [citado en julio 16 de
2011].
93
cluster. El algoritmo exacto utilizado para seleccionar el representante
de protena se encuentra en revisin.289
289
NCBI. s.f. UniGene FAQ [en lnea]. Bethesda Estados Unidos de Amrica. Disponible desde internet en:
<http://www.ncbi.nlm.nih.gov/unigene/help.cgi?item=FAQ> [citado en julio 16 de 2011].
290
Reference Sequence (Secuencia de Referencia).
291
NCBI. s.f. NCBI Reference Sequences [en lnea]. Bethesda Estados Unidos de Amrica. Disponible desde
internet en: <http://www.ncbi.nlm.nih.gov/RefSeq>. [citado en julio 16 de 2011]
292
Representacin grafica de un grupo de relaciones basadas en la cercana o similitud entre los datos.
94
dendograma, establece una relacin ordenada de los grupos previamente
definidos y la longitud de sus ramas es una representacin de la distancia
entre los distintos nodos del mismo.
Por otro lado existe el clustering jerrquico divisivo que es similar al anterior
pero agrupa los genes de forma inversa. Mientras que el clustering
aglomerativo separa inicialmente todos los genes y posteriormente los va
agrupando para construir clusters ms grandes, el clustering divisivo agrupa
inicialmente todos los genes en un nico cluster y sucesivamente los va
separando hasta que cada uno se encuentre aislado como una entidad. Es
decir, el mtodo divisivo va identificando aquellos genes con un patrn mas
diferente para separarlos en el espacio lo ms posible. Este es el caso de
SOTA294.
293
Algoritmo que opera agrupando iterativamente los genes o clusters que presentan la distancia media ms
pequea en cada paso sucesivo del clculo de la matriz de distancias.
294
Self-Organising Tree Algorithm (rbol de algoritmos auto-organizados).
95
ellos se utiliza como el centroide inicial de los k clusters que se van
a a formar. La matriz de distancias se calcula desde dicho centroide
hasta cada uno de los genes de la matriz de datos y cada uno de
ellos ser asignado de esta forma al centroide ms cercano.
Entonces la matriz de distancias se recalcula reemplazando cada
centroide por la media de los genes asignados a l y el algoritmo
repite entonces el proceso anterior. El mapa de clusters que ofrece
este algoritmo carece de topologa.
SVM296: es una tcnica lineal que utiliza hiperplanos para separar los datos
en el espacio como puntos negativos o positivos. Los datos de estudio son
clasificados respecto de otro conjunto de datos previamente conocido.
Pereceptrones: estn basados en redes neuronales. Tienen algunas
ventajas sobre las SVM como por ejemplo la capacidad de clasificar
295
Self-Organising Maps (Mapas auto-organizados).
296
Supported Vector Machines (Mquinas de Vectores de Soporte).
96
muchas muestras al mismo tiempo y discriminar entre varias clases
diferentes.297
297
BIOTIC Area de Bioinformtica y Salud Pblica. s.f. Bioinformtica Asociada/Metodologa/Anlisis de
datos [en lnea]. Madrid, Espaa. Disponible desde internet en:
<http://infobiochip.isciii.es/Textos/Metodologia/bioinfo%20asociada/metodologia/analisis%20de%20datos.
htm> [citado en julio 16 del 2011].
298
Recombinante: Se dice del individuo con combinaciones de alelos distintas a las encontradas en sus
ancestros como resultado de una recombinacin en una de las meiosis progenitoras. Disponible desde
internet en: <http://www.medicoscubanos.com/diccionario_medico.aspx?q=R&p=10>
299
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.156
97
7.3.8.1 Herramientas para la Biotecnologa de Sistemas
98
8. ANLISIS DE LAS TECNOLOGAS BIOINFORMTICAS UTILIZADAS PARA
EL ANLISIS DE SECUENCIAS DE ADN
300
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 7
99
Si se realiza una comparacin del almacenamiento de datos en el mbito
empresarial con el almacenamiento de datos biolgicos, se puede decir que en el
mbito empresarial el crecimiento de los datos se dio en tamao y en complejidad,
y esto tambin caus muchas dificultades en la gestin y anlisis de la
informacin. Con los aos, el campo del almacenamiento de datos evolucion
rpidamente, y sus tcnicas fueron ampliamente aplicadas para la inteligencia
empresarial y tambin para el apoyo a las decisiones empresariales importantes.
En bioinformtica podra estar emergiendo lo mismo. Se considera que el
crecimiento de los datos dar lugar a una creciente necesidad de un sistema de
gestin de datos a gran escala y un sistema de anlisis ms complejo en el futuro
cercano.
Las bases de datos que existen en todo el mundo que contienen datos de ms de
milln y medio de secuencias siguen creciendo ao tras ao. La administracin de
esta informacin exige contar, con equipos ms potentes y con grandes
capacidades de procesamiento. Ya que cada vez ms, los estudios biolgicos
parten de la conexin de mltiples bases de datos, de complejos sistemas de
Datamining y Webs para formular hiptesis que versan sobre la organizacin de los
genes, el anlisis de su secuenciacin y la prediccin de su estructura y
comportamiento.
Debido a que la cantidad de datos biolgicos est aumentando cada vez ms, la
redundancia de datos debera ser un problema constante para los desarrolladores,
por lo que se espera que constantemente estn integrando herramientas que
100
permitan que los datos se actualicen y se corrijan constantemente, para ello se
considera necesario almacenar todo en aplicaciones centralizadas mas enfocadas
a investigaciones del mismo tipo, por ejemplo, una base de datos colaborativa que
recopile secuencias de una especie o bacteria en especfico, que contenga una
nomenclatura universal para evitar la duplicacin de publicaciones que se ingresen
con diferente nombre pero la misma secuencia, que administre o se conecte con
varias bases de datos que se enfoquen en la misma investigacin, con el fin de
tener siempre al alcance informacin ms organizada y a la que sea ms fcil
acceder.
101
hace que las redes neuronales sean adecuadas para el anlisis de patrones de
expresin gnica, la prediccin de estructura de protenas y otros procesos
relacionados con la bioinformtica.
Segn YI-Ping Phoebe Chen301 cuando expresa como una dificultad del algoritmo
gentico el que en la prctica es difcil definir o recrear los parmetros como la
representacin, el tamao de la poblacin y la funcin fsica como parte del
algoritmo gentico, debido a la falta de directrices para la eleccin de dichos
parmetros, se considera que debido a que cuando no se tiene conocimiento
exacto de las correlaciones y las relaciones ocultas entre estas mtricas, es
posible que la investigacin siempre se encamine hacia destinos desconocidos
para el investigador. Para ello, se cree que las maquinas de aprendizaje son
herramientas que permiten ajustar la estructura interna para producir resultados
aproximados para los problemas planteados sin embargo, se considera que la
computacin siempre estar cada vez ms cerca de las soluciones absolutas de
cualquier problema presentado en las investigaciones sobre biologa.
8.6 MICROARRAYS
301
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
102
se considera que la implementacin y el uso de microarrays necesitar estar a la
vanguardia en relacin a avances biotecnolgicos de ltima generacin.
103
9. DISEO METODOLGICO
9.1 HIPTESIS
9.2 POBLACIN
9.3 MUESTRA
9.4 VARIABLES
9.5 INSTRUMENTOS
Se realiz una entrevista al Doctor Duverney Gaviria Arias, investigador del grupo
CENBIOTEP para conocer las necesidades de un investigador.
302
Centro de Biologa molecular y Biotecnologa de la Universidad Tecnolgica de Pereira.
104
ENCUESTA AL DOCTOR DUVERNEY GAVIRIA ARIAS, INVESTIGADOR DEL
GRUPO CENBIOTEP
3. Qu desean hacer con los datos que poseen de las secuencias de ADN de
los pacientes con enfermedades cardiovasculares de la ciudad de Pereira?
R. Establecer una lnea base para realizar estudios posteriores.
105
8. Qu conocimiento poseen acerca del procesamiento de grandes volmenes
de secuencias de ADN?
R. El conocimiento que poseen en herramientas informticas es muy bsico y
el conocimiento que poseen en estadstica es ms avanzado.
106
10. CONCLUSIONES
107
11. REFERENCIAS BIBLIOGRFICAS
Affymetrix. 2009. Affymetrix Power Tools. Santa Clara, CA, Estados Unidos de
Amrica. Disponible desde Internet en:
<http://www.affymetrix.com/partners_programs/programs/developer/tools/powertoo
ls.affx> [citado en 18 de marzo de 2011].
AP Associated Press. Marzo de 2011. Facts & Figures [en lnea]. Estados Unidos
de Amrica. Disponible desde Internet en:
<http://www.ap.org/pages/about/about.html> [citado en 17 de julio de 2011].
108
AUT University. 15 de octubre de 2010. Our Staff: Ajit Narayanan. Auckland,
Nueva Zelanda. Disponible desde Internet en:
<http://oldwww.aut.ac.nz/schools/computing_and_mathematical_sciences/our_staf
f/ajit_narayanan.htm> [citado en 15 de octubre de 2010].
BALDI, Pierre, et al. Bidirectional IOHMMs and Recurrent Neural Networks for
Protein Secondary Structure Prediction. En: CASADIO, Rita y MASOTTI,
Lanfranco. Protein Sequence Analysis in the Genomic Era. Bolonia (Italia): CLUEB
Eds, 2000.
BARTON, G.J. y STERNBERG, M.J. A strategy for the rapid multiple alignment of
protein sequences: Confidence levels from tertiary structure comparisons. En:
Journal of Molecular Biology. Noviembre de 1987. vol. 198, Issue 2. p. 327-337.
109
BICCIATO, Silvio, et al. Analysis of an Associative Memory Neural Network for
Pattern Identification in Gene Expression Data. En: 1st Workshop on Data Mining
in Bioinformatics (in conjunction with 7th ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining). San Francisco, CA(Estados Unidos de
Amrica): ACM, 2001.
Bioiformatics WEB server. s.f. Gene Finding: Gene models construction, Splice
sites, Protein coding exons [en lnea]. Londres. Disponible desde internet en: <
http://mendel.cs.rhul.ac.uk/mendel.php?topic=fgen-file> [citado en julio 19 de 2011].
BioStar models of clinical and genomic data for biomedical data warehouse design
[en lnea]. WANG, Liangjiang ; RAMANATHAN, Murali y ZHANG, Aidong. State
University of New York at Buffalo: New York, Estados Unidos de Amrica, 2005 -
[citado el 30 de marzo de 2011]. Disponible desde Internet en:
<http://www.cse.buffalo.edu/DBGROUP/bioinformatics/papers/ijbra05.pdf>
110
BIOTIC Area de Bioinformtica y Salud Pblica. s.f. Bioinformtica
Asociada/Metodologa/Anlisis de datos [en lnea]. Madrid, Espaa. Disponible
desde internet en:
<http://infobiochip.isciii.es/Textos/Metodologia/bioinfo%20asociada/metodologia/an
alisis%20de%20datos.htm> [citado en julio 16 del 2011].
--------.--------. Server Side. Londres (Reino Unido). Disponible desde Internet en:
<http://www.biomedcentral.com/1471-2105/9/493> [citado en 1 de abril de 2011].
111
BROAD INSTITUTE. s.f. SNP. Cambridge, Massachusetts. Disponible desde
Internet en: <http://www.broadinstitute.org/education/glossary> [citado en 15 de
abril de 2011].
BRUSIC, Vladimir, et al. A Neural Network Model Approach to the Study of Human
TAP Transporter. En: In Silico Biology. 1998. vol. 1.
CARLEOS, C., et al. Simulating complex traits influenced by genes with fuzzy-
valued effects in pedigreed populations. En: Bioinformatics. vol. 19, Issue: 1. 2003.
p. 144-148.
112
CHEN, J.H.; LE, S.Y. y MAIZEL, J.V. Prediction of common secondary structures
of RNAs: a genetic algorithm approach. Nucleic Acids Res. 15 de febrero de 2000.
vol. 28, Issue 4. p. 991-999.
CHIANG, J.; YU, H. y HSU, H. GIS: a biomedical text-mining system for gene
information discovery. En: Bioinformatics. vol. 20, no. 1. 2004. p. 120-121.
Colombia Mdica [en lnea]. Universidad del Valle: Cali, 2008 [citado en 7 de
octubre de 2010]. Vol. 39, No. 001. (enero-marzo 2008). Disponible desde Internet
en: <http://redalyc.uaemex.mx/redalyc/pdf/283/28339115.pdf > ISSN 1657-9534
CORDN, Oscar, et al. Ten years of genetic fuzzy systems. En: Fuzzy Sets and
Systems. vol. 141, Issue: 1. 2004. p. 5-31.
113
CRISTIANINI, Nello y SHAWE-TAYLOR, John. An Introduction to Support Vector
Machines (and other kernel-based learning methods). Cambridge (United
Kingdom): Press Syndicate of the University of Cambridge, 2000. ISBN 0-521-
78019-5.
DARWIN, Charles. On the Origin of Species by means of natural selection: or, The
preservation of favoured races in the struggle for life. Londres: Yushodo
Bookseller's, 1859. 502p.
--------. Data Warehouse: Herramienta para la toma de decisiones (Parte II). En:
NOOS. Enero 2011. no.13.
114
DUNHAM, Margaret H. Data mining: Introductory and advanced topics. New
Jersey: Prentice Hall, 2003. 315p.
Eisein Lab. 27 de noviembre de 2002. Microarray Image Analysis [en lnea]. s.l.
Disponible desde internet en: <http://rana.lbl.gov/EisenSoftware.htm> [citado en 9
de julio de 2011].
--------. 6 de septiembre de 2010. Groups at the EBI [en lnea]. Cambridge (Reino
Unido). Disponible desde Internet en: <www.ebi.ac.uk/Groups/> [citado en 14 de
octubre de 2010].
--------. s.f. ClustalW2 Multiple Sequence Alignment [en lnea]. Reino Unido.
Disponible desde internet en: <http://www.EBI.ac.uk/Tools/msa/clustalw2/> [citado
en 10 de julio de 2011].
--------.--------. Expression Profiler at the EBI [en lnea]. Cambidge, Reino unido.
Disponible desde internet en: <http://www.ebi.ac.uk/expressionprofiler/> [citado en
julio 13 de 2011].
--------.--------. Wise2 Intelligent algoritms for DNA searches [en lnea]. Reino
Unido. Disponible desde internet en: <http://www.ebi.ac.uk/Tools/Wise2/> [citado
en julio 19 de 2011].
115
EMBnet. s.f. EMBOSS [en lnea]. Bari, Italia. Disponible desde internet en:
<http://www.embnet.org/en/node/114 > [citado en julio 15 de 2011].
EMBOSS GUI v.1.12: est2genome. s.f. EST2GENOME [en lnea]. s.l. Disponible
desde internet en: <http://imed.med.ucm.es/cgi-
bin/emboss.pl?_action=input&_app=est2genome > [citado en julio 19 de 2011].
EVANGELOS, Simoudis. Reality check for data mining. En: IEEE Expert. vol. 1,
Issue: 5. 1996. p.26-33.
--------. 5 de octubre de 2010. PROSITE [en lnea]. Disponible desde Internet en:
<http://www.expasy.ch/prosite/> [citado en 14 de octubre de 2010].
FAYYAD, Usama M. Data mining and knowledge discovery: Making sense out of
data. En: IEEE EXPERT. vol. 11, Issue: 5. Octubre, 1996. p. 20-25.
116
FENG, Zukang, et al. Ligand Depot: a data warehouse for ligands bound to
macromolecules. En: Bioinformatics Applications Note [en lnea]. 1 de abril de
2004. vol. 20. no. 13. Disponible desde Internet en:
<http://bioinformatics.oxfordjournals.org/content/20/13/2153.full.pdf+html?sid=5fbc
13fd-7bee-4364-829b-ef27e2d53032>
117
GALVEZ, C. y MOYA-ANEGN, F. Aproximacin Bio-Bibliomtrica a la deteccin
de relaciones biolgicas entre genes. En: II Conferncia Ibrica de Sistemas e
Tecnologias de Informao - CISTI 2007. 2007. p. 469-480.
GEER, Renata C. y SAYERS, Eric W. Entrez: Making use of its power. En:
Briefings in Bioinformatics. vol. 4, no. 2. Junio, 2003. p. 179-184.
GeneQuiz. s.f. GeneQuiz home page [en lnea]. s.l. Disponible desde internet en:
<http://swift.cmbi.kun.nl/swift/genequiz/> [citado en 9 de julio de 2011].
--------. Abril de 2007. Exones [en lnea]. s.l. Disponible desde internet en:
<http://ciencia.glosario.net/biotecnologia/exones-10096.html> [citado en julio 16 de
2011].
GOLUB, Todd R., et al. Molecular classification of cancer: class discovery and
class prediction by gene expression monitoring. En: Science. vol. 286, 15 de
octubre de 1999. p. 531-537.
GRANZOW, M, et al. Tumour classification by gene expression profiling:
118
comparison and validation of five clustering methods. En: ACM SIGBIO Newsletter.
Abril de 2001. vol. 21, Issue 1. p. 16-22.
HAN, Jiawei y KAMBER, Micheline. Data Mining: Concepts and Techniques. San
Francisco, California: Morgan Kaufmann Publishers, 2001.
HEARST, M. Untangling text data mining. En: Proceedings of ACL'99: the 37th
Annual Meeting of the Association For Computational Linguistic ACL. 1999. p. 3-
10.
119
analysis with applications to biology, control, and artificial intelligence. Michigan
(Estados Unidos de Amrica): University of Michigan Press, 1975. 183p. ISBN
0472084607.
HUANG, Ying y LI, Yanda. Prediction of protein subcellular locations using fuzzy k-
NN method. En: Bioinformatics. vol.20, Issue: 1. 2004. p.21-28.
JAGOTA, Arun. Data Analysis and Classification for Bioinformatics. California: Bay
Press, 2000. 92p.
120
KEEDWELL, E. y NARAYANAN, A. Genetic algorithms for gene expression
analysis. En: Applications of Evolutionary Computation: Proceedings of the 1st
European Workshop on Evolutionary Bioinformatics. Berlin, Heidelberg: Springer-
Verlag, 2003. p. 76-86.
KUONEN, Diego. Challenges in bioinformatics for statistical data miners. En: The
Swiss Statistical Society. vol, 46. 2003. p. 10-17.
La Jornada. 20 de octubre de 2007. Watson y Crick, los padres del ADN. Mxico,
D.F. Disponible desde Internet en:
<http://www.jornada.unam.mx/2007/10/20/index.php?section=ciencias&article=a03
n1cie> [citado en 7 de octubre de 2010].
LI, Leping, et al. Gene selection for sample classification based on gene
expression data: study of sensitivity to choice of parameters of the GA/KNN
method. En: Bioinformatics. 2001. vol. 17, Issue 12. p. 1131-1142.
121
Lofti A. Zadeh. s.f. Zadeh, Lofti A. Argentina. Disponible desde Internet en:
<http://www.eltercertiempo.com.ar/ventanitas/Biog_Zadeh.htm> [citado en 17 de
mayo de 2011].
LUKAC, R., et al. cDNA microarray image processing using fuzzy vector filtering
framework. En: Journal Fuzzy Sets and Systems. vol. 152, Issue: 1. 2005. p. 17
35.
122
MINSKY, Marvin L. y PAPERT, Seymour A. Perceptrons. Cambridge,
Massachusetts: MIT Press. 1969. s.d.
123
NCBI GEO Gene Expression Omnibus. 31 de enero de 2011. GEO Overview.
Estados Unidos de Amrica. Disponible desde Internet en:
<http://www.ncbi.nlm.nih.gov/geo/info/overview.html> [citado en 18 de marzo de
2011].
NCBI. Microarrays: chipping away at the mysteries of science and medicine [en
lnea]. Julio de 2007. Bethesda Estados Unidos de America. Disponible desde
internet en: <http://www.ncbi.nlm.nih.gov/About/primer/microarrays.html> [citado
en julio 16 de 2011].
--------. s.f. PubMed [en lnea]. Estados Unidos de Amrica. Disponible desde
Internet en: <http://www.ncbi.nlm.nih.gov/pubmed> [citado en 17 de julio de 2011].
NCBI. s.f. ORF FINDER [en lnea]. Bethesda, Estados Unidos de Amrica.
Disponible desde internet en: <http://www.ncbi.nlm.nih.gov/gorf/gorf.html> [citado
en julio 15 de 2011].
--------. s.f. Spidey [en lnea]. Estados Unidos de Amrica. Disponible desde internet
en: <http://www.ncbi.nlm.nih.gov/spidey/> [citado en julio 19 de 2011].
--------. s.f. UniGene [en lnea]. Estados Unidos de Amrica. Disponible desde
Internet en: <http://www.ncbi.nlm.nih.gov/unigene/> [citado en 17 de julio de 2011].
124
NG, See-Kiong y Limsoon, WONG. Accomplishments and challenges in
bioinformatics. En: IT Professional. vol 6, Issue: 1. 2004. p. 44- 50.
--------. Toward routine automatic pathway discovery from on-line scientific text
abstracts. En: Proceedings of Genome Informatics. 1999. p. 104-112.
PBIL. 5 de enero de 2008. SIM4 - a program to align cDNA and genomic DNA[en
lnea]. s.l. Disponible desde internet en: <http://pbil.univ-
lyon1.fr/members/duret/cours/inserm210604/exercise4/sim4.html> [citado en julio
19 de 2011].
125
PEVZNER, Pavel; TANG, Haixu y WATERMAN, Michael. An Eulerian Path
Approach to DNA Fragment Assembly. En: Proceedings of National Academy of
Sciences of the United States of America. vol. 98, Issue:17. Agosto 14 de 2001. p.
9748-9753.
PLR Postgres OnLine Journal. 28 de noviembre de 2010. What is R and PL/R and
why should you care? [en lnea]. Boston (Estados Unidos de Amrica). Disponible
desde Internet en: <http://www.postgresonline.com/journal/categories/13-PLR>
[citado en 1 de abril de 2011].
RAYCHAUDHURI, S., et al. Associating genes with gene ontology codes using a
maximum entropy analysis of biomedical literature. En: Genome Research. vol. 12.
2002. p. 203-214.
126
RESSOM, H.; REYNOLDS R. y VARGHESE R. Increasing the efficiency of fuzzy
logic based gene expression data analysis. En: Physiological Genomics. vol. 13,
Issue: 2. 2003. p. 107117.
RINDFLESCH, T. C., et al. EDGAR: extraction of drugs, genes and relations from
the biomedical literature. En: Pacific Symposium on Biocomputing. 2000. p. 517-
528.
127
SCHLOSSHAUER, Maximilian y OHLSSON, Mattias. A novel approach to local
reliability of sequence alignments. En: Bioinformatics. vol 18, no.6. 2002. p. 847-
854.
SHAPIRO, Bruce, et al. The massively parallel genetic algorithm for RNA folding:
MIMD implementation and population variation. En: Bioinformatics. 2001. vol. 17,
Issue 2. p. 137-148.
Spicker, Jeppe, et al. Neural network predicts sequence of TP53 gene based on
DNA chip. En: Bioinformatics. vol. 18, Issue: 8, Febrero de 2002. p. 1133-1134.
128
Swiss Institute of Bioinformatics. 23 de septiembre de 2010. WELCOME [en lnea].
Suiza. Disponible desde Internet en: <http://www.isb-sib.ch/> [citado en 14 de
octubre de 2010].
129
TORKKOLA, Kari, et al. Self-organizing maps in mining gene expression data. En:
Information Sciences. Noviembre de 2001. vol. 139, Issue 1-2. p. 79-96.
--------. Gene Expression Analysis Using Fuzzy ART. En: Genome Informatics. vol.
12, 2001. p. 245-246.
TORONEN, P., et al. Analysis of gene expression data using self-organizing maps.
En: FEBS Letters. vol. 451, Issue: 2, 21 de mayo de 1999. p. 142-146.
UNAV. s.f. Motivos y Dominos [en lnea]. Navarra, Espaa. Disponible desde
Internet en: <http://www.unav.es/genetica/bioinfo/motivos.html> [citado en 11 de
julio de 2011].
130
Universidad Nacional de Colombia. 10 de octubre de 2010. C.B.I.B. [en lnea].
Bogot D.C. Disponible desde Internet en: <http://bioinf.ibun.unal.edu.co/cbib/>
[citado en 14 de octubre de 2010].
--------. s.f. Unigene [en lnea]. Bogot, Colombia. Disponible desde internet en:
<http://bioinf.ibun.unal.edu.co/cbib/estudiantes/1-07/expoEst/unigene.pdf> [citado
en julio 17 de 2011].
WANG, Jason T.L., et al. Application of neural networks to biological data mining: a
case study in protein sequence classification. En: Proceedings of the 6th ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining. New
York (Estados Unidos de Amrica): ACM, 2000. p. 305-309. ISBN 1-58113-233-6.
131
Welcome trust sanger institue. s.f. Pfam: Home Page [en lnea]. Reino Unido.
Disponible desde internet en: <http://pfam.sanger.ac.uk/ > [citado en julio 19 de
2011].
WU, Cathy. Artificial neural networks for molecular sequence analysis. En:
Computers and Chemistry. 1997. vol. 21, Issue 4. p. 237-256.
WU, Cathy, et al. Neural Networks For Full- Scale Protein Sequence Classification:
Sequence Encoding With Singular Value Decomposition. En: Machine Learning.
vol. 21, no. 1-2, 1995. p. 177-193.
--------. Protein Classification Artificial Neural System. En: Protein Science. vol. 1,
Mayo 1992. p. 667- 677.
132
WU, Cathy y MCLARTY, Jerry. Vol. 1 Methods in Computational Biology and
Biochemistry. En: Neural Networks and Genome Informatics. s.l: Elsevier, 2000.
205p.
WU, Cathy y SHAPIRO, Bruce. A Boltzmann filter improves the prediction of RNA
folding pathway in a massively parallel genetic algorithm. En: Journal of
Biomolecular Structure and Dynamics. Diciembre de 1999. vol. 17, Issue 3. p. 581-
595.
133