Está en la página 1de 7

Bioinformtica: una oportunidad y un desafo

Bioinformatics presents both an opportunity


and a challenge
Emiliano Barreto Hernndez1

Recibido: mayo 9 de 2008

Aprobado: mayo 29 de 2008

En los ltimos diez aos las diferentes reas de la biologa han tenido que lidiar
con nuevas metodologas provenientes del rea de la computacin, tales como el desarrollo de nuevos algoritmos y aplicaciones matemticas, diseadas especialmente para
la integracin y el anlisis del cmulo de datos que se han generando de la aplicacin
de las metodologas de alto rendimiento en la investigacin biolgica, desarrolladas
paralelamente con el proyecto genoma humano (The Internacional Human Genome
Sequencing Consortium, 2001) en reas como la genmica, la transcriptmica, protemica, metabolmica y otras micas.

Los datos biolgicos crecen exponencialmente


El crecimiento de los datos biolgicos, que han pasado de 606 secuencias de
ADN almacenadas en 1982, a ms de 82 millones hoy en da, fue impulsado por el
desarrollo de la tcnica Reaccin en Cadena de la Polimerasa (PCR) en el ao de 1986
(Mullis, 1990), y ahora por la aparicin de las denominadas nuevas tecnologas de alto
rendimiento en experimentacin biolgica.
Los vertiginosos avances en el desarrollo de la siguiente generacin de las tecnologas de secuenciacin han llevado a produccin de equipos comerciales de altsimo
rendimiento y economa, capaces de producir diariamente enormes cantidades de datos, como es el caso de la secuenciacin masiva en paralelo de Illumina (Solexa) que con
su Genome Analyzer puede secuenciar en una simple corrida ms de un billn de
bases (Hall, 2007). Las primeras aplicaciones de estas nuevas metodologas de secuenciacin incluyen anlisis de genmica comparativa, genmica de microorganismos, la
deteccin de SNP de alto rendimiento, secuenciacin y anlisis de ARN pequeos,

132

Ph D. c, Ms C. Profesor Asociado, Director Grupo de Bioinformtica, Instituto de Biotecnologa, Universidad Nacional de Colombia Sede Bogot.

Rev. Colomb. Biotecnol. Vol. X No. 1 Julio 2008 132-138

identificacin de mutaciones de genes en rutas metablicas asociadas a enfermedades,


anlisis transcriptomas de organismos de los que se tiene muy poca informacin (metagenmica de microorganismos no cultivables, por ejemplo), determinacin de genes con
bajas tasas de expresin en sus ambientes naturales, y la obtencin de informacin sobre la
poco estudiada variacin gentica a nivel de especies, poblaciones y ecosistemas.
Los datos obtenidos por las nuevas tcnicas de secuenciacin, adems de ayudar
al descubrimiento de mejores estrategias para el diagnstico, tratamiento y prevencin
de enfermedades, jugarn un papel clave en hacer realidad la medicina personalizada
ya que, relativamente pronto, se espera alcanzar la meta de secuenciar un genoma
humano por 1000 dlares, haciendo que bases de datos como el GeneBank, EMBL
y DDBJ, ahora cuenten con un nuevo conjunto de datos con ms de 27 millones de
secuencias adicionales provenientes de la secuenciacin de genomas usando la tcnica
de Whole-Genome Shotgun (WGS) (Benson et l., 2008).
La masiva cantidad de datos que se generarn en el futuro inmediato por la
utilizacin de las nuevas tecnologas de secuenciacin, unida a la que diariamente se
produce por la aplicacin de metodologas como los microarreglos, por medio de la
cual en un solo experimento se pueden generar millones de datos, almacenados en
bases de datos como ArrayExpress (EBI, 2008), o la obtencin de datos provenientes
de la espectrometra de masas en tndem para la deteccin de proteomas completos,
entre muchas otras, conllevan necesariamente al reto de disear procesos que permitan almacenar, actualizar y poner a disposicin de otros investigadores estos datos de
manera permanente y confiable.
Los grupos de investigacin dedicados a la bioinformtica tendrn que desarrollar formas distribuidas de almacenamiento para sus bases datos a fin de hacer ms
fcil su almacenamiento local, ya que se espera que pasen muy rpidamente del orden
de 103 millones (Gigas bites) a 106 millones (Tera bites), y aunque los costos del
almacenamiento siguen disminuyendo a nivel mundial, la disponibilidad de almacenamiento que se requiere en un futuro implicar costos elevados, y por ello se har necesario una mayor optimizacin de este recurso. As mismo, se prev que tendrn que
implementarse, a travs de Internet, estrategias de comunicacin con distribuidores
de datos como el Centro Nacional de Informacin de Biotecnologa de los Estados
Unidos (NCBI), o el Instituto Europeo de Bioinformtica (EBI), cada vez ms eficientes y veloces, para permitir la actualizacin, sincronizacin y consulta permanente
de las bases de datos, y que funcionen adecuadamente dentro de las limitaciones de la
cada vez ms congestionada Internet, y el enorme volumen de datos que implican las
principales bases de datos biolgicos.

Nuevas estrategias de anlisis


La bioinformtica dio un giro en su enfoque a mediados de los aos noventa,
perfilndose como un rea de investigacin gracias al desarrollo de proyectos de secuenciacin como el del genoma humano (The Internacional Human Genome Sequencing Consortium, 2001), y de otros organismos importantes en las reas de la
salud y la industria, lo cual propici el desarrollo de herramientas bioinformticas que
se han utilizado para realizar estudios en la organizacin de los genomas, el descubrimiento de genes, la relacin entre las mutaciones y la alteracin de la funcin biolBioinformtica: una oportunidad y un desafo

133

gica o la evolucin de diferentes organismos, entre muchas otras, que han facilitado el
desarrollo de disciplinas como la genmica, la protemica y la filogenia. El desarrollo
de herramientas bioinformticas se est proyectando al diseo y la generacin de
sistemas eficientes de almacenamiento y nuevos modelos para la comparacin y anlisis de las distintas clases de datos biolgicos, rpidos y confiables, de los resultados
desde el punto de vista estadstico, como es el caso del algoritmo BLAST (Altschul
et l., 1990), tal vez el ms utilizado en la actualidad para comparar en unos cuantos
segundos una secuencia contra los millones de secuencias almacenadas en una base
de datos como GeneBank.
La utilizacin de tecnologas de alto rendimiento en investigacin biolgica, lleva a que las actuales estrategias de anlisis requieran de su adaptacin o de nuevos
desarrollos, como ocurre en el caso de las nuevas metodologas de secuenciacin, ya
que las estrategias de anlisis para la obtencin de las secuencias de ADN que estn
basadas actualmente en la qumica de Sanger y su asignacin de bases (Base Calling),
no son adecuadas. Estas nuevas metodologas se caracterizan por un cubrimiento relativamente profundo, longitudes de lectura cortas y altos porcentajes de error en las
secuencias, lo que requiere de nuevas formas de asignacin de las bases, de ensamblaje
de las secuencias y alteracin de los mtodos estadsticos para la determinacin de
puntajes de calidad de las mismas.
Los bajos costos y la rapidez de estas nuevas metodologas de secuenciacin
harn que los investigadores tengan acceso a un nmero cada vez ms grande de
genomas de microorganismos, que en la actualidad se aproxima los 1000 genomas
secuenciados, y se cuenta con el muestreo de ms de 100 condiciones de ambientes diferentes utilizando aproximaciones metagenmicas, haciendo necesarias nuevas
aproximaciones ms precisas, consistentes y de alto rendimiento a la anotacin y el
descubrimiento de la funcin biolgica, para que esta gran cantidad de datos de diversidad genmica sea til a la comunidad cientfica. Estos procedimientos, adems,
implican un cambio en el diseo de los algoritmos de anlisis para aprovechar en toda
su dimensin la computacin de alto rendimiento (Guim et l., 2007), necesaria para
el manejo y anlisis de cantidades tan grades de datos como los que se producen en
un solo experimento realizado con estas tecnologas de secuenciacin.
Este inmenso volumen de datos que se est generando, una vez almacenado, requiere de modelos de anlisis nuevos que permitan hacerlos comparables en la medida
que son obtenidos utilizando un variado conjunto de tcnicas y condiciones experimentales, como ocurre, por ejemplo, en el desarrollo de un sistema de clasificacin y
seguimiento epidemiolgico de -lactamasas (grupo de protenas responsable de una
gran parte de la resistencia de las bacterias frente a antibiticos -lactmicos como
las penicilinas y las cefalosporinas) como sistema de informacin sobre -lactamasas
BLA-Id (BLA-Id, 2008), que implica el diseo de sistemas de anotacin automtico
que busquen las secuencias en bases de datos como EMBL y UNIPROT, las almacenen y despus las clasifiquen. Procesos que aunque parecen triviales requieren de
formas novedosas de manejar los errores de clasificacin presentes en las bases de
datos y algoritmos para la integracin de las diversas clasificaciones disponibles en el
proceso.
134

Rev. Colomb. Biotecnol. Vol. X No. 1 Julio 2008 132-138

En este contexto, otro aleccionador ejemplo es la masiva cantidad de datos


obtenidos de microarreglos almacenados en bases de datos, provenientes de todas
partes del mundo aplicando metodologas diversas como la de lectura en uno o
dos canales segn el mtodo de etiquetado, utilizado para visualizar las secuencias
hibridadas; el uso de secuencias cortas, medianas o largas en los oligos que conforman los microarreglos, o el uso de microarreglos fabricados por casas comerciales como Affymetrics o fabricados por los propios investigadores (Pham et l.,
2006). La enorme generacin de datos hace que muchos grupos de investigacin
en bioinformtica se encuentren desarrollando nuevas metodologas estadsticas
de anlisis que modelen algunos de los factores de variacin mencionados, y permitan tener una medida estndar y confiable estadsticamente de la expresin
de los genes, que posibiliten su comparacin independientemente de la tcnica
experimental utilizada.
Parte de los esfuerzos de investigacin en bioinformtica estarn dedicados a
la bsqueda e integracin de datos de diferente ndole que estarn disponibles en
los bancos de datos, con el objeto de tener una mayor comprensin de las funciones
biolgicas. No slo estamos frente a la necesidad de modificar los algoritmos actuales
para que hagan uso de los sistemas de alto rendimiento de cmputo, sino frente al
desarrollo de nuevos algoritmos que utilicen ms intensivamente herramientas como
los modelos ocultos de Markov, algoritmos de aprendizaje como las redes booleanas,
Support Vector Machines y redes neuronales, entre otros. Esto llevar al desarrollo
de aplicaciones para la anotacin de alto rendimiento requeridas para responder a las
necesidades de anlisis de los datos que generan tcnicas como la de secuenciacin
de alto rendimiento; al desarrollo de herramientas para la bsqueda de nuevos genes
a partir de la comparacin de genomas completos realizadas en supercomputadores
como el Mare Nostrum con ms de 6000 procesadores en paralelo, del Centro Nacional de Supercomputacin de Espaa (CNS, 2008); comparaciones que requieren
de la integracin de diferentes tipos de datos a los datos de secuencias, y al diseo e
implementacin de herramientas para la modelacin y simulacin de sistemas biolgicos (Reyes et l., 2007).
En el futuro prximo reas nuevas como System Biology o Network Biology (trminos en ingls que aun no tienen un consenso de cmo deben ser traducirlos
al espaol), que se basan en la teora de sistemas esbozada a mediados del siglo XX,
estarn cada vez ms presentes en las publicaciones cientficas, mostrando cmo a travs del descubrimiento de los principios de diseo, la identificacin de componentes
dentro de los sistemas biolgicos, y la comprensin cuantitativa de su funcionamiento
por medio de experimentos y simulacin, se podrn elucidar la funciones biolgicas y
predecir cmo cambian frente a perturbaciones internas como las mutaciones, y externas como los frmacos, lo que podra llevar a un tratamiento ms preciso y efectivo
de las enfermedades. As, aunque an estamos lejos de entender por completo los sistemas biolgicos debido a su complejidad por tratarse de sistemas naturales, y de que
no es posible conocer todas las interacciones que ocurren a este nivel para modelarlas
de forma integral, un esfuerzo mayor en el desarrollo de herramientas bioinformticas para la integracin de experimentacin y modelacin, nos acercar cada vez ms a
esto, permitindonos nuevas e interesantes aplicaciones.
Bioinformtica: una oportunidad y un desafo

135

La bioinformtica y las perspectivas para Colombia


Considerando que en la poca actual la bioinformtica no slo se restringe al
anlisis de datos moleculares, la integracin de datos de biodiversidad constituye uno
de los aspectos de la investigacin y el desarrollo en los cuales los grupos de bioinformtica pueden encontrar un conjunto de problemas interesantes y pertinentes
para resolver, ya que aunque Colombia es uno de los pases con mayor biodiversidad
del mundo, enfrenta el reto de iniciar varios frentes de accin de forma sistemtica
y coordinada, para consolidar el conocimiento completo de dicha biodiversidad. La
bioinformtica ofrece las herramientas y los conceptos para sistematizar ese conocimiento.
Es importante destacar que en la actualidad cualquier proyecto a nivel mundial que busque realizar investigacin en genmica, transcriptmica, protemica,
metabolmica, y cualquiera de las otras micas, requiere de un fuerte apoyo
de la bioinformtica en el desarrollo e implementacin de nuevas aplicaciones
particulares que permitan rentabilizar la informacin generada, sobre todo si se
considera que, con base en las respuestas obtenidas utilizando los desarrollos
bioinformticos, se avanzar mucho ms rpido y con mayor confianza en la experimentacin biolgica de cualquier tipo. Esto significa que no solamente se
debe propiciar y financiar la investigacin en el rea de la bioinformtica en Colombia que ha mostrado ser competitiva a nivel mundial independientemente de
la experimentacin biolgica que se realiza en el pas, sino que para hacer ms
competitiva la generacin de conocimiento biolgico debe ser integrada con igual
jerarqua a las lneas de investigacin, para darles la competitividad que requieren
para su desarrollo.
Lo anterior se hace ms apremiante si consideramos que en este momento nuestras lneas de investigacin se ven enfrentadas, necesariamente, a la utilizacin tcnicas de alto rendimiento para la generacin de datos biolgicos, hacindose necesario
avanzar en la implementacin de una plataforma bioinformtica comn para el manejo sistemtico de estos datos, en especial los que se obtienen de forma masiva por
la aplicacin de tecnologas en reas como la genmica, transcriptmica, protemica
y metabolmica, coadyuvando a la disminucin de los costos de desarrollo e implementacin de herramientas.
Esta plataforma bioinformtica implica implementar un sistema computacional
de alto rendimiento, unido a una red de expertos en bioinformtica trabajando coordinadamente en la deteccin de los problemas biolgicos por resolver. Para tal efecto
se requiere de la implementacin de un centro especializado en bioinformtica de alto
rendimiento de clculo y comunicacin, de la formacin de personal especializado
en esta rea, y de la adecuacin o el desarrollo de las herramientas bioinformticas
especficas. Esta plataforma computacional deber estar basada en la implementacin
de los desarrollos, productos y servicios seleccionados a partir de las necesidades de
los diferentes grupos de investigacin, de tal forma que se mantenga un intercambio
permanente de necesidades y servicios con los grupos que se encargan de la generacin de los datos biolgicos.
Este centro podra tener un carcter virtual como ocurre con Instituto Suizo
de Bioinformtica, que como centro nacional coordina el desarrollo de los proyectos
136

Rev. Colomb. Biotecnol. Vol. X No. 1 Julio 2008 132-138

de bioinformtica en Suiza reuniendo a los expertos en el tema para provechar su


experiencia en investigacin y desarrollo en el rea, y maximizar la infraestructura
requerida, pero al mismo tiempo mantenindolos vinculados con sus instituciones
de origen (universidades e institutos de investigacin) con el objeto de que siempre
exista participacin de stos dentro de las lneas de investigacin propias de cada
institucin.
En nuestro caso se podra comenzar por la coordinacin del recurso humano
y tcnico que, aunque limitado, actualmente existe en Colombia. Algunos grupos
y centros de la Universidad del Valle, la Universidad Nacional de Colombia con
grupos como el de Bioinformtica del Instituto de Biotecnologa encargado de la
operacin del Nodo Colombiano de la Red Europea de Biologa Molecular (EMBnet), y Laboratorio de Investigacin en Sistemas Inteligentes (LISI) de la Facultad
de Ingeniera, Cenicaf, Universidad de los Andes, la FIDIC y la Universidad Javeriana, entre otros, podran combinar sus capacidades individuales para el beneficio
de la comunidad acadmica que requiere de servicios, asesora y capacitacin en
bioinformtica.
El futuro de la bioinformtica en Colombia se erigir sobre el esfuerzo que
realicen los grupos de investigacin de nuestro pas, de manera conjunta, para transformar la informacin que se genera en el rea biolgica en conocimiento y desarrollo
tecnolgico.

Agradecimientos
A los miembros del Grupo de Bioinformtica del Instituto de Biotecnologa de
la Universidad Nacional de Colombia, Sede Bogot, y en especial a la profesora Mara
Teresa Reguero R., por sus aportes y comentarios a la presente nota.

Referencias bibliogrficas
Altschul, S. F.; Gish, W.; Miller, W.; Myers, E. W.; Lipman, D. J. 1990. Basic local alignment search tool. J.
Mol. Biol. 215: 403-410.
Benson, D. A.; Karsch-Mizrachi, I.; Lipman, D. J.; Ostell, J.; Wheeler, D. L. 2008. GenBank. Nucleic Acids
Res. 36 (Database issue): D25-30.
BLA.id Sistema de informacin sobre -lactamasas. 2008. Disponible en: http://bioinf.ibun.unal.edu.co/
BLA.id [Fecha de consulta: 10/05/2008, fecha actualizacin: 10/05/2008].
CNS - Centro Nacional de Supercomputacin de Espaa. 2008. Disponible en: www.bsc.es. [Fecha de consulta: 10/05/2008, fecha actualizacin: 10/05/2008].
EBI - European Bioinformatics Institute. 2008. Disponible en: www.ebi.ac.uk [Fecha de consulta:
10/05/2008, fecha actualizacin: 10/05/2008].
Guim, F.; Rodero, I.; Corbalan, J.; Labarta, J.; Oleksiak, A.; Nabrzyski, J. 2007. Uniform Job Monitoring
in the HPC-Europa Project: Data Model, API and Services. International Journal of Web and Grid
Services 3 (3).
Hall, N. 2007. Advanced sequencing technologies and their wider impact in microbiology. J Exp Biol. 210
(9): 1518-1525.
Bioinformtica: una oportunidad y un desafo

137

Mullis, K. B. 1990. Target Amplification for DNA analysis by the polymerase chain reaction. Ann. Biol.
Clin. 48 (8): 579-82.
Pham, T. D.; Wells, C.; Crane, D. 2006. Analysis of Microarray Gene Expression Data. Current Bioinformatics 1: 37-53.
Reyes, S.; Muoz-Caro, C.; Nio, A.; Badia, R. M.; Cela, J. M. 2007. Performance of computation-intensive,
parameter sweep applications on Internet-based Grids of computers. The mapping of molecular potential energy hypersurfaces. Concurrency and Computation: Practice and Experience 19 (4).
The International Human Genome Sequencing Consortium. 2001. Initial sequencing and analysis of the
human genome. Nature 409: 860-921.

138

Rev. Colomb. Biotecnol. Vol. X No. 1 Julio 2008 132-138

También podría gustarte