Material Suplementario TP Bioinformatica 2010

Biologa Celular y Molecular
Trabajo Prctico V: BIOINFORMTICA

Material terico complementario
INTRODUCCIN
El avance cientfico en el rea de las ciencias biolgicas ha alcanzado un nivel notable.
Innumerables proyectos han redundado en la ampliacin del conocimiento, nuevas aplicaciones y grandes
perspectivas hacia el futuro. Todo esto ha llevado a mejorar el nivel de vida del ser humano, y al desarrollo
de nuevas formas de proteger el medioambiente, gracias a los adelantos especficos en medicina, biologa y
biotecnologa.
Grandes proyectos de secuenciacin han generado una inmensa cantidad de datos, entre estos se
destaca el proyecto genoma humano. Toda esa informacin debe analizarse y correlacionarse, a fin de
estructurar los conceptos tericos del funcionamiento de los seres vivos desde el nivel molecular, con lo que
se pueden desarrollar aplicaciones novedosas.
En la actualidad existe un adelanto desmesurado de las tecnologas de la informacin. Su difusin y
aprovechamiento ha sido posible gracias a la globalizacin, donde un papel muy importante lo ha jugado la
Internet. La Web ha permitido conocer y aprovechar muchos de los avances cientficos, donde la
bioinformtica no ha sido la excepcin.
Los nuevos avances han generado que varias disciplinas de la investigacin se interrelacionen,
como la medicina, la gentica, la biologa, la bioqumica, la biotecnologa y la computacin, entre otras. Los
grandes laboratorios cuentan con grupos multidisciplinarios, que cooperan armnicamente y
retroalimentndose constantemente. Es as como, hoy por hoy, no se puede estudiar y comprender un ente
fisiolgico nicamente desde un solo punto de vista.
Es por ello que en la actualidad es de vital importancia conocer el manejo de las herramientas
bioinformticas, con la finalidad de analizar y correlacionar la informacin que se obtenga en el laboratorio.
CONCEPTOS TERICOS DE BIOLOGA

CIDOS NUCLEICOS
La informacin gentica se halla en la secuencia lineal de nucletidos del ADN. Cada molcula de
ADN consiste en una doble hlice formada a partir de dos hebras complementarias de nucletidos,
emparejadas mediante enlaces de hidrgeno entre los pares de bases G-C y A-T. La duplicacin de la
informacin gentica se produce mediante la polimerizacin de una nueva hebra complementaria de cada
una de las dos hebras primitivas de la doble hlice, durante el proceso de replicacin del ADN.
La informacin gentica es almacenada en los genes. Un gen es una secuencia o segmento de
ADN necesario para la sntesis de ARN funcional, como el ARN de transferencia o el ARN ribosomal. Sin
embargo, estos dos tipos de ARN no codifican protenas, lo cual es hecho por el ARN mensajero (ARNm).
Para ello, la transcripcin genera una molcula de ARN que posteriormente sufrir traduccin en los
ribosomas, proceso por el cual se genera una protena. Muchos genes se encuentran constituidos por
regiones codificantes (exones) interrumpidas por regiones no codificantes (intrones) que son eliminadas en
el procesamiento del ARNm (splicing). En clulas procariotas esto no ocurre pues los genes de procariotas
carecen de intrones. El ARNm es traducido a protena a travs de un complejo conjunto de reacciones que
tienen lugar en el ribosoma. Los aminocidos utilizados para la sntesis proteica son unidos primero a una
familia de molculas de ARNt, cada una de las cuales reconoce, mediante interacciones de apareamiento
de bases complementarias, grupos determinados de tres nucletidos del ARNm.La secuencia de bases
presente en el ARNm maduro determina la secuencia de aminocidos de la protena por medio del cdigo
gentico universal.
(Ampliar: Biologa Molecular de la Clula, Bruce Alberts 3ra edicin en Espaol: Captulo 3:
Macromolculas: estructura, forma e informacin, Pag 102 116)
Molecular Cell Bilogy, Lodish, 5th edition, Chapter 4: Basic Molecular Genetic Mechanisms
Tabla del cdigo gentico estndar

El cdigo gentico estndar se refleja en las siguientes tablas. La tabla 1 muestra qu aminocido
especifica cada uno de los 64 codones. La tabla 2 muestra qu codones especifican cada uno de los 20
aminocidos que intervienen en la traduccin.
apolar
polar
bsico
cido
codn de parada
La tabla muestra los 64 codones con sus correspondientes aminocidos. El ARNm se da en sentido 5' - 3'.
C
1
base
A
U
UUU (Phe/F) Fenilalanina
UUC (Phe/F) Fenilalanina
UUA (Leu/L) Leucina
UUG (Leu/L) Leucina
CUU (Leu/L) Leucina
CUC (Leu/L) Leucina
CUA (Leu/L) Leucina
CUG (Leu/L) Leucina
AUU (Ile/I) Isoleucina
AUC (Ile/I) Isoleucina
AUA (Ile/I) Isoleucina
AUG (Met/M) Metionina
GUU (Val/V) Valina
GUC (Val/V) Valina
GUA (Val/V) Valina
GUG (Val/V) Valina
2 base
C
A
UCU (Ser/S) Serina
UAU (Tyr/Y) Tirosina
UCC (Ser/S) Serina
UAC (Tyr/Y) Tirosina
UCA (Ser/S) Serina
UAA Parada (Ocre)
UCG (Ser/S) Serina
UAG Parada (mbar)
CCU (Pro/P) Prolina
CAU (His/H) Histidina
CCC (Pro/P) Prolina
CAC (His/H) Histidina
CCA (Pro/P) Prolina
CAA (Gln/Q) Glutamina
CCG (Pro/P) Prolina
CAG (Gln/Q) Glutamina
ACU (Thr/T) Treonina AAU (Asn/N) Asparagina
ACC (Thr/T) Treonina AAC (Asn/N) Asparagina
ACA (Thr/T) Treonina AAA (Lys/K) Lisina
ACG (Thr/T) Treonina AAG (Lys/K) Lisina
GCU (Ala/A) Alanina
GAU (Asp/D) c. asprtico
GCC (Ala/A) Alanina
GAC (Asp/D) c. asprtico
GCA (Ala/A) Alanina
GAA (Glu/E) c. glutmico
GCG (Ala/A) Alanina
GAG (Glu/E) c. glutmico
G
UGU (Cys/C) Cistena
UGC (Cys/C) Cistena
UGA Parada (palo)
UGG (Trp/W) Triptfano
CGU (Arg/R) Arginina
CGC (Arg/R) Arginina
CGA (Arg/R) Arginina
CGG (Arg/R) Arginina
AGU (Ser/S) Serina
AGC (Ser/S) Serina
AGA (Arg/R) Arginina
AGG (Arg/R) Arginina
GGU (Gly/G) Glicina
GGC (Gly/G) Glicina
GGA (Gly/G) Glicina
GGG (Gly/G) Glicina
Ntese que el codn AUG codifica para la metionina pero adems sirve de sitio de iniciacin; el primer
AUG en un ARNm es la regin que codifica el sitio donde la traduccin de protenas se inicia.
La siguiente tabla inversa indica qu codones codifican cada uno de los aminocidos.
Ala (A)
Arg (R)
Asn (N)
Asp (D)
Cys (C)
Gln (Q)
Glu (E)
Gly (G)
His (H)
Ile (I)
Leu (L)
Comienzo
GCU, GCC, GCA, GCG

CGU, CGC, CGA, CGG, AGA, AGG
AAU, AAC
GAU, GAC
UGU, UGC
CAA, CAG
GAA, GAG
GGU, GGC, GGA, GGG
CAU, CAC
AUU, AUC, AUA
UUA, UUG, CUU, CUC, CUA, CUG
AUG
Lys (K)
Met (M)
Phe (F)
Pro (P)
Sec (U)
Ser (S)
Thr (T)
Trp (W)
Tyr (Y)
Val (V)
AAA, AAG
AUG
UUU, UUC
CCU, CCC, CCA, CCG
UGA
UCU, UCC, UCA, UCG, AGU, AGC
ACU, ACC, ACA, ACG
UGG
UAU, UAC
GUU, GUC, GUA, GUG
Parada
UAG, UGA, UAA
Los genes contienen la informacin necesaria para la sntesis de macromolculas con funciones
celulares especficas. Por ejemplo: protenas, ARNm, ARN ribosmico, ARN de transferencia y ARN
pequeos. Esta funcin puede estar vinculada al desarrollo o funcionamiento de una funcin fisiolgica
normal. El gen es considerado como la unidad de almacenamiento de informacin y unidad de herencia al
transmitir esa informacin a la descendencia. Los genes se disponen a lo largo de cada uno de los
cromosomas. Cada gen ocupa en el cromosoma una posicin determinada llamada locus. El conjunto de
cromosomas de una especie se denomina genoma.
Los organismos diploides (entre ellos, casi todos los animales y plantas) disponen de dos juegos de
cromosomas homlogos, cada uno de ellos proveniente de uno de los padres. Cada par de cromosomas
tiene, pues, un par de copias de cada gen, una procedente de la madre y otra del padre.
Los genes pueden aparecer en versiones diferentes, con variaciones pequeas en su secuencia, y
entonces se los denomina alelos ("otro", en griego). Los alelos pueden ser dominantes o recesivos.
Cuando una sola copia del alelo hace que se manifieste el rasgo fenotpico, el alelo es dominante. Cuando
son precisas dos copias del alelo (una en cada cromosoma del par), el alelo es recesivo.
En gentica se llama marco abierto de lectura (siglas ORF del ingls Open reading frame) a cada
una de las secuencias de ADN comprendida entre un codn de inicio (ATG) de la traduccin y un codn de
terminacin, descontando las secuencias que corresponden a los intrones en caso de haberlas. Se
encuentra acotado por los UTRs (untranslated regions), o secuencias no traducidas.
En una secuencia de ADN cualquiera hay, a priori, 6 posibles sentidos en los que pueden aparecer
marcos abiertos de lectura; dado que cada codn toma 3 nucletidos, existen 3 posibles lugares de inicio
para tomar los nucletidos de 3 en 3, si se tomara un cuarto nucletido como lugar de inicio, hara coincidir
el marco abierto de lectura con el mismo que si se toma el primer nucletido. A lo que hay que sumar los
otros 3 posibles marcos abiertos de lectura si el ADN es traducido tomando como molde la hebra
complementaria, dando el sentido de lectura opuesto.
Estos marcos abiertos de lectura se denominan +1, +2, +3, -1, -2 y -3.
El ADN complementario o ADNc (cDNA en ingls) es un ADN de cadena sencilla. Se sintetiza a
partir de una hebra simple de ARNm maduro. Se suele utilizar para la clonacin de genes propios de clulas
eucariotas en clulas procariotas, debido a que, dada la naturaleza de su sntesis, carece de intrones.
Aunque existen varios mtodos de sntesis, el ADNc es sintetizado casi siempre de ARNm maduro
(sin secuencias intrnicas) utilizando la enzima transcriptasa reversa. Esta enzima trabaja sobre un molde
de cadena simple de ARN, creando el ADN complementario basado en la correspondencia de bases ARN
(A, U, G, C) con las bases ADN complementarias (T, A, C, G).
La clonacin molecular se utiliza en una amplia variedad de experimentos biolgicos y las
aplicaciones prcticas que van desde la toma de huellas dactilares a produccin de protenas a gran escala.
En la prctica, con el fin de amplificar cualquier secuencia en un organismo vivo, la secuencia a clonar tiene
que estar vinculada a un origen de replicacin, que es una secuencia de ADN capaz de dirigir este proceso,
adems se necesitan otras caractersticas determinadas y una variedad de vectores de clonacin.
La clonacin de cualquier fragmento de ADN esencialmente implica cuatro pasos:
-Digestin: Se digieren los fragmentos de inters y el vector de clonado con enzimas de restriccin
adecuadas.
-Ligacin: Se ligan los fragmentos de ADN a clonar con el vector, utilizando la enzima DNA ligasa.
-Transfeccin: Se introduce el vector contendiendo la secuencia de inters dentro de clulas.
-Seleccin: Finalmente se seleccionan las clulas que han sido transfectadas con xito con el nuevo ADN.
Para identificar clulas transfectadas de las no transfectadas, los vectores de clonacin incluyen
marcadores de resistencia a antibiticos, con los que slo las clulas que han sido transfectadas pueden
crecer en presencia del mismo.
Los vectores de clonacin son molculas transportadoras que transfieren y replican fragmentos de
ADN que llevan insertados. Para que sirva de vector, una molcula debe ser capaz de replicarse junto con
el fragmento de ADN que transporta. Tambin tiene que tener secuencias de reconocimiento que permitan
la insercin del fragmento de ADN a clonar.
Para insertar un fragmento de ADN al vector, se utiliza una enzima de restriccin, y se mezcla con
fragmentos de ADN producidos con la misma enzima.
Los vectores que transportan un fragmento insertado se denominan vectores recombinantes.
Hay muchos vectores de clonacin: plsmidos, fagos, csmidos, BACs (Bacterial Artificial
Chromosomes), YACs (Yeast Artificial Choromosomes), que difieren en la especificidad de la clula
husped, el tamao de los insertos que pueden transportar y en caractersticas como el nmero de copias
que producen y el nmero y tipo de genes marcadores que contienen, entre otras.
Los plsmidos fueron los primeros vectores que se desarrollaron, y an son ampliamente usados.
Estos vectores proceden de molculas de ADN de doble cadena extracromosmicas que se encuentran de
manera natural y que se replican autnomamente dentro de las clulas bacterianas.
La reaccin en cadena de la polimerasa, conocida como PCR por sus siglas en ingls
(Polymerase Chain Reaction), es una tcnica de biologa molecular descrita en 1986 por Kary Mullis, cuyo
objetivo es obtener un gran nmero de copias de un fragmento de ADN particular, partiendo de un mnimo;
en teora basta partir de una nica copia de ese fragmento original, o molde.
Esta tcnica se fundamenta en la propiedad natural de las ADN polimerasas para replicar hebras de
ADN, para lo cual emplea ciclos de altas y bajas temperaturas alternadas para separar las hebras de ADN
recin formadas entre s tras cada fase de replicacin y, a continuacin, dejar que vuelvan a unirse a
polimerasas para que vuelvan a duplicarlas.
Puesto que las temperaturas del ciclo (95 C en las fases de desnaturalizacin del ADN) suponen la
inmediata desnaturalizacin de toda protena, se emplean ADN polimerasas termoestables, extradas de
microorganismos adaptados a vivir a esas temperaturas, restrictivas para la mayora de los seres vivos.
Dichos microorganismos, generalmente arqueas, son: Thermus aquaticus (polimerasa Taq), Pyrococcus
furiosus (Pfu), Thermococcus litoralis (Vent) y Thermus termophilus (Tth). Generalmente se emplean
mezclas de polimerasas muy procesivas (Taq) con otras con correccin de errores (Pfu, Vent).
Hoy, todo el proceso de la PCR est automatizado mediante un aparato llamado termociclador, que
permite calentar y enfriar los tubos de reaccin para controlar la temperatura necesaria para cada etapa de
la reaccin (ver ms abajo).
El proceso de PCR por lo general consiste en una serie de 20 a 35 cambios repetidos de
temperatura llamados ciclos; cada ciclo suele consistir en 2-3 pasos de temperaturas. La PCR comn se
realiza con ciclos que tienen tres pasos de temperatura. Los pasos de ciclos a menudo estn precedidos por
un choque trmico (llamado "hold") a alta temperatura (> 90C), y seguido por otro hold al final del proceso
para la extensin de producto final o el breve almacenaje. Las temperaturas usadas y el tiempo aplicado en
cada ciclo dependen de gran variedad de parmetros. stos incluyen la enzima usada para la sntesis de
ADN, la concentracin de iones divalentes y dNTPs en la reaccin, y la temperatura de unin de los
cebadores o primers.
Pasos:
Inicializacin: temperatura de 94-96C, durante 1-9 minutos. Esto slo es necesario para ADN polimerasas
que requieran activacin por calor.
Desnaturalizacin: calentamiento a 94-95C. La temperatura a la cual se decide realizar la
desnaturalizacin depende, por ejemplo, de la proporcin de G+C que tenga la hebra, como tambin del
largo de la misma.
Alineamiento/Unin del cebador: bajar la temperatura a 50-65C durante 20-40 segundos, permitiendo as
el alineamiento. Los puentes de hidrgeno estables entre las cadenas de ADN (unin ADN-ADN) slo se
forman cuando la secuencia del cebador es muy similar a la secuencia del ADN molde. La polimerasa une
el hbrido de la cadena molde y el cebador, y empieza a sintetizar ADN. Los cebadores actuarn como
lmites de la regin de la molcula que va a ser amplificada.
Extensin/Elongacin de la cadena: Acta la ADN polimerasa, tomando el ADN molde para sintetizar la
cadena complementaria y partiendo del cebador como soporte inicial necesario para la sntesis de nuevo
ADN. La polimerasa sintetiza una nueva hebra de ADN complementaria a la hebra molde aadiendo los
dNTP's complementarios en direccin 5' 3', uniendo el grupo 5'- fosfato de los dNTPs con el grupo 3'hidroxilo del final de la hebra de ADN creciente (la cual se extiende). La temperatura para este paso
depende de la ADN polimerasa que usemos. Para la Taq polimerasa, la temperatura de mxima actividad
est en 75-80C (comnmente 72C). El tiempo de extensin depende tanto de la ADN polimerasa usada
como de la longitud del fragmento de ADN que se va a amplificar. Hay una regla bsica: en su temperatura
ptima, la polimerasa de ADN polimerizar mil bases en un minuto.
Elongacin Final: Etapa nica que se lleva a cabo a una temperatura de 70-74C durante 5-15 minutos
tras el ltimo ciclo de PCR. Con ella se asegura que cualquier ADN de cadena simple restante sea
totalmente ampliado.
En la PCR en Transcriptasa reversa (RT-PCR) el molde inicial es ARN y se requiere de una
transcriptasa inversa, como Tth, para realizar la conversin del ARN a un tipo de ADN llamado ADNc.
Por lo general, la PCR es una tcnica comn y normalmente indispensable en laboratorios de
investigacin mdica y biolgica para una gran variedad de aplicaciones. Entre ellas se incluyen la
clonacin de ADN para la secuenciacin, la filogenia basada en ADN, el anlisis funcional de genes, el
diagnstico de trastornos hereditarios, la identificacin de huellas genticas (usada en tcnicas forenses y
tests de paternidad) y la deteccin y diagnstico de enfermedades infecciosas.
La Secuenciacin de ADN es un conjunto de mtodos y tcnicas bioqumicas cuya finalidad es la

determinacin del orden de los nucletidos (A, C, G y T) en un oligonucletido de ADN.
El mtodo clsico de terminacin de la cadena o mtodo de Sanger necesita una hebra molde de
ADN de cadena sencilla, un cebador de ADN, una ADN polimerasa con nucletidos marcados
radiactivamente o mediante fluorescencia y nucletidos modificados que terminan la elongacin de la
cadena de ADN. La muestra de ADN se divide en cuatro reaciones de secuenciacin separadas que
contienen los cuatro desoxinucleotdos estndar (dATP, dGTP, dCTP and dTTP) y una ADN polimerasa. En
cada reaccin se aade solo uno de los cuatro didesoxinucletidos (ddATP, ddGTP, ddCTP, o ddTTP).
Estos didesoxinucletidos terminan la elongacin de la cadena al carecer un grupo 3'-oOH que se necesita
para la formacin del enlace fosfodister entre dos nucletidos durante la elongacin de la cadena de ADN.
La incorporacin de un didesoxinucletido en la cadena naciente de ADN termina su extensin, lo que
produce varios fragmentos de ADN de longitud variable. Los didesoxinucletidos se aaden a
concentraciones lo suficientemente bajas como para que produzcan todas las posibilidades de fragmentos y
al mismo tiempo sean suficientes para realizar la secuenciacin.
Los fragmentos de ADN sintetizados y marcados de novo son desnaturalizados por calor y
separados por tamao (con una resolucin de un solo nucletido) mediante electroforesis en gel de
poliacrilamida - urea. Cada una de las cuatro reacciones de sntesis se corre en carriles individuales (Carril
A, T, G y C) y se visualizan las bandas de ADN mediante autoradiografa o luz ultravioleta, y la secuencia de
ADN se puede leer directamente a partir de la placa de rayos X o de la imagen del gel. Una banda oscura
en un carril indica un fragmento de ADN que es el resultado de una terminacin de la cadena tras la
incorporacin de un didesoxinucletido (ddATP, ddGTP, ddCTP, or ddTTP). El nucletido terminal puede
ser identificado de acuerdo al didesoxinucletido que se aadi en la reaccin que dio lugar a esa banda.
Las posiciones relativas entre las cuatro calles se utilizan entonces para leer (de abajo a arriba) la
secuencia de ADN como se indica.
Una alternativa al marcado del cebador es el marcado de los terminadores de la cadena, un mtodo
conocido como "secuenciacin por terminador fluorescente". La mayor ventaja de este mtodo es que la
secuenciacin se puede llevar a cabo en una sola reaccin, en lugar de en cuatro reacciones como en el
mtodo del cebador marcado. En una secuenciacin por terminador fluorescente se marcan cada uno de los
cuatro didesoxinucletidos que terminan la cadena con un colorante fluorescente diferente, con
fluorescencias a diferentes longitudes de onda. Este mtodo es atractivo por su gran capacidad y rapidez y
actualmente es el mtodo de referencia en la secuenciacin automatizada con analizadores de secuencia
controlados por computadora.
PROTENAS
Las protenas son macromolculas formadas por cadenas lineales de aminocidos. Las protenas
desempean un papel fundamental en los seres vivos y son las biomolculas ms verstiles y ms diversas.
Realizan una enorme cantidad de funciones diferentes, entre las que destacan:
estructural (colgeno y queratina),
reguladora (insulina y hormona del crecimiento),
transportadora (hemoglobina),
defensiva (anticuerpos),
enzimtica,
contrctil (actina y miosina).
Las protenas de todo ser vivo estn determinadas mayoritariamente por su gentica, es decir, la
informacin gentica determina en gran medida qu protenas tiene una clula, un tejido y un organismo.
Las protenas se sintetizan dependiendo de cmo se encuentren regulados los genes que las codifican. Por
lo tanto, son susceptibles a seales o factores externos. El conjunto de las protenas expresadas en una
circunstancia determinada es denominado proteoma.
La modificacin postraduccional de una protena es un cambio qumico ocurrido en esta despus
de su sntesis proteica. Las modificaciones postraduccionales ocurren mediante cambios qumicos de los
aminocidos que constituyen las protenas y pueden ser de muchos tipos, por ejemplo algunas
modificaciones que aaden grupos funcionales son: Acilacin, Fosforilacin, Metilacin, Hidroxilacin,
Glicosilacin, Sulfonilacin, Prenilacin.
BIOINFORMTICA
Segn la definicin del Centro Nacional para la Informacin Biotecnolgica National Center for
Biotechnology Information (NCBI por sus siglas en ingls): la Bioinformtica es un campo de la ciencia en el
que confluyen varias disciplinas: la biologa, la computacin y las tecnologas de la informacin. Su fin es
facilitar el descubrimiento de nuevos conocimientos y el desarrollo de perspectivas globales a partir de las
cuales puedan discernirse principios unificadores en el campo de la biologa. La bioinformtica, por tanto, se
ocupa dela adquisicin, almacenamiento, procesamiento, distribucin, anlisis e interpretacin de
informacin biolgica, mediante la aplicacin de tcnicas y herramientas procedentes de las matemticas, la
biologa y la informtica, con el propsito de comprender el significado biolgico de una gran variedad de
datos.
BANCOS DE PUBLICACIONES.
Los grandes avances en el campo de la genmica, la protemica y la biotecnologa han catapultado
a la bioinformtica como una herramienta de anlisis de los grandes proyectos de secuencias, y de la
innumerable cantidad de datos biolgicos que se estn generando. Por ello es necesario documentarse
acerca de las diferentes investigaciones y avances por medio de las publicaciones cientficas que se
encuentran en Internet.
Las diferentes revistas cientficas se han agrupado en varios bancos que facilitan encontrar la
informacin que cada investigador necesite, y en ellos se encuentran clasificadas por temtica, tipo de
revista, o autor entre otros, lo que unido a poderosos buscadores facilita enormemente su manejo. Algunos
permiten acceder a sus publicaciones despus de 6 meses sin restriccin, pero otros solicitan un pago por
artculo.
PUBMED (www.pubmed.org): Este es el banco de publicaciones del NCBI. La pgina tiene, en la
parte superior, una barra de bsqueda marcada por la palabra SEARCH, donde se coloca el tema a
investigar, luego de lo cual se da clic en GO, con lo que se cargara una pagina presentando los artculos
que poseen la informacin que se busca (Figura 1). Los artculos marcados con un logo, que consiste en
varias paginas de colores, son de acceso libre; los que tienen un logo de una sola pagina con lneas indica
que solo el resumen esta disponible (si se desea el articulo completo se debe ingresar a la pagina de la
revista y hacer el pago correspondiente); los artculos marcados con el logo de una pagina en blanco no
estn disponibles (ni siquiera el resumen) (Figura 1).
Figura 1. Pgina de resultados de publicaciones obtenidos en Pubmed. El logo de pginas de

colores es para artculos completos de acceso libre, el logo de la pgina con lneas indica libre acceso al
resumen, el logo de una pgina en blanco representa artculos no disponibles.
Cuando una publicacin es de acceso libre se accede dando click en el nombre de los autores, o en
el logo (pginas de colores), luego de lo cual se cargar una pgina con el resumen y un link para acceder a
la revista, o a la base de datos de Pubmed (Figura 2).
Figura 2. Pgina de Pubmed para un artculo de acceso libre. El icono verde con la leyenda FREE full
text en la izquierda indica que la publicacin se encuentra disponible al pblico libre de pago.
BASES DE DATOS
El gran avance de las ciencias biolgicas ha generado una gran cantidad de datos, los cuales se
necesita que estn disponibles para todos los investigadores, a fin de que se pueda lograr enriquecer el
conocimiento, analizar la nueva informacin y poder establecer correlaciones fidedignas. Por ello, desde la
dcada de los 80 se inici la construccin de modernas bases de datos, donde los investigadores podan
enviar sus descubrimientos y adems tener acceso a los logrados por otros. Inicialmente, estas slo se
ocupaban del almacenamiento de la informacin, pero con el tiempo se han convertido en sitios que, aparte
de lograr una eficiente organizacin de los datos biolgicos, tienen una gran cantidad de recursos que
ayudan al estudio de la informacin obtenida experimentalmente. Las bases de datos son sitios de
almacenamiento de informacin biolgica de acceso libre, y se han constituido en la base de las
herramientas bioinformticas. Estn estructuradas e indexadas, lo que permite la fcil bsqueda en ellas; se
actualizan peridicamente; poseen referencias cruzadas (hipervnculos) con otras bases de datos; el
almacenamiento de los datos se hace por texto plano o tablas vinculadas (flat file and relational data base);
pueden ser primarias si contienen netamente datos experimentales, o secundarias si poseen datos
obtenidos a partir de la base de datos primaria.
Centro Nacional para la Informacin Biotecnolgica-NCBI (http://www.ncbi.nlm.nih.gov/): Establecido
en 1988 como un recurso para la informacin en biologa molecular, el sitio NCBI ha creado bases de datos
pblicas, dirige investigacin en biologa computacional, desarrolla software para anlisis de datos de
genomas, y disemina informacin biomdica. Todo esto para el mejor entendimiento de los procesos
moleculares que afectan la salud humana y la enfermedad. La ventana principal posee un listado de links
(izquierda) que dan acceso a sus diferentes sub-secciones, las cuales poseen sus propias caractersticas,
con la ventaja de una interrelacin entre ellas (Figura 3).
Figura 3. Pgina principal de NCBI. En la parte izquierda se ubica un men hacia sus principales
sitios (azul), el men que esta desplegado da acceso a diferentes recursos del sitio, el men de la derecha
dirige hacia herramientas recomendadas.
Entre otros recursos, NCBI tiene varias bases de datos como GenBank, OMIM (herencia
mendeliana del hombre), MMDB (modelos por homologa de estructuras tridimensionales de protenas),
UniGene (Coleccin de secuencias de genes humanos), el mapa del genoma humano, el navegador de
taxonoma, y el CGAP (proyecto del genoma del cncer).
Este sitio Web posee otros recursos entre los que se cuenta el sistema de acceso integrado a
secuencias, mapas, taxonoma y datos estructurales, denominado Entrez. La literatura esta disponible a
travs de Pubmed. Posee el programa BLAST, el cual busca similitudes entre secuencias y es capaz de
identificar genes y sus caractersticas. Tambin estn disponibles software para la identificacin de marcos
abiertos de lectura (ORF), PCR electrnica y envo de secuencias (Sequin y BankIt). Aqu se describe
algunos recursos de NCBI.
BASES DE DATOS DE SECUENCIAS BIOLGICAS

Las principales bases de datos de secuencias biolgicas son GenBank, EMBL (The European
Molecular Biology Laboratory) y DDBJ (DNA DataBank of Japan). Estas son bases de datos de secuencias
nucleotdicas y contienen mas de 80 millones de secuencias de mas de 240000 organismos diferentes.
Estas bases de datos tienen un sistema por el cual se le asigna un Accession Number (nmero de
acceso) a cada secuencia nica y a travs de este nmero es posible identificar de manera inequvoca una
secuencia dada. Una tpica entrada (hoja de datos) de cualquiera de estas bases de datos consta de un
accession number, el nombre del gen en cuestin, una lista de publicaciones relacionadas con el gen, la
secuencia propiamente dicha, y un nmero de features o anotaciones que pueden ser tiles al lector;
como la presencia de determinados dominios en la secuencia que pueden indicar una posible funcin para
ese gen, as como observaciones experimentales con respecto a la funcin y estructura del gen.
Para acceder a la informacin de estas bases de datos, las dos principales herramientas son SRS y
Entrez, dos utilidades WEB que nos permiten hacer bsquedas en estas bases de datos y encontrar
secuencias que sean de inters. SRS es el buscador de EMBL y Entrez corresponde a Genbank.
Otra manera de buscar en estas bases de datos es por medio de programas que permiten buscar
secuencias similares a una secuencia Query que nosotros suministramos al programa (BLAST y FASTA).
Estas bases de datos se actualizan diariamente y la cantidad de secuencias que albergan crece de
manera exponencial.
De manera similar, las principales bases de datos de secuencias proteicas son tres: TrEMBL, PIR y
SwissProt, aunque las tres se combinan para formar UniProt, la cual es una base de datos central de
protenas a nivel mundial y contiene informacin curada manualmente (revisada y corregida de manera
manual luego de una prediccin bioinformtica automatizada).
Las bases de datos proteicas suelen contener ms informacin y predicciones bioinformticas que
las bases de datos de secuencias de cidos nucleicos. Tambin contienen gran cantidad de referencias
cruzadas con otras bases de datos proteicas y clasificaciones de las protenas en familias, as como
referencias cruzadas con bases de datos especializadas.
Tambin debemos nombrar las bases de datos cuyas secuencias corresponden a un solo genoma,
y son extremadamente tiles si necesitamos realizar una bsqueda relacionada solo con un organismo.
Generalmente estas bases de datos contienen mucha informacin adicional sobre cada secuencia
genmica y proteica. Entre las ms importantes y destacadas podemos nombrar a WormBase
(Caenorhabditis elegans), PlasmoDB (Plasmodium database), CryptoDB (Cryptosporidium database), SGD
(Saccharomyces genome database) RATBASE (Rattus norvegicus database).
BASES DE DATOS ESPECIALIZADAS
El nmero de bases de datos especializadas es muy grande y contina creciendo a un ritmo cada
vez ms acelerado. Las principales que se pueden nombrar son las bases de datos que acumulan
informacin sobre dominios proteicos (porciones de secuencia proteica que tienden a cumplir una misma
funcin, aunque su estructura y secuencia varen ligeramente entre diferentes protenas que lo contengan)
entre las cuales podemos nombrar a PFAM (protein families), PRINTS (protein fingerprints) y SMART
(Simple Modular Architecture Research Tool).
Una base de datos que acumula la informacin de todas ellas en conjunto y nos permite alimentar
una secuencia que ser analizada por todas estas bases de datos en busca de dominios conservados es
llamada Interpro (inter-protein).
Otras bases de datos especializadas importantes son las relacionadas a los RNA no codificantes
como G-tRNA-DB (ARNt), miRBase (miARN), European ribosomal RNA database (ARNr), etc.
Otra seccin importante de las bases de datos especializadas son aquellas que intentan clasificar
y/o ubicar cada protena en mapas bioqumicos como son los sitios de KEGG (Kyoto Enciclopedia of Genes
and Genomes) y SCOP (structural classification of proteins).
Por ltimo, un tipo de base de datos cuyo crecimiento es cada vez ms acelerado e importante es la
de estructuras tridimensionales de protenas, resueltas por cristalografa de rayos X o por resonancia
magntica nuclear. Estas bases de datos son principalmente tres: RCSB PDB (USA), MSD-EBI (Europa) y
PDBj (Japn). Estas tres bases de datos estn fusionadas en la llamada Worldwide Protein Data Bank
(wwPDB).
FORMATOS DE SECUENCIAS
Los principales formatos de secuencias flat o plain text (slo texto) que son necesarios conocer
son el formato FASTA y el formato NCBI. El formato FASTA es uno de los formatos mas tiles en los cuales
podemos guardar una secuencia ya que la gran mayora de los programas bioinformticos pueden cargar
archivos guardados en este formato.
El formato FASTA consta de una primera lnea donde se observa el carcter > que indica el
comienzo de una entrada, luego en esa misma primer lnea se detallan el accession number, y
generalmente el nombre de la secuencia. A partir de la segunda lnea slo se observa secuencia.
Se presentan a continuacin ejemplos de una secuencia nucleotdica en formato FASTA y de una
secuencia proteica en formato FASTA:
>embl|J00703|J00703 Rattus norvegicus pancreatic amylase mRNA, complete cds.
acaacttcaaagcaaatgaagttcgttctgctgctttccctcattgggttctgctgggct
caatatgacccacacactgcggatgggaggactgctattgtccacctgttcgagtggcgc
tgggctgatattgccaaggaatgtgagcggtacttagcacctaagggatttggaggggtg
>AAA40725.2
MKFVLLLSLIGFCWAQYDPHTADGRTAIVHLFEWRWADIAKECERYLAPKGFGGVQVSPPNENIIINNPSRP
WWERYQPISYKICSRSGNENEFKDMVTRCNNVGVRIYVDAVINHMCGSGNSAGTHSTCGSYFNPNNREFS
AVPYSAWYFNDNKCNGEINNYNDANQVRN
El formato NCBI es muy parecido al formato FASTA con la excepcin de que al principio de cada
lnea se observa la posicin que ocupa el primer aminocido/nucletido de esa lnea con respecto al
comienzo del gen. La otra diferencia es que los nucletidos/aminocidos se encuentran agrupados en
columnas de a diez.
Aunque este formato puede ser mas fcil de visualizar para el ojo humano, la mayora de los
programas bioinformticos no puede utilizar secuencias en este formato.
gi|11528628|gb|J00703.2|RATAMLS[11528628]
1 acaacttcaa agcaaatgaa gttcgttctg ctgctttccc tcattgggtt ctgctgggct
61 caatatgacc cacacactgc ggatgggagg actgctattg tccacctgtt cgagtggcgc
121 tgggctgata ttgccaagga atgtgagcgg tacttagcac ctaagggatt tggaggggtg
ALINEAMIENTO DE SECUENCIAS
Un alineamiento de secuencias consta por lo menos de dos secuencias nucleotdicas o proteicas
donde se encolumnan sus aminocidos en el orden en que se encuentran en su estructura primaria natural.
En algunas columnas se pueden generar vacos (gaps).
Generalmente son generados por programas bioinformticos, aunque algunos alineamientos
requieren curacin manual.
Un ejemplo de un alineamiento de protenas generado con el programa gratuito ClustalX:
Como puede observarse, el programa est diseado para buscar similitudes en las secuencias y
agruparlas. De esta manera, un alineamiento entre dos o ms secuencias nos permite comparar sus
similitudes y diferencias.
SECUENCIAS HOMLOGAS
Ya que definimos el concepto de alineamiento de secuencias, podemos introducir el concepto de
secuencias homlogas. La homologa es la relacin que existe entre dos partes orgnicas diferentes cuando
sus determinantes genticos tienen el mismo origen evolutivo. Dos secuencias son homlogas cuando se
evidencia una similitud entre ellas cuya presencia surge por razones evolutivas.
Como podemos observar en este alineamiento parcial, las tres secuencias superiores son altamente
similares entre s y por lo tanto, es muy posible que sean homlogas. Las dos secuencias inferiores tienen
cierta similitud con las tres secuencias superiores pero tienen mucha mayor similitud entre s.
GENES ORTLOGOS
Llamamos genes ortlogos a dos genes homlogos presentes en diferentes especies debido a que
ambos genes provienen de un mismo gen presente en un antepasado comn de ambas especies. Es decir,
que son semejantes por pertenecer a dos especies que tienen un antepasado comn. Generalmente los
genes ortlogos cumplen funciones equivalentes. Podemos decir, entonces que los genes ortlogos son
producto de la especiacin.
Un ejemplo de genes ortlogos seran el gen de la hemoglobina humana, y el gen de la
hemoglobina de rata.
GENES PARLOGOS
Los genes parlogos son aquellos que se encuentran en el mismo organismo, y cuya semejanza
revela que ambos proceden de la duplicacin de un gen ancestral.
Generalmente uno de los genes parlogos sufre una fuerte presin evolutiva para mutar y cambiar
su funcin.
Entonces, el origen de los genes parlogos es la duplicacin gnica.
Un ejemplo de genes parlogos son la hemoglobina humana y la mioglobina humana.
BLAST
BLAST: Basic Local Alignment and Search Tool es un programa que utiliza algoritmos matemticos para
buscar de manera rpida y eficiente alineamientos entre la secuencia Query que nosotros suministramos
al programa y una base de datos de secuencias (pej. La base de datos nr contiene prcticamente todas las
secuencias presentes en Genbank, EMBL y DDBJ).
Nos permite buscar secuencias homlogas a la secuencia que le ingresamos al programa. Es muy
til para encontrar tanto genes parlogos como para encontrar genes ortlogos. Esto NO significa que todas
las secuencias que obtenemos como resultado de un BLAST son ortlogos o parlogos a la secuencia
ingresada.
El programa funciona tanto con secuencias nucleotdicas como con secuencias proteicas. Para
ejecutar bsquedas proteicas utiliza el subprograma blastp, mientras que para bsquedas nucleotdicas
utiliza el programa blastn. Por regla general, ante la posibilidad de utilizar cualquiera de los dos, Blastp es
de mayor utilidad y de ms fcil interpretacin.
Adems, al comparar organismos distantes en el sentido evolutivo, siempre es aconsejable utilizar
blastp ya que las mutaciones sin sentido (aquellas que ocurren en el tercer nucletido de un codn, y no
cambian el aminocido codificado por ese codn) disminuyen las similitudes a nivel nucleotdico pero no
afectan el nivel de similitud a nivel proteico.
Es fundamental a la hora de utilizar BLAST el saber interpretar los resultados. Observamos un
ejemplo de un resultado de BLASTp a continuacin:
En la lnea superior observamos el accession number de uno de los genes pertenecientes al

resultado de Blastp que fue alimentado con la secuencia Query alfa amilasa de un hongo Aspergillus. A
continuacin del accession number observamos el nombre del gen que obtuvimos como resultado del
BLAST y a continuacin el organismo al que pertenece esa secuencia. Abajo observamos el largo del
alineamiento, ms abajo el Score (puntaje), el Expect value (valor de probabilidad), y ms abajo Identities
(identidades), Positives (positivos), y Gaps (espacios vacos).
SCORE: El score de un resultado BLAST nos dice cuan bueno es ese alineamiento. La gran ventaja es
que es un valor normalizado y comparable.
EXPECT: Es la probabilidad de que el alineamiento sea solamente producto del azar, y no de una
verdadera homologa entre las dos secuencias.
Es un valor muy importante y valioso ya que nos indica si el resultado matemtico del programa blast que
determin un alineamiento entre una secuencia Query y una subject (resultado) tiene valor biolgico y
gentico. Nos indica cuan estadsticamente significativo es el resultado.
Un Expect de 0.01 nos indica que hay una probabilidad en cien (1/100) de que no haya verdadera similitud y
que el resultado se produce puramente por azar. Por regla general un resultado se considera significativo si
el valor de Expect es igual o menor a 0.001. Es decir, mientras menor es el valor de expect, ms
significativa es la similitud entre la secuencia ingresada y la secuencia resultado.
IDENTITIES: Identidades, porcentaje de aminocidos exactamente iguales en la secuencia Query y en la
secuencia subject, que es la secuencia que nos arroja como resultado el blastp.
POSITIVES: Porcentaje de aminocidos exactamente iguales en ambas secuencias sumados a los
aminocidos de caractersticas fisicoqumicas similares.
GAPS: Mientras mayor es el nmero de gaps y mientras ms largos sean, menor es la significancia
biolgica del resultado.

Material Suplementario TP Bioinformatica 2010

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material Suplementario TP Bioinformatica 2010

Cargado por

Copyright:

Formatos disponibles

Biologa Celular y Molecular

Trabajo Prctico V: BIOINFORMTICA

CONCEPTOS TERICOS DE BIOLOGA

Tabla del cdigo gentico estndar

GCU, GCC, GCA, GCG

UAG, UGA, UAA

La Secuenciacin de ADN es un conjunto de mtodos y tcnicas bioqumicas cuya finalidad es la

Figura 1. Pgina de resultados de publicaciones obtenidos en Pubmed. El logo de pginas de

BASES DE DATOS DE SECUENCIAS BIOLGICAS

En la lnea superior observamos el accession number de uno de los genes pertenecientes al

También podría gustarte