Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(Ampliar: Biologa Molecular de la Clula, Bruce Alberts 3ra edicin en Espaol: Captulo 3:
Macromolculas: estructura, forma e informacin, Pag 102 116)
Molecular Cell Bilogy, Lodish, 5th edition, Chapter 4: Basic Molecular Genetic Mechanisms
polar
bsico
cido
codn de parada
La tabla muestra los 64 codones con sus correspondientes aminocidos. El ARNm se da en sentido 5' - 3'.
C
1
base
A
U
UUU (Phe/F) Fenilalanina
UUC (Phe/F) Fenilalanina
UUA (Leu/L) Leucina
UUG (Leu/L) Leucina
CUU (Leu/L) Leucina
CUC (Leu/L) Leucina
CUA (Leu/L) Leucina
CUG (Leu/L) Leucina
AUU (Ile/I) Isoleucina
AUC (Ile/I) Isoleucina
AUA (Ile/I) Isoleucina
AUG (Met/M) Metionina
GUU (Val/V) Valina
GUC (Val/V) Valina
GUA (Val/V) Valina
GUG (Val/V) Valina
2 base
C
A
UCU (Ser/S) Serina
UAU (Tyr/Y) Tirosina
UCC (Ser/S) Serina
UAC (Tyr/Y) Tirosina
UCA (Ser/S) Serina
UAA Parada (Ocre)
UCG (Ser/S) Serina
UAG Parada (mbar)
CCU (Pro/P) Prolina
CAU (His/H) Histidina
CCC (Pro/P) Prolina
CAC (His/H) Histidina
CCA (Pro/P) Prolina
CAA (Gln/Q) Glutamina
CCG (Pro/P) Prolina
CAG (Gln/Q) Glutamina
ACU (Thr/T) Treonina AAU (Asn/N) Asparagina
ACC (Thr/T) Treonina AAC (Asn/N) Asparagina
ACA (Thr/T) Treonina AAA (Lys/K) Lisina
ACG (Thr/T) Treonina AAG (Lys/K) Lisina
GCU (Ala/A) Alanina
GAU (Asp/D) c. asprtico
GCC (Ala/A) Alanina
GAC (Asp/D) c. asprtico
GCA (Ala/A) Alanina
GAA (Glu/E) c. glutmico
GCG (Ala/A) Alanina
GAG (Glu/E) c. glutmico
G
UGU (Cys/C) Cistena
UGC (Cys/C) Cistena
UGA Parada (palo)
UGG (Trp/W) Triptfano
CGU (Arg/R) Arginina
CGC (Arg/R) Arginina
CGA (Arg/R) Arginina
CGG (Arg/R) Arginina
AGU (Ser/S) Serina
AGC (Ser/S) Serina
AGA (Arg/R) Arginina
AGG (Arg/R) Arginina
GGU (Gly/G) Glicina
GGC (Gly/G) Glicina
GGA (Gly/G) Glicina
GGG (Gly/G) Glicina
Ntese que el codn AUG codifica para la metionina pero adems sirve de sitio de iniciacin; el primer
AUG en un ARNm es la regin que codifica el sitio donde la traduccin de protenas se inicia.
La siguiente tabla inversa indica qu codones codifican cada uno de los aminocidos.
Ala (A)
Arg (R)
Asn (N)
Asp (D)
Cys (C)
Gln (Q)
Glu (E)
Gly (G)
His (H)
Ile (I)
Leu (L)
Comienzo
Lys (K)
Met (M)
Phe (F)
Pro (P)
Sec (U)
Ser (S)
Thr (T)
Trp (W)
Tyr (Y)
Val (V)
AAA, AAG
AUG
UUU, UUC
CCU, CCC, CCA, CCG
UGA
UCU, UCC, UCA, UCG, AGU, AGC
ACU, ACC, ACA, ACG
UGG
UAU, UAC
GUU, GUC, GUA, GUG
Parada
Los genes contienen la informacin necesaria para la sntesis de macromolculas con funciones
celulares especficas. Por ejemplo: protenas, ARNm, ARN ribosmico, ARN de transferencia y ARN
pequeos. Esta funcin puede estar vinculada al desarrollo o funcionamiento de una funcin fisiolgica
normal. El gen es considerado como la unidad de almacenamiento de informacin y unidad de herencia al
transmitir esa informacin a la descendencia. Los genes se disponen a lo largo de cada uno de los
cromosomas. Cada gen ocupa en el cromosoma una posicin determinada llamada locus. El conjunto de
cromosomas de una especie se denomina genoma.
Los organismos diploides (entre ellos, casi todos los animales y plantas) disponen de dos juegos de
cromosomas homlogos, cada uno de ellos proveniente de uno de los padres. Cada par de cromosomas
tiene, pues, un par de copias de cada gen, una procedente de la madre y otra del padre.
Los genes pueden aparecer en versiones diferentes, con variaciones pequeas en su secuencia, y
entonces se los denomina alelos ("otro", en griego). Los alelos pueden ser dominantes o recesivos.
Cuando una sola copia del alelo hace que se manifieste el rasgo fenotpico, el alelo es dominante. Cuando
son precisas dos copias del alelo (una en cada cromosoma del par), el alelo es recesivo.
En gentica se llama marco abierto de lectura (siglas ORF del ingls Open reading frame) a cada
una de las secuencias de ADN comprendida entre un codn de inicio (ATG) de la traduccin y un codn de
terminacin, descontando las secuencias que corresponden a los intrones en caso de haberlas. Se
encuentra acotado por los UTRs (untranslated regions), o secuencias no traducidas.
En una secuencia de ADN cualquiera hay, a priori, 6 posibles sentidos en los que pueden aparecer
marcos abiertos de lectura; dado que cada codn toma 3 nucletidos, existen 3 posibles lugares de inicio
para tomar los nucletidos de 3 en 3, si se tomara un cuarto nucletido como lugar de inicio, hara coincidir
el marco abierto de lectura con el mismo que si se toma el primer nucletido. A lo que hay que sumar los
otros 3 posibles marcos abiertos de lectura si el ADN es traducido tomando como molde la hebra
complementaria, dando el sentido de lectura opuesto.
Estos marcos abiertos de lectura se denominan +1, +2, +3, -1, -2 y -3.
El ADN complementario o ADNc (cDNA en ingls) es un ADN de cadena sencilla. Se sintetiza a
partir de una hebra simple de ARNm maduro. Se suele utilizar para la clonacin de genes propios de clulas
eucariotas en clulas procariotas, debido a que, dada la naturaleza de su sntesis, carece de intrones.
Aunque existen varios mtodos de sntesis, el ADNc es sintetizado casi siempre de ARNm maduro
(sin secuencias intrnicas) utilizando la enzima transcriptasa reversa. Esta enzima trabaja sobre un molde
de cadena simple de ARN, creando el ADN complementario basado en la correspondencia de bases ARN
(A, U, G, C) con las bases ADN complementarias (T, A, C, G).
La clonacin molecular se utiliza en una amplia variedad de experimentos biolgicos y las
aplicaciones prcticas que van desde la toma de huellas dactilares a produccin de protenas a gran escala.
En la prctica, con el fin de amplificar cualquier secuencia en un organismo vivo, la secuencia a clonar tiene
que estar vinculada a un origen de replicacin, que es una secuencia de ADN capaz de dirigir este proceso,
adems se necesitan otras caractersticas determinadas y una variedad de vectores de clonacin.
La clonacin de cualquier fragmento de ADN esencialmente implica cuatro pasos:
-Digestin: Se digieren los fragmentos de inters y el vector de clonado con enzimas de restriccin
adecuadas.
-Ligacin: Se ligan los fragmentos de ADN a clonar con el vector, utilizando la enzima DNA ligasa.
-Transfeccin: Se introduce el vector contendiendo la secuencia de inters dentro de clulas.
-Seleccin: Finalmente se seleccionan las clulas que han sido transfectadas con xito con el nuevo ADN.
Para identificar clulas transfectadas de las no transfectadas, los vectores de clonacin incluyen
marcadores de resistencia a antibiticos, con los que slo las clulas que han sido transfectadas pueden
crecer en presencia del mismo.
Los vectores de clonacin son molculas transportadoras que transfieren y replican fragmentos de
ADN que llevan insertados. Para que sirva de vector, una molcula debe ser capaz de replicarse junto con
el fragmento de ADN que transporta. Tambin tiene que tener secuencias de reconocimiento que permitan
la insercin del fragmento de ADN a clonar.
Para insertar un fragmento de ADN al vector, se utiliza una enzima de restriccin, y se mezcla con
fragmentos de ADN producidos con la misma enzima.
Los vectores que transportan un fragmento insertado se denominan vectores recombinantes.
Hay muchos vectores de clonacin: plsmidos, fagos, csmidos, BACs (Bacterial Artificial
Chromosomes), YACs (Yeast Artificial Choromosomes), que difieren en la especificidad de la clula
husped, el tamao de los insertos que pueden transportar y en caractersticas como el nmero de copias
que producen y el nmero y tipo de genes marcadores que contienen, entre otras.
Los plsmidos fueron los primeros vectores que se desarrollaron, y an son ampliamente usados.
Estos vectores proceden de molculas de ADN de doble cadena extracromosmicas que se encuentran de
manera natural y que se replican autnomamente dentro de las clulas bacterianas.
La reaccin en cadena de la polimerasa, conocida como PCR por sus siglas en ingls
(Polymerase Chain Reaction), es una tcnica de biologa molecular descrita en 1986 por Kary Mullis, cuyo
objetivo es obtener un gran nmero de copias de un fragmento de ADN particular, partiendo de un mnimo;
en teora basta partir de una nica copia de ese fragmento original, o molde.
Esta tcnica se fundamenta en la propiedad natural de las ADN polimerasas para replicar hebras de
ADN, para lo cual emplea ciclos de altas y bajas temperaturas alternadas para separar las hebras de ADN
recin formadas entre s tras cada fase de replicacin y, a continuacin, dejar que vuelvan a unirse a
polimerasas para que vuelvan a duplicarlas.
Puesto que las temperaturas del ciclo (95 C en las fases de desnaturalizacin del ADN) suponen la
inmediata desnaturalizacin de toda protena, se emplean ADN polimerasas termoestables, extradas de
microorganismos adaptados a vivir a esas temperaturas, restrictivas para la mayora de los seres vivos.
Dichos microorganismos, generalmente arqueas, son: Thermus aquaticus (polimerasa Taq), Pyrococcus
furiosus (Pfu), Thermococcus litoralis (Vent) y Thermus termophilus (Tth). Generalmente se emplean
mezclas de polimerasas muy procesivas (Taq) con otras con correccin de errores (Pfu, Vent).
Hoy, todo el proceso de la PCR est automatizado mediante un aparato llamado termociclador, que
permite calentar y enfriar los tubos de reaccin para controlar la temperatura necesaria para cada etapa de
la reaccin (ver ms abajo).
El proceso de PCR por lo general consiste en una serie de 20 a 35 cambios repetidos de
temperatura llamados ciclos; cada ciclo suele consistir en 2-3 pasos de temperaturas. La PCR comn se
realiza con ciclos que tienen tres pasos de temperatura. Los pasos de ciclos a menudo estn precedidos por
un choque trmico (llamado "hold") a alta temperatura (> 90C), y seguido por otro hold al final del proceso
para la extensin de producto final o el breve almacenaje. Las temperaturas usadas y el tiempo aplicado en
cada ciclo dependen de gran variedad de parmetros. stos incluyen la enzima usada para la sntesis de
ADN, la concentracin de iones divalentes y dNTPs en la reaccin, y la temperatura de unin de los
cebadores o primers.
Pasos:
Inicializacin: temperatura de 94-96C, durante 1-9 minutos. Esto slo es necesario para ADN polimerasas
que requieran activacin por calor.
Desnaturalizacin: calentamiento a 94-95C. La temperatura a la cual se decide realizar la
desnaturalizacin depende, por ejemplo, de la proporcin de G+C que tenga la hebra, como tambin del
largo de la misma.
Alineamiento/Unin del cebador: bajar la temperatura a 50-65C durante 20-40 segundos, permitiendo as
el alineamiento. Los puentes de hidrgeno estables entre las cadenas de ADN (unin ADN-ADN) slo se
forman cuando la secuencia del cebador es muy similar a la secuencia del ADN molde. La polimerasa une
el hbrido de la cadena molde y el cebador, y empieza a sintetizar ADN. Los cebadores actuarn como
lmites de la regin de la molcula que va a ser amplificada.
Extensin/Elongacin de la cadena: Acta la ADN polimerasa, tomando el ADN molde para sintetizar la
cadena complementaria y partiendo del cebador como soporte inicial necesario para la sntesis de nuevo
ADN. La polimerasa sintetiza una nueva hebra de ADN complementaria a la hebra molde aadiendo los
dNTP's complementarios en direccin 5' 3', uniendo el grupo 5'- fosfato de los dNTPs con el grupo 3'hidroxilo del final de la hebra de ADN creciente (la cual se extiende). La temperatura para este paso
depende de la ADN polimerasa que usemos. Para la Taq polimerasa, la temperatura de mxima actividad
est en 75-80C (comnmente 72C). El tiempo de extensin depende tanto de la ADN polimerasa usada
como de la longitud del fragmento de ADN que se va a amplificar. Hay una regla bsica: en su temperatura
ptima, la polimerasa de ADN polimerizar mil bases en un minuto.
Elongacin Final: Etapa nica que se lleva a cabo a una temperatura de 70-74C durante 5-15 minutos
tras el ltimo ciclo de PCR. Con ella se asegura que cualquier ADN de cadena simple restante sea
totalmente ampliado.
En la PCR en Transcriptasa reversa (RT-PCR) el molde inicial es ARN y se requiere de una
transcriptasa inversa, como Tth, para realizar la conversin del ARN a un tipo de ADN llamado ADNc.
Por lo general, la PCR es una tcnica comn y normalmente indispensable en laboratorios de
investigacin mdica y biolgica para una gran variedad de aplicaciones. Entre ellas se incluyen la
clonacin de ADN para la secuenciacin, la filogenia basada en ADN, el anlisis funcional de genes, el
diagnstico de trastornos hereditarios, la identificacin de huellas genticas (usada en tcnicas forenses y
tests de paternidad) y la deteccin y diagnstico de enfermedades infecciosas.
Las protenas se sintetizan dependiendo de cmo se encuentren regulados los genes que las codifican. Por
lo tanto, son susceptibles a seales o factores externos. El conjunto de las protenas expresadas en una
circunstancia determinada es denominado proteoma.
La modificacin postraduccional de una protena es un cambio qumico ocurrido en esta despus
de su sntesis proteica. Las modificaciones postraduccionales ocurren mediante cambios qumicos de los
aminocidos que constituyen las protenas y pueden ser de muchos tipos, por ejemplo algunas
modificaciones que aaden grupos funcionales son: Acilacin, Fosforilacin, Metilacin, Hidroxilacin,
Glicosilacin, Sulfonilacin, Prenilacin.
BIOINFORMTICA
Segn la definicin del Centro Nacional para la Informacin Biotecnolgica National Center for
Biotechnology Information (NCBI por sus siglas en ingls): la Bioinformtica es un campo de la ciencia en el
que confluyen varias disciplinas: la biologa, la computacin y las tecnologas de la informacin. Su fin es
facilitar el descubrimiento de nuevos conocimientos y el desarrollo de perspectivas globales a partir de las
cuales puedan discernirse principios unificadores en el campo de la biologa. La bioinformtica, por tanto, se
ocupa dela adquisicin, almacenamiento, procesamiento, distribucin, anlisis e interpretacin de
informacin biolgica, mediante la aplicacin de tcnicas y herramientas procedentes de las matemticas, la
biologa y la informtica, con el propsito de comprender el significado biolgico de una gran variedad de
datos.
BANCOS DE PUBLICACIONES.
Los grandes avances en el campo de la genmica, la protemica y la biotecnologa han catapultado
a la bioinformtica como una herramienta de anlisis de los grandes proyectos de secuencias, y de la
innumerable cantidad de datos biolgicos que se estn generando. Por ello es necesario documentarse
acerca de las diferentes investigaciones y avances por medio de las publicaciones cientficas que se
encuentran en Internet.
Las diferentes revistas cientficas se han agrupado en varios bancos que facilitan encontrar la
informacin que cada investigador necesite, y en ellos se encuentran clasificadas por temtica, tipo de
revista, o autor entre otros, lo que unido a poderosos buscadores facilita enormemente su manejo. Algunos
permiten acceder a sus publicaciones despus de 6 meses sin restriccin, pero otros solicitan un pago por
artculo.
PUBMED (www.pubmed.org): Este es el banco de publicaciones del NCBI. La pgina tiene, en la
parte superior, una barra de bsqueda marcada por la palabra SEARCH, donde se coloca el tema a
investigar, luego de lo cual se da clic en GO, con lo que se cargara una pagina presentando los artculos
que poseen la informacin que se busca (Figura 1). Los artculos marcados con un logo, que consiste en
varias paginas de colores, son de acceso libre; los que tienen un logo de una sola pagina con lneas indica
que solo el resumen esta disponible (si se desea el articulo completo se debe ingresar a la pagina de la
revista y hacer el pago correspondiente); los artculos marcados con el logo de una pagina en blanco no
estn disponibles (ni siquiera el resumen) (Figura 1).
Figura 2. Pgina de Pubmed para un artculo de acceso libre. El icono verde con la leyenda FREE full
text en la izquierda indica que la publicacin se encuentra disponible al pblico libre de pago.
BASES DE DATOS
El gran avance de las ciencias biolgicas ha generado una gran cantidad de datos, los cuales se
necesita que estn disponibles para todos los investigadores, a fin de que se pueda lograr enriquecer el
conocimiento, analizar la nueva informacin y poder establecer correlaciones fidedignas. Por ello, desde la
dcada de los 80 se inici la construccin de modernas bases de datos, donde los investigadores podan
enviar sus descubrimientos y adems tener acceso a los logrados por otros. Inicialmente, estas slo se
ocupaban del almacenamiento de la informacin, pero con el tiempo se han convertido en sitios que, aparte
de lograr una eficiente organizacin de los datos biolgicos, tienen una gran cantidad de recursos que
ayudan al estudio de la informacin obtenida experimentalmente. Las bases de datos son sitios de
almacenamiento de informacin biolgica de acceso libre, y se han constituido en la base de las
herramientas bioinformticas. Estn estructuradas e indexadas, lo que permite la fcil bsqueda en ellas; se
actualizan peridicamente; poseen referencias cruzadas (hipervnculos) con otras bases de datos; el
almacenamiento de los datos se hace por texto plano o tablas vinculadas (flat file and relational data base);
pueden ser primarias si contienen netamente datos experimentales, o secundarias si poseen datos
obtenidos a partir de la base de datos primaria.
Centro Nacional para la Informacin Biotecnolgica-NCBI (http://www.ncbi.nlm.nih.gov/): Establecido
en 1988 como un recurso para la informacin en biologa molecular, el sitio NCBI ha creado bases de datos
pblicas, dirige investigacin en biologa computacional, desarrolla software para anlisis de datos de
genomas, y disemina informacin biomdica. Todo esto para el mejor entendimiento de los procesos
moleculares que afectan la salud humana y la enfermedad. La ventana principal posee un listado de links
(izquierda) que dan acceso a sus diferentes sub-secciones, las cuales poseen sus propias caractersticas,
con la ventaja de una interrelacin entre ellas (Figura 3).
Figura 3. Pgina principal de NCBI. En la parte izquierda se ubica un men hacia sus principales
sitios (azul), el men que esta desplegado da acceso a diferentes recursos del sitio, el men de la derecha
dirige hacia herramientas recomendadas.
Entre otros recursos, NCBI tiene varias bases de datos como GenBank, OMIM (herencia
mendeliana del hombre), MMDB (modelos por homologa de estructuras tridimensionales de protenas),
UniGene (Coleccin de secuencias de genes humanos), el mapa del genoma humano, el navegador de
taxonoma, y el CGAP (proyecto del genoma del cncer).
Este sitio Web posee otros recursos entre los que se cuenta el sistema de acceso integrado a
secuencias, mapas, taxonoma y datos estructurales, denominado Entrez. La literatura esta disponible a
travs de Pubmed. Posee el programa BLAST, el cual busca similitudes entre secuencias y es capaz de
identificar genes y sus caractersticas. Tambin estn disponibles software para la identificacin de marcos
abiertos de lectura (ORF), PCR electrnica y envo de secuencias (Sequin y BankIt). Aqu se describe
algunos recursos de NCBI.
El formato FASTA consta de una primera lnea donde se observa el carcter > que indica el
comienzo de una entrada, luego en esa misma primer lnea se detallan el accession number, y
generalmente el nombre de la secuencia. A partir de la segunda lnea slo se observa secuencia.
Se presentan a continuacin ejemplos de una secuencia nucleotdica en formato FASTA y de una
secuencia proteica en formato FASTA:
>embl|J00703|J00703 Rattus norvegicus pancreatic amylase mRNA, complete cds.
acaacttcaaagcaaatgaagttcgttctgctgctttccctcattgggttctgctgggct
caatatgacccacacactgcggatgggaggactgctattgtccacctgttcgagtggcgc
tgggctgatattgccaaggaatgtgagcggtacttagcacctaagggatttggaggggtg
>AAA40725.2
MKFVLLLSLIGFCWAQYDPHTADGRTAIVHLFEWRWADIAKECERYLAPKGFGGVQVSPPNENIIINNPSRP
WWERYQPISYKICSRSGNENEFKDMVTRCNNVGVRIYVDAVINHMCGSGNSAGTHSTCGSYFNPNNREFS
AVPYSAWYFNDNKCNGEINNYNDANQVRN
El formato NCBI es muy parecido al formato FASTA con la excepcin de que al principio de cada
lnea se observa la posicin que ocupa el primer aminocido/nucletido de esa lnea con respecto al
comienzo del gen. La otra diferencia es que los nucletidos/aminocidos se encuentran agrupados en
columnas de a diez.
Aunque este formato puede ser mas fcil de visualizar para el ojo humano, la mayora de los
programas bioinformticos no puede utilizar secuencias en este formato.
gi|11528628|gb|J00703.2|RATAMLS[11528628]
1 acaacttcaa agcaaatgaa gttcgttctg ctgctttccc tcattgggtt ctgctgggct
61 caatatgacc cacacactgc ggatgggagg actgctattg tccacctgtt cgagtggcgc
121 tgggctgata ttgccaagga atgtgagcgg tacttagcac ctaagggatt tggaggggtg
ALINEAMIENTO DE SECUENCIAS
Un alineamiento de secuencias consta por lo menos de dos secuencias nucleotdicas o proteicas
donde se encolumnan sus aminocidos en el orden en que se encuentran en su estructura primaria natural.
En algunas columnas se pueden generar vacos (gaps).
Generalmente son generados por programas bioinformticos, aunque algunos alineamientos
requieren curacin manual.
Un ejemplo de un alineamiento de protenas generado con el programa gratuito ClustalX:
Como puede observarse, el programa est diseado para buscar similitudes en las secuencias y
agruparlas. De esta manera, un alineamiento entre dos o ms secuencias nos permite comparar sus
similitudes y diferencias.
SECUENCIAS HOMLOGAS
Ya que definimos el concepto de alineamiento de secuencias, podemos introducir el concepto de
secuencias homlogas. La homologa es la relacin que existe entre dos partes orgnicas diferentes cuando
sus determinantes genticos tienen el mismo origen evolutivo. Dos secuencias son homlogas cuando se
evidencia una similitud entre ellas cuya presencia surge por razones evolutivas.
Como podemos observar en este alineamiento parcial, las tres secuencias superiores son altamente
similares entre s y por lo tanto, es muy posible que sean homlogas. Las dos secuencias inferiores tienen
cierta similitud con las tres secuencias superiores pero tienen mucha mayor similitud entre s.
GENES ORTLOGOS
Llamamos genes ortlogos a dos genes homlogos presentes en diferentes especies debido a que
ambos genes provienen de un mismo gen presente en un antepasado comn de ambas especies. Es decir,
que son semejantes por pertenecer a dos especies que tienen un antepasado comn. Generalmente los
genes ortlogos cumplen funciones equivalentes. Podemos decir, entonces que los genes ortlogos son
producto de la especiacin.
Un ejemplo de genes ortlogos seran el gen de la hemoglobina humana, y el gen de la
hemoglobina de rata.
GENES PARLOGOS
Los genes parlogos son aquellos que se encuentran en el mismo organismo, y cuya semejanza
revela que ambos proceden de la duplicacin de un gen ancestral.
Generalmente uno de los genes parlogos sufre una fuerte presin evolutiva para mutar y cambiar
su funcin.
Entonces, el origen de los genes parlogos es la duplicacin gnica.
Un ejemplo de genes parlogos son la hemoglobina humana y la mioglobina humana.
BLAST
BLAST: Basic Local Alignment and Search Tool es un programa que utiliza algoritmos matemticos para
buscar de manera rpida y eficiente alineamientos entre la secuencia Query que nosotros suministramos
al programa y una base de datos de secuencias (pej. La base de datos nr contiene prcticamente todas las
secuencias presentes en Genbank, EMBL y DDBJ).
Nos permite buscar secuencias homlogas a la secuencia que le ingresamos al programa. Es muy
til para encontrar tanto genes parlogos como para encontrar genes ortlogos. Esto NO significa que todas
las secuencias que obtenemos como resultado de un BLAST son ortlogos o parlogos a la secuencia
ingresada.
El programa funciona tanto con secuencias nucleotdicas como con secuencias proteicas. Para
ejecutar bsquedas proteicas utiliza el subprograma blastp, mientras que para bsquedas nucleotdicas
utiliza el programa blastn. Por regla general, ante la posibilidad de utilizar cualquiera de los dos, Blastp es
de mayor utilidad y de ms fcil interpretacin.
Adems, al comparar organismos distantes en el sentido evolutivo, siempre es aconsejable utilizar
blastp ya que las mutaciones sin sentido (aquellas que ocurren en el tercer nucletido de un codn, y no
cambian el aminocido codificado por ese codn) disminuyen las similitudes a nivel nucleotdico pero no
afectan el nivel de similitud a nivel proteico.
Es fundamental a la hora de utilizar BLAST el saber interpretar los resultados. Observamos un
ejemplo de un resultado de BLASTp a continuacin: