Está en la página 1de 63

Curso: Introduccin a

la Bioinformtica
Lic. Mara Isabel Fonseca
Lic. Ernesto Martn Giorgio
Lic. Mara Mercedes Tiscornia
Curso pre-Jornadas.
Laboratorio de Biotecnologa Molecular.
Facultad de Ciencias Exactas, Qumicas y Naturales.
Universidad Nacional de Misiones.

Introduccin a la
Bioinformtica
Podemos
definir la bioinformtica

como la rama de la biologa molecular


computacional.
Slo dos maneras de llevar a cabo
experimentos
biolgicos
estaban
disponibles: dentro de un organismo vivo
(in vivo) o en un ambiente artificial (in
vitro).
Tomando la analoga ms lejos, podemos
decir que la bioinformtica en la biologa
es in silico, de los chips de silicio en el
que se construyen los microprocesadores.

Lic. Mara Mercedes

La

bioinformtica se centra en el anlisis


automatizado de grandes volmenes de
informacin de procesos biolgicos.
Si nuestro genoma no es mayor que el de
una planta? por qu somos tan diferentes?
El reto consiste en descifrar cmo funciona
esa diferenciacin Cmo funciona el ADN si
con los mismos ingredientes fabrica cosas tan
distintas?
Es
ah
donde
entra
la
Informtica.
Almacenando esa informacin y procesndola
de forma masiva.
Todos los seres vivos estn formados por
clulas. Las clulas procariotas no tienen
ncleo y las eucariotas s.

Anlisis de
secuencias de
ADN: Estructura
gnica y
secuencia de
ADN.

El ADN se encuentra en el ncleo (en eucariotas) o en el citoplasma (en


procariotas) y es la molcula que contiene toda la informacin gentica
necesaria para construir un organismo y para que ste funcione como lo hace.

Estructura del
gen

Dogma central
de la biologa
molecular

Estructura de
ADN: Modelo
descubierto por
Watson y Crick. Las
cadenas estn formadas
por unos componentes
llamados nucletidos.
Una secuencia de ADN
puede definirse como la
sucesin de sus
nucletidos, ordenadas
de los 5- al 3'-terminal.
Existen 4 tipos de nucletidos. La Adenina (A) siempre
empareja con la Timina (T). La Citosina (C) establece
enlaces con la Guanina (G). Las uniones A-T estn
formadas por dos enlaces de puentes de hidrgeno y
las C-G por tres.

CDIGOS OFICIALES DE IUB - IUPAC, DE LA UNIN


INTERNACIONAL DE QUMICA PURA Y APLICADA.
La tabla muestra slo los de uso ms frecuente. La mayora de los
smbolos ms comunes usado para las secuencias de nucletidos de ADN

Letra de nucletido

Categora del Cdigo

Nombre

Purina

Adenina

Pirimidina

Citosina

Purina

Guanina

Pirimidina

Timina

X/N

Cualquier nucletido

GoAoCoT

Purina

AoG

Pirimidina

CoT

Ninguno

----- (gap)

Purina y pirimidina

AoT

Purina y pirimidina

CoG

Purina y pirimidina

GoT

Purina y pirimidina

AoCoG

Purina y pirimidina

AoCoT

Purina y pirimidina

CoGoT

PARA OBTENER LAS


SECUENCIAS
NUCLEOTDICAS A
PARTIR DE UN
FRAGMENTO
OBTENIDO DE UNA
MUESTRA TENEMOS
QUE SECUENCIAR.

Para tener en cuenta

Esta estructura de doble cadena de ADN hace que la


definicin de una secuencia de ADN ambigua: Incluso
con nuestra convencin de la lectura de los
nucletidos del extremo 5 terminal hacia el extremo
3 ', usted puede decidir escribir la parte inferior o
superior al secuenciar.
Convnzase de que los dos son igualmente vlidas por
secuencias convirtindose este libro al revs!
As, en cada lugar, una molcula de ADN se
corresponde a dos - totalmente diferente - secuencias,
relacionados
por
este
revs

secuencia
complementaria.
Afortunadamente, la mayora de los programas de
minera de base de datos, tales como BLAST, sabe de
esta propiedad, y tiene en cuenta las dos vertientes a
la hora de informar sus resultados. Pero algunos
programas no se toman la molestia - y slo analizar la
secuencia que les dio.

ADN y ARN
ADN

(cido desoxirribonucleico) es el miembro


ms digno de la familia de macromolculas de
cido nucleico. Su nica tarea es garantizar para siempre la conservacin de la
informacin gentica para su organismo. Por lo
tanto, es muy estable y resistente, y se
encuentra bien protegido en el ncleo de cada
clula.
cido ribonucleico (ARN) es un miembro mucho
ms activo de la familia de los cidos nucleicos,
es sintetizado y degradado constantemente ya
que hace copias de los genes a disposicin de la
de clulas de fbrica.
En el contexto de la bioinformtica, slo hay dos
diferencias importantes entre el ARN y el ADN:
- ARN difiere del ADN por un nucletido.
- ARN se presenta como una sola cadena, no
una hlice.

Bases de Datos Biolgicas

Bases de datos de
secuencias de ADN
EMBL:

la base de datos de secuencias


nucleotdicas del European Bioinformatics
Institute (EBI), incluye secuencias enviadas
directamente por los autores y por grupos de
secuenciacin del genoma, como de la
literatura cientfica y las solicitudes de
patentes. La base de datos se produce en
colaboracin con DDBJ y GenBank.
GenBank: la base de datos de ADN del
National
Center
for
Biotechnology
Information, incorpora secuencias de fuentes
disponibles pblicamente, principalmente
envos directos de autores y de proyectos de
secuenciacin a gran escala. Tambin
intercambia datos con EMBL y DDBJ.
DDBJ: banco de datos de ADN de Japn.

EBI-EMBL (Ensembl) es un proyecto conjunto entre el


EMBL - EBI y el Wellcome Trust Sanger Institute para
desarrollar un sistema de software que produce y
mantiene la anotacin automtica en una seleccin de
genomas eucariotas.

Bsqueda de un Gen en
GenBank

Accesos a Nucletidos y
Protenas

Bsqueda de secuencia
nucleotdica en el GenBank

Secuencia Nucleotdica

La parte superior contiene


informacin general
LOCUS: Es el nombre alfanumrico que primero
nos informa. El resto de la lnea nos dice que
estamos tratando con 22422827 pares de bases
de ADN lineal.
DEFINICIN: Esta lnea indica que el nombre a que
corresponde los nucletidos encontrados, es decir,
a que gen o parte del gen y a que organismo.
VERSIN: se encuentra el nmero de acceso que
es nmero asignado cuando el dato entra por
primera vez a la base de datos y nunca ser
cambiado. Adems encontramos el nmero GI
rastrea las versiones de una entrada. El nmero
despus del punto del nmero de acceso se refiere
a cuantas veces fue actualizada esta secuencia.
El organismo, taxonoma de la especie estudiada.
Referencia con respecto a la secuencia buscada.

Base de Datos de Secuencias


La base de datos de nucletidos contiene secuencias de
Nucletidos
nucletidos, la STS (nmero de secuencias de sitio

etiquetados),
whole
genome
shotgun
(WGS)
secuencias, pero no EST o secuencias GSS.
EST: Marcas de secuencias expresadas.
GSS: Secuencias reconocidas de genoma.
Los nucletidos y bases de datos de protenas tambin
incluyen Referencia secuencias controladas por NCBI
(refSeqs). Adems,
en el proyecto de RefSeq las
secuencias de Patentes se incorporan a travs de
acuerdos con la Oficina de Patentes y Marcas de los
EE.UU. (USPTO) y a travs de las bases de datos
internacionales colaboradoras de otras oficinas de
patentes internacionales.
La base de datos de nucletidos contiene toda la
secuencia de datos GenBank, EMBL, y DDBJ, que son los
miembros del Organismo Internacional de bases de
datos de secuencias de nucletidos de colaboracin
(INSDC).

EST (Expressed
Sequence
Tags)
Para obtener EST: se

obtiene una
muestra de clulas luego se extrae el
ARN y utilizando la transcriptasa
reversa se obtiene el ADNc.

La

genoteca de ADNc es usada para


experimentos de secuenciacin rpida
de una seleccin de clones.

Si

se pueden secuenciar exitosamentes


estas secuencias surgen las EST.

Bsqueda en bases de
datos
Determinar
si
una
coincidencia
buena es el reflejo de un suceso
gentico genuino.
Si la EST es bastante corta como para
caer en un exn completo, y si se
observan formas alternativas que
contenga este exn, no hay manera de
saber a que forma representa la EST.
Si al contrastar con la base de datos no
encontramos un emparejamiento no se
puede asumir que se ha encontrado un
nuevo gen, puede que represente una
secuencia no codificante para un gen
conocido.

ALL DATABASES

Algoritmos y programas. Comparacin de 2


secuencias.

INTRODUCCIN AL
ALINEAMIENTO DE
PARES DE SECUENCIAS
NUCLEOTDICAS

Alfabetos y Complejidad
Una

secuencia consiste en letras


seleccionadas de alfabeto.
La complejidad del alfabeto se
define como el nmero de letras
diferentes que contiene.
Por ejemplo la complejidad para
la secuencia de ADN es 4 y para
protenas, 20.

Algoritmos y Programas
Algoritmo:

conjunto de pasos que definen


cierto proceso computacional abstracto.
Programa: implementacin de algoritmo.
Los algoritmos se pueden implementar a
modo de receta para encontrar la
similitud entre 2 secuencias.
De esta manera utilizando 2 secuencias
de
un
alfabeto
por
ejemplo
de
complejidad 20, al alinear secuencias
podemos
encontrar
emparejamiento
idnticos (matches), desemparejamiento
(mismatches) o la introduccin de huecos
(gaps).

Identidad y Similitud
El

emparejamiento idntico lo podemos lograr


introduciendo huecos de forma no restringida.
Se introducen penalizaciones para minimizar el
nmero de huecos que se inician (se abren) y a
continuacin se utilizan penalizaciones de
extensin cuando el hueco tiene que ser
extendido.
Hasta el momento la matriz que hemos estado
usando es la unitaria.
Para poder incrementar la puntuacin de las
seales
dbiles
pero
biolgicamente
significativas, se han diseados matrices de
puntuacin que moderan las coincidencias entre
residuos no idnticos, segn las tasas de
sustitucin observadas a travs de grandes
distancias evolutivas.

Medidas estadsticas de la
significacin del
Para comparar 2 secuencias.
alineamiento.

Alineamiento de a pares

Los mtodos de alineamiento de pares, o emparejamientos, se


utilizan para encontrar la mejor coincidencia en bloque (local) o
alineamiento global de dos secuencias.

Los alineamientos de pares slo pueden utilizarse con dos


secuencias a la vez, pero son eficientes de calcular, y son
utilizados a menudo en mtodos que no requieren precisin
extrema, como la bsqueda en bases de datos de secuencias con
alta homologa con respecto a una peticin.

Los tres mtodos principales de generar alineamientos de pares


son los de matriz de puntos, los de programacin dinmica y los
de bsqueda de palabra, aunque la mayora de mtodos de
alineacin mltiple de secuencias pueden funcionar con slo dos
secuencias.

Aunque cada mtodo tiene sus propios puntos fuertes y dbiles,


todos ellos tienen problemas para alinear secuencias repetitivas
con bajo contenido en informacin.

Una manera de cuantificar la utilidad de un alineamiento de


pares determinado es la "mxima coincidencia individual", o la
mayor subsecuencia que se da en ambas secuencias en estudio.
En general, cuanto mayor sea tal subsecuencia, ms cercana
ser su relacin.

Matriz de puntos

La diagonal principal representa el alineamiento de la


secuencia consigo misma; las lneas fuera de esta diagonal
representan patrones similares o repetitivos dentro de la
secuencia

Dot - plot
El enfoque de matriz de puntos (o matrix-dot), que
implcitamente
produce
una
familia
de
alineamientos para regiones individuales de la
secuencia, es cualitativo y simple, a pesar de que
consume mucho tiempo para anlisis a gran escala.
Es
fcil identificar visualmente determinadas
caractersticas de la secuencia (tales como
inserciones, borrados, repeticiones, o repeticiones
invertidas) en una grfica de matriz de puntos.
Algunas implementaciones varan el tamao o la
intensidad de los puntos en funcin del grado de
similitud de los dos caracteres, para dar cabida a
las sustituciones conservadas. La grfica de puntos
de secuencias muy estrechamente relacionadas
aparece como una nica lnea a lo largo de la
diagonal principal de la matriz .

Matriz unitaria

Matriz con puntuacin moderada

0.5

0.5

0.5

0.5

Utilizando estas Matrices: observamos el score para


Acada alineamiento
AATGC

:
AG -GC

Con la matriz
unitaria ambos
alineamientos
tienen un score
de +3

AATGC

A -GGC

Con la matriz que


considera
similitud el score
es de +3.5 para A
y +3 para B

Depende de la tabla de
valores que se use para los
matches

Score y penalidades de
Gaps
El score del alineamiento es la suma de los

scores
individuales de cada posicin, el mismo se define posicin
por posicin.
Un gap biolgicamente puede ser interpretado como una
delecin en la secuencia donde se introduce el gap y una
insercin en la secuencia alineada. Esto es un evento INDEL.
La existencia de un gap debe ser penalizada de alguna
manera (se resta al score del alineamiento), ya que de otra
forma, el alineamiento ptimo tendra una enorme cantidad
de pequeos gaps, lo cual es incompatible con una
interpretacin biolgica.
Penalizacin de apertura del gap (gap opening penalty)
Penalizacin de la extensin del gap (gap extension
penalty)
W(X)= g + t . x
W= gap penalty
g= gap opening
penalty
t= gap extension

Matriz de Identidad
La

matriz de sustitucin ms simple


posible sera una en la que cada
aminocido
se
considera
mximamente similar a s mismo, pero
no es capaz de transformarse en
cualquier otro aminocido. La matriz
aparecera como:

Matriz para ADN


Suele

utilizarse un sistema de puntuacin


simple para los emparejamientos entre
los cuatro diferentes nucletidos y que
asigna, normalmente, una puntuacin
positiva para la coincidencia en el
emparejamiento, una puntuacin nula o
negativa para la no coincidencia, y una
puntuacin negativa para los huecos o
gaps.

El ADN sufre cambios en el


contenido informativo
Para

esto requerimos una medida


cuantitativa
confiable
de
la
informacin.
Claude Shannon (1948) defini la
informacin como una disminucin de
la incerteza del receptor del mensaje.
Para
los sistemas moleculares la
incerteza est relacionada con la
entropa y, por lo tanto, tiene una clara
conexin con la segunda ley de la
termodinmica.

Medicin de Informacin

Esto

depende de la cantidad de letras del


alfabeto.
La informacin puede cuantificarse en bits.
Si el alfabeto tiene 2 letras: un bits de
informacin alcanza para definir una letra.
Si el alfabeto tiene 4 letras se necesitan 2
bits.
Alfabeto de 2
letras:
A=0
B=1

Alfabeto de 4
letras:
A=00
B=01
C=10
D=11

GENERALIZANDO
Se puede expresar de la siguiente
manera

2y = N o y = log2N
N= es la cantidad de caracteres del alfabeto.
y = es la cantidad de bits que definen una
letra.
N=(N-1)-1, entonces y = -log2 (1/N)
Si todas las letras tienen la misma probabilidad
de aparicin entonces 1/N es la probabilidad
de aparicin de cada smbolo.

FRECUENCIA DE
APARICIN
Reemplazamos en la ecuacin anterior

y = -log2 (fi) donde fi = 1/N


La frecuencia con la que aparece, en una
muestra suficientemente grande, una
letra particular se aproxima a la
probabilidad.
Entonces, una letra muy comn contiene
poca informacin mientras que una letra
poco comn contiene mucha informacin.

MEDICIN DE LA
SORPRESA
Tribus (1961)

Un mensaje completamente desconocido para nosotros va


apareciendo letra por letra, cuando aparece un smbolo
determinado se experimenta una relativa sorpresa.
Cuan grande o pequea sea la sorpresa depende de la
abundancia en que se encuentra el smbolo en cuestin.
Independientemente del smbolo en el que aparezca, el
desconocimiento (o incerteza) previo a la visualizacin del
smbolo es igual.
El mismo desconocimiento impide cualquier influencia
sobre la incerteza.
La incerteza es el promedio de las sorpresas calculadas
para todos los smbolos presentes en el mensaje.

Matrices de Sustitucin

En biologa evolutiva una matriz de sustitucin, o de


puntuacin, describe el ritmo al que un carcter en
una secuencia cambia a otro carcter con el tiempo.
Las matrices de sustitucin se ven usualmente en el
contexto
de
alineamiento
de
secuencias
de
aminocidos o ADN, donde la similitud entre
secuencias depende del tiempo desde su divergencia y
de los ritmos de sustitucin segn se representan en la
matriz.
Estas matrices se utilizan como parmetros de los
algoritmos de alineamiento (por ejemplo los de
Needlemann-Wunsch o Smith-Waterman)
Los algoritmos cumplen el papel de asignar una
determinada puntuacin a cada emparejamiento entre
los aminocidos de las secuencias a alinear,
contribuyendo as a la puntuacin global del
alineamiento.

Matriz de similitud de ADN (identidad entre


parntesis)

0(1)

5(0)

5(0)

1(0)

5(0)

0(1)

1(0)

5(0)

5(0)

1(0)

0(1)

5(0)

1(0)

5(0)

5(0)

0(1)

Los algoritmos de alineamiento en nuestro contexto normalmente


usan matrices de pesos o sustitucin para evaluar el emparejamiento
de letras o monmeros de las secuencias. Para alineamientos de
ADN, como hay slo 4 nucletidos, se usa una matriz 4x4, que
contiene un valor para cada posible emparejamiento de nucletidos.

Matrices de logprobabilidades

La matriz de puntuaciones se define como:

donde pi,j es la probabilidad, de acuerdo a las observaciones tomadas en


consideracin, de que el aminocido i se transforme en el j, pi es la
frecuencia de aparicin del aminocido i, y pj es la frecuencia de
aparicin del aminocido j.

De esta forma, el denominador pipj es la probabilidad de que ambos


aminocidos queden alineados por casualidad (matemticamente,
corresponde al producto de las probabilidades individuales de aparicin);
y el cociente entre ambas probabilidades puede resultar:

Mayor que 1: la probabilidad observada de sustitucin entre aminocidos


es superior a la aleatoria; segn su magnitud, podra asumirse, en
principio, que la evolucin ha ido aceptando tal intercambio.

Igual a 1: la sustitucin entre uno y otro aminocidos corresponde a la


que puede encontrarse aleatoriamente a causa de mutaciones puntuales.

Inferior a 1: la tasa de sustitucin entre los aminocidos es inferior a la


que podra encontrarse aleatoriamente, por lo que segn la magnitud del
cociente podra asumirse, en principio, que esta sustitucin no es
aceptada evolutivamente de buen grado.

APLICACIN DE LA
TEORA DE LA
INFORMACIN

Matrices de log-probabilidades

Tomamos el logaritmo del cociente para obtener, en definitiva,


la similitud entre los aminocidos en cuestin, representada por
un nmero real que ser positivo si el cociente visto es mayor
que 1, negativo si es menor que 1, y nulo si el cociente es la
unidad.

La base del logaritmo no es especialmente importante, y puede


verse con cierta frecuencia la misma matriz de sustitucin
expresada
en
bases
logartmicas
diferentes,
aunque
computacionalmente puede interesarnos utilizar base 2
(cantidad de informacin en bits) o base e (cantidad de
informacin se mide en nats).

Es aconsejable multiplicar cada elemento de la matriz por un


factor de escala (lo que permite mantener la precisin) y
redondear seguidamente al valor entero ms prximo.

Encontraremos diferencias entre matrices calculadas desde una


misma matriz inicial, por lo que una puntuacin normalizada nos
resultara mucho ms til, entonces, es necesario una constante
especfica para cada matriz, que se denomina lambda ().

Algoritmo SmithWaterman

El algoritmo de Smith-Waterman es una


reconocida estrategia para realizar alineamiento
local de secuencias biolgicas (ADN, ARN o
protenas); es decir que determina regiones
similares entre un par de secuencias.
Se centra en regiones de similitud slo en partes de
la secuencia.
El algoritmo SW fue propuesto por Temple Smith y
Michael Waterman en 1981. Est basado en el uso
de algoritmos de programacin dinmica, de tal
forma que tiene la deseable propiedad de garantizar
que el alineamiento local encontrado es ptimo con
respecto a un determinado sistema de puntajes que
se use (tales como matrices de substitucin).

Algoritmo NeedlemanWunsch
El algoritmo de Needleman-Wunsch sirve

para

realizar alineamientos globales de dos secuencias.


Considera la similitud en toda la extensin de la
secuencia.
Se suele utilizar en el mbito de la bioinformtica para
alinear secuencias de protenas o de cidos nucleicos.
Fue propuesto por primera vez en 1970, por Saul
Needleman y Christian Wunsch.
Se trata de un ejemplo tpico de programacin
dinmica. Este algoritmo siempre termina y garantiza
que la solucin devuelta es la ptima.
Es importante destacar que el que dos elementos sean
alineados no implica necesariamente que sean iguales;
significa que entre esa posibilidad, alinear con huecos
o alinear smbolos diferentes, esa era la mejor opcin.

Matrices de sustitucin
Una de las primeras
matrices de sustitucin,
la PAM (Point accepted
mutation, o mutacin
puntual aceptada), fue
desarralloda
por
Margaret Dayhoff en los
aos 70 del pasado
siglo.
Esta matriz se calcula
observando
las
diferencias en protenas
cercanamente
relacionadas (con un
mnimo del 85% de
similitud).

Matrices BLOSUM (de BLOck


SUbstitution Matrix, o matriz
de sustitucin de bloques):
Henikoff
y
Henikoff
construyeron estas matrices
usando
mltiples
alineamientos de protenas
evolutivamente divergentes.
Las probabilidades usadas
en los clculos de la matriz
se computan observando los
"bloques" de secuencias
conservadas encontrados en
mltiples alineamientos de
protenas.

Alineamientos locales y
globales

Los alineamientos globales, que intentan alinear cada residuo de cada


secuencia, son ms tiles cuando las secuencias problema iniciales son
similares y aproximadamente del mismo tamao (no quiere decir que los
alineamientos globales no puedan terminar en huecos). Una estrategia
general de alineamiento global es el algoritmo Needleman-Wunsch .
Los alineamientos locales son ms tiles para secuencias diferenciadas
en las que se sospecha que existen regiones muy similares o motivos de
secuencias similares dentro de un contexto mayor. El algoritmo SmithWaterman es un mtodo general de alineamiento local basado en
programacin dinmica.

Volviendo al Alineamiento
de Secuencias calculando el
Se puede fijar una palabra con el
score
mximo score, se extiende en ambas
direcciones, se recalcula el score, si es
mayor se contina extendiendo (BLAST).
Los alineamientos de secuencia por
mtodos de comparacin de ventanas
requiere gran capacidad de memoria y
gran capacidad de almacenamiento.
Entonces el tiempo de computacin se
incrementa de forma cuadrtica en
funcin de la longitud de la secuencia.

Programacin Dinmica

Soluciona problemas mediante la resolucin de problemas


semejantes pero ms pequeos.

La tcnica de programacin dinmica puede aplicarse para


producir alineamientos globales, as como alineamientos
locales.

En los alineamientos de protenas se utiliza una matriz de


sustitucin para asignar puntuaciones a las coincidencias y
a las diferencias entre aminocidos, y una penalizacin por
gap.
Encontrar una buena solucin empleando programacin
dinmica a menudo implica la tcnica de retroceso y probar
diferentes rutas hasta lograr los alineamientos de
puntuacin elevada, guiados por los varios parmetros
(penalizacin de huecos, etc.) disponibles en el algoritmo.
La mejor de todas la rutas se selecciona entonces como el
alineamiento final.
De esta forma se reduce significativamente el tiempo de
computacin y se asegura encontrar, al menos, 2
alineamientos ptimos.

Completar la matriz
A

La matriz se completa colocando un 1 para los matches y un 0 para los


mismatches. Para cada celda sumando el valor de cada celda con el
mejor valor anterior, derivando siempre en una diagonal.

Mtodos de palabras cortas

Los mtodos de palabra corta, tambin conocidos


como mtodos de k-tuplas, son mtodos heursticos
que no garantizan encontrar una solucin de
alineamiento ptima, pero son significativamente ms
eficientes que la programacin dinmica.
Estos mtodos son especialmente tiles en bsquedas
sobre bases de datos a gran escala, donde se asume
que una larga proporcin de las secuencias candidatas
no tendrn coincidencias significativas con la
secuencia problema.
Los mtodos de palabra corta son ms conocidos por
su implementacin en las herramientas de bsqueda
en bases de datos FASTA y la familia BLAST.
Estos mtodos identifican en la secuencia problema
una serie de subsecuencias cortas que no se solapan
(palabras), y que se contrastan contra las secuencias
de la base de datos.

Mtodos de palabras cortas


(continuacin)
Las posiciones relativas de la palabra en

las dos
secuencias a comparar se restan para obtener un
valor de desplazamiento; se manifestar as una
regin de alineamiento si varias palabras
diferentes producen el mismo desplazamiento.
Slo si esta regin es detectada, estos mtodos
aplicarn criterios de alineamiento ms sensibles.
De esta forma se eliminan muchas comparaciones
innecesarias
entre
secuencias
de
similitud
inapreciable.
La velocidad de ejecucin es ciertamente un
aspecto de la bsqueda de la base de datos y, para
los 2 algoritmos descriptos hasta el momento, la
velocidad depende fundamentalmente de la
longitud de la secuencia problema y del tamao de
la base de datos analizada.

BLAST (Basic Local


Alingment Search Tool)

La familia BLAST de mtodos de bsqueda proporciona


varios algoritmos optimizados para tipos particulares de
problemas, tales como la bsqueda de coincidencias entre
secuencias escasamente relacionadas.

Como FASTA, BLAST utiliza una palabra de bsqueda de


longitud k, pero slo evala las coincidencias ms
significativas de las palabras, en lugar de cada coincidencia
como hace FASTA.

La mayora de las implementaciones de BLAST usan una


longitud de palabra fijada por defecto que se optimiza para
el problema y el tipo de base de datos, y que se cambia
slo bajo circunstancias especficas tales como bsquedas
con secuencias problema repetitivas o muy cortas.
El algoritmo busca coincidencias de longitud fija y a
continuacin se extienden hasta que alcanzan cierto
parmetros umbral.

Blast

HELP

Bsqueda contra genomas y


organismos especficos

Bases de Datos para


Insectos

Service Availability From Insect Blast Page


Organism
Databases
BLAST searches
MapViewer Link
Aedes aegypti
W
blastn, tblastn
Anopheles
blastn, blastp,
F+P
Yes
gambiae str. PEST
blastx, tblastn
blastn, blastp,
Apis mellifera
W+P
Yes
blastx, tblastn
Bombyx mori
W
blastn, tblastn
Drosophila
blastn, blastp,
F+P
Yes
melanogaster
blastx, tblastn
Drosophila
W
blastn, tblastn
persimilis
Drosophila
blastn, blastp,
W+P
pseudoobscura
blastx, tblastn
Drosophila
W
blastn, tblastn
sechellia
Drosophila
W
blastn, tblastn
simulans
Drosophila yakuba
W
blastn, tblastn
Tribolium
W
blastn, tblastn
castaneum
NOTE:
Graphic visualization of BLAST hits on the genome through MapViewer
available. Accessing BLAST through Map Viewer Home Page is recommended.

BLAST especializado

Valor E (Expect value)


El

valor E es un parmetro que describe el


nmero de hits que uno puede esperar por
azar cuando buscamos en una base de datos
de una medida particular.
Esto decrece exponencialmente con el score
(S) que es asignado para un match entre 2
secuencia.
Un E-value de 1 es el valor que uno espera si
se realiza un math con un score similar
simplemente por azar.
El
E-value de 0 es el match ms
significativo.
El E-value tiene en cuenta el largo de la
secuencia Query.

Blastn
Parameter settings for standard blastn and
"Search for short and nearly exact
matches"
DUST
Expect
Program
Word Size
Filter
Value
Setting
Standard
11
On
10
blastn
Search for
short
nearly
7
Off
1000
exact
matches

FORMATO FASTA
Sigue el siguiente esquema

>

My_Sequence_Name
ARCGTCRGCKINTANDRGCKINTAND
CKINTANDARCGTCRGCKINTANDRG
CKINTAND
La lnea de salida con > (la lnea de definicin)
contiene un identificador nico seguido por un
facultativo de breve definicin.
Las lneas que siguen contienen la secuencia
de ADN o de protenas hasta que el carcter
siguiente > en el archivo indica el comienzo
de una nueva secuencia.

MUCHAS GRACIAS
POR SU ATENCIN

También podría gustarte