Está en la página 1de 9

ALINEAMIENTOS LOCALES Y GLOBALES

Los alineamientos globales, que intentan alinear cada residuo de cada secuencia, son ms
tiles cuando las secuencias problema iniciales son similares y aproximadamente del mismo
tamao (no quiere decir que los alineamientos globales no puedan terminar en huecos). Una
estrategia general de alineamiento global es el algoritmo Needleman-Wunsch basado en
programacin dinmica. Los alineamientos locales son ms tiles para secuencias
diferenciadas en las que se sospecha que existen regiones muy similares o motivos de
secuencias similares dentro de un contexto mayor. El algoritmo Smith-Waterman es un
mtodo general de alineamiento local basado en programacin dinmica. Con secuencias
suficientemente similares, no existe diferencia entre alineamientos globales y locales.
Los mtodos hbridos, conocidos como semiglobales o mtodos "glocales" intentan encontrar
el mejor alineamiento posible que incluya el inicio y el final de una u otra secuencia. Puede ser
especialmente til cuando la parte "corriente arriba" de una secuencia se solapa con la parte
"corriente abajo" de la otra. En este caso, ni el alineamiento global ni el local son
completamente adecuados: un alineamiento global intentar forzar a la alineacin a
extenderse ms all de la regin de solapamiento, mientras que el alineamiento local no
cubrir totalmente la regin solapada.

EL BLAST HACE ALINEAMIENTO LOCAL


Score: A number used to assess the biological relevance of a finding.
Bit-score: A log-scaled version of a score. In the context of sequence alignments (BLAST),
the bit-score S' is a normalized score expressed in bits that lets you estimate the magnitude
of the search space you would have to look through before you would expect to find an
score as good as or better than this one by chance
P-value: Probability that an event occurs by chance. In the context of sequence alignments,
the P-value associated to a score S is the probability to obtain by chance a score x at least
equal to S: P-val (S) = P(x S)
the E value describes the random background noise.
identity
The extent to which two (nucleotide or amino acid) sequences have the same
residues at the same positions in an alignment, often expressed as a percentage
similarity
The extent to which nucleotide or protein sequences are related. Similarity between
two sequences can be expressed as percent sequence identity and/or percent positive
substitutions.

EL MEGA HACE ALINEAMIENTO GLOBAL

DOT PLOT
Para ver si hay indels, repeticiones, inversiones.
NEEDLEMAN WUNSCH

El algoritmo NeedlemanWunsch es un ejemplo de programacin dinmica, y est garantizado


que encuentre el alineamiento con el puntaje mximo. NeedlemanWunsch fue la primera
aplicacin de programacin dinmica para la comparacin de secuencias biolgicas.
Los puntajes para caracteres alineados son especificados por una matriz de similitud. Aqu, S(i,j)
es la similitud de los caracteres i y j. Esta usa una penalidad por hueco (gap) lineal, aqu llamada d.
Por ejemplo, si la matriz de similitud era:

Entonces el alineamiento es:

AGACTAGTTAC

CGAGACGT

Con una penalidad por hueco de -5, tendramos el siguiente puntaje

Para encontrar el alineamiento con el puntaje ms alto, una matriz bidimensional es asignada. Esta
matriz a menudo es llamada matriz F y su (i,j)sima entrada frecuentemente es denotada Fij . All
hay una columna para cada carcter de la secuencia A, y una fila para cada caracter de
la secuencia B. As si estamos alineando secuencias de tamaos n y m, el tiempo de ejecucin
del algoritmo es O(nm) y la cantidad de memoria utilizada es O(nm).

SCORE GLOBAL

Para ello, podemos utilizar la siguiente ecuacin:

Score global (SG) = M + CC -MM - Wn

[M = match; CC = cambio conservativo; MM = mismatch y Wn = gap penalty]

donde Wn = g + ln (g = gap open penalty y ln = length dependent penalty)


HOMOLOGA: dos secuencias son homologas si esta secuencia se encuentra en algn
ancestro en comn

MOTIVOS Y PATRONES: Generalmente, un motivo tiene mayor definicin de los residuos que lo
componen, mientras que los patrones son posibles combinaciones de distintos tipos de residuos

HHM HIDDEN MARKOV MODEL

PROSITE (NO PROBABILISTICO) Y PFAM (PROBABILISTICO)

PROSITE PATTERN examples:

[AC]-x-V-x(4)-{ED}
This pattern is translated as: [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp}
< A-x-[ST](2)-x(0,1)-V
This pattern, which must be in the N-terminal of the sequence (`<'), is translated as: Ala-any-
[Ser or Thr]-[Ser or Thr]-(any or none)-Val
<{C}*>
This pattern describes all sequences which do not contain any Cysteines.

PROFILE: Matriz de sustitucin especfica para cada posicin de la secuencia (position specific
scoring matrix).
Dimensiones 20xL (L, longitud del patrn).
Tiene en cuenta la frecuencia de los aminocidos en cada posicin, as como sus propiedades
fsico-qumicas.
Descripcin cuantitativa del motivo.

PFAM: Quiere decir Protein families.

Es una base de datos que almacena alineamientos


mltiples de protenas y los HMMs derivados de ellos,
para la bsqueda de dominios conservados en familias
proteicas
Almacena informacin sobre dominios proteicos completos.
Para cada familia de dominios hay tres datos que se almacenan en
la base:
1- Un alineamiento mltiple (SEED) de un conjunto representativo de
secuencias (verificado manualmente)
2- Un HMM derivado de este alineamiento
3- Un segundo alineamiento automtico (FULL) generado a partir del
HMM alineado contra la base de datos de SwissProt. Este segundo
alineamiento contiene todos los miembros detectables de la familia.
HHM: Los anlisis basados en HMM (Hidden Markov Models) complementan los mtodos estndar
de comparaciones de a pares para el anlisis de secuencias en gran escala.

Los perfiles HMM convierten un alineamiento mltiple en un sistema de scores especficos de


posicin disponibles para la bsqueda de secuencias homlogas remotamente relacionadas en las
bases de datos.
Un HMM describe una distribucin probabilstica sobre una cantidad de secuencias
potencialmente infinita, dado que pueden reconocerse combinaciones no existentes en el modelo
original.
Es un modelo probabilstico, que nos permite resolver problemas lineales.
- El alineamiento mltiple es considerado una serie de residuos que conforman las secuencias.
- El HMM es el modelo que describe la probabilidad de que aparezca una secuencia dada (del
total de secuencias posibles).

ASI TRABAJA PFAM


TEORIA DELA INFORMACION: El modelo propuesto por Shannon es un sistema general de la
comunicacin que parte de una fuente de informacin desde la cual, a travs de
un transmisor, se emite una seal, la cual viaja por un canal, pero a lo largo de su viaje
puede ser interferida por algn ruido. La seal sale del canal, llega a un receptor que
decodifica la informacin convirtindola posteriormente en mensaje que pasa a
un destinatario. Con el modelo de la teora de la informacin se trata de llegar a determinar la
forma ms econmica, rpida y segura de codificar un mensaje, sin que la presencia de
algn ruido complique su transmisin. Para esto, el destinatario debe comprender la seal
correctamente; el problema es que aunque exista un mismo cdigo de por medio, esto no
significa que el destinatario va a captar el significado que el emisor le quiso dar al mensaje. La
codificacin puede referirse tanto a la transformacin de voz o imagen en seales elctricas o
electromagnticas, como al cifrado de mensajes para asegurar su privacidad. Un concepto
fundamental en la teora de la informacin es que la cantidad de informacin contenida en un
mensaje es un valor matemtico bien definido y medible. El trmino cantidad no se refiere a la
cuanta de datos, sino a la probabilidad de que un mensaje, dentro de un conjunto de
mensajes posibles, sea recibido. En lo que se refiere a la cantidad de informacin, el valor
ms alto se le asigna al mensaje que menos probabilidades tiene de ser recibido. Si se sabe
con certeza que un mensaje va a ser recibido, su cantidad de informacin es cero.3

ui log 2 f i

donde es la frecuencia de aparicin de cada smbolo

N N
Mi

i 1 M
ui f u
i 1
i i

donde N: cantidad total de smbolos del alfabeto

Mi: cantidad de un smbolo determinado

M: cantidad total de smbolos del mensaje

M
U f i log 2 f i
i 1
LOCAL COMPOSITION COMPLEXITY ( Se hace con tamao de ventana, es decir la ecuacin
anterior se usa para toda la composicin, esta ecuacin se usa por ejemplo para una ventana de
15 nucleotidos avanzando luego de a un nucletido para obtener un grafico)
M
LCC y f i log 2 f i
i 1

Generacin de un grfico consenso por integracin y


ajuste de los datos de LCC individuales

Ec. 2 (Ecuacin modificada)

LCC={{(1/L)*[N1*log2 (N1/L)+N2*log2 (N2/L)+N3*log2 (N3/L)+N4*log2 (N4/L)+N5*log2 (N5/L)]}*-1]/2

Donde: N1=cantidad de A; N2=cantidad de C; N3=cantidad de G; N4=cantidad de T; N5=cantidad de


GAPS

SEQUENCE LOGOS (representacin grfica del


contenido informativo de un
alineamiento mltiple)

U previa U posterior Rsecuencia L

Donde Rsecuencia(L)
(contenido informativo de la columna)
ABUNDANCIA RELATIVA (GENOMIC SIGNATURE)

El anlisis simtrico no se usa ms, se usa el no simtrico:

f
XY XY
f f
X Y

Donde:

fXY= frecuencia del dinucletido XY


en la hebra en anlisis

fX = frecuencia del nucletido X

fY = frecuencia del nucletido Y

EJEMPLO

f
GT GT
f f
G T

Pxy >1,23 ->sobreabundancia

1,23>Pxy < 0,78 rango esperable por azar

Pxy < 0,78 subabundancia

Parches cortos (entre 100 bp y varios kb) ricos en %G+C pueden tener significado biolgico Los
exones y mas marcadamente la regin promotora se suelen desmarcar de su entorno mediante un
G+C mas alto Las retro-transposones Alus son ricas en G+C Un regin rica en G+C en una
Bacteria rica en A+T puede indicar un evento de transferencia horizontal Isocoras en los
genomas de muchos mamferos
Prediccin de zinc fingers basada en la frecuencia de H y C y la distribucin

Asimetra en la distribucin de G vs C en Escherichia coli

El clculo es (C-G)/(C+G) en ventanas


de 50 kb, desplazadas 5 kb
LAS MATRICES SON BLOSSUM 62 para prot y PAM 70 para nucleotidos

También podría gustarte