Está en la página 1de 78

Alineamientos de

Mltiples secuencias
Bioinformtica
Grado en Biotecnologa

Introduccin
Alineamientos por pares
Comparacin de dos secuencias entre s
BLAST
Comparacin por pares de una secuencia con muchas otras
almacenadas en una base de datos
Se buscan muchos alineamientos locales de pares de secuencias
que sean significativos
Multiple Sequence Alignment (MSA)
Comparacin de varias secuencias simultneamente, no por
parejas

Definiciones
MSA: coleccin de tres o ms secuencias de aminocidos

o nucletidos que estn completa o parcialmente


alineadas
Los residuos homlogos son alineados en columnas a lo
largo de toda la secuencia
Provienen de un ancestro comn
Ocupan un lugar relevante para la estructura 3D de la protena
Tienen una funcin concreta

Ejemplos
GAPDH
HomoloGene:107053
Casein kappa
HomoloGene:3818

Procedimiento prctico
Elegir las secuencias (homlogas) a alinear
Elegir un software que implemente la funcin de

puntuacin objetivo apropiada


Mtrica que maximice la puntuacin total de usa serie de

alineamientos por pares

Elegir los parmetros apropiados para la ejecucin


Penalizacin de huecos
Matriz de sustitucin

MSA correcto
No tiene por qu existir un alineamiento correcto de una

familia de protenas
Las estructuras evolucionan normalmente mucho ms
lentamente que las secuencias
Ejemplo: beta globina y mioglobina humana
25% identidad
Estructura tridimensional casi idntica
NP_000509 vs NP_005359
Alineamiento tridimensional no posible
Incluso a veces no se dispone de la estructura 3D

Usos de MSA (I)


Protena relacionada con un grupo de protenas
Ser informativo acerca de funcin, estructura y evolucin
La mayora de las protenas tienen miembros

relacionados distantes
MSA mejor que alineamiento por pares
Perfiles y HMMs

Bsqueda en bases de datos con BLAST


Puede hacerse un MSA para detectar motivos conservados?

Usos de MSA (II)


PopSet en Entrez
Contiene secuencias de nucletidos y protenas vistas como MSAs
Despus de la secuenciacin de un genoma
Deteccin de familias de protenas
Un MSA es el punto de partida para la construccin de rboles

filogenticos

Un MSA es el punto de partida para la identificacin de familias

y motivos que luego pueden ser almacenados en una base de


datos

Benchmarking
Varias categoras de algoritmos de construccin de MSAs
Mltiples variantes de esos algoritmos
Muchas posibles elecciones de parmetros e ejecucin
http://en.wikipedia.org/wiki/List_of_sequence_alignment_software

Cul es el mejor?
Comparacin con estructuras 3-D conocidas
Identidad
> 40% : Los resultados suelen ser muy similares
< 40% : Los resultados pueden ser muy variables

Funcin de puntuacin objetivo (I)


Alineamiento de N secuencias y M columnas
1

M
1

Este alineamiento es mejor o peor que otro?


Mtrica: Suma de pares (Sum-of-pairs score SPS)

Funcin de puntuacin objetivo (II)


Dado:
Un conjunto de N secuencias alineadas cada una de longitud M, en la forma de
una matriz A de alineamiento NxM
Una matriz de sustitucin (PAM, BLOSUM u otra) que da la puntuacin s(x,y)
para alinear x,y
Entonces el SP score SP(Ai) para la ith columna de A (Ai) es calculada

segn la expresin

SP(Ai ) = ! s(Aki , Ali )


k<l

Para el alineamiento completo

SP(A) = " SP(Ai )


i

Ejemplo: SPS MSA nucletidos

Ejemplo: SPS MSA aminocidos

Datos para benchmark de MSA

Algoritmos
Categoras:
Mtodos exactos
Alineamientos progresivos
ClustalW

Aproximaciones iterativas
PRALINE, IterAlign, MUSCLE

Mtodos basados en la consistencia


MAFFT, ProbCons

Mtodos basados en la estructura


Expresso

Las categoras no son excluyentes

Mtodos exactos
Se basan en programacin dinmica, al igual que NW y SW, pero

utilizando una matriz N-dimensional


Carrillo & Lipman, 1988
Lipman et al., 1990
Gupta et al, 1995

Slo para un limitado de secuencias

Complejidad computacional

O(2 N LN )

Mtodos progresivos
Fitch & Yasunobu (1975)
Hogeweg & Hesper (1984)
Feng & Doolittle (1987, 1990)
Progresivo
Se calculan los alineamientos por pares entre todas las secuencias
Se elige el mejor alineamiento por pares
Se van aadiendo progresivamente ms secuencias al MSA
Ventajas
Rapidez
Desventaja
El resultado final depende del orden en que se van aadiendo las
secuencias

ClustalW
Sitio Web para ejecutar el programa
http://www.ebi.ac.uk/Tools/msa/clustalw2/

Vamos a ver un primer ejemplo con 5 globinas divergentes


http://bioinfbook.org/chapter6/Webdocument_6-3_5divergent_globins.htm

>beta_globin 2hhbB NP_000509.1 [Homo sapiens]!


MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG!
AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVAN!
ALAHKYH!
>myoglobin 2MM1 NP_005359.1 [Homo sapiens]!
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVL!
TALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFR!
KDMASNYKELGFQG!
>neuroglobin 1OJ6A NP_067080.1 [Homo sapiens]!
MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYNCRQFSSPEDCLSSPEFLDHIRKVML!
VIDAAVTNVEDLSSLEEYLASLGRKHRAVGVKLSSFSTVGESLLYMLEKCLGPAFTPATRAAWSQLYGAV!
VQAMSRGWDGE!
>soybean_globin 1FSL leghemoglobin P02238 LGBA_SOYBN [Glycine max]!
MVAFTEKQDALVSSSFEAFKANIPQYSVVFYTSILEKAPAAKDLFSFLANGVDPTNPKLTGHAEKLFALV!
RDSAGQLKASGTVVADAALGSVHAQKAVTDPQFVVVKEALLKTIKAAVGDKWSDELSRAWEVAYDELAAA!
IKKA!
>rice_globin 1D8U rice Non-Symbiotic Plant Hemoglobin NP_001049476.1 [Oryza sativa (japonica cultivar-group)]!
MALVEDNNAVAVSFSEEQEALVLKSWAILKKDSANIALRFFLKIFEVAPSASQMFSFLRNSDVPLEKNPK!
LKTHAMSVFVMTCEAAAQLRKAGKVTVRDTTLKRLGATHLKYGVGDAHFEVVKFALLDTIKEEVPADMWS!
PAMKSAWSEAYDHLVAAIKQEMKPAE!
!

ClustalW: Paso 1

1
( N !1) N
2

Generar todos los alineamientos por pares posibles

ClustalW: Paso 2
Crear un rbol gua

Parntesis: clustering
Algoritmo de Johnson
Lo veremos en detalle en el

tema de rboles
filogenticos

ClustalW: Paso 3
Se seleccionan la dos secuencias ms prximas segn el rbol gua
Se realiza el alineamiento por pares que da lugar a un perfil de dos

secuencias
Se selecciona el siguiente par ms prximo
Opcin 1: Si ninguna secuenca coincide con las anteriores se hace un

nuevo alienamiento por pares y se genera un nuevo perfil de dos


secuencias
Opcin 2: Si alguna secuencia coincide con las anteriores se crea un
perfil de tres secuencias
A medida que se va avanzando en el rbol gua ser necesario hacer

nuevos alineamientos:
Secuencia con secuencia
Secuencia con perfil
Perfil con perfil

Programacin dinmica

ClustalW: Paso 3
Resultado del alineamiento

Salida de ClustalW

Huecos en ClustalW
Poltica del algoritmo de Feng-Doolittle:
once a gap, always a gap
Los primeros alineamientos marcan en gran medida los huecos
que van a existir en el MSA
El resultado tiende a presentar estructura de bloques
Hay variantes posteriores que intentan minimizar la importancia de
los gaps de los primeros alineamenteos
Las secuencias que son muy prximas se les da un peso

menor (ClustalW)
Se intenta que las secuencias muy prximas no dominen

absolutamente el resultado del MSA final

Aproximaciones iterativas
Calculan una solucin subptima una estrategia progresiva
Modifican la solucin con distintas tcnicas hasta que la solucin

converge hacia un MSA mejorado


Intentan corregir los errores en las decisiones que pueden haberse
tomado en una estrategia progresiva
Ejemplos
MAFFT(Multiple Alignment using Fast FourierTransform)(Katoh et al.,

2005)
Iteralign (Karlin and Brocchieri, 1998)
Praline (Profile ALIgNmEnt) (Heringa, 1999; Simossis and Heringa, 2005)
MUSCLE (MUltiple Sequence Comparison by Log-Expectation) (Edgar,
2004a, 2004b).

MUSCLE Paso 1
Se genera un rbol gua borrador
Medida de distancias entre pares de secuencias
Identidad
k-mers counting

Matriz triangular de distancias


Construccin de un rbol enraizado (UPGMA o NJ)

Las secuencias se van aadiendo progresivamente

siguiendo el rbol gua

MUSCLE Paso 2
Medida de distancias (identidad) entre los pares de

secuencias segn el alineamiento del paso anterior


Se genera un nuevo rbol gua utilizando una matriz de
distancias de Kimura (se ver en el captulo siguiente)
El rbol es comparado con el del paso anterior y se utiliza
la informacin para mejorar el rbol gua
Se rehace el alineamiento progresivo siguiendo el nuevo
rbol gua
Este paso es iterativo hasta que no se consiga mejora en
el rbol gua

MUSCLE Paso 3
Se elimina una de las ramas de forma que se divide el

rbol en 2 subconjuntos o perfiles


Los dos perfiles se alinean entre s y por ltimo la
secuencia retirada y se ve si mejora la puntuacin
Este proceso se repite para cada una de las ramas,
generando los dos subconjuntos correspondientes y
eligiendo el rbol que da una mejor puntuacin
El proceso se repite de nuevo iterativamente un nmero
de veces o hasta convergencia

=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H

Steps in MUSCLE

!"#$

Stage 1: Draft progressive

Stage 2: Improved
progressive

Stage 3: Refinement

,(%-'. "/ >'2% 12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
>'$-$ )-$ !'-$$ 8)20 %!),$%L G!),$ C ;1-)4! #-.,-$%%26$<& G!),$ R

=@AB+"A CA"71 9+1+)/AD- 4EEF- G0B< 84- =0< H

MUSCLE Stage 1

1.1 Compute k-mer distance matrix


1.2 Use UPGMA to make tree (TREE1)
1.3. Use guide tree to make first MSA

!"#$

K-mer distance
Let k=2

Sequence

2-mers

AKFLA

AK,KF, FL,LA

LKFL

LK, KF, FL

K-mer distance is defined from common fractional k-mer

count (F)

# of instances in
sequence 1

F =

A k-mer

min(n1 ( ), n2 ( ))
min(n, m) k + 1

Length of sequences

D=1-F

# of instances in
sequence 1

K-mer distance example


Sequence

2-mers

AKFLA

AK,KF, FL,LA

LKFLFL

LK, KF, FL,LF,FL

K-mer ()

# in sequence 1

# in sequence 2

Min(n1(t),n2(t))

AK

KF

FL

LA

LK

LF

2
1+1
=
F =
min(5, 6) 2 + 1 4

Stage 2: Improved progressive

2.1 Recompute similarity of sequences of pairs using mutual alignment


in MSA
2.2 Construct a phylogenetic tree (TREE2) using an alignment-based
distance
2.3 Build a new progressive alignment only for subtrees where
branching order has changed between TREE1 and TREE2
2.4 Repeat 2.3 until number of reordered nodes does not decrease.

,(%-'. "/ >'2% 12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=

Stage 2.1. Recomputing pairwise sequence similarity


from a multiple alignment
Derived pairwise alignment
TGTTAAC
TGT-AAC

An MSA
-TGTTAAC
-TGT-AAC
-TGT--AC
ATGT---C
ATGT-GGC

Exclude gaps in
both sequences

Fraction identity
6/7

TGTTAAC
TGT--AC

5/7

-TGTTAAC
ATGT---C

4/8

-TGTTAAC
ATGT-GGC

4/8

substitution at a single site to be the only allowe


mutation and that no position mutates more tha
sequences
diverge, there
an increasing proba
Stage As
2.2:
Phylogenetic
treeiscreation
multiple mutations at a single site. To correct for
Construct a
phylogenetic
tree usingdistance
a Kimura distance
use
the following
estimate [22]:
dKimura = -loge (1 - D - D2/5)

(3)

D: fractional
sequences
Foridentity
D d of0.25
we use

a lookup table taken from th


TALW source code. For k-mer measures, we use:
dkmer = 1 - F.

(4)

Tree construction
Given a distance matrix, a binary tree is constr
clustering. Two methods are implemented: neighb

Stage 2.3 Re-align only when branching


order is changed
!"#$!%&%'(&)*+,%-.!"##$%!!&''(

)**+&,,---./01234536*

Recompute alignment
u
for these nodes

t
u

x
w

w
new tree

old tree
x

Figure
Tree
comparison
5
Tree comparison. Two trees are compared in order to
identify those nodes that have the same branching orders
within subtree rotation (white). If a progressive alignment
has been created using to the old tree, then alignments at
these nodes can be retained as the same result would be

ure 4). The option of always appl


MAFFT, is also provided. We foun
of a half penalty for terminal gap
Branching
same
wide rangeorder
of input
data, but tha
could sometimes by achieved by t
If the length ratio of the two profi
a threshold (by default, 20%), th
four different alignments in whic
neither terminals are fully penaliz
Branching
order different:
defined by subtracting all gap pen
x branches
before
terminal) from
the v
alignment sc
profile functions only. The align
conservation score is used.

Tree comparison
In progressive alignment, two sub
tical alignments if they have the s
their leaves and the same branch
We exploit this observation to o

%
1
)
$
$
$
%=

!
$

Stage 3: Iterative Refinement

3.1 Select a branch


,(%-'.
"/ >'2%profiles
12),-)8 %/88)-2X$% !'$ [.K .4 !'$ EFGHIJ )3,.-2!'8=
3.2 Extract
>'$-$ )-$ !'-$$ 8)20 %!),$%L G!),$ C ;1-)4! #-.,-$%%26$<& G!),$ R
3.3 Re-align profiles
;28#-.6$1 #-.,-$%%26$< )01 G!),$ ] ;-$90$8$0!<= Q 8/3!2#3$ )32,08$0! 2%
3.4 Update
if its score
is better
than
current
)6)23)(3$
)! !'$MSA
*.8#3$!2.0
.4 $)*'
%!),$& )!
K'2*'
#.20!MSA
!'$ )3,.-2!'8 8)"
!$-820)!$=

3.1 Selecting a branch


Select a branch in order of decreasing distance from the

root

MQTIF
LH-IW

MQTIF

2
LHIW

MQTIF
LH-IW
LQS-W
L-S-W

3
LQSW
L-SW

Branch selection order: 1,2,3,4,5,6

LQSW

4
LSF

3.2 Extracting a profile


5

MQTIF
LH-IW

MQTIF

Re-align profiles
for subtrees

MQTIF

LHI-W
MQTIF
LQS-W
L-S-W

LHIW
MQTIF
LH-IW
LQS-W
L-S-W

Delete
branch 1

3
LQSW
L-SW

LQSW

LH-IW
LQS-W
L-S-W

Is score better?

4
LSF

yes
Keep new
alignment

Discard

3.2 Extracting a profile


5
MQTIF
LH-IW
LQS-W
L-S-W

MQTIF
LH-IW

MQTIF

Re-align profiles
for subtrees

LHIW

2
LHI-W
MQTIF
LQS-W
L-S-W

LHIW
Delete
branch 2

3
LQSW
L-SW

MQTIF
LQS-W
L-S-W

LQSW
Is score better?

4
LSF

yes
Keep new
alignment

Discard

Summary of MUSCLE
Three stage algorithm
Stage 1: Draft progressive
k-mer distance
UPGMA tree (TREE1)
Guide tree based alignment (MSA1)
Stage 2: Improved progressive
Distance derived from MSA1
UPGMA tree (TREE2)
Redo alignment for nodes with changed orderings
Repeat until number of re-ordered nodes does not change
Stage 3: Iterative refinement
Generate subtree profiles
Realign profiles
Keep realignment if of higher score
Repeat until no more improvement or fixed number of steps.

Aproximaciones basadas en la
consistencia
Consistencia
Dadas tres secuencias x, y, z, si el residuo xi alinea con zk y zk
alinea con yj, entonces xi debera alinear con yj
Mtodos
ProbCons (Do et al., 2005)
T-Coffee (Notredame et al., 2000).

T-Coffee
Clculo de una biblioteca de alineamientos por pares
Todos los pares de alineamientos globales posibles (NW)
Los diez mejores alineamientos locales (SW)
A cada uno de los pares de residuos alineados se les

asigna un peso
Se genera una biblioteca ampliada que sirve como una position-

specific substitution matrix (PSSM)

A continuacin se calcula un alineamiento progresivo:


Creando una matriz distancias
Calculando un rbol gua (NJ)
Utilizando programacin dinmica y la matriz de sustitucin
calculada anteriormente

Aproximaciones basada en estructuras


Se puede mejorar la precisin de un MSA incluyendo

informacin acerca de de estructuras 3D de uno o ms


miembros del grupo de protenas que se van a alinear
Mtodos:
PRALINE (Simossis and Heringa, 2005)
T-Coffee module Expresso(Armougom et al., 2006b)
PipeAlign (Plewniak et al., 2003)

Expresso y iRMSD-APDB
Expresso
Para cada secuencia se lanza un BLAST contra PDB
Las coincidencias con >60% identidad se utilizan como un patrn para

crear el MSA

iRMSD-APDB
Se deben proporcionar los accesion number en PDB de al menos
dos de las protenas que se van a alinear

Secuencia de consenso y Logos

Perfiles
Se lleva a cabo un MSA en un conjunto de secuencias
Se seleccionan las regiones ms altamente conservadas

y se construye un MSA ms pequeo


Se construye una matriz de puntuacin a partir del MSA
PERFIL

Perfiles: ejemplo

Perfiles en Prosite

Patrones
Sintaxis para expresar patrones (PROSITE)
Residuo nico A
Conjunto de residuos [ACD]
Residuos excluidos {FHW}
Comodn x
Longitud del comodn x(3)
Longitud variable x(3,6)
Ejemplo
x(3)-[DE]-[AVLI]-x(4)-[RKH]-[VFWH]-x(3)!
X X X D A X X X X R V X X !

E V
I
L

K F!
H W!
H!

Patrones: limitaciones (I)


A C A - - - A T G
T C A A C T A T C
A C A C - - A G C
A G A - - - A T C
A C C G - - A T C

[AT] [CG] [AC] [ACGT]* A [TG] [GC]

Patrones: limitaciones (II)


A C A - - - A T G
T C A A C T A T C
A C A C - - A G C
A G A - - - A T C
A C C G - - A T C
[AT] [CG] [AC] [ACGT]* A [TG] [GC]
No distingue entre:
T G C T - - A G G

excepcional

A C A C - - A T C

consenso

Patrones vs perfiles
Patrones
Fciles de comprender
Legibles por los humanos
Pueden ser de gran longitud y con huecos variables
Perfiles
Ms sensibles
Pueden ser construidos automticamente
Requieren secuencias de entrenamiento suficientes (mnimo 20)
Se puede estimar la significacin estadstica fcilmente

Patrones en Prosite

Modelos ocultos de Markov (HMM)


Hidden Markov Models
Muy utilizados tradicionalmente en
problemas de reconocimiento automtico
del habla

Andrei Andreevich Markov


18561922

1989 Gary Churchill


Introduce su uso para el anlisis de
secuencias
Utiliza HMMs para segmentar una secuencia

de DNA en regiones alternativas con


distribucin de uso de nucletidos similares
Hoy en da los HMMs son utilizados para

gran nmero de tareas en Bioinformtica y


es uno de los mtodos ms importantes
junto con los mtodos de alineamientos de
secuencias
Gary Churchill

HMM: Un ejemplo sencillo (I)


Loaded
Fair

Probabilidades
de transicin

Modelo
de
Markov

Probabilidades
de emisin
Modelo multinomial

HMM: Un ejemplo sencillo (II)


L
F

Secuencia observable

4553653163363555133362665132141636651666

?
OCULTO

FFFFFFFFFFFFFFFFFFFFLLLLFFFFFFFLLLLLLLLL

Un HMM a partir de un alineamiento (I)


ACA
TCA
ACA
AGA
ACC

- - - ATG
ACT ATC
C - - AGC
- - - ATC
G - - ATC

Probabilidades
de transicin

Nodo de insercin

insercin

Probabilidades
de salida

node 1

node 2

node 3

node 4

El grosor depende de la
probabilidad de transicin

node 5

node 6

HMM: Match states


A
T
A
A
A

C
C
C
G
C

A
A
A
A
C

A
C
G

C
-

T
-

A
A
A
A
A

T
T
G
T
T

G
C!
C!
C!
C!

Posiciones con alta


conservacin: match states

HMM: Nodos de insercin


Las columnas 4, 5, 6 son las

A
T
A
A
A

C
C
C
G
C

A
A
A
A
C

A
C
G

C
-

T
-

A
A
A
A
A

T
T
G
T
T

G
C!
C!
C!
C!

inserciones
En la cuarta columna, 3 de 5
secuencias tienen inserciones
La probabilidad de transicin del tercer

nodo, al nodo de insercin ser 0.6

En el nodo de insercin hay 1 A, 2

Cs, 1 G, 1 T

Las probabilidades de A,C,G,T son 0.2,

0.4, 0.2, 0.2

Transiciones hacia fuera del nodo de

insercin

3 de las 5 inserciones terminan a

continuacin la insercin
La probabilidad de abandonar la
insercin es 0.6

HMM: clculo de la probabilidad de una


secuencia

Pr(ACACATC) = 0.8 1 0.8 1 0.8 0.6 0.4 0.6 1 1 0.8 1 0.8 0.047
Dos usos
Clculo de la probabilidad de una secuencia
Generacin de secuencias con una probabilidad dada

HMM: probabilidad de varias secuencias


Secuencia

Prob %

ACACATC

4.7

Secuencia 1

ACA---ATG

3.3

Secuencia 2

TCAACTATC

0.0075

Secuencia 3

ACAC--AGC

1.2

Secuencia 4

AGA---ATC

3.3

Secuencia 5

ACCG--ATC

0.59

Excepcional

TGCT--AGG

0.0023

Consenso

HMM y probabilidades
Sesgadas por la longitud de la secuencia
0.047
para ACAC--ATC
0.000075 para TCAACTATC
Normalizar para la longitud
L longitud de la secuencia
Dividir la probabilidad por (0.25)L
odd ratios

Tomar el logaritmo del odd ratio: log-odds score

log odd para secuencia S = log

P( S )
= log P( S ) L log 0.25
L
0.25

HMM: probabilidad y log-odd scores


Secuencia

Prob 100

log-odds

Consenso

ACAC--ATC

4.7

6.7

Secuencia 1

ACA---ATG

3.3

4.9

Secuencia 2

TCAACTATC

0.0075

3.0

Secuencia 3

ACAC--AGC

1.2

5.3

Secuencia 4

AGA---ATC

3.3

4.9

Secuencia 5

ACCG--ATC

0.59

4.6

Excepcional

TGCT--AGG

0.0023

-0.97

HMM: log-odd de una secuenca

log-odds(ACACATC) = 1.16 + 0 + 1.16 + 0 + 1.16 - 0.51 +0.47 - 0.51 +


1.39 + 0 + 1.16 + 0 + 1.16 = 6.64

Profile HMM (I)

Profile HMM (II)


Match states o main states
Modela columnas del alineamiento de zonas conservadas
La probabilidad de distribucin es justamente la frecuencia del aminocido

o nucletido en la muestra que genera el MSA


Insert states
Modela regiones altamente variables en el alineamiento
Puede utilizarse una distribucin fija de residuos o basarse en la muestra

que genera el MSA


Delete states
No modela ningn residuo
Hacen posible un salto hacia una o ms columnas en el alineamiento
En realidad modela situaciones en que unas pocas secuencias tienen -

en el MSA en una posicin

pHMM: ejemplo (I)

delete states

insercin

Zonas altamente conservadas

pHMM: ejemplo (II)

Transiciones
Sin flecha: transiciones de izq a der
De un estado de insercin a l mismo no se muestran
La probabilidad *100 se muestra en el diamante

Probabilidades:
0 no mostradas
Muy pequea lnea de puntos
Estados de borrado
Indican nicamente la posicin

HMMER 3.0

HMMER 3.0: phmmer

HMMER 3.0: hmmscan

HMMER 3.0: hmmsearch

Pfam - alineamientos

Pfam modelos (I)

Pfam modelos (II)

Pfam modelos: Logos (III)

También podría gustarte