Está en la página 1de 39

Alineamiento:

Alineamiento:
Anlisis computacional de
Anlisis computacional de
secuencias
secuencias
Andrs M. Pinzn
Andrs M. Pinzn
Centro de Bioinformtica
Centro de Bioinformtica
Instituto de Biotecnologa
Instituto de Biotecnologa
Universidad Nacional de Colomia
Universidad Nacional de Colomia

Por qu y para qu...
Tengo una secuencia de DNA/Protena...
... es esta secuencia homloga a otra(s) secuencia(s)?
... o tal vez tiene una funcin idntica o similar a otra(s)?
... quizs tiene una estructura comn con otras secuencias! como
dominios o motivos ?
"l Alineamiento de Secuencias me #ermite res#onder estas $
otras #reguntas.
"s el #rocedimiento ms com%n en &ioin'ormtica

En qu consiste un
En qu consiste un
alineamiento de secuencias?
alineamiento de secuencias?

Eisten diferentes tipos de
Eisten diferentes tipos de
alineamientos...
alineamientos...
!e acuerdo al nmero de secuencias a alinear"

Pareado ((())

*%lti#le (+))

!e acuerdo a la regin a alinear"

,ocal (su& regi-n de la secuencia)

.lo&al (secuencia com#leta)



#mo luce un alineamiento de
#mo luce un alineamiento de
secuencias?
secuencias?

Similaridad$ identidad y homologia
Similaridad$ identidad y homologia
Similaridad es una cantidad o%serva%le que puede ser
epresada
como$ por e&emplo$ un porcenta&e de identidad.
'omologia es una conclusin %asada$ en parte$ en la similaridad
y de la que se infiere una relacin evolutiva entre nuestras secuencias.
(n gen es o no es homlogo )* eiste un +porcenta&e de
homologia,.

-a divergencia ocasiona que el parecido
-a divergencia ocasiona que el parecido
entre secuencias se aproime
entre secuencias se aproime
asintticamente al a.ar
asintticamente al a.ar
0
10
20
30
40
50
60
70
80
90
100
Protena
DA
100 300 200 400
0
10
20
30
40
50
60
70
80
90
100
Tiempo en PAMs
Protena
DNA

Al aumentar la divergencia se dificulta distinguir homlogos de no


homlogos.

-as comparaciones de prote/na conservan mas informacin que las


de A!) y pueden detectar homolog/a mas remota.

'erramientas y algoritmos
'erramientas y algoritmos
para alineamiento de
para alineamiento de
secuencias
secuencias

!os algoritmos fundamentales... !os algoritmos fundamentales...

/mit0 and 1aterman (local)

Needleman 2unsc0 (glo&al)! 34567 genera un


alineamiento -#timo a%n introduciendo ga#s.
Aproimaciones heur/sticas de Smith and Aproimaciones heur/sticas de Smith and
0aterman" 0aterman"

8A/TA (Pearson and ,i#man! 3449)

:,A/T (altsc0ul et al.! 3446)



Elementos caracter/sticos de un
Elementos caracter/sticos de un
alineamiento
alineamiento

-o que %uscamos con un alineamiento ptimo es -o que %uscamos con un alineamiento ptimo es
reducir al m/nimo los +gaps, y los reducir al m/nimo los +gaps, y los
+mismatches, y maimi.ar los +matches, +mismatches, y maimi.ar los +matches,
Para lograrlo se de%e implementar una Para lograrlo se de%e implementar una
manera de +calificar, el alineamiento manera de +calificar, el alineamiento
con %ase en esas 1 varia%les2 con %ase en esas 1 varia%les2
En definitiva...
En definitiva...

!e%en definirse para poder cuantificar la similitud
entre dos cadenas S y T.
As/ para cada alineamiento se calcula un nmero
que$ a mayor valor$ represente la mayor
significancia 3%iolgica4
(na ve. definido el sistema a usar$ la puntuacin
(score) de una pare&a de caracteres s,t alineados se
define como p(s,t)
!"!#$%A! D$ P&#&A'"(
!"!#$%A! D$ P&#&A'"(

!"!#$%A! D$
!"!#$%A! D$
P&#&A'"(
P&#&A'"(
Puede ser un esquema sencillo como (#ara DNA)7
A
*atc0 ( 3
*ismatc0 ( ;)
5
*atc0 ( 3
Transici-n ( ;3.<
Transversi-n ( ;) Purinas7 Adenina ; 6uanina
Pirimidinas7 7imina ; #itosina
#
*atc0 ( 3
Transici-n ( ;3.<
Transversi-n ( ;)
.a# =#ening( ;<
.a# e>tension ( ;)
El sistema para puntear los apareamientos El sistema para puntear los apareamientos
entre AA de%e refle&ar su relacin qu/mica y entre AA de%e refle&ar su relacin qu/mica y
%iolgica %iolgica

'ontienen )alores proporcionales a la
pro*a*ilidad de +ue un aminocido ,i,sea
su*stitudo por un aminocido ,-,. calculados
para todos los pares de aminocidos posi*les/
%A#0"'$!
%A#0"'$!
D$ !&!#"#&'"(
D$ !&!#"#&'"(
"l trmino ?sustitucin@ indica que el o&Aetivo de
#untear un a#areamiento es valorar el coste evolutivo $
'uncional de cam&iar un residuo #or otro

A 6 # 7
A 8 98.: 9; 9;
6 98.: 8 9; 9;
# 9; 9; 8 ?
7 9; 9; ? 8
&na matri1 sencilla///
&na matri1 sencilla///

)o hay una matri. nica que se pueda usar siempre.
Se utili.an segn la familia de prote/nas y el grado de
similitud esperado.
-as m<s utili.adas.
PA=7 Percent Accepted Mutation Matrix
Derivadas de alineamientos glo&ales de secuencias cercanamente
relacionadas.
PA*B6 PA*)<6. A ma$or NC ma$or distancia evolutiva
5-*S(=
Derivadas de alineamientos locales de secuencias distantes
:,=/D*46 :,=/D*B< "l NC re#resenta #orcentaAe de identidad
#ipos de
#ipos de
matrices///
matrices///

PA=
PA=
Porcenta&e de mutaciones aceptadas
Porcenta&e de mutaciones aceptadas
,a cuesti-n era o&servar qu sustituciones ocurrian entre
#rotenas 0om-logas.
Acce#ted Point *utation (PA*)7 cam&io! en una #rotena!
de un aa #or otro que 0a sido Eace#tadoE #or la selecci-n
natural (/N).
los cam&ios ms ace#tados #or la /N son los de ti#o
conservativo! eA. isoleucina #or valina (0idro'F&icos $ de
tamaGo similar).
Permite relacionar 'amilias de #rotenas #or su distancia
evolutiva.

PA%12PA%250
PA%12PA%250

Hon &ase en las #ro&a&ilidades de ocurrencia de cada aa se


gener- una matrz de #ro&a&ilidad de mutaci-n.

Pro&a&ilidad de que un aa sea mutado en otro! durante un #eriodo


evolutivo de'inido.

Dn intervalo de estos es #or eAem#lo de 3 PA*7 E,a unidad de


divergencia evolutiva en la que 3I de los aa 0an sido cam&iados
entre ) secuencias dadasE.

Notar que la unidad N= est dada en aGos! sino en I de


divergencia.

PA* )<67 distancia evolutiva en la que las #roteinas com#arten


cerca del )6I de identidad. "s decir en la que el 96I de los aa se
0an cam&iado.


345!&%
345!&%
6matri1 de sustituci7n de *lo+ues8
6matri1 de sustituci7n de *lo+ues8
/teve JeniKo'' (344))
,os valores estn &asados en la o&servaci-n de
'recuencias de su&stituci-n en &loques de A,LN"A*L"NT=/
,=HA,"/ de #rotenas relacionadas
De esta manera se en'oca en las regiones conservadas.
:,=/D*M)! une todas las #roteinas en un alineamiento
que +(M)I de identidad en sus aminocidos.
se #enalizan ms #ara aquellas secuencias que com#arten
menos del M)I de identidad.

345!&%62 !u*stitut ion !corin9 %atri: . !"e B#$%UM &' matri( s"o)n "ere is a '* ( '*
matri( of )"ic" a section is s"o)n "ere in )"ic" ever+ ,ossile identit+ and sustitution is
assigned a score ased on t"e oserved fre-uencies o suc" occurences in alignments of
related ,roteins. Identities are assigned t"e most ,ositive scores. .re-uentl+ oserved
sustitutions also receive ,ositive scores and seldom oserved sustitutions are given
negative scores.

345!&% 62
345!&% 62
"l n%mero 0ace re'erencia al mnimo
#orcentaAe
de 0omologa de los &loque usados
#ara construir la
*atriz.
:,=/D* M) 'ue calculada a #artir de
la com#araci-n de secuencias con una
divergencia mnima de M)I

Permiten detectar las meAores
secuencias con relaci-n &iol-gica
Hada matriz es el resultado del anlisis
de un alineamiento de &loques
conservados (anlisis real)
,as matrices son e>tra#olaciones
matemticas de la matriz PA*3
No #ermite generar un modelo evolutivo "s #osi&le montar un modelo evolutivo
$ as generar nuevas matrices a #artir
de la #rimera
Puede seleccionar un nivel de
similaridad entre las secuencias usadas
en el anlisis
/ecuencias de #rotenas usadas en
alineamiento tienen +44I de
identidad
Halculada a #artir de alineamientos
locales
Halculada a #artir de alineamientos
glo&ales
345!&% PA%

P$A4";A'"( P50
P$A4";A'"( P50
<=AP!>
<=AP!>
En un sistema de puntuacin es importante definir el
coste de insertar o eliminar un residuo$ lo que en el
alineamiento aparece como un hueco 3+gap,4
Suele penali.arse diferente
el primer hueco 3+gap opening,4
que los restantes 3+gap etension,4 que parten de l
-a variacin de estos par<metros puede tener
efectos importantes en el alineamiento final

$?$'#5 D$4 @A450 D$ 4A
$?$'#5 D$4 @A450 D$ 4A
P$A4";A'"(
P$A4";A'"(
*uc0as inserciones #equeGas
Adecuado si se trata de #rotenas
distantes
.rande PequeGo
Algunas inserciones grandes
Adecuado si 0a$ la #osi&ilidad que se
0a$an insertado dominios com#letos
PequeGo .rande
Pocas inserciones o eliminaciones
Adecuado #ara #rotenas mu$
relacionadas
.rande .rande
#omentario
#osto de
etensin
del gap
#osto de
apertura
de gap


Aerramientas
Aerramientas
para alineamiento
para alineamiento

Alineamiento local

0ater

)#5>95-AS7$ ?(95-AS7

@AS7A
Alineamiento glo%al"

needle 3E=5*SS4
Alineamiento mltiple"

clustal90

=(S#-E

79#*@@EE

Bttp:22*ioinC/i*un/unal/edu/co2dotlet2
Bttp:22*ioinC/i*un/unal/edu/co2dotlet2

*atriz "ntrada Noom

T
a
m
a
G
o

d
e

v
e
n
t
a
n
a
Aentana de puntos
'istograma
Aentana de alineamiento

#ada piel representa un residuo 3$y4.
#ada piel representa un punta&e.
(n alto punta&e BB %uen +match,.
5a&o Alto

'istograma
'istograma
Cepresenta la frecuencia de cada score
"scal
a
lineal
"scala
logaritmica
Punta&es m<s %a&os Punta&es m<s %a&os
(ma$ora de #i>eles)
Punta&es m<s altos Punta&es m<s altos
(minora de #i>eles)

5-AS7 5-AS7
5asic -ocal Alignment Search 7ool 5asic -ocal Alignment Search 7ool
http"DD%last.0ustl.eduD
http"DDnc%i.nlm.nih.govD5-AS7D






7ACEA2222 7ACEA2222
http"DD000.nc%i.nlm.nih.govD%lastDhtmlDsu%Ematri.htm http"DD000.nc%i.nlm.nih.govD%lastDhtmlDsu%Ematri.htm
l l

También podría gustarte