Está en la página 1de 36

Relaciones evolutiva entre protenas

Evolucin de secuencias de protenas


Qu fenmenos hacen que las secuencias de protenas cambien
en el tiempo (evolucionen)?
MUTACIONES:
-Inserciones
-Deleciones
-Sustituciones

El resultado de estos procesos produce secuencias HOMLOGAS

Sec. 4

Sec. 3

Sec. 5

Sec. 6

Sec. 7

Sec. 1

Sec. 2

Sec. ancestral
HOMOLOGA: Se dice que dos secuencias son
homlogas cuando derivan de un ancestro comn.
Es una caracterstica cualitativa.

Tipos de homologa de secuencias


Homlogos: secuencias similares en 2 organismos diferentes
derivadas de una secuencia ancestro comn.
Ortlogos: secuencias similares en 2 organismos diferentes que
convergen debido a un evento de especiacin. Retienen la misma
funcin.
Parlogos: secuencias similares en un mismo organismo que
convergen debido a un evento de duplicacin gnica. En teora,
inicialmente debieran retener funcin, pero con el paso del tiempo
muchas veces no es as debido a la diferencia en mutacin/seleccin
sobre la copia duplicada del gen, la que puede adquirir nuevas
funciones o perderlas.

Conceptos parecidos pero distintos


Identidad: Cuando en una secuencia, los residuos de una misma
posicin son iguales.
Similitud: Es una caracterstica cuantitativa, que indica que tan
parecida es una secuencia respecto a otra.
Por tanto, para ser homlogas, dos secuencias deben ser similares,
pero no necesariamente a la inversa.

Tipos de homologa de secuencias

Superposicin de estructuras de protenas de distinto origen

-Las protenas evolucionan, variando su secuencia y estructura


-Las variaciones (evolucin) en la secuencia determinan el
parecido estructural (y la funcin??)

RMSD (Root mean square


deviation): es una medida
de la similitud estructural
entre dos protenas. Es la
distancia cuadrtica
media entre los tomos,
usualmente el carbono .
A menor RMSD, mayor es
la similitud estructural.

Pregunta..
-Conociendo las caractersticas de los ortlogos y parlogos
-Conociendo que las protenas evolucionan
Ud esperara:
a) Que los ortlogos evolucionaran ms libremente (con menos
restricciones) que los parlogos
b) Que los parlogos evolucionaran ms libremente (con menos
restricciones) que los ortlogos
c) Que evolucionen igual (la evolucin es la evolucin, y punto)

Respuesta

Seminario 1
-Existirn restricciones a la evolucin de protenas?
-Si as fuera, se relacionan con aspectos estructurales y
funcionales de las protenas???
-Las protenas que debieran adquirir nuevas funciones, seran
ms o menos libres de evolucionar???

Excepciones

Evolucin independiente de protenas


Este fenmeno es distinto a la relacin de homologa.
Puede dar como resultado distintos tipos de convergencias

Evolucin independiente que genera convergencia funcional


Genera protenas que pueden tener la misma funcin, pero que no provienen de un
ancestro comn. Esto se refleja porque provienen de genes distintos, no tienen
ninguna similitud de secuencia y cambian mecanismos de reaccin.
Caso clsico: enzimas del tipo glicosil hidrolasas.
Esta situacin lleva a la clasificacin de FAMILIAS DE PROTENAS

Gen 1

Gen 2
Evolucion

MISMA FUNCIN
DISTINTA ESTRUCTURA
DISTINTO MECANISMO

Inversin
(un desplazamiento)

Retencin
(doble desplazamiento)

Evolucin independiente que genera convergencia ESTRUCTURAL


Genera protenas que pueden tener la misma estructura, a pesar de provenir de
secuencias que no provienen de un ancestro comn.
Estos casos son extremadamente raros, y generalmente no afectan toda la
estructura de la protena, si no que parte de ella. Es una estrategia comn en virus,
los cuales imitan estructuras de protenas del hospedero

Gen 1

Gen 2
Evolucion

MISMA ESTRUCTURA
DISTINTA FUNCIN

Cmo podemos analizar las relaciones entre secuencias de


protenas homlogas?

La principal herramienta (y de la cual derivan todo el resto) es


el ALINEAMIENTO DE SECUENCIAS.

Qu es un alineamiento de secuencias?
Es la comparacin de secuencias mediante el
apareamiento de residuos.
Ejemplo:
Protenas caracteres pertenecen a alfabeto de 20 letras

VLSPADKTNVKAAWGKVGAHAGEYG
VLSEGEWQLVLHVWAKVEADVAGHG

Qu informacin podemos obtener de


un alineamiento de secuencias?
Ya que asumimos que dos secuencias biolgicas
similares tienden a estar relacionadas, podemos obtener
informacin de tipo:
-Evolutiva (estudios de homologa propiamente tal)
-Funcional (si las secuencias se relacionan en lugares
especficos como el sitio activo, podemos inferir funcin)
-Estructural

Estrategia general de alineamiento


En general, hay tres posibilidades por cada posicin del
alineamiento, las cuales se acepta que se corresponden con
los sucesos evolutivos ocurridos:
-Coincidencia de caracteres (match: no ocurri mutacin)
-No coincidencia de caracteres (mismatch: ocurrieron una o
ms mutaciones)
-Insercin/Delecin: (gap: ocurri una insercin en una
secuencia o una delecin en la otra)
La cuantificacin y validacin estadstica de esos cambios
permitir definir si es que existe relacin evolutiva entre las
protenas analizadas o no.

Supongamos que queremos alinear las secuencias


KCAGAYGATTM y KCGGAGCTM.
Podemos entonces obtener tantos alineamientos como
queramos. Ejemplos:
KCAG-AYG-ATTM
|| | | | | |
KC-GGA-GC-T-M

KCAG-AYGATTM
|| | | | |
KC-GGA-GCTM-

KCAGAYGATTM
|| ||
KCGGAGCTM--

KCAG-AYGATTM
|| | | | | |
KC-GGA-GCT-M

Cul de estos es el mejor alineamiento?

Resumiendo
Entonces, la idea general de un alineamento es:
A) Disear todos los posibles alineamientos
B) Calcular un puntaje o score para un particular
alineamiento de secuencias
C) Encontrar el alineamiento de mayor score entre todos
los posibles.

Como se mide el score de un


alineamiento

Matrices de sustitucin
Es la forma de mtrica de score para alineamientos de protenas.
Se basa en que el costo de sustitucin entre dos residuos de aa.
depende de la probabilidad de sustitucin encontrada en la
naturaleza
Una matriz de sustitucin refleja dos hechos relevantes:
1- La probabilidad de ocurrencia de un aminocido
2- La probabilidad de sustitucin mutua de dos residuos.
Las matrices de sustitucin ms ampliamente usadas son:
PAM: Matriz evolutiva extrapolada (se usa en alineamientos
globales).
BLOSUM: Matriz basada en clasificacin por familia (preferida en
alineamiento locales)

Sistema de scoring por matrices de


sustitucin:

C
C

PTHPLASKTQILPEDLASEDLTI

Sequence 1

PTHPLAGERAIGLARLAEEDFGM

Sequence 2

Scoring matrix

S -1

-1

P -3

-1

-1

-1

G -3

-2

-2

N -3

-2

-2

D -3

-1

-1

-2

-1

T:G
T:T

= -2
= 5

Generalidades de una matriz de


sustitucin
Score positivo: los aa. son frecuentemente encontrados y las
sustituciones entre ellos ocurren ms frecuentemente que lo
esperado por el azar
Score negativo: los aa. son poco frecuentes y la sustitucin
de uno con otro ocurre menos frecuentemente que lo
esperado por el azar
Score cero: tanto la frecuencia como la sustitucin mutua de
los aa. comparados ocurre igual que lo esperado por el azar

Matrices PAM
PAM: Percent Accepted Mutations.
Es una matriz derivada de la observacin de como los aa
reemplazan a otros aa diferentes en la evolucin (matriz
evolutiva).
Basada en set de datos de cambios en 1,572 protena relacionadas
con similitud en torno al 85%.
Dada la similitud tan alta, se dice que estas mutaciones no
debieran alterar la funcin y por tanto son aceptadas por la
naturaleza

Matrices PAM
PAMXX: las distintas matrices PAM se distinguen mediante
un N que identifica el N de eventos de mutacin
por cada 100 aa. Esto significa que mientras ms grande es
el N de la matriz PAM, ms distancia evolutiva hay entre
las protenas alineadas, es decir, tienen MENOR similitud.
Ej: PAM 250 (la ms comn): 20% similitud
PAM 120: 40%
PAM 80: 50%
PAM 60: 60%

Matriz PAM 250

Esto es lo que se usa para calcular scores

Matrices BLOSUM
BLOSUM: Blocks substitution matrix
Una matriz BLOSUM contiene scores de sustitucin de aa. obtenidos a
partir de frecuencias de sustitucin de aa observadas en bloques de
alineamientos mltiples locales de protenas relacionadas. No hay
extrapolacin evolutiva. Esta matriz est mejor diseada para encontrar
dominios conservados.

Fuente: Alineamientos de bloques de secuencias.


Bloque Matriz cuyas filas representan
segmentos de secuencias
alineadas sin interrupciones

EKPRKVMLMVRAGDVVDQFIEALLPHLEEG
EKPRKIFLMVTAGKPVDSVIQSLKPLLEEG
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRRILLMVKAGAGTDAAIDSLKPYLDKG
ETPRRILLMVKAGSGTDSAIDSLKPYLDKG

Matrices BLOSUM
Las matrices BLOSUM suponen una muestra mucho mayor que el caso
de las matrices PAM. Adems, se restringe el estudio a los bloques
altamente conservados de protenas.
Una matriz BLOSUMxx significa que se us un umbral de identidad de
XX% para seleccionar las protenas que componen el bloque utilizado.
Por esta razn, un BLOSUM bajo (umbral bajo de identidad) se
corresponde con un nmero alto de PAM (distancia evolutiva grande).
Ej: BLOSUM 62, secuencias de 62% de identidad

BLOSUM 62
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V

A
4
-1
-2
-2
0
-1
-1
0
-2
-1
-1
-1
-1
-2
-1
1
0
-3
-2
0

R
-1
5
0
-2
-3
1
0
-2
0
-3
-2
2
-1
-3
-2
-1
-1
-3
-2
-3

N
-2
0
6
1
-3
0
0
0
1
-3
-3
0
-2
-3
-2
1
0
-4
-2
-3

D
-2
-2
1
6
-3
0
2
-1
-1
-3
-4
-1
-3
-3
-1
0
-1
-4
-3
-3

C
0
-3
-3
-3
9
-3
-4
-3
-3
-1
-1
-3
-1
-2
-3
-1
-1
-2
-2
-1

Q
-1
1
0
0
-3
5
2
-2
0
-3
-2
1
0
-3
-1
0
-1
-2
-1
-2

E
-1
0
0
2
-4
2
5
-2
0
-3
-3
1
-2
-3
-1
0
-1
-3
-2
-2

G
0
-2
0
-1
-3
-2
-2
6
-2
-4
-4
-2
-3
-3
-2
0
-2
-2
-3
-3

H
-2
0
1
-1
-3
0
0
-2
8
-3
-3
-1
-2
-1
-2
-1
-2
-2
2
-3

I
-1
-3
-3
-3
-1
-3
-3
-4
-3
4
2
-3
1
0
-3
-2
-1
-3
-1
3

L
-1
-2
-3
-4
-1
-2
-3
-4
-3
2
4
-2
2
0
-3
-2
-1
-2
-1
1

K
-1
2
0
-1
-3
1
1
-2
-1
-3
-2
5
-1
-3
-1
0
-1
-3
-2
-2

M
-1
-1
-2
-3
-1
0
-2
-3
-2
1
2
-1
5
0
-2
-1
-1
-1
-1
1

F
-2
-3
-3
-3
-2
-3
-3
-3
-1
0
0
-3
0
6
-4
-2
-2
1
3
-1

P
-1
-2
-2
-1
-3
-1
-1
-2
-2
-3
-3
-1
-2
-4
7
-1
-1
-4
-3
-2

S
1
-1
1
0
-1
0
0
0
-1
-2
-2
0
-1
-2
-1
4
1
-3
-2
-2

T
0
-1
0
-1
-1
-1
-1
-2
-2
-1
-1
-1
-1
-2
-1
1
5
-2
-2
0

W
-3
-3
-4
-4
-2
-2
-3
-2
-2
-3
-2
-3
-1
1
-4
-3
-2
11
2
-3

BLOSUM 62 , es la ms comunmente usada

Y
-2
-2
-2
-3
-2
-1
-2
-3
2
-1
-1
-2
-1
3
-3
-2
-2
2
7
-1

V
0
-3
-3
-3
-1
-2
-2
-3
-3
3
1
-2
1
-1
-2
-2
0
-3
-1
4

Gaps
Gaps no permitidos

Score: 10

1 RSRASARACACARACCRRSRRCASSRSRR 29
|||
| | |||
|
|| || |
1 RSRSCRRRAARARASAACSCCRASRRSSR 29

Gaps permitidos pero no penalizados

Match = 5
Mismatch = -4
Score: 88

1 RSR.ASAR.ACACARA..CCRRS..RRCASSRSRR 29
||| || | | | ||| || | | || || |
1 RSRSAS.RRA.ARARASACC..SCCR..ASRRSSR 29

Los gaps deben ser permitidos, pero penalizados.

Gaps
El alineamiento ptimo de dos secuencias es aquel que
maximiza el N de matches y minimiza el N de gaps.
Sin embargo, hay una tentacin entre ambos puntos: al
adicionar gaps, se reduce el N de mismatches
Si se permitiera la insercin arbitraria de muchos gaps
podramos obtener altos scores de alineamiento entre
sequencias no homlogas.
Por esta razn, al penalizar los gaps, se fuerza al
alineamiento para que tenga slo los gaps imprescindibles.

Gaps
Empiricamente, se sabe que es ms costoso abrir un gap que
extenderlo. Los gaps en general se encuentran ms bien aislados y
con una extensin de varios caracteres:
O sea, es ms comn la existencia de 1 gap de n caracteres que n
gaps de 1 carcter
Las penalidades del tipo Affine gap dan gran penalidad a un nuevo
gap, pero una penalidad menor si hay gap extension.

Gaps
Affine gaps: Una funcin general de penalizacin de gaps debe cumplir:
(n)

Comnmente se usa lo que se denomina penalidad affine, una funcin


lineal pero que penaliza distinto la apertura y extensin de un gap:
(n) = d + e (n 1)

apertura
Valores comunes: d = -10/-12

extensin
e = -2/-4

Gaps
match = 1
mismatch = 0
Score Total :

V D G D D V D V C
D V D G D G C G D V D V

Score Total :

8 - 3.2 = 4.8

Gap (parmetros):
d = -3 (abrir gap)
e = -0.1(extender gap)
n = 3 (largo del gap)

(n) = -3 - (3 -1) 0.1 = -3.2

V D G D - - - D V D V C
D V D G D G C G D V D V
insercin / delecin