1 - Evolucion Proteinas-Teoria Alineamiento

Relaciones evolutiva entre protenas
Evolucin de secuencias de protenas

Qu fenmenos hacen que las secuencias de protenas cambien
en el tiempo (evolucionen)?
MUTACIONES:
-Inserciones
-Deleciones
-Sustituciones
El resultado de estos procesos produce secuencias HOMLOGAS
Sec. 4
Sec. 3
Sec. 5
Sec. 6
Sec. 7
Sec. 1
Sec. 2
Sec. ancestral
HOMOLOGA: Se dice que dos secuencias son
homlogas cuando derivan de un ancestro comn.
Es una caracterstica cualitativa.
Tipos de homologa de secuencias

Homlogos: secuencias similares en 2 organismos diferentes
derivadas de una secuencia ancestro comn.
Ortlogos: secuencias similares en 2 organismos diferentes que
convergen debido a un evento de especiacin. Retienen la misma
funcin.
Parlogos: secuencias similares en un mismo organismo que
convergen debido a un evento de duplicacin gnica. En teora,
inicialmente debieran retener funcin, pero con el paso del tiempo
muchas veces no es as debido a la diferencia en mutacin/seleccin
sobre la copia duplicada del gen, la que puede adquirir nuevas
funciones o perderlas.
Conceptos parecidos pero distintos

Identidad: Cuando en una secuencia, los residuos de una misma
posicin son iguales.
Similitud: Es una caracterstica cuantitativa, que indica que tan
parecida es una secuencia respecto a otra.
Por tanto, para ser homlogas, dos secuencias deben ser similares,
pero no necesariamente a la inversa.
Tipos de homologa de secuencias
Superposicin de estructuras de protenas de distinto origen
-Las protenas evolucionan, variando su secuencia y estructura

-Las variaciones (evolucin) en la secuencia determinan el
parecido estructural (y la funcin??)
RMSD (Root mean square

deviation): es una medida
de la similitud estructural
entre dos protenas. Es la
distancia cuadrtica
media entre los tomos,
usualmente el carbono .
A menor RMSD, mayor es
la similitud estructural.
Pregunta..
-Conociendo las caractersticas de los ortlogos y parlogos
-Conociendo que las protenas evolucionan
Ud esperara:
a) Que los ortlogos evolucionaran ms libremente (con menos
restricciones) que los parlogos
b) Que los parlogos evolucionaran ms libremente (con menos
restricciones) que los ortlogos
c) Que evolucionen igual (la evolucin es la evolucin, y punto)
Respuesta
Seminario 1
-Existirn restricciones a la evolucin de protenas?
-Si as fuera, se relacionan con aspectos estructurales y
funcionales de las protenas???
-Las protenas que debieran adquirir nuevas funciones, seran
ms o menos libres de evolucionar???
Excepciones
Evolucin independiente de protenas

Este fenmeno es distinto a la relacin de homologa.
Puede dar como resultado distintos tipos de convergencias
Evolucin independiente que genera convergencia funcional

Genera protenas que pueden tener la misma funcin, pero que no provienen de un
ancestro comn. Esto se refleja porque provienen de genes distintos, no tienen
ninguna similitud de secuencia y cambian mecanismos de reaccin.
Caso clsico: enzimas del tipo glicosil hidrolasas.
Esta situacin lleva a la clasificacin de FAMILIAS DE PROTENAS
Gen 1
Gen 2
Evolucion
MISMA FUNCIN
DISTINTA ESTRUCTURA
DISTINTO MECANISMO
Inversin
(un desplazamiento)
Retencin
(doble desplazamiento)
Evolucin independiente que genera convergencia ESTRUCTURAL

Genera protenas que pueden tener la misma estructura, a pesar de provenir de
secuencias que no provienen de un ancestro comn.
Estos casos son extremadamente raros, y generalmente no afectan toda la
estructura de la protena, si no que parte de ella. Es una estrategia comn en virus,
los cuales imitan estructuras de protenas del hospedero
Gen 1
Gen 2
Evolucion
MISMA ESTRUCTURA
DISTINTA FUNCIN
Cmo podemos analizar las relaciones entre secuencias de

protenas homlogas?
La principal herramienta (y de la cual derivan todo el resto) es

el ALINEAMIENTO DE SECUENCIAS.
Qu es un alineamiento de secuencias?
Es la comparacin de secuencias mediante el
apareamiento de residuos.
Ejemplo:
Protenas caracteres pertenecen a alfabeto de 20 letras
VLSPADKTNVKAAWGKVGAHAGEYG
VLSEGEWQLVLHVWAKVEADVAGHG
Qu informacin podemos obtener de

un alineamiento de secuencias?
Ya que asumimos que dos secuencias biolgicas
similares tienden a estar relacionadas, podemos obtener
informacin de tipo:
-Evolutiva (estudios de homologa propiamente tal)
-Funcional (si las secuencias se relacionan en lugares
especficos como el sitio activo, podemos inferir funcin)
-Estructural
Estrategia general de alineamiento

En general, hay tres posibilidades por cada posicin del
alineamiento, las cuales se acepta que se corresponden con
los sucesos evolutivos ocurridos:
-Coincidencia de caracteres (match: no ocurri mutacin)
-No coincidencia de caracteres (mismatch: ocurrieron una o
ms mutaciones)
-Insercin/Delecin: (gap: ocurri una insercin en una
secuencia o una delecin en la otra)
La cuantificacin y validacin estadstica de esos cambios
permitir definir si es que existe relacin evolutiva entre las
protenas analizadas o no.
Supongamos que queremos alinear las secuencias

KCAGAYGATTM y KCGGAGCTM.
Podemos entonces obtener tantos alineamientos como
queramos. Ejemplos:
KCAG-AYG-ATTM
|| | | | | |
KC-GGA-GC-T-M
KCAG-AYGATTM
|| | | | |
KC-GGA-GCTM-
KCAGAYGATTM
|| ||
KCGGAGCTM--
KCAG-AYGATTM
|| | | | | |
KC-GGA-GCT-M
Cul de estos es el mejor alineamiento?
Resumiendo
Entonces, la idea general de un alineamento es:
A) Disear todos los posibles alineamientos
B) Calcular un puntaje o score para un particular
alineamiento de secuencias
C) Encontrar el alineamiento de mayor score entre todos
los posibles.
Como se mide el score de un

alineamiento
Matrices de sustitucin
Es la forma de mtrica de score para alineamientos de protenas.
Se basa en que el costo de sustitucin entre dos residuos de aa.
depende de la probabilidad de sustitucin encontrada en la
naturaleza
Una matriz de sustitucin refleja dos hechos relevantes:
1- La probabilidad de ocurrencia de un aminocido
2- La probabilidad de sustitucin mutua de dos residuos.
Las matrices de sustitucin ms ampliamente usadas son:
PAM: Matriz evolutiva extrapolada (se usa en alineamientos
globales).
BLOSUM: Matriz basada en clasificacin por familia (preferida en
alineamiento locales)
Sistema de scoring por matrices de

sustitucin:
C
C
PTHPLASKTQILPEDLASEDLTI
Sequence 1
PTHPLAGERAIGLARLAEEDFGM
Sequence 2
Scoring matrix
S -1
-1
P -3
-1
-1
-1
G -3
-2
-2
N -3
-2
-2
D -3
-1
-1
-2
-1
T:G
T:T
= -2
= 5
Generalidades de una matriz de

sustitucin
Score positivo: los aa. son frecuentemente encontrados y las
sustituciones entre ellos ocurren ms frecuentemente que lo
esperado por el azar
Score negativo: los aa. son poco frecuentes y la sustitucin
de uno con otro ocurre menos frecuentemente que lo
esperado por el azar
Score cero: tanto la frecuencia como la sustitucin mutua de
los aa. comparados ocurre igual que lo esperado por el azar
Matrices PAM
PAM: Percent Accepted Mutations.
Es una matriz derivada de la observacin de como los aa
reemplazan a otros aa diferentes en la evolucin (matriz
evolutiva).
Basada en set de datos de cambios en 1,572 protena relacionadas
con similitud en torno al 85%.
Dada la similitud tan alta, se dice que estas mutaciones no
debieran alterar la funcin y por tanto son aceptadas por la
naturaleza
Matrices PAM
PAMXX: las distintas matrices PAM se distinguen mediante
un N que identifica el N de eventos de mutacin
por cada 100 aa. Esto significa que mientras ms grande es
el N de la matriz PAM, ms distancia evolutiva hay entre
las protenas alineadas, es decir, tienen MENOR similitud.
Ej: PAM 250 (la ms comn): 20% similitud
PAM 120: 40%
PAM 80: 50%
PAM 60: 60%
Matriz PAM 250
Esto es lo que se usa para calcular scores
Matrices BLOSUM
BLOSUM: Blocks substitution matrix
Una matriz BLOSUM contiene scores de sustitucin de aa. obtenidos a
partir de frecuencias de sustitucin de aa observadas en bloques de
alineamientos mltiples locales de protenas relacionadas. No hay
extrapolacin evolutiva. Esta matriz est mejor diseada para encontrar
dominios conservados.
Fuente: Alineamientos de bloques de secuencias.

Bloque Matriz cuyas filas representan
segmentos de secuencias
alineadas sin interrupciones
EKPRKVMLMVRAGDVVDQFIEALLPHLEEG
EKPRKIFLMVTAGKPVDSVIQSLKPLLEEG
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRRILLMVKAGAGTDAAIDSLKPYLDKG
ETPRRILLMVKAGSGTDSAIDSLKPYLDKG
Matrices BLOSUM
Las matrices BLOSUM suponen una muestra mucho mayor que el caso
de las matrices PAM. Adems, se restringe el estudio a los bloques
altamente conservados de protenas.
Una matriz BLOSUMxx significa que se us un umbral de identidad de
XX% para seleccionar las protenas que componen el bloque utilizado.
Por esta razn, un BLOSUM bajo (umbral bajo de identidad) se
corresponde con un nmero alto de PAM (distancia evolutiva grande).
Ej: BLOSUM 62, secuencias de 62% de identidad
BLOSUM 62
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A
4
-1
-2
-2
0
-1
-1
0
-2
-1
-1
-1
-1
-2
-1
1
0
-3
-2
0
R
-1
5
0
-2
-3
1
0
-2
0
-3
-2
2
-1
-3
-2
-1
-1
-3
-2
-3
N
-2
0
6
1
-3
0
0
0
1
-3
-3
0
-2
-3
-2
1
0
-4
-2
-3
D
-2
-2
1
6
-3
0
2
-1
-1
-3
-4
-1
-3
-3
-1
0
-1
-4
-3
-3
C
0
-3
-3
-3
9
-3
-4
-3
-3
-1
-1
-3
-1
-2
-3
-1
-1
-2
-2
-1
Q
-1
1
0
0
-3
5
2
-2
0
-3
-2
1
0
-3
-1
0
-1
-2
-1
-2
E
-1
0
0
2
-4
2
5
-2
0
-3
-3
1
-2
-3
-1
0
-1
-3
-2
-2
G
0
-2
0
-1
-3
-2
-2
6
-2
-4
-4
-2
-3
-3
-2
0
-2
-2
-3
-3
H
-2
0
1
-1
-3
0
0
-2
8
-3
-3
-1
-2
-1
-2
-1
-2
-2
2
-3
I
-1
-3
-3
-3
-1
-3
-3
-4
-3
4
2
-3
1
0
-3
-2
-1
-3
-1
3
L
-1
-2
-3
-4
-1
-2
-3
-4
-3
2
4
-2
2
0
-3
-2
-1
-2
-1
1
K
-1
2
0
-1
-3
1
1
-2
-1
-3
-2
5
-1
-3
-1
0
-1
-3
-2
-2
M
-1
-1
-2
-3
-1
0
-2
-3
-2
1
2
-1
5
0
-2
-1
-1
-1
-1
1
F
-2
-3
-3
-3
-2
-3
-3
-3
-1
0
0
-3
0
6
-4
-2
-2
1
3
-1
P
-1
-2
-2
-1
-3
-1
-1
-2
-2
-3
-3
-1
-2
-4
7
-1
-1
-4
-3
-2
S
1
-1
1
0
-1
0
0
0
-1
-2
-2
0
-1
-2
-1
4
1
-3
-2
-2
T
0
-1
0
-1
-1
-1
-1
-2
-2
-1
-1
-1
-1
-2
-1
1
5
-2
-2
0
W
-3
-3
-4
-4
-2
-2
-3
-2
-2
-3
-2
-3
-1
1
-4
-3
-2
11
2
-3
BLOSUM 62 , es la ms comunmente usada
Y
-2
-2
-2
-3
-2
-1
-2
-3
2
-1
-1
-2
-1
3
-3
-2
-2
2
7
-1
V
0
-3
-3
-3
-1
-2
-2
-3
-3
3
1
-2
1
-1
-2
-2
0
-3
-1
4
Gaps
Gaps no permitidos
Score: 10
1 RSRASARACACARACCRRSRRCASSRSRR 29
|||
| | |||
|
|| || |
1 RSRSCRRRAARARASAACSCCRASRRSSR 29
Gaps permitidos pero no penalizados
Match = 5
Mismatch = -4
Score: 88
1 RSR.ASAR.ACACARA..CCRRS..RRCASSRSRR 29
||| || | | | ||| || | | || || |
1 RSRSAS.RRA.ARARASACC..SCCR..ASRRSSR 29
Los gaps deben ser permitidos, pero penalizados.
Gaps
El alineamiento ptimo de dos secuencias es aquel que
maximiza el N de matches y minimiza el N de gaps.
Sin embargo, hay una tentacin entre ambos puntos: al
adicionar gaps, se reduce el N de mismatches
Si se permitiera la insercin arbitraria de muchos gaps
podramos obtener altos scores de alineamiento entre
sequencias no homlogas.
Por esta razn, al penalizar los gaps, se fuerza al
alineamiento para que tenga slo los gaps imprescindibles.
Gaps
Empiricamente, se sabe que es ms costoso abrir un gap que
extenderlo. Los gaps en general se encuentran ms bien aislados y
con una extensin de varios caracteres:
O sea, es ms comn la existencia de 1 gap de n caracteres que n
gaps de 1 carcter
Las penalidades del tipo Affine gap dan gran penalidad a un nuevo
gap, pero una penalidad menor si hay gap extension.
Gaps
Affine gaps: Una funcin general de penalizacin de gaps debe cumplir:
(n)
Comnmente se usa lo que se denomina penalidad affine, una funcin

lineal pero que penaliza distinto la apertura y extensin de un gap:
(n) = d + e (n 1)
apertura
Valores comunes: d = -10/-12
extensin
e = -2/-4
Gaps
match = 1
mismatch = 0
Score Total :
V D G D D V D V C
D V D G D G C G D V D V
Score Total :
8 - 3.2 = 4.8
Gap (parmetros):
d = -3 (abrir gap)
e = -0.1(extender gap)
n = 3 (largo del gap)
(n) = -3 - (3 -1) 0.1 = -3.2
V D G D - - - D V D V C
D V D G D G C G D V D V
insercin / delecin

1 - Evolucion Proteinas-Teoria Alineamiento

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1 - Evolucion Proteinas-Teoria Alineamiento

Cargado por

Copyright:

Formatos disponibles

Relaciones evolutiva entre protenas

Evolucin de secuencias de protenas

El resultado de estos procesos produce secuencias HOMLOGAS

Tipos de homologa de secuencias

Conceptos parecidos pero distintos

Tipos de homologa de secuencias

Superposicin de estructuras de protenas de distinto origen

-Las protenas evolucionan, variando su secuencia y estructura

RMSD (Root mean square

Evolucin independiente de protenas

Evolucin independiente que genera convergencia funcional

Evolucin independiente que genera convergencia ESTRUCTURAL

Cmo podemos analizar las relaciones entre secuencias de

La principal herramienta (y de la cual derivan todo el resto) es

Qu informacin podemos obtener de

Estrategia general de alineamiento

Supongamos que queremos alinear las secuencias

Cul de estos es el mejor alineamiento?

Como se mide el score de un

Sistema de scoring por matrices de

Generalidades de una matriz de

Matriz PAM 250

Esto es lo que se usa para calcular scores

Fuente: Alineamientos de bloques de secuencias.

BLOSUM 62 , es la ms comunmente usada

Gaps permitidos pero no penalizados

Los gaps deben ser permitidos, pero penalizados.

Comnmente se usa lo que se denomina penalidad affine, una funcin

(n) = -3 - (3 -1) 0.1 = -3.2

También podría gustarte