Está en la página 1de 78

Bioinformática

IMA 210
Unidad 3
Andrés Ávila
Departamento de Ingeniería Matemática
Universidad de La Frontera
aavila@ufro.cl
2010-1
3.1 Gráfico de Puntos

2
Manera simple: Dot plot
 Herramienta: construir una matriz o tabla
de 0s y 1s, donde
 0 si son diferentes

 1 si son iguales

 Uso: escoger líneas digaonales que


representan igual secuencia
 Problemas: la información no es muy
clara, no incluye mutaciones y solamente
se puede usar con secuencias pequeñas
 Filtrado: se seleccionan trozos de
secuencias de un largo dado
 Ventajas: muy rápido y no requiere
necesidades computacionales altas

Elementary Sequence Analysis, B. Golding and D. Morton eds. 2004


3
3.2 Probabilidad de una
secuencia

4
Nociones de Probabilidades
Motivación
Hay eventos que no podemos determinar cuándo suceden:
mutaciones
Son pocos eventos: cambio de nucleótidos
Esos eventos se pueden medir: cambio de secuencias
Los eventos pueden depender de las especies/subespecies
Preguntas
 ¿Cuáles cambios son posibles?
 ¿Cómo medir y comparar los cambios?
 ¿Hay características especiales que me permitan medir mejor?
 Si obtengo nuevos datos, ¿cómo mejoro mis mediciones?
5
Definiciones Básicas
Primero respondamos la pregunta de cuáles son los cambios.
Como modelo utilizaremos el experimento del lanzamiento de
un dado.
Def 1: Espacio muestral Ω es el conjunto de resultados posibles
de un experimento
Ej. 1 del dado Ω={1,2,3,4,5,6}
Def 2: Un suceso o evento es cualquier subconjunto del espacio
muestral
Ej. 2 A={1,3,5}, B={2}
En el caso de secuencias de nucleótidos, podemos escoger
Ω={A,C,G,T}, o también Ω={A,C,G,T,-}, donde – denota una
inserción.
6
Probabilidad
Para medir los cambios necesitamos asociarle a cada suceso A un
valor que denotaremos P(A). Vamos a asumir los siguientes
supuestos

Axiomas de Kolmogorov
1. Para todo suceso, P(A)≥0
2. P(Ω)=1
3. Si A∩B=Φ entonces P(AUB)=P(A)+P(B)

Es directo ver que P(Φ)=0.


Def 3. A cada función P que satisface los tres axiomas le
llamaremos probabilidad sobre Ω.
Ej. 3 Para el dado, P({1})= P({2})= P({3})= P({4})=
P({5})= P({6})= 1/6.
O bien P({1})= P({3})= P({5})= 1/12, P({2})= P({4})=
7
P({6})= 3/12.
Probabilidad de Laplace
Una manera simple de definir una probabilidad para
conjuntos finitos es utilizar el criterio de Laplace
P(A)= #A/#Ω
donde #A denota el cardinal de A y suponemos que Ω
no es vacío.
Ej. 4 Para el dado, P({x})=1/# Ω=1/6.
Usualmente también se conoce a #A como frecuencia
absoluta y a P(A) como frecuencia relativa.
Def 4. Dos eventos A y B son independientes si su
probabilidad está dada por
P(A∩B)=P(A) P(B)
8
Ejemplo para secuencias
Consideremos la secuencia S=AGATCCGTAA

Ω={secuencias de A,G,C,T de largo 10}


¿Cuántas hay?
En cada espacio hay cuatro posibilidades,
410=1.048.576
¿Cómo asociarle una probabilidad?
Por Laplace
P(S)=1/1.048.576≈0.0000009536

9
Entropía
Las secuencias no son aleatorias, es decir, en las secuenciaciones
no aparecen con la misma frecuencia todas las secuencias de
un largo dado. Necesitamos poder medir la aleatoriedad de una
probabilidad
Def 5. Sea pi=P({xi}), donde xi denota un elemento de Ω,
llamaremos entropía al valor dado por
H(Ω)= - ∑ pi log 2 (pi)
y la unidad se llama bits.
Ej. 5 Para los ejemplos de P dados en Ej. 3 tenemos
 H(Ω)=- ∑ 1/6*(-2.585)=2.585
 H(Ω)=-(3*1/12*(-3.585)+3*3/12*(-2))=2.3962

La segunda probabilidad tiene mayor entropía que la primera


Ej. 6 Para Ω={A,C,G,T}, calcular la entropía si
 Son todas equiprobables
 Hay 20% de A, G, C y 40% de T
10
 Hay 5% de A, G y C y 85% de T
Bibliografía
 Lecciones de Cálculo de Probabilidades, V.
Quesada y A. García, ediciones Díaz de Santos
S.A. 1998, 475 pp., ISBN 84-86251-84-2,
Biblioteca Central 519.2 Q51 1988
 Probabilidad y Estadística, M. De Groot,
Addison-Wesley Iberoamericana1988, ISBN
0-201-64405-3, 694 pp. Bibioteca Central
519.5 D312p2 1988

11
3.3 Estadística de Karlin-
Altschul

12
Similaridad de aminoácidos
Dada una secuencia, calculamos la frecuencia de aparición de
cada aminoácido y la denotaremos pi . Luego calculamos la
frecuencia de aparición de parejas de aminoácidos y la denotamos
qij. Llamaremos puntaje de dos aminoácidos al valor

donde el logaritmo es el logaritmo natural en base e≈2.71. Estos


puntajes se pueden representar por una matriz de puntajes. Como
estos valores no están normalizados, buscamos el valor de λ

13
Valor esperado y entropía
Además, podemos calcular el puntaje esperado E

y la entropía relativa H

14
Puntajes de match y mismatch
Para completar un esquema de puntaje, necesitamos
decidir cuáles son los valores de match y mismatch.
Para diferentes esquemas, tenemos diferentes
resultados

15
Fuente: BLAST, I. Korf, M. Yandell y J. Bedell, O'Reily & Associates, Inc. , 2003.
Estadística de Karlin -Altschul
Cinco supuestos centrales
 Es posible encontrar un puntaje positivo
 El valor esperado debe ser negativo
 Los aminoácidos están distribuidos idénticamente
e independientemente
 Las secuencias son infinitas
 Los alineamientos no contienen espacios (gaps)
Los tres últimos supuestos son complicados,
pero los asumiremos inicialmente
16
Valor esperado E
Para evaluar la comparación de dos secuencias necesitamos
 Número de letras en la secuencia query m
 Número de letras en la base de datos n
 El puntaje total de la comparación S
 El valor de normalización λ
 Un valor de ajuste k, alrededor de 0.1

Notar que a mayor tamaño de secuencias, mayor valor esperado.


Probabilidad de que dos secuencias sean aleatoriamente idénticas

Para 0.001, P y E son muy similares


17
3.4 Matrices de puntaje

18
Matrices PAM
Percent Adapted Mutation
Margaret Dayhoff(†) en 1978 calculó los
puntajes de parejas basados en 1572 cambios en
71 grupos de proteinas relacionadas entre ellas.
Las matrices PAM se calculan con log en base
10 de los puntajes.
PAM-1 es la primera matriz de cambios (1% de
mutaciones)
PAM-N se refiere a multiplicar PAM-1 N veces
y corresponde al N% de mutaciones
aceptadas
PAM 250 se ajusta bien para comparar

19
PAM 250
http://www.cryst.bbk.ac.uk/pps97/assignments/projects/leluk/project.htm

Triptófano y Cisteina son los más conservados en la evolución


20
Matrices BLOSUM
BLOcks SUbstitution Matrix
Heinkoff & Henikoff 1992 recalculan los
puntajes basados en 2000 bloques de sitios
conservados de 500 familias de proteínas.
BLOSUMX: X% de identidad entre
secuencias, evitando múltiples entradas de
secuencias muy relacionadas

Más común, BLOSUM62


Artículo en
http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=5045321
BLOSUM 62
http://helix.mcmaster.ca/721/distance/node10.html

Tolerante a cambios hidrofóbicos y de mistmatch de cisteina y


triptófano, menos tolerante a cambios hidrofílicos 22
Comparación de PAM y BLOSUM
Oficialmente no hay una relación directa entre PAMX y
BLOSUMY.
Aproximaciones:
BLOSUM 80 se compara con PAM120
BLOSUM62 se compara con PAM160
BLOSUM 45 se compara con PAM 250

BLOSUM más tolerante a cambios hidrofóbicos que


PAM y menos tolerante a hidrofílicos.
23
Uso de matrices
 Si no se tiene idea de qué se compara, usar
BLOSUM62
 Secuencias más relacionadas, BLOSUM80 o
PAM bajas, p.ej PAM1
 Secuencias muy poco relacionadas, BLOSUM
bajo y PAM
 PAM mide evolución, luego puede usarse en
Filogenia

altohttp://www.clcbio.com/index.php?id=476 24
3.5 Alineamiento Global

25
Metodología desplazamiento

 Desplazar las secuencias hasta encontrar


un alinemiento con mejor puntaje
 Comparar dos secuencias (o bases de
datos) incluyendo cambios
evolucionarios en la secuencia
Inserciones
(inserciones and deleciones)
 Probar varias posibilidades de
desplazamiento y entregar un puntaje
 Encontrar una secuencia modificada que Deleciones
mazimice el puntaje
 Programación Dinámica

Elementary Sequence Analysis, B. Golding and D. Morton eds. 2004


26
Needleman-Wunsch JMB'70
 Primero, se construye una tabla o matriz
M como la dot plot
 La diagonal representa los aciertos
exactos sin desplazamientos
 Moverse fuera de la diagonal significa
aceptar inserciones o deleciones
 Pasos:
1. Llenar con ceros y unos como la dot plot
2. Moverse de derecha a izquierda, arriba
hacia abajo reemplazando los valores por
3. Encontrar el valor máximo de la primera
filay y columna
4. Moverse de abajo hacia arriba, de derecha
a izquierda siguiendo los puntajes
máximos

Elementary Sequence Analysis, B. Golding and D. Morton eds. 2004


27
Resultados
 Los puntajes cuentan el máximo
número de aciertos
 Los movimientos en diagonal
indican aciertos exactos
 Moverse a la derecha significa
inserciones a la secuencia vertical
 Moverse hacia abajo significa
inserciones en la seucuecia superior
 Puede haber más de un resultado
 En el ejemplo, hay dos

Elementary Sequence Analysis, B. Golding and D. Morton eds. 2004


28
3.6 Alineamiento Local

29
Motivación
 Las familias de proteínas comparten Global
solamente el 30% de identidad y en
secuencias cortas
 La similaridad es local
 Buscaremos la mejor subsecuencia o
trozo de secuencia
 Para evitar muchos resultados,
debemos mejorar el sistema de Local
puntaje
 Se seguirá una estrategia similar al
alineamiento global
Elementary Sequence Analysis, B. Golding and D. Morton eds. 2004
30
Smith-Waterman JMB'81
 Desaciertos se castigan con un puntaje negativo
de -0.5
 El puntaje mínimo es 0
 Si hay dos secuencias cercanas, se funden en una
sola
 Se llena la matriz de arriba hacia abajo,
izquierda a derecha
 Se busca el (o los) puntaje(s) máximo(s) en la
matriz M
 Se busca la secuencia de puntajes mayores
retrocediendo hasta llegar a un cero
 Se busca la siguiente secuencia de puntajes
mayores
 Se repite hasta que se encuentren un número
mínimo de subsecuencias o de un largo mínimo

Identification of Common Molecular Subsequences, T. Smith and M. Waterman,


J. Mol. Bio. (1981), 147, 195-197.
31
Observaciones del alineamiento
 Los puntajes no tienen significado biológico, luego es necesario
definir una distancia biológica entre nucleótidos o aminoácido
 Para secuencias de largo m y n, ambos algoritmos requieren llenar
una tabla del orden O(mn) en espacio y similar en nñumero de
operaciones
 Comparando una secuencia de 1Kb con una base de datos de 1Gb,
se necesitan 1000Gb de memoria!! Además, para calcular los
valores se necesitarían varios días si se tuviera toda la memoria
disponible.
 ¿Cómo mejorar los cálculos y obtener algunas soluciones? Se
necesitan nuevos algoritmos para poder resolver el problema.

32
3.7 Blast

33
Ideas Básicas
 Tenemos una secuencia objetivo o query (ya sea de laboratorio o
buscada en las bases de datos)
 Queremos saber si hay otras secuencias documentadas con
información relevante (propiedades, funcionamiento, etc.)
 Por el principio evolutivo, las mutaciones son pocas en el tiempo
 Hipótesis: secuencias similares (homólogos) deben tener un
ancestro común (puede ser erróneo, pero poco)
 ¿Qué es ser similar? Necesitamos cuantificar....
 Como los cambios no son deterministas, los suponemos
probabilistas
 Debemos definir una probabilidad y estudiar sus parámetros
(Estadística)
Altschul et als. JMB'90
 Basic Local Alignment Search Tool BLAST
 Soluciones heurísticas (rápidas y soluciones parciales)
 Las distancias están basadas en “puntajes de mutaciones bien
definidos”
 PAM (Point accepted mutation) mide evolución entre algunas
bases de datos (Dayhoff '78)
 BLOSUM Block substitution matrix usa regiones
conservadas de familias de proteínas (Henikoff and Henikoff
'92)
 Entrega un significado estadístico a los puntajes (Karlin-
Altschul '90)
 Detecta significado biológico débil entre similaridades
biológicas
 Es el más rápido a la fecha
 Basic local alignment search tool, Altschul SF, Gish W, Miller W, Myers EW,
Lipman DJ. J Mol Biol. 1990 Oct 5;215(3):403-10. 35
Algoritmo BLAST
 Se filtran las regiones de baja complejidad en la secuencia
objetivo o query
 Se genera una lista heurística de hits de alto puntaje: por semillas

aleatorias se generan secuencias exactas de largo corto (w=3 para


aa y w=11 para nucleótidos) y con puntajes mayores a un umbral
T siguiendo el algortimo de Smith-Watermann
 Se revisa la base de datos extendiendo los segmentos encontrados

a largos mayores que MSP (maximum segment pair)


 Se seleccionan los trozos con un puntaje umbral superior a S y se

les llama High Score Pairs HSP


 Se calcula el valor esperado E-value de cada HSP

E= k m n e-λs
donde k, λ dependen de la matriz de puntaje, s puntaje, m largo secuencia
objetivo, n largo de la base de datos

36
blast básico @ ncbi
 Comparar secuencia objetivo (query) con base de datos (target set)
 Sabores:

 Secuencias en formatos número de ascensión, gi o FASTA


 Las bases de datos están reportadas:
 nucleótidos: humano, ratón, otros

 proteínas: no redundantes, referencias, swissprot, patentadas,

PDB, medioambientales
 traducciones: ambas y más

 Se puede utilizar otras secuencias como conjunto de búsqueda


blast avanzado
 Parámetros generales
 Número de secuencias emparejadas (max target seq.)

 Umbral del valor E (expected treshold)

 Tamaño de palabra (word size)

 Parámetros de puntaje
 Matriz de puntaje: PAM30, PAM60, BLOSUM45, BLOSUM 60 y

BLOSUM80
 Costos de espacios: existencia y extensión

 Filtros de regiones de baja complejidad


 Máscaras: no busca secuencias de baja comlejidad y diferencia lower-upper
case
 Existen otros sabores (variantes): psi-blast, phi-blast, megablast
http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml#filter
Informe blast
 Encabezado: datos de
entrada básicos

 Resumen de los HSP

 Alineamientos locales

 Y al final ...

39
Informe blast
Datos estadísticos de
ejecución del programa
 Lambda, K, H

 Hits

 secuencias

 HSP

 Espacio de búsqueda

40
Comentarios del uso
 HSP crece en número con w
 HSP decrece en número con T
 S crece junto con E
psi-blast: extendiendo resultados
 position specific iterative blast: psi blast
 Búsqueda blast con pocos resultados
 Homología en familias de proteínas puede ser con sólo 25% de
identidad
 Queremos extender la búsqueda a familias de proteínas
 Se calcula una matriz específica con el alineamiento múltiple de
secuencias con alto puntaje PSSM
 Se realiza una nueva búsqueda blast con esta matriz y se itera

Gapped BLAST and PSI-BLAST: a new generation of protein database search


programs, Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller
W, Lipman DJ. Nucleic Acids Res. 1997 Sep 1;25(17):3389-402.
3.8 Algoritmos básicos de
alineamiento múltiple

43
Problema
Se tienen N secuencias de distintos largo

donde sij es un nucleótido o un aminoácido, además de inserciones '-'.


Llamaremos M a la matriz formada por los Si
 Podemos suponer que todas tienen el mismo largo L.
 En el caso de proteínas, las similitudes dentro de una familia
son menores al 30%.
 Hay alta conservación de pequeños segmentos.
Ejemplo: DUF1696 con función desconocida

http://www.topsan.org/WikiHome/Public/380276?revision= 20
Detalle
3.8.1 Algoritmo de suma de
pares
SP-score
 Necesitamos una matriz de puntaje (PAM o BLOSUM) y
nuestra matriz de secuencias M
 Se calcula la suma de todos los puntajes comparando filas con
filas para una columna dada Ci

 Se suma sobre las columnas para obtener un puntaje total

http://www.cs.ubc.ca/labs/beta/Courses/CPSC536A-01/Class7/class7-
notes.html
Puntaje de MSA
 La idea principal es generalizar Needleman-Wunsch
 Se calcula el puntaje parcial de todas las secuencias s1k1, s2k2, ...,
sNkN donde ki≤L e i=1..N. Hay 2N-1 combinaciones.
 Inicialización del puntaje
Cálculo iterativo

donde ji denota o bien km-1 o bien km, pero solamente cambia UNO
de ellos. Una vez revisado todos los casos, se procede a buscar la
secuencia de consenso de mayor puntaje.
El algoritmo necesita LN memoria para almacenar los datos y se
calculan 2N veces LN tablas y N2 operaciones. El algorimo se pone
lento para N grande (algoritmo NP o no polinomial).
Alternativa de solución N grande: algoritmos heurísticos.
Comentarios del SP-score
 SP-score no considera la relación entre secuencias que pueden
ser más cercanas evolutivamente
 El puntaje no tiene fundamentos probabilistas
 Es relativamente fácil de calcular
3.8.2 Divide y vencerás
Conceptos básicos
 Generalización del puntaje agregando pesos

 La elección de pesos se basa en similitudes biológicas


 Además de heurísticas, se pueden utilizar métodos iterativos
 Los métodos iterativos comparan de a dos secuencias y definen
un consenso
 Son métodos rápidos, pero aproximados
Divide y conqusita
 Se busca un punto donde
dividir cada secuencia
 Les llamamos prefijo y sufijo
 Se iteran K veces hasta un
tamaño L
 Se realiza un MSA para cada
trozo
 Se concatenan los
alineamientos
 Problema: encontrar los cortes
por heurística
http://bibiserv.techfak.uni-bielefeld.de/dca/algorithm/
Ejemplo
 http://bibiserv.techfak.uni-bielefeld.de/dca/example/
 Seis secuencias de tirosinoquinasa de largos aprox. 280 con
L=40 y PAM250
 Influencia en el puntaje de la ventana W y el largo L. Entre
paréntesis, las diferencias con la secuencia óptima encontrada
3.9 Cadenas de Markov y
Modelos Escondidos

56
Motivación Biológica
 Contar frecuencia de nucleótidos no incluye información
estructural de la secuencia: no importa el orden, la frecuencia es
la misma
Ej: ATATAT, AAATTT, TTTAAA, TATATA
 Contar cambios o transiciones de un nucleótido a otro (A-> T,
A->G, A->C, A->A) involucra información estructural
 Ahora no es lo mismo encontrar A->T que T->A en una
secuencia
 Contamos la frecuencia de cambio de cada nucleótido a cada
nucleótido
Ej: ATGATGATCTCTAGAT: A cambia a T cuatro veces y a G
una vez. A cambia cero veces a A y C
Probabilidad Condicional
 Si tenemos información adicional o condicional de nuestro
experimento, digamos que nos limitamos a los experimentos en
B, entonces podemos recalcular las probabilidades respecto al
nuevo conjunto B.
Ej: Saber que va a salir un número parde un dado B={2,4,6}
 Para un evento cualquiera A, calculamos la probabilidad de la
intersección normalizada respecto de B y denotamos por
P(A\B):=P(A∩B)/P(B)
cuando P(B)>0. Le llamaremos probabilidad condicional de A
dado B.
Ej: Para un dado, si A={2}, P(A)=1/6 y
P(A|B)= P(A∩B)/P(B) =1/6/1/2=1/3.
Cadenas de Markov
Para las secuencias, nos interesa relacionar las
frecuencias de cambio, por ejemplo la transición
A->T la denotaremos P(T|A)
y tenemos que
P(T|A)+P(G|A)+P(C|A)+P(A|A)=1.
Denotaremos las relaciones entre elementos por
un grafo: los círculos denotan los estados o
elementos y las flechas las probabilidades de
transiciones, a las cuales les asociamos el valor de
la probabilidad de transición.
Aplicación: detección de intrones
Islas CpG: los genes se encuentran en secciones del DNA con alta
concentración de CG.
La metilación es la transformación de la citosina. Dentro de los
genes, está suprimida y aumenta la presencia de CG, en particular
este fenómeno está asociado a la supresión de tumores.
La probabilidades de transición para una secuencia de DNA es
Para secciones con genes, se nota una clara diferencia en la
proporción de contenido CG

Para calcular la probabilidad de una secuencia, utilizamos la


fórmula para la secuencia x1x2...x L-2 x L-1xL
P(x) = P(xL|x L-1)P(x L-1|x L-2)…P(x2|x1)P(x1)

http://kbrin.a-bldg.louisville.edu/CECS660/
Para la secuencia x=ACGCGCG, calculamos la probabilidad
asociada a cada modelo

Modelo CpG:
P(x) = P(G|C)P(C|G)P(G|C)P(C|G)P(G|C)P(C|A)P(A)
= 0,00016194

Modelo No-CpG:
P(x) = P(G|C)P(C|G)P(G|C)P(C|G)P(G|C)P(C|A)P(A)
= 0,0000014718
Debido a lo pequeño de los valores, se recomienda trabajar con
logaritmos (estabilidad numérica).
Observaciones
 Los valores de las probabilidades de transición dependen del
conjunto de datos considerado
 Las cadenas de Markov son fijas en los estados y no consideran
inserciones y deleciones
 Las cadenas de Markov trabajan con secuencias del mismo largo
 Para alineamiento múltiple, se necesitarían multiples modelos
para luego generar un consenso. No muy eficiente.
 Buscamos un nuevo tipo de cadenas que agregue estas
características
Cadenas de Markov Escondidas HMM
Buscamos una manera de medir la similitud de varias secuencias y
poder determinar una probabilidad de que una nueva secuencia sea
similar a ese grupo, por ejemplo, una familia de proteínas.
Separamos las probabilidades en dos:
 Estados escondidos: probabilidades de transición entre
estados, inserciones y deleciones
 Estados de salida: probabilidades de emisión de nucleótidos
que generan las secuencias
 Los estados de las nucleótidos se denotan por cuadrados
 Hay un estado comienzo y un estado final

 Los estados de inserciones se denotan por rombos

 Los estados de deleciones se denotan por círculos

Ejemplo de diagrama con inserciones relacionadas con deleciones

www.evl.uic.edu/shalini/coursework/hmm.pp
t
Ejemplo de deleciones independientes de inserciones

Ref: Essentials Bioinformatics, J.Xiong, Cambridge 2006


Ejemplo 1
Sin inserciones y deleciones
 Se transita directamente entre cada estado con probabilidad 1
 Se cuenta la probabilidad de emisión de cada columna
B E

Para cinco secuencias, solamente calculamos las emisiones

ACAATG
TCAATC
ACAAGC
AGAATC
ACCATC
Ejemplo 2
Se determina un criterio para decidir si la columna es de matching
o inserción. Las deleciones están en las matching.
Inserciones:

B E

Deleciones:

B E Matching Deleción Inserción

http://www.cs.tau.ac.il/~rshamir/algmb/01/scribe05/lec05.pdf
Construcción del modelo
 Determinar las secuencias que se van a alinear
 Determinar las regiones de matching y de inserciones bajo un
criterio, por ejemplo,
 alta aparición de gaps.

 alineamiento dado por blast

 Probabilidades de emisión: calcular la frecuencia de los


nucleótidos solamente
 Probabilidades de transición: calcular las frecuencias de cambio
entre nucleótidos, inserciones y deleciones
 Si no hay suficientes datos, utilizar la Regla de Laplace: agregar
un valor 1 a la frecuencia de conteo(pseudocuenta).
Ejemplo 3: probabildades de
transición
Estados sin inserciones y deleciones
Transición de la columna 1 a columna 2, columna
2 a la columna 3 y columna 6 a la columna 7
 Diez aminoácidos

 Cero aminoácidos

 Cero aminoácidos

Regla de Laplace
 aminoácidos: p=11/13

 Inserciones p=1/13

 Deleciones p=1/13

http://kbrin.a-bldg.louisville.edu/CECS660/
Estado con inserción y deleción
Los estados corresponden a las transiciones a las
columnas 4 y 5 juntas
Del estado 3 al estado inserción 1
 Cinco aminoácidos (--)= p=6/13

 Una deleción: p=2/13

 Cuatro inserciones: p=5/13

Del estado inserción 1 al estado 5


 Dos aminoácidos p=3/7

 Cero deleción: p=1/7

 Dos inserciones: p=3/7


Del estado deleción 1 al estado 5
 Un aminoácidos p=2/4

 Cero deleción: p=1/4

 Cero inserciones: p=1/4


Del estado deleción 1 al estado 5
 Un aminoácidos p=2/4

 Cero deleción: p=1/4

 Cero inserciones: p=1/4


Ejemplo 3: probabilidades de
emisión
Solamente se calculan las frecuencias de
los aminoácidos
 Columna 1: 9 H y 1 F, las

propabilidades son10/30 para H y


2/30 para F, el resto 1/30.
 Columna 2: 4 A, 1D, 1Y, 1F, 1E, 1K,

1R y las probabilidades son 5/30 y


2/30, y 1/30 para los aa ausentes.
 etc.
3.10 Softwares y
algoritmos

75
Algoritmos basados en puntajes
CARACTERÍSCAS GENERALES
 Alineamiento de pares
 Matrices de puntaje
 Penalidades del gap

PROBLEMAS
 Secuencias del mismo largo
 Depende del orden de alineamiento

SOFTWARES
 SUM OF PAIRS http://www.clustal.org/
 DIVIDE AND CONQUER http://bibiserv.techfak.uni-bielefeld.de/dca/
 T-COFFEE http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi
Algoritmos basados en puntajes
OTROS SOFTWARES
 DbClustal http://bips.u-strasbg.fr/PipeAlign/jump_to.cgi?DbClustal+noid
 Blastp y ballast para encontrar puntos ancla, luego Clustal para

alinemaiento global
 PRALINE http://zeus.cs.vu.nl/programs/pralinewww/
 Crea perfiles de las secuencias y se usa en alineamiento progresivo

 Poa http://bioinfo.mbi.ucla.edu/poa
 Alineación progresiva de secuencias por medio de un grafo de

similitudes/divergencias basado en S-W


 PRRN http://prrn.ims.u-tokyo.ac.jp/
 Obtiene árbol guía, divide en dos grupos, alineación random para
ordenar, se alinean grupos y se obtiene consenso. Se repite hasta que
los puntajes converjan.
Algoritmos basados en
probabilidades
CARACTERÍSCAS GENERALES

PROBLEMAS

SOFTWARES