IMA 210
Unidad 3
Andrés Ávila
Departamento de Ingeniería Matemática
Universidad de La Frontera
aavila@ufro.cl
2010-1
3.1 Gráfico de Puntos
2
Manera simple: Dot plot
Herramienta: construir una matriz o tabla
de 0s y 1s, donde
0 si son diferentes
1 si son iguales
4
Nociones de Probabilidades
Motivación
Hay eventos que no podemos determinar cuándo suceden:
mutaciones
Son pocos eventos: cambio de nucleótidos
Esos eventos se pueden medir: cambio de secuencias
Los eventos pueden depender de las especies/subespecies
Preguntas
¿Cuáles cambios son posibles?
¿Cómo medir y comparar los cambios?
¿Hay características especiales que me permitan medir mejor?
Si obtengo nuevos datos, ¿cómo mejoro mis mediciones?
5
Definiciones Básicas
Primero respondamos la pregunta de cuáles son los cambios.
Como modelo utilizaremos el experimento del lanzamiento de
un dado.
Def 1: Espacio muestral Ω es el conjunto de resultados posibles
de un experimento
Ej. 1 del dado Ω={1,2,3,4,5,6}
Def 2: Un suceso o evento es cualquier subconjunto del espacio
muestral
Ej. 2 A={1,3,5}, B={2}
En el caso de secuencias de nucleótidos, podemos escoger
Ω={A,C,G,T}, o también Ω={A,C,G,T,-}, donde – denota una
inserción.
6
Probabilidad
Para medir los cambios necesitamos asociarle a cada suceso A un
valor que denotaremos P(A). Vamos a asumir los siguientes
supuestos
Axiomas de Kolmogorov
1. Para todo suceso, P(A)≥0
2. P(Ω)=1
3. Si A∩B=Φ entonces P(AUB)=P(A)+P(B)
9
Entropía
Las secuencias no son aleatorias, es decir, en las secuenciaciones
no aparecen con la misma frecuencia todas las secuencias de
un largo dado. Necesitamos poder medir la aleatoriedad de una
probabilidad
Def 5. Sea pi=P({xi}), donde xi denota un elemento de Ω,
llamaremos entropía al valor dado por
H(Ω)= - ∑ pi log 2 (pi)
y la unidad se llama bits.
Ej. 5 Para los ejemplos de P dados en Ej. 3 tenemos
H(Ω)=- ∑ 1/6*(-2.585)=2.585
H(Ω)=-(3*1/12*(-3.585)+3*3/12*(-2))=2.3962
11
3.3 Estadística de Karlin-
Altschul
12
Similaridad de aminoácidos
Dada una secuencia, calculamos la frecuencia de aparición de
cada aminoácido y la denotaremos pi . Luego calculamos la
frecuencia de aparición de parejas de aminoácidos y la denotamos
qij. Llamaremos puntaje de dos aminoácidos al valor
13
Valor esperado y entropía
Además, podemos calcular el puntaje esperado E
y la entropía relativa H
14
Puntajes de match y mismatch
Para completar un esquema de puntaje, necesitamos
decidir cuáles son los valores de match y mismatch.
Para diferentes esquemas, tenemos diferentes
resultados
15
Fuente: BLAST, I. Korf, M. Yandell y J. Bedell, O'Reily & Associates, Inc. , 2003.
Estadística de Karlin -Altschul
Cinco supuestos centrales
Es posible encontrar un puntaje positivo
El valor esperado debe ser negativo
Los aminoácidos están distribuidos idénticamente
e independientemente
Las secuencias son infinitas
Los alineamientos no contienen espacios (gaps)
Los tres últimos supuestos son complicados,
pero los asumiremos inicialmente
16
Valor esperado E
Para evaluar la comparación de dos secuencias necesitamos
Número de letras en la secuencia query m
Número de letras en la base de datos n
El puntaje total de la comparación S
El valor de normalización λ
Un valor de ajuste k, alrededor de 0.1
18
Matrices PAM
Percent Adapted Mutation
Margaret Dayhoff(†) en 1978 calculó los
puntajes de parejas basados en 1572 cambios en
71 grupos de proteinas relacionadas entre ellas.
Las matrices PAM se calculan con log en base
10 de los puntajes.
PAM-1 es la primera matriz de cambios (1% de
mutaciones)
PAM-N se refiere a multiplicar PAM-1 N veces
y corresponde al N% de mutaciones
aceptadas
PAM 250 se ajusta bien para comparar
19
PAM 250
http://www.cryst.bbk.ac.uk/pps97/assignments/projects/leluk/project.htm
altohttp://www.clcbio.com/index.php?id=476 24
3.5 Alineamiento Global
25
Metodología desplazamiento
29
Motivación
Las familias de proteínas comparten Global
solamente el 30% de identidad y en
secuencias cortas
La similaridad es local
Buscaremos la mejor subsecuencia o
trozo de secuencia
Para evitar muchos resultados,
debemos mejorar el sistema de Local
puntaje
Se seguirá una estrategia similar al
alineamiento global
Elementary Sequence Analysis, B. Golding and D. Morton eds. 2004
30
Smith-Waterman JMB'81
Desaciertos se castigan con un puntaje negativo
de -0.5
El puntaje mínimo es 0
Si hay dos secuencias cercanas, se funden en una
sola
Se llena la matriz de arriba hacia abajo,
izquierda a derecha
Se busca el (o los) puntaje(s) máximo(s) en la
matriz M
Se busca la secuencia de puntajes mayores
retrocediendo hasta llegar a un cero
Se busca la siguiente secuencia de puntajes
mayores
Se repite hasta que se encuentren un número
mínimo de subsecuencias o de un largo mínimo
32
3.7 Blast
33
Ideas Básicas
Tenemos una secuencia objetivo o query (ya sea de laboratorio o
buscada en las bases de datos)
Queremos saber si hay otras secuencias documentadas con
información relevante (propiedades, funcionamiento, etc.)
Por el principio evolutivo, las mutaciones son pocas en el tiempo
Hipótesis: secuencias similares (homólogos) deben tener un
ancestro común (puede ser erróneo, pero poco)
¿Qué es ser similar? Necesitamos cuantificar....
Como los cambios no son deterministas, los suponemos
probabilistas
Debemos definir una probabilidad y estudiar sus parámetros
(Estadística)
Altschul et als. JMB'90
Basic Local Alignment Search Tool BLAST
Soluciones heurísticas (rápidas y soluciones parciales)
Las distancias están basadas en “puntajes de mutaciones bien
definidos”
PAM (Point accepted mutation) mide evolución entre algunas
bases de datos (Dayhoff '78)
BLOSUM Block substitution matrix usa regiones
conservadas de familias de proteínas (Henikoff and Henikoff
'92)
Entrega un significado estadístico a los puntajes (Karlin-
Altschul '90)
Detecta significado biológico débil entre similaridades
biológicas
Es el más rápido a la fecha
Basic local alignment search tool, Altschul SF, Gish W, Miller W, Myers EW,
Lipman DJ. J Mol Biol. 1990 Oct 5;215(3):403-10. 35
Algoritmo BLAST
Se filtran las regiones de baja complejidad en la secuencia
objetivo o query
Se genera una lista heurística de hits de alto puntaje: por semillas
E= k m n e-λs
donde k, λ dependen de la matriz de puntaje, s puntaje, m largo secuencia
objetivo, n largo de la base de datos
36
blast básico @ ncbi
Comparar secuencia objetivo (query) con base de datos (target set)
Sabores:
PDB, medioambientales
traducciones: ambas y más
Parámetros de puntaje
Matriz de puntaje: PAM30, PAM60, BLOSUM45, BLOSUM 60 y
BLOSUM80
Costos de espacios: existencia y extensión
Alineamientos locales
Y al final ...
39
Informe blast
Datos estadísticos de
ejecución del programa
Lambda, K, H
Hits
secuencias
HSP
Espacio de búsqueda
40
Comentarios del uso
HSP crece en número con w
HSP decrece en número con T
S crece junto con E
psi-blast: extendiendo resultados
position specific iterative blast: psi blast
Búsqueda blast con pocos resultados
Homología en familias de proteínas puede ser con sólo 25% de
identidad
Queremos extender la búsqueda a familias de proteínas
Se calcula una matriz específica con el alineamiento múltiple de
secuencias con alto puntaje PSSM
Se realiza una nueva búsqueda blast con esta matriz y se itera
43
Problema
Se tienen N secuencias de distintos largo
http://www.topsan.org/WikiHome/Public/380276?revision= 20
Detalle
3.8.1 Algoritmo de suma de
pares
SP-score
Necesitamos una matriz de puntaje (PAM o BLOSUM) y
nuestra matriz de secuencias M
Se calcula la suma de todos los puntajes comparando filas con
filas para una columna dada Ci
http://www.cs.ubc.ca/labs/beta/Courses/CPSC536A-01/Class7/class7-
notes.html
Puntaje de MSA
La idea principal es generalizar Needleman-Wunsch
Se calcula el puntaje parcial de todas las secuencias s1k1, s2k2, ...,
sNkN donde ki≤L e i=1..N. Hay 2N-1 combinaciones.
Inicialización del puntaje
Cálculo iterativo
donde ji denota o bien km-1 o bien km, pero solamente cambia UNO
de ellos. Una vez revisado todos los casos, se procede a buscar la
secuencia de consenso de mayor puntaje.
El algoritmo necesita LN memoria para almacenar los datos y se
calculan 2N veces LN tablas y N2 operaciones. El algorimo se pone
lento para N grande (algoritmo NP o no polinomial).
Alternativa de solución N grande: algoritmos heurísticos.
Comentarios del SP-score
SP-score no considera la relación entre secuencias que pueden
ser más cercanas evolutivamente
El puntaje no tiene fundamentos probabilistas
Es relativamente fácil de calcular
3.8.2 Divide y vencerás
Conceptos básicos
Generalización del puntaje agregando pesos
56
Motivación Biológica
Contar frecuencia de nucleótidos no incluye información
estructural de la secuencia: no importa el orden, la frecuencia es
la misma
Ej: ATATAT, AAATTT, TTTAAA, TATATA
Contar cambios o transiciones de un nucleótido a otro (A-> T,
A->G, A->C, A->A) involucra información estructural
Ahora no es lo mismo encontrar A->T que T->A en una
secuencia
Contamos la frecuencia de cambio de cada nucleótido a cada
nucleótido
Ej: ATGATGATCTCTAGAT: A cambia a T cuatro veces y a G
una vez. A cambia cero veces a A y C
Probabilidad Condicional
Si tenemos información adicional o condicional de nuestro
experimento, digamos que nos limitamos a los experimentos en
B, entonces podemos recalcular las probabilidades respecto al
nuevo conjunto B.
Ej: Saber que va a salir un número parde un dado B={2,4,6}
Para un evento cualquiera A, calculamos la probabilidad de la
intersección normalizada respecto de B y denotamos por
P(A\B):=P(A∩B)/P(B)
cuando P(B)>0. Le llamaremos probabilidad condicional de A
dado B.
Ej: Para un dado, si A={2}, P(A)=1/6 y
P(A|B)= P(A∩B)/P(B) =1/6/1/2=1/3.
Cadenas de Markov
Para las secuencias, nos interesa relacionar las
frecuencias de cambio, por ejemplo la transición
A->T la denotaremos P(T|A)
y tenemos que
P(T|A)+P(G|A)+P(C|A)+P(A|A)=1.
Denotaremos las relaciones entre elementos por
un grafo: los círculos denotan los estados o
elementos y las flechas las probabilidades de
transiciones, a las cuales les asociamos el valor de
la probabilidad de transición.
Aplicación: detección de intrones
Islas CpG: los genes se encuentran en secciones del DNA con alta
concentración de CG.
La metilación es la transformación de la citosina. Dentro de los
genes, está suprimida y aumenta la presencia de CG, en particular
este fenómeno está asociado a la supresión de tumores.
La probabilidades de transición para una secuencia de DNA es
Para secciones con genes, se nota una clara diferencia en la
proporción de contenido CG
http://kbrin.a-bldg.louisville.edu/CECS660/
Para la secuencia x=ACGCGCG, calculamos la probabilidad
asociada a cada modelo
Modelo CpG:
P(x) = P(G|C)P(C|G)P(G|C)P(C|G)P(G|C)P(C|A)P(A)
= 0,00016194
Modelo No-CpG:
P(x) = P(G|C)P(C|G)P(G|C)P(C|G)P(G|C)P(C|A)P(A)
= 0,0000014718
Debido a lo pequeño de los valores, se recomienda trabajar con
logaritmos (estabilidad numérica).
Observaciones
Los valores de las probabilidades de transición dependen del
conjunto de datos considerado
Las cadenas de Markov son fijas en los estados y no consideran
inserciones y deleciones
Las cadenas de Markov trabajan con secuencias del mismo largo
Para alineamiento múltiple, se necesitarían multiples modelos
para luego generar un consenso. No muy eficiente.
Buscamos un nuevo tipo de cadenas que agregue estas
características
Cadenas de Markov Escondidas HMM
Buscamos una manera de medir la similitud de varias secuencias y
poder determinar una probabilidad de que una nueva secuencia sea
similar a ese grupo, por ejemplo, una familia de proteínas.
Separamos las probabilidades en dos:
Estados escondidos: probabilidades de transición entre
estados, inserciones y deleciones
Estados de salida: probabilidades de emisión de nucleótidos
que generan las secuencias
Los estados de las nucleótidos se denotan por cuadrados
Hay un estado comienzo y un estado final
www.evl.uic.edu/shalini/coursework/hmm.pp
t
Ejemplo de deleciones independientes de inserciones
ACAATG
TCAATC
ACAAGC
AGAATC
ACCATC
Ejemplo 2
Se determina un criterio para decidir si la columna es de matching
o inserción. Las deleciones están en las matching.
Inserciones:
B E
Deleciones:
http://www.cs.tau.ac.il/~rshamir/algmb/01/scribe05/lec05.pdf
Construcción del modelo
Determinar las secuencias que se van a alinear
Determinar las regiones de matching y de inserciones bajo un
criterio, por ejemplo,
alta aparición de gaps.
Cero aminoácidos
Cero aminoácidos
Regla de Laplace
aminoácidos: p=11/13
Inserciones p=1/13
Deleciones p=1/13
http://kbrin.a-bldg.louisville.edu/CECS660/
Estado con inserción y deleción
Los estados corresponden a las transiciones a las
columnas 4 y 5 juntas
Del estado 3 al estado inserción 1
Cinco aminoácidos (--)= p=6/13
75
Algoritmos basados en puntajes
CARACTERÍSCAS GENERALES
Alineamiento de pares
Matrices de puntaje
Penalidades del gap
PROBLEMAS
Secuencias del mismo largo
Depende del orden de alineamiento
SOFTWARES
SUM OF PAIRS http://www.clustal.org/
DIVIDE AND CONQUER http://bibiserv.techfak.uni-bielefeld.de/dca/
T-COFFEE http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi
Algoritmos basados en puntajes
OTROS SOFTWARES
DbClustal http://bips.u-strasbg.fr/PipeAlign/jump_to.cgi?DbClustal+noid
Blastp y ballast para encontrar puntos ancla, luego Clustal para
alinemaiento global
PRALINE http://zeus.cs.vu.nl/programs/pralinewww/
Crea perfiles de las secuencias y se usa en alineamiento progresivo
Poa http://bioinfo.mbi.ucla.edu/poa
Alineación progresiva de secuencias por medio de un grafo de
PROBLEMAS
SOFTWARES
Mucho más que documentos.
Descubra todo lo que Scribd tiene para ofrecer, incluyendo libros y audiolibros de importantes editoriales.
Cancele en cualquier momento.