BF 060617 Cap 21 1 3

Secuencias y evolución
evolución a lo macro:
a) morfología
b) cruzas viables
c) registro fósil
evolución a lo micro:
comparación de secuencias de proteínas y ácidos nucleicos
se busca información sobre su estructura, conformación y localización
preguntas por contestar:

a) ¿cuál es el contenido de información de un genoma?
b) ¿cuánta información se pierde al codificar/decodificar?
c) ¿cómo se regula el uso de esta información?
Obtención de secuencias de ácidos nucleicos
Mapeo de interacciones entre ácidos nucleicos y otras moléculas
El tamaño de los genomas y la cantidad de información
a 1000 bp por proteína à E. coli debería tener ~4600 ORF (vs. 4400)
y nosotros, 3 millones … un error de dos órdenes de magnitud
intrones, regiones regulatorias, y regiones de función desconocida

Homología en secuencia y en función: desarrollo de ojos
idea central: las secuencias tienen

significado funcional e histórico
ojos en patas o alas

promovidos por secuencia de mosca o de ratón
… a pesar de que la arquitectura es distinta
similitud en secuencia à similitud en estructura
ßà similitud en función
hipótesis más sencilla: divergencia de secuencias
con baja similitud, es difícil distinguir entre

divergencia y convergencia
¿Cómo se hacen los alineamientos?
No todos los cambios son igualmente fáciles de hacer.
El resultado del cambio puede ser nulo (p. ej. codón sinónimo) o grave.
Modelo HP: H = 1 y P = 0
SIRPRA à PHPHPH à 010101
Comparación de dos secuencias, σ y σ’. La calificación de la posición i es:
La calificación total es:
Comparando 101010 con 101110
Se puede incluir una penalización para inserciones/deleciones (gaps), que son más
caros que una diferencia en secuencia.
Este análisis supone independencia del contexto.

Hay distintas matrices de calificación para proteínas.
Dependiendo de la distancia estimada entre
las proteínas a comparar, se escoge la
matriz adecuada.
Describen el costo de sustituir

aminoácidos:
qi probabilidad de encontrar el aminoácido i

dada su frecuencia de uso
pij probabilidad de intercambio en proteínas
reales
alternativa: qi = exp(-βεi)
εi es el costo de poner i en esa posición
si no hay relación entre las dos secuencias, para dos posiciones: exp[-β(εi + εj)]
si sí hay relación, entonces exp[-β(εi + εj + εij)]; εij es Sij
Sij > 0 à calificación negativa à sustitución menos probable de lo que marca el azar
Sij < 0 à calificación positiva à sustitución más probable de lo que marca el azar
¿Cómo saber si una calificación es buena o mala?
Se necesita una referencia: alineamientos aleatorios
p: probabilidad de 0 (P)
(1 – p): probabilidad de 1(H)
calificación promedio para secuencias aleatorias
Lo importante es la distribución de estas calificaciones, para saber si

la que nos interesa es significativa.
Distribución de valores extremos: distribución de Gumbel
es la distribución de las calificaciones mejores
cada alineamiento es una búsqueda de la mejor calificación
si obtener un valor x es fácil, no es

estadísticamente significativo
tiene una cola larga para x > 0 à
hay muchos falsos positivos
qué tan probable es encontrar un score:
importa el tamaño de la base de datos

(NDB) y la calidad de las secuencias:
permutaciones de secuencias reales
Calibrar E-values con casos conocidos: la curva ROC
la matriz de sustitución perfecta sería una recta horizontal arriba
Se toman colecciones de secuencias

con relación conocida.
Se pregunta qué tan buena es una

matriz de sustitución para identificar
pares de secuencias relacionadas.
Se calculan las calificaciones para
todos los pares posibles.
Si las calificaciones más altas son
relaciones conocidas, es una buena
matriz.
mientras más pequeño sea E-value, mayor
probabilidad de que la homología sea real.
Similitud estructural y funcional, con pobre similitud en secuencia
10 aa idénticos
mayor conservación
a nivel HP
ausencia de evidencia
no es
evidencia de ausencia
Localización de sitios de unión de proteínas en ADN: regulación
variación en secuencia del sitio de unión
PWM: matrices de peso por posición
cada posición contribuye con un peso diferente

la energía total es la suma de las contribuciones
YYRRY versus YYYYY:
consenso: mejor sitio

hay muchos subóptimos
Construcción de una matriz de pesos por posición
entrada: datos experimentales de unión, mejor que no-específica
b = base, i = posición
Z = función de partición (todas las bases en todas las posiciones, que den ε al sumarlas)
Localización de sitios de unión de CRP en E. coli
lo encontró en el operón de lac
encuentra otras cosas que no son y pierde otras:

faltan las interacciones con otras moléculas
accesibilidad del sitio de unión
supuso una εconsenso fija
Localización experimental de secuencias regulatorias
10% de bases
cambiadas
relación entre secuencia y expresión
Información mutua: liga entre variables
queremos averiguar cuánto del nivel de expresión se debe a la secuencia
Sx es la entropía asociada a p(x)

Sx|y depende de p(x|y) à saber
de y mejora lo que se sabe de x
bi = base en posición i
µ = nivel de expresión
f = frecuencia
Modelo HT de información mutua
sitio de unión de dos posiciones
f(µ):
f(b):
f(b,µ):
información mutua para la primera posición:
=1
para la segunda posición es 0
La localización de nucleosomas no es al azar.
Se estorban, cuesta enrollar al ADN, y hay motores
que los relocalizan.
Ni = número de veces que

aparece ese sitio asociado a
nucleosomas
Mecanismos para acomodar
nucleosomas, pasivos y
activos
modelo de nucleosomas como “crowders”
dos tipos de especies:

nucleótidos libres (nbp) y
nucleosomas (nnuc) de ancho d, espaciados <L>
meta: determinar si a una distancia i del origen

hay un nucleosoma
probabilidades de sacar un nucleosoma o un par de bases de la urna:
pensando en potenciales químicos:
es la parte entera de i/d: cuántos nucleosomas de ancho d caben en esa región i
probabilidad del que el sitio i en un segmento de longitud N esté vacío:

la distribución depende de i y de d
si N >> i à S(i - 1)
todas las maneras de cubrir los sitios con pares de bases o con nucleosomas

BF 060617 Cap 21 1 3

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

BF 060617 Cap 21 1 3

Cargado por

Copyright:

Formatos disponibles

Secuencias y evolución

preguntas por contestar:

intrones, regiones regulatorias, y regiones de función desconocida

idea central: las secuencias tienen

ojos en patas o alas

hipótesis más sencilla: divergencia de secuencias

con baja similitud, es difícil distinguir entre

Comparación de dos secuencias, σ y σ’. La calificación de la posición i es:

La calificación total es:

Comparando 101010 con 101110

Este análisis supone independencia del contexto.

Describen el costo de sustituir

qi probabilidad de encontrar el aminoácido i

calificación promedio para secuencias aleatorias

Lo importante es la distribución de estas calificaciones, para saber si

si obtener un valor x es fácil, no es

qué tan probable es encontrar un score:

importa el tamaño de la base de datos

la matriz de sustitución perfecta sería una recta horizontal arriba

Se toman colecciones de secuencias

Se pregunta qué tan buena es una

PWM: matrices de peso por posición

cada posición contribuye con un peso diferente

YYRRY versus YYYYY:

consenso: mejor sitio

lo encontró en el operón de lac

encuentra otras cosas que no son y pierde otras:

Sx es la entropía asociada a p(x)

información mutua para la primera posición:

Ni = número de veces que

modelo de nucleosomas como “crowders”

dos tipos de especies:

meta: determinar si a una distancia i del origen

pensando en potenciales químicos:

es la parte entera de i/d: cuántos nucleosomas de ancho d caben en esa región i

probabilidad del que el sitio i en un segmento de longitud N esté vacío:

También podría gustarte