Está en la página 1de 22

Secuencias y evolución

evolución a lo macro:
a) morfología
b) cruzas viables
c) registro fósil

evolución a lo micro:
comparación de secuencias de proteínas y ácidos nucleicos
se busca información sobre su estructura, conformación y localización

preguntas por contestar:


a) ¿cuál es el contenido de información de un genoma?
b) ¿cuánta información se pierde al codificar/decodificar?
c) ¿cómo se regula el uso de esta información?
Obtención de secuencias de ácidos nucleicos
Mapeo de interacciones entre ácidos nucleicos y otras moléculas
El tamaño de los genomas y la cantidad de información

a 1000 bp por proteína à E. coli debería tener ~4600 ORF (vs. 4400)
y nosotros, 3 millones … un error de dos órdenes de magnitud

intrones, regiones regulatorias, y regiones de función desconocida


Homología en secuencia y en función: desarrollo de ojos

idea central: las secuencias tienen


significado funcional e histórico

ojos en patas o alas


promovidos por secuencia de mosca o de ratón
… a pesar de que la arquitectura es distinta
similitud en secuencia à similitud en estructura
ßà similitud en función

hipótesis más sencilla: divergencia de secuencias

con baja similitud, es difícil distinguir entre


divergencia y convergencia
¿Cómo se hacen los alineamientos?
No todos los cambios son igualmente fáciles de hacer.
El resultado del cambio puede ser nulo (p. ej. codón sinónimo) o grave.
Modelo HP: H = 1 y P = 0
SIRPRA à PHPHPH à 010101

Comparación de dos secuencias, σ y σ’. La calificación de la posición i es:

La calificación total es:

Comparando 101010 con 101110

Se puede incluir una penalización para inserciones/deleciones (gaps), que son más
caros que una diferencia en secuencia.

Este análisis supone independencia del contexto.


Hay distintas matrices de calificación para proteínas.
Dependiendo de la distancia estimada entre
las proteínas a comparar, se escoge la
matriz adecuada.

Describen el costo de sustituir


aminoácidos:

qi probabilidad de encontrar el aminoácido i


dada su frecuencia de uso
pij probabilidad de intercambio en proteínas
reales

alternativa: qi = exp(-βεi)
εi es el costo de poner i en esa posición

si no hay relación entre las dos secuencias, para dos posiciones: exp[-β(εi + εj)]
si sí hay relación, entonces exp[-β(εi + εj + εij)]; εij es Sij
Sij > 0 à calificación negativa à sustitución menos probable de lo que marca el azar
Sij < 0 à calificación positiva à sustitución más probable de lo que marca el azar
¿Cómo saber si una calificación es buena o mala?
Se necesita una referencia: alineamientos aleatorios

p: probabilidad de 0 (P)
(1 – p): probabilidad de 1(H)

calificación promedio para secuencias aleatorias

Lo importante es la distribución de estas calificaciones, para saber si


la que nos interesa es significativa.
Distribución de valores extremos: distribución de Gumbel
es la distribución de las calificaciones mejores
cada alineamiento es una búsqueda de la mejor calificación

si obtener un valor x es fácil, no es


estadísticamente significativo
tiene una cola larga para x > 0 à
hay muchos falsos positivos

qué tan probable es encontrar un score:

importa el tamaño de la base de datos


(NDB) y la calidad de las secuencias:
permutaciones de secuencias reales
Calibrar E-values con casos conocidos: la curva ROC

la matriz de sustitución perfecta sería una recta horizontal arriba

Se toman colecciones de secuencias


con relación conocida.

Se pregunta qué tan buena es una


matriz de sustitución para identificar
pares de secuencias relacionadas.
Se calculan las calificaciones para
todos los pares posibles.
Si las calificaciones más altas son
relaciones conocidas, es una buena
matriz.
mientras más pequeño sea E-value, mayor
probabilidad de que la homología sea real.
Similitud estructural y funcional, con pobre similitud en secuencia

10 aa idénticos
mayor conservación
a nivel HP

ausencia de evidencia
no es
evidencia de ausencia
Localización de sitios de unión de proteínas en ADN: regulación
variación en secuencia del sitio de unión

PWM: matrices de peso por posición

cada posición contribuye con un peso diferente


la energía total es la suma de las contribuciones

YYRRY versus YYYYY:

consenso: mejor sitio


hay muchos subóptimos
Construcción de una matriz de pesos por posición
entrada: datos experimentales de unión, mejor que no-específica

b = base, i = posición
Z = función de partición (todas las bases en todas las posiciones, que den ε al sumarlas)
Localización de sitios de unión de CRP en E. coli

lo encontró en el operón de lac

encuentra otras cosas que no son y pierde otras:


faltan las interacciones con otras moléculas
accesibilidad del sitio de unión
supuso una εconsenso fija
Localización experimental de secuencias regulatorias

10% de bases
cambiadas
relación entre secuencia y expresión
Información mutua: liga entre variables
queremos averiguar cuánto del nivel de expresión se debe a la secuencia

Sx es la entropía asociada a p(x)


Sx|y depende de p(x|y) à saber
de y mejora lo que se sabe de x

bi = base en posición i
µ = nivel de expresión
f = frecuencia
Modelo HT de información mutua
sitio de unión de dos posiciones

f(µ):

f(b):

f(b,µ):

información mutua para la primera posición:

=1
para la segunda posición es 0
La localización de nucleosomas no es al azar.
Se estorban, cuesta enrollar al ADN, y hay motores
que los relocalizan.

Ni = número de veces que


aparece ese sitio asociado a
nucleosomas
Mecanismos para acomodar
nucleosomas, pasivos y
activos

modelo de nucleosomas como “crowders”

dos tipos de especies:


nucleótidos libres (nbp) y
nucleosomas (nnuc) de ancho d, espaciados <L>

meta: determinar si a una distancia i del origen


hay un nucleosoma
probabilidades de sacar un nucleosoma o un par de bases de la urna:

pensando en potenciales químicos:

es la parte entera de i/d: cuántos nucleosomas de ancho d caben en esa región i

probabilidad del que el sitio i en un segmento de longitud N esté vacío:


la distribución depende de i y de d

si N >> i à S(i - 1)
todas las maneras de cubrir los sitios con pares de bases o con nucleosomas

También podría gustarte