Está en la página 1de 138

Bioinformática estructural

Predicción de estructuras de proteínas y ARN

Dr. Eduardo A. R ODRÍGUEZ T ELLO

C INVESTAV-Tamaulipas

25 de julio del 2013

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 1 / 134
1 Conceptos básicos de bioinformática estructural

2 Predicción de la estructura secundaria de proteínas

3 Predicción de la estructura terciaria de proteínas

4 Predicción de la estructura secundaria de ARN

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 2 / 134
Conceptos básicos de bioinformática estructural Introducción

Introducción

Las proteínas realizan la mayoría de las funciones biológicas y


químicas esenciales en una célula

Juegan un papel importante en las funciones estructurales,


enzimáticas, de transporte y regulación

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 3 / 134
Conceptos básicos de bioinformática estructural Introducción

Introducción

Estructura 3D → Funcionalidad
La estructura está codificada en la
secuencia de aminoácidos
[Anfinsen, 1973]

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 4 / 134
Conceptos básicos de bioinformática estructural Ángulos diedrales

1 Conceptos básicos de bioinformática estructural


Introducción
Ángulos diedrales
Jerarquía
Estructura secundaria
Estructura terciaria
Determinación de la estructura 3D de las Proteínas
BD de estructuras de proteínas
Visualización de estructuras proteínicas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 5 / 134
Conceptos básicos de bioinformática estructural Ángulos diedrales

Ángulos diedrales

Los átomos asociados al enlace peptídico se encuentran en el


mismo plano

Por esta razón el enlace peptídico no puede girar libremente

El ángulo de rotación de un enlace se conoce como diedral o de


torsión

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 6 / 134
Conceptos básicos de bioinformática estructural Ángulos diedrales

Ángulos diedrales

Los enlaces N–Cα (φ) y Cα –C (ψ) sí pueden girar con cierta


libertad

Las combinaciones de φ y ψ permiten a las proteínas plegarse de


muchas maneras

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 7 / 134
Conceptos básicos de bioinformática estructural Ángulos diedrales

Gráfica de Ramachandran
Las rotaciones de φ y ψ no son completamente libres. Entonces,
sólo hay un rango limitado de conformaciones peptídicas

La gráfica de Ramachandran muestra las combinaciones de φ y ψ


que son permitidas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 8 / 134
Conceptos básicos de bioinformática estructural Jerarquía

1 Conceptos básicos de bioinformática estructural


Introducción
Ángulos diedrales
Jerarquía
Estructura secundaria
Estructura terciaria
Determinación de la estructura 3D de las Proteínas
BD de estructuras de proteínas
Visualización de estructuras proteínicas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 9 / 134
Conceptos básicos de bioinformática estructural Jerarquía

Estructura de las proteínas

La estructura primaria es la secuencia de aminoácidos unidos por


enlaces peptídicos

El polipéptido resultante se puede plegar en unidades de


estructura secundaria como las hélices alfa

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 10 / 134
Conceptos básicos de bioinformática estructural Jerarquía

Estructura de las proteínas

La hélice alfa es parte de la estructura terciaria de la proteína


plegada, la cual a su vez puede ser una subunidad de la
estructura cuaternaria de una proteína de múltiples unidades,
como la hemoglobina

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 11 / 134
Conceptos básicos de bioinformática estructural Jerarquía

Fuerzas de estabilización

La estructura de las proteínas se mantiene por fuerzas de


estabilización como las interacciones electrostáticas, las fuerzas
de Van der Waals y los enlaces de hidrógeno

Las interacciones electrostáticas ocurren cuando el exceso de


carga negativa en una región es neutralizado por cargas positivas
en otra región formando puentes salinos entre residuos de carga
opuesta

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 12 / 134
Conceptos básicos de bioinformática estructural Jerarquía

Fuerzas de estabilización

Los enlaces de hidrógeno son un tipo de interacciones


electrostáticas que involucran a un átomo de hidrógeno de un
residuo y a un átomo de oxígeno de otro residuo

El hidrógeno con carga positiva se une parcialmente al oxígeno


con carga negativa

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 13 / 134
Conceptos básicos de bioinformática estructural Jerarquía

Fuerzas de estabilización

Las fuerzas de Van der Waals son las fuerzas de atracción o


repulsión entre moléculas o entre partes de una misma molécula

Los electrones de un átomo crean un dipolo eléctrico que atrae a


otro dipolo de un átomo cercano

Pero cuando están muy cerca los átomos, se comienzan a repeler

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 14 / 134
Conceptos básicos de bioinformática estructural Jerarquía

Fuerzas de estabilización

El radio de Van der Waals es la distancia a la que un átomo


puede estar cerca de otro

Los puentes disulfuro también intervienen en la estabilización de


la estructura de una proteína

Estos puentes se forman entre los átomos de azufre de la cisteína

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 15 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria

1 Conceptos básicos de bioinformática estructural


Introducción
Ángulos diedrales
Jerarquía
Estructura secundaria
Estructura terciaria
Determinación de la estructura 3D de las Proteínas
BD de estructuras de proteínas
Visualización de estructuras proteínicas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 16 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria

Hélices–α

Una hélice–α tiene una conformación de la cadena principal


parecida a un sacacorchos

En esta hélice existen 3.6 residuos en cada giro

La estructura se estabiliza mediante enlaces de hidrógeno entre


átomos de la cadena principal i e i + 4, que son casi paralelos al
eje de la hélice

φ y ψ son de 60o y 45o

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 17 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria

Hélices–α

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 18 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria

Hojas–β

Una hoja–β es una configuración completamente extendida que


se construye de varias regiones espacialmente adyacentes de un
polipéptido

Cada región que la forma se conoce como hebra–β

Esta estructura se estabiliza por medio de enlaces de hidrógeno


que se forman entre residuos de hebras adyacentes

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 19 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria

Hojas–β

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 20 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria

Espirales y rizos

También hay estructuras locales que no pertenecen a estructuras


secundarias regulares

Estas estructuras son las espirales y los rizos

Los rizos se caracterizan por ser giros bruscos

Las espirales se forman por regiones de conexión completamente


irregulares

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 21 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria

1 Conceptos básicos de bioinformática estructural


Introducción
Ángulos diedrales
Jerarquía
Estructura secundaria
Estructura terciaria
Determinación de la estructura 3D de las Proteínas
BD de estructuras de proteínas
Visualización de estructuras proteínicas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 22 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria

Tipos de proteínas

El arreglo y empaque completo de estructuras secundarias forma


la estructura terciaria de la proteína

La estructura terciaria generalmente se clasifica en proteínas


globulares o de membrana

Las globulares existen en solventes a través de interacciones


hidrofílicas con moléculas solventes

Las de membrana existen en lípidos de membrana y se


estabilizan por medio de interacciones hidrofóbicas con las
moléculas de lípidos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 23 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria

Proteínas globulares

Son solubles y están rodeadas por moléculas de agua

Tienen estructuras compactas de forma esférica con residuos


hidrofílicos en la superficie e hidrofóbicos en el núcleo

Minimiza el contacto con el agua en el centro y maximiza las


interacciones con agua en el exterior

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 24 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria

Proteínas globulares

Algunos ejemplos: enzimas, mioglobinas y hormonas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 25 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria

Proteínas de membrana integral

Existen en las bicapas de lípidos de la membrana de la célula

Como están rodeadas de lípidos, el exterior debe ser hidrofóbico


para ser estable

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 26 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria

Proteínas de membrana integral

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 27 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas

1 Conceptos básicos de bioinformática estructural


Introducción
Ángulos diedrales
Jerarquía
Estructura secundaria
Estructura terciaria
Determinación de la estructura 3D de las Proteínas
BD de estructuras de proteínas
Visualización de estructuras proteínicas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 28 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas

Cristalografía de rayos–X

Requiere que las proteínas formen cristales con posiciones fijas


de una manera repetida y ordenada

Los cristales se iluminan con un haz intenso de rayos–X

Los electrones que rodean a los átomos desvían los rayos–X


produciendo un patrón regular de difracción

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 29 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas

Cristalografía de rayos–X

El patrón está compuesto de miles de puntos grabados en una


placa de rayos–X

El patrón se convierte a un mapa de densidad de electrones

La estructura se modela con los aminoácidos que mejor se


ajustan al mapa

Una limitante que existe es la necesidad de obtener cristales a


partir de las proteínas, lo que no siempre es posible

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 30 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas

Cristalografía de rayos–X

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 31 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas

Cristalografía de rayos–X

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 32 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas

Espectroscopia NMR

La espectroscopia de resonancia magnética nuclear (NMR)


detecta patrones de giro de núcleos atómicos en un campo
magnético

Utiliza radiación para inducir transiciones entre estados de giro de


los núcleos en un campo magnético

Las interacciones entre pares de isótopos producen señales de


radio que están correlacionadas con la distancia entre ellos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 33 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas

Espectroscopia NMR

Interpretando estas señales se puede determinar la proximidad


entre átomos y con esto se puede construir un modelo para la
proteína

No tiene la limitación de generar cristales, pero solamente puede


determinar estructuras con menos de 200 residuos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 34 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas

1 Conceptos básicos de bioinformática estructural


Introducción
Ángulos diedrales
Jerarquía
Estructura secundaria
Estructura terciaria
Determinación de la estructura 3D de las Proteínas
BD de estructuras de proteínas
Visualización de estructuras proteínicas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 35 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas

Banco de datos de proteínas

Las estructuras de proteínas que se obtienen por cristalografía y


espectroscopia, entre otros métodos, se almacenan en el Banco
de Datos de Proteínas (PDB)

Las estructuras definen la posición, en un espacio tridimensional,


de cada átomo de la proteína

El sitio en Internet de PDB permite subir, buscar y bajar datos de


proteínas

Aunque PDB tiene miles de estructuras almacenadas, la


información es redundante, existen muchas entradas para una
misma proteína, ya que se reportan con diferentes resoluciones,
con mutaciones en un residuo, etc

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 36 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas

Formato PDB

Cada descripción de una proteína tiene un código de 4 símbolos


alfanuméricos

Las líneas tienen 80 caracteres de longitud

Consta de un encabezado y una sección de coordenadas


atómicas

El encabezado puede incluir información de método del


determinación, resolución, parámetros de cristalografía,
referencias bibliográficas, etc

Las coordenadas incluyen el nombre del átomo, del residuo,


número del residuo, coordenadas en x, y , z, factor de
temperatura, entre otros datos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 37 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas

Formato PDB

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 38 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas

Formato mmCIF y MMDB

Las limitaciones del formato PDB han permitido el desarrollo de


nuevos formatos como mmCIF y MMDB que son más fáciles de
analizar por una computadora y permiten describir estructuras
más complejas

Cada línea describe un campo de la descripción de la estructura,


primero se escribe el nombre del campo y luego el valor

Un archivo MMDB utiliza el formato ASN.1 para describir una


estructura

Incluye información de enlaces para cada molécula, llamada


gráfica química, permitiendo que las estructuras se dibujen más
rápido

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 39 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas

Formato mmCIF y MMDB

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 40 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas

1 Conceptos básicos de bioinformática estructural


Introducción
Ángulos diedrales
Jerarquía
Estructura secundaria
Estructura terciaria
Determinación de la estructura 3D de las Proteínas
BD de estructuras de proteínas
Visualización de estructuras proteínicas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 41 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas

Visualización de estructuras proteínicas

La característica más básica de un software de visualización es la


capacidad de crear conectividad entre átomos para simular la
vista de una molécula

El programa de visualización puede ofrecer diferentes


presentaciones de visualización:
1 Tramas de alambres (wire-frame)
2 Esferas y líneas (balls and sticks)
3 Esferas (space-filling o CPK - Corey, Pauling, and Koltan)
4 Listones (ribbons)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 42 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas

Tramas de alambres (wire-frame)


Es un diagrama de líneas que representa los enlaces entre
átomos (representación más simple)
Es útil para localizar residuos específicos en una estructura de
proteína

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 43 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas

Esferas y líneas (balls and sticks)


Representan átomos y sus enlaces respectivamente
Pueden representar la columna vertebral de una estructura

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 44 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas

Esferas (space-filling o CPK

Cada átomo se describe usando una esfera grande cuyo radio


corresponde a su radio de van der Waals

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 45 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas

Listones (ribbons)
Usa listones en forma de espiral para representar las hélices-α y
flechas planas para representar las hebras-β
Permiten identificar fácilmente las estructuras secundarias
Ofrece una vista general de toda la topología de la estructura

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 46 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas

Software

RasMol. Lee formatos PDB y mmCIF. Puede desplegar una


molécula completa o partes específicas de ella. Es un programa
de línea de comandos y se encuentra disponible en plataformas
UNIX, Windows y Mac.

RasTop. Es una nueva versión de RasMol disponible en


plataforma Windows. Posee una mejor interface de usuario.

Swiss-PDBViewer. Es un visor de estructuras disponible para


Mac y Windows. Posee mucha funcionalidad para ser un
shareware. Capaz de visualizar múltiples estructuras, analizar y
modelar. Puede medir distancias, potencial electrostático, ploteo
de Ramachandran, etc.

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 47 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas

Visualización de estructuras proteínicas

Molscript. Despliega estructuras tridimensionalmente y ofrece


varios formatos de salida. Disponible en plataformas UNIX.
Ofrecer diferentes presentaciones de visualización. Sin embargo,
es una aplicación de línea de comandos.

JMol. Es un applet para visualuzar estructuras químicas que


emplea representación de esferas.

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 48 / 134
Predicción de la estructura secundaria de proteínas Introducción

2 Predicción de la estructura secundaria de proteínas


Introducción
Métodos ab initio
Métodos basados en homología
Predicción con redes neuronales

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 49 / 134
Predicción de la estructura secundaria de proteínas Introducción

Introducción

Las estructuras secundarias son conformaciones locales estables


de una cadena polipeptídica

Son esenciales en la determinación de la estructura


tridimensional de proteínas

Incluyen elementos estructurales regulares y altamente repetidos


como las hélices-α y las hojas-β

Se estima que cerca del 50 % de los residuos de una proteína se


pliegan en alguna de esas dos formas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 50 / 134
Predicción de la estructura secundaria de proteínas Introducción

Introducción

La predicción de estructuras secundarias de proteínas se refiere a


la identificación del estado de conformación de cada residuo de
los aminoácidos en la secuencia de una proteína

Dichos estados de conformación pueden ser de tres tipos: Hélices


(H), Hebras (E) o Rizos (C).

La predicción está basada en el hecho de que las estructuras


secundarias tienen un arreglo regular de los aminoácidos,
estabilizado por los enlaces de hidrógeno

Esta regularidad sirve de base a los algoritmos de predicción

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 51 / 134
Predicción de la estructura secundaria de proteínas Introducción

Introducción

La predicción de estructuras secundarias de proteínas tiene


aplicación en la clasificación de proteínas y en la separación de
dominios de proteínas y de motivos funcionales

Además es un paso intermedio para determinar la estructura


terciaria de proteínas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 52 / 134
Predicción de la estructura secundaria de proteínas Introducción

Introducción

Los métodos para la predicción de la estructura secundaria de


proteínas (globulares) son de dos tipos:
Basados en ab initio. Predicen la estructura secundaria empleando
información estadística calculada a partir de una sola secuencia

Basados en homología. No sólo toman en cuenta estadísticas de


los residuos de una secuencia, además también consideran
patrones comunes conservados entre múltiples secuencias
homólogas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 53 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

2 Predicción de la estructura secundaria de proteínas


Introducción
Métodos ab initio
Métodos basados en homología
Predicción con redes neuronales

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 54 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

Métodos ab initio

Este tipo de métodos mide la tendencia relativa de cada


aminoácido de pertenecer a cierto tipo de elemento de estructura
secundaria

Las puntuaciones de propensión fueron derivadas de estructuras


conocidas de cristales

Algunos ejemplos: Chou-Fasman y Ganier, Osguthorpe y Robson


(GOR)

Estos pertenecen a la primera generación de métodos de


predicción (1970s)

La información estructural de proteínas era limitada y las


estadísticas eran derivadas de conjuntos de datos restringidos
(baja exactitud)
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 55 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman
Determina la tendencia de cada residuo a encontrarse en una
hélice, una hebra o un giro usando frecuencias observadas en
cristales de proteínas

El cálculo de la puntuación de propensión es simple.

Supongamos que hay n residuos en la estructura de la proteína


de los cuales m son residuos en hélices

El número total de residuos de Alanina es y de los cuales x están


en hélices

La puntuación de propensión para la Alanina de estar en una


hélice está dada por la siguiente relación:
(x/m)
(1)
(y /n)
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 56 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

Si la puntuación de propensión para un residuo es igual a 1.0


para hélices (P(hélice-α)) significa que el residuo tiene igual
probabilidad de ser encontrado en una hélice o en cualquier otra
estructura

Si P(hélice-α) < 1,0 entonces el residuo tiene poca oportunidad


de ser encontrado en una hélice

Si P(hélice-α) > 1,0 entonces es altamente probable que el


residuo se encuentre en una hélice

Usando este concepto Chou y Fasman crearon la siguiente tabla

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 57 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 58 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

El algoritmo Chou-Fasman toma la secuencia y la divide en


ventanas de tamaño fijo para determinar el número de residuos
pertenecientes a cada estructura usando la puntuación de
propensión

Para hélices-α la ventana es de tamaño 6, si una región tiene 4


residuos contiguos cada uno con P(hélice-α) > 1,0, se concluye
que el conjunto forma parte de una hélice

Esta región en hélice se extiende en ambas direcciones hasta que


P(hélice-α) < 1,0

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 59 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

Método Chou-Fasman

Para las hebras-β utiliza una ventana de 5 residuos, si se tienen


al menos 3 residuos cada uno con P(hebra-β) > 1,0, se concluye
que el conjunto forma parte de una hebra-β

Si ambos tipos de estructuras se traslapan en cierta región, se


toma la siguiente decisión
P P
Si P(hélice-α) > P(hebra-β) entonces se concluye una
hélice-α

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 60 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

Método GOR

También se basa en la puntuación de propensión de cada residuo


de estar en cada una de las 4 siguientes estructuras: Hélices (H),
Hebras (E), Giros (T) o Rizos (C).

Sin embargo, toma en cuenta para este cálculo las interacciones


con los residuos vecinos

Examina una ventana de 17 residuos y suma la propensión para


los residuos para las 4 posibles estructuras (4 sumatorias)

La puntuación más alta define el tipo de estructura al que


pertenece el residuo al centro de la ventana (noveno residuo)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 61 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio

Método GOR

Tanto este método como el de Chou-Fasman tienen la desventaja


de tener baja precisión de predicción (aprox. 50 %)

Sin embargo, han surgido algunas nuevas versiones como GOR


II, GOR III y GOR IV (1980s e inicio de 1990s)

Integran estadísticas más refinadas basadas en un número más


grande de proteínas conocidas e incorporan más interacciones
locales entre residuos

Su precisión de predicción mejoró 10 %

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 62 / 134
Predicción de la estructura secundaria de proteínas Métodos basados en homología

2 Predicción de la estructura secundaria de proteínas


Introducción
Métodos ab initio
Métodos basados en homología
Predicción con redes neuronales

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 63 / 134
Predicción de la estructura secundaria de proteínas Métodos basados en homología

Métodos basados en homología

Son la tercera generación de métodos (finales de 1990s) y


emplean información evolutiva

Combinan métodos ab initio para predicción de la estructura


secundaria de secuencias individuales e información de
alineamiento múltiple de secuencias homologas (identidad
> 35 %)

La idea detrás de este enfoque es que proteínas homologas


adoptan la misma estructura secundaria y terciaria

Este tipo de métodos han ayudado a mejorar la precisión de


predicción en 10 % con respecto a los métodos de segunda
generación

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 64 / 134
Predicción de la estructura secundaria de proteínas Métodos basados en homología

Métodos basados en homología

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 65 / 134
Predicción de la estructura secundaria de proteínas Predicción con redes neuronales

2 Predicción de la estructura secundaria de proteínas


Introducción
Métodos ab initio
Métodos basados en homología
Predicción con redes neuronales

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 66 / 134
Predicción de la estructura secundaria de proteínas Predicción con redes neuronales

Predicción con redes neuronales

La tercera generación de algoritmos de predicción también hace


uso de redes neuronales para analizar patrones de substitución
en alineamientos de múltiples secuencias

Esto ha permitido aumentar la precisión de predicción a un 75 %

Algunos ejemplos de aplicaciones que utilizan redes neuronales:


PHD, PSIPRED, SSpro, PROF, HMMMSTR

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 67 / 134
Predicción de la estructura terciaria de proteínas Introducción

3 Predicción de la estructura terciaria de proteínas


Introducción
Métodos basados en homología
Métodos basados en plegado (threading)
Modelos Ab Initio
Modelo HP (Hydrophobic-Polar)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 68 / 134
Predicción de la estructura terciaria de proteínas Introducción

Introducción

Existen tres enfoques computacionales para el modelado y


predicción de estructuras tridimensionales de proteínas
Homología

Plegado (Threading)

Ab initio

Los dos primeros se basan en el conocimiento estructural de la


proteína obtenido de las BD, mientras que el tercero no requiere
de ninguna información adicional

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 69 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

3 Predicción de la estructura terciaria de proteínas


Introducción
Métodos basados en homología
Métodos basados en plegado (threading)
Modelos Ab Initio
Modelo HP (Hydrophobic-Polar)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 70 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

Métodos basados en homología


Como su nombre lo indica, predice las estructuras de las
proteínas mediante la comparación con estructuras de proteínas
homólogas conocidas

También es llamado Modelo Comparativo

Se basa en el principio de que si dos proteínas tienen un alto


grado de similitud es muy probable que tengan estructuras
tridimensionales similares

El modelo de homología general consta de 6 pasos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 71 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

1. Selección de plantilla

Consiste en encontrar las estructuras principales y sirve como


base para el proceso de modelado

Este paso consiste en la búsqueda en el Banco de Datos de


Proteínas (PDB) para seleccionar aquellas proteínas homólogas

Esta búsqueda se pude llevar a cabo mediante cualquier método


de alineamiento de pares tales como BLAST o FASTA.

Por lo general, es posible encontrar varias estructuras con un


porcentaje de similitud considerable, sin embargo se recomienda
usar sólo aquella con el porcentaje más alto

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 72 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

2. Alineamiento de secuencias

Una vez identificada la secuencia con mayor similitud, se lleva a


cabo un reajuste, para ello se usa un algoritmo de alineamiento
para obtener una adaptación óptima entre las secuencias

Se considera como el paso más critico, ya que un alineamiento


incorrecto conducirá a una designación incorrecta de los residuos

Los algoritmos usados en este paso pueden ser T-Coffe o Praline

De ser necesario se puede llevar a cabo un perfeccionamiento


manual del resultado arrojado por el algoritmo

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 73 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

3. Creación del esqueleto del modelo

Una vez teniendo el alineamiento óptimo, existen tres


posibilidades para los residuos en las regiones alienadas:
1 Residuos similares. Las coordenadas de los residuos de la plantilla
pueden ser copiadas directamente a la proteína objetivo (query)
2 Residuos idénticos. Las coordenadas de los átomos de la cadena
lateral se copian junto con los átomos de la cadena principal
3 Residuos diferentes. Sólo los átomos de la columna vertebral se
pueden copiar

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 74 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

4. Modelado de bucles

Como sabemos, el resultado de un alineamiento de secuencias


causa la inserción de huecos, los cuales son el resultado por el
alineamiento mismo

Estos huecos no pueden ser directamente modelados, por lo que


se requiere de un modelo para “cerrar” estos huecos

Existen dos técnicas para abordar este problema


Método de búsqueda en BD
Método ab initio

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 75 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

4. Modelado de bucles
El método de búsqueda en BD propone buscar “piezas de
repuesto”, de estructuras conocidas de proteínas que se acoplen
en el hueco

La secuencias de átomos que preceden y continúan a esta región


se suelen llamar tallo.

El procedimiento inicia midiendo la orientación y distancia de las


regiones entre los tallos y buscar en PDB los segmentos de la
misma longitud que coincidan

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 76 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

4. Modelado de bucles

Suelen existir diferentes segmentos alternativos que se adapten a


esta región

El mejor fragmento se copia en los puntos de anclaje de los tallos

El método ab initio genera muchos bucles y búsquedas al azar

Si los huecos son relativamente cortos (de 3 a 5 residuos) los dos


métodos producen modelos correctos

Si los huecos son muy largos, es muy difícil lograr un modelo


fiable

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 77 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

4. Modelado de bucles

FREAD
www.cryst.bioc.cam.ac.uk/cgi-bin/coda/fread.cgi,
usa el método de BD

PETRA
www.cryst.bioc.cam.ac.uk/cgi-bin/coda/pet.cgi
emplea el método ab initio

CODA www.cryst.bioc.cam.ac.uk/~charlotte/Coda/
search_coda.html utiliza consenso basado en los resultados
de los dos sitios anteriores

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 78 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

5. Perfeccionamiento de la cadena lateral

Una vez que la cadena principal de átomos está construida, las


posiciones de las cadenas laterales deben ser determinadas

La cadena lateral puede ser construida mediante la búsqueda de


cada ángulo de torsión, seleccionando aquellos que tengan la
menor interacción de energía con sus vecinos

Sin embargo, esto no se puede llevar a cabo en la mayoría de los


casos (computacionalmente prohibitivo)

Para ello ha surgido el concepto de rotamers, el cual usa los


ángulos de torsión extraídos de estructuras de proteínas
conocidas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 79 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

5. Perfeccionamiento de la cadena lateral

Teniendo una librería de rotamers se reduce el tiempo de


cómputo debido a que sólo unos cuantos ángulos de torsión son
examinados

Sin embargo, aún es necesario reducir más el tiempo de cómputo,


mediante observaciones se ha visto que la columna vertebral esta
relacionada con ciertas conformaciones de la cadena lateral

Haciendo uso de la existencia de esta correlación, es posible


eliminar aún más ángulos innecesarios

Uno de los paquetes que ha demostrado presentar un buen


desempeño es SCWRL
www.fccc.edu/research/labs/dunbrack/scwrl/

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 80 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

6. Refinamiento mediante funciones de energía

Hasta este paso no se garantiza que la estructura este libre de


irregularidades

Para tratar de solucionar esto, se hace uso de la minimización de


energía, esto tiene como objetivo reducir la energía al mínimo
para aliviar tensiones y colisiones sin afectar significativamente la
estructura

Este paso debe aplicarse cuidadosamente, ya que en ocasiones


es posible que residuos se muevan a otras posiciones incorrectas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 81 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

6. Refinamiento mediante funciones de energía

Otro método hace uso del proceso de simulación de dinámica


molecular

Este hecho se basa en que la minimización de la energía se


obtiene moviendo los átomos de un mínimo local sin necesidad
de buscar todas las posibles combinaciones

Requiere de cálculos termodinámicos con los átomos

GROMOS www.igc.ethz.ch/gromos/ es un programa el cual


usa simulación de dinámica molecular

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 82 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

Evaluación del modelo

El modelo obtenido tiene que ser evaluado para asegurarse de


que las características estructurales del modelo son coherentes
con las normas físico-químicas

Para ello se detectan los errores haciendo uso de perfiles


estadísticos, características espaciales e interacción de energía a
través de estructuras determinadas experimentalmente

Si se detectan irregularidades estructurales, la región se


considera con errores y tiene que ser perfeccionada

Procheck www.biochem.ucl.ac.uk/~roman/procheck/
procheck.html es un programa el cual es capaz de comprobar
los parámetros físico-químicos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 83 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología

Evaluación del modelo

WHAT IF www.cmbi.kun.nl:1100/WIWWWI/ es un servidor de


análisis de proteínas que valida una proteína mediante corrección
química.

ANOLEA http://protein.bio.puc.cl/cardex/servers/
anolea/index.html es un servidor web que utiliza el método
de evaluación estadística

Verify3D www.doe-mbi.ucla.edu/Services/Verify3D/ es
otro servidor que utiliza el enfoque estadístico

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 84 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

3 Predicción de la estructura terciaria de proteínas


Introducción
Métodos basados en homología
Métodos basados en plegado (threading)
Modelos Ab Initio
Modelo HP (Hydrophobic-Polar)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 85 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos basados en plegado (threading)

En ocasiones muchas proteínas pueden compartir la misma


estructura aunque no exista mucha similitud en las secuencias

Esta propiedad permitió desarrollar métodos computacionales


para poder predecir estructuras de las proteínas sin importar la
similitud de las secuencias

Para determinar si una secuencia adopta una estructura


tridimensional conocida se hacen uso de los métodos de
reconocimiento de plegado (threading)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 86 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos basados en plegado (threading)

Dicha comparación hace hincapié en la congruencia de las


estructuras secundarias, ya que estas son las más conservadas
evolutivamente

Gracias a este enfoque se pueden identificar proteínas


estructuralmente similares, incluso sin detectarse similitud alguna
en la secuencia

Estos algoritmos se pueden clasificar en dos grupos: basados en


pares de energías y basados en perfiles

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 87 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos de pares de energía

Estos métodos buscan en una BD estructural la mejor


coincidencia, haciendo uso de un alineamiento con la secuencia
de consulta

Este alineamiento se hace a nivel de perfil de las secuencias


usando programación dinámica. En ocasiones también se suele
usar un alineamiento local

El siguiente paso es construir un modelo el cual lleve a cabo una


sustitución de residuos

Se calcula la energía, la cual consiste en la interacción de energía


entre los residuos

Finalmente se clasifican en base a la energía para encontrar la


menor de ellas (la estructura más compatible)
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 88 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos de perfil

Se construye un perfil para un grupo de proteínas relacionadas,


usando información estadística de cada residuo

Este perfil contiene la probabilidad de ocurrencia de cada uno de


los veinte aminoácidos por cada posición

El puntaje de este perfil contiene información para tipos de


estructuras secundarias

Para predecir el pliegue estructural, primero se predice su


estructura secundaria y a partir de esta información se compara
con estructuras de perfiles conocidos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 89 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)

Métodos basados en plegado (threading)

3D-PSSM www.bmm.icnet.uk/~3dpssm/ es un programa


basado en perfiles para identificar estructuras.

GenThreader
http://bioinf.cs.ucl.ac.uk/psipred/index.html es
un programa híbrido (perfiles y pares de energía)

Fuge
www.cryst.bioc.cam.ac.uk/~fugue/prfsearch.html es
un servidor el cual hace uso del método de perfiles

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 90 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio

3 Predicción de la estructura terciaria de proteínas


Introducción
Métodos basados en homología
Métodos basados en plegado (threading)
Modelos Ab Initio
Modelo HP (Hydrophobic-Polar)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 91 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

En los métodos vistos anteriormente se requiere de la


disponibilidad de plantillas en BD para poder lograr predicciones.
Al no existir estructuras suficientes para ello, los métodos fallan

En estos caso se debe considerar otro tipo de información la cual


permita encontrar la estructura

El poco conocimiento de estas estructuras es la base del método


ab initio

Este trata de predecir todas las secuencias de átomos de la


proteína sin la ayuda de estructuras de proteínas ya conocidas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 92 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

Una de las ventajas de este método es que la predicción no se


limita a los pliegues ya conocidos

Sin embargo, las leyes fisicoquímicas que rigen este


comportamiento aún no son bien conocidas, lo cual sigue siendo
un gran reto de la bioinformática

Estos métodos trabajan con algún tipo de heurística, siguiendo el


principio de minimización de energía, para lo que se lleva a cabo
una búsqueda de todos los sitios posibles para encontrar dicha
región

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 93 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

Esta búsqueda global no es factible computacionalmente, ya que


aún usando una supercomputadora (1 × 1012 operaciones por
seg) está se tardaría en muestrear todas las posibles
conformaciones para una proteína de 20 residuos entre 10 y 20
años

Es por esta razón que se requiere hacer uso de heurísticas que


permitan reducir el espacio de búsqueda

Algunos de estos métodos fragmentan dicho espacio y combinan


diversos tipos de búsqueda para producir un modelo

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 94 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio

Modelos Ab Initio

Rosetta
www.bioinfo.rpi.edu/~bystrc/hmmstr/server.php es
un servidor el cual permite predecir estructuras tridimensionales
usando el método ab initio.

Para ello rompe la secuencia en segmentos cortos (3 a 9


residuos) prediciendo la estructura de estos segmentos haciendo
uso de modelos ocultos de Markov.

Los resultados para cada uno de estos segmentos se juntan para


llevar a cabo la configuración en tres dimensiones (todas las
combinaciones posibles)

La conformación con la menor energía global es la elegida

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 95 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

3 Predicción de la estructura terciaria de proteínas


Introducción
Métodos basados en homología
Métodos basados en plegado (threading)
Modelos Ab Initio
Modelo HP (Hydrophobic-Polar)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 96 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)

Predicción de la estructura de proteínas (PSP)


Es el problema de encontrar una conformación funcional para una
proteína dada únicamente su secuencia de aminoácidos.
Formalmente:
Dado un modelo de energía E : C → R, encontrar la
conformación c ∈ C que minimice E(c).

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 97 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar) [Dill, 1985]

Las proteínas son cadenas lineales formadas por aminoácidos


Los aminoácidos se abstraen y clasifican en: Hidrófobos (H) y
Polares (P)

Dada la secuencia HP de una proteína S ∈ {H, P}L , las


conformaciones son modeladas como caminatas no traslapadas
en una malla:
1 cada nodo de la malla puede ser asignado a máximo un
aminoácido
2 aminoácidos consecutivos en S deben ser adyacentes en la malla
Principalmente se enfoca en mallas 2D cuadradas y 3D cúbicas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 98 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar) [Dill, 1985]

La meta es maximizar la interacción entre aminoácidos H en la


malla, i.e., minimizar:
X
E(c) = e(si , sj ) , donde
si ,sj ∈S


 −1 si si y sj son ambos del tipo H

e(si , sj ) = y forman un contacto topológico

0 de otro modo

Dos aminoácidos si , sj ∈ S forman un contacto topológico si


son no consecutivos en S, pero adyacentes en la malla

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 99 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar) [Dill, 1985]

La conformación óptima para la


secuencia

-1-
HPHPPHHPHPPHPHHPPHPH de -2- -3-
longitud L = 20

-4-

-5-
Las esferas negras y blancas
-6- -7-
denotan aminoácidos H y P,

-8-
respectivamente
La energía de esta estructura es -9-

E(c) = −9, dado que hay 9


H-H contactos topológicos

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 100 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Estructura generada aleatoriamente

Estructura óptima

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 101 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Espacio de búsqueda 2D

2 Codificación movimientos absolutos:


U las estructuras se codifican como
L R secuencias en {U, D, L, R}L−1
2 1 2
D Por qué L − 1? la posición del primer
aminoácido es fija
2

Por lo tanto, el tamaño del espacio de búsqueda es: 4L−1

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 102 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Espacio de búsqueda 2D

Asumamos que tenemos una computadora capaz de explorar


1,000 soluciones por segundo

L Soluciones (4L−1 ) Tiempo


5 256 0.256 sec.

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Espacio de búsqueda 2D

Asumamos que tenemos una computadora capaz de explorar


1,000 soluciones por segundo

L Soluciones (4L−1 ) Tiempo


5 256 0.256 sec.
10 262,144 4.370 min.

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Espacio de búsqueda 2D

Asumamos que tenemos una computadora capaz de explorar


1,000 soluciones por segundo

L Soluciones (4L−1 ) Tiempo


5 256 0.256 sec.
10 262,144 4.370 min.
20 274,877,906,944 8.720 años

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Espacio de búsqueda 2D

Asumamos que tenemos una computadora capaz de explorar


1,000 soluciones por segundo

L Soluciones (4L−1 ) Tiempo


5 256 0.256 sec.
10 262,144 4.370 min.
20 274,877,906,944 8.720 años
30 288,230,376,151,712,000 9,139,725 años

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)
Espacio de búsqueda 2D

L Soluciones (4L−1 ) Tiempo


5 256 0.256 sec.
10 262,144 4.370 min.
20 274,877,906,944 8.720 años
30 288,230,376,151,712,000 9,139,725 años
50 316,912,650,057,057,000,000,000,000,000 -

Se trabaja comúnmente con secuencias de proteínas de longitud


entre 18 y 136....

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)

Modelo HP (Hydrophobic-Polar)

La alternativa es utilizar metaheurísticas


Algoritmos Genéticos
Búsqueda Tabu
Recocido Simulado ...

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 104 / 134
Predicción de la estructura secundaria de ARN Introducción

4 Predicción de la estructura secundaria de ARN


Introducción
Tipos de estructuras de ARN
Métodos de predicción

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 105 / 134
Predicción de la estructura secundaria de ARN Introducción

Predicción de la estructura secundaria de ARN

El ARN es un portador de información genética y existe en tres


formas: ARN mensajero (ARNm), ARN ribosomal (ARNr) y ARN
de transferencia (ARNt)

A diferencia del ADN, el ARN se integra de una sola hebra,


aunque una molécula de ARN puede auto-hibridarse en ciertas
regiones para formar estructuras de doble hebra

El ARNm es más o menos lineal y no estructurado, mientras que


el ARNr y el ARNt sólo pueden funcionar formando estructuras
secundarias y terciarias particulares

Es por ello que el conocimiento de las estructuras de dichas


moléculas es particularmente importante

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 106 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

4 Predicción de la estructura secundaria de ARN


Introducción
Tipos de estructuras de ARN
Métodos de predicción

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 107 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Las estructuras de ARN pueden ser descritas en tres niveles:


primario, secundario y terciario

La estructura primaria es la secuencia lineal de ARN integrada por


cuatro bases: adenina (A), citosina (C), guanina (G) y uracilo (U)

La estructura secundaria se refiere a la representación planar que


contiene regiones de bases apareadas entre regiones de una sola
hebra

La estructura terciaria es el arreglo tridimensional de bases de


una molécula de ARN

Dado a que la estructura terciaria de una molécula de ARN es


difícil de predecir, se ha prestado particular atención a la
predicción de la estructura secundaria
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 108 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Figura: Estructuras primaria, secundaria y terciaria de una molécula de ARNt

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 109 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Se pueden identificar cuatro subtipos de estructura secundaria:


hairpin loop, bulge loop, interior loop y multibranch loop

Adicionalmente, el apareamiento de bases entre lazos de


diferentes elementos de la estructura secundaria puede resultar
en estructuras de más alto nivel como pseudoknot loop, kissing
hairpin y hairpin-bulge

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 110 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Figura: Cuatro tipos básicos de lazos de ARN: hairpin loop, bulge loop,
interior loop y multibranch loop

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 111 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN

Tipos de estructuras de ARN

Figura: Contactos pseudoknot, kissing hairpin y hairpin-bulge

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 112 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

4 Predicción de la estructura secundaria de ARN


Introducción
Tipos de estructuras de ARN
Métodos de predicción

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 113 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Predicción de la estructura secundaria de ARN

Esencialmente, existen dos enfoques de predicción de la


estructura secundaria del ARN: el enfoque ab initio y el enfoque
comparativo

El enfoque ab initio se basa en el cálculo de la mínima energía


liberada de la estructura estable derivada de una secuencia de
ARN

El enfoque comparativo infiere estructuras en base a la


comparación evolutiva de múltiples secuencias de ARN
relacionadas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 114 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Este enfoque realiza predicciones estructurales basadas en una


sola secuencia de ARN

Generalmente, cuando se efectúa un apareamiento entre bases,


la energía de la molécula disminuye debido a las interacciones de
atracción entre las dos hebras

La energía necesaria para formar pares de bases individuales es


influenciada por los pares de bases adyacentes a través de
fuerzas de apilamiento (cooperatividad en la formación de
hélices)

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 115 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Se han determinado parámetros para calcular la cooperatividad


en la formación de pares de bases para la predicción de la
estructura secundaria

Las interacciones de atracción conducen a un estado de aún


menor energía

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 116 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Sin embargo, si el par de bases es adyacente a lazos (loops) o


salientes (bulges), los lazos y salientes vecinas tienden a
desestabilizar la formación del par de bases

La fuerza desestabilizadora en una estructura helicoidal también


depende del tipo de lazos cercanos

Pueden utilizarse los parámetros para calcular las diferentes


energías desestabilizadoras como penalizaciones en el cálculo de
las estructuras secundarias

Los esquemas de puntaje de las interacciones de estabilización y


desestabilización representan la base del enfoque de predicción
ab initio

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 117 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

El método ab initio funciona de la siguiente manera:


Primero busca todos los posibles patrones de apareamiento de
bases de una secuencia

Calcula la energía total de una estructura secundaria potencial


tomando en cuenta las fuerzas estabilizadoras y desestabilizadoras

Si hay múltiples alternativas de estructuras secundarias, el método


determina la conformación con la menor energía

Existen varias técnicas para encontrar todas las posibles regiones


de bases apareadas a partir de una secuencia de ácidos
nucleicos: la matriz de puntos y la programación dinámica

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 118 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Una matriz de puntos puede encontrar todos los posibles


patrones de apareamiento de bases comparando la secuencia
consigo misma

Las diagonales perpendiculares a la diagonal principal


representan regiones que pueden auto-hibridarse para formar
estructuras de doble hebra

Sin embargo, la detección de patrones es a menudo oscurecida


por altos niveles de ruido

Una manera de reducir el ruido es seleccionando una ventana de


tamaño apropiado

Si la matriz revela más de una estructura factible, se elige la de


menor energía
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 119 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Figura: Ejemplo de una matriz de puntos usada para la predicción de la


estructura secundaria de una secuencia de ARN

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 120 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Si una molécula grande contiene múltiples segmentos de


estructura secundaria, elegir la combinación más estable puede
ser una tarea abrumadora

Por ello puede utilizarse un enfoque cuantitativo como la


programación dinámica

Al igual que en la matriz de puntos, la secuencia de ARN es


comparada consigo misma

Se utiliza un esquema de puntaje para llenar la matriz con


puntajes de correspondencia

Después de tomar en cuenta toda la información de la secuencia,


se determina el camino con el puntaje máximo dentro de la matriz
de puntajes
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 121 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

El método de programación dinámica produce una estructura con


un único mejor puntaje

Sin embargo, lo anterior representa una desventaja potencial ya


que en realidad una molécula de RNA puede existir en múltiples
formas alternativas con energías cercanas a la mínima y no
necesariamente con el máximo número de pares de bases

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 122 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

La desventaja de la programación dinámica puede ser superada


adicionando una función de distribución de probabilidad, conocida
como función de partición

La función de partición calcula la distribución matemática de


pares de bases probables en equilibrio termodinámico

Gracias a esta función es posible seleccionar un número de


estructuras subóptimas dentro de un rango de energía
determinado

Mfold y RNAfold son dos ejemplos populares de aplicaciones que


utilizan el enfoque de predicción ab initio

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 123 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

Mfold
(http://www.bioinfo.rpi.edu/applications/mfold/)
es una aplicación web para la predicción de estructuras
secundarias de ARN

Combina programación dinámica con cálculos termodinámicos


para identificar la estructura secundaria más estable con la menor
energía

También produce matrices de puntos junto con términos de


energía

Este método es confiable para secuencias cortas, pero su


precisión decrece conforme crece la longitud de la secuencia

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 124 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque ab initio

RNAfold
(http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi)
es otra aplicación web y forma parte del paquete Vienna

RNAfold extiende el alineamiento de secuencia a la vecindad de


las diagonales óptimas para calcular la estabilidad de estructuras
alternativas

Incorpora una función de partición para seleccionar el número de


estructuras secundarias estadísticamente más probables

En base a cálculos termodinámicos y a la función de partición, se


provee un conjunto de estructuras subóptimas

Debido al gran número de estructuras secundarias computadas,


se utiliza una regla de energía simplificada
Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 125 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

El enfoque comparativo utiliza múltiples secuencias


evolutivamente relacionadas para inferir una estructura consenso

Para distinguir la estructura secundaria conservada entre las


secuencias múltiples de RNA se utiliza el concepto de covariación

Para conservar la estructura secundaria cuando secuencias


homólogas evolucionan, una mutación en una posición
responsable de un apareamiento se compensa con la mutación
en la posición de apareamiento correspondiente

Basados en esta regla, pueden escribirse algoritmos que busquen


patrones de covariación en un conjunto de secuencias homólogas
apropiadamente alineadas

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 126 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Figura: Ejemplo de covariacion de residuos entre tres secuencias homólogas


de ARN

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 127 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Otro aspecto del método comparativo es la selección de una


estructura común a través de un consenso

Al comparar todas las estructuras predichas de un grupo de


secuencias de ARN alineadas es posible adoptar la estructura
consenso

Los algoritmos que siguen el enfoque comparativo pueden


dividirse en dos categorías, dependiendo del tipo de entrada:
aquellos que requieren un alineamiento predefinido y aquellos
que no lo necesitan

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 128 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Los algoritmos que usan prealineamiento requieren que el usuario


provea un alineamiento múltiple de secuencias como entrada

Estos programas computan los patrones de mutación como la


covariacion, y derivan una estructura consenso, común a todas
las secuencias

Este tipo de algoritmos son relativamente exitosos para


secuencias razonablemente conservadas

El requerimiento para usarlos es un conjunto apropiado de


secuencias homólogas suficientemente similares y divergentes

También dependen de la calidad de la entrada

La selección de una única estructura consenso representa una


desventaja

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 129 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

RNAalifold
(http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgi)
es un programa que forma parte del paquete Vienna

Utiliza un alineamiento múltiple de secuencias como entrada y


analiza los patrones de covariación en las secuencias

Luego crea una matriz de puntajes que es utilizada para aplicar


programación dinámica con el objetivo de seleccionar la
estructura con la mínima energía

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 130 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Los algoritmos que no utilizan prealineamiento alinean


simultáneamente un conjunto de secuencias e infieren una
estructura consenso

El alineamiento es realizado utilizando programación dinámica


con un esquema de puntaje que incorpora la similaridad de las
secuencias así como términos de energía

Debido al costo computacional de la programación dinámica, los


programas que se encuentran actualmente disponibles limitan la
entrada a dos secuencias

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 131 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Foldalign
(http://foldalign.kvl.dk/server/index.html) es una
aplicación web para el alineamiento y la predicción de estructuras
secundarias

El usuario provee un par de secuencias no alineadas y utiliza una


combinación de Clustal y programación dinámica con esquemas
de puntaje que incluyen información de covariación para construir
el alineamiento

La estructura secundaria conservada en ambas secuencias es


posteriormente calculada

Para reducir el costo computacional, el programa ignora los


multibranch loops

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 132 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Enfoque comparativo

Dynalign (http://rna.urmc.rochester.edu/) es un
programa UNIX libre

El programa calcula las posibles estructuras secundarias


utilizando un método similar a Mfold

Comparando estructuras alternativas para cada secuencia, la


estructura común a ambas secuencias con menor energía es
elegida

No requiere que las secuencias sean similares por lo que puede


manejar secuencias altamente divergentes

Sin embargo, solo sirve para predecir secuencias pequeñas de


ARN con una precisión razonable, como secuencias de ARNt

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 133 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción

Anfinsen, C. (1973).
Principles that Govern the Folding of Protein Chains.
Science, 181(4096):223–230.

Dill, K. (1985).
Theory for the Folding and Stability of Globular Proteins.
Biochemistry, 24(6):1501–9.

Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 134 / 134

También podría gustarte