Predicción de Estructuras Proteicas

TEMA 4: “PREDICCIÓN DE LA ESTRUCTURA DE LAS
PROTEÍNAS”
ÍNDICE
1. INTRODUCCIÓN.
2. BIOINFORMÁTICA.
3. PROTOCOLO DE PREDICCIÓN DE PROTEÍNAS.
4. ETAPAS DE MODELADO POR HOMOLOGÍA.
5. MÉTODOS DE PREDICCIÓN DE ESTRUCTURAS TERCIARIAS.
6. EJEMPLOS DE FABRICACIÓN DE ESTRUCTURAS SECUNDARIAS: DISEÑO DE
PROTEÍNAS.
1
1. INTRODUCCIÓN
➔ El estudio de la estructura de las proteínas precisa de su aislamiento. Sin embargo, en

ocasiones, con el aislamiento es prácticamente imposible no dañar la proteína, por lo que se
hace necesario averiguar la estructura de la misma para su análisis.
➔ Durante millones de años se han ido produciendo cambios en esta estructura por la
evolución, que es un fenómeno de aleatoriedad y selectividad que se desarrolla de modo
continuo en el tiempo. Hay prtoeínas que son fácilmente extraíbles, mientras que otras son
prácticamente imposibles. En el caso de estas últimas, se estudian mediante métodos de
predicción de estructuras de proteínas.
➔ A lo largo de 3000 millones de años se han producido cambios en la estructura de las

proteínas. Esto se produce por mutaciones en el ADN. Estas mutaciones en el genoma dan
una distribución en las bases que produce una proteína similar a la original, pero con
mejoras, haciendo que los individuos que portan estas mejoras se reproduzcan mejor que los
que no las tengan, por lo que al final desaparecerán, junto a las proteínas que portan.
Diremos entonces que las estructuras a través de las cuales se han ido derivando han venido
de estas 2 causas generales:
- La suerte: Cambio de exones, cambio de frecuencia de genes...
- La presión selectiva: Va a hacer que aquellos individuos que aportasen secuencias o

versiones modificadas y mejoradas de esas proteínas tuvieran más éxito
reproductivo.
Por ejemplo, el ADN mitocondrial tiene una alta tasa de mutación, por lo que hoy en
día se aprovecha dicha variabilidad para mapear en el tiempo las mutaciones de
diversos organismos.
➔ Por lo que, los individuos que portan proteínas mejoradas tendrán mayor éxito evolutivo
(su genoma podrá prevalecer). A lo largo de la evolución, si se mantiene la presión selectiva,
las mutaciones favorables harán que los individuos mejorados desplacen a los anteriores. La
gran mayoría de las mutaciones son deletéreas, cambiando regiones intergénicas que
sustituyen un aminoácido por otro similar y que no tienen efectos considerables sobre el
organismo (por ejemplo, un aspártico por un glutámico → ambos cargados) y otras
mutaciones son letales o generan malformaciones.
➔ Desde que el hombre existe, ha utilizado técnicas de mejora de ganado y cultivos, de modo
que de forma voluntaria y artificial se seleccionaba al individuo que presentaba mejores
características y se generaban individuos de su descendencia (a través de cruces) que
2
portaran esas características. Todo esto ha cambiado gracias a las mejoras tecnológicas,
conocimiento del ADN y del genoma...
2. BIOINFORMÁTICA
Es la aplicación de tecnologías computacionales a la gestión y análisis de datos

biológicos.
● La predicción de estructuras de las proteínas está facilitada por la bioinformática, que es la

rama de la bioquímica que permite extraer y recoger datos del medio.
● La bioinformática actual abarca trabajos de gran complejidad gracias al desarrollo de

programas informáticos. Hoy en día se utiliza para:
○ Obtener datos sobre el genoma de cualquier individuo (el análisis del genoma
supone la recogida de una enorme cantidad de datos).
○ Se utiliza para detectar la estructura terciaria de las proteínas. Los principales

esfuerzos de investigación en estos campos incluyen el alineamiento de secuencias,
la predicción de genes, montaje del genoma, alineamiento estructural de proteínas,
predicción de estructura de proteínas y modelado de la evolución. La homología
alude a una similaridad de estructura, origen o función de organismos basados en
factores genéticos comunes.
○ Aplicación de una serie de algoritmos que son capaces de emular el

comportamiento bioquímico de una proteína a partir de una secuencia
determinada de aminoácidos, es decir,inferir a partir de la secuencia la estructura
tridimensional de la proteína.
● Teniendo una serie de proteínas con una

estructura terciaria y tridimensional
conocida mediante datos experimentales,
esta información es acumulada en
determinadas bases de datos como las
“databases” o la PDB (Protein Data Bank).
En ella, están almacenadas todas las
secuencias de estructuras de proteínas
conocidas hasta ahora, aunque existen
otras.
3
POSICIÓN RELATIVA DE LOS ÁTOMOS QUE CONFORMAN UNA PROTEÍNA
■ El factor B nos da una idea sobre la

confianza o fiabilidad de la posición de ese
átomo (<20: más fiable y >20: menos
fiable). Tenerlo muy pequeño significa que
su movilidad será muy baja, es probable
que la posición relativa sea muy parecida a
la que se ha obtenido en el experimento.
Nos dirá como es de seguro que un átomo
permanezca siempre en una posición
determinada.
3. PROTOCOLO DE PREDICCIÓN DE PROTEÍNAS
➢ Las fórmulas matemáticas, algoritmos y técnicas de predicción han ido evolucionando y

mejorando con el transcurso de los años. A día de hoy, se emplean algoritmos antes
desconocidos con mayor rapidez y facilidad, lo que supone que se puedan utilizar técnicas
más complejas y obtener mayor cantidad de datos.
➢ Denominamos generalización al proceso utilizado para conocer la estructura o función de

una determinada proteína a partir de la secuencia. En este proceso se buscan proteínas con
secuencias similares, a partir de lo cual se deduce que las estructuras y funciones también
serán semejantes (tan sólo con la secuencia es muy difícil determinar con exactitud la
estructura y función de la proteína). Es por ello por lo que es necesario determinar la
disposición espacial de la estructura terciaria de esa proteína, así como cúal es la distribución
en el espacio que adquieren las estructuras secundarias a las que dan lugar esas secuencias
de aminoácidos.
➢ A pesar de la mejora de los métodos, existen proteínas para las cuales ha sido imposible
obtener datos experimentales. La obtención de datos de proteínas de membrana, en
comparación con el resto de proteínas, presenta sin embargo una gran desventaja debido a
que son muy difíciles de extraer y, por tanto, muy difícilmente analizables, ya que el medio
en el que se encuentran hace muy difícil su mantenimiento, sobre todo en estado activo, y
por ello el estudio de estas proteínas resulta extremadamente complicado.
La evolución de la cantidad de genes obtenidos en los últimos años ha obtenido un

crecimiento exponencial.La obtención de datos de proteínas de membrana, en
comparación con el resto de las proteínas presenta una gran desventaja.
➢ Si asumimos que dos proteínas similares en secuencias son similares en estructura y función,
diremos entonces que el método más utilizado es modelado por homologías de secuencia.
4
a. Método de modelado por homología de secuencias (IMPORTANTE).
- El primer paso será averiguar qué estructura terciaria adquieren las estructuras secundarias
de las proteínas. Si asumimos que proteínas similares en secuencia también lo son en
estructura y función, podemos utilizar el método de modelado por homología de
secuencias.
El término homología, en contexto biológico, es la similitud de la estructura, desarrollo y

evolución de organismos basado en factores genéticos comunes.
- Si aplicamos este término a proteínas, estaremos hablando de proteínas que provienen o

han evolucionado a partir de un mismo gen ancestral, reteniendo en este proceso de
evolución algunas (o muchas) características comunes (rasgos o caracteres).
- Esta técnica predice, pues, las estructuras de las proteínas mediante la comparación con
estructuras de proteínas homólogas conocidas. Es decir, se basa en el principio de que si dos
proteínas tienen un alto grado de similitud es muy probable que tengan estructuras
tridimensionales similares. Esta homología se va a demostrar en una alta, baja o media
similitud entre la secuencia de aminoácidos de las diferentes proteínas. En este caso
también existen excepciones, pues hay proteínas que son muy parecidas en secuencia , pero
que no se asemejan ni en estructura ni en función.
→ Un ejemplo es la lactato deshidrogenasa, que contiene un gen homólogo con una de

las proteínas que constituyen la lente de los ojos (función estructural). Por lo que, aquí
tratamos con una enzima y una proteína estructural que no tienen nada que ver en
estructura o función, pero se observa que ambas proteínas presentan una secuencia
similar. Por ello, hay que tener cuidado cuando se realiza una predicción de estructura a
partir de la homología de secuencias, pues es necesario incorporar muchos más datos
para que la predicción tenga alguna garantía.
- A priori se acepta la posibilidad de que a partir de un determinado grado de homología

(alto), las funciones o estructuras sean muy parecidas. Obviamente, cunato amyor sea el
grado de homología e identidad entre la secuencia de aminoácidos, estaremos hablando de
proteínas similares, cercanas evolutivamente o incluso con la misma función. Sin embargo,
cuando comparamos dos secuencias es necesario que exista una continuidad de la
homología entre las dos proteínas. Un 30% de homología o identidad es el umbral a partir
del cual se puede pensar que dos proteínas provienen de un mismo gen ancestral (marca el
porcentaje de semejanza mínimo). Si los aminoácidos no son idénticos, deben mantener el
carácter obligatoriamente.
- Un 100% de identidad en una única región de aminoácidos podría determinar que dos
proteínas homólogas realizan una función marcada por dicha secuencia de aminoácidos,
mientras que el resto de la secuencia de la proteína podría haber derivado evolutivamente
5
por diferentes motivos para adaptarse al entorno en el que se desenvuelve el organismo. Si
la función de las dos proteínas es la misma, estas sufrirán las mismas reacciones
bioquímicas, por lo que, si no se trataran de los mismos aminoácidos, estos tendrán que
mantener el carácter obligatoriamente.
- Los grupos de aminoácidos que se mantienen a lo largo de la evolución y que generalmente

se utilizan para clasificar las proteínas desconocidas se denominan motivos (pequeñas
agrupaciones de aminoácidos que no tienen porqué presentarse seguidas, y conforman la
marca de identidad de la función de una proteína, por lo que las proteínas que presentan esa
misma secuencia, normalmente, pertenecerán a la misma familia).
- Al comparar las secuencias de la proteína es importante tener una visión del conjunto total,
si posee estas secuencias consenso es muy probable que pertenezcan a una misma familia
proteica.
- Con un 70% de identidad, las proteínas serán, probablemente, similares y cercanas

evolutivamente, ya que el 30% restante será fácil de modelar en el espacio. Asimismo, ese
70% de identidad de aminoácidos es muy probable que se encuentren las secuencias
consenso de la familia proteica a la que pertenece, si es que estas secuencias se encuentran
registradas en la database. En este caso el modelado por homología de secuencias se realiza
con mayor facilidad, pues no es necesario modelar los aminoácidos homólogos.
- El primer paso en la modelación de una proteína u obtener su estructura tridimensional es

la búsqueda (en la database) de proteínas lo más similares y homólogas posibles.
- Proteínas que presentan un 50% de identidad poseen una desviación típica en las
posiciones de sus Cα de alrededor de 1Å.
- Generalmente, cuando se obtienen datos de homología entre dos proteínas (salvo que estén
muy relacionadas evolutivamente hablando y en función), las regiones más homólogas o
aquellas en las que más se parecen son las que van a conformar el núcleo hidrofóbico de
esas proteínas. Esta es la parte que menos suele cambiar a lo largo de la evolución de una
proteína, a no ser que se produzca una duplicación de un determinado gen y uno
permanezca con la misma función mientras que el otro vaya derivado y acumulado
mutaciones hasta el punto de convertirse en una proteína diferente.
Por lo tanto, la estructura tridimensional del interior de las proteínas no suele variar por
muy lejanas que estén evolutivamente, lo cual nos ayuda a saber dónde enfocar la
estructura supuesta de una proteína nueva.
- Estas estructuras secundarias que forman la estructura tridimensional del centro hidrofóbico
de las proteínas están conectadas a través de las regiones Loops o regiones conectoras.
b. Regiones loops o conectoras.
6
- Predecir la estructura de las regiones loops, las conexiones (loop) de las distintas estructuras
secundarias, así como la colocación de las cadenas laterales (debido a sus posibilidades de
giro) de los aminoácidos, supone un problema a la hora de predecir la forma tridimensional
de una proteína. Pues dependiendo de en qué posición estemos tendremos más o menos
dificultad de colocar las cadenas laterales (ya que poseen una alta capacidad de rotación).
- Las regiones loop serán las que se enfrenten al solvente y generalmente serán abundantes
en aminoácidos polares hidrofílicos, porque los grupos aminos y carbonilos no forman
puentes de H entre sí sino que se unen a las moléculas de agua.
- Hasta ahora, los únicos átomos que se tienen en cuenta para formar esta estructura son los
pertenecientes a los Cα de esta cadena de aminoácidos. Lo último en colocarse son siempre
las R pues, gracias al enlace peptídico, tienen posibilidad de giro, lo que hace que las
probabilidades de posicionar una determinada cadena lateral sean múltiples (aunque
también suelen ser reducidas).
Por ejemplo: La prolina no posee ninguna posibilidad de giro, mientras que la glicina tiene
muchas más opciones, dependiendo de la localización del aminoácido, se pueden tener más o
menos posibilidades de giro de la cadena de R.
- Principalmente:
■ Las regiones loops son las que conforman el núcleo central de la proteína y en la
gran mayoría de los casos son las regiones que se enfrentan al solvente (exterior de
la proteína), por lo que son abundantes en aminoácidos polares e hidrofílicos.
■ Esto se debe a que los grupos carbonilo y amino no van a formar puentes de
hidrógeno entre sí, como lo hacen las estructuras secundarias (hélices y láminas),
sino que se unen a las moléculas del solvente (agua).
■ Esto que podría suponer un problema se puede considerar como una ventaja, pues
poseer una abundancia de aminoácidos polares puede marcar una región como
perteneciente a un loop.
7
■ Como son las regiones menos conservadas a lo largo de la evolución, ésta puede ser
posiblemente la única forma de delimitar hasta dónde llegan estas regiones.
- La predicción de la estructura está facilitada porque estas zonas no adquieren estructuras al

azar, sino que poseen estructuras más o menos precisas. Cuando se habla de regiones loops
que conectan láminas β paralelamente, se sabe que la gran mayoría de ellas van a presentar
una estructura en horquilla β (formada por 2 aminoácidos), por lo que las regiones
conectoras son relativamente fáciles de mapear.
- Asimismo, en estas regiones loops es donde se acumulan el mayor número de mutaciones

que van a diferenciar a las proteínas evolutivamente, ya que estas regiones son las más
"seguras" a la hora de mantener dichas mutaciones, debido a que al presentarse en el
exterior también es necesario que se adapten al ambiente en el que se encuentra la
proteína, pues no se podrían acumular en el centro hidrofóbico, ya que es el que conserva
la funcionalidad de la proteína.
- Dichas regiones también forman parte de los centros activos de la propia proteína o de su
propia función, por lo que serán loops que han de mantenerse a lo largo de la evolución.
Por ejemplo, las inmunoglobulinas:
INMUNOGLOBULINAS
Todas las regiones que tienen que ver con el reconocimiento de Antígenos (Ag), están compuestas
por regiones loops, por lo que cuando alguien quiere modelizar un nuevo Anticuerpo (Ac) tiene que
mantener el núcleo (que es la gran mayoría de la proteína estable) y variar únicamente las regiones
loops en función de los que se esté buscando.
8
- Existen regiones loop especialmente largas, que en su estudio mediante difracción de rayos
X o RMN, son imposibles de localizar, ya que ambas técnicas de análisis utilizan fotografías
fijas de un estadío de una proteína.
Su extremada longitud hace que puedan formar parte de elementos móviles que permiten,
por ejemplo, la apertura y cierre de un canal atravesado por un sustrato, formar regiones
de unión y reconocimiento entre la proteína y otras estructuras, por lo que el cristal en la
difracción contendrá la misma proteína con la misma secuencia y estructura tridimensional.
Pero en el caso de los loops móviles, el cristal presentará el loop en posiciones diferentes,
dando lugar a una zona no definida, ya que esa región aparecerá en diversos sitios del
espacio a la vez.
4. ETAPAS DE MODELADO POR HOMOLOGÍA.
1. Búsqueda de proteínas homólogas (registradas) en la database:
Consiste en encontrar las estructuras principales y

sirve como base para el proceso de modelado. Así
como la búsqueda en el Banco de Datos de Proteínas
(PDB) para seleccionar aquellas proteínas homólogas.
- Se consideran únicamente proteínas que puedan ayudar a modelizar a la

nuestra cuando se obtengan puntuaciones elevadas en la comparación
de secuencias. La comparación de secuencias de proteínas se puede
realizar mediante diversos programas, los más característicos son FASTA y
BLAST, cuyos sistemas de comparación son diferentes (diferentes
logaritmos).
○ BLAST: Se centra en las regiones más similares y admite menos "gaps" (secuencias de
aminoácidos que no se corresponden con la modelo), dando su resultado en probabilidades.
○ FASTA: Proporciona resultados más generales (menos resolutivos) al admitir mayor rango de
gaps. Su resultado se expresa en valor numérico natural.
- Los dos utilizan sistemas de comparación diferentes y dan valores diferentes para cuantificar
esa comparación.
- Para utilizar proteínas en modelado por homología, se necesita un valor mínimo de 10 en

FASTA u 10-5 en BLAST. Ambos valores marcarán la probabilidad de encontrar la misma
secuencia en la base de datos de forma totalmente aleatoria sin haber utilizado el motor de
búsqueda por comparación.
Son valores de 10 puntuaciones por encima de lo que obtendremos si comparáramos
nuestra proteína al azar con cualquier database. En cualquier caso, ambos programas
ordenan las proteínas en función de su semejanza. Por lo tanto, nos servirán más aquellas
9
proteínas que tengan menor probabilidad de encontrar el mismo resultado al azar.
a. Para el modelado se utilizan como mucho hasta 10 secuencias, de las cuales elegiremos la
que más similitud tenga (la que más identidades obtengan con respecto a la nuestra), esta
será nuestra secuencia de referencia. El resto de las secuencias se ordenarán en función de
la secuencia de referencia, utilizando para ello, única y exclusivamente los C∝ que
estuviesen a 3 Å o menos de cada C∝ comparando los C∝ de la secuencia de referencia.
Con esto, se obtiene un alineamiento múltiple estructuralmente correcto.
b. Por lo general, es posible encontrar varias estructuras con un porcentaje de similitud

considerable, sin embargo, se recomienda usar solo aquella con el porcentaje más alto.
Los resultados que obtengamos vendrán ordenados de mayor a menor homología.

Normalmente, buscaremos homologías del 50%; un parecido del 30% o menor apenas nos
será de utilidad.
2. Superposición de estructuras homólogas o alineamiento de la secuencia con respecto al

alineamiento múltiple:
- Para ello tan solo se tendrán en cuenta los C∝ de los aminoácidos pertenecientes a las
estructuras del centro hidrofóbico de las proteínas, por lo que no se tendrán en cuenta las
regiones conectoras, salvo que los loop también estén conservados.
3. Superposición de nuestra secuencia al esqueleto resultante del alineamiento múltiple:
- Nos proporcionará un marco de trabajo donde se encontrará la media de los datos

obtenidos y la estructura de nuestra muestra.
- Esto se lleva a cabo promediando las posiciones de las secuencias utilizadas en la

comparación. Según el peso que tenga cada uno de los aminoácidos de las secuencias del
alineamiento múltiple se situarán los C∝ de los aminoácidos de nuestra proteína.
Cuanto más coincidan en el alineamiento, menos promedio tendremos que sacar, pues más se
parecerá a la mayoría que el resto de aminoácidos del alineamiento.
- En este marco de trabajo no se tienen en cuenta los loops, a no ser que se haya obtenido un
alto grado de homología en estas regiones (Los loops son las estructuras que más varían
entre proteínas homólogas).
- Para modelizar las regiones loops que no son similares en secuencia junto con el resto de la
proteína, lo que se hace es volver a buscar mediante un algoritmo de repuesto, regiones
homólogas a los loops, para los cuales sí que haya datos experimentales y se pueden localizar
en los 3 planos del espacio. Lo que se hace entonces, es extraer la información de la base de
datos de proteínas que contengan loops con secuencias similares.
- Para su extracción, no solo se bajan las posiciones de los aminoácidos de nuestro loop, sino
que además se bajan los datos de aminoácidos del entorno (los cuales conforman la base de
las regiones loop), ya que para conocer el punto de inserción del loop es necesario tener en
10
cuenta de 4 a 5 aminoácidos que se encuentran delante y detrás de la región conectora.
- Con esto, se ordenan por semejanza y se colocan por orden de identidad dentro de la
nuestra estructura, tan solo se colocan aquellos que no presenten impedimentos estéricos
con los aminoácidos de la base que ya hemos colocado. Dicho de otra manera:
Una vez determinados todos los loops posibles, se clasificarán sometiéndose al Test de Van der
Waals, este medirá la posición exacta estable a la que debe localizarse cada elemento para que no
se repelan, es decir, determinará las posiciones adecuadas de cada loop para que no ocurran
interacciones inestables con sus alrededores.
Si en un primer nivel de precisión no encontramos una posición estable, se bajará hasta que algún
loop encaje en la estructur.
- Cada vez es más fácil encontrar secuencias similares y que coincidan en las regiones de
inserción, ya que hoy en día la cantidad de datos de estructura de proteínas es mucho
mayor, por lo que supone un gran avance y aumenta la facilidad del trabajo. Pero también es
necesario tener en cuenta que estas técnicas no son sino explotaciones de una situación
teórica.
4. Determinación de estructuras (resto del esqueleto principal):
- Una vez colocados los loops, toca colocar el resto de los átomos, pues hasta ahora solo se
han tenido en cuenta los C∝ que conforman el esqueleto proteico. Para posicionar el resto
de los átomos, se utiliza una sublibrería de la PDB en la cual hay estructuras muy definidas
con una alta resolución de pentapéptidos (cadenas de 5 aminoácidos).
- Lo que se hace es extraer de la database la secuencia de los 5 primeros aminoácidos que

contengan su estructura tridimensional en la base de datos, que son los mismos que
tenemos en cuenta en nuestra secuencia.
- Con esto, se promedian las posiciones de los 3 aminoácidos centrales, después se toma un
segundo pentapéptido que cubriría los 5 siguientes y se vuelven a promediar las posiciones
de los 3 centrales, y estas serán las posiciones donde situaremos los átomos de nuestra
proteína.
Asumiremos que la estructura de los pentapéptidos se mantendrá en las regiones de igual
secuencia de nuestra proteína, lo que supondrá otra fuente de error.
Los pentapéptidos serán combinaciones de 20 aminoácidos tomados de 5 en 5

(aminoácidos del 1 al 5, del 2 al 6, del 3 al 7…).
- Esto se realiza a lo largo de toda la secuencia y con esto se estima que la desviación de
nuestra posición con respecto a la estructura real no está más allá de 0,2 Å de desviación
típica, lo cual indica que está muy bien ajustado, colocándose, así, los átomos de O y C
diferentes del C∝.
5. Ordenación de cadenas laterales.
11
- Es la principal fuente de inexactitud en la modelación por homología, puesto que no existe
una base de datos para obtener posiciones fijas de cadenas laterales. Esto se debe a que
cada cadena lateral, excepto la de la prolina, tiene una capacidad de giro muy grande, es
decir, cada R en casi cualquier posición puede tener múltiples distribuciones en el espacio, lo
que dificulta posicionar una determinada cadena lateral únicamente en función de la
secuencia de aminoácidos.
Sin embargo, existe una ligera propensión de determinadas R a localizarse en una

determinada posición. Cada aminoácido puede tener diferentes rotámeros, que son las
diferentes posiciones en el espacio de las R.
En función de la propensión de las R por una distribución espacial u otra, se buscan las más
similares en función de la nuestra y se colocan en nuestra secuencia. Para ello, se utiliza el
test de Van der Waals, que comprueba que no existen impedimentos estéricos ni
relaciones de alta energía (situaciones de inestabilidad) entre las cadenas R, en función de
la forma de nuestro marco de trabajo.
1. Las R se van colocando en función del un umbral dado por el test de Van der Waals y
solo se colocan las R que hayan superado este test, mientras que las que no lo
superan no serán colocadas.
2. De cada posición, se hace una lista de cuáles son los rotámeros más probables, y se
ordenan de más a menos estables, teniendo en cuenta, única y exclusivamente,
aquellos que hayan superado el test, como hemos citado.
3. Ahora, se colocan en el esqueleto carbonado los rotámeros que se encuentran en

primera posición de estabilidad en la lista. En aquellas posiciones en las que no se
hubiese podido colocar la R, por ser demasiado grande o por la existencia de
impedimentos estéricos, se coloca la 2º probabilidad más estable (en una segunda
vuelta). Si se coloca una posición en la segunda vuelta que molesta a una colocada
en la primera, entonces el rotámero colocado en la primera vuelta se cambia a su
segundo más estable.
4. Si continúan existiendo residuos sin colocar, se baja el umbral de exigencia del test.
Obviamente, al inicio, el umbral se establece muy alto para que las posiciones sean
siempre las más estables, pero en realidad las proteínas no son extremadamente
estables, sino que mantienen cierta flexibilidad.
5. Tras establecer la estructura de la proteína, tanto de la cadena carbonada como de

las posiciones de los rotámeros, se realiza un paso de refinamiento, que consiste en
introducir la estructura en programas como CHARMM, GROMOS o AMBER, que son
programas que utilizan campos de fuerza para buscar situaciones de minimización
de energía, estos se valen de las posiciones de todos los átomos de de la proteína
para localizar los impedimentos estéricos y mover sus posiciones a otras más
estables.
6. Evaluación de la calidad del refinamiento → Métodos de control de la calidad del modelo

creado
- Una vez la estructura se encuentra en su estado más estable, es necesario evaluar la

calidad de la predicción. Un modelo puede considerarse como erróneo cuando al
12
menos parte de sus características estructurales se encuentren alteradas (un
ejemplo es, por ejemplo, cuando una estructura se ha predicho como una hélice alfa
y en realidad es una lámina beta).
Estos fallos vienen dados, normalmente, por la baja identidad entre las secuencias
de las proteínas que se han utilizado para generar los modelos. Lo que hace que se
marquen las predicciones como erróneos o de baja calidad.
- En términos absolutos, un modelo se toma como inexacto e impreciso si las

coordenadas atómicas medias de todos sus átomos no se encuentran dentro de 0,5
Å de desviación típica en comparación con un hipotético experimento real. Esto
viene dado por el hecho que los estudios realizados sobre una misma proteína con
diferentes técnicas experimentales pueden tener desviaciones típicas de hasta 0,5
Amstrong.
- Sin embargo, en términos relativos, se puede considerar que un modelo está lo

suficientemente ajustado cuando su desviación esté dentro del rango de desviación
que se encontrará entre 2 proteínas con un nivel de identidad igual al utilizado y para
las cuales sí hay datos experimentales.
Además de esto, es necesario tener en cuenta que tratamos con entidades bioquímicas con
una determinada función, ya que los programas y métodos utilizados basan sus resultados
en datos de estabilidad energética, teniendo en cuenta solamente la estabilidad de las
estructuras y no su carácter biológico. Para ello existen programas que tratan de sumar a la
estabilidad de la estructura, un sentido biológico. Existen estructuras muy estables que no
podrían tener una función dentro del organismo. Por ejemplo, si la proteína contiene su
centro activo en la superficie.
★ Calidad de los modelos:

○ Corrección: Viene dada por la calidad de los alineamiento y es la que puede generar
los modelos erróneos cuando el grado de identidad de nuestra proteína y la de la
base de datos no sean bastante altos.
○ Precisión: Está limitada por la desviación del modelo utilizado con respecto a un
supuesto futuro modelo experimental, de modo que secuencias entre un 30-50%
idénticas en su estructura interna, se desvían de su situación real entre 1-1,5 Å.
★ Aplicabilidad de los modelos obtenidos:

○ Basados en alineamientos incorrectos: Se aplican cuando no hay muchas proteínas
de referencia. Se minimiza el error cometido al escoger diferentes proteínas con
rangos de semejanzas parecidos, con el objetivo de obtener diferentes modelos en
cada caso y de todos ellos escoger aquel que tenga un mayor sentido biológico. Lo
bueno de estos modelos es que a pesar de ser incorrectos, en la mayoría de los
casos, los fallos vienen dados en las zonas de conexión, que es donde más se
producen las variaciones de secuencia por las mutaciones, el resto de la estructura
se mantendrá más o menos estable (no están implicados en la función de la
proteína).
○ Similaridad o identidad media (nivel de homología del 30/35%- 65/70%): serán

menos las regiones que debamos predecir antes de aplicarlo, puesto que gran parte
de la proteína será muy parecida. El porcentaje de aminoácidos a modelizar harán
variar lo suficiente las estructuras como para restringir el planteamiento de ciertos
13
experimentos; por ejemplo, podremos realizar mutagénesis pero no técnicas de
docking (basadas en el acoplamiento molecular de dos elementos; para llevarlo a
cabo, tendremos que conocer con gran precisión la estructura terciaria proteica para
realizar las modificaciones necesarias para asegurar compatibilidad en la unión).
○ Proteínas con identidad superior al 70%: Gracias a estos modelos se pueden

abordar otro tipo de experimentos en los cuales se puede cambiar la disposición de
los aminoácidos para variar el sustrato de una determinada enzima, modificar un Ac,
cambiar el elemento de transporte de una proteína transportadora... Abarcan los
experimentos de ingeniería de proteínas.
4. MÉTODOS PREDICTIVOS PARA ESTRUCTURAS SECUNDARIAS
Se establecieron como mínimo 20 diferentes métodos capaces de determinar las estructuras

secundarias de determinadas secundarias de aminoácidos, todos ellos se basaban en dos tipos
generales:
➔ Método estereoquímico: Se basaba en obtener las estructuras que dieran como resultado
las conformaciones más estables y compactas para el interior de la proteína. Se buscaba el
compactamiento mayor para el interior de las proteínas. El interior de las proteínas.
➔ Método empírico-estadístico: Por su parte, estos métodos se basaban en la comparación

con estructuras conocidas. Utilizando para ello datos de pequeños fragmentos de proteínas,
que se comparaban con esta estructura. Se asumía que una misma secuencia de αα’ tendría
la misma disposición tridimensional. La primera generación de métodos
empírico-estadísticos se basaron en la elaboración de tablas en las cuales a cada αα’ se le
asignaba una probabilidad de formar una u otra estructura secundaria. Dentro de los más
utilizados, destacaremos los siguientes:
Chou y Fasman: A partir del estudio de 15 estructuras resueltas por cristalografía de rayos X,
dando valores específicos de probabilidad, para cada aminoácido, de formar cada uno de los
3 grandes grupos de estructura. Al emplearse, se obtuvo una exactitud del 57 % sobre 62
proteínas. A estos datos se le aplicaban unas reglas determinadas:
1. Para cualquier segmento de seis o más aminoácidos con una Pα ≥ 1’03 y Pα >Pβ (es decir,
aquellos segmentos que tengan una probabilidad
de formar parte de una hélice alfa mayor a la
probabilidad de ser parte de una cadena beta)
donde no encontremos prolina, asumiremos que
forma parte de una hélice alfa. Sin embargo,
cabe destacar que estas generalizaciones son
peligrosas, ya que actualmente sabemos que la
prolina puede encontrarse también en hélices
alfa.
2. En cualquier segmento de cinco o más

aminoácidos donde Pβ ≥1’05 y Pβ > Pα, podremos
predecir que se tratará de una lámina β.
3. Los segmentos de cuatro aminoácidos con una Pα

< 0’9 serán examinados para comprobar si su P
Giro (es decir, formar parte de un loop) > Pβ. De ser así, podremos afirmar que existen
14
posibilidades de que forme parte de un giro β; sin embargo, como estas no son estructuras
fijas, este dato no será muy seguro.
G.O.R: La ventaja que supuso el método de G.O.R es que utilizaban más o menos las misma
reglas, con tablas muy parecidas, pero a partir de 25 estructuras, y además de las
probabilidades de los aminoácidos en cada una de las estructuras, tenían en cuenta los 8
aminoácidos antes y los 8 aminoácidos después de las estructuras, aumentando el éxito de
las estructuras porque incluían las reacciones a corto alcance. Sus tasas de acierto eran tan
solo de un 30 %.
- Practicamente ⅔ partes de las proteínas que se pretendían modelizar se hacían de forma

incorrecta. Si a todo esto se suma que las hélices alfa tienen un tamaño medio de 20
aminoácidos y que la gran mayoría de los giros suelen ser horquillas beta con 2 aminoácidos,
acaban dando unos datos de un 50-55% de acierto. Este mayor porcentaje de acierto se
daba en las proteínas que se utilizaban para modelizar estas tablas. Es decir, tenemos una
secuencia y utilizamos los datos que hemos obtenido de todas las proteínas para calcular la
estructura de una de ellas, con lo cual, lo que estamos haciendo es un test sobre cómo
funciona el método, y se está haciendo sobre proteínas de las que ya se conocen los datos,
así que en realidad un 50% de predicción a la hora de predecir la estructura de una proteína
que se ha utilizado como referencia para sacar su propia estructura no es mucho.
- Cuando la proteína se daba entre proteínas con un elevado porcentaje de identidad, estos
mismos métodos se pueden dar a predecir estructuras con un acierto del 70%, ya que es
más aceptable sobre todo teniendo en cuenta que en la mayoría de casos, ese 30% de fallo
se debía a zonas que no tenían que ver con la estructura o con la función de la proteína.
Un caso práctico fue la predicción de la triptófano sintasa, la cual solo se conocía su
secuencia y mediante estos datos se pudo modelizar prácticamente toda la proteína.
Métodos de segunda generación
- La principal característica de estos métodos es la utilización de ventanas de 20

residuos adyacentes en secuencia, incluyendo así información de contexto a la
predicción.
- Un gran número de algoritmos de predicción se usaron en esta generación de métodos:

redes neuronales artificiales, teoría de grafos, métodos basados en reglas, estadística
multivariable, …
- A pesar de ello, estos métodos poseen ciertas limitaciones, como la fiabilidad

(predicciones inferiores al 70%), se obtienen bajas fiabilidades para cadenas β y las
hélices y láminas predichas tienden a ser demasiado cortas.
Esto es debido a que el número de estructuras disponibles sigue siendo pequeño para
extrapolar al espacio de secuencias difiriendo a veces entre distintos cristales para la
misma secuencia. Además, no se tienen en cuenta los efectos provocados por
residuos situados a grandes distancias en secuencia (pero no en el espacio).
- Otro método para la predicción de estructuras secundarias es por el efecto hidrofóbico, este
15
método se basa en el hecho de que cualquier proceso biológico ha de cumplir las leyes de
la termodinámica. El plegamiento de las proteínas tiene que responder a que la energía
libre de Gibbs sea menor en el estado nativo que en el estado desnaturalizado. La fórmula de
Gibbs tiene:
○ Componente entálpico: Determinado por las opciones que te dan al final de las estructuras
secundarias.
○ Componente entrópico: Que tiene dos direcciones:
1. En contra del plegamiento: Que tenían que pasar de una estructura desordenada a
una estructura ordenada.
2. A favor del plegamiento: Supondrá el componente hidrofóbico. Se cumple el
principio de la termodinámica, se tienede al desorden.
- El efecto hidrofóbico es de gran importancia para la estructura proteica, ya que es el factor

desencadenante del plegamiento de las proteínas. Hasta que no se da ese efecto, la
proteína no puede mantener su estructura o modelización final.
El efecto hidrofóbico es el enterramiento de zonas proteicas hacia el interior de la

proteína formando un núcleo hidrofóbico que será la base para el resto de las
estructuras de las proteínas. No hay una propensión de los αα’ a formar una estructura
secundaria sino que depende de entorno, por ello han fallado tanto los métodos
estadísticos.
- La realidad es que las estructuras secundarias no se forman per sé, de hecho, en solución, las
estructuras secundarias no existen porque a un determinado aminoácido o a una
determinada secuencia de aminoácidos le da lo mismo tener relación con las moléculas de
agua que con otro aminoácido.
Es decir, los puentes de hidrógeno que forman los aminoácidos de las estructuras secundarias se van
a formar igual con agua que con otros aminoácidos, por tanto, el efecto hidrofóbico es el disparador
de la formación de las estructuras secundarias.
- Al meterse en el interior, los aminoácidos hidrofóbicos de estas estructuras, obliga a que

todos los aminoácidos polares sustituyan sus uniones con las moléculas de agua por uniones
entre aminoácidos de su cercanía.
- Al final el enterramiento de estos aminoácidos puede hacer que secuencias muy alejadas en
secuencia acaben estando muy cerca en el espacio formando una determinada estructura
secundaria.
- Utilizando el momento hidrofóbico podemos calcular las estructuras secundarias. Trata de

medir la hidrofobicidad de cada uno de los aminoácidos que se mide como la variación de
energía libre de Gibbs al pasar un aminoácido de un entorno polar a un entorno apolar, y
esto da un valor por cada aminoácido que va a ser el que determine si un aminoácido es
hidrofóbico, polar...
- Si las proteínas se encontrasen siempre en su estado más estable, no sería viable la

supervivencia de la proteína, ya que para cambiar su estructura se necesitaría aplicar
muchísima energía. Para evitar esto, las proteínas se sitúan en un estado estable
16
pero que permita su cambio estructural siempre que se necesite. Por esta causa es
tan difícil modelizar una proteína, ya que no sigue reglas exactas como la
hidrofobicidad.
- Sin embargo, a veces se encuentran diferencias en los caracteres de las proteínas, y

para ello se mide la hidrofobicidad (momento hidrofóbico) y el ángulo de las cadenas
laterales, de tal forma que si está cerca de los 90º podría tratarse de una hélice α,
mientras que si está próximo a 180º se trataría de una lámina β, sencillamente
porque esa es la distribución que tienen las cadenas laterales en cada una de las estructuras
secundarias.
★ Estructura hélice α (péptidos señal con destino:

mitocondria).
★ Lámina β→ (inclinación 165º, péptidos señal cuyo
destino es el cloroplasto).
- El momento hidrofóbico, por tanto, lo que hace es calcular el sumatorio de una

determinada región de esa secuencia y relacionarlo con los ángulos que forman las
cadenas laterales, que son las que dan una hidrofobicidad con respecto al eje central de la
estructura que forman, ya sea una hélice alfa o una lámina beta.
- En la mayoría de casos, los bucles y las regiones conectoras tienen carácter hidrofílico.
Además de estas estructuras, hay otras dentro de las proteínas que no tienen estructura,
como las zonas de ovillo aleatorio, que están inmersas dentro de las propia estructura de
esa proteína. Son aquellas secuencias que no vamos a poder determinar su estructura ni
por rayos X ni por resonancia, porque en ninguno de los dos casos va a tener una estructura
fija. Esas zonas son móviles que o bien pertenecen a la función de proteína o bien no tiene
nada que ver pero tampoco estorban. Es imposible saber la estructura que van a tener.
LIMITACIONES DE LOS MÉTODOS DE 2º GENERACIÓN

➔ Se ve qué aminoácidos se unen a otros en la estructura
➔ Baja fiabilidad para cadenas beta
➔ Las hélices y láminas predichas tienden a ser demasiado cortas
Debido a:
- El número de estructuras disponibles es demasiado pequeño para extrapolar al espacio
de secuencias. Difiriendo a veces entre distintos cristales para la misma secuencia.
- No se tienen en cuenta los efectos provocados por residuos situados a grandes distancias
en secuencia.
17
Métodos de tercera generación
- Iniciada por Levin en 1993 con una fiabilidad en torno al 70% y por Rost y Sander
en 1994 con una fiabilidad del 72%.
- La principal innovación de esta tercera generación es la inclusión de información

evolutiva adicional en forma de alineamientos múltiples (Levin, 1993). Además, se
resuelve el sesgo en las predicciones de cadenas β balanceando el conjunto de
entrenamiento (dado que las estructuras contienen más hélices que láminas (Rost y
Sander, 1994)).
- Utiliza lo que se denomina PHD (que obtenía información de la secuencia de la familia de la

proteína), que se refiere a redes neuronales, mejorando sus resultados a través del
prefiltrado de los alineamientos de entrada y la extensión de los perfiles mediante PSIBLAST
introducido por David Jones en PSIPRED (1999) con fiabilidades próximas al 77% o mediante
HMMs usados en 1999. Otros métodos siguen una estrategia diferente, buscando el
consenso de diferentes métodos, como es el caso de Jpred2.
- En este tipo de algoritmos, la fórmula que va a calcular los datos está alimentada de
diversos tipos de información (propensión estadística de los determinados aminoácidos para
formar una determinada estructura, información sobre los aminoácidos de alrededor...), para
mejorar el acierto.
- La principal innovación de esta tercera generación es la inclusión de información evolutiva

adicional en forma de alineamientos múltiples. Para una determinada familia de proteínas,
a lo largo de la evolución, se ha ido manteniendo la estructura de la proteína aunque no
tanto de la secuencia de estas.
Las proteínas homólogas se parecerán, sobre todo, en las estructuras terciarias y en las
secuencias consenso. Se conoce que las familias de proteínas poseen una tendencia a formar
determinadas estructuras a partir de determinadas secuencias.
La red neuronal PHD nos aporta información sobre la secuencia de la familia de proteína y el perfil
derivado del alineamiento múltiple para una ventana de residuos adyacentes.
5. MÉTODOS DE PREDICCIÓN DE ESTRUCTURAS TERCIARIAS.
- Serán utilizadas para determinar el ordenamiento espacial de las estructuras secundarias de

proteínas. Suponen los métodos más complejos, y proporcionarán resultados menos fiables,
motivo por el que la estructura terciaria es la menos conocida en proteínas.
- Todos los datos que se obtengan de estos métodos y la evolución de estos sistemas de
predicción conllevarán un progreso que es actualmente revisado en los C.A.S.P., congresos
en los que se reúne personal dedicado al estudio estructural de macromoléculas donde
proponen qué grupos de investigación se centrarán en el estudio estructural de ciertas
18
proteínas desconocidas a partir de sus secuencias o en el estudio de sus secuencias a partir
de estructuras terciarias conocidas.
- Además, cada dos años se reunirán para comparar resultados y analizar el funcionamiento
de la metodología.
❖ Métodos basados en plegado (threading): En ocasiones muchas proteínas pueden

compartir la misma estructura aunque no exista mucha similitud en las secuencias.
Esta propiedad permitió desarrollar métodos computacionales para poder predecir
estructuras de las proteínas sin importar la similitud de las secuencias. Para determinar
si una secuencia adopta una estructura tridimensional conocida se hacen uso de los
métodos de reconocimiento de plegado (threading). Para este tipo de métodos se
necesita una database.
La primera database creada tan solo tenía unos 800 plegamientos diferentes que provenían
de 6000 proteínas. Lo que pretendía era dar una preferencia a cada uno de los aminoácidos
en estas estructuras, de forma que se pudiese transformar la tabla en 3 dimensiones, que
supone un archivo de la Protein Data Bank, en una tabla de una única dimensión, para ello
creó el método del Perfil 3D, y mediante una serie de normas se asignaron a cada
aminoácido un valor numérico. Las normas de asignación de estos valores a los
aminoácidos son:
1. Caracterizar el ambiente del aminoácidos en función de las áreas de las cadenas laterales
que se encontrasen enterradas por otros residuos de las proteínas.
2. Fracción de dicha cadena lateral cubierta por átomos polares.
3. El tipo de estructura secundaria en la que ese aminoácido estuviese incluido.
Las dos primeras reglas daban lugar a 6 grupos con una distribución arbitraria, junto con las
3 finales daban un total de 18 ambientes diferentes para cada uno de los aminoácidos. Lo
que se hizo con esto fue transformar la estructura tridimensional de estos plegamientos
(proteínas) en una tabla de una única dimensión con valores numéricos. De este modo, a la
hora de aplicar métodos de threading sobre una determinada secuencia, el trabajo era
relativamente más sencillo, ya que ahora tan solo implica la comparación de dos estructuras
con una dimensión cada uno.
A las 18 posibilidades se les da un valor numérico y se comparan con las secuencias que se
quieren modelizar y esto arroja un valor Z, que es el valor designa el grado de calidad de la
predicción, cuanto mayor es el valor Z, mayor es la probabilidad de que la proteína problema
presente realmente la estructura predicha.
Cuando ya se ha obtenido la estructura terciaria que satisface las propensiones de cada uno
de los aminoácidos, esta se refina mediante métodos de energía de modo que se elimina
situaciones en las que existan inestabilidades por cercanía e impedimentos estéricos.
Dicha comparación hace hincapié en la congruencia de las estructuras secundarias, ya que

estas son las más conservadas evolutivamente. Gracias a este enfoque se puede identificar
proteínas estructuralmente similares, incluso sin detectarse similitud alguna en la
secuencia.
19
Estos algoritmos se pueden clasificar en dos grupos dependiendo si se basan en:
○ En pares de energía: Estos métodos buscan en una database estructural la mejor

coincidencia, haciendo uso de un alineamiento con la secuencia de consulta. Este
alineamiento se hace a nivel de perfil de las secuencias usando programación dinámica
(programas que se dividen la tarea en varias rutinas, las cuales son divididas a su vez en
subrutinas y se hacen trabajar por separado, una vez obtenido el resultado, se juntan para
dar un único resultado), o en ocasiones, también se suele usar un alineamiento normal. El
siguiente paso es construir un modelo el cual lleve a cabo una sustitución de
residuos, para, finalmente clasificar la estructura en base a la energía para encontrar la
menor de ellas (más estable).
○ En perfiles: Se construye un perfil para un grupo de proteínas relacionadas, usando

información estadística de cada residuo. Este perfil contiene la probabilidad de
ocurrencia de cada uno de los 20 αα’ por cada posición. El puntaje de este perfil
contiene información para tipos de estructuras secundarias. Para predecir el pliegue
estructural primero se predice su estructura secundaria y a partir de esta información
se compara con estructuras de perfiles conocidos.
❖ Modelos AB initio: Estos modelos están basados en algoritmos y pretenden predecir la

estructura únicamente a partir de las secuencia de los aminoácidos. Esto es casi imposible,
poco a poco se van madurando los protocolos y si las proteínas no son demasiado grandes,
pueden sacarse resultados positivos. Pero está todo basado en la potencia de los
ordenadores.
En los métodos vistos anteriormente se requiere de la disponibilidad de plantillas en

database para poder lograr predicciones. Al no existir estructuras suficientes para ello,
los métodos fallan. En estos casos se debe considerar otro tipo de información, la cual
permitirá encontrar la estructura. El poco conocimiento de estas estructuras es la
base del método AB initio. Que trata de predecir todas las secuencias de átomos de
la proteína sin la ayuda de estructuras de proteínas ya conocidas.
Una de las ventajas de este método es que la predicción no se limita a los pliegues
ya conocidos. Sin embargo, las leyes fisicoquímicas que rigen este comportamiento
aún no son bien conocidas, lo cual sigue siendo un gran reto de la bioinformática.
Estos métodos trabajan con algún tipo de heurística, siguiendo el principio de

minimización de energía, para lo que se lleva a cabo una búsqueda de todos los
sitios posibles para encontrar dicha región.
Esta búsqueda global no es factible computacionalmente, ya que aun usando una

supercomputadora se tardaría en muestrear todas las posibles conformaciones para
una proteína de 20 residuos entre 10 y 20 años. Es por esta razón que se requiere hacer
uso de heurísticas (algo así como inventar) que permitan deducir el espacio de
búsqueda. Algunos de estos métodos fragmentan dicho espacio y combinan diversos
tipos de búsqueda para producir un modelo.
20
Modelo Rosetta: Es un servidor el cual permite predecir estructuras
tridimensionales usando el método AB initio.
Para ello, se rompe la secuencia en segmentos cortos (3 a 9 residuos) prediciendo

la estructura de estos segmentos haciendo uso de modelos ocultos de Markov.
Los resultados para cada uno de estos segmentos se juntan para llevar a cabo la
configuración en tres dimensiones (todas las combinaciones posibles). La
conformación con la menor energía global es la elegida.
→ El fin de todas estas técnicas es el diseño de frecuencias que tengan una estructura
tridimensional determinada. Una vez creada esta estructura terciaria ideal se debe dar contenido a
esta, pues hacerlo en el sentido contrario no es muy sencillo. Los criterios a tener en cuneta para el
diseño de estas proteínas son:
1. Propensión de los aminoácidos por las diferentes estructuras secundarias.

2. Consideraciones entrópicas.
3. Interacciones de corto alcance entre cadenas.
4. Interacciones de largo alcance entre aminoácidos en el espacio.
5. Formación de puentes de hidrógeno a lo largo de la estructura.
6. EJEMPLOS DE FABRICACIÓN DE ESTRUCTURAS SECUNDARIAS: DISEÑO DE

PROTEÍNAS.
Algunos de los éxitos en la fabricación de proteínas de novo incluyen la formación de estructuras:
● Super Hélices o hélices superenrolladas (coiled coils): (como ejemplo se tomó la estructura
de la miosina y tropomiosina). Para ello se diseña la secuencia de dos estructuras
secundarias que den lugar a hélices α y se mantienen en las posiciones 1 y 4 (aa
hidrofóbicos), siendo el cuarto aminoácido siempre Leu, y cambiando los aa polares que
quedan hacia fuera de la estructura, con carga positiva en un caso y carga más negativa en el
otro. Con esto se evita que se formen multímeros de la misma hebra y se favorece el hecho
de que se junten dos hélices diferentes.
● Manojo de 4 hélices (ejemplo: miohemeritina): el “secreto” estaba en unir esas 4 hélices

con conectores cortos. Su diseño requiere únicamente de un empaquetamiento hidrofóbico
relativamente pequeño en un punto del espacio, a partir del cual las 4 hélices divergen
interaccionando entre ellas en un ángulo de 20º. El único problema que se puede presentar es
la fabricación de una secuencia que permita la unión en la base de estas 4 hélices. Las hélices tienen
que ser anfipáticas, por las mismas razones que en el caso de las hélices superenrolladas . Estas
hélices se estabilizan por interacciones hidrofóbicas y cada una posee una cara polar que le permite
ser soluble e impide la formación de multímeros con la misma hélice.
● Estructuras con láminas β: Su diseño es el que implica una mayor dificultad, ya que contiene
estructuras β que poseen una alta heterogeneidad en las zonas de unión de las láminas,
además las cadenas se estabilizan entre sí por puentes de H2, más o menos perpendiculares
en la dirección de la hebra, pero que pueden estar muy alejados entre sí, lo que complica
21
mucho el diseño de estas estructuras. Es complejo trabajar con láminas beta porque los
aminoácidos que lo forman están lejanos entre sí (son de largo alcance).
○ Dedos de Zinc
Es un tipo de factor de transcripción en

eucariotas (es capaz de reconocer ciertas
secuencias diana en el ADN). Gracias a ella
ciertas proteínas son capaces de reconocer
y unir determinadas secuencias al DNA
activando o desactivando los genes en los
que se encuentran.
Se suelen encontrar en tándem, es decir, varios
de estos motivos seguidos en la secuencia de la
proteína. Funcionan como pequeños dominios
modulares independientes, con plegamiento
también independiente y de pequeño tamaño
(alrededor de unos 30 aminoácidos).
Constan de una hélice α y una lámina β de

cadenas antiparalelas unidas por una
horquilla, a través de un pequeño linker. Se estabilizan porque en el medio de la estructura existe un
átomo de Zn (es imprescindible para la estabilización de esta proteína) que interacciona con 2
cisteínas de la cadena β y 2 histidinas de la hélice α. Un grupo de investigadores consiguió que esta
proteína fuese estable sin la necesidad de que esté presente un átomo metálico.
22

Predicción de Estructuras Proteicas

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Predicción de Estructuras Proteicas

Cargado por

Copyright:

Formatos disponibles

TEMA 4: “PREDICCIÓN DE LA ESTRUCTURA DE LAS

➔ El estudio de la estructura de las proteínas precisa de su aislamiento. Sin embargo, en

➔ A lo largo de 3000 millones de años se han producido cambios en la estructura de las

- La suerte: Cambio de exones, cambio de frecuencia de genes...

- La presión selectiva: Va a hacer que aquellos individuos que aportasen secuencias o

Es la aplicación de tecnologías computacionales a la gestión y análisis de datos

● La predicción de estructuras de las proteínas está facilitada por la bioinformática, que es la

● La bioinformática actual abarca trabajos de gran complejidad gracias al desarrollo de

○ Se utiliza para detectar la estructura terciaria de las proteínas. Los principales

○ Aplicación de una serie de algoritmos que son capaces de emular el

● Teniendo una serie de proteínas con una

■ El factor B nos da una idea sobre la

3. PROTOCOLO DE PREDICCIÓN DE PROTEÍNAS

➢ Las fórmulas matemáticas, algoritmos y técnicas de predicción han ido evolucionando y

➢ Denominamos generalización al proceso utilizado para conocer la estructura o función de

La evolución de la cantidad de genes obtenidos en los últimos años ha obtenido un

El término homología, en contexto biológico, es la similitud de la estructura, desarrollo y

- Si aplicamos este término a proteínas, estaremos hablando de proteínas que provienen o

→ Un ejemplo es la lactato deshidrogenasa, que contiene un gen homólogo con una de

- A priori se acepta la posibilidad de que a partir de un determinado grado de homología

- Los grupos de aminoácidos que se mantienen a lo largo de la evolución y que generalmente

- Con un 70% de identidad, las proteínas serán, probablemente, similares y cercanas

- El primer paso en la modelación de una proteína u obtener su estructura tridimensional es

b. Regiones loops o conectoras.

- La predicción de la estructura está facilitada porque estas zonas no adquieren estructuras al

- Asimismo, en estas regiones loops es donde se acumulan el mayor número de mutaciones

4. ETAPAS DE MODELADO POR HOMOLOGÍA.

1. Búsqueda de proteínas homólogas (registradas) en la database:

Consiste en encontrar las estructuras principales y

- Se consideran únicamente proteínas que puedan ayudar a modelizar a la

- Para utilizar proteínas en modelado por homología, se necesita un valor mínimo de 10 en

b. Por lo general, es posible encontrar varias estructuras con un porcentaje de similitud

Los resultados que obtengamos vendrán ordenados de mayor a menor homología.

2. Superposición de estructuras homólogas o alineamiento de la secuencia con respecto al

3. Superposición de nuestra secuencia al esqueleto resultante del alineamiento múltiple:

- Nos proporcionará un marco de trabajo donde se encontrará la media de los datos

- Esto se lleva a cabo promediando las posiciones de las secuencias utilizadas en la

4. Determinación de estructuras (resto del esqueleto principal):

- Lo que se hace es extraer de la database la secuencia de los 5 primeros aminoácidos que

Los pentapéptidos serán combinaciones de 20 aminoácidos tomados de 5 en 5

5. Ordenación de cadenas laterales.

Sin embargo, existe una ligera propensión de determinadas R a localizarse en una

3. Ahora, se colocan en el esqueleto carbonado los rotámeros que se encuentran en

5. Tras establecer la estructura de la proteína, tanto de la cadena carbonada como de

6. Evaluación de la calidad del refinamiento → Métodos de control de la calidad del modelo

- Una vez la estructura se encuentra en su estado más estable, es necesario evaluar la

- En términos absolutos, un modelo se toma como inexacto e impreciso si las

- Sin embargo, en términos relativos, se puede considerar que un modelo está lo

★ Calidad de los modelos:

★ Aplicabilidad de los modelos obtenidos:

○ Similaridad o identidad media (nivel de homología del 30/35%- 65/70%): serán

○ Proteínas con identidad superior al 70%: Gracias a estos modelos se pueden

4. MÉTODOS PREDICTIVOS PARA ESTRUCTURAS SECUNDARIAS

Se establecieron como mínimo 20 diferentes métodos capaces de determinar las estructuras

➔ Método empírico-estadístico: Por su parte, estos métodos se basaban en la comparación

2. En cualquier segmento de cinco o más

3. Los segmentos de cuatro aminoácidos con una Pα

- Practicamente ⅔ partes de las proteínas que se pretendían modelizar se hacían de forma

Métodos de segunda generación

- La principal característica de estos métodos es la utilización de ventanas de 20

- Un gran número de algoritmos de predicción se usaron en esta generación de métodos:

- A pesar de ello, estos métodos poseen ciertas limitaciones, como la fiabilidad