Está en la página 1de 38

Curs

Curs d’introduc
d’introduccció
ió aa la
la bioinformà
bioinformàtic
ticaa
Pla ta forma Bioinformà tic a de la UAB

Introducció a la Bioinformàtica

Bioinformàtica: la recerca biomèdica in


silico

© 2006 Plataforma Bioinformàtica de la UAB


Curs
Curs d’introduc
d’introduccció
ió aa la
la bioinformà
bioinformàtic
ticaa
Pla ta forma Bioinformà tic a de la UAB

Motivos, estructura
y función

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: Objetivos

•Análisis de la secuencia de aa de una proteína


•alineamiento con proteínas homólogas
•búsqueda de zonas conservadas

•Predecir la presencia de estructuras secundarias

•Analizar la presencia de motivos


© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: estructura secundaria

Posibles estructuras secundarias


• Hélice
alfa
•Random
coil

• Hoja beta • Giro beta

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

• Métodos de predicción de estructura secunadaria basados en el analisis


de la estructura primaria:

CHOU-FASMAN

DELEAGE&ROUX

GARNIER-ROBSON

Perfiles de densidad de carga

Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)


Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

CHOU-FASMAN
• Método estadístico basado en estructuras cristalográficas ya resueltas
• Calcula un parámetro conformacional para cada residuo de la proteína
• Este parámetro refleja la preferencia de este residuo en hallarse en un
tipo de estructura determinado
• Inicialmente se basaron en 15 proteínas, después en 24 y finalmente en
64
• Cuatro grupos de proteínas: alfa, beta, alfa+beta, alfa/beta

Limitaciones: no se puede usar con proteínas muy distintas


a las 64 proteínas con la estructura conocida en que se
basa este método

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

DELEAGE&ROUX

-Método estadístico basado en tres pasos:


predicción de la clase de proteína (según comp. Aa)
predicción de la estructura secundaria (frecuencia de cada
residuo) nueva predicción optimizando parámetros

Limitaciones:si la predicción de la clase de proteína es


correcto, la predicción de estructura secundaria es más
acertada que en los otros métodos. Si la proteína no
queda bien clasificada, la predicción no es fiable.

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

GARNIER-ROBSON
-Método estadístico basado en estructuras cristalográficas ya
resueltas (25)
-No sólo tiene encuenta la preferencia de un aa por una
estructura, sino que además considera el entorno de este aa
(ventana de 16 aa)
-Fundamentalmente se basa en los ángulos f y y del enlace
peptídico y en los puentes de hidrógeno de las estructuras
secundarias.

Limitaciones:la proteína problema no debe diferir


substancialmente de las 25 proteínas de estructura
conocida.

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)


-Eisemberg moment
-Kyte-Doolitte

Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)

-Karplus flexibility
Perfiles de probabilidad de encontrase en la superfície de la
proteína

-Emini surface probability

Perfiles de densidad de carga

-Charge density

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)


-Eisemberg moment
-Kyte-Doolitte

Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)

-Karplus flexibility
Perfiles de probabilidad de encontrase en la superfície de la
proteína

-Emini surface probability

Perfiles de densidad de carga

-Charge density

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

• Métodos de predicción de estructura secunadaria basados NO solo en


el analisis de la estructura primaria:

Neural Networks Models

GOR – METHOD (Garnier, Ousguthorpe and Robson)

PSA – METHOD (Protein Sequence Analysis)

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

GOR – METHOD (Garnier, Ousguthorpe and Robson)

• Se basa en la consideración de que la estructura que


adoptan los aa que flanquean un determinado aa central
determinan la estructura que adapta este aa central.

• El método estudia los 8 aa N-terminales y los 8 aa C-


terminal. Establece tres o cuatro (GOR III /GOR IV) matrices:
una cuando el aa central es alfa, otra para beta, otro para
random, y otra turn.

•Usa información teórica para la decisión final.

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

Neural Networks Models

Estos métodos contemplan tres niveles:

•El primer nivel: la preedición se realiza sobre alineamientos


múltiples
• El segundo nivel: se consideran los elementos de estructura
secundaria en las proteínas homologa
•El tercer nivel: promediar las predicciones obtenidas
independientemente.

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: Interpro

PSA – METHOD (Protein Sequence Analysis)

•Este método predice la estructura secundaria de


proteínas sin homología de secuencia y sin homología
de estructura.

•Se basa en 15 modelos matemáticos. Se han


establecido tres o cuatro superclases. Los modelos
matemáticos establecen las restricciones de cada tipo
de estructura alfa, beta, etc.. en cada superclase.

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

•http://cubic.bioc.columbia.edu/predictprotein/
http://us.expasy.org

•http://bmerc-www.bu.edu/
http://npsa-pbil.ibcp.fr/

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: Interpro

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: métodos de predicción

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: Interpro

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: Interpro

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: Interpro

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: Interpro

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: busqueda de motivos

Dominio/motivo/patron
•Muchas proteínas tienen estructura «modular»
•Estimación: ~ 3 dominios / proteína
•Dominios (secuencias o estructuras conservadas)
identificadas por alineamiento múltiple de secuencia

Métodos para definir dominios


•Patrones (expresión regular); usado en dominios muy
conservado
•Perfiles (matrices de pesos): tablas de dos dimensiones por
posición específicos para match-, gap-, y insertion, derivados
del alineamiento de secuencia de la familia, usado para
dominios menos conservado
•Hidden Markov Model (HMM); modelo probabilístico.
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos

Bancos de datos de motivos/familia


PROSITE Patrones / Perfiles
ProDom Alineado de motivos (PSI-BLAST) (Pfam B)
PRINTS Alineado de motivos
Pfam HMM (Hidden Markov Models)
SMART HMM
TIGRfam HMM

DOMO Alineado de motivos


BLOCKS Alineado de motivos (PSI-BLAST)
CDD(CDART) PSI-BLAST(PSSM) de Pfam y SMART

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: busqueda de motivos

•consiste en patrones y perfiles significativos biológicamente


•ayudar a determinar a que familia de proteínas pertenece la
secuencia.

http://us.expasy.org/prosite/
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos

Generar Patrón Prosite

• G-H-E-x(2)-G-x(5)-[GA]-x(3)

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: busqueda de motivos

Ejemplo Patrón Prosite

<A-x-[ST](2)-x(3,5)-{V}
•< N-terminal
•x cualquier aa
•[ST] serina o treonina dos veces
•x(3,5) cualquier aa de 3 a 5
veces
•{V} cualquier aa excepto valina
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos

Patrón Prosite

•Http://www.expasy.org/prosite/
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: busqueda de motivos

Patrón Prosite
. Ventajas:
. Rápido y fácil de implementar.
. Los modelos son fáciles de comprender.

. Limitaciones:
. Pobre tratamiento de las inserciones/delecciones.
. Cuando los patrones son pequeños da muchos falsos
positivos.
. Los patrones largos son difíciles de ajustar al modelo.
. No nos proporciona un score, está o no está.

. ¿Cuándo usar los patrones?


. Para usar motivos pequeños o centros activos.
. Para describir un motivo de forma sencilla.

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: busqueda de motivos

Perfil Prosite

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: busqueda de motivos

Perfil Prosite
. Ventajas:
. Podemos especificar cuando ocurren inserciones o
delecciones.
. Nos proporciona un score.
. Se puede construir automáticamente.

. Limitaciones:
. Muy caro en tiempo de CPU.
. El software es más sofisticado.
. La lectura del patrón no es intuitiva.

© 2006 Plataforma Bioinformàtica de la UAB


Motivos y estructuras: Interpro

InterPro
InterPro integra:

• Pfam
• PROSITE
• ProDom
• SMART
• TIGRFAMs

www.ebi.ac.uk/interpro
© 2006 Plataforma Bioinformàtica de la UAB
Motivos y estructuras: Interpro

InterPro

www.ebi.ac.uk/interpro
© 2006 Plataforma Bioinformàtica de la UAB
Ejercicio 1
Determinar la predicción de estructura secundaria de
las siguientes proteínas. Utilizar diferentes métodos y
decidir que tipo de estructura es el mayoritario.

Que proteasa utilitarias para aislar el C-terminal


(aprox 100 últimos aa) de la histona H10. Te serviría
esta misma proteasa para los otros subtipos

El C-terminal de esta proteína tiene putativos sitios


de fosforilacions para la CK2 y para la PKC.
© 2006 Plataforma Bioinformàtica de la UAB
Secuencias:
H10,
TENSTSAPAAKPKRAKASKKSTDHPKYSDMIVAAIQAEKNRAGSSRQSIQKY
IKSHYKVGENADSQIKLSIKRLVTTGVLKQTKGVGASGSFRLAKSDEPKKSV
AFKKTKKEIKKVATPKKASKPKKAASKAPTKKPKATPVKKAKKKLAATPKK
AKKPKTVKAKPVKASKPKKAKPVKPKAKSSAKRAGKKK
H12
SETAPAAPAAAPPAEKAPVKKKAAKKAGGTPRKASGPPVSELITKAVAASKE
RSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGS
FKLNKKAASGEAKPKVKKAGGTKPKKPVGAAKKPKKAAGGATPKKSAKKT
PKKAKKPAAATVTKKVAKSPKKAKVAKPKKAAKSAAKAVKPKAAKPKVV
KPKKAAPKKK
H13
SETAPLAPTIPAPAEKTPVKKKAKKAGATAGKRKASGPPVSELITKAVAASK
ERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASG
SFKLNKKAASGEGKPKAKKAGAAKPRKPAGAAKKPKKVAGAATPKKSIKK
TPKKVKKPATAAGTKKVAKSAKKVKTPQPKKAAKSPAKAKAPKPKAAKPK
SGKPKVTKAKKAAPKKK
© 2006 Plataforma Bioinformàtica de la UAB
Ejercicio 2

Para una proteína dada (ejemplo TDF humana):

• ¿Cómo saber si contiene dominios


funcionales?

•¿Qué otras proteínas contienen ese mismo


dominio funcional?

© 2006 Plataforma Bioinformàtica de la UAB


Ejercico 3:
Has realizado un protocoloo de purificaciónn de
la prothymosin alfa humana (Q15200). En lugar
de obtener una sola proteína, obtienes tres, con
las siguientes características:
proteína 1 Mr: 16000  pI:  7
proteína 2 Mr: 12000  pI: 3.7
 proteina 3 Mr:  11000  pI: 6
Cual de ellas es la correcta,
Que estrategia puedes utilizar para comprobar
que realmente esta es tu proteína.

© 2006 Plataforma Bioinformàtica de la UAB


•Ejercicio 4:

El domino globular de la histona H5 (1Hst) se ha


resuelto por cristalografía.
Quieres estudiar la estabilidad de la primera hélice
alfa.
Que aproximación puedes seguir.

© 2006 Plataforma Bioinformàtica de la UAB


•Ejercicio 5: Construir un Patrón

© 2006 Plataforma Bioinformàtica de la UAB

También podría gustarte