Está en la página 1de 67

BIOINFORMÁTICA

(2021-2022)
(2020-2021)

T1 – BASES DE DATOS
T2 – ANÁLISIS DE LA INFORMACIÓN SECUENCIAL DEL DNA
T3 – PROYECTOS GENOMA Y NAVEGADORES GENÓMICOS
T4 – ESTUDI DE L’EXPRESSIÓ GÈNICA: TRANSCRIPTÒMICA
T5 – ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Y APLICACIONES
T6 – PREDICCIÓN DE LA FUNCIÓN DE PROTEÏNAS
T7 – PREDICCIÓN DE LA ESTRUCTURA SECUNDÀRIA DE PROTEÏNAS
T8 – ANÁLISIS Y PREDICCIÓN DE LA ESTRUCTURA TRIDIMENSIONAL DE
.......PROTEÏNAS
Alina Logina Bioinformática

TEMA 1. BASES DE DATOS - Ej: texto, números enteros,


fechas
Bases de datos primarios:
 secuencias de ácidos nucleicos y de
BASES DE DATOS DE NUCLEOTIDOS
proteínas
 ENA: European Nucleotide Archive
 estructuras de proteínas
 DDBJ: DNA Data Bank of Japan
 NCBI
Bases de datos secundarias :
 familias y clasificación de proteínas
BASES DE DATOS DE PROTEÍNAS
(pfam/interpro/CDD)
 Uniprot/Swissprot (EMBL)
 motivos o dominios proteicos
 PIR: Protein International Resourse
(prosite/ect)
 NCBI proteins
Bases de datos especializadas:
BASES DE DATOS ESPECIALIZADAS
 Medline/PubMed (información
 Enzimas (Brenda)
bibliográfica)
 Geles bidimensionales (Swiss
 PhosphositePlus (modificaciones
2DPAGE, Proteome 2DPAGE
postraduccionales)
database)
 OMIM (enfermedades genéticas)
 Interacciones entre proteínas
 2D page, Brenda
(STRING)
 perfiles de expresión de genes y
 Modificaciones post traduccionales
proteínas
(Phosphosite)
 Enfermedades genéticas (OMIM)
BASES DE DATOS PRIMARIOS
 Una colección de registros (récords)
 Una ficha o registro por secuencia
Bases de datos de Mapa de
 Cada registro tiene una clave
interacciones entre proteínas
primaria
 STRING
 Cada registro tiene varios campos
 BioGrid
 Cada campo contiene información
 MINT
específica
 IntAc
 Cada campo contiene datos de un
tipo determinado

1
Alina Logina Bioinformática

TEMA 2. ANÁLISIS DE LA INFORMACIÓN SECUENCIAL DEL


DNA
MAPAS DE RESTRICCIÓN
Objetivo 1
 Buscar dianas de restricción útiles per la clonación

Criterios iniciales:
presentes en el polylinker de los vectores
que no corten en el interior del fragmento a clonar
Usamos bacterias (E. Coli) para hacer crecer plasmidis.

Selección del vector de clonaje, tiene que disponer de:


Maquinaria de expresión (enzimas de restricción), producción de mRNA, promotor T7
muy utilizados y luego nos encontramos con el mcs (multicloning site) y regiones de
restricción que son regiones dentro del plásmido con secuencias especificas que son
reconocidas y son cortadas por enzimas de manera específica.

Tenemos la unión de gen con plásmido y hacemos la clonación. Tenemos que saber que
plásmido es, que enzimas son las que dan lugar a la restricción y saber si corta o no en
el gen de interés ya que si cortase seria un problema. NEBcutter es un programa que
nos facilita esta información.

Tenemos un gen y un plásmido, y tenemos que encontrar que corten por los extremos
del gen y en alguna parte específica del plásmido que tiene que ser única (sino se
perdería el oriC).

Podemos seleccionar la secuencia, los plásmidos comerciales, las enzimas (se


seleccionan todas):
Te dice el nº de pares de bases y por donde cortaría, la tabla de List es mas fácil de leer.
Te da todas las enzimas que no cortan el gen y que por tanto podemos utilizar si son
compatibles con el plasmido con el que trabajamos. Lista 0 cutters te permite escoger
los enzimas de clonación.

Objetivo 2
 Buscar dianas para caracterizar polimorfismos (RFLP)

Criterios iniciales:
 que tengan una diana que se modifique a causa del polimorfismo
 que generen fragmentos de DNA fáciles de identificar

Nos diferencia entre inserciones y deleciones, puede haber polimorfismos.


Podemos cortar de manera controlada el DNA. Si tenemos diferentes alelos para el gen
de la b-globina; la forma a y la forma. Un cambio de T por A, puede hacer que pase de

2
Alina Logina Bioinformática

tener dos posibles regiones de restricción a 3. Con T solo tiene los de los extremos y
tenemos 2 fragmentos al ser cortados.

El perfil de electroforesis es:

DISEÑO DE PRIMERS
1. Clonación/Expresión de proteínas recombinantes
2. Cuantificación: real time PCR (qPCR). A parte de los primers es una forma de
cuantificar los productos de DNA formados. Se hace con sondas especificas o
inespecíficas que se intercalan entre l doble cadena de DNA. Podemos usar varias
paginas web.
3. Detección: RFLP, para detectar un mRNA (sin cuantificar) por RT-PCR. Si queremos
amplificar tenemos que preparar primers
4. Mutagénesis dirigida

Todos son primers, pero cada uno tiene características diferentes

Características de una pareja de primers


- Especifica para amplificar una secuencia que queramos, solo una secuencia a la vez.
Más o menos de 20 pb. Las dos secuencias tienen que ser específicas para el gen
- Formación de un dúplex estable con el molde
- Compatibilidad entre ellos

Criterios generales
El tamaño habitual es de 20 nt porque si fuera más pequeño podría encontrarse en más
regiones del gen.

Para la compatibilidad, la temperatura (Tm, longitud y %GC) tiene que ser de unos 50-
65ºC para que la unión sea más estable, con una diferencia entre forward-reverse
menos o igual a 5ºC.
A una temperatura donde la mitad de la longitud del primer esta unido al DNA y la otra
no (cola) para que no hibriden.

3
Alina Logina Bioinformática

Los extremos 3’: Tiene que haber al menos un G/C en los 5 últimos nt para tener la
estabilidad necesaria y que no haya falsos inicios.

No deben tener complementariedad interna, sino formarían hairpins. Ni tampoco entre


primers, sino formarían un primer dimer.

Hay que evitar una energía de Gibbs mayor a -10 kcal/mol y la hibridación del extremo
3’.

Primers para clonación y expresión de proteínas recombinantes


En el primer tenemos que insertar el codón ATG si queremos producir una proteína a
partir del gen. También el codón STOP.
El forward es complementario al extremo 5’ del gen y el reverse, complementario al 3’.

Tenemos el gen amplificado, pero queremos insertarlo dentro de un plásmido. Tenemos


que añadir un punto de corte con la enzima de restricción para la clonación; usamos las
regiones que no sean especificas para enzimas que se encuentren en el gen.

No perder la pauta de lectura: después de la Met, que los próximos 3 codones traduzcan
el aa que estas buscando.

En los primers tenemos que incluir unos 4 nucleótidos (que escogemos nosotros
aleatoriamente) en los extremos 5’ para facilitar la digestión.

Si queremos amplificar H1c de rata, ejemplo:


Reverso stop + Reverso complementario: STOP + cadena de arriba (escrito de derecha a
izquierda)

5’TAATACAAGCTTATGTCGGAAACTGCTCCTG 3’
5’ATATCTCTCGAGTTACTTCTTCTTGGCTGCAAC 3’

Para la comprobación de parámetros específicos usamos el Premier biosoft (user


aroque, password uab2013)  Características fisicoquímicas de los primers,

4
Alina Logina Bioinformática

Primers para detección


El Primer3plus, a partir de una secuencia de todo el gen, nos da los primers. Hay
flexibilidad en la ubicación de los primers y los productos son de 150-250 ob.

REAL TIME PCR (RT)


Primers para cuantificación
Los productos son de 70-200 pb. Parecida a la normal, pero nos permite cuantificar la
cantidad de DNA generado, presente en la muestra.
En cada ciclo, el gen se duplica de forma exponencial. ¿Cómo se cuantifica? Mediante
un Real time PCR (RT). Podemos introducir sondas inespecíficas fluorescentes, se
intercala dentro de la cadena de DNA, el emite luz verde fluorescente y podemos
cuantificar por intensidad.

Si tenemos mas fluorescencia, ¿tiene mas DNA? No porque no podemos afirmar que se
encuentre solo en el gen de interés. Puede haber amplificado otras zonas.

Mediante sondas de detección (TaqMAN) que es un tozo de DNA que pueden ser cada
vez más pequeñas (que los primers) para ser más específicas. Esta secuencia de nt que
es especifica para una región interna del gen que estamos amplificando. Cando se
separan las cadenas, el TaqMAN se vuelve a enganchar. Tiene un fluoroforo F en un
extremo y en el otro extremo tiene un Quencher Q que absorbe toda la fluorescencia
porque se encuentra cerca del F. Si el Taqman está suelto en el medio, no se detecta
fluorescencia. Al bajar la temperatura se puede enganchar los primers y el TaqMAN solo
en una de las hebras, que también tiene los sitios Q y F.

La RNApol desengancha la TaqMAN cuando empieza a sintetizar. Cuando esta


hidrolizado, el Q y el F van por separado y ya no se encuentra cerca para cuantificar.

El Primer Blast nos ayuda a saber si la pareja de primers es especifica.


Es como FASTA, compra, hace similitudes entre nuestra secuencia y otras que ya están
en la base de datos.

Mutagénesis dirigida
Los primers tienen que ser complementarios entre sí,
con una longitud de entre 25-45 bases y una Tm mayor
a 78ºC. La mutación se da en el centro del primer. El
contenido en GC es alrededor de 40% y en el extremo
3’ hay un G o C.

5
Alina Logina Bioinformática

Guía para el diseño de primers

Parámetros
Tm ≈ 50-65ºC (excepto primers de mutagénesis)
Tm foward-Tm reverse ≤ 5ºC
Al menos un G/C en el 3’
Estabilidad 3’: ΔG [-6;-10] kcal/mol
Evitar estructuras secundarias

MANIPULACIÓN DE SECUENCIAS
Reverso y complementaria (para primer reverse)
http://www.bioinformatics.org/sms/rev_comp.html
http://reverse-complement.com/

Traducción de nucleótidos a proteínas


http://web.expasy.org/translate/
http://www.ebi.ac.uk/Tools/st/emboss_transeq/

Código genético
http://www.sparknotes.com/biology/molecular/geneticcode/section1.rhtml

6
Alina Logina Bioinformática

TEMA 3. PROYECTOS GENOMA Y NAVEGADORES


GENÓMICOS

WEBS
Predicción de genes procariotas
- FGENESB (también predice operones):
http://linux1.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgro
up=gfindb

Predicción de genes eucariotas


- FGENESH:
http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgro
up=gfind

Exones/Intrones (alineamiento DNAg y mRNA)


- Splign: http://www.ncbi.nlm.nih.gov/sutils/splign/splign.cgi

Promotores
- Eukaryotic promoter database: http://epd.vital-it.ch/

Predicción de islas CpG


- CpGplot: http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/

TF-binding sites
- Análisis de secuencia específica: http://alggen.lsi.upc.es/cgi-
bin/promo_v3/promo/promoinit.cgi?dirDB=TF_8.3

PROMOTORES Y FACTORES DE TRANSCRIPCIÓN


Hemos trabajado anteriormente con el CDS. La parte de regulación de la transcripción
de ese gen se encuentra en la zona upstream, antes. Importantes para el
reconocimiento de la RNApol para empezar la transcripción. El TSS es la base 1 y a partir
de allí, donde se engancha la RNApol, empieza la transcripción. Todo lo que venga antes
de la base 1, es nombrado 0, -1, -2...
Esta figura puede contener zonas
promotoras, en las zonas
upstream.

7
Alina Logina Bioinformática

In genetics, a promoter is a region of DNA that leads to initiation of transcription of a


particular gene. Promoters are located near the transcription start sites of genes,
upstream on the DNA (towards the 5' region of the sense strand). Promoters can be
about 100–1000 base pairs long.

LA METILACIÓN DE ISLAS CpG UPSTREAM DE GENES PUEDE REGULAR SU


EXPRESSIÓN
Las islas CpG. Estas bases son susceptibles de ser metiladas, si esta metilación se da
antes del gen, en la zona promotora, se inhibe la transcripción. Hay otras islas CpG en
otras regiones del genoma, pero no se sabe como funcionan.

FACTORES DE TRANSCRIPCIÓN EN CELULAS EUCARIOTAS


Los factores de transcripción facilitan que se una la RNApol y se dé la transcripción. Las
islas CpG más upstream, está metilada no hace el plegamiento correcto y la RNApol sufre
a la hora de engancharse.
Promotor: DNA
Factor de transcripción: proteína

PROYECTOS GENOMA Y NAVEGADORES GENÓMICOS


SECUENCIACIÓN, ENSAMBLAJE Y ANOTACIONES DE GENOMAS
IDENTIFICACIÓN DE LAS SECUENCIAS CODIFICANTES Y PROMOTORAS

8
Alina Logina Bioinformática

TEMA 4. ALINEAMIENTOS DE SEUCNECIA


Un alineamiento de secuencia es una comparación entre secuencias. Comparamos
para encontrar:
 Un gen desconocido en el genoma
 Genes o proteínas relacionados evolutivamente
 Regiones dentro de las proteínas funcional o estructuralmente parecidas

Encuentra posición relativa entre secuencias de manera que se maximice su identidad


o parecido.

Comparación:
 Entre 2 secuencias, alineamiento a pares (pairwise)
 Una secuencia contra muchas secuencias en bases de datos, búsquedas por
similitud (pairwise)
 Entre muchas secuencias, alineamiento múltiple

IDENTIDAD VS. HOMOLOGÍA


Identidad/Similitud: Cuantificable. Se puede medir y expresar en %. Identidad: Implica
exactamente el mismo aa. Similitud: se considera las características fisicoquímicas de
los aminoácidos

Idénticos: cuando las pares de bases son iguales


Similitud: cuando las características de las pb son muy parecidas, teniendo en cuenta
los idénticos

Homología: Dos genes/proteínas son homólogos cuando tienen un origen evolutivo


común. NO EXISTEN GRADOS DE HOMOLOGÍA. Generalmente presentan más del 40%
identidad y siguen teniendo la misma función.
No es un concepto cuantificable. Se tiene en cuenta si el gen tiene una identidad
superior al 40%. Depende de unos estudios, podemos tener genes que tienen
homología, pero una baja identidad.

¿Como cuantificamos en secuencias mucho más elevadas en longitud?


Tenemos la ribonucleasa bovina y la humana. Son homologas, codifican para una
proteína similar y son ortólogas porque son de diferentes especies.

Cuando son parecidas entre la misma especie son parálogas.

9
Alina Logina Bioinformática

Analogía: no tienen origen común, pero son traducidas en proteínas


que comparten analogía estructural o funcional ya que han
convergido, aunque sean secuencias no relacionadas.

MÉTODOS DE ALINEAMIENTO

DOT PLOT
Comparación rápida y visual
dentro de una misma secuencia y
entre secuencia.
Las líneas diagonales solo
conectan puntos seguidos.
Observamos que la manera en
que alinean no es igual sino
movida.

10
Alina Logina Bioinformática

Filtrar una matriz: eliminar el ruido y quedarse con la mejor información.


Tamaño de palabra (Ventana)
Restricción (% mínimo de similitud en la ventana)

Ejemplo
No comparamos A con A, C con C. Comparamos 5 letras a la vez, en la primera vez solo
se alinea la E (tenemos un punto porque un aa se ha alineado),
Restricción: si dentro de esas 5 letras, coinciden al menos 3 (60%), y en este caso solo
se alinea 1 (20%).
Hasta que encontramos el 100% y se marca un punto en cada una de las que coinciden
y se traza una diagonal. Significa que las dos secuencias son idénticas, la secuencia A es
idéntica al final de la secuencia B.

Dot plot Intrasecuenciales


Si se compara la misma secuencia
a) Las secuencias son iguales, identidad total
b) Misma secuencia y parte de esa secuencia se repite dentro de a y b. Repeticiones
directas, cuando son en el mismo sentido

11
Alina Logina Bioinformática

c) Son secuencias palindrómicas, enzimas de restricción. Rectas perpendiculares a


la diagonal principal. Repeticiones invertidas.
d) Hairpins, solo los extremos son iguales.

Dot plot Intersecuenciales


g) Tienen identidad, pero hay partes que no se comparten.
Secuencias homólogas, pero no 100% idénticas.
h) Diagonales desplazadas: implica discontinuidades en la
secuencia, son homólogas, pero hay inserciones o
deleciones en la zona del corte, o exones/intrones...

Programa a usar  dotmatcher


Comparamos las dos secuencias y podemos jugar con la ventana y la restricción.

DYNAMIC PROGRAMMING
Aplicada de dos maneras diferentes:
- Alineamiento global (Needelan & Wunch): se intenta optimizar el máximo de
identidad, crearon un algoritmo de programación. Intentamos alinear todos los
caracteres de las secuencias optimizando el número máximo de identidades.
Longitudes parecidas o se deben introducen gaps o discontinuidades con mayor
facilidad.

- Alineamiento local: cuando partes muy similares de la secuencia son alineadas de


manera separada. Intentamos alinear la secuencia entera, buscan partes más
similares y hacen los alineamientos solo de esas partes. Realizaron un algoritmo más
nuevo, diferente al anterior.
Alineamos segmentos de las secuencias donde la densidad de identidades es mayor,
generamos subalineamientos. Secuencias de diferentes longitudes, que solo se
alinean por zonas.

Algoritmo del alineamiento global


Tenemos 2 secuencias: GAAC y CAAGAC

1. Matriz de puntuación: Dibujar una matriz y puntuarla. Matriz con la secuencia 2 y la


secuencia 1 en cada eje. Puntuar cada casilla dentro de la matriz. Nos da la

12
Alina Logina Bioinformática

información a entender como alinear la secuencia 1 y 2 de la mejor manera posible.


Hay que dejar una casilla en cada secuencia al principio, un gap.
La primera puntuación la generamos nosotros, tenemos que ver si coincide o no
coincide. El score que usamos es: Si coincide (match) ponemos +1, si no coincide
(mismatch) ponemos -1. Para el gap, la puntuación es -3.

2. Fase de inicialización: 0,-3,-6,-9… Valores iniciales = valor + gap

3. Fase de relleno o inducción: Ahora hay que puntuar las demás casillas, puede venir
de la horizontal, vertical o diagonal. Se suma el valor horizontal o vertical + el
atribuido al gap. Si el valor viene de la diagonal: diagonal + (si es match o mismatch)

Nos tenemos que quedar con el valor más elevado, y tenemos que recordar de
donde ha venido ese valor (en este caso de la diagonal).

4. Fase de rastreo regresivo para recuperar la solución óptima: vamos hasta el ultimo
punto, y seguimos las flechas hasta llegar al cero.
Gap cuando nos desplazamos lateralmente. Dibujamos el gap hacia la secuencia que
indica la flecha. Calcula el score, los valores para representar si el alineamiento esta
bien hecho.
El score se calcula:
el -1,+1,-3
El score menos
negativo, nos
indica que el
alineamiento está
mejor hecho.

13
Alina Logina Bioinformática

Global: Needelman & Wunch Local: Smith-Waterman

Para alineamientos locales el tipo de matriz es una matriz de puntuación, pero la


puntuación es diferente. La primera fila y columna es cero entera, a diferencia de la
anterior. Buscamos partes de la secuencia parecidas en vez de hacerlo con la secuencia
entera.
En este caso hablamos de nucleótidos.

Para proteínas, tenemos 20 puntuaciones posibles. Los aminoácidos no son 0/1, pueden
ser similares. Si tenemos mutaciones, por ejemplo, de una Lys a una Arg no es tan grave
y probablemente no cambie la función. Les damos una puntuación por similitud
“química”:
 Basadas en propiedades fisicoquímicas
 Basadas en tamaño, forma, carga, polaridad

 Código genético degenerado


 Diferente probabilidad según el número de mutaciones necesarias

14
Alina Logina Bioinformática

Hay dos matrices de sustitución principales:


1. Matrices PAM (Percent/Point Accepted Mutation). Basadas en la tasa de divergencia
entre secuencias. Con las secuencias muy conservadas, hicieron un alineamiento
global y se ve como son muy similares, dentro del alineamiento se ven los aa que se
encuentran naturalmente mutados dentro de diferentes especies (desde mas
antiguos a mas nuevos en la evolución)

Basadas en sustituciones conservadas o frecuencias de mutación. Derivadas de


alineamientos globales de familias de proteínas de origen común.

PAM = unidad de evolución (1 PAM = 1 mutación/100 aminoácidos)


Multiplicando esas matrices, generaron matrices con permisiones mas grandes
PAM1: proteins with an evolutionary distance of 1% mutation/position
PAM50: idem for 50% mutations/position
PAM250: 250% mutations/position (a position could mutate several times)

Scoring matrix
Si el score es positivo (sn > 0 ), las mutaciones son aceptables. Si las mutaciones
cambian mucho, el valor en la matriz es negativo (sn < 0).

2. Matrices Blosum (Blocks Substitution Matrix). Basadas en la conservación de


dominios entre proteínas. Actualmente la más utilizada. Agrupa diferentes
proteínas relacionadas, pero de orígenes distintos. Se encuentran diferentes partes
que son homologas (blocks), agrupados en función de la identidad/similitud de la
secuencia. Derivadas de alineamientos de dominios de proteínas relacinoadas, pero
evolutivamente distantes. Basadas en alineamientos locales sin gaps de familias de
proteínas llamadas block database.

Dentro de cada bloque (blocks), podemos hacer una matriz de puntuación.


BLOSUMPORCENTAGEIDENTIDAD (BLOSUM62).
Más de 80, 62 o más.
Dibujamos las matrices de puntuación.

15
Alina Logina Bioinformática

Basado en las mutaciones y las características físico-quimicas.

Blosum 62: thus they used locally aligned sequences where none of the aligned
sequences share less than 62% identity. This resulted in a scoring matrix called
BLOSUM62. In contrast to the PAM matrices the BLOSUM matrices are calculated
from alignments without gaps. 62 es el porcentaje de identidad de las secuencias
utilizada en la construcción de la matriz.

La mas usada BLOSUM62 que se puede comparar con PAM120.


Si queremos comparar secuencia mas diferentes (más divergentes).

- BLOSUM normalmente mejores que las PAM para búsquedas de similitudes locales
(Henikoff & Henikoff, 1993)
- Utilizar PAM bajas o BLOSUM altas cuando se comparan proteínas parecidas
- Para proteínas distantes utilizar PAM elevadas o BLOSUM bajas
- Para búsquedas en bases de datos utilizar BLOSUM62 (por defecto)

16
Alina Logina Bioinformática

Usamos: Pairwise Sequence Alignment

HEURISTIC SEARCHES (BÚSQUEDAS HEURÍSTICAS)


Busca por similitud, corta la secuencia en partes diferentes que solapan. ¿Hay alguna
secuencia en la base de datos que se parece a esta?
Significación: E-Value, valor bajo major alineamiento.
 BLASTN Y BLASTP

BLAST: BASIC LOCAL ALIGNMENT SEARCH TOOL


- Busca palabras que coincidan entre las dos secuencias con un tamaño definido.
- Puntúa con la matriz escogida las palabras, sólo se queda con las que superen el
valor mínimo de puntuación (umbral/Threshold)
- Desde la palabra seleccionada extiende el alineamiento hacia los dos lados siempre
que la puntuación de este no baje, puede introducir algún gap.

17
Alina Logina Bioinformática

Score, Bit-score, P-value, E-value


Score: número usado para asesorar la relevancia biològica de una búsqueda. En el
context de los alineamientos de secuencias, el score es un valor numérico que describe
en general, la calidad del alineamineto. Valores más altos corresponden a una mayor
similitude. La escala del score depende del Sistema de score usado (matriz de
sustitucioón, penalización de gap).

Ejemplo. BLAST – Pho4p (s. cerevisiae)

18
Alina Logina Bioinformática

Significación. Valoración de los alineamientos


Expect Value: E = número de hits esperado por azar. Valores más bajos serán más
significativos.

Un E-value de 10 significa que, en una base de datos de igual tamaño, se pueden


encontrar 10 alineamientos con la misma puntuación por simple azar

BLAST 

19
Alina Logina Bioinformática

TEMA 5. ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Y


APLICACIONES
Porque hay que buscar homologías comparando proteínas mejor que con AANN

 AANN 4 nt vs 20 aminoácidos en proteínas, la variedad y la información es mas rica


 El código genético es redundante: varios codones nos generan un aminoácido
 Muchas sustituciones son de un aminoácido por otro del mismo perfil (sustitución
conservadora y % similitud)
 Evolutivamente hay una tendencia a ciertas sustituciones, a que un aminoácido
concreto sea sustituido por otro grupo concreto de aminoácidos (matrices de
sustitución PAM, BLOSUM…)

ALINEAMIENTO MÚLTIPLE DE PROTEÍNAS


Proporciona información sobre:
1. Patrones y motivos conservados en una familia
2. Aminoácidos importantes funcionalmente (centro catalítico de la
enzima)
3. Relaciones filogenéticas
4. Ayuda a la predicción de estructuras secundarias y terciarias

El algoritmo:
Buscar la similitud, valorar la, darle un score, valorar los gaps. Podemos
obtener un alineamiento pairwise o un múltiplo. Podemos focalizarnos en
secuencias más cortas que se parezcan más o alineamientos globales. 

ALINEAMIENTO GLOBAL O LOCAL


Local: similitud exacta de residuos, o
que mantengan las propiedades
fisicoquímicas
Global: Mida diferente, se introducen
gaps. Aparean extremos u otras zonas.

El alineamiento múltiple (MA) mejora la


fiabilidad de las secuencias con poca
similitud. Se crean gaps forzosamente y
se alinean unos residuos concretos.

20
Alina Logina Bioinformática

PRINCIPALES MÉTODOS DE LOS ALGORITMOS


1. Exhaustivos (dinámicos): examinan todas las posiciones alineadas simultáneamente
una a una, necesita una matriz multidimensional de N dimensiones (N numero de
secuencias que estamos alineando). Es de las más fiables pero necesita mucha
memoria y mucha computación, ya que estos parámetros aumentan
exponencialmente con el número de secuencias. No se usa para más de 10
secuencias.
DCA (Divide and Conquer): Se corta en fragmentos las secuencias. Se hace la matriz
y luego se concatena. Semi-exhaustivo en la realidad ya que rompe las secuencias
en dos secciones más pequeñas.

La mayoría de los algoritmos de MA trabajan con pares de secuencia y no con todas


simultáneamente. Matriz para 3 secuencias:

 Estrategia del método DCA:

21
Alina Logina Bioinformática

2. Algoritmos heurísticos:
Son más rápidos, pero menos precisos. Existen 3 tipos:
 Progresivo: paso a paso
 Iterativos: parte de uno menos estricto. Inicia un alineamiento subóptimo y lo va
mejorando en siguientes iteraciones.
 En bloque: a diferencia de los anteriores, no es esencialmente global, busca
segmentos “en bloque” conservados para hacer el alineamiento

ClustalW
Comparación de pares progresivo guiado por árbol.
1. Alineamiento por pares (pairwaise): entre todas.
2. Se obtiene un árbol filogenético, no tenemos distancias evolutivas, solo similitudes.
3. Adición progresiva de secuencias según se parezcan más o menos. Obtenemos un
score del mulitalineamiento, sumando.
4. Puntuación mediante suma de pares.
5. Contrapesado de secuencias próximas: aplicamos unos factores, los mas
redundantes puntúan menos (tienen menos peso en la puntuación final). Estamos
corrigiendo las ponderaciones obtenidas.

Más detalles de ClustalW


 Utiliza el método de Needleman-Wunsch de alineamiento global.
 Permite elegir entre diferentes matrices de sustitución (automáticamente utiliza
(BLOSUM45 o PAM250 en etapas iniciales y BLOSUM65 o PAM120 para las finales).
 Permite ajustar la penalización de gaps.
 Aplica contrapesado en secuencias redundantes o próximas que de otra forma
dominarían el alineamiento.
Limitaciones:
 No adecuado para secuencias de diferente longitud debido al método de
alineamiento global (la penalización de “gap” no permite “gaps” largos que en
algunos casos seria necesarios).
 El orden de la adición de secuencias afecta al resultado final. Una vez fijados los
“gaps” en etapas iniciales quedan fijados.

22
Alina Logina Bioinformática

 Ajustar la penalización por “gaps” es un tema delicado


Una solo aliena los residuos y otra deja tantos gaps como sean necesarios para que
alineen todos los residuos posibles

COFFE Y T-COFFE
- COFFE: DNA, RNA y proteínas. (Consistency based Objective Function For Alignement
Evaluation): Algoritmo que mide la consistencia entre un multialineamiento de
secuencias y una librería que contiene alineamientos por pares de la misma
secuencia.
- T-Coffe: de proteínas. es un programa de alineamiento que utiliza la puntuación de
COFFE. Actualmente se ha extendido a un paquete con más posibilidades.
T-Coffe también utiliza el alineamiento global Needleman-Wunsch para cada par de
secuencias, y el árbol guía.

Ejemplo de contrapesado en T-Coffe. Extensión de librería.

Alineamiento global + Apareamiento local o en bloques de zonas cortas que alinean muy
bien
Con estos dos hace una suma: esquema de ponderación  librería primaria, extensión
buscando multialineamientos con secuencias parecidas y hace una librería extendida.
Si son muy parecidas en longitud, no veremos mucha diferencia. Será más informativo
cuanto más diferentes en longitud.

23
Alina Logina Bioinformática

La información estructural puede mejorar los alineamientos


Añaden información de la estructura secundaria que ayuda a los apareamientos.

Que permite el paquete T-coffe


Permite utilizar librerías de alineamientos de referencia que permiten contrapesar
positivamente la puntuación de regiones que se encuentran alineadas igual en otras
librerías (extensión de librería).
- Puede alinear proteína, ADN y ARN
- Permite combinar la salida de los métodos de alineación favoritos (Clustal, MAFFT,
ProbCons, Múscle ...) en una única alineación (M-Coffe)
- Permite combinar la información de la secuencia con la información estructural de
proteínas (3D-Coffee/Expresso), la información de perfiles (PSI-coffe) o estructuras
secundarias de ARN (R-coffe).

Algunos servidores para T-Coffe


- SIB (http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/tcoffee_cgi/index.cgiwww.tcoffee.org
- CRG
- CNRS
- EBI
- Max Plank
- Cornell
- CRS4

Alineamiento estructural
Estos alineamientos intentan establecer equivalencias entre dos o más estructuras de
polímeros basándose en su forma y conformación tridimensional.
El alineamiento estructural puede usarse, por lo tanto, para sugerir relaciones evolutivas
entre proteínas que comparten una secuencia común muy corta.

24
Alina Logina Bioinformática

Tres estrategias:
- Rígida
- Flexible
- Elástica

- Dali
- Vast

Alineamiento estructural: distance matrix


- Similar a dot-plots
- Se hace un gráfico por proteïna
Cada posición en la grilla corresponde a la distancia entre los átomos Calfa
correspondientes
Las regiones con más alta densidad de átomos se resaltan dibujando un punto (<
12A)
- Se comparan las estructures a través de estos gráficos
DALI. (Distance Alignment Tool)

VAST
- Compara los tipus y ordenamientos de hèlices alfa y hojas ß entre y las maneres en
que están conectadas
Pocos tipus de elementos de estructura secundaria
- La localización y dirección de estos elementos se describen con vectores

25
Alina Logina Bioinformática

TEMA 6. PREDICCIÓN DE LA FUNCIÓN DE PROTEÍNAS:


IDENTIFICACIÓN DE HOMÓLOGOS REMOTOS, MOTIVOS,
DOMINIOS Y FAMILIAS PROTEICAS
La informació més bàsica d’una proteïna: seqüència o estructura primària. A partir d’una
única seqüència es pot alinear amb d’altres i veure la similitud. Se’n poden extreure
moltes conclusions a partir de l’anàlisi.
Volem conèixer la seva estructura (secundària i terciària) i la seva funció. Podem arribar
a conèixer aquestes característiques a partir de la seva seqüència (DNA o traduït)?
Aprendrem a inferir.

Perquè es interessant la búsqueda d’homolegs remots (que s’assemblin però llunyans)?


- Permet situar els residus funcional y estructuralment importants (Leu zipper)
- Permet establir relacions filogenètiques, de parentesc evolutiu
- Permet classificar (en funció de certs paràmetres o semblances que trobem).
- Noves proteïnes identificades poden ser classificades segons la seva similitut a les
famílies conegudes i predir la seva funció

Dificultats: BLAST de proteïnes, com busca seqüències tan semblants, no podem trobar
coses llunyanes poc semblants (no te cap criteri per mantenir el no semblant). No és una
bona eina.

Paràlegs: ribonuelceases o alcoholdeshidrogenases

Important a l’hora de cercar les diferencies, similituds, i saber quin programa utilitzem

Homologia, similitud, identitat, analogia


- Homologia: proper o llunyà però no pots donar un valor. Més d’un 40% d’identitat
(sinó son anàlegs) i tenen la mateixa funció. Origen evolutiu comú. No és
quantificable, son homòlegs o no.

26
Alina Logina Bioinformática

- Homòleg remot: han divergit tant que només tenen un 25% de identitat, però
segueixen tenint la mateixa funció. No podrà alinear, però si a nivell local. La
similitud dels dominis funcionals (alineaments locals) és superior a la similitud de la
seqüència completa (alineament global).
- Analogia: no son similars, però han convergit per tenir la mateixa estructura o
mateixa funció, o similars. No tenen origen comú (seqüències no relacionades).
Analogia estructural o analogia funcional.
- Identitat: % que reflecteix com és d’igual una seqüència amb una altra.
- Similitud: comparteixen característiques fisicoquímiques dels aa (bàsics, polars,
hidrofòbics...)

Conceptes importants
- Motiu: no són una unitat funcional. Si son molt divergents, poc semblants no hi
haurà molta identitat. Però seqüències curtes (centre actiu...) es poden mantenir i
això son motius, es conserven al llarg de la seqüència global. És una regió curta,
similar o idèntica.
Si observamos un alineamiento múltiple de proteínas homólogas veremos que
algunas columnas varían bastante, mientras que otras están más conservadas.
Cuando observamos ciertas columnas cercanas con una alta conservación, es decir,
cuando encontramos trocitos de las secuencias que se conservan más que otros y
que podrían caracterizar funcionalmente a las proteínas, entonces solemos hablar
de MOTIVOS.

- Domini: han de ser similars però es una unitat estructural independent, relacionat a
una funció concreta. El domini similar tindrà la mateixa estructura.
El concepto de dominio define una unidad estructural independiente en las
proteínas. Sin embargo se utiliza con cierta laxitud: por ejemplo, en estudios
genéticos de deleción a veces se utiliza como sinónimo de la parte mínima de la
secuencia capaz de realizar la función estudiada. En las bases de datos de dominios
como PFam, un dominio se suele corresponder con el núcleo del dominio
estructural, aquella zona más similar entre todas las proteínas de una familia,
aunque no tiene por qué coincidir exactamente con los límites del dominio
estructural.

Dos mètodes per descriure i localitzar motius:


- Expressions regulars o patrons: expressions regulars curtes y concretes que
permeten caracteritzar els motius. Permet identificar els residus basics, molt
importants per una estructura, pels quals si mutessin, la funció o l’estructura
variaria.
- Creació de perfils: perfil expressat com una matriu de substitucions, probabilitat de
que aparegui un residu x, es crea una matriu n per la freqüència d’aparició dels
residus en el multialineament realitzat. No només considera que la posició sigui
idèntica, també te en compte les propietats.

27
Alina Logina Bioinformática

Patrons regulars
En un alineament veiem que hi ha unes posicions conservades 100%. D’altres es
conserva la propietat i això es defineix com un patró.
Escrivim la seqüència consens de la següent manera, es veu més endavant.

Característiques:
Són seqüències molt curtes (10-20 residus, més grans serien dominis), es defineixen
mitjançant una seqüència consens, poden definir llocs de PTM (fosforilacions,
glicosilacions...) o motius funcionals (unió al DNA...), es poden utilitzar per caracteritzar
certs motius, una família proteica pot tenir més d’un patró i el PROSITE és la base de
dades que utilitza patrons per definir diferents motius: centres actius, llocs de
modificació postraduccional, d’unió a lligand...

Jeràrquicament: patró  motiu  domini (unitats funcionals i estructurals)

Com s’expressen els patrons:


la lletra de l’aminoàcid 100% idèntic si apareix en totes les seqüències i entre parèntesis
si es repeteix més d’una vegada (2)
si es un residu que no es repeteix, es qualsevol, a partir de 5-6 són molts, posem una X
Si hi ha una repetició d’aminoàcids però no és qualsevol (entre 4-5), tenen les mateixes
característiques
fisicoquímicuqes, posem les
seves lletres entre claudàtors []
Aminoàcids que no poden estar-
hi, posem corxets {}

28
Alina Logina Bioinformática

WebLogo
Si tenim 100 seqüències. En quina freqüència poden aparèixer els residus que poden ser
intercanviables?
WebLogo ens dona un gràfic de la seqüència i de la freqüència de cada aminoàcid.

Avantatges:
- Rápido y fácil de implementar (búsqueda rápida en bases de datos de las regiones
más conservadas)
- Fácil de entender para el usuario

Limitacions:
- Dificultats en definir-los (a part dels que es idèntic, la resta és una mica ambigu), són
molt estrictes (en homologies remotes es difícil de definir o detectar) i no reconeix
homologia remota (per la identificació, necessita concordança exacta amb el patró)
- No considera les insercions ni les delecions perquè s’han de alinear les mateixes
posicions.
- Si són molt curts pot donar a falsos positius, que es donin per pura probabilitat
- Es difícil tenir un patró per seqüències llargues, no pots tenir masses X perquè no
seria un patró
- No ens dona cap mena de Score, no podem saber com de bo ha sigut el patró
- Identificació de motius curts (significatius) o centres actius  funció biològica
- Descripció de motius de forma senzilla

Models estadístics que reflexen la freqüència de l’aparició d’un aminoàcid o nucleòtid


en un alineament múltiples
Surgeixen mètodes de comparació de seqüències per la búsqueda d’homologies:
- PSSM (position-specific scoring matrices)
- Perfils, equivalent a matrius PSSM i afegeixen informació de penalització de
inserció/deleció, com PSI-BLAST
- Model de Markov ocult (HMM): models estadístics de l’estructura primària de les
seqüències. Dona certes probabilitats d’aparèixer

Perfils PSSM
Matriu de substitució específica per a cada posició (PSSM= position specific scoring
matrix).
Tenim unes seqüències de 6 aminoàcids. Es crea una matriu. A cada posició per cada
aminoàcid es posa quantes vegades apareix en u per cent.
Normalitza les freqüències. Aplica el ln en base 2. A partir de la matriu resultant, això és
el perfil. Es fa el càlcul, es pot aplicar qualsevol seqüència i comparar per saber si
s’assembla molt o poc gràcies a un Score final. Ens considera la freqüència d’aparició de
cada aa i comptabilitza tots els residus. Comparem seqüències homòlogues remotes.
PROSITE utilitza patrons perfils.
En base a un perfil, ens dona una certa puntuació i sabrem si son homòlegs llunyans.

29
Alina Logina Bioinformática

A partir del alineamiento múltiple se construye dicha matriz teniendo en cuenta la


frecuencia de los aminoácidos en cada posición así como sus propiedades físico-
químicas (combinación información MA y de una matriz tipo BLOSUM). En lugar de una
secuencia consenso tenemos una matriz de frecuencias.

30
Alina Logina Bioinformática

Exemple de puntuació

Avantatges
- Es generen automàticament i són més fiables que els patrons
- Permet incloure insercions i delecions
- Identifica la seqüència completa del domini (no només la regió més conservada)
- Permet detectar homòlegs remots (baixa conservació de seqüència)
- Millora la predicció de característiques estructurals
- Proporciona una puntuació (Score)

Limitació
- Interpretació és menys intuïtiva en relació a la dels patrons
- Base estadística pobre (matriu de freqüències però no es consideren altres
probabilitats)

PSI-BLAST (o Position Specific Iterated BLAST)


Altres tipus de BLAST busquen el màxim d’idèntic possible,
no es poden trobar seqüències relacionades evolutivament
però llunyanes.
Posem una seqüències i ens busca els homòlegs més
propers per identificar-la, fa una matriu interna i amb
aquesta matriu addiciona homòlegs que poden ser més
divergents a partir dels Scores, però tindrà un límit.
Aquesta addició de seqüències noves per comparar és un
procés iteratiu, no és absolut, es pot tornar a recalcular a
partir de les noves seqüències, es busquen homòlegs
encara més llunyans que en la primera vegada no podíem
haver trobat però després de recalcular, es poden arribar a
trobar.

31
Alina Logina Bioinformática

Aplicacions: Es poden veure les conservacions que es poden o no mutar, etc.


Realiza un BLAST con una secuencia y a partir de los resultados, se construye un perfil o
PSSM. Entonces, la siguiente búsqueda la realiza con este perfil, el que permite
encontrar nuevos homólogos (lejanos). Con estos nuevos homólogos se genera un perfil
el cual, idealmente, contendrá una mayor cantidad de información y podrá realizar otra
búsqueda. Es un proceso iterativo.

Model de Markov ocults (HMMs: hidden Markov model)


Considera les probabilitats dels aminoàcids, és un mètode estadístic. Considera els
probabilitats d’inserció i deleció que no tenien en compte els perfils.
En totes les posicions es considera una o més insercions de residus, li dona un valor. Una
o més delecions entre els residus i li dona un valor. És més complex.
Compuesto por una serie de estados (uno de los 20 aminoácidos) con una probabilidad
como en los perfiles. Los estados están conectados secuencialmente con probabilidades
de transición entre ellos.

Per una seqüència poden


haver-hi diversos camins. Es
busca el millor. El valor que
tenim és el resultat de
considerar totes les insercions
o delecions, incorpora la
probabilitat de que hi hagi
insercions i delecions.

32
Alina Logina Bioinformática

- Millor base estadística que els anteriors


- Major poder predictiu, ens podríem estar perdent coses similars però com hi havia
insercions no ho veiem
- Pot ser utilitzat una vegada entrenat amb seqüències properes per identificar
homòlegs llunyans
- Classificació de famílies de proteïnes però també per la predicció de promotors de
gens, de predicció de plegament...
- Només treballem amb PSI-BLAST però hi ha més.

Bases de dades (HMM):


- Pfam per motius i dominis
Perfils dels HMMS, si poses una seqüència, identifica el domini que pot ser.
Es una base de datos compuesta por los perfiles HMMs obtenidos para distintos
dominios o regiones conservadas de proteínas.
Contiene múltiples alineamientos de proteínas y perfiles-HMMs de esas familias de
proteínas. Es una base de datos semiautomática, cuyo objetivo es ser completa y
exacta.
Tiene dos partes pfamA, construida manualmente, y pfamB que se genera
automáticamente a partir de los perfiles que contiene ProDom.

- PROSITE
Identifica la seqüència, quina és, quin és el domini, quina funció té...
Es una base de datos que contiene información detallada sobre todos los motivos
de secuencia de proteína conocidos. Permite buscar patrones de una proteína, o con
un patrón determinado buscar proteínas que lo contengan.

Otras bases de datos de búsqueda de patrones, perfiles y HMM


- ProDom: Es una BD de dominios de proteínas generado automáticamente desde
SWISS-PROT y TrEMBL, consiste en una compilación automática de dominios
homólogos. Construido utilizando un procedimiento mejorado basado en PSI-BLAST.
- BLOCKs: Es una base de datos compuesta por pequeños segmentos de
alineamientos múltiples correspondientes a entradas en PROSITE. De hecho BLOCKS
es un sistema de detección de motivos más que una base de datos propiamente
dicha. Utiliza PSSM.
- PRINTS: La base de datos PRINTS es similar en concepto, pero se usa para descargar
bloques llamados "huellas dactilares", fingerprints. Ha sido recientemente incluido
como un servicio on-line de BLAST y un software de búsqueda, proporcionando
mayor eficacia y mejora estadística para la estimación de la seguridad de las parejas
recuperadas. Es un grupo de motivos conservados para caracterizar una familia de
proteínas.
- SMART: alineamientos refinados manualmente. Utiliza PSI-Blast y HMM.

Pratt: cercador automàtic de patrons de proteïnes que nosaltres introduïm.

33
Alina Logina Bioinformática

Bases de dades integrades


- InterPro: poses la seqüència i et dona tota la informació que acabem d’estudiar. La
interpretació és més fàcil. Integra la información simultáneamente de PROSITE,
Pfam, PRINTS, ProDom y SMART.
Muestra información gráfica indicando los dominios y motivos encontrados, junto a
enlaces con más información.
- CDART (conserved domain architecture): combina resultados de RPS-BLAST, SMART,
y Pfam
- CDD: integra SMART, Pfam y COG.

34
Alina Logina Bioinformática

TEMA 7. PREDICCIÓ DE L’ESTRUCTURA SECUNDÀRIA DE


PROTEÏNES
Predicció de característiques a partir de la seqüència.
Determinar els paràmetres fisico qumics per seqüències proteiques.
Base de dades  ProtParam podem saber el pes molecular, el pI, la composició d’aa, la
composició atòmica, el coeficient d’extinció molar, la vida mitja estimada, l’índex
d’inestabilitat, l’índex alifàtic, coeficient d’hidrofobicitat

Possibles estructures secundàries


El primer que l’hem de dir, es
classificar les estructures
secundàries. Li hem de donar
uns paràmetres per predir
l’estructura secundària,
quantes més dades, menor
error.

Alfa-hèlix

35
Alina Logina Bioinformática

Fulla beta
 Cada enlace peptidico es planar y tiene configuracion trans.
 Los grupos C=O y N-H de los enlaces peptidicos de cadenas adyacentes (o de
segmentos adyacentes de una misma cadena) estan en el mismo plano apuntando
uno hacia el otro, de tal forma que se hace posible el enlace de hidrogeno entre
ellos.
 Los puentes de hidrogeno son mas o menos perpendiculares al eje principal de la
estructura en hoja plegada.
 Todos los grupos R en cada una de las cadenas alternan, primero arriba del eje de la
lamina, despues abajo del mismo, y asi sucesivamente.

Gir beta
Seqüències
adjacents, tipus 1
o tipus 2.

Llaços o loops
Seqüències curtes
que uneixen
seqüències
secundàries però
no tenen una
estructura.

36
Alina Logina Bioinformática

Utilitat de la predicció de l’estructura secundària


- Clasificación de proteínas e identificación de dominios y motivos funcionales
(estructura↔función).
- Guiar en l’alineament seqüències relacionades però divergents  Expresso
- Paso previo a la predicción de estructura terciaria

Predicció d’estructura de proteïnes globulars


Hay 4 tipos:
1. Análisis estadístico (ab initio) (también llamados métodos probabilísticos)
2. Análisis basados en el conocimiento de relaciones de homología
3. Machine-learning methods: entrenan a una red neuronal.
4. HMM: son particularmente eficaces a la hora de predecir estructures
transmembrana

Métodos basados en el análisis probabilístico de la secuencia (ab initio-based)


La predicción se hace a partir de la secuencia que se analiza (una secuencia). Se basa en
la media de propensión de cada aminoácido a pertenecer a un tipo de estructura
secundaria. Sus características ya hacen que sean más o menos propensos a estar en un
tipo de estructuras secundarias.
 Metodo de Chou-Fasman: algoritmo con la
probabilidad de aparición, se analizan y si hay un
conjunto de más de 5, se hace la predicción de
que corresponderá a ese aa.
Podemos tener tablas que solo tengan en cuenta
las características fisicoquímicas y, por lo tanto,
variará. Los extremos alomejor se mantendrían,
pero el resto seria diferente. Podemos tener
tablas también con valores experimentales. Lo
ideal es tener en cuenta todos estos parámetros.

 Métodos basados en la homología


Desarrollados a finales de los 90s
Combinan predicción de secuencias
individuales, y del alineamiento múltiple de
secuencias homólogas (>35% de identidad). Ex:
GORV, Zpred, PREDATOR se desarrollaron.
Necesitaban bases de datos que puedan hacer
alineamientos múltiples, el primero fue Clustal.
Luego también usaban T-Coffe.
Los problemas que implica es que tienen que
haber secuencias homólogas, tienen que haber
suficiente y el % de identidad tiene que ser
mayor a 35%.

37
Alina Logina Bioinformática

Predicción con redes neuronales (machine-learning methods)


La red puede “aprender” y hacer predicciones después de ser entrenada.
El algoritmo tiene capacidad para captar la relación entre secuencia y estructura para
después aplicarla como método de predicción.
Primero hace un BLASTP, buscar lo más parecido, luego hace un
perfil de homología. Luego hace un filtrado o análisis por 3 capas.
La primera predicción con ventanas de 13 residuos, las analiza y
como consenso mira la estructura secundaria que le
correspondería. Luego hace lo mismo, pero con una ventana de 17
residuos. Este aumento de la ventana, puedes ver lo que hay
adyacente, loops… para hacer un refinamiento.
Hace un consenso de todo en conjunto y da un resultado.
Entrenada con alineamientos múltiples la precisión de la predicción
de estructuras esta por encima del 75%.
 PHD (profile networf from Heidelberg), PSIPREDd, PROF

Predictores con redes neuronales:


- PSIPRED: perfiles derivados de PSI-Blast+ neural network
(http://bioinf.cs.ucl.ac.uk/psipred/)
- PROF (protein forecasting): PSI-BLASt + neural network.
(http://www.aber.ac.uk/~phiwww/prof/)
- SSpro: PSI-BLAST+ advanced neural network (biderectional recurrent neural
networks (BRNNs) (http://download.igb.uci.edu/sspro4.html)
- PORTER: PSI-BLAST + (BRNNs)

Comparación con diferentes predicciones


Ejemplo:
X-ray es la estructura tridimensional real.
Alfa hélix en rojo, hojas beta en azul
Si las comparamos, llegamos a la conclusión de que son buenos para hélices alfa, y no
tanto para las hojas beta. Hay ciertas regiones, las cortan, que no predicen o no muy
bien, como por ejemplo la primera, que ninguna predicción la determina.
Este es el problema, que no podemos llegar a saber con cuanta fiabilidad.

Predicción con múltiples métodos


- Jpred
- PredictProtein
Es un convenio de todas las predicciones, integran todas las predicciones. Se supone
que, al implicar toda la información, son más fiables. Podemos hacer un criterio de
cuanto nos podemos fiar.

38
Alina Logina Bioinformática

Casos particulares. Predicción en proteínas transmembrana


Podemos tener todo alfa o todo beta, pero saber que es de membrana es más difícil.
Tienen que incorporar otras propiedades que no habíamos tenido en cuenta. La mayoría
de las proteínas de membrana no tienen resulta su estructura porque para purificarla
eliminamos la bicapa y es en esta condición en la que tienen su estructura. Además, son
muy abundantes (Constituyen hasta el 30% de la proteínas de la célula). Difíciles de
obtener su estructura por cristalografía y RMN.
Fáciles de predecir: el interior de la proteína tiene que ser hidrofílico y el exterior
hidrofóbico. Como el interior de la membrana es hidrofóbico, se puede esperar que los
residuos localizados en el interior de la membrana sean apolares.

Hay dos tipos:


- Proteínas con hélices- alfa transmembrana
- Proteinas con barril-ß

Proteínas de membrana con hélices alfa


No tendrán cualquier longitud, se encuentra sobre los 17-25 residuos
(distancia para pasar la bicapa), separadas por lazos hidrofílicos de
menos de 16 residuos, cortos que unen las alfa hélices. Los residuos
limítrofes de los dominios transmembrana son de carga positiva (+) 
regla del interior positivo: los residuos de la cara citosólica cerca del
inicio hélice transmembrana son más positivos que los del lado lumenal
o periplásmico.

Predicción de proteínas transmembrana con hélices-halfa


Los mejores programas combinan rastreo de valores de hidrofobicidad, la regla de
positivo dentro, información evolutiva obtenida con redes neuronales y HMM.
- TMHMM: con el sistema de probabilidad, si la probabilidad es de 1, y se cumplen las
características, lo predicen.
Algoritmo HMM, entrenado con mas de 160 proteínas de membrana. También útil
para diferenciar proteínas de membrana de proteínas globulares.

- Phobius: diseñado para detectar falsos positivos. Las proteínas con péptido señal
(hidrofóbico, puede ser alfa heliz) pueden ser reconocidas como transmembrana. Es
mejor que el inicial y que pasa a un acierto del 70% al 94%.
Con Polyphobius busca en la base de NCBI homólogos de la secuencia problema que
ayuda a derivar la predicción consenso (consume más tiempo).

Proteínas con barril-ß


No pueden estar las hojas planares insetadas, tienen que ser un barril. Los barriles β son
grandes hojas β antiparalelas enrolladas que forman una estructura cilíndrica.
En la secuencia los residuos hidrofóbicos aparecen cada dos posiciones, de modo que el
exterior del cilindro (en contacto con el interior de la bicapa lipídica) es apolar y el
interior es polar.
Las estructuras β transmembrana están flanqueadas a ambos lados de la membrana por
residuos aromáticos.

39
Alina Logina Bioinformática

Predictores (pocos porque hay pocas características que tener en cuenta):


- PRED-TMBB
- Boctopus
- TBBpred

Predicción de coiled-coil
Hay un nivel superior de información, son importantes porque pueden estar en la matriz
extracelular… Hacen interacciones que se tienen que considerar.

- Consisten en dos o más α-hélices enrolladas en torno a un eje común.


- Se pueden encontrar tanto en proteínas transmembrana como en proteínas
intracelulares, por ejemplo, Keratina, miosina II, fibrina.
- Facilitan interacciones inter e intraproteicas.

Aparecen repeticiones en tandem de 7 residuos (héptadas) en los que el residuo 1º y 4º


son hidrofóbicos, y el resto hidrofílicos. Esta disposición hace que al enrollarse las hélices
entre sí, los residuos a y d formen una "costura" hidrofóbica que recorre toda la longitud
de la hélice y le imprime una torsión por su destacada tendencia a evitar contactos con
el disolvente. Los algoritmos que predicen estas estructuras se basan en estas
preferencias conformacionales.

Son heptámetros y, mayoritariamente, en la a-a’ y b-b’, son residuos hidrofóbicos, se


forma una cremallera muy estable que mantiene la hélice alfa, como queratina y fibrina.
Los residuos g-e’ y g’-e, forman puentes salinos. Si se repite el residuo de Leu, se le llama
cremallera de leucina. Cuando las posiciones a y d son residuos de leucina, este motivo
se denomina "cremallera de leucina" y se encuentran frecuentemente en las proteínas
que se unen al DNA.

40
Alina Logina Bioinformática

Programas:
- Coil: ventanas de 14, 21 o 28 residuos, compara con la matriz de probabilidad de
estructuras conocidas. Bastante preciso en coiled-coils levogiros expuestos al
solvente.
- Multicoil: Utiliza matriz de puntuación basada en datos de ovillos enrrollados de 2 o
3 cadenas.

Predictores de plegamiento
Las mal plegadas se relacionan con enfermedades como Alzheimer, Parkinson…
Bioinformatic tools that: capture the sequence-specific determinants of protein
aggregation and performed an analysis on the impact of aggregation on disease-
associated

 FoldIndex: coge una secuencia


y te dice si esta bien plegado (en
verde) o mal plegado (en rojo).
FoldIndex es un proceso dinámico
e iterativo que estima la
probabilidad local i general de una
secuencia específica de plegarse,
según el cálculo de energía.

 Predicción de la agregación: se una cierta región tienen una alta probabilidad de


agregar, y puede iniciar esta agregación. Region diana para los fármacos. Aggrescan

 Predicción de regiones amiloides en la secuencia: regiones cortas con estructura beta


con alta probabilidad de agregar. Waltz.

 Predicción de priones: PrionScan

41
Alina Logina Bioinformática

TEMA 8. ANÁLISIS Y PREDICCIÓN DE LA ESTRUCTURA


TRIDIMENSIONAL DE PROTEÍNAS
 Métodos de predicción de estructura terciaria.
 El banco de estructuras PDB.
 Observación y manipulación de estructuras.
 Alineamiento estructural: DALI, VAST.
 Clasificación estructural de dominios de proteínas: SCOP, CATH.

Las estructuras resueltas no son muy abundantes. El histograma nos dice el número de
estructuras resueltas en cada año. Miramos el banco de estructuras (PDB), como
podemos trabajar con estas estructuras. Si tenemos dos estructuras homologas, de dos
especies, ¿cuál es el grado de solapamiento? Tenemos dos maneras: DALI y VAST.

MÉTODOS DE PREDICCIÓN DE LA ESTRUCTURA TERCIARIA


 Modelación por homología (homology modeling): Si la similitud es mayor al 30% un
alineamiento de secuencias puede utilizarse para llevar a cabo un alineamiento
estructural.
 Enrollamiento (threading): Hay familias de proteínas con plegamientos específicos.
Se busca cual es la familia con la que encaja mejor el núcleo de la proteína
 ab-initio: Se trata de predecir la estructura a partir de los valores de las interacciones
atómicas.

Modelación por homología


Pasos a seguir en la modelación por homología
• La aproximación más precisa para homólogos cercanos.
1. Reconocimiento del molde y alineamiento inicial.
2. Corrección del alineamiento de secuencia
3. Generación de la cadena principal
4. Modelado de lazos
5. Modelado de las cadenas laterales
6. Optimización del modelo utilizando funciones de energía.
7. Evaluación y validación del modelo (ANOLEA, Verify3D…etc)

Actualmente hay programas que pueden hacer todo el proceso automáticamente si la


identidad de secuencia en >40%: Modeller, Swiss-Model, 3D-JIGSAW

Predicción: Enrollamiento (threading)


HILADO Y RECONOCIMIENTO DEL PLEGAMIENTO (threading).
Para proteínas que no tienen homologas depositadas en el PDB
Predice el plegamiento de la proteína mediante su encaje con una base estructural, por
coincidencia en estructuras secundarias y criterios de energía, seleccionando la que
mejor encaja.
Puede identificar proteínas similares estructuralmente, incluso sin conservación de
secuencia.

42
Alina Logina Bioinformática

No genera un modelo atómico refinado, sino una aproximación a la topología general


de la estructura nativa.
Diferentes programas que utilizan este sistema: 3D-PSSM, GenThreader, Fugue…etc.

 Distribución de arquitecturas de dominios

43
Alina Logina Bioinformática

 Descripción de la red neuronal implementada en GenTHREADER

Predicción Ab initio
 Se basa en que en la secuencia de la proteína
reside la información sobre su plegamiento.
 La predicción no esta restringida a
plegamientos conocidos y puede encontrar
otros plegamientos.
 Bastante poco preciso, debido al
desconocimiento general de las reglas de
plegamiento.
 Los algoritmos buscan el principio de la
mínima energía global.
Programas que lo usan: Rosetta…etc

44
Alina Logina Bioinformática

Bases de datos PDB


 Archivos PDB.
 Bases de datos PDB.
 Visualización PDB.
 Análisis:
o Comparación de estructuras
o Clasificación de estructuras

Archivos PDB
PDBid: 4 caracteres (A-Z) o dígitos (0-9) como 1LYZ y 4RCR.
 Encabezamiento con información de la estructura y su calidad. El nombre de la
molécula, organismo de origen, resolución parámetros cristalográficos, secuencia,
cofactores…
 La parte ATOM se refiere a los átomos de la proteína, mientras que HETATM a los
del cofactor o sustrato.

Ejemplo:

Bases de datos d estructuras proteicas (PDB)


Contiene las coordinadas espaciales x,y,z de cada átomo de la estructura proteica.
 Cada estructura proteica es introducida en la base PDB como condición para su
publicación
 Base gestionada por RCSB (research collaboratory for structural bioinformatics)
 La WEB de PDB permite la sumisión de datos y su búsqueda, obtener información
resumida sobre la estructura, búsqueda de vecinos estructurales, acceso a
bibliografía…etc.
 Hay alta redundancia
(800 plegamientos vs ~ 1000000)

45
Alina Logina Bioinformática

 Las estructuras PDB en bases de datos pueden tener errores.


 Algunas estructuras depositadas en bases de datos como el PDB pueden tener
errores, los cuales pueden ser menores o típicos (la estructura es en general correcta
pero tiene algunos errores aleatorios experimentales) o serios (cadena polipeptídica
incorrecta, asignación de estructura secundaria incorrecta, conexión equivocada de
los elementos de la estructura secundaria).
 Para modelación se requiere escoger moldes de buena calidad (resolución < 2Å,
Factor R < 0.2).

Tipos de pruebas de validación


Características estereoquímicas de la proteína (Procheck, What If).
 Contactos entre residuos (What if, Probe).
 Parámetros energéticos y campos electrostáticos (Potencial de Campo de Fuerza,
Energía Optimizada Discreta de la Proteína-DOPE) (ProSa-II, Modeller).
 Pruebas de ajuste entre modelos (RMSD).

Visualización
Las coordenadas cartesianas pueden generar una imagen tridimensional mediante
programas especializados.
Ello permite:
- manipulación de la estructura por modelado
- ajuste de un ligando en el centro activo (Docking).
- Análisis de las cavidades y superficie de la proteína
- Proposición del mecanismo de actuación (especialmente en enzimas)

Programas de visualización: RasMol, Swiss-PDBViewer, Molscript, Ribbons, Crasp,


WebMol, Chime, Cn3D…etc.

Comparación de estructuras
 Método intermolecular:
Para estructuras similares. Una estructura es movida respecto a la otra hasta encontrar
el máximo solapamiento.

46
Alina Logina Bioinformática

A. Las dos estructuras tienen diferente posición en el


espacio. Las posiciones equivalentes son
identificadas por alineamiento de secuencia.
B. Una estructura es desplazada respecto a la otra para
su superposición (translación)
C. Se rota la estructura de una de las proteínas hasta
que las distancias relativas de las posiciones
equivalentes son mínimas

 Método intramolecular:
Se basa en la estadística estructural interna y no dependen de la similitud entre las
proteínas comparadas.
No superimpone las estructuras.
Comparación de estructuras
Funciona generando una matriz de distancia entre los residuos de la misma proteína.
Son las matrices de cada proteína las que son comparadas y solapadas.
Patrones de distancia intramolecular similares corresponden a regiones de
plegamiento similar.

Algunos programas de comparación estructural.


- DALI:
 Determina la distancia intermolecular.
 Utiliza un valor de significación estadístico llamado puntuación Z (número de
desviaciones estándar de la puntuación media obtenida por la distribución
basal de la base de datos).
 Empíricamente Z>4 indica una similitud estructural significativa
- VAST:
 Utiliza comparaciones inter- e intramoleculares.
 La superposición se realiza basándose en la direccionalidad de elementos de
estructura secundaria.

47
Alina Logina Bioinformática

Clasificación estructural de proteínas


Los sistemas más populares son:
– SCOP (structural classification of Proteins):
• casi enteramente por examinación manual.
• 4 niveles de clasificación (Clase, plegamiento, superfamilia, familia)
– CATH (Class architecture topology and homologous)
• Alineamiento automático y manual.
• Los dominios estructurarles son clasificados en 5 niveles (clase, arquitectura,
plegamiento/topología, superfamilia y familia.

Ejemplo:

48
Alina Logina Bioinformática

Clasificación con CATH

Niveles jerárquicos SCOP

49
Alina Logina Bioinformática

Niveles jerárquicos CATH

Si has llegado hasta aquí, eres un campeón/a porque madre mía!!!!!

50
Si volem resoldre una estructura tridimensional, hem de buscar la seqüència de la proteïna, aïllament de la
proteïna (mitjançant expressió del gen en un bacteri: clonatge, transformació, disrupció, purificació) pura i
concentrada. Es purifica la proteïna (uns quants passos segurament). Després, fem la tècnica de la gota
penjant per cristal·litzar. Si és una proteïna que no s’ha resolt mai, no sabem les condicions òptimes de la
cristal·lització, per tant, n’haurem de provar moltes. Quan trobem el cristall el sotmetem a un feix d’electrons
(sincrotró) i obtenim un mapa de densitat electrònica (transformació de Fourier). A partir dels softwares
obtenim les coordenades i obtenim el pdb.
Pot ser que passin 4 coses:
- Que el cristall sigui de sala llorar a la lloreria
- Que el cristall es trenqui  a llorar a la lloreria
- Que el mapa de difracció sigui una basura  a rajar-se las venes
- Que surti bé 

Si anem a l’apartat d’estructura d’una proteïna a l’UniProt, ens podem trobar proteïnes que encara no
presenten estructura, mentre que les proteïnes força estudiades sí que en presenten moltes (DHFR, per
exemple). Alhora, si ens fixem en els links, en trobem 4 diferents que corresponen a diferents servidors: 3
nodes (EEUU, Europe, Japó) + sum. Cada nòdul té el seu tipus de base de dades però es nodreixen del
mateix lloc, és a dir, hi ha la mateixa informació a tot arreu però presentada de manera diferent.

Criteris per escollir l’estructura amb la que es treballarà:


- El mètode (RMN o raigs X en aquest cas): veure quin mètode ens dona info més completa o més fàcil
d’analitzar, precisió, l’estat de la mostra a analitzar: en rajos X les proteïnes fluctuen, però només es veu
una posició, en canvi amb RMN podem veure aquestes fluctuacions, ens dona info del dinamisme de la
proteïna.
- La resolució: cada una en presentarà una de diferent. Sempre triarem la resolució més petita (la millor).

Al PDB podem veure l’estructura de la proteïna amb diferents lligands: cofactors, inhibidors, substrats...,
diferents mutants, etc. D’entre totes aquestes estructures possibles hem de trobar la que més ens interessa.
Per tant, hi ha tants pdb perquè hi ha moltes maneres d’estudiar les proteïnes: raigs X, RMN, Cryo-EM + unió
de lligands + variants mutants...

Per cada PDB hi ha un codi (típic letritas i tal), un arxiu PDB és:

Aquí trobem tota la info de la proteïna, estructures, angles, lligands... Però aquí no veiem pas res, llavors
necessitem un visualitzador (3D view al mateix PDB, rasmol, jmol, pymol –great memories-, etc.).
Si anem al PDB d’EEUU (RCSB PDB):

A annotation trobem dos tipus de classificacions estructurals: SCOP o CATH.


- SCOP: classifica en 4 nivells: classe, plegament, superfamília i família.
La majoria de classificacions són manuals.
- CATH: classe, arquitectura, plegament, superfamília i família.

A experiment trobem totes les condicions i paràmetres que s’han fet servir per l’adquisició de les dades, tota
la informació relacionades amb la cristal·lització de la bebé.

A sequence trobem la representació de les estructures secundaries i tal.

A genome trobem la info corresponent al gen de la proteïna.

El PDB sum (Europeu), ens mostra els mapes de Ramachandran, que


segons el color que tingui la regió seran angles Phi o Psi permesos. Hi haurà
tants punts com aminoàcids hi hagi en la seqüència, perquè són una
combinació entre els 2 angles de l’enllaç peptídic. El mapa ens indica la
qualitat del cristall, ja que detectarem errors en l’anàlisi de l’estructura si
trobem angles que no són possibles a la natura, ens mostraria l’error.

Pestanya protein  info sobre estructura secundària (pestanya protein):

Pestanya ligands  info sobre els lligands (el verd són ponts H, tampoc ho veuré pk sóc rata i imprimeixo en
blanc i negre)

Clefts hendiduras on es col·loquen els substrats


Comparació d’estructures tridimensionals
Tenim dos sistemes:
- DALI: determina distància intermolecular entre les dues cadenes, calcula la posició que permet que hi
hagi menys distància entre les dues estructures Z>4 estructures similars.
Pot comparar una estructura respecte un conjunt de prot que tinguin el mateix plegament i fer un pairwise
un a un. Per fer el pairwise, posem el PDB de cada proteïna -i la cadena- que volem comparar (per ex:
1BOZ + cadena A  1BOZA). Un score més gran del 4% es bo.

- VAST: comparació vectorial, traça trajectòries d’estructures secundàries, aleshores intenta solapar les
trajectòries de les dues estructures per tal de veure si s’assemblen o no.
Si busquem una proteïna, ens buscarà similitud d’estructura amb totes les proteïnes que té a la base de
dades, un RMSD menor ens donarà una similitud d’estructura major.
TEMA 1. BASES DE DADES EN BIOLOGIA MOLECULAR

NCBI → Busquem informació sobre els gens. Per això anem a l’apartat de Gene, i trobem una llista amb
diferents resultats (segons organisme). Si obrim la pàgina del gen trobem d’entrada informació bàsica:
localització del gen dintre del genoma/cromosoma, número d’exons, número de transcrits de forma visual,
nivells d’expressió segons teixit.
En el cas d’estudiar un gen que presenti més d’un transcrit, es pot estudiar la informació corresponent a
cadascun d’ells de forma separada. Podem anar a Go to reference sequence, i seleccionar el codi
corresponent al transcrit (et porta a la pàgina corresponent a la informació del mRNA corresponent al
transcrit). També es pot posar el ratolí sobre del transcrit de forma que surt una pestanya amb el codi al
costat de BLAST mRNA. Ara cal posar el codi en el NCBI (de la mateixa manera que hem fet al principi per
buscar el gen).
*També obtenim informació sobre l’expressió específica de cada variant (en la pàgina de cada variant es
parla de l’expressió del gen en general, i també s'especifica l’expressió concreta de la variant en qüestió).

Una vegada dins la pàgina del transcrit, trobem informació sobre els exons (posició dintre del transcrit de
forma numerada), i el CDS, d’entre altres coses. També es troba el codi d’accés de la proteïna de l’UniProt.
Si seleccionem CDS ens porta a una nova pestanya amb la seqüència del gen sencera, en la qual està
marcada en marró la part corresponent al CDS. En aquesta pestanya també podem trobar la seqüència en
format FASTA (nucleòtids).

UNIPROT → Les proteïnes presenten un codi d’identificació corresponent a l’UniProt (el podem trobar en
el NCBI de la proteïna d’interès). Trobem la seqüència de les diferents isoformes registrades de la proteïna
en format FASTA (aminoàcids). De cadascuna d’aquesta es pot obtenir informació sobre la llargària, la
massa i el pI de cadascuna (les dues primeres surten directament, el pI cal seleccionar el ProtParam).
Trobem també informació sobre les malalties en les quals està el gen involucrat, i les diferents mutacions
(pathology). A més, es mostren totes les estructures PBD registrades que s’han resolt per la proteïna, que
estan fetes amb diferents tècniques i resolen diferents fragments de la proteïna.

*Si volem saber saber informació sobre les PTMs, en l’UniProt trobem un link directe a una pàgina on hi ha
registrades totes les modificacions: Phosphosite. Es poden comparar les PTMs amb altres organismes en
l’apartat de Site table (surten els organismes disponibles a comparar). En l’apartat de Cancer del
Phosphosite, et surt els diferents tipus de càncer que presenten el gen de la prtoteïna mutada amb més
freqüència.

*Si volem conèixer les interaccions de la proteïna d’intrès amb altres proteïnes, també trobem un link
directe al STRING, on es mostren les relacions (seleccionar el tipus de relació).

BRENDA → Es pot trobar el codi del BRENDA (pàgina amb informació sobre enzims) en l’UniProt. A l’apartat
de Functional parameters trobem valors de Km, Ki i Kcat/Km. Si vols trobar el Km d’un substrat concret:
cliques sobre Km, busques el substrat concret i mires les entrades, que indiquen els diferents pH i
temperatures a les quals s’ha realitzar l’experiment; trobem informació sobre la proteïna WT i sobre les
diferents mutacions.
PROTEOME 2D PAGE → Seleccionem l’organisme del qual volem conèixer informació sobre un spot
concret. Si et col·loques sobre i selecciones el spot, s’obre la pàgina corresponent a la proteïna. Es diu el
nom de la proteïna i el seu codi d’accés a l’UniProt (posa SwissProt). També pots trobar altres dades com
el PM, el pI o la intensitat del spot.

SWISS-2DPAGE → Obrim la pàgina, i a l’esquerra de la pàgina permet buscar proteïnes segons diferents
mètodes. Podem seleccionar segons número d’accés (codi UniProt). Et surten els diferents spots trobats,
amb la MW i el pI corresponent. També diu el tipus de teixit/cèl·lules d’on s’han extret.

TEMA 2. ANÀLISI DE LA INFORMÀTICA SEQÜENCIAL DE DNA

ORFfinder → Posar la seqüència de nucleòtids del gen en format FASTA. Surten els diferents ORFs predits
per a la seqüència en concret, la seva llargària i la cadena en la qual es troba. Podem obtenir la seqüència
de cada ORF per separat, tant en nucleòtids com en aminoàcids.

NEBcutter → Permet conèixer les dianes de restricció que es troben en una seqüència que volem clonar.
Seleccionem tots els enzims de restricció disponibles comercialment. Obtenim una llista amb tots aquests,
específicament nosaltres volem 0 cutters, doncs no volem que la nostra seqüència es talli en algun punt.
*De forma paral·lela, mirem el cloning site del vector que utilitzem. Escollir els RE segons el que ens
convingui (per exemple, perquè volem His). Aquests els comparem amb la llista de RE que hem obtingut
en el NEBcutter. Si es troben a la llista de 0 cutters, perfecte, es poden fer servir en els primers.
**Si volem veure polimorfismes hem de veure que un enzim que feia un tall ja no el pot fer ja que un
dels nucleòtids ha canviat. per tant anem a 1 cutter i mirem la posició concreta i seleccionem l’enzim
que no tingui nt raros (Y). Aquest ens servirà per mirar els polimorfismes.

Bioinformatics reverse complement → Ens serveix per a fer l’oligonucleòtid reverse. Et fa la


complementària i la reversa (no ho has de fer tu, t’estalvies feina).

PREMIER Biosoft o NetPrimer→ Serveix per analitzar els primers obtinguts. Et dona informació sobre la
Tm, l’energia lliure, el percentatge de GC, estabilitat, etc. La Tm ha d’estar entre 50 i 65ºC (no pot haver
una diferència major de 5º entre el primer forward i reverse). La variació de G reverse ha ser major a -10
(osigui, volem un valor tirant més a positiu). Comentar també que el primer ha d’acabar amb una G o una
C. El número de nucleòtids ha d’estar entre 18 i 28, i no cal que sigui nombre múltiple de 3.

PRIMER3PLUS → Ens serveix per a poder quantificar una proteïna mitjançant la creació de primers (qPCR).
Cal seleccionar un target radom a la zona central i fer: pick primers. et dona les opcions que creu que son
bones. Tot i que si ho comparem amb el PRIMER Biosoft t’en assegures.

QuickChange Primer Design (o PrimerX com a alternativa) → Realització de primers per a fer mutagènesi
dirigida. S’introdueix la seqüència i se li dona a Upload Now (si ja ho tens en proteïna) o Upload Translated
(si ho tens en DNA). Ara es pot escollir el residu que es vol mutar. Cal marcar el punt 5 per a que apareguin
les opcions per a mutar. Et retorna els dos primers.
Primer-BLAST → Ens permet fer primers que siguin compatibles amb diferents espècies per a la seqüència
d’una proteïna d’interès. Selecciones totes les seqüències que et dona, fas submit, i et dona múltiples
resultats de parelles de primers.
TEMA 3. ALINEAMENT DE SEQÜÈNCIES

SOFTBERRY → Permet buscar els operons (número de gens que el formen) d’eucariotes i procariotes.
També aporta la seqüència de cada gen, i quins gens formen cada operó.

BLAST (blastn)→ Permet identificar gens (proteïnes) a partir de la seva seqüència. Està basat en el
percentatge d’homologia entre la seqüència aportada i les seqüències de la base de dades.

Splign → Seleccionar l’opció de Online. Introduïm la seqüència de cDNA i la seqüència del clon genòmic.
Permet identificar els exons i els introns en el clon genòmic.

EMBOSS Cgplot → S’introdueix la seqüència de DNA genòmic. Com a resultat surten uns gràfics. A sota
surten les llargades de les illes CpG que ha predit aquesta pàgina i entre quins residus es troba.

ALGGEN PROMO → Ens permet trobar els factors de transcripció de la nostre seqüència. el més important
és que has de fer pas per pas ja que les pàgines són independents. Tenir en compte que el factor ha d’estar
abans del promotor i per tant abans del primer exó.

EPD→ Selecciones l’espècie (humans) i els promotors que vols buscar. Quan ja has introduït un promotor,
vas a Search motif tool i a Library selecciones els Promoter motifs. Ara cal seleccionar el tipus de motif, per
exemple, caixa TATA.
Per marcar les 100 sample cal marcar primer l’espècie homo sapiens, després anar a Selection Tool i marcar
EPD selection tool aqu marcar les sample i la caixa que vols i escriure els promotors (1 per fila). Al clicar
select et dira si hi ha algun resultat, si ens tens, anar a les 3 lletres del costat i et sortirà el promotor amb
100 samples. després fer el que tenim a l’inici.

Gene Browser (UCSC) → Permet identificar illes CpG del promotor. Posem l’espècie i el promotor i el
programa ens dona la localització. Quan ens apareix hem d’anar als tools de sota a Regulation. Allà
seleccionem que es mostrin les illes CpG, que apareixen al gràfic de la part superior. Cliques en el gràfic
sobre la illa i obtens la informació. Anem a View DNA for this feature i Get DNA.

TEMA 4. PROJECTE GENOMA I NAVEGADORS GENÒMICS

EMBOSS: NEEDLE → Ens proporciona un alineament global entre dos seqüències (podem fer alineament
global quan dues proteïnes presenten longituds molt semblants!). Entrem en el programa, introduïm les
dues seqüències en format FASTA de les proteïnes, de les quals volem fer l’alinemanet, i li donem a submit.
Ens donarà l’alineament, comparant les dues una sobre de l’altre, i proporcionarà un score (ex. 683) i
identitat (ex. 161/232 (69.4%)).

*El programa Needle també permet fer alineament amb nucleòtids, canviant PROTEIN per DNA a Enter
pair of.

*Cal tenir en compte que contra més gran és el valor de score, més match hi ha en l’alineament resultant.
Els scores de l'alineament de DNA i PROTEIN sempre seran diferents, donant millor resultat els scores del
DNA. Això és degut a que en DNA es comparen moltes més unitats (nucleòtids) que no pas en proteïna
(aminoàcids), ja que per un aminoàcid de proteïna, tens 3 nucleòtids, tot i millorant el alineament.
Per definir la regió més conservada d’un alineament agafarem aquella que presenti més matches seguits
al llarg de la seqüència. Si hi ha una regió relativament conservada, però va seguida d’una zona amb molt
pocs matchs, no la considerarem com regió conservada.

*Podem fer un assemblatge de dues seqüències: fem un alineament, i veiem quina part de la seqüència
comparteixen. A partir d’aquesta regió comú podem ajuntar les dues seqüències que inicialment teníem
per separat en una única seqüència més llarga.

PROTEIN BLAST (blastp)→ Introduïm una seqüència d’una proteïna o un pèptid. S’obté una llista amb les
possibles proteïnes en les quals pot encaixar la nostra seqüència problema. En aquesta pàgina obtenim
molts resultats però el que tingui major coverage, menor E value i major Max.Score serà la proteïna més
probable de tenir la seqüència de la nostra proteïna. Tenir en compte que un E-value menor a 1 és bo, i
que dues proteïnes probablement són homòlogues si el E-value es troba entre 1 i 10e-6.

**tblastn: a partir d’una seqüència d’aminoàcids, busca aquelles seqüències nucleotídiques que hi ha al
banc de dades que puguin codificar la seqüència de la proteïna d’interès.

**blastx: és el contrari que el tblastn, converteix una seqüència de nucleòtids en una seqüència
d'aminoàcids, i després busca coincidències en la base de dades. Si introduïm una proteïna de fusió (per
exemple, una proteïna unida a la GFP), això es pot observar en l’apartat de Graphic summary.

EMBOSS: Dotmatcher → Comparar proteïnes (s’han de definir els paràmetres window size i un threshold).
Permet identificar zones idèntiques entre dues proteïnes. Nosaltres utilitzem aquest programa per
identificar les zones no idèntiques i poder dissenyar anticossos específics per a diferents variants d’una
mateixa proteïna.

TEMA 5. ALINEAMENT MÚLTIPLE DE SEQÜÈNCIA I APLICACIONS

Clustal Omega→ Hi ha el ClustalO: es pot observar des de l’UniProt o des del seu link propi. Si el fem a
l’UniProt et dona el % d’identitat i el nombre de posicions idèntiques. Obtenim un MSA: seleccionem
Download per a tenir una pàgina en format Text, que si la copies la pots posar al Jalview. Si vols obtenir el
TCS per tenir un Score i comparar-ho amb altres alineaments fets per altres programes, has d’anar al T-
coffe on tenen una opció de TCS (posar l’alineament i no la seqüència, en tot cas a sota de l’alineament hi
ha una opció que es diu Core/TCS que el posa directament alineat per a analitzar).

Jalview → Es pot visualitzar el MSA amb aquest programa. Introduim el resultat de multialineament. Pots
fer un arbre semblant al filogenètic, tot i que no ho és. Has d’anar a calculate→ Tree→ Neighbour joining→
Triar la matriu: Blossum o PAM. També podem mirar característiques de la seqüència com els residus
hidrofòbics….

Paquet T-COFFEE → Tens el Simple Coffee just a l’inici. Si vols el M-Coffee (utilitza múltiples aligners) o el
Expresso (considera informació estructural, si es que disposa d’ella) has d’anar a PROTEIN. El millor MSA
ve donat per el valor més gran de TCS score obtingut. Ens indica el programa que fa el millor alineament.
En l’EXPRESSO: a Template List obtens les proteïnes utilitzades per fer l’alineament estructural.
TEMA 6. PREDICCIÓ DE LA FUNCIÓ DE PROTEÏNES

PSI-BLAST → Permet conèixer homòlegs llunyans de la nostra proteïna d’interès. Entres a la pàgina per fer
un BLAST de proteïnes normal, i a sota canvies l’opció a PSI-BLAST. Una vegada has obtingut els resultats,
a Other reports seleccionem Distant tree of results.

Seleccionem unes 15 seqüències que presentin la menor identitat possible i que NO siguin predicted. En
cada RUN se n'afegeixen noves seqüències llunyanes. S’hauria de repetir això unes 3 vegades. A partir del
resultat final s’obtenen el nombre de seqüències que vulguis a comparar.

Si en el BLAST selecciones els resultats i vas a Download, pots obtenir les seqüències de les diferents
proteïnes en format FASTA per aixi després poder fer un multialineament o mirar patrons. El
multialineament obtingut el posem al Jalview i observem les zones conservades / d’alta identitat per
obtenir un patró de forma manual.

PRATT-PROSITE → Posem les seqüències (l’alineament no funciona!). Obtenim un patró que podria ser
representatiu de totes les seqüències introduïdes al programa. Els patrons es poden respresentar amb el
WebLogo. Cal tenir en compte que s’ha de delimitar de quina zona vols fer el logo, doncs sinó te’l genera
de la seqüència sencera.

**Els resultats els dona directament a la pàgina del ScanProsite. A partir d’aquí podem buscar proteïnes
que estiguin associades al patró que ha generat el PRATT-PROSITE (Opció 2). En aquesta pàgina només cal
donar-li a Run SCAN (el resultat surt en un quadrat blau). També podem realitzar la Opció 1: introduim la
seqüència de la nostra proteïna d’interès i busca motius associats a aquesta (el resultat surt en una línia
taronja).

Pfam → enganxant només una seqüència proteica curta, et diu quina és la proteïna amb la qual té més
identitat i et dona informació sobre: summary, domain organisation, HMM logo, trees, species,
interactions, structures...

INTERPRO → Dona informació sobre la proteïna d’interès (motius, dominis, famílies, patrons, GO, etc.).
Pots accedir al Pfam a partir d’aquesta pàgina: cal clicar sobre la línia corresponent, i anar a External link
per accedir al Pfam.

TEMA 7. PREDICCIÓ DE L’ESTRUCTURA SECUNDÀRIA DE PROTEÏNES

Predicció de característiques a partir de la seqüència:


ProtParam: permet conèixer el pes molecular, el pI, la composició d’aminoàcids, la composició atòmica, el
coef d’extinció molar, el coef d’hidrofobicitat, l’índex d’inestabilitat...

Predicció d’estructura secundària: introdueixes la seqüència aminoacídica de la proteïna i et retorna


l’estructura corresponent en cada part.
• NPSA-PRAVI* (mètode probabilístic o ab initio). Anem a Secondary structure consensus predictor.
• GOR IV (per homologia)
• PsiPred (xarxes neuronals).
Mètodes combinatòris (predicció amb múltiples mètodes):
• PredictProtein (HMM).
• JPred (xarxes neuronals). Els lupas són predictors d’alfa-hèlix. El Jnetsol són predictors de fulla beta

Predicció d’estructura terciària:


SWISSMODEL → Posar la seqüència i fer build model. Obtenim un model. Cal tenir en compte que els
paràmetres han d’estar més propers a la zona blava (si estan propers a la zona vermella, no es tracta d’un
model gaire bò); de la mateixa manera el valor del QMEAN ha de ser proper a 0 (emoticona del dit cap a
munt: Thumbs up!). En el cas de tenir una part de la seqüència a la qual poden correspondre diferents
estructures, escollim aquella amb millor QMEAN i major identitat.

Predicció de coiled-coil:
COILS → Serveix per predir colied coils en una proteïna. Cada pic correspon a una de les hèlix del coiled-
coil.

Predicció de pèptids senyal:


SignalP → Prediu si una proteïna presenta un pèptid senyal. La línia vermella correspon al pèptid senyal.
La línia discontinua verda correspon a la zona de tall del PS (en la llegenda surt com CS, cleavege site). La
línia groc correspon a la seqüència que queda de proteïna. Cal tenir en compte el tipus d’organisme al qual
pertany la seqüència.

Predicció de proteïnes de membrana:


PRED-TMMB (HMM) → Determina proteïnes transmembranals de fulla beta (el programa TMHMM fa el
mateix però per proteïnes d’hèlix alfa). Et dona un gràfic on surt quina part de la seqüència es troba
insertada a la membrana, o al costat extracel·lular o citosòlic de la membrana. Si s’observa el patró out-
mem-in podem dir que es tracta d’una proteïna de membrana.
Phobius (Homology supported predictions): → Permet detectar falsos positius del PRED TMMB.

Predicció d’agregació:
Aggrescan → Proporciona zones de la proteïna que poden ser hotspots. En el gràfic A/N es visualitza l’àrea
normalitzada pel nombre d’aminoàcids. Cal escollir un pic estret, i que sigui el més alt. Ara si volem eliminar
un hotspot s’ha de fer un canvi d’aminoàcid dintre del hotspot: el canvi s’ha de donar millor en el mig del
hotspot (millor no alterar càrregues). Fer un canvi de polar a apolar, o viceversa.

**El valor menys negatiu (més proper a 0) és el que correspon a la proteïna que té més tendència a formar
agregats. Mencionar també que aquest programa té en compte les agregacions tant amiloides com
desordenades (tipus amorf).

Aggrescan3D → Ens proporciona les zones amb més tendencia a agregar o hot spot, tenint en compte
l’estructura 3D de la proteïna. Quan mirem aquest programa, els pics que passen per sobre de la línia
discontinua (threshold) són els que molt probablement formen agregats. Els gràfics es troben en l’apartat
Aggrescan3D Plot. A l’apartat de Structure es pot veure una estructura tridimensional amb tres colors
diferents: les zones vermelles són aquelles que tenen més tendència a agregar (corresponents als pics que
superen el llindar mencionat anteriorment).
TEMA 8. ANÀLISI I PREDICCIÓ DE L’ESTRUCTURA TRIDIMENSIONAL DE PROTEÏNES

RCSB PBD (Protein Data Bank EEUU) → ENs proporciona una representació 3D de la proteïna, el mètode
pel qual ha estat resolta, el tipus de simetria de la proteïna, etc. A l’apartat de Annotacions es troba la
classificació SCOP i CATH.

**En l’apartat de Summary summary anem a buscar Ligand interactions. S’obre una pàgina on podem
seleccionar el tipus d’enllaç que es mostri (diferents enllaços en diferents colors).

**SCOP i CATH → classificació de les proteïnes utilitzant diferents criteris (classe, familia, superfamilia,
plegament/topologia i arquitectura). El trobem en el RCSB PBD dintre l’apartat de Annotation.

PBDsum (europeu) → Ens proporciona informació sobre els lligands, interaccions, i enllaços de la proteïna
d'interès (depenent de la proteïna poden haver més o menys apartats). Per veure les interaccions amb un
lligand concret, anem a lligands, i li donem a list of interactions (al costat de imatge gran). Ens donarà les
interaccions amb ponts d’H i non-bonded interactions.

DALI → Et permet comparar/alinear l’estructura tridimensional de 2 o més proteïnes (en l’apartat


Pairwise). Cal descarregar les estructures de les proteïnes en format PDB (de forma manual no ens
funciona). El resultat proporciona un valor de RSMD, si està entre 1 i 1.5 el resultat és bo, el resultat entre
1.5 i 2.5 és normal (identitat mitjana), i si el resultat és major a 2 no es considera que hi hagi identitat.

También podría gustarte