Está en la página 1de 14

Secuencia de Búsqueda Bases de datos

Objetivos de Aprendizaje

Averiguar por qué la búsqueda de similitud son tan

importante

La comprensión de la relación entre la homología,

similitud, y la identidad

Ser capaz de ejecutar un BLAST e interpretar

salida del programa

La comprensión del concepto de e-valores

El saber cómo hacer preguntas biológicas con

BLAST

esquema

significado biológico de similitud de secuencia

La homología, la identidad y similitud

BLAST Correr

La interpretación de una salida de BLAST

Haciendo un análisis biológico con BLAST

Correr PSI-BLAST la última BLAST

Versión

Secuencia de Similitud

Dos secuencias de proteínas con una identidad de más de 25% (sobre 100

aminoácidos) son homólogos

Dos secuencias de ADN con identidad más de 70% (sobre 100

nucleótidos) son homólogos

Las secuencias homólogas tienen

- Un ancestro común (proteínas y ADN)

- Una estructura 3D similar (proteínas)

- A menudo, una función similar (proteínas)

Homología
Cuando dos proteínas tienen una identidad de menos de 25%

- Ellos pueden ser homóloga o no homóloga

- Dentro de esta gama de la identidad, que "es imposible decir cuál es

Verdadero

La homología, semejanza,

e Identidad

La identidad es una medida hecha en una alineación

- Secuencia A puede ser "32% idéntica a la" Secuencia B

La similitud es una medida de qué tan cerca dos aminoácidos son idénticos

- Por ejemplo, isoleucina y leucina son similares

La homología es una propiedad que existe o no existe

- Secuencia A es o no es homóloga a la secuencia B

- Secuencia A no puede ser "40% homóloga a" B

La homología se establece sobre la base de la similitud o identidad medido

Cómo establecer homología

Comparar proteína A con cada otra proteína en una base de datos como Swiss-Prot

Identificar una proteína de B que es 40% idéntica a la proteína

- Especialistas prefieren usar E-valores, pero la idea es la misma (más sobre esto en un minuto)

Se puede concluir que A y B son probablemente homólogas si son muy

similar

- Se "s como diciendo:" John y Nancy son probablemente hermano y hermana, ya que son

muy similar ".

Si conoce la estructura o la función de B, entonces A y B tienen probablemente la

misma estructura

En silico Biología
Al establecer que dos

proteínas (A y B) son

homóloga, puede

extrapolar todo lo que

saber de una a la otra.

It "s como la fabricación de un virtual

experimento.

Esta es la biología in silico!

BLAST

BLAST: Basic Local Alignment Search Tool

BLAST es una herramienta para comparar una secuencia con todos

las otras secuencias en una base de datos

BLAST puede comparar

- Secuencias de ADN

- Secuencias de proteínas

BLAST es más precisa para comparar las proteínas

secuencias que para la comparación de secuencias de ADN

BLAST (d cont. ")

BLAST hace alineamientos locales

- Sólo se alinea lo que puede ser alineado

- No tiene en cuenta el resto

BLAST es muy rápido

- Sólo se necesita unos minutos para buscar Swiss-Prot en una

PC estándar
Muchos sabores BLAST están disponibles para una variedad de tareas

blastp Correr

Elija uno de los servidores públicos

- NCBI www.ncbi.nlm.nih.gov / explosión

- EBI www.ebi.ac.uk / explosión

- EMBnet www.expasy.ch / explosión

Seleccione una base de datos que desea buscar:

- NR para encontrar cualquier secuencia de la proteína

- Swiss-Prot para encontrar proteínas con funciones conocidas

- AP para encontrar proteínas con estructuras conocidas

Cortar y pegar su secuencia

Haga clic en el botón de BLAST

Lectura BLAST salida

Presentación Gráfica

- Listado de las alineaciones

Hit List

- Da la puntuación de cada partido

Alineaciones

- Los detalles de cada alineación

La pantalla gráfica

El eje horizontal (0-700)

corresponde a su proteína

(consulta)

Los códigos de color indican que

partido "calidad s
- Rojo: muy buena

- Verde: aceptable

- Negro: bad

Las líneas finas se unen independiente

partidos en la misma secuencia

The Hit List

número de acceso de secuencia

- Depende de la base de datos

Descripción

- Tomado de la base de datos

puntuación Bit

- Puntuación alta bit = buen partido

E-Value

- Bajo E-valor = buen partido

Links

- Genoma

- UniRef, base de datos de las transcripciones

Los valores de E-

E-valor significa valor esperado

El E-valor es la medida más utilizada para la estimación de secuencia

semejanza

¿Cuántas veces es un partido al menos tan buena se espera que suceda por azar?

- Esta estimación se basa en la medida de similitud

Si un partido es muy inesperado, probablemente se debe a algo más que

oportunidad

- Origen común es la explicación más probable

- Así es como se infiere de homología


¿Qué valor por su

E-valores?

Low E-valor buen golpe

- 1 = malo e-Valor

- 10e-3

= Límite E-valor

- 10e-4 = buena E-valor

- 10e-10

= Muy buena E-valor

E-valores inferiores a 10e-4

indicar una posible homología

E-valores superiores a 10e-4

requerir evidencia adicional para apoyar

homología

¿Por qué utilizar E-valores?

E-valores hacen posible la comparación de la alineación de los diferentes

longitudes

E-valores son utilizados por la mayoría de los programas de comparación de secuencias

- PSI-BLAST

- Búsqueda de dominio

- FASTA

E-valores siempre tienen el mismo significado

- Se puede comparar la salida de los diferentes programas

BLASTing secuencias de ADN

El programa BLAST usted necesita depende de su secuencia de ADN

- De ADN que codifica


- ADN no codificantes

BLASTing secuencias de ADN es menos preciso que BLASTing

secuencias de proteínas

Si la secuencia es la codificación, blastx y tblastx se traducirán por

que en sus 6 posibles marcos de lectura s

El Camino de BLAST

Hacer las Cosas

El papel BLAST original es el científico cuarto-más citado

publicación

- 21.000 citaciones por BLAST

- 18.000 citaciones por PSI-BLAST

BLAST ha cambiado muchos aspectos de la biología moderna

Las siguientes diapositivas muestran más procedimientos BLAST

- No son necesariamente los mejores procedimientos

- Son formas eficaces de hacer el trabajo sobre el terrenoPSI-BLAST

PSI-BLAST es-BLAST posición específica Iterado

- Más sensible que BLAST: encuentra coincidencias BLAST no encontraría

- Más específico que BLAST: informes menos partidos falsas

- Un poco más lento que BLAST

PSI-BLAST encuentra homólogos remotos

- Le permitirá identificar a los miembros muy distantes de su familia de proteínas

PSI-BLAST utiliza los resultados de cada iteración para aumentar su

especificidadIteraciones PSI-BLAST

PSI-BLAST utiliza la mejor


resultados de la primera iteración para

construir un perfil (PSSM)

PSI-BLAST utiliza el perfil de

volver a escanear la base de datos

PSI-BLAST mantiene re-escaneo

hasta que se detenga la búsqueda de nuevo

cerillasAlgunos consejos para el uso de PSI-BLAST

Si la proteína es multi-dominio, buscar un dominio a la

tiempo

PSI-BLAST es más lento de lo normal debido a BLAST

las iteraciones

Usted puede alimentar a PSI-BLAST con su propio PSSM

- Utilice el servidor NCBI para este finir más lejos

Cada servidor en línea BLAST es único

Alrededor de la tienda para encontrar la base de datos de derecho

Si usted necesita para buscar coincidencias exactas entre una secuencia y un uso del genoma

Blat

- No, "no es un error tipográfico

- Usted lo puede encontrar en genome.ucsc.edu

Si quieres algo más preciso que BLAST, utilice Smith y Waterman

- It "s también más lento que BLAST

- Usted lo puede encontrar en www-btls.jst.go.jp

La construcción de la Múltiple-

Secuencia de alineaciones
Objetivos de Aprendizaje

Reconocer situaciones en las que un alineamiento de secuencias múltiples pueden

ayudar

Construir el tipo de alineamientos múltiples de secuencia

Conviértete capaces de estimar la calidad biológica de su múltiple

alineación

saber acerca de las fortalezas y debilidades de la progresiva

Algoritmo

esquema

¿Por qué construir una secuencia múltiples alineación?

La elección de las secuencias correctas

La elección del método de MSA derecho

Cálculo de una adaptación progresiva

La interpretación de la alineación

La comparación de secuencias que son difíciles de alinear¿Qué es un múltiplo-

Alineamiento de secuencias?

La alineación de más de dos secuencias

MSA = múltiples secuencia de alineaciones

El objetivo de un MSA es doble:

- Alineación de regiones correspondientes de las secuencias

- Posiciones reveladores que se conservan

Los principales pasos para una MSA útil requieren

- La elección de las secuencias correctas

- Elegir el método MSA derecho

- Interpretación de la alineaciónEvolución en una cáscara de nuez

Los aminoácidos mutan al azar


Las mutaciones Después se seleccionan (aceptados) o seleccionarse de venta libre
(rechazado)

Si la mutación es perjudicial, es seleccionado de venta libre

- Desaparece del genoma

- Nunca vi

Las mutaciones de cargos importantes (tales como sitios activos) son casi

siempre dañina

Se puede reconocer a las posiciones importantes porque nunca mutan!

MSA revelan estas posiciones conservadas¿Por qué construir un MSA?

La razón principal para construir un MSA es utilizarlo para su posterior

aplicaciones

La mayoría de los métodos de modelado biológicas requieren un MSA en

algún momento

siguientes 2 toboganes enumeran las 8 aplicaciones más comunes que

requerir un MSA (hay muchos más) La elección de las secuencias La Derecha

Cuando la construcción de una alineación, es su trabajo para seleccionar las secuencias

Dos factores principales a la hora de seleccionar las secuencias:

- Número de secuencias

- Naturaleza de las secuencias

Un número razonable de secuencias: 20 a 50

- Ideal para la mayoría de los métodos de

- Alineaciones pequeñas son fáciles de visualizar y analizar

tipos de secuencias

- Secuencias bien seleccionados alineación informativaADN o proteínas?

secuencias de ADN son más difíciles de alinear de proteínas

- Modelos de ADN de comparación son menos sofisticado


La mayoría de los métodos de trabajo para la DNA y proteínas

- Los resultados son menos útiles para el ADN

Si el ADN es la codificación, el trabajo sobre las proteínas traducidas

Si las secuencias son homólogas. . .

- A lo largo de toda su longitud utilizar métodos de alineación progresiva (siguiente


diapositiva)

- En cuanto a la similitud locales utilizar métodos motivo de descubrimiento (final del


capítulo) La elección de secuencias

Que son diferentes Enough

Una alineación es útil si. . .

- Las secuencias se alinean correctamente

- Se puede utilizar para producir árboles, los perfiles y la estructura predicciones

Para obtener este resultado, las secuencias deben estar

- No es demasiado similar

- No muy diferente

Las secuencias que son muy similares. . .

- Son fáciles de alinear correctamente

- ¿No son informativos árboles y perfiles inútiles, malas predicciones

Las secuencias que son muy diferentes. . .

- ¿Es difícil alinear

- ¿Son muy informativo buenos árboles y perfiles, buena

prediccionesRecopilación de secuencias con BLAST

La forma más conveniente para seleccionar su

secuencias es utilizar un servidor de BLAST

Algunos servidores de BLAST se integran con

métodos múltiples de alineación:

- www.expasy.ch

- srs.ebi.ac.uk

- NPSA-pbil.ibcp.fr
Recopilación de secuencias con BLAST

seleccionar algunas de las

mejores secuencias

uniformemente seleccionar algunos

secuencias de abajo a

la parte inferior

La idea es tener

muchos intermedia

secuencias

Alinear sus secuencias

La alineación de secuencias es muy difícil correctamente

- ¿Recuerda la Twilight Zone?

- Es "difícil de alinear las secuencias de proteínas con una identidad inferior al 25%

(70% de identidad de ADN)

Todos los métodos son aproximados

Métodos de alineamiento utilizan el algoritmo progresivo

- Se comparan las secuencias de dos en dos

- Construye una guía de árboles

- Alinea las secuencias en el orden indicado por el árbol

El algoritmo progresivo

Las secuencias se agrupan por

similitud (guía de árboles)

Las secuencias se alinean de 2 en 2

Las alineaciones intermedias

a continuación, se alinean 2 por 2

Usted alinear 2 secuencias por

utilizando programación dinámicaEl Algoritmo Progresista (cont "d.)

Su principal fortaleza es su velocidad


Su principal debilidad es su avaricia

- Las secuencias alineadas al principio nunca se vuelven a alinear

- Los primeros errores no pueden ser corregidos

Instale los conjuntos de datos con gran cantidad de secuencias intermedias

Imagina cada secuencia es parte de un puente de piedra a través de un

río:

- Doesn "t importa lo ancho del río es, si las piedras

son lo suficientemente cercanos

- Doesn "t importa la diversidad de sus secuencias son, si

cada secuencia tiene un pariente cercano

Selección de un método

Existen muchos métodos alternativos para MSA

La mayoría de ellos utilizan el algoritmo progresivo

Todos ellos son métodos aproximados

Ninguno está garantizada para entregar las mejores alineaciones

Todos los métodos existentes tienen pros y contras

- ClustalW es el más popular (21 000 citas)

- T-Café y ProbCons son más precisos pero más lento

- El músculo es muy rápida, ideal para grandes bases de datos

Selección de un método (cont "d.)

It "s imposible adivinar de antemano qué método va a hacer

mejor.

La precisión es simplemente una estimación promedio

- Los métodos son probados en los conjuntos de datos de referencia

- Su exactitud es la media obtenida en la referencia

El método más preciso siempre puede ser superado por una

método menos preciso en un determinado conjunto de datos.


Una alternativa: Utilice métodos de consenso como MCOFFEEEjecución de muchos métodos
a la vez

MCOFFEE es un método de un-meta

- Se ejecuta todos los métodos de MSA individuales

- Reúne toda la MSA producido

- Combina los acuerdos de servicios administrativos en un solo MSA

MCOFFEE es más precisa que cualquier método individual

Su salida de color le permite estimar la fiabilidad de su MSA

MCOFFEE está disponible en www.tcoffee.orgSalida MCOFFEE color

residuos rojos y naranjas son probablemente bien alineados

amarillo debe ser tratado con precaución

verde y azul son probablemente alineados incorrectamenteAlinear Sus secuencias


correctamente

Puede ser difícil para alinear las secuencias correctamente

- Evolucionan demasiado rápido

Para las proteínas, la mejor alternativa es utilizar la estructura 3D

- Estructuras 3D cambian a menor velocidad que las secuencias

Desafortunadamente pocas secuencias tienen una estructura conocida

Expresso le permite encontrar las estructuras que corresponden a su

secuencias y usarlos para construir un MSA

También podría gustarte