Está en la página 1de 65

Bioinformtica

para educacin secundaria

Sesin 1 Bases de datos en Biologa Molecular


Julin Dorado

Bsquedas en Internet. SNPs como marcadores de enfermedades complejas. MicroMicro-arrays.

Sesin 2 Laboratorio on-line para Bachillerato. Genmica onCarlos de Paz

Anlisis de secuencias de ADN. Alineamientos. Alineamientos. Comparacin de secuencias entre especies. especies. Prediccin de zonas significativas (codones de inico, promotores, lugares de empalme intron/exn, seales poli-A o poliislas CpG). Bsqueda automtica de genes. genes. rboles filogenticos.

Sesin 3 Laboratorio on-line para Bachillerato. Protemica onCarlos de Paz y Julin Dorado

Anlisis de secuencias de Protenas. Prediccin de estructuras secundarias. Visualizacin 3D de estructuras de protenas.

Bioinformtica para Enseanza Secundaria

Carlos de Paz

      

Bioinformtica Redes de Informacin Recursos sobre genomas Anlisis de secuencias de ADN Tcnicas de alineamiento de pares de secuencias Alineamientos de secuencias mltiples Protocolo de bsqueda de secuencias

Bioinformtica

Bioinformtica
Abarca todas las aplicaciones de los ordenadores en las ciencias biolgicas, pero fue acuado a mediados de los aos 80 para el anlisis de datos de secuencias biolgicas.

Bioinformtica
La cantidad de datos de secuencias conocidas sobrepasa el de datos de estructuras proteicas en 100:1 y, gracias a los proyectos genoma, las bases de datos de secuencias duplican su tamao anualmente.

100

Bioinformtica
Un reto clave para la bioinformtica es analizar el caudal de datos de secuencias con el fin de comprender la informacin amasada en trminos de estructura, funcin y evolucin proteicas.

Bioinformtica
El Santo Grial de la Bioinformtica

Bioinformtica
Hay dos aproximaciones analticas importantes en bioinformtica: el reconocimiento de patrones y la prediccin.


Se ha conseguido un progreso considerable con los mtodos de reconocimiento de patrones debido a la disponibilidad de bases de datos de referencia y moldes de plegamiento.

La incompleta comprensin del problema del plegamiento de protenas determina una barrera a los intentos actuales de predecir la conformacin a partir de la secuencia.

Bioinformtica
La homologa es un concepto central: se dice que dos secuencias son homlogas si estn relacionadas por divergencia de un ancestro comn. Homologa no es un trmino sinnimo de similitud. La esencia del anlisis de secuencias es la deteccin de relaciones homlogas mediante bsquedas en bases de datos de secuencias. Ortologa Misma funcin Especies diferentes Paraloga Funciones diferentes Relacionadas en un mismo organismo

Bioinformtica
El trmino analoga se emplea en el contexto de plegamientos proteicos similares que no comparten similitud de secuencias detectables, o protenas que comparten grupos catalticos con las mismas geometras espaciales pero que por lo dems no guardan similitud estructural o de secuencias. Se piensa que tales divergencias han resultado del proceso evolutivo de convergencia.

Bioinformtica
Siempre que sea posible, debe emplearse un abanico de mtodos de anlisis diferentes, y los resultados deberan unirse con toda la informacin biolgica disponible.

Redes de Informacin

Redes de informacin


Red Europea de Biologa Molecular (EMBnet) EMBnet)




Red la laboratorios europeos de biocomputacin.


 

Nodos nacionales Nodos especialistas

Redes de informacin


Centro Nacional (Americano) para la Informacin Biotecnolgica (NCBI) NCBI)




Suministrador lder americano de informacin. Abanico de diferentes bases de datos accesibles a travs de un interface nico.

Redes de informacin


EMBnet


NCBI


Sede de la base de datos GeneBank

Sede de las bases de datos EMBL, SWISSEMBL, SWISS-PROT y TrEMBL. TrEMBL. Entrez

SRS (Sistema de recuperacin de secuencias)

Recursos sobre genomas

Recursos sobre genomas


Las principales bases de datos de cidos nucleicos son GenBank, EMBL y DDBJ, cada una recoge una fraccin de los datos totales de secuencias producidas en todo el mundo y que intercambian los registros nuevos y los actualizados diariamente.

Recursos sobre genomas


GenBank, que se produce en el NCBI, est se reparte en divisiones discretas y ms pequeas. Esto facilita las bsquedas rpidas y especficas, mediante la restriccin de las consultas a subconjuntos particulares de la base de datos. Durante 19921992-1997 el nivel de datos GenBank creci unas 10 veces.

Recursos sobre genomas


Adems de las bases de datos exhaustivas de secuencias de ADN, hay una variedad de recursos genmicos ms especializados. Estas llamadas bases de datos boutique tienen como objeto la genmica de especies concretas y tcnicas particulares de secuenciacin.

Recursos sobre genomas


El abanico de recursos disponibles en Internet es inmenso y ha tenido un tremendo impacto sobre la capacidad de los cientficos para presentar y diseminar los resultados de sus investigaciones.

Anlisis de secuencias de ADN

Anlisis de secuencias de ADN


Las comparaciones de secuencias son ms sensibles en protenas, porque el cdigo gentico redundante es reducido a un conjunto nico de aminocidos, pero esta prdida de degeneracin significa que se pierde informacin relacionada directamente con procesos evolutivos.

Anlisis de secuencias de ADN


Las bases de datos de secuencias de ADN incluyen datos de secuencias genmicas y, por tanto, contienen un surtido de datos que no pueden tratarse por igual (p.ej., regiones no traducidas (UTR), intrones y exones, mRNA, cDNA y traducciones). Esto afecta a la forma en que deben interpretarse las bsquedas.

Anlisis de secuencias de ADN


Las UTR flanquean las regiones codificantes del ARN o del ADN, pero no son traducidas. La traduccin de ADN a protena mediante una tabla de cdigo gentico se denomina conceptual, indicando que no tiene validacin experimental.

Anlisis de secuencias de ADN


En una longitud arbitraria de ADN, no se sabe qu base marca el inicio de la secuencia codificante (CDS), de forma que debe realizarse una trduccin en seis pautas. El reto es determinar cul es la pauta de lectura correcta.

Anlisis de secuencias de ADN


Las caractersticas empleadas para predecir posibles regiones codificantes en el ADN son: suficiente longitud de la ORF, presencia de secuencias de Kozak flanqueantes, patrones de uso de codones, preferencia de la tercera base y presencia de sitios de unin a ribosomas (secuencias de Shine.Dalgarno) antes del codn de inicio.

Anlisis de secuencias de ADN


La presencia de intrones y exones en los genes eucariticos puede dar lugar a productos gnicos de longitudes diferentes, porque puede que no todos los exones estn incluidos en el transcrito final. Las protenas resultantes se conocen como variantes de procesado o formas procesadas alternativamente.

Anlisis de secuencias de ADN


Las CDS completas raramente son secuenciadas en una reaccin, de modo que se alinean fragmentos solapantes de longitud variable para construir un consenso (el ensamblaje de secuencias). Las lecturas mltiples de bases de cada posicin de la secuencia dan una mayor fiabilidad al resultado.

Anlisis de secuencias de ADN


Una proporcin sustancial de los datos de ADN disponibles en la actualidad deriva de marcas de secuencias expresadas (EST), que son secuencias parciales. La produccin de EST est altamente automatizada y los resultados suelen estar contaminados con bases ambguas o que faltan. Esto da lugar a dificultades en la interpretacin de las secuencias.

Anlisis de secuencias de ADN


La jerarqua de informacin genmica (genoma cromosmico, genoma expresado, proteoma, etc.) precisa de que se apliquen diferentes herramientas analticas y habilidades interpretativas en cada nivel.

Anlisis de secuencias de ADN


Se han desarrollado varios enfoques para el establecimiento de genotecas de EST para su explotacin comercial o acadmica. Entre los proveedores de informacin de EST se encuentran Merck/IMAGE, Incyte y TIGR.

Anlisis de secuencias de ADN


Las herramientas pblicamente disponibles para el anlisis de EST son las de bsqueda, ensamblaje y agrupamiento de secuencias.

Tcnicas de alineamiento de pares de secuencias

Alineamiento de secuencias
Las consultas a bases de datos pueden tomar la forma de consultas de texto o bsquedas de similitud de secuencias. Para identificar una relacin evolutiva entre una secuencia recin determinada y una familia gnica conocida debe evaluarse la cantidad de similitud compartida.

Alineamiento de secuencias
Un algoritmo es un conjunto de pasos que definen un proceso computacional; un programa es la implementacin de un algoritmo. Puede haber varias implementaciones diferentes del mismo algoritmo, que deberan (pero puede que no) dar los mismos resultados.

Alineamiento de secuencias
La forma ms simple de comparar dos secuencias es alinearlas insertando caracteres de hueco para hacer que estn en concordancia vertical. Contar las posiciones con caracteres coincidentes da una puntuacin simple para el alineamiento.

Alineamiento de secuencias
Las matrices de identidad son ralas(1) y en consecuencia tienen poca potencia para el diagnstico. Las diagnstico. matrices de similitud ponderan las coincidencias de resduos no idnticos segn tasas de sustitucin observadas a lo largo de grandes distancia evolutivas. evolutivas. Tales matrices dan lugar a ruido porque aumentan tanto las coincidencias aleatorias como las seales dbiles. dbiles. La distincin entre seales biolgicas de baja puntuacin y ruidos de puntuacin elevada es un desfo central en el anlisis de secuencias. secuencias.

Alineamiento de secuencias
Las puntuaciones de la Matriz de Datos de mutacin de Dayhoff se basan en el concepto de de mutuacin puntual aceptada (PAM). Una distancia evolutiva de 250 PAM da puntuaciones de similitud equivalentes a que quede un 20% de coincidencias entre dos secuencias. A menudo se emplea la PAM 250 como matriz por defecto en los programas de comparacin.

Alineamiento de secuencias
Un mtodo bsico para comparar dos secuencias es el grfico de puntos (dotplot). Este es un (dotplot). grfico en el que las secuencias se disponen sobre los ejes x e y y se dibujan cruces o puntos en todas las posiciones en las que se observan resduos coincidentes. Para secuencias idnticas, esto da lugar a una lnea diagonal ininterrumpida a travs de la grfica, mientras que secuencias similares originan diagonales discontnuas.

Alineamiento de secuencias
Los alineamientos son modelos que reflejan diferentes perspectivas biolgicas. Un modelo no es por tanto ms o menos correcto que otro. Dos enfoques generales consideran la similitud (a) a travs de toda la longitud de las secuencias(1) y (b) a travs de slo parte de las secuencias(2).

Alineamiento de secuencias
Los programas FastA y BLAST son mtodos de bsqueda de similitud local que se concentran en hallar emparejamientos cortos idnticos, que pueden contribuir a un emparejamiento total. Las implementaciones recientes de BLAST puede generar alineamientos con huecos.

Alineamiento de secuencias mltiples

Alineamiento de secuencias mltiples


El anlisis de grupos de secuencias que forman familias gnicas precisa de la capacidad de hacer conexiones entre ms de dos miembros de la familia. Los familia. alineamientos mltiples se utilizan para revelar caractersticas conservadas de la familia. familia.

Alineamiento de secuencias mltiples


Los alineamientos mltiples, al igual que los emparejados, son simplemente modelos. No hay nada inherentemente correcto o incorrecto en un alineamiento concreto. Lo importante es si el modelo refleja con precisin los datos biolgicos conocidos.

Alineamiento de secuencias mltiples


Los alineamientos basados en la secuencia o la estructura son, ambos, modelos imperfectos, pues ninguno puede recoger todos los niveles de informacin biolgica. Ambos enfoques son representaciones bsicas de aspectos particulares de la biologa y no se debe considerar que cualquiera de ellos representa cierta verdad ltima o patrn dorado.

Alineamiento de secuencias mltiples


Un alineamiento mltiple puede definirse como una tabla 2D en la que las filas representan secuencias individuales y las columnas posiciones de los residuos. Una posicin de un residuo en una secuencia no alineada se denomina posicin absoluta, mientras que la posicin del resduo alineado se llama posicin relativa.

Alineamiento de secuencias mltiples


A menudo se descartan los mtodos manuales por ser subjetivos. Sin embargo, los resultados de los programas de alineamiento automtico casi invariablemente necesitan un pulido manual, por lo que los editores de alineamiento se han convertido en herramientas esenciales.

Alineamiento de secuencias mltiples


Hay numerosas bases de datos de alineamientos accesibles a travs de la web. Son el resultado de aproximaciones diferentes: p.ej., la aplicacin de mtodos automticos para agrupar los recursos de secuencias primarias en familias o de intentos de producir discriminadores de familias gnicas para la inclusin en bases de datos secundarias.

Alineamiento de secuencias mltiples

Los alineamientos producidos por mtodos puramente automticos deben tratarse con cuidado, especialmente en los casos en que la similitud de las secuencias es baja; baja; a menudo dan lugar a un exceso de insercin de huecos que produce alineamientos incorrectos. incorrectos.

Alineamiento de secuencias mltiples


Se han desarrollado varias tcnicas computacionales para consultar bases de datos de secuencias primarias empleando estructuras de datos basadas en alineamientos. Un enfoque hbrido reciente es el PSIPSIBAST(1). Aunque de rpida ejecucin, tiene la desventaja de que la bsqueda automtica iterativa puede degenerar y llevar a la prdida del perfil.

Construccin de un protocolo de bsqueda de secuencias

Protocolo de bsqueda de secuencias


Al intentar caracterizar una secuencia de determinacin reciente, queremos saber de qu protena se trata, a qu familia puede pertenecer, cul es su funcin y cmo podemos explicar su funcin en trminos estructurales. estructurales.

Protocolo de bsqueda de secuencias


Todava no existe la base de datos o el software que permita dar respuesta directa a todas estas cuestiones. Es razonable conjuntar diversas tcnicas en un protocolo de bsqueda.

Protocolo de bsqueda de secuencias 1. Bsqueda de identidades en una base de datos compuesta. Es la primera y ms rpida prueba de si existe una secuencia exacta en las bases de datos pblicas.

Protocolo de bsqueda de secuencias


2. Bsqueda de similitudes. Mostrar si la secuencia similitudes. (p.ej. problema pertenece a una familia ampliada(p.ej.).

Protocolo de bsqueda de secuencias

3. Bsqueda en bases de datos de patrones. Indicar si la patrones. secuencia problema contiene algn motivo caracterstico que pueda sugerirnos aspectos particulares de su estructura o funcin(recursos).

Protocolo de bsqueda de secuencias


4. Bsquedas en bases de datos de clasificaciones de plegamientos; plegamientos; una vez se ha alcanzado un diagnstico de consenso, se puede acceder a ms imformacin (si se conoce una estructura) consultando las bases de datos de clases de plegamientos o examinando el resumen de informacin proporcionado en PDBSum. PDBSum.

Protocolo de bsqueda de secuencias


Slo mediante el empleo de un conjunto de bases de datos y herramientas podemos obtener el mximo de nuestro anlisis de secuencias, porque ninguna de las bases es completa y ninguno de los mtodos de bsqueda infalible.

Protocolo de bsqueda de secuencias


Uniendo todos los resultados, como las piezas de un rompecabezas, puede surgir una imagen estructural, funcional y evolutiva ms completa de una protena.

Protocolo de bsqueda de secuencias Un enfoque prctico se bosqueja en el tutorial interactivo en lnea en:
http://umber.sbs.man.ac.uk/dbbrowser/bioactivity/

Ejercicios prcticos

Ejercicios prcticos www.bioxeo.com/bioinfo

También podría gustarte