Bases de Datos Usadas en Bioinformatica

Curso Mitolab-Ciberer 09
APLICACIN DE HERRAMIENTAS BIOINFORMTICAS EN EL ESTUDIO DE LAS ENFERMEDADES GENTICAS HUMANAS INTRODUCCIN

Tradicionalmente, la investigacin en Biologa Molecular se ha realizado en el laboratorio experimental, pero la inmensa cantidad de datos generados en los ltimos aos con la conclusin del Proyecto Genoma Humano y desarrollo subsiguiente de
otros grandes proyectos de genotipado ( HapMap Project, 1000 Genomes Project) destinados a explorar la relacin entre variantes genticas y la predisposicin a las enfermedades, diagnstico y respuesta a los frmacos, requiere el desarrollo de herramientas
computacionales que permitan extraer toda la in ormacin contenida en las bases de datos para generar nuevo conocimiento! "on#untamente los continuos avances tecnolgicos en la Biologa Molecular, unidos al desarrollo in orm$tico, han aumentado las posibilidades de conocer el uncionamiento de los seres vivos a nivel molecular y celular! %s necesario uni icar toda esta in ormacin para alcanzar un cuadro completo de la biologa de la c&lula para comprender cmo se alteran distintos procesos en distintas en ermedades! 'or eso, hoy en da es di cil entender la investigacin en el $rea de las en ermedades gen&ticas humanas sin la Bioin orm$tica! (egn la de inicin del )ational "enter or Biotechnology *n ormation +)"B*, la Bioin orm$tica es la disciplina cient ica que combina biologa, computacin y tecnologas de la in ormacin! %l ob#etivo de esta disciplina es investigar y desarrollar herramientas tiles para llegar a entender el lu#o de in ormacin! *nicialmente, la bioin orm$tica se ocupaba sobre todo de la creacin de bases de datos de in ormacin biolgica, especialmente secuencias, y del desarrollo de herramientas para la utilizacin y an$lisis de los datos contenidos en esas bases de datos! -a Bioin orm$tica ha ido evolucionando para ocuparse cada vez con mayor pro undidad del an$lisis e interpretacin de los distintos tipos de datos +secuencias de genomas, proteomas, dominios y estructuras de protenas, etc,! .'ara qu& se utilizan las bases de datos/ -as bases de datos utilizadas en biologa molecular son archivos de datos que provienen de di erentes $reas almacenados de modo e icaz y uni orme y de uso pblico para la comunidad cient ica! 0ay que tener en cuenta los siguientes aspectos1 2 2 2 -os proveedores de recursos1 centros u organizaciones especializadas en tener y mantener las bases de datos! -as bases de datos1 hay mucha variedad! -as herramientas para estudiar y analizar toda la in ormacin contenida en las bases de datos y as poder extraer conocimiento en sentido biolgico a partir de ellas!
%xisten bases de datos primarias que contienen secuencias de 3)4 y de protenas, estructuras de protenas y per iles de expresin de genes y protenas! "ada registro de estas bases de datos contiene una secuencia y su correspondiente 5anotacin5 +comentarios que incluyen in ormacin acerca de esa secuencia, habitualmente hechos de modo manual por algn anotador,! -as bases de datos secundarias archivan los datos que son ruto del an$lisis de las bases de datos primarias, tales como amilias de protenas, motivos o dominios
proteicos, amilias de genes, mutaciones, polimor ismos, implicacin en en ermedades, etc! %xisten cientos de bases de datos, por el tipo de in ormacin se pueden distinguir1 bibliogr$ icas, taxonmicas, de nucletidos, genmicas, de protenas, de microarrays y otras! 6n cat$logo completo de todas las Bases de 3atos disponibles aparece todos los aos en la revista )ucleic 4cids 7esearch! %l artculo del 899: lo pod&is conseguir en http1;;nar!ox ord#ournals!org;cgi;content; ull;<=;suppl>?;38 %n este curso nos centraremos en las bases de datos bibliogr$ icas, de nucletidos, genmicas, de protenas y clnico2gen&ticas principalmente!
BASES DE DATOS
1. BASES DE DATOS BIBLIOGRFICAS

@rganizacin de los artculos publicados en la revistas de $mbito cient ico! 'ubmed +)"B*,1 http1;;AAA!ncbi!nlm!nih!gov;pubmed; Medline1 0ay que estar suscrito! http1;;medline!cos!com;
2. BASES DE DATOS DE NUCLETIDOS

-as bases de datos de secuencias de nucletidos son muy importantes para la biologa! 'ara asegurar la disponibilidad de las secuencias al pblico general, ninguna revista cient ica puede publicar un artculo describiendo una secuencia de nucletidos o proteica si no ha sido depositada en una de las < principales bases de datos internacionales! %xiste una colaboracin internacional entre las < principales bases de datos de nucletidos1 %MB-2BanB en el %B*, 33BC +3)4 3ata BanB o Capan, en el "*B;)*D y DenBanB en el )"B*! %stas bases de datos intentan alo#ar todas las secuencias de nucletidos que son de dominio pblico! %st$n divididas en varias secciones que re le#an grupos taxonmicos, adem$s de otros grupos tales como secuencias %(T +expressed sequence tag,, patentes, secuencias 0TDs +high2through2put genomic sequences,, etc! %n estas bases de datos prima la cantidad sobre la calidad, en el sentido de que contienen todo lo que los investigadores depositan en ellas, y son bastante heterog&neas en cuanto al tipo de secuencias, su calidad, su anotacin, etc! 'or este motivo son tambi&n redundantes, ya que la misma secuencia puede encontrarse repetida en distintos registros procedentes de distintos autores! %stas bases de datos son accesibles gratuitamente por *nternet y se sincronizan entre ellas cada 8E horas, por lo que contienen exactamente la misma in ormacin! "ada entrada en estas bases de datos es un registro que debe tener un identi icador nico, ormado por letras y;o nmeros, que se denomina 5nmero de acceso5 +accession number, y es estable +nunca cambiar$ en sucesivas versiones de ese registro,! 'or tanto, otro identi icador indicar$ las sucesivas versiones de cada acceso, por lo que es importante conocer ambos! %n ebrero de ?FFF, el consorcio
DenBanB;%mbl;33BC acord un ormato de versin consistente en el nmero de acceso seguido de un punto y un nmero! 4dem$s, DenBanB incluye el indicador "GI"!
Bsquedas en EMBL1 "onstituye el repositorio m$s importante en %uropa! -as principales uentes de secuencias de 3)4 y 7)4 son reportadas por investigadores individuales, proyectos de secuenciacin de genomas y aplicaciones patentadas1 http1;;AAA!ebi!ac!uB;embl;index!html Bsquedas en GenBank: DenBanB es la base de datos de secuencias del )*0 en %%66, una coleccin anotada de todas las secuencias de 3)4 disponibles pblicamente! http1;;AAA!ncbi!nlm!nih!gov;sites;entrez/dbGnuccoreHitoolGtoolbar DDBJ +Capn,1 http1;;AAA!ddb#!nig!ac!#p;Ielcome2e!html
3. BASES DE DATOS DE GENOMAS

-ocalizacin y an$lisis genmico de una secuencia en el genoma humano1 Denome BroAser y %)(%MB-1 extraccin de toda la in ormacin contenida en estos recursos! *n ormacin sobre secuencia +exn, c3)4, protena,! Denomes (erver1 in ormacin o enlaces de todos los genomas secuenciados por el momento, desde virus a humanos1 http1;;AAA!ebi!ac!uB;genomes;index!html Iormbase es el http1;;AAA!Aormbase!org; portal del genoma de gusano C. elegans1
Jlybase es el portal de la mosca del vinagre Drosophila melanogaster1 Jlybase http1;; lybase!bio!indiana!edu; y http1;;AAA! ruit ly!org
4. BASES DE DATOS DE PROTENAS

A. Entrez Proteins. 4ctualmente, las principales uentes de datos de secuencias de protenas son traducciones de secuencias de nucletidos depositadas en las bases de datos DenBaB;%MB-;33BC! %l )"B* protein database o rece el m$s simple y completo set de protenas deducidas! "asi todas las protenas en %ntrez tienen linBs a distintas bases de datos1 nucletidos en DenBanB, )"B* taxonoma, 'ubmed, MM3B, @M*M, etc! http1;;AAA!ncbi!nlm!nih!gov;sites;entrez/dbG'roteinHitoolGtoolbar B. UniprotKB! %xiste una gran variedad de bases de datos de protenas, sobre todo bases de datos secundarias! -as principales bases de datos primarias de amino$cidos est$n ahora uni icadas en 6niprotKB +6niversal 'rotein 7esource, http1;;AAA!uniprot!org;help;uniprotBb,
que contiene el cat$logo m$s completo de protenas y rene la in ormacin de las < principales bases de datos primarias1 (Aiss2'rot, Tr%MB- y '*7! UniProtkb !"iss#Prot: base de datos de secuencias proteicas proporcionando un alto nivel de in ormacin +descripcin de la uncin de la protena, estructura de los dominios, modi icaciones post2transduccionales, variantes, etc,! (Aiss2 'rot http1;;AAA!expasy!ch;sprot;! -as bsquedas de enzimas se realizan con %)LMM% database http1;;AAA!expasy!org;enzyme;! 'ara identi icar y caracterizar protenas es muy til la p$gina de 'roteomics Tools1 http1;;AAA!expasy!ch;tools; UniProtKB $rEMBL1 +Translation o %MB- )ucleotide (equence 3atabase, un suplemento de (Aiss2'rot que contiene todas las traducciones de las secuencias de nucletidos del %MB- pero que no se han integrado todava en el (Aiss2'rot1 http1;;AAA!ebi!ac!uB;uniprot; PI% +'rotein *n ormation 7esource,1 (e cre originalmente por Margaret 3ayho , y actualmente se mantiene en DeorgetoAn 6niversity en colaboracin con Munich *n ormation "enter para secuencias de protenas! '*7 es menos riguroso que (Aiss2prot en mantener la calidad de sus anotaciones1 http1;;pir!georgetoAn!edu;
&. 4lgunas bases de datos de proteomas1 estructuras secundarias o dominios! Nara segn la uente de las protenas y el an$lisis que se realiza sobre ellas! -os t&rminos de motivo o dominio de protena son ampliamente utilizados en biologa para describir ciertas partes de las protenas! (e puede de inir como motivo el con#unto de residuos de amino$cidos conservados que son importantes para la uncin proteica y est$n localizados a una pequea distancia unos de otros! 6n dominio proteico es una unidad compacta tridimensional que orma una estructura estable y muestra un nivel de conservacin en la evolucin! M'$I(!&A)1 %ncuentra los motivos en una secuencia1 http1;;myhits!isb2sib!ch;cgi2 bin;moti >scan P%'!I$E1 "ontiene in ormacin sobre la estructura secundaria de protenas, amilias, dominios, etc! %xpresiones regulares sobre (Aiss2prot1 '7@(*T% BL'&K!: Motivos alineados http1;;bioin ormatics!Aeizmann!ac!il;blocBs; de '7@(*T%;'7*)T(1
P%I)$!: "on#unto de motivos que de inen una amilia sobre (Aiss2prot;Tr%MB-1 http1;;AAA!bioin !manchester!ac!uB;dbbroAser;'7*)T(;index!php B-@"K( y '7*)T( utilizan motivos mltiples + ingerprints o bloques, EM'$I(1 es una base de datos de motivos de secuencia de protenas representando propiedades bioqumicas y unciones biolgicas conservadas1 http1;;moti !stan ord!edu;emoti ; I)$E%P%': *ntegra la in ormacin de muchas bases de datos de dominios1 *)T%7'7@ D. Bases de datos de estructuras proteicas tridimensiona*es1 -as estructuras tridimensionales de las protenas son mucho m$s di ciles de determinar
que las secuencias primarias, pero son, al menos en algunos aspectos, m$s in ormativas! %l conocimiento de las coordenadas de los $tomos proporciona la in ormacin de la arquitectura del sitio activo, la situacin de elementos secundarios, la exposicin espacial de las cadenas, las posiciones relativas de dominios individuales, etc! 0ay bases de datos de protenas que almacenan datos re eridos a la estructura, tanto las coordenadas obtenidas por cristalizacin como clasi icaciones de dominios estructurales por amilias! PDB: +'rotein 3ata BanB, 'rincipal base de datos de estructuras tridimensionales de protenas1 '3B! 'ara el modelado de protenas2mutaciones se pueden usar los programas1 vieAer2prot O!9, rasmol y pmol! E. 'tras bases de datos de prote+nas1 ,uman Protein %e-erence Database +0'73,1 -a base de datos 0'73 representa una plata orma centralizada para representar e integrar in ormacin perteneciente a arquitectura de dominios, modi icaciones post2traduccionales, redes de interaccin y en ermedades asociadas a cada protena en el proteoma humano! Toda la in ormacin depositada en 0'73 ha sido extrada de manera manual de la literatura por bilogos expertos los cuales leen, interpretan y analizan los datos publicados! http1;;AAA!hprd!org; Mitoc.ondria* Proteome1 http1;;AAA!mitop!de1:9:9;mitop8;
5. BASES DE DATOS CLNICO-GENTICAS
A. 'MIM contiene in ormacin sobre en ermedades gen&ticas humanas, genes y enotipos1 descripcin, caractersticas clnicas, diagnstico, gen&tica molecular, re erencias, etc! http1;;AAA!ncbi!nlm!nih!gov;omim B. Gene&ards es una base de datos de genes humanos que proporciona una in ormacin concisa genmica, protemica, transcriptmica, gen&tica y uncional de todos los genes humanos conocidos y candidatos! -a in ormacin incluye1 relacin con en ermedades, mutaciones, ()'s, expresin g&nica, uncin g&nica, interacciones protena2protena, etc1 http1;;AAA!genecards!org;
6. BASES DE DATOS DE
ARIANTES DEL GENOMA HUMANO
A. The ,uman Gene Mutation Database at the *nstitute o Medical Denetics in "ardi ! http1;;AAA!hgmd!c !ac!uB;ac;index!php *ncluye mutaciones en el 3)4 nuclear! 0DM3 ha recogido datos de mutaciones durante ?8 aos y se public en *nternet en abril del ?FF=! 4cuerdo con "elera! 0ay que estar suscrito! 'od&is entrar con mi passAord1 0DM38O:P=? y mi email1 erichardQcbm!uam!es en log in! Namos a buscar las mutaciones descritas en MM44, '40 +como gene symbol,, y propionic acidemia +como disease;phenotype,! B. ,uman Mitocondria* Genome Database1 "ontiene mutaciones en el genoma mitocondrial1 M*T@M4'1 http1;;AAA!mitomap!org;
&. Base de datos de po*imor-ismos1 6n polimor ismo de un slo nucletido o ()' +Single Nucleotide Polymorphism) es una variacin en la secuencia de 3)4 que a ecta a una sola base de una secuencia del genoma! (in embargo, algunos autores consideran que cambios de unos pocos nucletidos, como tambi&n pequeas inserciones y deleciones pueden ser consideradas como ()'! 6na de estas variaciones debe darse al menos en un ?R de la poblacin para ser considerada como un ()'! -os ()' orman hasta el F9R de todas las variaciones genmicas humanas, y aparecen cada ?99 a <99 bases en promedio, a lo largo del genoma humano! 3os tercios de los ()' corresponden a la sustitucin de una citosina por una timina! a/ !in0*e )uc*eotide Po*1morp.ism1 db()'1 http1;;AAA!ncbi!nlm!nih!gov;pro#ects;()'; 0erramientas de bsquedas de ()'s uncionales1 'upasuite1 http1;;pupasuite!bioin o!cip !es; J2()'1 http1;;compbio!cs!queensu!ca;J2()'; (M()'s1 http1;;AAA!sysnps!org
b/ ,apmap1 %s un cat$logo de variantes gen&ticas comunes que ocurren en los humanos! 3escribe cu$les son esas variantes, dnde ocurren en el 3)4, y cmo est$n distribuidas entre la gente en poblaciones y entre poblaciones en di erentes partes del mundo! http1;;AAA!hapmap!org;index!html!en c/ Data Base o- Genomic 2ariants +3DN,1 'roporciona un resumen de la variacin estructural en el genoma humano! %l contenido de la base de datos es solamente representando variaciones estructurales +alteraciones genmicas que implican segmentos de 3)4 S?Bb, identi icadas en muestras control! 'roporciona un cat$logo til de datos de controles para estudios de correlacin entre el genotipo y enotipo! http1;;pro#ects!tcag!ca;variation;
HERRAMIENTAS
A*ineamientos 0*oba*es 1 *oca*es de secuencias! 4lineamientos mltiples usando "lustalA http1;;AAA!ebi!ac!uB;Tools;clustalA8;index!html en el %B* +leer antes el tutorial sobre "lustalI disponible en1 http1;;AAA!ebi!ac!uB;8can;tutorials;protein;clustalA!html Bsqueda de secuencias en bases de datos mediante alineamientos +bsqueda de secuencias similares,1 http1;;blast!ncbi!nlm!nih!gov;Blast!cgi y todas sus variantes explicadas en la gua de seleccin de programas1 http1;;AAA!ncbi!nlm!nih!gov;B-4(T;producttable!shtml
OB,ETI OS
%l ob#etivo de esta pr$ctica es la utilizacin de las herramientas bioin orm$ticas para la exploracin del genoma humano y para la bsqueda de in ormacin relacionada con en ermedades gen&ticas! 'ara ello se plantean los siguientes ob#etivos espec icos1 2 2 2 2 "onocer en pro undidad las bases de datos! 6tilizar con soltura las herramientas bioin orm$ticas para el estudio de en ermedades gen&ticas humanas! 3esarrollar e#emplos que permitan el uso de estos recursos! (uministrar una perspectiva de las lneas de actuacin en este campo para el desarrollo de otros traba#os de investigacin!
PRCTICA
A!"#$#%&%'( 1-6) Exploracin de bases de datos biolgicos y comparacin
de secuencias. En estas actividades exploraremos varias bases de datos de secuencias de DN , de prote!nas y de genomas. partir de secuencias annimas de DN reali"aremos b#s$uedas en las bases de datos, por e%emplo para identificar con $ue tipo de gen o prote!na estamos traba%ando. &eali"aremos alineamientos de secuencias y b#s$uedas de secuencias 'omlogas. (mparte) Eva &ic'ard A!"#$#%&%'( *-+) nlisis de secuencias de DN . *e anali"arn distintas secuencias de DN de pacientes con enfermedades metablicas 'ereditarias y se identificarn las mutaciones aprendiendo las normas para su nomenclatura. &eali"aremos un estudio del efecto de mutaciones de splicing y de polimorfismos. (mparte) +ourdes &ui".
A!"#$#%&% 1) B&('( %' %&"-( %' ./!0'1"#%-( 2 34-"'5.&(

*denti icar y descargar secuencias de 3)4 y protenas! "omo se ha indicado anteriormente, existen < grandes servicios principales de acceso a bases de datos de 3)4 y protenas, localizados en 6(4, %uropa y Capn1

%n 6(4 existe la base de datos DenBanB %n %uropa existe la base de datos %MB%n Capn existe la base de datos 33BC1 http1;;AAA!ddb#!nig!ac!#p;Ielcome2 e!html
-as bases de datos de $cidos nucleicos y protenas son pr$cticamente las mismas en las < instituciones, ya que intercambian registros cada 8E horas! -as tres bases de datos se di erencian en los distintos servicios que o recen, y en el modo en que se o recen dichos servicios! 0ay muchas ormas de realizar una bsqueda en DenBanB! (e puede hacer usando slo texto o cali icadores! -a bsqueda es altamente sensitiva a lo que se escriba, es decir, a tu 5query5!
E3ercicio 4.4: Busca en DenBanB la secuencia codi icadora completa +cds, nucleotdica del gen de la methylmalonic aciduria cbl4 type! ."u$ntos registros encuentras con cada una de la siguientes bsquedas1 MM44, human methylmalonic aciduria cbl4 type, human 4)3 methylmalonic aciduria cbl4 type, human methylmalonic aciduria cbl4 type gene/ 6na vez que hayas identi icado la secuencia m$s apropiada, anota su nmero de identi icacin! ."u$l es el smbolo de este gen/, ."u$l es su longitud/, .qu& uncin tiene la protena/, .dnde se localiza/! E3ercicio 4.5: 7epite la bsqueda del gen en el %)(%MB-! Busca el transcrito, la protena, los exones, los ()'s! 4prender a exportar la secuencia proteica en ormato asta! 4ctualmente este navegador es el m$s usado por los investigadores para ver genes y sus productos, toda la in ormacin est$ integrada! E3ercicio 4.6: 4naliza tambi&n la in ormacin del gen en las siguientes direcciones1 6niDene1 http1;;AAA!ncbi!nlm!nih!gov;6niDene;clust!cgi/ 6D*3G=8?:8PHT4T*3GF=9=H(%47"0G0omoR89sapiensUorganismVR894)3 R89MM44 y en %ntrez Dene1 http1;;AAA!ncbi!nlm!nih!gov;gene;?==P:O/ ordinalposG?HitoolG%ntrez(ystem8!'%ntrez!Dene!Dene>7esults'anel!Dene>7N3oc( um
A!"#$#%&% 2) B&('( %' %&"-( %' 6'.-7&(

3ebido a la explosin en el nmero genomas completos secuenciados durante los ltimos aos, y al inter&s en su an$lisis y comparacin, existen diversas bases de datos de genomas! %ntre las m$s importantes se encuentran, como se ha mencionado anteriormente1

Base de datos de genomas del )"B* Base de datos de genomas del %MB-
4simismo, se han desarrollado o una serie de herramientas bioin orm$ticas para su exploracin, como el visor de mapas del )"B* de genomas eucariticos, y el navegador de %)(%MB-! E3ercicio 5.41 %n el visor de mapas del genoma humano del )"B*, utiliza el sistema de bsqueda para localizar el gen de human methylmalonic aciduria cbl4 type! ."u$l es su posicin cromosmica/ .Wu& dos genes rodean a este gen en el mapa citogen&tico/ E3ercicio 5.5: 7epite esta misma bsqueda en el navegador de genomas de %)(%MB-!
A!"#$#%&% 3) O"4&( 8&('( %' %&"-(

%n *nternet hay una innumerable cantidad de bases de datos disponibles que no slo son de secuencias de $cidos nucleicos y protenas!
@M*M +@nline Mendelian *nheritance in Man,, que re le#a estudios sobre las causas moleculares de las en ermedades humanas! '3B +'rotein 3ata BanB,, de estructuras tridimensionales de las protenas! (Aiss 83 'age1 Base de datos de protemica, que incluyen in ormacin e im$genes de geles 823%!
E3ercicio 6.4. Busca la in ormacin relativa al gen de human methylmalonic aciduria cbl4 type en la base de en ermedades @M*M! ."antos intrones y exones se incluyen/ .Wu& tratamiento de lleva a cabo con estos pacientes/! E3ercicio 6.5. Busca la in ormacin relativa al gen de human phenylalanine hydroxylase en la base de en ermedades @M*M! ."antos intrones y exones se incluyen/ .Wu& tratamiento se lleva a cabo con estos pacientes/! .0as notado alguna di erencia en estas dos en ermedades/, .la extensin de la in ormacin es la misma/! E3ercicio 6.6. 4n$lisis de estructuras tridimensionales con '3B! %n avanced search, poner el nmero de %" 8!O!?!?P correspondiente a methylmalonic aciduria cblB type +human 4T'1 cobalamin adenosyltrans erase,! 4nalizar la estructura tridimensional de la protena!
A!"#$#%&% 4) C-73&4&!#1. 2 &0#.'&7#'."- %' ('!/'.!#&(

'ara poder comparar secuencias, debemos de proceder siempre a su alineamiento, ya que necesitamos asegurarnos de que estamos realizando comparaciones entre posiciones homlogas, es decir que proceden de una posicin ancestral comn! 3ebe de quedar claro que simi*itud y .omo*o0+a son cosas di erentes! (imilitud es parecido, y se suele medir en porcenta#e! %l concepto de homologa es evolutivo, e implica descendencia a partir de un ancestro comn! -a homologa no se mide de orma cuantitativa, como la similitud1 o se es homlogo o no se es! -os m&todos para comparar dos secuencias se pueden agrupar en dos grandes grupos1
G*oba*1 comparacin de dos secuencias en toda su longitud, tratando de obtener el me#or alineamiento posible! %n general son aplicables a secuencias m$s o menos parecidas y de longitudes similares! Loca*1 comparacin de pequeos ragmentos +5palabras5, de las dos secuencias en toda su longitud, tratando de obtener el me#or alineamiento posible! (on as aplicables a secuencias con grados di erentes de similitud o con longitudes di erentes! -a mayora de los bilogos utilizan este tipo de m&todos!
6n alineamiento mltiple de secuencias es simplemente el alineamiento de m$s de dos secuencias! 3e nuevo, se trata de establecer relaciones de homologa! 4lgunos de los m&todos de alineamiento mltiple m$s e icaces son los m&todos #er$rquicos, que construyen primero un $rbol que sirve de gua para el alineamiento posterior! 6no de los programas m$s utilizados es "lustalI! E3ercicio 7.4. 4linea la protena MM4B humana con la de ratn + M. musculus), C. elegans, y D. rerio +Lebra ish, utilizando el servidor %B* "lustalI! Buscar los archivos de las protenas de las distintas especies en el %)(%MB-, exportarlos en ormato J4(T4 a un archivo de Iord y hacer el alineamiento en clustalA! 4nalizar tambi&n el alineamiento con todos los ortlogos que realiza el %nsembl!
."u$ntos homlogos +ortlogos, aparecen en %nsembl/, .qu& regin est$ m$s conservada en todas las especies/, .hay muchos gaps/, .'or qu&/, .Wu& longitud tienen/, .'or qu&/!
A!"#$#%&% 5) B9(:/'%& %' ('!/'.!#&( (#7#0&4'(

-os m&todos de bsqueda de secuencias en bases de datos se basan en el alineamiento y similitud signi icativa entre la secuencia problema +5query5, y las secuencias depositadas base de datos! %l algoritmo m$s utilizado de bsqueda de secuencias es el B-4(T! BLA!$. *denti icacin de dominios y secuencias homlogas en distintas especies! 6na de las aplicaciones de B-4(T m$s habituales es la bsqueda bioin orm$tica +in silico) de genes humanos causantes de en ermedad de los que slo se conoce la uncin de la protena, utilizando como sondas genes o protenas homlogas de otros organismos, es lo que se conoce como genmica comparativa! Mediante B-4(T se pueden detectar regiones relativamente cortas de similitud entre la sonda utilizada y las protenas resultantes de la traduccin conceptual de la base de datos de %(T +Expressed Se uence !ags,, secuencias parciales de c3)4s procedentes de genotecas espec icas de te#ido o tipo celular! 0ay que tener en cuenta que la secuencia de amino$cidos est$ m$s conservada que la de nucletidos, por eso se usa como sonda la secuencia de amino$cidos y la herramienta de tb*astn! 6n e#emplo de esta aplicacin la pod&is encontrar en la siguiente re erencia1 Dallardo et al! 899? http1;;AAA!cell!com;4C0D;retrieve;pii;(9998F8FP9P=E9:=O en la que se describe el clona#e in silico de los genes humanos M""4 y M""B, responsables de la metilcrotonilglicinuria! 6n e#emplo de cmo las t&cnicas para localizar genes responsables de %M0 han avanzado incorporando la in ormacin de bases de datos pblicas, lo constituye la reciente identi icacin de los genes implicados en el metabolismo intracelular de cobalaminas, grupos de complementacin c"l# y c"l$ +acidemia metilmalnica aislada,, genes MM44 y MM4B, mediante bsquedas de homologa a protenas bacterianas que ormaban parte de un opern bacteriano en el que se encontraba la metilmalonil2"o4 mutasa 3obson et al! 8998 http1;;AAA!pnas!org;content;FF;8E;?OOOE!long 3obson et al! 8998bis http1;;hmg!ox ord#ournals!org;cgi;content; ull;??;8=;<<=? %sta estrategia se basa en el hecho de que en bacterias es recuente que los genes implicados en una misma ruta metablica se encuentren agrupados en lo que se denomina cluster u opern! E3ercicio 8.4. Buscar secuencias similares de protenas a la protena methylmalonic aciduria cblB type human +MM4B,! "onseguir la secuencia en ormato asta en el %)(%MB-! +ya la ten&is en el archivo de Iord de las secuencias asta, "opiar la secuencia! *r a la base de datos de B-4(T del )"B*1 http1;;blast!ncbi!nlm!nih!gov;Blast!cgi/"M3GIebH'4D%>TM'%GBlast0ome *r a protein B-4(T y pegar la secuencia en ormato asta! 4nalizar los datos! .(e obtienen las protenas homlogas que en el apartado de ortlogos del %)(%MB-/, .cmo es el alineamiento/!
A!"#$#%&% 6) A.;0#(#( %' ('!/'.!#&( %' 34-"'5.&(
10
%s interesante resaltar que podemos tambi&n obtener la siguiente in ormacin de la secuencia de protena1 prediccin p&ptido seal, peso molecular, p%, localizacin celular, etc! http1;;AAA!uniprot!org;uniprot;'889<< E3ercicio 9.4. "alcula el peso molecular y el p% de la protena methylmalonic aciduria cblB type human +MM4B,, con la base de datos de http1;;AAA!expasy!ch;tools;pi>tool!html E3ercicio 9.5. 'redice el p&ptido lder de la secuencia de la protena methylmalonic aciduria cblB type human +MM4B, con la base de datos de http1;;AAA!cbs!dtu!dB;services;(ignal'; %xiste otra Aeb que es espec ica de p&ptido seal de protenas mitocondriales1 M*T@'7@T http1;;ihg8!helmholtz2muenchen!de;ihg;mitoprot!html %xiste una base de datos http1;;AAA!signalpeptide!de;index!php/mGintro de los p&ptidos lderes1
A!"#$#%&% *) A.;0#(#( %' ('!/'.!#& %' DNA
:.4 Mapas de restricci;n.

(i queremos cortar una secuencia nos ser$ muy til conocer su mapa de restriccin! %sto lo podemos realizar con la herramienta Mapper, o con I%B"6TT%7 http1;;rna!lundberg!gu!se;cutter8; E3ercicio :.4. "onstruye el mapa de restriccin de la secuencia de la methylmalonic aciduria cbl4 type con Mapper!
:.5. Identi-icaci;n de mutaciones.

6tilizando el programa &,%'MA! que nos permite visualizar secuencias, vamos a analizar el exn ?? del gen '40 que ha sido ampli icado a partir de muestras de 3)4 genmico de pacientes con enilcetonuria! %l ob#etivo de esta actividad es identi icar las mutaciones en homocigosis o en heterocigosis y aprender la nomenclatura! 4brir las secuencias ?2: +escoger dos, con el "07@M4(! *denti icar la secuencia exnica y la intrnica lanqueante, y compararla con la secuencia normal +sacada del %)(%MB-,! 4notar los posibles cambios, con irmar que no son ()' +en el %)(%MB-,! .-as mutaciones est$n en homocigosis o en heterocigosis/! 4nalizar el e ecto de las mutaciones en la secuencia codi icante! .Wu& cambio de amino$cido producen/! .M las mutaciones en la secuencia intrnica/! .Wu& e ecto tendr$n/! ."mo se nombran cada una de estas mutaciones +nombre comn y nombre sistem$tico,/! 6tilizar la in ormacin siguiente1
Nomenclatura de mutaciones& "ada tipo de mutacin requiere una de inicin precisa del cambio predecible a nivel de protena, a nivel del 3)4 genmico y del m7)4, si corresponde! -as normas internacionales de nomenclatura de mutaciones se recogen en1 http1;;AAA!hgvs!org;mutnomen; ! %n el caso de sustituciones de amino$cidos se utiliza normalmente el cdigo de una letra para &stos, apareciendo primero el cdigo del
11
amino$cido que cambia, la posicin y el amino$cido mutante con una p! delante para indicar que se trata de la nomenclatura a nivel de protena +p! e#! p!7?P=-, indica un cambio de arginina por leucina en la posicin ?P= de la protena,! %n el caso de mutaciones nonsense, el codn de parada se designa con una T +p!78E<T, sustitucin de una arginina por un codn de parada en la posicin 8E< de la protena,! %sta designacin de las mutaciones se conoce como nombre comn +el m$s usual,! %n el nombre sistem$tico, la posicin del nucletido aparece primero y luego el cambio +?8E:D4, y se incluye una c minscula +c!?8E:D 4,, para indicar que se trata de la numeracin del c3)4 +secuencia codi icante, complementaria al m7)4 y designando como nucletido ? la 4 del codn de iniciacin 4TD de la cadena polipeptdica,! 'ara las mutaciones de splicing localizadas en intrones, en el nombre comn se designa el nmero del intrn tras las siglas *N( + inter'ening se uence, y la posicin nucleotdica del cambio, contando a partir del exn m$s cercano +p! e#! *N(<X? g t, cambio de una g por una t en la base ? del intrn <,! %n general, se suele escribir las bases intrnicas en minsculas y las exnicas en maysculas, para acilitar el reconocimiento de secuencias exnicas e intrnicas! 'ara inserciones o deleciones se utilizan las abreviaturas ins y del, respectivamente +p! e#! ?898delE, delecin de E nucletidos en la posicin ?898 del c3)4, y en el nombre comn se incluye las siglas (s, si produce un cambio en la ase de lectura +(rameshi(t,!
Ejemplos de nomenclatura de mutaciones

)ombre comn )ombre sistem$tico % ecto
Missense (cambio de aminocido) p!78E<W c!P8: D4 p!*=OT c!?FE T" )onsense (parada de la traduccin) p!7???T c!<<?"T Inserci;n p!KEO8 sins4 De*eci;n p!'8?? sdel" p!M?F: s c!?<OOins4 c!=<8del" c!OF<>=E?del88pb
cambio de 4rg por Dln en la posicin 8E< cambio de *le por Thr en la posicin =O
cambio de 4rg ??? por codn de parada de la traduccin cambio de la ase de lectura +(rameshi(t, cambio de la ase de lectura +(rameshi(t, cambio de la ase de lectura +(rameshi(t,
!p*icin0 (procesamiento del mRNA) *N(?9nt2??gSa c!?9==2??ga *N(?8nt?gSa c!?<?OX?ga
alteracin del splicing +activacin sitio crptico, alteracin del splicing )exon s*ipping)
%ste ltimo tipo de mutaciones y la nomenclatura segn su e ecto se describir$n con mayor detalle en la siguiente actividad!
A!"#$#%&% <) A.;0#(#( %' 7/"&!#-.'( %' (30#!#.6
12
'b3eti<o: 6tilizaremos distintos programas para predecir seales de splicing en una regin, calcular su uerza relativa y ver cmo las mutaciones las a ectan! Namos a analizar las mutaciones *N(?92??gSa, y *N(?92<gSc en el exn ?? del gen '40, identi icadas en la actividad anterior y otras de localizacin exnica! In-ormaci;n: 4proximadamente un ?OR de las mutaciones puntuales asociadas a en ermedades gen&ticas humanas a ectan al procesamiento del m7)4 o splicing! (e conoce como splicing al proceso mediante el cual el m7)4 su re el procesamiento de eliminacin de sus intrones previamente a la traduccin de la secuencia codi icante! (e lleva a cabo por un comple#o macromolecular denominado spliceosoma, compuesto por O partculas ribonucleoprotenas 2sn7)'s2 +6?, 68, 6E, 6O y 6=, y m$s de O9 protenas! "ada sn7)' est$ compuesto por un 7)4 pequeo nuclear, rico en uridinas +sn7)4, y mltiples protenas asociadas! -as mutaciones de splicing pueden a ectar a las secuencias conservadas OY donadora o <Y aceptora de splicing, el tracto polipirimidnico y la secuencia de rami icacin B'(, o a secuencias reguladoras auxiliares, menos conservadas como son los potenciadores o enhancers y silenciadores de splicing que pueden estar localizados en secuencias exnicas +%(% Zexonic splicing enhancers2, %(( 2exonic splicing silencers2, o intrnicas +*(% Zintronic splicing enhancers2, *(( Zintronic splicing silencers2,! -os dos e ectos m$s comunes de las mutaciones de splicing son la no inclusin de algn exn en el m7)4 +exon s*ipping, o la activacin de nuevos sitios crpticos de splicing resultando en la generacin de transcritos aberrantes! Mediante el an$lisis in s+lico podemos orientarnos sobre el mecanismo molecular por el cal la mutacin e#erce su e ecto, bien por disminuir la complementariedad de secuencia entre distintas protenas del spliceosoma como la ribonucleoprotena 6? que se une espec icamente al sitio OY de splicing[ bien por modi icar secuencias reconocidas como enhancers de splicing exnicos e intrnicos +%(%s e *(%s, donde se unen las protenas (7 auxiliares de splicing! 'ara ello, est$n disponibles distintos programas1 ?, AAA! ruit ly!org;seq>tools;splice!html, para determinar sitios de splicing 8, http1;;ast!bioin o!tau!ac!il;(plice(iteJrame!htm <, http1;;genes!mit!edu;burgelab;maxent;Tmaxentscan>scoreseq!html determinar el score 4) http1;;cryp2sBip!img!cas!cz; para predecir el e ecto de mutaciones O, %(% inder http1;;rulai!cshl!edu;tools;%(%; =, 7%("6%2%(% http1;;genes!mit!edu;burgelab;rescue2ese 7) '%(T (erver +http1;;cubAeb!biology!columbia!edu;pesx,!
para
%stos tres ltimos acilitan la identi icacin de posibles %(%s bas$ndose en su reconocimiento por cuatro protenas (71 (J8;4(J, ("<O, (7pE9 y (7pOO!
13
!ecuencias imp*icadas en e* procesamiento de* m%)A o splicing
E3ercicio =.4: 4naliza las secuencias <\ y O\ de splicing del exn ?? con los programas ?, 8, < .Tienen un score alto, es decir, son buenas secuencias para ser reconocidas por la maquinaria de splicing/! 4naliza la secuencia <\ de splicing con las mutaciones *N(?92<gSc y *N(?92??gSa! .Wu& e ecto ves sobre el score/! .Wu& ocurre con la mutacin *N(?92??gSa/! E3ercicio =.5: 4naliza la mutacin *N(?92<gSc con el programa E! .Wu& e ecto predice/! E3ercicio =.6: 4naliza con los programas O y = el cambio c!??OOD;" +-<:O-, en el mismo exn ??, para analizar si podra a ectar al splicing +ya que no cambia aa,!
A!"#$#%&% +) A.;0#(#( %' SNP(
E3ercicio >.4: 4naliza los ()'s anotados en el gen MM4B utilizando el %)(%MB- y el servidor (M()'s1 http1;;AAA!sysnps!org;, que utiliza la in ormacin integrada de las siguientes bases de datos +ltima versin actualizada,1 %nsembl O<, 0apmap release 8E, 0aplovieA E!? y 'upasuite! 4brir la p$gina del servidor 'upasuite http1;;pupasuite!bioin o!cip !es; para ver las opciones de asignacin de unciones a los ()'s! .Wu& e ecto predice el programa para cada ()'/! .%st$n validados los ()'s/! ."u$ntos tag2()'s hay/!
14

Bases de Datos Usadas en Bioinformatica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bases de Datos Usadas en Bioinformatica

Cargado por

Copyright:

Formatos disponibles

Curso Mitolab-Ciberer 09

APLICACIN DE HERRAMIENTAS BIOINFORMTICAS EN EL ESTUDIO DE LAS ENFERMEDADES GENTICAS HUMANAS INTRODUCCIN

1. BASES DE DATOS BIBLIOGRFICAS

2. BASES DE DATOS DE NUCLETIDOS

3. BASES DE DATOS DE GENOMAS

4. BASES DE DATOS DE PROTENAS

5. BASES DE DATOS CLNICO-GENTICAS

ARIANTES DEL GENOMA HUMANO

A!"#$#%&% 1) B&('( %' %&"-( %' ./!0'1"#%-( 2 34-"'5.&(

A!"#$#%&% 2) B&('( %' %&"-( %' 6'.-7&(

A!"#$#%&% 3) O"4&( 8&('( %' %&"-(

A!"#$#%&% 4) C-73&4&!#1. 2 &0#.'&7#'."- %' ('!/'.!#&(

A!"#$#%&% 5) B9(:/'%& %' ('!/'.!#&( (#7#0&4'(

A!"#$#%&% 6) A.;0#(#( %' ('!/'.!#&( %' 34-"'5.&(

A!"#$#%&% *) A.;0#(#( %' ('!/'.!#& %' DNA

:.4 Mapas de restricci;n.

:.5. Identi-icaci;n de mutaciones.

Ejemplos de nomenclatura de mutaciones

!picin0 (procesamiento del mRNA) N(?9nt2??gSa c!?9==2??ga *N(?8nt?gSa c!?<?OX?ga

A!"#$#%&% <) A.;0#(#( %' 7/"&!#-.'( %' (30#!#.6

!ecuencias impicadas en e procesamiento de* m%)A o splicing

A!"#$#%&% +) A.;0#(#( %' SNP(

También podría gustarte