Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bases de Datos Usadas en Bioinformatica
Bases de Datos Usadas en Bioinformatica
computacionales que permitan extraer toda la in ormacin contenida en las bases de datos para generar nuevo conocimiento! "on#untamente los continuos avances tecnolgicos en la Biologa Molecular, unidos al desarrollo in orm$tico, han aumentado las posibilidades de conocer el uncionamiento de los seres vivos a nivel molecular y celular! %s necesario uni icar toda esta in ormacin para alcanzar un cuadro completo de la biologa de la c&lula para comprender cmo se alteran distintos procesos en distintas en ermedades! 'or eso, hoy en da es di cil entender la investigacin en el $rea de las en ermedades gen&ticas humanas sin la Bioin orm$tica! (egn la de inicin del )ational "enter or Biotechnology *n ormation +)"B*, la Bioin orm$tica es la disciplina cient ica que combina biologa, computacin y tecnologas de la in ormacin! %l ob#etivo de esta disciplina es investigar y desarrollar herramientas tiles para llegar a entender el lu#o de in ormacin! *nicialmente, la bioin orm$tica se ocupaba sobre todo de la creacin de bases de datos de in ormacin biolgica, especialmente secuencias, y del desarrollo de herramientas para la utilizacin y an$lisis de los datos contenidos en esas bases de datos! -a Bioin orm$tica ha ido evolucionando para ocuparse cada vez con mayor pro undidad del an$lisis e interpretacin de los distintos tipos de datos +secuencias de genomas, proteomas, dominios y estructuras de protenas, etc,! .'ara qu& se utilizan las bases de datos/ -as bases de datos utilizadas en biologa molecular son archivos de datos que provienen de di erentes $reas almacenados de modo e icaz y uni orme y de uso pblico para la comunidad cient ica! 0ay que tener en cuenta los siguientes aspectos1 2 2 2 -os proveedores de recursos1 centros u organizaciones especializadas en tener y mantener las bases de datos! -as bases de datos1 hay mucha variedad! -as herramientas para estudiar y analizar toda la in ormacin contenida en las bases de datos y as poder extraer conocimiento en sentido biolgico a partir de ellas!
%xisten bases de datos primarias que contienen secuencias de 3)4 y de protenas, estructuras de protenas y per iles de expresin de genes y protenas! "ada registro de estas bases de datos contiene una secuencia y su correspondiente 5anotacin5 +comentarios que incluyen in ormacin acerca de esa secuencia, habitualmente hechos de modo manual por algn anotador,! -as bases de datos secundarias archivan los datos que son ruto del an$lisis de las bases de datos primarias, tales como amilias de protenas, motivos o dominios
Curso Mitolab-Ciberer 09
proteicos, amilias de genes, mutaciones, polimor ismos, implicacin en en ermedades, etc! %xisten cientos de bases de datos, por el tipo de in ormacin se pueden distinguir1 bibliogr$ icas, taxonmicas, de nucletidos, genmicas, de protenas, de microarrays y otras! 6n cat$logo completo de todas las Bases de 3atos disponibles aparece todos los aos en la revista )ucleic 4cids 7esearch! %l artculo del 899: lo pod&is conseguir en http1;;nar!ox ord#ournals!org;cgi;content; ull;<=;suppl>?;38 %n este curso nos centraremos en las bases de datos bibliogr$ icas, de nucletidos, genmicas, de protenas y clnico2gen&ticas principalmente!
BASES DE DATOS
Curso Mitolab-Ciberer 09
DenBanB;%mbl;33BC acord un ormato de versin consistente en el nmero de acceso seguido de un punto y un nmero! 4dem$s, DenBanB incluye el indicador "GI"!
Bsquedas en EMBL1 "onstituye el repositorio m$s importante en %uropa! -as principales uentes de secuencias de 3)4 y 7)4 son reportadas por investigadores individuales, proyectos de secuenciacin de genomas y aplicaciones patentadas1 http1;;AAA!ebi!ac!uB;embl;index!html Bsquedas en GenBank: DenBanB es la base de datos de secuencias del )*0 en %%66, una coleccin anotada de todas las secuencias de 3)4 disponibles pblicamente! http1;;AAA!ncbi!nlm!nih!gov;sites;entrez/dbGnuccoreHitoolGtoolbar DDBJ +Capn,1 http1;;AAA!ddb#!nig!ac!#p;Ielcome2e!html
Jlybase es el portal de la mosca del vinagre Drosophila melanogaster1 Jlybase http1;; lybase!bio!indiana!edu; y http1;;AAA! ruit ly!org
Curso Mitolab-Ciberer 09
que contiene el cat$logo m$s completo de protenas y rene la in ormacin de las < principales bases de datos primarias1 (Aiss2'rot, Tr%MB- y '*7! UniProtkb !"iss#Prot: base de datos de secuencias proteicas proporcionando un alto nivel de in ormacin +descripcin de la uncin de la protena, estructura de los dominios, modi icaciones post2transduccionales, variantes, etc,! (Aiss2 'rot http1;;AAA!expasy!ch;sprot;! -as bsquedas de enzimas se realizan con %)LMM% database http1;;AAA!expasy!org;enzyme;! 'ara identi icar y caracterizar protenas es muy til la p$gina de 'roteomics Tools1 http1;;AAA!expasy!ch;tools; UniProtKB $rEMBL1 +Translation o %MB- )ucleotide (equence 3atabase, un suplemento de (Aiss2'rot que contiene todas las traducciones de las secuencias de nucletidos del %MB- pero que no se han integrado todava en el (Aiss2'rot1 http1;;AAA!ebi!ac!uB;uniprot; PI% +'rotein *n ormation 7esource,1 (e cre originalmente por Margaret 3ayho , y actualmente se mantiene en DeorgetoAn 6niversity en colaboracin con Munich *n ormation "enter para secuencias de protenas! '*7 es menos riguroso que (Aiss2prot en mantener la calidad de sus anotaciones1 http1;;pir!georgetoAn!edu;
&. 4lgunas bases de datos de proteomas1 estructuras secundarias o dominios! Nara segn la uente de las protenas y el an$lisis que se realiza sobre ellas! -os t&rminos de motivo o dominio de protena son ampliamente utilizados en biologa para describir ciertas partes de las protenas! (e puede de inir como motivo el con#unto de residuos de amino$cidos conservados que son importantes para la uncin proteica y est$n localizados a una pequea distancia unos de otros! 6n dominio proteico es una unidad compacta tridimensional que orma una estructura estable y muestra un nivel de conservacin en la evolucin! M'$I(!&A)1 %ncuentra los motivos en una secuencia1 http1;;myhits!isb2sib!ch;cgi2 bin;moti >scan P%'!I$E1 "ontiene in ormacin sobre la estructura secundaria de protenas, amilias, dominios, etc! %xpresiones regulares sobre (Aiss2prot1 '7@(*T% BL'&K!: Motivos alineados http1;;bioin ormatics!Aeizmann!ac!il;blocBs; de '7@(*T%;'7*)T(1
P%I)$!: "on#unto de motivos que de inen una amilia sobre (Aiss2prot;Tr%MB-1 http1;;AAA!bioin !manchester!ac!uB;dbbroAser;'7*)T(;index!php B-@"K( y '7*)T( utilizan motivos mltiples + ingerprints o bloques, EM'$I(1 es una base de datos de motivos de secuencia de protenas representando propiedades bioqumicas y unciones biolgicas conservadas1 http1;;moti !stan ord!edu;emoti ; I)$E%P%': *ntegra la in ormacin de muchas bases de datos de dominios1 *)T%7'7@ D. Bases de datos de estructuras proteicas tridimensiona*es1 -as estructuras tridimensionales de las protenas son mucho m$s di ciles de determinar
Curso Mitolab-Ciberer 09
que las secuencias primarias, pero son, al menos en algunos aspectos, m$s in ormativas! %l conocimiento de las coordenadas de los $tomos proporciona la in ormacin de la arquitectura del sitio activo, la situacin de elementos secundarios, la exposicin espacial de las cadenas, las posiciones relativas de dominios individuales, etc! 0ay bases de datos de protenas que almacenan datos re eridos a la estructura, tanto las coordenadas obtenidas por cristalizacin como clasi icaciones de dominios estructurales por amilias! PDB: +'rotein 3ata BanB, 'rincipal base de datos de estructuras tridimensionales de protenas1 '3B! 'ara el modelado de protenas2mutaciones se pueden usar los programas1 vieAer2prot O!9, rasmol y pmol! E. 'tras bases de datos de prote+nas1 ,uman Protein %e-erence Database +0'73,1 -a base de datos 0'73 representa una plata orma centralizada para representar e integrar in ormacin perteneciente a arquitectura de dominios, modi icaciones post2traduccionales, redes de interaccin y en ermedades asociadas a cada protena en el proteoma humano! Toda la in ormacin depositada en 0'73 ha sido extrada de manera manual de la literatura por bilogos expertos los cuales leen, interpretan y analizan los datos publicados! http1;;AAA!hprd!org; Mitoc.ondria* Proteome1 http1;;AAA!mitop!de1:9:9;mitop8;
A. 'MIM contiene in ormacin sobre en ermedades gen&ticas humanas, genes y enotipos1 descripcin, caractersticas clnicas, diagnstico, gen&tica molecular, re erencias, etc! http1;;AAA!ncbi!nlm!nih!gov;omim B. Gene&ards es una base de datos de genes humanos que proporciona una in ormacin concisa genmica, protemica, transcriptmica, gen&tica y uncional de todos los genes humanos conocidos y candidatos! -a in ormacin incluye1 relacin con en ermedades, mutaciones, ()'s, expresin g&nica, uncin g&nica, interacciones protena2protena, etc1 http1;;AAA!genecards!org;
6. BASES DE DATOS DE
A. The ,uman Gene Mutation Database at the *nstitute o Medical Denetics in "ardi ! http1;;AAA!hgmd!c !ac!uB;ac;index!php *ncluye mutaciones en el 3)4 nuclear! 0DM3 ha recogido datos de mutaciones durante ?8 aos y se public en *nternet en abril del ?FF=! 4cuerdo con "elera! 0ay que estar suscrito! 'od&is entrar con mi passAord1 0DM38O:P=? y mi email1 erichardQcbm!uam!es en log in! Namos a buscar las mutaciones descritas en MM44, '40 +como gene symbol,, y propionic acidemia +como disease;phenotype,! B. ,uman Mitocondria* Genome Database1 "ontiene mutaciones en el genoma mitocondrial1 M*T@M4'1 http1;;AAA!mitomap!org;
Curso Mitolab-Ciberer 09
&. Base de datos de po*imor-ismos1 6n polimor ismo de un slo nucletido o ()' +Single Nucleotide Polymorphism) es una variacin en la secuencia de 3)4 que a ecta a una sola base de una secuencia del genoma! (in embargo, algunos autores consideran que cambios de unos pocos nucletidos, como tambi&n pequeas inserciones y deleciones pueden ser consideradas como ()'! 6na de estas variaciones debe darse al menos en un ?R de la poblacin para ser considerada como un ()'! -os ()' orman hasta el F9R de todas las variaciones genmicas humanas, y aparecen cada ?99 a <99 bases en promedio, a lo largo del genoma humano! 3os tercios de los ()' corresponden a la sustitucin de una citosina por una timina! a/ !in0*e )uc*eotide Po*1morp.ism1 db()'1 http1;;AAA!ncbi!nlm!nih!gov;pro#ects;()'; 0erramientas de bsquedas de ()'s uncionales1 'upasuite1 http1;;pupasuite!bioin o!cip !es; J2()'1 http1;;compbio!cs!queensu!ca;J2()'; (M()'s1 http1;;AAA!sysnps!org
b/ ,apmap1 %s un cat$logo de variantes gen&ticas comunes que ocurren en los humanos! 3escribe cu$les son esas variantes, dnde ocurren en el 3)4, y cmo est$n distribuidas entre la gente en poblaciones y entre poblaciones en di erentes partes del mundo! http1;;AAA!hapmap!org;index!html!en c/ Data Base o- Genomic 2ariants +3DN,1 'roporciona un resumen de la variacin estructural en el genoma humano! %l contenido de la base de datos es solamente representando variaciones estructurales +alteraciones genmicas que implican segmentos de 3)4 S?Bb, identi icadas en muestras control! 'roporciona un cat$logo til de datos de controles para estudios de correlacin entre el genotipo y enotipo! http1;;pro#ects!tcag!ca;variation;
HERRAMIENTAS
A*ineamientos 0*oba*es 1 *oca*es de secuencias! 4lineamientos mltiples usando "lustalA http1;;AAA!ebi!ac!uB;Tools;clustalA8;index!html en el %B* +leer antes el tutorial sobre "lustalI disponible en1 http1;;AAA!ebi!ac!uB;8can;tutorials;protein;clustalA!html Bsqueda de secuencias en bases de datos mediante alineamientos +bsqueda de secuencias similares,1 http1;;blast!ncbi!nlm!nih!gov;Blast!cgi y todas sus variantes explicadas en la gua de seleccin de programas1 http1;;AAA!ncbi!nlm!nih!gov;B-4(T;producttable!shtml
Curso Mitolab-Ciberer 09
OB,ETI OS
%l ob#etivo de esta pr$ctica es la utilizacin de las herramientas bioin orm$ticas para la exploracin del genoma humano y para la bsqueda de in ormacin relacionada con en ermedades gen&ticas! 'ara ello se plantean los siguientes ob#etivos espec icos1 2 2 2 2 "onocer en pro undidad las bases de datos! 6tilizar con soltura las herramientas bioin orm$ticas para el estudio de en ermedades gen&ticas humanas! 3esarrollar e#emplos que permitan el uso de estos recursos! (uministrar una perspectiva de las lneas de actuacin en este campo para el desarrollo de otros traba#os de investigacin!
PRCTICA
A!"#$#%&%'( 1-6) Exploracin de bases de datos biolgicos y comparacin
de secuencias. En estas actividades exploraremos varias bases de datos de secuencias de DN , de prote!nas y de genomas. partir de secuencias annimas de DN reali"aremos b#s$uedas en las bases de datos, por e%emplo para identificar con $ue tipo de gen o prote!na estamos traba%ando. &eali"aremos alineamientos de secuencias y b#s$uedas de secuencias 'omlogas. (mparte) Eva &ic'ard A!"#$#%&%'( *-+) nlisis de secuencias de DN . *e anali"arn distintas secuencias de DN de pacientes con enfermedades metablicas 'ereditarias y se identificarn las mutaciones aprendiendo las normas para su nomenclatura. &eali"aremos un estudio del efecto de mutaciones de splicing y de polimorfismos. (mparte) +ourdes &ui".
%n 6(4 existe la base de datos DenBanB %n %uropa existe la base de datos %MB%n Capn existe la base de datos 33BC1 http1;;AAA!ddb#!nig!ac!#p;Ielcome2 e!html
-as bases de datos de $cidos nucleicos y protenas son pr$cticamente las mismas en las < instituciones, ya que intercambian registros cada 8E horas! -as tres bases de datos se di erencian en los distintos servicios que o recen, y en el modo en que se o recen dichos servicios! 0ay muchas ormas de realizar una bsqueda en DenBanB! (e puede hacer usando slo texto o cali icadores! -a bsqueda es altamente sensitiva a lo que se escriba, es decir, a tu 5query5!
Curso Mitolab-Ciberer 09
E3ercicio 4.4: Busca en DenBanB la secuencia codi icadora completa +cds, nucleotdica del gen de la methylmalonic aciduria cbl4 type! ."u$ntos registros encuentras con cada una de la siguientes bsquedas1 MM44, human methylmalonic aciduria cbl4 type, human 4)3 methylmalonic aciduria cbl4 type, human methylmalonic aciduria cbl4 type gene/ 6na vez que hayas identi icado la secuencia m$s apropiada, anota su nmero de identi icacin! ."u$l es el smbolo de este gen/, ."u$l es su longitud/, .qu& uncin tiene la protena/, .dnde se localiza/! E3ercicio 4.5: 7epite la bsqueda del gen en el %)(%MB-! Busca el transcrito, la protena, los exones, los ()'s! 4prender a exportar la secuencia proteica en ormato asta! 4ctualmente este navegador es el m$s usado por los investigadores para ver genes y sus productos, toda la in ormacin est$ integrada! E3ercicio 4.6: 4naliza tambi&n la in ormacin del gen en las siguientes direcciones1 6niDene1 http1;;AAA!ncbi!nlm!nih!gov;6niDene;clust!cgi/ 6D*3G=8?:8PHT4T*3GF=9=H(%47"0G0omoR89sapiensUorganismVR894)3 R89MM44 y en %ntrez Dene1 http1;;AAA!ncbi!nlm!nih!gov;gene;?==P:O/ ordinalposG?HitoolG%ntrez(ystem8!'%ntrez!Dene!Dene>7esults'anel!Dene>7N3oc( um
Base de datos de genomas del )"B* Base de datos de genomas del %MB-
4simismo, se han desarrollado o una serie de herramientas bioin orm$ticas para su exploracin, como el visor de mapas del )"B* de genomas eucariticos, y el navegador de %)(%MB-! E3ercicio 5.41 %n el visor de mapas del genoma humano del )"B*, utiliza el sistema de bsqueda para localizar el gen de human methylmalonic aciduria cbl4 type! ."u$l es su posicin cromosmica/ .Wu& dos genes rodean a este gen en el mapa citogen&tico/ E3ercicio 5.5: 7epite esta misma bsqueda en el navegador de genomas de %)(%MB-!
Curso Mitolab-Ciberer 09
@M*M +@nline Mendelian *nheritance in Man,, que re le#a estudios sobre las causas moleculares de las en ermedades humanas! '3B +'rotein 3ata BanB,, de estructuras tridimensionales de las protenas! (Aiss 83 'age1 Base de datos de protemica, que incluyen in ormacin e im$genes de geles 823%!
E3ercicio 6.4. Busca la in ormacin relativa al gen de human methylmalonic aciduria cbl4 type en la base de en ermedades @M*M! ."antos intrones y exones se incluyen/ .Wu& tratamiento de lleva a cabo con estos pacientes/! E3ercicio 6.5. Busca la in ormacin relativa al gen de human phenylalanine hydroxylase en la base de en ermedades @M*M! ."antos intrones y exones se incluyen/ .Wu& tratamiento se lleva a cabo con estos pacientes/! .0as notado alguna di erencia en estas dos en ermedades/, .la extensin de la in ormacin es la misma/! E3ercicio 6.6. 4n$lisis de estructuras tridimensionales con '3B! %n avanced search, poner el nmero de %" 8!O!?!?P correspondiente a methylmalonic aciduria cblB type +human 4T'1 cobalamin adenosyltrans erase,! 4nalizar la estructura tridimensional de la protena!
G*oba*1 comparacin de dos secuencias en toda su longitud, tratando de obtener el me#or alineamiento posible! %n general son aplicables a secuencias m$s o menos parecidas y de longitudes similares! Loca*1 comparacin de pequeos ragmentos +5palabras5, de las dos secuencias en toda su longitud, tratando de obtener el me#or alineamiento posible! (on as aplicables a secuencias con grados di erentes de similitud o con longitudes di erentes! -a mayora de los bilogos utilizan este tipo de m&todos!
6n alineamiento mltiple de secuencias es simplemente el alineamiento de m$s de dos secuencias! 3e nuevo, se trata de establecer relaciones de homologa! 4lgunos de los m&todos de alineamiento mltiple m$s e icaces son los m&todos #er$rquicos, que construyen primero un $rbol que sirve de gua para el alineamiento posterior! 6no de los programas m$s utilizados es "lustalI! E3ercicio 7.4. 4linea la protena MM4B humana con la de ratn + M. musculus), C. elegans, y D. rerio +Lebra ish, utilizando el servidor %B* "lustalI! Buscar los archivos de las protenas de las distintas especies en el %)(%MB-, exportarlos en ormato J4(T4 a un archivo de Iord y hacer el alineamiento en clustalA! 4nalizar tambi&n el alineamiento con todos los ortlogos que realiza el %nsembl!
Curso Mitolab-Ciberer 09
."u$ntos homlogos +ortlogos, aparecen en %nsembl/, .qu& regin est$ m$s conservada en todas las especies/, .hay muchos gaps/, .'or qu&/, .Wu& longitud tienen/, .'or qu&/!
10
Curso Mitolab-Ciberer 09
%s interesante resaltar que podemos tambi&n obtener la siguiente in ormacin de la secuencia de protena1 prediccin p&ptido seal, peso molecular, p%, localizacin celular, etc! http1;;AAA!uniprot!org;uniprot;'889<< E3ercicio 9.4. "alcula el peso molecular y el p% de la protena methylmalonic aciduria cblB type human +MM4B,, con la base de datos de http1;;AAA!expasy!ch;tools;pi>tool!html E3ercicio 9.5. 'redice el p&ptido lder de la secuencia de la protena methylmalonic aciduria cblB type human +MM4B, con la base de datos de http1;;AAA!cbs!dtu!dB;services;(ignal'; %xiste otra Aeb que es espec ica de p&ptido seal de protenas mitocondriales1 M*T@'7@T http1;;ihg8!helmholtz2muenchen!de;ihg;mitoprot!html %xiste una base de datos http1;;AAA!signalpeptide!de;index!php/mGintro de los p&ptidos lderes1
Nomenclatura de mutaciones& "ada tipo de mutacin requiere una de inicin precisa del cambio predecible a nivel de protena, a nivel del 3)4 genmico y del m7)4, si corresponde! -as normas internacionales de nomenclatura de mutaciones se recogen en1 http1;;AAA!hgvs!org;mutnomen; ! %n el caso de sustituciones de amino$cidos se utiliza normalmente el cdigo de una letra para &stos, apareciendo primero el cdigo del
11
Curso Mitolab-Ciberer 09
amino$cido que cambia, la posicin y el amino$cido mutante con una p! delante para indicar que se trata de la nomenclatura a nivel de protena +p! e#! p!7?P=-, indica un cambio de arginina por leucina en la posicin ?P= de la protena,! %n el caso de mutaciones nonsense, el codn de parada se designa con una T +p!78E<T, sustitucin de una arginina por un codn de parada en la posicin 8E< de la protena,! %sta designacin de las mutaciones se conoce como nombre comn +el m$s usual,! %n el nombre sistem$tico, la posicin del nucletido aparece primero y luego el cambio +?8E:D4, y se incluye una c minscula +c!?8E:D 4,, para indicar que se trata de la numeracin del c3)4 +secuencia codi icante, complementaria al m7)4 y designando como nucletido ? la 4 del codn de iniciacin 4TD de la cadena polipeptdica,! 'ara las mutaciones de splicing localizadas en intrones, en el nombre comn se designa el nmero del intrn tras las siglas *N( + inter'ening se uence, y la posicin nucleotdica del cambio, contando a partir del exn m$s cercano +p! e#! *N(<X? g t, cambio de una g por una t en la base ? del intrn <,! %n general, se suele escribir las bases intrnicas en minsculas y las exnicas en maysculas, para acilitar el reconocimiento de secuencias exnicas e intrnicas! 'ara inserciones o deleciones se utilizan las abreviaturas ins y del, respectivamente +p! e#! ?898delE, delecin de E nucletidos en la posicin ?898 del c3)4, y en el nombre comn se incluye las siglas (s, si produce un cambio en la ase de lectura +(rameshi(t,!
Missense (cambio de aminocido) p!78E<W c!P8: D4 p!*=OT c!?FE T" )onsense (parada de la traduccin) p!7???T c!<<?"T Inserci;n p!KEO8 sins4 De*eci;n p!'8?? sdel" p!M?F: s c!?<OOins4 c!=<8del" c!OF<>=E?del88pb
cambio de 4rg por Dln en la posicin 8E< cambio de *le por Thr en la posicin =O
cambio de 4rg ??? por codn de parada de la traduccin cambio de la ase de lectura +(rameshi(t, cambio de la ase de lectura +(rameshi(t, cambio de la ase de lectura +(rameshi(t,
alteracin del splicing +activacin sitio crptico, alteracin del splicing )exon s*ipping)
%ste ltimo tipo de mutaciones y la nomenclatura segn su e ecto se describir$n con mayor detalle en la siguiente actividad!
12
Curso Mitolab-Ciberer 09
'b3eti<o: 6tilizaremos distintos programas para predecir seales de splicing en una regin, calcular su uerza relativa y ver cmo las mutaciones las a ectan! Namos a analizar las mutaciones *N(?92??gSa, y *N(?92<gSc en el exn ?? del gen '40, identi icadas en la actividad anterior y otras de localizacin exnica! In-ormaci;n: 4proximadamente un ?OR de las mutaciones puntuales asociadas a en ermedades gen&ticas humanas a ectan al procesamiento del m7)4 o splicing! (e conoce como splicing al proceso mediante el cual el m7)4 su re el procesamiento de eliminacin de sus intrones previamente a la traduccin de la secuencia codi icante! (e lleva a cabo por un comple#o macromolecular denominado spliceosoma, compuesto por O partculas ribonucleoprotenas 2sn7)'s2 +6?, 68, 6E, 6O y 6=, y m$s de O9 protenas! "ada sn7)' est$ compuesto por un 7)4 pequeo nuclear, rico en uridinas +sn7)4, y mltiples protenas asociadas! -as mutaciones de splicing pueden a ectar a las secuencias conservadas OY donadora o <Y aceptora de splicing, el tracto polipirimidnico y la secuencia de rami icacin B'(, o a secuencias reguladoras auxiliares, menos conservadas como son los potenciadores o enhancers y silenciadores de splicing que pueden estar localizados en secuencias exnicas +%(% Zexonic splicing enhancers2, %(( 2exonic splicing silencers2, o intrnicas +*(% Zintronic splicing enhancers2, *(( Zintronic splicing silencers2,! -os dos e ectos m$s comunes de las mutaciones de splicing son la no inclusin de algn exn en el m7)4 +exon s*ipping, o la activacin de nuevos sitios crpticos de splicing resultando en la generacin de transcritos aberrantes! Mediante el an$lisis in s+lico podemos orientarnos sobre el mecanismo molecular por el cal la mutacin e#erce su e ecto, bien por disminuir la complementariedad de secuencia entre distintas protenas del spliceosoma como la ribonucleoprotena 6? que se une espec icamente al sitio OY de splicing[ bien por modi icar secuencias reconocidas como enhancers de splicing exnicos e intrnicos +%(%s e *(%s, donde se unen las protenas (7 auxiliares de splicing! 'ara ello, est$n disponibles distintos programas1 ?, AAA! ruit ly!org;seq>tools;splice!html, para determinar sitios de splicing 8, http1;;ast!bioin o!tau!ac!il;(plice(iteJrame!htm <, http1;;genes!mit!edu;burgelab;maxent;Tmaxentscan>scoreseq!html determinar el score 4) http1;;cryp2sBip!img!cas!cz; para predecir el e ecto de mutaciones O, %(% inder http1;;rulai!cshl!edu;tools;%(%; =, 7%("6%2%(% http1;;genes!mit!edu;burgelab;rescue2ese 7) '%(T (erver +http1;;cubAeb!biology!columbia!edu;pesx,!
para
%stos tres ltimos acilitan la identi icacin de posibles %(%s bas$ndose en su reconocimiento por cuatro protenas (71 (J8;4(J, ("<O, (7pE9 y (7pOO!
13
Curso Mitolab-Ciberer 09
E3ercicio =.4: 4naliza las secuencias <\ y O\ de splicing del exn ?? con los programas ?, 8, < .Tienen un score alto, es decir, son buenas secuencias para ser reconocidas por la maquinaria de splicing/! 4naliza la secuencia <\ de splicing con las mutaciones *N(?92<gSc y *N(?92??gSa! .Wu& e ecto ves sobre el score/! .Wu& ocurre con la mutacin *N(?92??gSa/! E3ercicio =.5: 4naliza la mutacin *N(?92<gSc con el programa E! .Wu& e ecto predice/! E3ercicio =.6: 4naliza con los programas O y = el cambio c!??OOD;" +-<:O-, en el mismo exn ??, para analizar si podra a ectar al splicing +ya que no cambia aa,!
E3ercicio >.4: 4naliza los ()'s anotados en el gen MM4B utilizando el %)(%MB- y el servidor (M()'s1 http1;;AAA!sysnps!org;, que utiliza la in ormacin integrada de las siguientes bases de datos +ltima versin actualizada,1 %nsembl O<, 0apmap release 8E, 0aplovieA E!? y 'upasuite! 4brir la p$gina del servidor 'upasuite http1;;pupasuite!bioin o!cip !es; para ver las opciones de asignacin de unciones a los ()'s! .Wu& e ecto predice el programa para cada ()'/! .%st$n validados los ()'s/! ."u$ntos tag2()'s hay/!
14