Está en la página 1de 17

Informe:

BIOINFORMTICA

INTRODUCCIN A partir de la secuenciacin del genoma humano, se di inicio a una biologa moderna, en la cual la mayora de las investigaciones biolgicas y biomdicas son conducidas en una modalidad basada en la secuenciacin. Este nuevo alcancepromete llevar a avances no slo en el entendimiento de los procesos biolgicos bsicos, sino que tambin en la prevencin, diagnstico, y tratamiento de muchas enfermedades causadas por desrdenes genticos y genmicos.(1) La bioinformtica representa una nueva rea de la ciencia que usa acercamientos computacionales para responder preguntas biolgicas, aprovechando amplios y complejos conjuntosdedatosdeformarigurosaparaalcanzarconclusionesvlidas.(2) Un modelo de datos para la informacin relacionada con secuenciaciones comnmente usado es el del NationalCenterforBiotechnologyInformation(NCBI),elcualintegralasbasesdedatos que son la base delpopularsistemaderecuperacinEntrevez.(3)yesbsicamenteunrecurso nacional para lainformacin de biologa molecular, quecrea bases dedatospblicas,conduce investigaciones de biologa computacionales, desarrolla softwares y herramientas para el anlisis degenomasydifundeinformacinbiomdica,todoestoparaelmejorentendimientode losprocesosmolecularesqueafectanlasaludhumana.(4) Dentro de los servicios que componen el sitio web del NCBI se encuentran: PubMed que consiste en una basededatosdepublicacionescientficas(5)laBasicLocalAlignmentSearch Tool (BLAST) que esunaherramientadebsquedaparabasesdedatosquefue diseadapara encontrar alineamientos locales de alta puntuacin entre secuencias aminoacdicas o nucleotdicas (6) el Online Mendelian Inheritance in Man (OMIM) que es un catlogo, continuamente actualizado, de genes y de desrdenesgenticos hereditarios (7) TaxBrowser que contiene informacin taxonmica para cada especie asociada a secuencias de DNA y protenas de la base de datos del NCBI (8) MapViewer que es una herramienta que presenta una vista grfica del genoma humano secuenciado disponible(9) Mltiples bases de datos y libros. Hoy en da, la bioinformtica se encuentra en alza, es por esto que el manejo de estos softwares se vuelve algo necesario para todos los cientficos, especialmente para aquellos interesadosenelreabiomdica,ydelabiotecnologa. Losprincipalesobjetivosparesteprcticofueron: Familiarizarse con los principales conceptos de la bioinformtica y algunasherramientas del sitioNCBI Aprender a utilizar estas herramientas para el anlisis del genoma, y aplicarlas en casos de investigacingentica.

ActividadN1

Conceptosaanalizar: Apareamientodebasesycdigogentico. Transcripcindeungen. Traduccindeungen. La secuencia que aparece a continuacin es una pequea fraccin de un cromosoma y representa una doble hebra complementaria de DNA. La hebra templado para el mRNA es la hebradearriba. 5CCCGGGCCAACCGATAGTTTCAAATCAGCTCAAATGGCCTCATGC3 3GGGCCCGGTTGGCTATCAAAGTTTAGTCGAGTTTACCGGAGTACG5 CuldelasdoshebrasdeDNAseparecealmRNAquesevaaproducir? Ladearriba,ensentido35 Transcriba este fragmento de un gen, usando la hebra superior como templado. Anote la secuenciadebasesquecorresponderalanuevahebratranscrita: 5GCAUGAGGCCAUUUGAGCUGAUUUGAAACUAUCGGUUGGCCCGGG3 Cmotraduciraestegen? El gen se traducira utilizando el Cdigo Gentico Universal, viendo a cul aminocido correspondecadacodndelmRNA. Quherramientausara? UnsoftwarequetraduzcaapartirdeunasecuenciadeDNA.(DataBase) Quesuncodndeinicio? Triplete que especifca el primer aminocido de la cadena polipeptdica y por el que el ribosoma inicia el proceso de traduccin (10). En el mRNA es AUG, el cual codifica para el aminocidometionina. Quesuncodndetrmino? Triplete de nucletidos para el que no existe una molcula correspondiente de tRNA que inserte un aminocido a la cadena polipeptdica (11). Existen tres codones de trmino UAA (ocre),UAG(mbar)yUGA(palo). QuesunOpenReadingFrame,ORF? Un marco de lectura abierto permite saber qu genes estn presentes en la secuencia a analizar. Existen tres marcos posibles partiendo de tres nucletidos distintos de un codn de inicio, hasta el primer codn de trmino (el ms cercano). Se puede determinar el tamao del

ORF. Utilizando el sitio web http://www.dnalc.org/bioinformatics/2003/2003_dnalc_nucleotide_analyzer.htm se obtuvo la secuencia aminoacdica para la el fragmento de gen anterior.Losresultadossemuestranenla FiguraIprxima.

FiguraI.Secuenciaaminoacdicadelfragmentodegenenestudio.Semuestranlastresopcionesparalos tresmarcosdelecturaposible.

Porquhaytresresultados? Se muestran tres resultados ya que hay tresmarcosdelecturaposible.Elcdigogenticose compone de tripletes nosolapados, en principio existen tres manerasposibles de traducir una secuencia de nucletidos en protena, segn cul sea el nucletido de partida. Cada una de ellasconstituyeunmarcodelectura. Culdelosfrentesdelecturaeselcorrecto?(1,2,3)Porqu? El frente nmero tres, puesto que contiene un codn de inicio y un codn de trmino para la secuenciaaminoacdica. Quimportanciatieneelcodnparametionina(M)? Corresponde a un codn de inicio, el codn que codifica para este aminocido en necesario paraquecomiencelatraduccindelaprotena. Utilizando el mismo link se buscaron los sitios reconocidos por enzimas de restriccin

(endonucleasas)queposeelasiguientesecuencia. 5CTCTCGGCATGGACGAGCTGTACAAGTACTCAGATCTCGAGCTCAAG CTTCGAATTCTGCAGTCGACGGTACCGCGGGCCCGGGATCCACCGGATCT AGATAACTGATCATAATCAGCCATACCACATTTGTAGAGGTTTTACTTGC3 EstasecuenciacorrespondealMCSdelplasmidiopEGFPC3deClontech. Primero se hizo un anlisis con la enzima de restriccin EcoRI, la Figura II. muestra los resultadosobtenidos.

FiguraII.AnlisisdelfragmentodegenenestudioconlaenzimaEcoRI.Semuestralasecuenciadecorte, ylosfragmentosgeneradosluegodeladigestin.

PosteriormenteseanalizlasecuenciaconlaenzimaKpnI,losresultadosparaestaenzimase muestranacontinuacinenlaFiguraIII.

FiguraIII.AnlisisdelfragmentodelgenenestudioconlaenzimaKpnI.Semuestralasecuenciaque reconoceylostamaosdelosfragmentosgenerados.

QueselMCSdeunvectorplasmidial? Es unsitiode clonadomltiple(MCS),elcualesunapequeareginquecontienelossitios de restriccin ms comnmente usados, permitiendounafcilinsercindefragmentosdeADNde interseneselugar.

CuntossitioshayparalaendonucleasaKpnI?Culeslasecuenciaquereconoce? Tiene 68 sitios, para este fragmento slo corta en uno..La secuencia que reconoce esta enzimaesGGTACC. Se utiliz otro programa (WEBCUTER) para analizar qu enzimas cortan la secuencia en estudio. Cuntasenzimascortanlasecuencia?cules? Existen 140 enzimas que cortan la secuencia del MCS del plasmidio, algunas de las ms utilizadasenellaboratorioson:XhoI,SacI,HindIII,EcoRI,PstIySmaI. Quventajapresentaestelinkconrespectoalanterior? El programa WEBCUTER entrega una mayor informacin, como el total de enzimas de restriccin que cortan la secuencia, el nmero decortenquerealizan,laposicindelossitiosy lasecuenciaquereconoce.

ActividadN2UsodelaherramientaBLAST Usted es un cientfico forense y en la escena del crimen descubre una muestra de tejido que contiene DNA (la secuenciaque aparece a continuacin) en un rboldeunparquecercano.La polica sospechaquese trata de un homicidio, pero la muestra se encuentra en talmalestado que ellos nofueron capaces de determinar si se trata deunamuestrahumanaono.Sutrabajo es: 1.Determinarsilamuestraeshumana. 2.Lamuestracontienealgngen?cul? Para ello debe realizar un bsqueda en BLAST de las bases de datos de DNA en el sitio de NationalCenterforBiotechnologyInformation(NCBI). La siguiente secuencia de DNA de una sola hebra, se lee de izquierdaaderechaycontinuaen la siguiente lnea, y as sucesivamente(adiferenciadelasecuenciaqueapareceenlaactividad N1). Una de las ventajas de la bsqueda en BLAST, es que el programa automticamente buscalahebracomplementaria,aunquestanoseincluya. TGCCCCCGGGCGAGCGGGATGGGCGGGAGTGGAGTGGCGGGTGGAGGGTGGAGACGTC CTGGCCCCCGCCCCGCGTGCACCCCCAGGGGAGGCCGAGCCCGCCGCCCGGCCCCGC GCAGGCCCCGCCCGGGACTCCCCTGCGGTCCAGGCCGCGCCCCGGGCTCCGCGCCAGC CAATGAGCGCCGCCCGGCCGGGCGTGCCCCCGCGCCCCAAGCATAAACCCTGGCGCGCT CGCGGCCCGGCACTCTTCTGGTCCCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCT CCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAG TATGGTGCGGAGGCCCTGGAGAGGTGAGGCTCCCTCCCCTGCTCCGACCCGGGCTCCTC GCCCGCCCGGACCCACAGGCCACCCTCAACCGTCCTGGCCCCGGACCCAAACCCCACCC CTCACTCTGCTTCTCCCCGCAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCC GCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGA CGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGA GCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGGTGAGCGGCGGGC CGGGAGCGATCTGGGTCGAGGGGCGAGATGGCGCCTTCCTCGCAGGGCAGAGGATCACGC GGGTTGCGGGAGGTGTAGCGCAGGCGGCGGCTGCGGGCCTGGGCCCTCGGCCCCACTGA CCCTCTTCTCTGCACAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCC CCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCA CCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTG GGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAAA GTCTGAGTGGGCGGCAGCCTGTGTGTGCCTGAGTTTTTTCCCTCAGCAAACGTGCCAGGCA TGGGCGTGGACAGCAGCTGGGACACACATGGCTAGAACCTCTCTGCAGCTGGATAGGGTAG GAAAAGGC QuprogramadeBLASTdebeelegir?Porqu? Basicblast: Nucleotideblast.Porqueesteprogramasirveparaalinearbasesnucleotdicasyla secuenciaqueseentregacorrespondeaunasecuencianucleotdica.

Pegue la secuencia en la ventana superior izquierda. Seleccione un set de bsqueda y un programa para realizar la bsqueda. Considerando lo que usted debe hacer Cules de las opcionesquesepresentansonlasmsadecuadas? Se determina alinear la secuencia nucleotdica entregada con toda la base de datos del buscador para lograr determinar si la secuencia entregada corresponde a humano. En seleccindeprograma,seoptimizaporsecuenciasaltamentesimilares(megablast). Unavezelegido,presioneBLASTyesperelosresultados. A continuacin se muestran los resultados obtenidos de la bsqueda en BLAST, utilizando el programa nucleotide BLAST y la secuencia anteriormente sealada. Se consideran los primerosochoresultadosporquetienenelvalordeMaxidentmayor.

(recortarimagenochoprimerosresultados)
Figura IV. Resultado de la bsqueda en el BLAST, se consideran las ocho primeras secuencias que entregaelbuscador.

Aquespeciecorrespondelamuestradetejido?Cmolosabe? Como se observa en laFiguraIV,correspondeaHomoSapiens, estoporelvalordeMaxident queindicaquelosresultadospresentanun100%dehomologaconlasecuenciaingresada. Algunodelosresultadosdicehomosapiens? Si, los primeros 4 resultados indicanquees HomoSapiens, lasecuenciapresentaun100% dehomologa.

Aparecealgunaotraespecieentrelosresultados? En la Figura IV. entre los resultados obtenidos adems de Homo Sapiens se encuentra HylobatesyPanTroglodytes. Culeslamejorsecuenciadelalineamiento? Al observar en la Figura IV. los valores de max score, query cover, e value y Max ident.,las mejores secuencias de alineamiento son las que aparecen en primer y segundo lugar: Homo sapiens 16p13.3 sequence section 1 of 8 y Homo sapiens alpha globin region (HBA@) and hemoglobin,alpha1. CuleselvalordeE(evalue)delmejoralineamiento? El menor valor de E es 0,0, lo que indica que hay una probabilidad de un 0% que el alineamientoesthechoalazar Qusignificaelevalue? Permite definir qualineamientos queremosobtenerdeacuerdoasusignificacinestadstica, cuanto menorsea el valor deE, ms significativo es un alineamiento. Para tomarunadecision hayqueelegirelvalordeEmenor,yaqueesteindicaqueelalineamientonoesalazar Culesladiferenciaentreidentitiesypositives? Identities: se utiliza para losresiduos de aminocidos quesonidnticosenambassecuencias de protenas, la codificada por el mRNA de la secuencia muestra y la codificada por la del mRNA de la secuencia entregada por el programa. Por su parte positives se aplica a los residuosquesonmuysimilaresentres,paralasprotenasanteriores. Cmo utiliza los siguientes conceptos, presentados por BLAST, para tomar una decisin? 1. Score: serelacionaconelgradodehomologaentrelassecuencias.Unmayorscore indica unamayorhomologa,porlocualseraeladecuadodeseleccionar. 2. Evalue:indica alineamientospor azar, por lo que permite rechazarsecuenciasqueposeen alineamiento producto de esto, de forma tal que un menor Evalue es indicio de que la secuenciaeshomlogayqueelalineamientonoesconsecuenciadelazar. 3. Gaps: este valor indicaquesi la fraccin tiende acero,todoslosparesdebacescoincideny el marco de lectura no est corrido por lo tanto se debe seleccionar aquella fraccin cuyo numeradorseaelmenor, Qusignificaloqueapareceenlosresultados:STRAND:plus/plusplus/minus? Plus/plus: significa que la secuencia muestra va desde 5>3 y la secuencia arrojada por la base de datos tambin, mientras que minus/plus indica que la secuencia muestra va desde 5>3, y que la secuencia encontrada enlabasededatosvadesde3>5quecorresponderaa lasecuenciacomplementaria Lamuestracontienealgngen?Cul?

Si, en la Figura IV. el segundo resultado esungenqueseencargadel controldelaexpresin delaagrupaciondelosgenesalfaglobulina:HBA1 En la actualidad,se conoce la funcin de varios genes.Algunas mutaciones en los genes son responsables de enfermedades genticas especficas. Hay alguna enfermedad gentica asociadaaestegen?Cul?Cmollegaestainformacin? Se ingres a buscador OMIM> luego se escogi la opcingene enl campo de bsqueda se puso alpha globin disease> Al lado izquierdo en Top organism se eligi HomoSapiens>la bsquedaarrojacomoprimerresultadoHBA1hemoglobin,alpha1[Homosapiens] En la siguiente imagen se muestra el resultado que arroj la bsqueda de enfermedades para laalfaglobulina.Elprimerresultadoeselqueseescogi

(Achicarimagen)
FiguraV.ResultadoarrojadoporelbuscadorOMIMparaenfermedadesrelacionadasconlaalfaglobulina

El artculo corresponde a informacin detallada del gen HBA1 que es parte delaagrupacin de genesdelaalfaglobulina.Hayunresumen, informacindelcontextogenmico,bibliografa yla opcin fenothypes, es decir fenotipos en el cual entre otros se indica la enfermedad alpha talasemiaentrelasmasimportantes.

ActividadN3:Taxonoma 1) En el sitio del NCBI www.ncbi.nlm.nih.gov, TaxBrowser A qu corresponden los

nombresdelasespeciesqueallaparecen? Corresponde a organismos modelos cuyo genoma se encuentra secuenciado, que son comnmenteutilizadosparaproyectosdeinvestigacinmolecular. 2)EnlaseccinTaxonomyStatisticsQuinformacinaparece? Apareceel nmerodetaxa,gnerosyespecies que seencuentrananalizadasporel programa TaxBrowser, es decir, para los cuales se encuentra secuenciado porlomenosungenparalos gruposArchaea,Bacteria,Eukaryota,Fungi,Metazoa,ViridiplantaeyVirus. 3)Enlacolumnaalldates,Cuntasespeciesdebacteriashayenlasbasesdedatos? Aparecen11477especies 4) En el ao 2000 Cuntas especies bacterianas fueron incluidas? Qu puede decir conrespectoalapreguntaanterior? 480 Que eneltranscursodelosaosapartirdel2000sehansecuenciadoaproximadamente 11.000 especies de bacterias, loqueesunnmerosignificativo,deloqueseconcluyequeeste programacrececadadams,yquecadavezesmscompleto. 5) En Taxonomy Home, Extinct Organisms. Qu informacin aparece? Cmo estnclasificadaslasespeciesqueallaparecen? Aparecenlasespeciesextintas,cuyogenomaseencuentrasecuenciado. Algunas especies se encuentran agrupadas por clase: Mamferos, Aves, Reptiles, y otras simplemente en grupos que comparten caractersticas en comn: Insectos, Plantas Verdes y Dinosaurios 6) Con respecto a Libanorhinus succinus A qu insectocorresponde?En qupoca existi?Cmoloencontraron? Corresponde a un escarabajo del mbar del Lbano, que existi hace 120135 millones de aos. Este fueencontrado en trozos de ambr, y corresponde a la primera descripcin formal quesehizodeunindividuodelafamiliaNomonychidae.(12) 7) En la opcin Arthropoda Qu otros organismos pertenecen a este Phylum? Qu rasgocorporalcompartenestosorganismos? Araas, escorpiones, crustceos, escarabajos, pulgas, garrapatas etc... La caracterstica corporalquecompartenestosorganismoesunexoesqueletodequitina. 8) Cuntas secuenciasnucleotdicas han sido depositadas en los registrosdeentrada (EntrezRecords)paraesteorganismo? Solouna. 9) Cul es elnombredelgen quefuesecuenciadoparaesteorganismo?(Presione1al ladodenucleotide) LBNRR18S(Lebanorhinussuccinus18SRNAribosomalgene)

10)Qupuededecirdelaconservacinevolutivadeestegen? Se puede decir que este gen se encuentra altamente conservado, lo que se concluye al ver queencontramosunhomlogodeestegenenespeciesquenosehanextinguido. 11) Cuntos pares de bases contiene la secuencia incorporada en la base de datos? Qu sucede si hace click en el nmero 8505978? Qu informacin aparece ahora? Qu puede decir de la basede datos PUBMED? Qupuede decirdelaorganizacin delainformacinenelsitioNCBI? La secuencia contiene 315 pares de bases Al hacer click en elnmero8505978seabreuna pgina webPubMed) que contiene las publicaciones cientficasqueexistensobrelaespeciede inters: Libanorhinus succinus Con respecto a la pgina PubMedse puede decir que es muy completa ya que en ella sepueden encontrar trabajos que han sido publicados desde1950, lo que constituye una base de datos muy ntegra. Con respecto al sitio del NCBI se puede decir queesunaherramientabastantetilparahacerestudiosbioinformticos,yaqueenestamisma pgina hay distintos softwares y bases de datos que me permiten obtener informacin de prcticamente todos los aspectos de inters que puedo incluir en mi estudio, desde la secuenciaungen,hastalataxonomadelasdistintasespeciesenqueesteseencuentra. ActividadN4 Se recolect informacin acerca de la enfermedad TaySachs, utilizando slo el sitio web de NCBI. Primeraparte Se ingres a la base de datos de NCBI, y en la categora OMIM se procedi a buscar la enfermedadantesmencionada.Elnmerodeaccesoseleccionadofue#272800. Culessonlascausasbioqumicasdelaenfermedad? La causa principales la acumulacin de glicoprotenas en clulas rojas. Hay un defecto enla enzima hexosaminidasa, la cual presenta una actividad total normal, pero al separar los componentesAyBsedescubrequeelcomponenteAestausente. Describabrevementelascaractersticasclnicasdelaenfermedad. Las principales caractersticas son un retardo en el desarrollo infantil seguido de parlisis, demencia y ceguera, que se van haciendo ms severashastaprovocarlamuertealsegundoo terceraodevida. Cul es la gentica molecular de esta enfermedad? Las mutaciones que causan la enfermedadsonigualesparatodalapoblacinhumana? La enfermedad se produce por una mutacin en la subunidad alfa del gen de la hexosaminidasaA,ysuherenciaesautosmicarecesiva.

Enqucromosomahumanoseencuentraelgenresponsabledelaenfermedad? Seencuentraenelcromosoma11. Luego, en la pgina OMIM, en los resultados desplegados para TaySachs, se seleccionelnmerodeaccesoparaHexaminidasaA(606869). Qu tipo de informacin obtiene ahora? Es equivalente buscar la enfermedad y buscarelgen?Culbsquedacreeustedentregamayorinformacinyporqu? Esta opcin permite obtener informacin sobre el genHexosaminidasaA.Noesequivalentea buscarlaenfermedad,puestoquelosdatosespecficosdestanoaparecen. La primera bsqueda entrega mayor informacin relacionada a la enfermedad, como sus caractersticas y sntomas clnicos, sin embargo, lasegundaopcinpermiteobtenerdatosms especficosdelgenquepuedepresentarlamutacinqueconllevaalaenfermedad. Luego se procedi a la base de datos GENE (en la misma pgina) y en el espacio de bsquedasepusoennmerodeaccesoBC084537. Culeselnombrecompletodelgen?Culeseltamaodeltranscritoylaprotena? El nombre completo del gen es Hexosaminidasa A (polipptido alfa). El tamao del transcrito correspondea2.437paresdebasesyeldelaprotenason529aminocidos. Segundaparte En la pgina de NCBIseseleccionlabase dedatosGeneysobreelrecuadrodebsquedase escribiHEXAhuman. Cuntosintronesyexonescontieneestegen? Estegencontiene14exonesy13intrones. Culessonloscincotejidosquepresentanunamayorexpresindelgen? Los cinco tejidosquepresentan mayor expresin del gen enordendescendenteson:tiroides, ascites,tejidoadiposo,esfagoyplacenta. Qudominiosconservadospresentalaprotena? pfam02838Location:35165BlastScore:458(dominio2) cd06562Location:167511BlastScore:1407(subunidadesalfaybeta) pfam00728Location:167488BlastScore:814(dominiocataltico) Qu tipo de protena codifica este gen? A qu familia de enzimas pertenece? Se relacionaconlosdominiosconservadospresentesenella? Es una protena con actividad cataltica que hidroliza el terminal no reductor de residuos de NacetylDhexosamine a NacetylbetaDhexosaminides. Pertenece a la familia glycosyl

hydrolase 20. S se relaciona con los dominios conservados, puesto que estos estn presente en la mayora de las protenas que conforman la familia.Dominios conservadospuedensugerir una funcin similar, por lo tanto si se analiza una protena que presenta dichos dominios se podrapensarquecorrespondealafamilia. Qu otras mutacin/polimorfismo presenta este gen? Alguna de las mutacin/polimorfismodescritasserelacionaconlaenfermedad? Existe una extensa lista con variantes naturales, que no se relacionan directamente con la enfermedad. Existen algunas mutaciones, pero tampoco se relacionan en forma directa con la enfermedad(actividadescatalticasnosevenafectadas). Adquiera la secuencia del ARNm y de la protena en formato FASTA, seleccionando la secuenciayluegoenDisplayFASTA. FASTAentreglasecuenciadelaprotena,lacualsemuestraenlaFiguraVI.

FiguraVI.SecuenciadelaprotenaHEXAhuman.

En qu otras especies se expresa este gen? (Links a la derecha en Gene: Homologene) Elgenseexpresaenlassiguienteespecies(homlogos):P.troglodytes,M.mulatta,C.lupus, B.taurus,M.musculus,R.norvegicus,G.gallus,O.sativayA.thaliana. TerceraParte:BsquedadeHomlogosenBLAST

Se busc un modelo animal para la investigacin de esta enfermedad. Con el nmero de accesoNP_00511.1(secuenciapeptdicadeHEXA) En la categora BLAST de NCBI se seleccion la base de datos Protein Query vs. Translated database (tblastn:search translated nucleotide database using a protein query). Se ingres la secuenciapeptdicaenelcampodebsqueda. Cul es el largo de la secuencia ingresada? Cul es el largo de la secuencia obtenida? Tanto en el Protein Query como en el tblastn el largo de la secuencia obtenida fue 529 aminocidos Culeslamejorsecuenciadelalineamientoyculessutamaoenaminocidos? Para escoger la mejor secuencia de alineamiento, entre los resultados obtenidos se busc la secuencia que fuera de animal con mayor homologa entre la secuencia ingresada y la obtenidaystafueelPantroglodytesparaProteinQueryyparatblastn: En el Protein Query es la betahexosaminidase subunit alpha isoform 9 [Pan troglodytes], el largodelasecuenciaobtenidaesde529aminocidos. Para el tblastn es Pan troglodytes hexosaminidase A (alpha polypeptide), transcript variant 9 (HEXA),mRNA,de3120nucletidosy529aminocidos. Existe una diferencia entre los resultados obtenidos por tblastn vs protein BLAST? Porqu? Si existen diferencias debido a que tblastn entrega informacin acerca de secuencias de alineamiento con la correspondiente secuencia de aminocidos que se ha ingresado para el caso de protein BLAST,lainformacinentregadase relacionaconlaprotenacorrespondientea dicha secuencia, como la cantidad de aminocidos, su tamao, la funcin biolgica asociada, entreotras. Quesunhomlogo?Yqudiferenciahayentreparlogos,ortlogosyhomlogos? Un homlogo es ungenconfuncinequivalenteaotrogen,loscualesprovienendeunancentro comn dentro de losgenes homlogos se puede clasificaralosparlogosylosortlogos.Los parlogos son genes de la misma especie con funcin similar. Los genesortlogossongenes de distintaespecieconfuncinequivalente.Genesparlogosyortlogossongeneshomlogos, pero uno hace referencia a genes de la misma especie y el otro a genes de distinta especie, respectivamente. PuedeencontraralgunodeellosusandoBLAST? Existe una opcin que permite encontrarlaexpresindeunmismogenparadistintasespecies. Mediante el uso de BLAST o FASTA se ingresa el gen de inters, luego se puede acceder a Homologene,dandoaconocertodaslasespeciesqueloexpresan.

Cul de las siguientes secuencias representa el mejor homlogo de HEXA humano? porqu? Especie Musmusculus Pantroglodytes Homlogo HEXA NmerodeAcceso(Protein) NP_034551.2

similar to Chain A, XRay XP_001175122.1 Crystal Structure Of NgtBoundHexa HEXB HexA HexahexosaminidaseA Q29548. Q22492 NP_001004443

Susscrofa Caenorhabditiselegans Rattusnorvegicus

Para cada especie seleccione y guarde en formato fasta. Qu herramienta debeusar paraidentificarelmejorhomlogo?Qubasededatos? La herramienta mstilparaidentificarelmejorhomlogo estBLAST,yaqueapartirdeestase pueden comparar los parmetros:evalue, score y gaps con respecto al homlogo humano, y enabseaestoescogerelmejor. A partir de los resultados obtenidos cul cree usted sera el mejor modelo animal a utilizar?QudiceOMIMalrespecto? 1) Copiandola secuencia nucleotdica de cada especieyseusandolaherramientaparaalinear secuenciasdelBLAST: Musmusculus:93%deidentidad. Pantroglodytes:99%deindentidad. Rattusnorvegicus:90y76%deidentidad(evaluando2fragmentosseparados). 2)Usandolaherramientatblastn. Musmusculus:85%deidentidad. Pantroglodytes:99%deidentidadsegnla(secuenciapredicha). Susscrofa:85%deidentidad. Caenorhabditiselegans:nosedespliega Rattusnorvegicus:84%deidentidad. Por lo tanto el mejor modelo esPan troglodytes, porque su homologa es muyalta con el gen HEXAdelserhumano.

REFERENCIAS (1) Bioinformatics: A Practical Guide to Analysis of Genes and Proteins A.D Baxevanis, B.F FrancisOuellette,2Edicin,EditorialWiley,2001,Pgxv (2)Referencia1,Pg1 (3)Referencia1,Pg19 (4)PrinciplesofBiotechnology,A.JNair,1Edicin,LaxmiPublications,2007,Pg195. (5) PubMed Essentials: A Users Guide to Smarter Searching of Medical Information, B.M Edhlund,2Edicin,FORMANDKUNSKAPAB,2006,Pg910 (6) Java for Bioinformatics and Biomedical Applications, H. Bal, J. Hujol, 1 Edicin, ,Springer,2007,Pg24 (7) The Internet for Molecular Biologists: A Practical Approach, C.E. Sansom, R.M. Horton,1 Edicin,OxfordUniversityPress,2004,Pg44. (8) BiodataMiningandVisualization,I.Havukkala,1Edicin,WorldScientificPublishing,2010, Pg37 (9)Referencia1,Pg124 (10) Glosario de biotecnologa Juan Juregui, Norma Chavez, 1 Edicin, Universidad AutnomadeAguasCalientes,2006,pgina54. (11)Referencia10. (12) Kuschel G., Poinar G.O, 1993, Libanorhinus succinus gen. & sp. n. (Coleoptera: Nemonychidae) from Lebanese amber. Insect Systematics & Evolution, Volumen 24, (2), pp 143146