Unidad I: (4 clases)
Introduccin + Bases de Datos Biolgicas y Bases de Datos de Literatura 14/03 Alineamiento de Pares de Secuencias + BLAST + B s!ueda en Bases de Datos "1/03 Alineamiento # lti$le + Per%iles + &##s "'/03 Motivos y Dominios en Protenas 04 04
1( Solemne ")/04
Tr!e &ositives* $redicciones $ositi+as !ue en +erdad son $ositi+as Tr!e ne'atives* $redicciones negati+as !ue en +erdad son negati+as (alse &ositives* $redicciones $ositi+as !ue en +erdad son negati+as (alse ne'atives* $redicciones negati+as !ue en +erdad son $ositi+as Dadas estas cuatro $osi,les com,inaciones- es $osi,le calcular 4 descri$ciones estadisticas de la calidad de un m.todo $redicti+o* sensi)ilidad- es&eci$icidad- &recisi"n- valor &redictivo ne'ativo/
*ensi)ilidad TP / TP + 01
*ensi)ilidad es la 2a,ilidad de 2acer $redicciones $ositi+as de entre todos los casos $ositi+os dis$oni,les
Es&eci$icidad T1 / T1 + 0P
Es&eci$icidad es la 2a,ilidad de 2acer $redicciones negati+as de entre todos los casos negati+os dis$oni,les
Alineamiento m7lti&le de sec!encias 3onstruccin de Per$iles 7PSIBBLAST9 #odelos 5cultos de #ar>o+ 78MM9
Basados en alineamientos- $er%iles o modelos ocultos de #ar>o+com nmente $ueden ser identi%icadas re'iones conservadas #oti+os o dominios $ueden ser 7tiles &ara clasi$icar e identi$icar caractersticas com!nes en estas secuencias
1:
3:
E9&resiones re'!lares
Las e9&resiones re'!lares se re$resentan con cadenas de caracteres !nidos &or '!iones/ #uc2as +eces se 2an o,tenido de la reduccin de alineamientos m lti$les de secuencias donde se encuentran moti+os y dominios/ Las eA$resiones regulares a menudo llamadas $atrones- es una eA$resin !ue descri,e un con<unto de cadenas sin enumerar sus elementos/ :ste ti$o de eA$resin es dominios/ til $ara re$resentar moti+os y
Re'las*
6etras re$resentan caracteres de amino;cidos de una letra 7cdigo I=PA39 .orc;etes indican !ue de todos los caracteres escritos dentro de ellos se $uede utili?ar slo uno/ 6laves %uncionan como negacin- es decir- !ue se $uede utili?ar un elemento cual!uiera eAce$tuando los !ue est.n dentro de las lla+es < re$resenta un car;cter cual!uiera 57meros entre &ar2ntesis indica !ue .l o los
Para identi%icar los residuos aminoac@dicos se utili?a el cdigo I=PA3* Por e<em$lo*
E9&resiones re'!lares
:<em$lo* :BC7"9BD0&#EBC749BFPGBL Su lectura ser@a* =n car;cter : seguido de cual!uiera dos caracteres- seguido de un car;cter 0-& o #- seguido $or cuatro caracteres cual!uiera- $osteriormente un car;cter cual!uiera eAce$to P- %inali?ando con un car;cter L
Em&are,amiento e9acto
De,e eAistir una coincidencia e9acta entre los residuos y la eA$resin regular Por &e0!e1a !ue sea la di$erencia entre la secuencia !ue se est; e+aluando con la eA$resin- esta se considera no coincidente La eAigencia tan r@gida de esta t.cnica elimina $osi,les similitudes im$ortantes !ue nos $ro$orcionar@an in%ormacin adecuada- lo cual causa el $ro,lema de la eAistencia de $alsos ne'ativos
Em&are,amiento di$!so
:l em$are<amiento di%uso reali?a coincidencias m%s $le9i)les de resid!os con &ro&iedades similares/ =na coincidencia con m;s %leAi,ilidad a!menta el r!ido y la e9istencia de $alsos &ositivos
6as )ases de datos de motivos ;an sido com7nmente !tili-adas &ara la clasi$icaci"n de &rotenas
PR/*ITE 0ue la &rimer )ase de datos de &atrones de sec!encia/ =tili?a $rinci$almente un &atr"n 7nico de consenso o %irma de secuencia $ara identi%icar las $rote@nas Los $atrones de secuencia est;n re$resentados mediante e9&resiones re'!lares de coincidencia
Emoti$
Base de datos de moti+os !ue utili?a,a alineamiento m7lti&le de sec!encias de las ,ases de datos BL53IS y P4I1TS Pose@a una coleccin de alineamientos muc2o mas grande !ue P45SIT: :m$lea,a el em&are,amiento di$!so con e9&resiones re'!lares 0ue descontin!ada el 3003
Si una e9&resi"n re'!lar es derivada de !n con,!nto incom&leto de sec!encias? esta &osee menos &oder &redictivo/
Modelos estadsticos Preservan la in$ormaci"n del alineamiento m7lti&le de secuencias del cual $ro+ienen
Tienen mayor &oder &redictivo !ue las eA$resiones regulares incl!so c!ando son derivados de !n con,!nto incom&leto de sec!encias/
Tienen 'ran sensi)ilidad $ermitiendo incluso identi%icar secuencias similares muy di+ergentes
P$am
Base de datos con alineamientos de dominios &roteicos 2ec2os a $artir de las sec!encias de la )ase de datos UniProt: 3ada moti+o o dominio es re&resentado &or !n modelo oc!lto de Mar@ov generado del alineamiento de un n mero de $rote@nas 2omlogas/ La ,ase de datos est; com&!esta de dos &artes* P$amAA contiene alineamientos man!ales P$amA# contiene alineamientos a!tom%ticos
InterPro
Base de datos !ue !ni$ica m7lti&les )ases de datos de dominios y sitios %uncionales- incluyendo PR/*ITE- P$am y otras %uentes de in%ormacin/ InterPro usa una com)inaci"n de e9&resiones re'!lares y modelos estadsticos/
La clasi%icacin de las ,ases de datos de $rote@nas mencionadas se ,asan en la $resencia de moti+os y dominios/ Sin em,argo- otra %orma de clasi%icar las $rote@nas est; ,asada en la com$aracin de secuencias de longitud casi com$leta/ :sta clasi%icacin re!uerir; la agru$acin de $rote@nas- ,as;ndose en similitudes generales/
=na ,ase de datos de %amilia de $rote@nas es 35J- la cual se ,asa en la clasi%icacin %ilogen.tica/ :sta ,ase de datos se %orma com$arando secuencias de $rote@nas codi%icadas de 43 genomas totalmente secuenciados- los cuales re$resentan a su +e? 30 l@neas %ilogen.ticas/ Se de,e considerar !ue si se conoce la %uncin de una $rote@na ortloga- entonces se conoce la %uncin de los miem,ros del mismo gru$o/ :Aisten 4-'K3 gru$os en 35J- deri+ados de
Proto1et* es otra ,ase de datos de gru$os de $rote@nas 2omlogas similar a 35J/ Secuencias de $rote@nas ortlogas de la ,ase de datos SLISSP45T son agru$adas y com$aradas $or alineamientos entre todos los $osi,les $ares de $rote@nas/ Por lo !ue la relacin entre $rote@nas- !ueda de%inida $or los eB+alues de los alineamientos de BLAST/ As@- se $roducen di%erentes ni+eles de similitud y una organi?acin <er;r!uica de los gru$os de $rote@nas/
Para un con<unto de secuencias estrec2amente relacionadasse $ueden descu,rir o encontrar moti+os com$artidos usando m.todos de alineamientos m lti$les de secuencias/ Sin em,argo- eAisten secuencias !ue est;n le<anamente relacionados- $or lo !ue no es del todo %;cil alinearlas/ Para detectar estos moti+os se utili?an algunos algoritmos mas es$eciali?ados* :A$ectation maAimation Ji,,s #oti% sam$ling
:A$ectation maAimation :l m.todo $rimero 2ace un alineamiento aleatorio de secuencias $ara generar un PSS# 7Position s$ecic scoring matrices9 7$untuaciones de matriA de $osiciones es$eci%icas9 de $rue,a/ Luego la $rue,a es usada $ara com$arar cada secuencia indi+idualmente/ Se ir;n modi%icando las $untuaciones de la PSS# en cada iteracin $ara maAimi?ar el alineamiento de la matri? a cada secuencia/ Durante cada iteracin la secuencia de
Ji,,s #oti% sam$ling :s muy similar al anterior/ Primero se 2ace un alineamiento so,re todas las secuencias de<ando %uera solamente una/ Luego un se genera un PSS# de $rue,a $ara !ue la matri? se $ueda alinear con la secuencia !ue se de< %uera/ La matri? de $untuaciones se a<usta $ara o,tener el me<or alineamiento/ Luego este $roceso se re$ite tantas +eces !ue
Se!uence Logos
=n alineamiento m lti$le de secuencias o un moti+o a menudo se $uede re$resentar de manera gr;%ica- como un logoti$o/ :sto es com nmente conocido como MSe!uence LogosN/ Por e<em$lo*
3ada $osicin se com$one de letras a$iladas !ue re$resentan un residuo aminoac@dico o un nucletido/ Jeneralmente la altura en una $osicin re%le<a como se conser+a la $osicin- mostrando la %recuencia relati+a de estos residuos en esa $osicin/
Posiciones conser+adas tienen menos residuos y los s@m,olos m;s grandes/ Posiciones menos conser+adas tienen una me?cla mas 2eterog.nea y s@m,olos m;s $e!ueHos a$ilados/ Le,Logo* Programa interacti+o $ara generar logoti$os/ Teniendo como in$ut una alineamiento en %ormato %asta/
Algunas +eces los amino;cidos estan coloreados $or gru$os* &idro%,icos* A- O- I- L- #- 0- P- L B;sicos* I- 4- & Ac@dicos* D- : Polares* S- T- 1- P- J- Q- 3