Está en la página 1de 33

PARTE 1:

Unidad I: (4 clases)

Introduccin + Bases de Datos Biolgicas y Bases de Datos de Literatura 14/03 Alineamiento de Pares de Secuencias + BLAST + B s!ueda en Bases de Datos "1/03 Alineamiento # lti$le + Per%iles + &##s "'/03 Motivos y Dominios en Protenas 04 04

1( Solemne ")/04

Eval!aci"n de Predicciones #ioin$orm%ticas

Tr!e &ositives* $redicciones $ositi+as !ue en +erdad son $ositi+as Tr!e ne'atives* $redicciones negati+as !ue en +erdad son negati+as (alse &ositives* $redicciones $ositi+as !ue en +erdad son negati+as (alse ne'atives* $redicciones negati+as !ue en +erdad son $ositi+as Dadas estas cuatro $osi,les com,inaciones- es $osi,le calcular 4 descri$ciones estadisticas de la calidad de un m.todo $redicti+o* sensi)ilidad- es&eci$icidad- &recisi"n- valor &redictivo ne'ativo/

Eval!aci"n de Predicciones #ioin$orm%ticas

*ensi)ilidad TP / TP + 01

*ensi)ilidad es la 2a,ilidad de 2acer $redicciones $ositi+as de entre todos los casos $ositi+os dis$oni,les

Eval!aci"n de Predicciones #ioin$orm%ticas

Es&eci$icidad T1 / T1 + 0P

Es&eci$icidad es la 2a,ilidad de 2acer $redicciones negati+as de entre todos los casos negati+os dis$oni,les

Eval!aci"n de Predicciones #ioin$orm%ticas


Precisi"n (valor &redictivo &ositivo) TP / TP + 0P

Precisi"n es la $ro$orcin de $redicciones $ositi+as !ue son correctas

Eval!aci"n de Predicciones #ioin$orm%ticas

+alor &redictivo ne'ativo T1 / T1 + 01

+alor &redictivo ne'ativo es la $ro$orcin de $redicciones negati+as !ue son correctas

.!rva R/. (.aracterstica /&erativa del Rece&tor)


3ur+a 453 resulta de gra%icar la sensi,ilidad +ersus 1 6 es$eci%icidad $ara un mismo m.todo usando +arios um,rales de discriminacin distintos/ +erde* #.todo ideal sin %alsos $ositi+os ni %alsos negati+os 7sensi,ilidad 8 1- es$eci%icidad 8 19 Ro,o* #.todo no discriminati+o 7sensi,ilidad 8 1 6 es$eci%icidad9 A-!l* #.todo real
:l ;rea ,a<o la cur+a 7A=39 es igual a la $ro,a,ilidad !ue un calsi%icador ran>ear; una instancia $ositi+a al a?ar mas alto !ue una instancia negati+a al a?ar/ #ientras m;s cercano a 1 me<or/

Motivos y Dominios: Introd!cci"n


Se $uede conocer muc2o so,re la %uncin de una $rote@na sim$lemente identi%icando &e0!e1as sec!encias consenso 0!e est2n relacionadas a estr!ct!ra o $!nciones conocidas / :stas secuencias- de$endiendo de su eAtensin $ueden clasi%icarse en* Motivo* Patrn de secuencia conser+ado de longitud a$roAimada entre 10 y 30 amino%cidos/ :/g/ dedos de ?inc/ Dominio* Tam,i.n es un $atrn de secuencia conser+ado- $ero de mayor eAtensin 740 a 400 amino%cidos9- y de%inido como una !nidad $!ncional y estr!ct!ral inde&endiente/ :/g/ dominio transmem,ra o dominio de unin a ligando/

Identi$icaci"n de motivos y dominios de &rotenas


6a identi$icaci"n de motivos y dominios se )asa en*

Alineamiento m7lti&le de sec!encias 3onstruccin de Per$iles 7PSIBBLAST9 #odelos 5cultos de #ar>o+ 78MM9

Basados en alineamientos- $er%iles o modelos ocultos de #ar>o+com nmente $ueden ser identi%icadas re'iones conservadas #oti+os o dominios $ueden ser 7tiles &ara clasi$icar e identi$icar caractersticas com!nes en estas secuencias

Re&resentaci"n de motivos y dominios de &rotenas


E9isten en general dos $ormas &ara re&resentar la in%ormacin contenida en moti+os y dominios* E9&resiones Re'!lares Modelos estadsticos como los Per%iles o #odelos 5cultos de #ar>o+/ :stos adem;s entregan in%ormacin $ro,a,il@stica del an;lisis

1:

3:

E9&resiones re'!lares
Las e9&resiones re'!lares se re$resentan con cadenas de caracteres !nidos &or '!iones/ #uc2as +eces se 2an o,tenido de la reduccin de alineamientos m lti$les de secuencias donde se encuentran moti+os y dominios/ Las eA$resiones regulares a menudo llamadas $atrones- es una eA$resin !ue descri,e un con<unto de cadenas sin enumerar sus elementos/ :ste ti$o de eA$resin es dominios/ til $ara re$resentar moti+os y

Re'las*

6etras re$resentan caracteres de amino;cidos de una letra 7cdigo I=PA39 .orc;etes indican !ue de todos los caracteres escritos dentro de ellos se $uede utili?ar slo uno/ 6laves %uncionan como negacin- es decir- !ue se $uede utili?ar un elemento cual!uiera eAce$tuando los !ue est.n dentro de las lla+es < re$resenta un car;cter cual!uiera 57meros entre &ar2ntesis indica !ue .l o los

Para identi%icar los residuos aminoac@dicos se utili?a el cdigo I=PA3* Por e<em$lo*

E9&resiones re'!lares
:<em$lo* :BC7"9BD0&#EBC749BFPGBL Su lectura ser@a* =n car;cter : seguido de cual!uiera dos caracteres- seguido de un car;cter 0-& o #- seguido $or cuatro caracteres cual!uiera- $osteriormente un car;cter cual!uiera eAce$to P- %inali?ando con un car;cter L

#!scando e9&resiones re'!lares


:Aisten dos mecanismos &ara relacionar e9&resiones re'!lares con una secuencia en $articular* Em&are,amiento e9acto Em&are,amiento di$!so

Em&are,amiento e9acto
De,e eAistir una coincidencia e9acta entre los residuos y la eA$resin regular Por &e0!e1a !ue sea la di$erencia entre la secuencia !ue se est; e+aluando con la eA$resin- esta se considera no coincidente La eAigencia tan r@gida de esta t.cnica elimina $osi,les similitudes im$ortantes !ue nos $ro$orcionar@an in%ormacin adecuada- lo cual causa el $ro,lema de la eAistencia de $alsos ne'ativos

Em&are,amiento di$!so
:l em$are<amiento di%uso reali?a coincidencias m%s $le9i)les de resid!os con &ro&iedades similares/ =na coincidencia con m;s %leAi,ilidad a!menta el r!ido y la e9istencia de $alsos &ositivos

6as )ases de datos de motivos ;an sido com7nmente !tili-adas &ara la clasi$icaci"n de &rotenas

PR/*ITE 0ue la &rimer )ase de datos de &atrones de sec!encia/ =tili?a $rinci$almente un &atr"n 7nico de consenso o %irma de secuencia $ara identi%icar las $rote@nas Los $atrones de secuencia est;n re$resentados mediante e9&resiones re'!lares de coincidencia

Emoti$
Base de datos de moti+os !ue utili?a,a alineamiento m7lti&le de sec!encias de las ,ases de datos BL53IS y P4I1TS Pose@a una coleccin de alineamientos muc2o mas grande !ue P45SIT: :m$lea,a el em&are,amiento di$!so con e9&resiones re'!lares 0ue descontin!ada el 3003

E9&resiones Re'!lares vs: Modelos Estadsticos


E9&resiones re'!lares 5o toman en c!enta la in$ormaci"n &ro)a)ilstica acerca del alineamiento m7lti&le del cual %ueron modelados/

Si una e9&resi"n re'!lar es derivada de !n con,!nto incom&leto de sec!encias? esta &osee menos &oder &redictivo/

Modelos estadsticos Preservan la in$ormaci"n del alineamiento m7lti&le de secuencias del cual $ro+ienen

Tienen mayor &oder &redictivo !ue las eA$resiones regulares incl!so c!ando son derivados de !n con,!nto incom&leto de sec!encias/

Tienen 'ran sensi)ilidad $ermitiendo incluso identi%icar secuencias similares muy di+ergentes

P$am
Base de datos con alineamientos de dominios &roteicos 2ec2os a $artir de las sec!encias de la )ase de datos UniProt: 3ada moti+o o dominio es re&resentado &or !n modelo oc!lto de Mar@ov generado del alineamiento de un n mero de $rote@nas 2omlogas/ La ,ase de datos est; com&!esta de dos &artes* P$amAA contiene alineamientos man!ales P$amA# contiene alineamientos a!tom%ticos

InterPro
Base de datos !ue !ni$ica m7lti&les )ases de datos de dominios y sitios %uncionales- incluyendo PR/*ITE- P$am y otras %uentes de in%ormacin/ InterPro usa una com)inaci"n de e9&resiones re'!lares y modelos estadsticos/

La clasi%icacin de las ,ases de datos de $rote@nas mencionadas se ,asan en la $resencia de moti+os y dominios/ Sin em,argo- otra %orma de clasi%icar las $rote@nas est; ,asada en la com$aracin de secuencias de longitud casi com$leta/ :sta clasi%icacin re!uerir; la agru$acin de $rote@nas- ,as;ndose en similitudes generales/

#ases de datos de (amilias de Protenas

=na ,ase de datos de %amilia de $rote@nas es 35J- la cual se ,asa en la clasi%icacin %ilogen.tica/ :sta ,ase de datos se %orma com$arando secuencias de $rote@nas codi%icadas de 43 genomas totalmente secuenciados- los cuales re$resentan a su +e? 30 l@neas %ilogen.ticas/ Se de,e considerar !ue si se conoce la %uncin de una $rote@na ortloga- entonces se conoce la %uncin de los miem,ros del mismo gru$o/ :Aisten 4-'K3 gru$os en 35J- deri+ados de

Proto1et* es otra ,ase de datos de gru$os de $rote@nas 2omlogas similar a 35J/ Secuencias de $rote@nas ortlogas de la ,ase de datos SLISSP45T son agru$adas y com$aradas $or alineamientos entre todos los $osi,les $ares de $rote@nas/ Por lo !ue la relacin entre $rote@nas- !ueda de%inida $or los eB+alues de los alineamientos de BLAST/ As@- se $roducen di%erentes ni+eles de similitud y una organi?acin <er;r!uica de los gru$os de $rote@nas/

Desc!)riendo motivos en sec!encias no alineadas

Para un con<unto de secuencias estrec2amente relacionadasse $ueden descu,rir o encontrar moti+os com$artidos usando m.todos de alineamientos m lti$les de secuencias/ Sin em,argo- eAisten secuencias !ue est;n le<anamente relacionados- $or lo !ue no es del todo %;cil alinearlas/ Para detectar estos moti+os se utili?an algunos algoritmos mas es$eciali?ados* :A$ectation maAimation Ji,,s #oti% sam$ling

:A$ectation maAimation :l m.todo $rimero 2ace un alineamiento aleatorio de secuencias $ara generar un PSS# 7Position s$ecic scoring matrices9 7$untuaciones de matriA de $osiciones es$eci%icas9 de $rue,a/ Luego la $rue,a es usada $ara com$arar cada secuencia indi+idualmente/ Se ir;n modi%icando las $untuaciones de la PSS# en cada iteracin $ara maAimi?ar el alineamiento de la matri? a cada secuencia/ Durante cada iteracin la secuencia de

Ji,,s #oti% sam$ling :s muy similar al anterior/ Primero se 2ace un alineamiento so,re todas las secuencias de<ando %uera solamente una/ Luego un se genera un PSS# de $rue,a $ara !ue la matri? se $ueda alinear con la secuencia !ue se de< %uera/ La matri? de $untuaciones se a<usta $ara o,tener el me<or alineamiento/ Luego este $roceso se re$ite tantas +eces !ue

Se!uence Logos

=n alineamiento m lti$le de secuencias o un moti+o a menudo se $uede re$resentar de manera gr;%ica- como un logoti$o/ :sto es com nmente conocido como MSe!uence LogosN/ Por e<em$lo*

3ada $osicin se com$one de letras a$iladas !ue re$resentan un residuo aminoac@dico o un nucletido/ Jeneralmente la altura en una $osicin re%le<a como se conser+a la $osicin- mostrando la %recuencia relati+a de estos residuos en esa $osicin/

Posiciones conser+adas tienen menos residuos y los s@m,olos m;s grandes/ Posiciones menos conser+adas tienen una me?cla mas 2eterog.nea y s@m,olos m;s $e!ueHos a$ilados/ Le,Logo* Programa interacti+o $ara generar logoti$os/ Teniendo como in$ut una alineamiento en %ormato %asta/

Algunas +eces los amino;cidos estan coloreados $or gru$os* &idro%,icos* A- O- I- L- #- 0- P- L B;sicos* I- 4- & Ac@dicos* D- : Polares* S- T- 1- P- J- Q- 3