1/iernes 02 de (a)o del 201&1 Introduccin Un as3ecto im3ortante 3ara caracteri0ar secuencias es la identificacin de motivos ) dominios4 donde un motivo es una secuencia corta conservada asociada con distintas funciones en 3rote5nas o *$A un e6em3lo son los *edos de 7inc 8ue tienen de 10 a 20 aminocidos de largo9 "or otro lado un dominio tam:in es una secuencia conservada definida como una unidad inde3endiente estructural ) funcional4 a su ve0 son muc;o ms largas 8ue los motivos< 3ueden incluir o no motivos ) un e6em3lo de estos son los dominios transmem:rana9 =1> ?volutivamente los motivos ) dominios son ms conservados 8ue otras regiones ) su identificacin en 3rote5nas es un as3ecto im3ortante 3ara clasificar las secuencias de las 3rote5nas9 *e:ido a la divergencia e@istente evolutivamente las relaciones funcionales entre 3rote5nas a menudo no 3ueden ser distinguidas usando BAA.T o FA.TA4 3ara esto la identificacin de motivos ) dominios es mu) Btil9 =1> *ic;a identificacin de3ende fuertemente de los alineamientos mBlti3les de secuencias como los modelos ocultos de (arCov =D((>4 :asados en estos alineamientos las regiones comBnmente conservadas se 3ueden identificar9 As5 las regiones consideradas motivos ) dominios sirven como caracter5sticas de diagnostico 3ara una familia de 3rote5na4 estas secuencias consenso luego son 3uestas en una :ase de datos 3ara :Bs8uedas 3osteriores9 *entro de las :ases de datos utili0adas se encuentra "R!.IT? ) ?motif9 =1> "or otro lado los motivos ) dominios se 3ueden re3resentar mediante el uso de e@3resiones regulares4 en este ti3o de e@3resiones se re3resenta mediante una cadena de caracteres ) 3ara esto es necesario seguir ciertas reglas donde se utili0a 3rinci3almente el cdigo estndar de una letra 3ara los aminocidos9 =1> Objetivos Caracteri0ar 1E secuencias de 3rote5nas9 Utili0ar F :ases de datos diferentes 3ara tener e@3resiones regulares ) modelos estad5sticos de motivos ) dominios9 ?valuar estad5sticamente las 3redicciones ;ec;as 3or la :ase de datos "fma9 Resultados 191 ?n "rosite se :uscaron los siguientes 1E cdigos Uni"rot, G0F&H1< !E1122< G2I&22< "2FJJK< GKRJUF< "1&F2&< GE"L.1< G&F1FF< !JJ122< G2HM22< GFEE02< G2F1LJ< GKK012< GKD700< GFEH10< GHA"JH< BK/T2&< IFFDFJ9 a9 Codigo Uni"3rot $om:re G0F&H1 Aristoloc;ene s)nt;ase GKRJUF .8ualene s)nt;ase "1&F2& Farnes)l 3)ro3;os3;ate s)nt;ase G&F1FF -eran)lgeran)l 3)ro3;os3;ate s)nt;ase !JJ122 De@a3ren)l1di3;os3;ate s)nt;ase large su:unit ==2?4J?>1 farnes)l1di3;os3;ate s3ecific> G2HM22 De@a3ren)l 3)ro3;os3;ate s)nt;ase GKD700 .olanes)l di3;os3;ate s)nt;ase F4 c;loro3lasticNmitoc;ondrial BK/T2& L"A0J2C31liCe 3rotein IFFDFJ *e;)dros8ualene s)nt;ase Tabla 1: Nombres de los patrones encontrados en UniProt :9 OCuntos 3atrones Bnicos diferentes ;a) entre las 1E secuenciasP .eguir los linCs a cada uno de ellos e inclu)a en el informe el nom:re del 3atrn4 ) el 3atrn de secuencia consenso 3ara cada uno de ellos9 R: K de las 1E 3rote5nas tienen 3atrones Bnicos diferentes9 Tabla 2, (uestra los nom:res de los 3atrones ) sus 3atrones de secuencia consenso9 29 "fam a9 Registre slo los Q.ignificant "fam1A (atc;esQ OA 8u familia=s> corres3onde cada secuencia9 L cul es el e1value 8ue tiene la secuencia de la 3rote5na 8ue usted ingreso vs9 el modelo oculto de (arCov 8ue define cada familiaP Bit score4 3unta6e de 8ue tan :ueno fue el e1value del modelo oculto de marCov9 $umero Cdigo Familia e1value D(( Bit score 1 G0F&H1 *ominio terminal C ter3eno sintasa J9Ke12J K a 2JE 2191 2 !E1122 *ominio $ terminal4 Ter3eno sintasa *ominio terminal C ter3eno sintasa 292e1K1 19&e1EJ 1 a 1EF 2 a 2H0 1HF9& 22090 F G2I&22 *ominio terminal C ter3eno sintasa 191e1FK & A 2J2 12F92 & "2FJJK *ominio $ terminal4 Ter3eno sintasa *ominio terminal C 19Je1J0 1 a 1EF 20F9J $om:re del 3atrn "atrn de secuencia consenso Neutral zinc metallopeptidases, zinc- binding region signature [GSTALIVN]-{!"#$-{%N&$-"-'-[LIV()*+]-{&'"#%$-"-{'%!$- [LIV()*+GS,] a- S.ualene and p/0toene s0nt/ases signature 1 b- S.ualene and p/0toene s0nt/ases signature 2 a> *-[!SA(]-342--[VSG]-A-[GSA]-[LIVAT]-[IV]-G-342--[L(S!]-342--[LIV] :> [LIV(]-G-345--,-342,5--[N&]-[I)L]-3-[#']-&-[LIV()*]-342--[&']-346,7--#- 3-[)*]-3- a> ol0pren0l s0nt/ases signature 1 :> ol0pren0l s0nt/ases signature 2 Se repite para 165264 ,651554 89912:4 ;<VT:64 ,<"=>>4 a> [LIV(]42--3-&-&-342,6--&-346--#-#-[G"] :> [LIV()*]-G-342--[)*L]-,-[LIV(]-3-&-&-[LIV()*]-3-[&NG] ol0pren0l s0nt/ases signature 2 4,:7+:2> [LIV()*]-G-342--[)*L]-,-[LIV(]-3-&-&-[LIV()*]-3-[&NG] a> S.ualene and p/0toene s0nt/ases signature 1 b- S.ualene and p/0toene s0nt/ases signature 2 a> *-[!SA(]-342--[VSG]-A-[GSA]-[LIVAT]-[IV]-G-342--[L(S!]-342--[LIV] :> [LIV(]-G-345--,-342,5--[N&]-[I)L]-3-[#']-&-[LIV()*]-342--[&']-346,7--#- 3-[)*]-3- ter3eno sintasa 19&e12F 1 a 2H0 F1F90 K GKRJUF .8ualeneN3;)toene s)nt;ase 19He1&2 2 a 2JK 1&K9J J "1&F2& "oli3renil sintetasa 29&e1EJ 2 a 2KE 2EJ9E H GE"L.1 "oli3renil sintetasa F9&e1&K F a 12F 1KF92 E G&F1FF "oli3renil sintetasa F92e1EK 2 a 2&H 2EK91 2 !JJ122 "oli3renil sintetasa 19Fe1J2 & a 2&1 21190 10 G2HM22 "oli3renil sintetasa &9Ee1F2 K a 12K 1109E 11 GFEE02 *ominio $ terminal4 Ter3eno sintasa *ominio terminal C ter3eno sintasa 1e1K1 19Ke1&0 E a 1EF 1 a 2KJ 1H&92 1F291 12 G2F1LJ *ominio terminal C ter3eno sintasa E9Je12J E a 2J2 209H 1F GKK012 *ominio terminal C ter3eno sintasa E9He1K2 11 a 2JE 1HK92 1& GKD700 "oli3renil sintetasa Je1K0 12 a 2FF 1J29K 1K GFEH10 *ominio $ terminal4 Ter3eno sintasa *ominio terminal C ter3eno sintasa J9Je1&E F9Ke1EH 1 a 1EF 1 a 2H0 1J29K 22290 1J GHA"JH Tric;odiene sintase Fe121E 1 a FHK H2F9E 1H BK/T2& "oli3renil sintetasa Je1&K F a 22K 1KF91 1E IFFDFJ .8ualeneN3;)toene s)nt;ase 19Ee1KE 2 a 2JJ 12H92 Tabla 3, (uestra los cdigos de las 3rote5nas4 su nom:re4 los e1value corres3ondiente 8ue son com3arados con sus modelos ocultos de (arCov =D((> corres3ondiente9
:9 OCuntas familias Bnicas diferentes identific entre las 1E secuenciasP 191 *ominio terminal ter3eno sintasa C 291 *ominio $ terminal4 Ter3eno sintasa F91 .8ualeneN3;)toene s)nt;ase &91 "ol)3ren)l s)nt;etase K91 Tric;odiene sintasa F9 Inter"ro a9 Codigo Uni"rot Codigo dominio $om:re del domino Base de datos G0F&H1 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "F0F2FJ Ter3ene s)nt;ase famil)4 metal :inding domain "fam !E1122 ..F&E2F2 Ter3enoid c)clasesN"rotein 3ren)ltransferases su3erfamil) .u3erfamil) 19K09F0910 Iso3renoid .)nt;ase 1 domain 1 CATD "F01F2H Ter3ene s)nt;ase4 $1terminal domain "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "F0F2FJ Ter3ene s)nt;ase famil)4 metal :inding domain "fam G2I&22 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "F0F2FJ Ter3ene s)nt;ase famil)4 metal :inding domain "fam "2FJJK 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "F0F2FJ Ter3ene s)nt;ase famil)4 metal :inding domain "fam GKRJUF "F00&2& .8ualeneN3;)toene s)nt;ase "fam TI-R01KK2 farnes)l1di3;os3;ate farnes)ltransferase TI-RFA(s 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "1&F2& "F00F&E "ol)3ren)l s)nt;etase "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) GE"L.1 "TDR12001 G'#AN*LG'#AN*L *#8"8S"AT' S*NT"AS' "A$TD?R "F00F&E ol0pren0l s0nt/etase "fam 19109J00910 )arnes0l &ip/osp/ate S0nt/ase CATD ..F&EKHJ Terpenoid s0nt/ases super?amil0 .u3erfamil) G&F1FF "TDR12001 -?RA$LA-?RA$LA "LR!"D!."DAT? .L$TDA.? "A$TD?R "F00F&E "ol)3ren)l s)nt;etase "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) !JJ122 "TDR12001 -?RA$LA-?RA$LA "LR!"D!."DAT? .L$TDA.? "A$TD?R ".00H2F "ol)3ren)l s)nt;ases signature 19 "R!.IT? ".00&&& "ol)3ren)l s)nt;ases signature 29 "R!.IT? "F00F&E "ol)3ren)l s)nt;etase "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) G2HM22 "TDR12001 -?RA$LA-?RA$LA "LR!"D!."DAT? .L$TDA.? "A$TD?R ".00&&& "ol)3ren)l s)nt;ases signature 29 "R!.IT? "F00F&E "ol)3ren)l s)nt;etase "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfami) GFEE02 ..F&E2F2 Ter3enoid c)clasesN"rotein 3ren)ltransferases su3erfamil) .u3erfamil) ..F&E2F2 Ter3enoid c)clasesN"rotein 3ren)ltransferases su3erfamil) .u3erfamil) ..F&E2F2 Ter3enoid c)clasesN"rotein 3ren)ltransferases su3erfamil) .u3erfamil) 19K09F0910 Iso3renoid .)nt;ase 1 domain 1 CATD "F01F2H Ter3ene s)nt;ase4 $1terminal domain "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "F0F2FJ Ter3ene s)nt;ase famil)4 metal :inding domain "fam G2F1LJ 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "F0F2FJ Ter3ene s)nt;ase famil)4 metal :inding domain "fam GKK012 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "F0F2FJ Ter3ene s)nt;ase famil)4 metal :inding domain "fam GKD700 "TDR12001 -?RA$LA-?RA$LA "LR!"D!."DAT? .L$TDA.? "A$TD?R ".00H2F "ol)3ren)l s)nt;ases signature 19 "R!.IT? ".00&&& "ol)3ren)l s)nt;ases signature 29 "R!.IT? "F00F&E "ol)3ren)l s)nt;etase "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) GFEH10 ..F&E2F2 Ter3enoid c)clasesN"rotein 3ren)ltransferases su3erfamil) .u3erfamil) ..F&E2F2 Ter3enoid c)clasesN"rotein 3ren)ltransferases su3erfamil) .u3erfamil) ..F&E2F2 Ter3enoid c)clasesN"rotein 3ren)ltransferases su3erfamil) .u3erfamil) 19K09F0910 Iso3renoid .)nt;ase 1 domain 1 CATD "F01F2H Ter3ene s)nt;ase4 $1terminal domain "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) "F0F2FJ Ter3ene s)nt;ase famil)4 metal :inding domain "fam GHA"JH "F0JFF0 Tric;odiene s)nt;ase =TRIK> "fam "IR.F001FEE tric;odiene s)nt;ase "IR 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) BK/T2& "TDR12001 -?RA$LA-?RA$LA "LR!"D!."DAT? .L$TDA.? "A$TD?R ".00H2F "ol)3ren)l s)nt;ases signature 19 "R!.IT? ".00&&& "ol)3ren)l s)nt;ases signature 29 "R!.IT? "F00F&E "ol)3ren)l s)nt;etase "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) IFFDFJ "F00&2& .8ualeneN3;)toene s)nt;ase "fam 19109J00910 Farnes)l *i3;os3;ate .)nt;ase CATD ..F&EKHJ Ter3enoid s)nt;ases su3erfamil) .u3erfamil) ".010&& .8ualene and 3;)toene s)nt;ases signature 19 "R!.IT? Tabla 4, .e muestran los cdigos de las familias a los dominios ) familias de cada 3rote5na4 adems del nom:re de la familia ) la :ase de datos desde la cual fue e@tra5da la informacin9 :9 Aa informacin o:tenida 3ara "fam ) "rosite desde Inter"ro4 Ocorres3onde con a8uella o:tenida 3or usted desde esas :ases de datos directamente en los 3untos 1 ) 2 arri:aP R: .54 no ;a) variaciones significativas4 3or lo tanto 3odemos decir 8ue si corres3onden9 c9 OGu otras :ases de datos4 adems de "fam ) "rosite4 estn contenidas en Inter"ro ) a3ortan informacin 3ara las 1E 3rote5nas 8ue usted investigP $om:re las :ases de datos9 R: CATD4 .u3erfamil)4 "A$TD?R4 "IR ) TI-RFA(s &9 ?valuacin estad5stica de 3redicciones :ioinformticas .u3onga 8ue en realidad los 2 3rimeros cdigos Uni"rot 3ertenecen a la familia "fam Ter3eneRs)nt;4 ) 8ue las siguientes 2 3ertenecen a la familia Ter3eneRs)nt;RC9 Usando estos informacin4 ) su3oniendo 8ue el me6or resultado =ms :a6o e1value> 8ue o:tuvo 3ara "fam en el 3unto 2 son 3redicciones4 determine T"4 T$4 F"4 F$4 sensi:ilidad4 es3ecificidad4 3recisin4 ) valor 3redictivo negativo9 Tabla 5: .e muestran los T$4 T"4 F" L F$ corres3ondientes al 3unto de vista de ter3eno sintasa ) los valores calculados 8ue se des3renden9 Tabla 6: .e muestra .e muestran los T$4 T"4 F" L F$ corres3ondientes al 3unto de vista de ter3eno sintasa C ) los valores calculados 8ue se des3renden9 /erdad "ositiva $egativa "rediccin "ositiva F 0 $egativa 1K 0 .ensi:ilidad, 041J ?s3ecificidad, 0 "recisin, 1 /alor 3redictivo negativo, 0 /erdad "ositiva $egativa "rediccin "ositiva 0 1 $egativa 2 E .ensi:ilidad, 0 ?s3ecificidad, 092 "recisin, 0 /alor 3redictivo negativo, 09K Conclusin .e logro caracteri0ar las secuencias de 1E 3rote5nas4 de las cuales se identificaron las e@3resiones regulares ) los modelos estad5sticos relacionados a motivos ) dominios de estas4 utili0ando tam:in 3ara esto tres :ases de datos diferentes4 de las cuales o:tuvimos valores mu) similares entre ellos4 disminu)endo cual8uier error relacionado al momento de com3arar los datos9 .e evaluaron correctamente las 3redicciones :ioinformticas4 utili0ando nuestro modelo de 1E 3rote5nas9 Bibliografa =1> ?ssential Bioinformatics9 Sion4 9 First ?dition =200J>9 Cam:ridge Universit) "ress9 $eT LorC9