Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bioinformatica PDF
Bioinformatica PDF
MARCAS COMERCIALES. las designaciones uti lizadas por las empresas para distinguir sus productos
(hardware, software, sistemas operativos, etc.) suelen ser marcas registradas. RA-MA ha intentado a lo largo de
este libro d istinguir las marcas comerciales de los ténninos descript ivos, s iguiendo e l estilo que utiliza el
fabricante, s in intención de infringir la marca y solo en beneficio del propietario de la misma. los datos de los
ejemplos y pantallas son ficticios a no ser que se especifique lo contrario.
RA-MA es una marca comercial registrada.
Se ha puesto e l máximo empeño en ofrecer al lector una información completa y precisa. Sin embargo, RA-MA
Editorial no asume ninguna responsabilidad derivada de su uso ni tampoco de cualquier violación de patentes ni
otros derechos de terceras partes que pudieran ocurrir. Esta publicación tiene por objeto proporcionar unos
conocimientos precisos y acreditados sobre el tema tratado. Su venta no supone para e l editor ninguna forma de
asistencia legal. administrat iva o de ningíon otro tipo. En caso de precisarse asesoría legal u otra fom1a de ayuda
experta, deben buscarse los servic ios de un profesional competente.
Reservados todos los derechos de publicación en cualquier idioma.
Según lo dispuesto en el Código Penal vigente ninguna parte de este libro puede ser reproducida, grabada en
sistem~l de almacenamiento o transmitida en fonna alguna ni por cualquier procedimiento, ya sea electrónico,
mecán ico, reprográlico, magnético o cualquier otro s in autorización previa y por escrito de RA-MA ; su contenido
está protegido por la ley vigente que establece penas de prisión y/o multas a quienes, intencionadamente,
reprodujeren o plagiaren, en todo o en parte, una obra literaria, artíst ica o científica.
Editado por:
RA-MA, S.A. Editoria l y Publicaciones
Ca lle Jarama, 33, Polígono lndustria!IGARSA
28860 PARACUELLOS DE JARAMA, Madrid
Teléfono: 9 1 658 42 80
Fax: 91 662 81 39
Correo e lectrónico: editorial@ra-ma.com
Internet: www.ra·ma.es y www.ra·ma.com
ISBN: 978-84-9964-575-9
AUTO R ... ... ....... ... ... .... ... ....... .... ... ... .... .............. ... ... ....... ....... .... ... ... ....... ....... ... .... ... ....... ...... l t
PRÓ LOGO ....... ... ..................... ... ..................... ... ... .............. .... ... ... .............. ... .... ... ....... ...... 13
'
CAPITULO '
l . INTROD UCC ION .................................................................................... 15
l.l A QU IÉN VA DESTINADO ESTE LI BRO . ..................................................... 16
1.2 ESTR UCTU RA DE ESTE LIBR0 ...................................................................... 16
1.3 LEYENDAS ....................................................................................... 17
'
CAPITULO 3. FO R MAT OS D E FICH EROS ................................................................. 3 1
3 .1 DATOS EN B RUTO ........................................................................................ 32
3.2 FASTA.................................................................................................................. 34
3 .3 FASTAQ ............................................................................................................... 35
3.4 SAM/B AM ........................................................................................................... 36
3.5 GFF/GFF3 ............................................................................................................ 41
3.6 GVF...................................................................................................................... 43
8 BIOINFORMATICA: El AON AUN SOLO CliC © RA-MA
' '
CAPITULO 8. ANALIS IS DE SECUENCIAS --------------·····----··--··--··--·--···------·------·-------113
8.1 DETECCIÓN DE ORF ................................................................................... 114
8.2 ANÁLIS IS DE CALI DA D . .............................................................................. 115
8.3 AUN EAM 1ENTO ..... _. .. _.._. ........ _. ..... _. .. _.._. ..... _.._.,._. ._. ..... _. ........ _. ... ,_. .............. 115
8.3.1 Gráficos de puntos ......-. ...... _. ................................ -. ............ -. ................ 117
8.3.2 A lineamiento de pares .......................................................................... 118
8.3.3 A lineamiento múltiple_. ....................................... -. ............................... 119
8.3.4 Puntuac ión del a linea miento ................................................................ 120
8.4 IDENTIFICACIÓN DE VARIACIONES _. ................... _.._. ............ -.-. ...... _. ....... 122
8.5 ANOTACIÓN ................ _.._. ................... _. .......................................................... 126
8 .6 VISUALIZACIÓN ............................................................................................ 126
8.7 PIPELINES ANALÍTI COS Y SISTEMAS DE FLUJO DE TRABAJO ........... 127
• • •
CAPITU LO 9. PRACTI CA 3: ANA LISIS DE SECUENCIAS --·-- --·---- ---- ·------·----· --·---- 129
9. 1 ANÁLISIS DE LA CALIDAD CON VECSCREEN ......._. ..... _. ..... _. ........ _. ..... _. 129
9 .2 ANÁLISIS DE LA COMPOS IC IÓN DELADN ........................................... 135
9.2.1 Búsqueda de palabras ·--···················--···············--··--·--·----···--·····--········-- 135
9.2.2 Estadísticas de la secuencia con Genomatix ........................................ 137
9.2.3 Búsqueda de repeticiones ......................................................... _........... 139
9.2.4 Búsqueda de ORF...._. ............ _. ......................... _. .......... _._. ._._. ............... 150
9.3 ALINEAMIENTO DE SECUENCIAS CON BLASTN ......... _. ..... _. ................. 160
9.4 EDIC IÓN DE ALINEAMIENTOS .. .............. ......................................... 166
9.4.1 Creación de grupos ............................................................................... 175
9.4.2 Reordenación del a lineamiento ............................................................ 177
9.4.3 Adición y borrado de huecos ................................................................ 178
9.5 BÚSQUEDA D E SECUENCIAS HOMÓLOGAS CON SIB-BLAST ............. 179
9.6 ALINEAMIENTO MÚLTIPLE ......................................................................... 183
9.6. 1 Alineamiento múltiple con Clustal Omega .......................................... 185
9.6.2 A líneamicnto mú lti ple con MUSCL E .................................................. 192
9.6.3 A lineamiento mú lti ple con T-Coffee .................................................... 193
CAP ÍTULO 10. PROTEÓM ICA ... ....... ... .... .... ...... ... .... ... .... ... ....... ... .... ... .... .......... ... .... ... l 95
10.1 GENERALIDADES .......................................................................................... 195
102 ESTRUCTU RA DE LAS PROTEÍNAS .........•..... _. ........................................... 196
10.3 MÉTODOS DE PREDICCIÓN ......................................................................... 197
10.4 MODELADO POR HOMOLOGÍA .................................................................. 198
10.5 RECONOCIMIENTO DE PLIEGUES .............. ...................................... 199
# . , ! •
AG RAD ECIMIENTOS
Este libro es especial para mí por muchas razones. Supone haber cu mplido
una ilus ión que tenía desde hace mucho tiempo: transmitir mi pasión por la B iología.
Por este motivo qu isiera agradecer, en primer lugar, a RA-MA el haber confiado en
mí y aceptado m i propuesta de proyecto.
12 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA
Y, cómo no, muchas gracias a mi mujer y a mis hijos por el tiempo que les he
robado, que no tiene precio. Espero que el sacrific io haya merecido la pena.
El gran reto de estas dos próximas décadas será, sin duda alguna, la
revoluc ión biológica, en cuanto prácticamente cualquier tipo de experimento se
plantea en un contexto genómico. En efecto, el hecho de que los ava nces en las
tec nologías de secuenciación permitan el análisis no solo de la secuencia de ADN
de un indi vid uo sino también de su metaboloma con un nivel de detalle suficiente
como para predecir la evolución de una enfermedad o una terapia, va a suponer una
profunda transfo rmación co nceptual, técn ica y tecno lógica de la Biología en general
y de la Medicina en particular, que se nta rá las bases de la Medicina Predictiva,
Personalizada, Preventiva y Particípativa.
A través de esta obra el au tor, David Roldán, intenta darnos una vis ión
eminentemente práctica de los principios básicos de la Bioinformática, ex plicando
14 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA
con detal le los aspectos fundamenta les de esta ra ma híbrida entre Co mputac ión y
B iología.
herram ientas de fuentes abiertas (open source), ya que de esta manera estarán al
a lcance de cualqu ier lector, sin tener que depender de onerosos costes de licencias.
Además, para reforza r esta vis ión, se presenta un conj unto de ejercicios
y cuestiones prácticas, donde se proponen y resuelven diferentes eje rc iCIOS que
permiten profundizar en los conceptos teóricos in troducidos.
A lo largo del libro, y sobre todo en la segu nda pa rte del mismo, se hará uso
del sigui ente esquema para las prácti cas y para los ejem plos presentados.
la búsqueda (paso 4) se a linean con la secuencia bajo estudio (paso 5) para obtener,
por una parte, el árbol filogenético (paso 6) y, por otra, zonas conservadas (paso 7). A
pa rtir de las zonas conservadas es posible definir motivos (paso 8) e iniciar el proceso
de nuevo. Sobre este proceso básico, es posible construir otros más complejos como
la predicción de genes o la predicción de la estructura de secuencias de proteínas.
BASES DE DATOS
MOLECULARES
INFORMACIÓ N
.,.
~
.. - -· ....
RESULTADO DE
LA BÚSQUEDA ------·--
... -
____ -·-~-
------ ..
_..... __ _
,._.. .. _
__
_,..
·--..--
___--.....,
.-..
---·---·
,.
.---... ~-·
:=..-::-.=:-
- -
---
. .........
ALINEAMIENTO
SECUE NCIA
BASES DE DATOS DE
M OTIVOS MOTIVOS
1.3 LEYENDAS
Recomendación práctica
r .-.
00
.......... Prueba tú mismo
~
~
~~ Recuerda
FUNDAMENTOS BIOLÓGICOS
Sus bases fueron establecidas por el monje austriaco Gregor Mendel en 1866
con su trabajo sobre la hibridación de los guisantes. Tradicional mente, se ha basado en
los procesos de mutación y selección. Los experimentos de M en del concluyeron que la
herencia reside en unas unidades disc retas que pasan de generación en generación de
manera independ iente. Estas unidades, a las que se acuñó con el nombre de elemente, en
1909 tomarían el nombre de genes. La rama de la Genét ica encargada de la transm isión
de los ca racteres hered itarios de una generación a otra es la Genética C lásica, y está
relacionada con la Genética Poblac ional que, basándose en la genética de familias
individuales, trata de extrapolar las conclusiones a grupos de individuos más grandes.
Una célula puede defin irse como la unidad mínima capaz de realizar todas
las funciones asociadas a un organismo vivo (nutrición, re lac ión y reproducci ón).
Aparato de
- citoplasma
Conjunto de sáculos
.....
Mod ifica, empaqueta y distribuye
Golgi membranosos proteínas a los orgánulos de la
célula
Lisosomns Sáculos me mbranosos Contienen enzimas que participan
(en animales) en los procesos de nutrición
celular 1
Vacuolas Sáculos membranosos Participan en la nutrición celular
(plantas. hongos y a lgas)
M icrocuerpos Sáculos me mbranosos Contiene enzimas para e l
metabolismo celular
-
M itocondrias Sáculos membranosos Se encarga de la respiración
celular y de la biosintesis de
energía
Plastos Sistemas membranosos Respiración celular
(plantas y hongos)
Cltoesqueleto Microtúbulos Túbulos huecos Funciones esh·uctura les
M icrofilamentos Estructuras sólidas y Funciones estructura les y
c ilíndricas movimiento celular
Ccntrio los Ci lindros huecos Participan en la división celular
r-cr
t tOS 11 Túbulos lr Movimiento celular 1
Flagelos M icrotúbulos Movimiento celular
1
Maíz 20 (lO pares)
1 Tabaco 11 48 (24 pares)
1 Tomate 24 ( 12 pares) 1
Los cromosomas suelen representarse como una X (ver Figura 2.1 ), aunque
únicamente adoptan esta forma durante la división celular. La parte central del
cromosoma, donde se cruzan sus brazos, recibe el nombre de centrómero, mientras
que los extremos son los telómeros. Es, precisamente, en los telómeros en donde se
enc uen tra una mayo r densidad de ADN.
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 23
Telómeros
/
Brazo corto
Alelo
Brazo largo
V
Cromátidas
A más bajo nivel, un gen es una secuencia de A DN que dicta las instrucciones
para la síntesis de proteínas. Sin embargo, no todos los genes codifican proteínas.
Algunos controlan el proceso de transcripción, tal y como veremos más adelante.
Las ci nco bases se agru pan en bases púricas (si ti enen una estructura en doble
an illo) o bases pirimidínicas (si el anillo es simple). Las primeras son la adenina (A)
y la guanina (G), mientras que las segundas son la timina (T), la c itosi na (C) y el
uracilo (U). No todas las bases fo rman parte de los dos ác idos nucleicos. En el ADN
encontramos adenina, guanina, timina y citosina, m ientras que en el ARN solamente
existen adenina, guani na, citosina y uracilo. La secuencia de bases nitrogenadas y
la longitud de la cadena de nucléotidos es característica para cada especie v iva. Sin
embargo, los trabajos de Chargaff ( 1951) concluyeron que en todo ser vivo existe
s iemp re la misma cantidad de adenina que de timina así como de c itosi na y guanina.
2.3.1 ADN
La molécula de ADN tiene una forma de dob le hélice en la que dos cadenas
de bases complementarias se enrollan a lo largo de su eje central. Las bases y la
longitud de la cadena de nucleótidos son característicos del organismo y se copian
con exactitud durante la reproducción celular. Este tema será tratado detalladamente
más adelante.
Todos los tipos de ADN están compuestos por las mismas cuatro bases y
tienen estructura de doble hélice, si bien llevan a cabo fu nciones diferentes, que son:
11'" ADN mitocondrial: los anima les, las plantas y los hongos incorporan ADN
en las mitocondrias (ADNmt) cuya misión es regular el metabolismo
cel ular. Una curiosidad acerca del ADN mt es que, a diferencia de lo
que ocurre con e l ADN nuclear en donde la mitad del material genético
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 25
11"' ADN de los cloroplastos: además de los dos anteriores, las plantas tienen
unos orgánulos encargados de la fotosíntesis llamados cloroplastos que
también contienen moléc ul as de ADN (ADNcp).
2_3.2 ARN
El ácido ribonucleico o ARN está comp uesto por una sola cadena lineal de
nucleótidos en la que el g lúcido es la ribosa. La mayo r parte de las células contienen
de 2 a 8 veces más ARN que ADN.
Existen tres tipos de ARN, cuya síntesis se ca tal iza por tres tipos distintos de
enzimas (ARN polimerasas), que son:
11"' ARN de transferencia (A RNt): su síntesis está cata lizada por la ARN
polimerasa III. Es e l más pequeño de los tres y se ha lla disperso por todo
e l citoplasma. Se conocen unos 50 tipos de ARNt, todos ellos tienen una
configuración similar, con un brazo aceptor, en el que apa rece siemp re la
secuencia CCA; y un anticodón, que es un triplete de bases nitrogenadas
que determ ina el aminoácido que se va a unir a esa molécu la de ARNt .
11"' ARN ribosómico (ARN r) : está formado por moléculas muy largas y
p legadas y su síntesis está cata lizada por la ARN polimerasa
Ala (A) GCU, GCC, GCA. GCG Lys (K) AAA. AAG
Arg (R) CGU. CGC, CGA, CGG, AGA, Mct (M) AUG
AGG
Asn (N) AAU, AAC Phe (F) uuu, uuc
Asp (D) J lGAU,GAC Pro (P) JLCCU, CCC, CCA . CCG
Cys (C) UGU, UGC Sec (U) UGA
Gln (Q) CAA, CAG Ser (S) UCU, UCC, UCA, UCG, AGU,
AGC
Glu (E) GAA, GAG Thr (T) ACU, ACC, ACA, ACG
Gly (G) JLGGU,GGC,GGA,GGG Trp (W) JLUGG
His (H) CAU, CAC Tyr (Y) UAU,UAC
Ilc (1) 11 AUU,AUC,AUA Val (V) GUU. GUC, GUA, GUG
Leu (L) UUA, UUG, CUU , CUC, CUA,
CUG
Comienzo 11 A UG 11 Parada 11 UAG, UGA, UAA 1
Tabla 2.3. Código genético
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 27
Replicación Replicación
Transcripción Traducción
ADN ARN Proteína
Transcripción
inversa
l TRANSCRIPCIÓN
u u
., ., 1 \
y (
COOÓN DE INICIO
l TRADUCCIÓN
CODÓN DE TERMINACIÓN
Met Lys
INTRONES
AO' ~-"'~" _J
EXONES
ARNm
l Se elim inan los intrones y
se e nsamblan los exon es
No todos los genes están activos en todo momento. Al contrario, de todos los
genes que posee un organismo, solo unos pocos se expresan en cada instante. Este
nivel de expresión se encuentra regulado debido a l alto coste energético que supone
la síntesis de proteínas. La regulación puede actuar durante la transcripción o du rante
la traducción.
PLATAFORMAS DE
SECUENCIACIÓN
FASTA. FASTAQ
'
( AliNEAMIENTO )
SAM{BAM
ANÁliSIS DE
VARIACIONES
VCF
ANOTACIÓN
1
!
GFF/ GFFJ, GVf, BED
V
El hec ho de que una secuencia se pueda representar como una cadena de texto
permite que, en real idad, todos estos ficheros con secuencias de nucleótidos y proteínas
sean ficheros de texto plano. Estos ficheros únicamente pueden contener caracteres
lUPAC (ver Tablas 3.1 y 3.2) y espacios y si rven para almacena r solo la secuencia:
ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCC
CTGCCCCTGGAGGGTACGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATA
AGGAAAAGCAGCCTCCTGACTTTCCTCGCTTGGTAGTGGACCTCCCAGGCCAGTGCCGGGCCCCT
CATAGGAGAGGAAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCATCCGCGCGCCGGG
ACAGAATGCCCTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAA
S G o e (interacción fuerte)
w 11 A o T (interacción débil)
B G, Toe (no A)
D 11 G,AoT(noe) 1
H A, e o T (no G) 1
V 11 G. e o A (no T ni lJ.).
N A, G, C, T (cualqu iera)
X 11 Máscara 1
Hueco _j
Tabla 3.1. Código IUB/IUPAC para nucleótidos
~ A 11 Alanina
B Asparagina
...,
e 11 eisteína
D Ácido aspártico
E 11 Ácido glutámíco
F Fenilalanina
G 11 Glicina
H Hístídína
1 11 lsoleucina 1
K Lisina
L 11 Leucina
M Metionina
N 11 Asparagina
o Pirrolisina
p 11 Prolina
Q Glutamina
"
R 11 Arginina 1
S S erina
T 11 Treonina
~
u Selenocisteína
---,
V 11 Valina
w Triptófano
y 11 Tírosína 1
z Glutamina
X 11 Cualquiera
• Parada de traducc ión
- 11 Hueco
3.2 FASTA
>Human
ATGGCACATGCAGCGCAAGTAGGTCTACAAGACGCTACTTCCCCTATCATAGAAGAGCTTATCAC
CTTTCATGATCACGCCCTCATAATCATTTTCCTTATCTGCTTCCTAGTCCTGTATGCCCTTTTCC
TAACACTCACAACAAAACTAACTAATACTAACATCTCAGACGCTCAGGAAATAGAAACCGTCTGA
ACTATCCTGCCCGCCATCATCCTAGTCCTCATCGCCCTCCCATCCCTACGCATCCTTTACATAAC
AGACGAGGTCAACGATCCCTCCCTTACCATCAAATCAATTGGCCACCAATGGTACTGAACCTACG
AGTACACCGACTACGGCGGACTAATCTTCAACTCCTACATACTTCCCCCATTATTCCTAGAACCA
GGCGACCTGCGACTCCTTGACGTTGACAATCGAGTAGTACTCCCGATTGAAGCCCCCATTCGTAT
AATAATTACATCACAAGACGTCTTGCACTCATGAGCTGTCCCCACATTAGGCTTAAAAACAGATG
CAATTCCCGGACGTCTAAACCAAACCACTTTCACCGCTACACGACCGGGGGTATACTACGGTCAA
TGCTCTGAAATCTGTGGAGCAAACCACAGTTTCATGCCCATCGTCCTAGAATTAATTCCCCTAA
3.3 FASTAQ
@secuencia 1
-
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
! ' ' * ( ( ( ( ***+ )) %%%++ ) (%%%% ) .1 ***- +* ' ' ) ) **55CCF>>>>>>CCCCCCC65
@secuencia 2
ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG
+
208DA83 0 8A0 8SF83FHOSD8F08APFIDJFN34JW830UDS8UFDSADPFIJ3 N8DAA
3.4 SAM/BAM
El formato SAM (Sequence Alignment/MAP) es un formato genérico
utilizado para guardar alineamientos de secuencias de nucleótidos. Se trata de un
formato cuyo parseo consume gran cantidad de recursos y es lento, por lo que se
defin ió una versión binaria de l mismo, e l formato BAM.
Rl de la secuencia
@ RG Grupo de lecturas
ID * Identificador del grupo de lecturas. Debe ser único a
nivel de todos los grupos de lecturas
CN Nombre de la secuencia central que produce la lectura
Descripción
Fecha de ejecución
Plataforma de sccuenciación
Unidad usada en la plataforma
Línea de comandos
Anterior PG-ID. Debe coincidir con el ID de alguna
cti ucta de e ncabezado PG
Versión del programa
--===;¡,¡¡:;== VN
@_CO Comentario
@HD VN : l . O SO : coordinate
@SQ SN : seql LN : 5000
@SQ SN : seq 2 LN : 5000
@CO Ejemplo d e fic hero SAM
87 591 : 4 : 96 : 693 : 509 73 seql l 99 36M * o
O CACTAGTGGCTCATTGTAAATGTGTGGTTTAACTCG <<<<<<<<<<<<<<< ; <<<<
<<<<5<<<<< ;: <; 7 MF : i : 18 Aq : i : 73 NM : i : 0 UQ : i : 0 H0 : i : 1
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 39
Hl : i : O
EAS54 65 : 7 : 152 : 368 : 113 73 seq1 3 99 35M * o
O CTAGTGGCTCATTGTAAATGTGTGGTTTAACTCGT <<<<<<<<<<0<<<<655<<
<<< : 9<<3/ : <6) : MF : i : l S Aq : i : 66 NM : i : O UQ : i : O H O : i : 1
Hl : i : O
..
RNAME
•
scq 1 Scq l
POS 1 3
r-
MAPQ
-... 99
r-
99
CIGAR 36M 35M
MRNM/ RNEXT Jl• n·
MPOS/PNEXT o o
f lSIZErrLEN Jlo ~Lo
SEQ CACTAGTGGCTCATTGTA CTAGTGGCTCATTGTAAA
AATGTGTGG TTTAACTCG TGTGTGGTTTAACTCGT
QUAL <<<<<<<<<<<<<<<;<<<<<<<<< <<<<<<<<<<0<<<<655<<7<<<
,. ,
5<<<<<··<·7 :9«3/ :<6):
TAGs MF:i :l 8 Aq:i:73 MF:i :l 8 Aq: i:66
-
NM: i:O UQ:i:O NM :i:O UQ:i :O
HO: i: 1 H 1:i:O HO:i: 1 Hl: i:O
Uno de los pun tos en los que merece la pena detenerse, po r su complejidad,
es en la obtención de la cade na CIGAR (Compact ldiosyncratic Gapped Alignment
Report), que describe cómo se mapea una secuencia respecto a un genoma de
referencia.
40 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA
M 11 o 11 Coincidencia en e l a lineamiento
L D
1 1
2
Inserción
JLBorrado
e-
~
N -"' 3 Salto de una región que está presente en la referencia pero no en la
secuencia que se a linea
S 4 11 Soji clipping 1
H 5 Hard clipping
~
p
~ e-
6 JLRelleno de la referencia -
- 7 Coincidencia entre la referencia y la secuencia que se alinea
X 11 8 11 No coincidencia entre la referencia y la secuenc ia que se alinea
ACTAGAATGGCT
CCATACTGAACTGACTAAC
Figura 3.8. Secuencia con la que se quiere alinear la salida del secuenciador
3_5 GFF/GFF3
Un fichero en formato GFF (General Fea tu re Formal) está formado por líneas
con nueve campos cada una, todos ellos obl igatorios. Se trata de un formato muy
restrictivo puesto que si, por ejemplo, los campos se separan por espacios en lugar de
por tabuladores, algunas herramientas no podrán procesarlo adecuadamente.
3.6 GVF
Etiqueta Descripción
ID* Identificador único a nivel de fichero
Variant_seq Secuencia de la variación. Si tiene más de 50 bases, se puede resumir
con un ··•. Por otra parte, si se trata de un borrado respecto de la
secuencia de referencia el campo torna el valor' ·
"' ' ' -
f Reference seq 11 Secuencia de referencia
Variant reads Núrnero de lecturas que soporta cada variación
[rotal r~ads 11 Número total de lecturas
Genotypc Genotipo de la variación
~ariant_freq 11 Frecuencia de la variación en una población de indiv iduos
. . .. . .
Vanant_effect Consecuenctas de la vanac10n en la secuencta de referencta
~..-,-,-;-~-
Variant_copy_nurnber Para las regiones en las que existen varias copias de la variación del
_ _. 1..!i!:l norna, este cameoJnd i~p.el número de co ia
e::.:.:
Reference_copy_number Para las regiones en las que existen varias copias de la variación del
genoma, este campo indica el número de copia en forma de identilicador
Nomcnclaturc Indica la denominación HGVS de la variación
,_,¿
La especificación completa del formato GVF está accesible en
.-. hup:/lwww.sequenceontology.OI·glresourceslgvfhtml.
~
Nigvf-version 1 . 07
Nigenome- build NCBI B36 . 3
Nisequence-region chr16 1 88827254
chr16 samtoo l s SNV 4929114 1 49291141 + ID=ID l ; Variant
seq=A , G; Reference_seq=G ;
chr16 samtoo l s SNV 49291360 49291360 + ID:ID_2 ; Variant
seq=G;Reference_ seq=C ;
chr16 samtools SNV 49302125 49302125 + ID=ID_3 ; Variant
seq=T , C; Reference_ seq=C;
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 45
3J VCF
El formato VCF (Variant Cal/ Formal) se emplea para recoger información
de variaciones. Como en los casos anteriores, se trata de un fichero de texto dividido
en líneas cuyos campos se separan por tabuladores.
Por otra parte, las etiquetas empleadas en el campo INFO son las de la Tabla
3.10:
Etiqueta l>escripciiÍn
~ AA Alelo ancestral
AC Número de a lelos en el genotipo
AF lf Frecuencia del alelo
AN Número total de alelas en e l genotipo
BQ i['"Calidad RMS de esta ~osición
CIGAR Cadena CIGAR que describe cómo a linear e l a lelo con e l a lelo de referencia
DB Entrada dbSN P
END Posición final de la variación
H2 ll ldentificador HPMAP2
~
li3 l ndenti ficador li PM A P3
MQ Calidad RMS
MQO Número MAPQ
- NS
SB
SOMATIC
ILNúmero de muestras con datos
liebra en esta posición
Indica que el registro es una mutación somática para los estudios relacionados
con el cáncer
VAUDATED Variación contrastada experimentalmente
IOOOG Miembro de 1000 Geno mes
#ilfileformat=VCFv4 . O
NllfileDa te=200 9080 S
##source=myimputationProgramV3 .1
Nllreference=l000GenomesPilot-NCBI36
Niphasing=partia l
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 47
3.8 BED
El formato BED proporciona una manera flexible de describir las anotac iones
sobre variaciones.
Cada línea de un fichero BED tiene tres campos obligatorios y nueve campos
opcionales y están resum idos en la Tabla 3. 11, donde los campos obligatorios están
ma rcados con un asterisco.
Campo Descripción
Chrom• 11 Nombre del cromosoma o esqueleto
chromStart* Inicio de la variación dentro del cromosoma o esqueleto
(JhromEnd*J~Fin de la variación dentro del cromosoma o esqueleto
Name Nombre de la linea del fichero
Score 11 Puntuación entre O y 100. Se utiliza en la representación gráfica del fichero
Strand Orientación de la hebra('+' o'-')
thickS tan JI Inicio en que se com ienza a d ibujar la lectura
thickEnd Final del dibujo de la lectura
itemRgb Color que tendrá la lectura cuando se visualice (solo si se ha indicado que
itemRbg=''On" en la cabecera)
blockCount Número de exones presentes en la línea del fichero
blockSizes Lista, separada por comas, de los tamaños de los exones. El número de elementos
de la lista debe ser blockCormt
blockStarts Lista, separada por comas, de las posiciones de inicio de cada exón, relativas a
clrromStart. El número de elementos de la lista debe ser blockCowrt
Merece la pena detenernos en observar algunos ejemplos que nos darán idea
de la magnitud de la informac ión a que nos referi mos así como del crecimiento
vertigi noso a que está sometido dicho vo lumen de información.
Bases
10.000.000.000
1.000 000.000
100.000.000
10.000.000
1.000.000
Sequences
• GenBank
100.000.000 . WGS
10.000.000
1.000.000
100.000
10.000
1.000
Por otra parte, la Figu ra 4.2 resume los genomas registrados en la base de
datos Entrez y el sistema de búsqueda de secuencias por excelencia, que también
está alojado en el NCB!:
·~
l,.,
115.1
- ,,., - •
""'' ""
Esta exposición de información que, en cierta manera, podría verse como una
oportu nid ad para desarrollar un conocimiento más profundo de distintos organismos,
también constituye un riesgo de encontrarse información dispersa, desactualizada y
compleja de procesa r.
En gran medida, las dificultades actua les de l anál isis de datos biológicos
surgen, simplemente, de la neces idad de cruzar la información presen te en distintas
bases de datos que, por si fuera poco, se encuen tran dispersas y, además, con más
frecuencia de la necesaria ofrecen dato s incoherentes e inc luso con tradictorios.
54 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA
,. A notaciones cromosó m icas locales, que está n asoc iadas a una determ inada
regió n de un cromosoma. La ubicación de los genes o anotaciones sobre
la estructura del ge n que indiquen las fronteras exón/ intrón const.ituyen
a lgunos ejemplos de este tipo de anotaciones.
bases de datos y la evidencia de la re lac ión entre los genomas de distintas especies
han puesto de manifiesto que para la comprensión del genoma de una especie es vital
compararlo con la evol uci ón de sus parientes cercanos. Así, podemos encontrar bases
de datos genómicas globales, que contienen datos de varios organismos y diferentes
tipos de secuencia y, bases de datos genómicas especializadas en determinados
organismos, categorías o funciones específicas de secuencias o datos generados por
tecnologías de secuenciación concretas. La Tabla 4.1 recoge algunos de los ejemplos
más representativos.
Por su parte, las bases de datos secunda rias contienen información derivada de
una o más bases de datos primarias que se obtiene como resultado del procesamiento
de estas últ imas. A diferencia de las bases de datos primarias, su frecuencia de
actualización es más reducida. Su mayo r ventaja es que, al contener información
tratada, ahorran a los c ientíficos tiempo y esfuerzo en el aná lisis de los datos.
que otras. Sobre esta información tamb ién se genera otro resultado de
la interpretación de la primera. Si un experimento demostrara que la
supuesta invariabilidad era errónea, la interpretación de la m isma exigiría
una revisión que podría tener un impacto considerable en e l mode lo.
Por otra pa11e, el elevado nive l de complej idad de los datos b iológicos
co mparado con otros do mini os de apl icación de las bases de datos supone un reto
pa ra el modelado de las estru cturas de datos y sus relaciones que ha sido abordado
desde diferentes perspectivas (ficheros planos, bases de datos relaciona les, bases
de datos orientadas a objetos, etc .). Un mode lado poco preciso puede llevar a una
pérdida de información que desemboque en un fallo total de l diseño.
Otro obstáculo es que los usuarios de las bases de datos genómicas tienen,
normalmente, un conocimiento red ucido del d iseño del esquema, lo que obliga a
que la interfaz de acceso a la base de datos (generalmente, a través de la web) sea
flexible, intuitiva y maneje una gran variedad de consultas potencialmente co mplejas
así como que permita realizar comparaciones con los resul tados obtenidos de otras
bases de datos.
Homo aaptens NilW>GIOC* (H88) g.ne, promo..,r ftgiOn, txons 1, 2 and p¡rllll cds
~O,OQ\WTOII1
~110 Jaoag
..""... ...,.
'"'m'"'"' ...
- ._._.:¡,..._ ,_,,.,.. ·-· - ·· ..._,.,, ..,.,..., u.~~o t . •.,.
- ---·---
....
·- ..... __.....
~
'tli<U:OO )I>~H 1 X•~$~n10
..,.,_
.......... -
.......,, ,.
, .,_,..., _.........
..
- ;.., ,.., ,
.-·-··_ ........ .............. ......... ................
P <'N!',.OI ···-·(ti,(~ o ~ ·"oto \>60"~.-ro f".>• Of'l""ll
~
... , ... '"''..... ,_.
.......... ...,.. -·- ..... ,............ _
.....,.. .. . . - _.. .,__. -
-~
~
lUlo« ,_....,.,..,.n "'n~ ..w..u. -........., •:
·~
;
u..~...,. n~•• "' "'" .... p
~_l
...rua:: : - · ; .. ....
M;tJI,;t.,t
nn.:
.-..:. a..- ""-··-
•oiWolor., f.e•d•f>l•o IO;.J.UC..o r.,
_ , ... o:~.:»co
~$-fo
·:.::::::;~:::;~.::'" ~ ~
.u..-.. . . .. . . , _ , ........., • 1,
-- ~b---!1It:
~¿.=:?.:="E~~~~~:sl
-..
..... d ......
• ~~lc. Qon;o~tCM~oo---"""-
' U.....;.. .........._ ~
• "-m· m•'e'""·~~
..w~:C>OI'tt\'ll4 nr,._.l*!o;tp«>doMI>or1lYJM)'>
- ( ftWI C(I,..»>ñ ~='tii~IP*">
VISTA A VISTAS
ll ll íi ltl
- 1 1 1 1 1 1
·-
,.. En ti dades: so n los objetos principales del modelo y recogen los co nceptos
del dominio bajo estudio. En este ejemplo, serían proteína, especie,
secuencia y anotación.
64 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA
11"' Atr ibutos: representan características de las entidades del modelo y los
hay de dos tipos: los identificadores (aquellos que permiten d istinguir
ocu rrencias disti ntas de un ejempla r de la entidad) y los descriptores (el
resto).
PROTtiN_INFO
PROTtiN_INFO_TYPE_COOE ·PROTEIN_INfO_ID: tnt
· PROTEIN_INF-O_TYPE_CODE_ID: int ·PROTEIN_INFO: ~tring
· CODE,..OESC : suin¡: ·REFERENCE_URl: strin¡:
·COOE VERBOSE DESC : sttin&
- •DAlt..CREATEO : int
<REATED_BY: strtlg
1
-
1
S{QUEHCE
PROTEIN
·SEQUENCE_IO: lnt
-PROTEIN..IO : lnt
•S{QOENCE_ANNOTATION : $lting
·PROTEIN..ClASS_NAME : S.lting
·Sl·QUENCE_LENGTH : lnt
·DATE,.CREATEO : lnt
·ACCESSION..NUMBER : strfl¡
·S!O.UENCE_LOAD_OATE : lnt
- • .CREATED_BY: String
-
PAOTEIN_SVNOMYM SPECIE
.PROTEIN..SYNONYM_ID: int ·S:PECtE..IO: lnt
·SYNO.NYM : h t ·SCIENnFIC_NAME: string
o()ATE_CREATEO: int
h .COMMON..NAME: string
.CREATEO..BY: strlng • 1 ·DATE_CAEATtO: lnt
.CREATED..BY: strin¡
La notación específica empleada para la construcción de este tipo de diagramas puede encontrarse en Ja Biblio-
gralia.
©RA-MA Capftulo 5. PRACTICA 1: DISENO DE BASES DE DATOS BIOlÓGICAS 65
Aunque no es el caso, podría ocurrir que aparecie ran algunas restricc iones
semánticas que escapan a la capacidad de representación del modelo Entidad-Relación.
Po r este motivo, se extendió el modelo para dar lugar al modelo Entidad-Relac ión
Ex tendido que, j unto a lo an teriormente comentado incluye la generalización.
VARIATION
~
·VARIATION_ID: int
....
V
"
~
Una vez que se dispone del diagrama Entidad-Re lación, el paso siguiente
es transformar este modelo conceptual a un mode lo relaciona l, es decir, obtener las
tablas de la base de datos que co nte ndrán la info rmac ión que queremos almacena r.
Las tres reglas básicas que debemos seguir son:
r Las relac iones 1:N dan lugar o bien a una propagación de la clave o bien
a una tabla.
66 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA
SEQUENCE PROTEIN
PK SEQ.UENCE ID PK PROTEI N ID
PROTEIN_ CLASS_NAME
SEQU ENCE_ANNOTATION
SEQUENCE_LENGTH
~ OATE_CREATEO
ACCESSION_NUMBER CREATEO_BY
SEQU ENCE_LOAO_OATE
PROTEIN_INFO
SPECIE
PK,FKl
PROTEIN_SYNOMYM
FKl
CODE_OESC
COOE_ VERBOSE_OESC
PROTEIN_INFO_IO
PROTEIN ID
PK PROTEIN SYNONYM ID FKl PROTEIN_ID
SYNONYM
FK2 SPECIE_ ID
DATE_CREATED
CREATED_BY
La Figu ra 5.4 muestra un ejemplo de documento XML que sería vá lido para
el modelo de datos de la base de datos biológica del ejemplo.
<proteins>
<protein created=" OS/09/2014 " createdBy=" darolmar " >
<specie value= " Homo sapiens" />
<sequences>
<sequence load_ date= " 27/ll/2003" >
<annotation>Anotación de ejemplo</annotation>
<length>S</length>
<accession>P . 150308 . 1</accession>
</sequence>
<sequence load_date= " Ol/12/2003" >
<annotation> notación de ejemplo 2</annotation>
< l ength>S</length>
<accession>P . 150308 . 5</accession>
</sequence>
</sequences>
<infos>
<info created=" l3/04/1976 " author= " darolmar" >
<type>2</type>
<value>Información sobre la proteína</value>
<url>http : //mi . host . es/protein?id=l50508
</info>
<infos>
</protein>
</proteins>
r Delimitación de los valo res de atributos: los valores de los atrib utos
s iempre van encerrados entre comillas.
r Tipo de letras: XML es sensible a las mayúsculas y las minúsculas.
donde:
Elemento Es el nombre del e lemento al que pertenece e l atributo
Atributo Es el nombre del atributo
Tipo Es el tipo del atributo, que puede ser:
CDATA: cadena de caracteres
(vall J .. . ) val N): tipo enumerado
Modo Modos de actuar:
# REQU lR ED: obligatorio
# lMPLIED: opcional
"valor"': valor por defecto (opcional)
# FlXED "valor": si el atributo aparece, tendrá obl igatoriamente el valor ·'va lor"
Como hemos visto, un DTD tiene una sintaxis muy farragosa, sobre todo
cua ndo la estructura del documento XML se complica. Además, ti ene e l inconveniente
de que es necesario aprender un idioma distinto de l XML.
</ xs : schema>
6.1 GENBANK
EST
STS Sitios STS
GSS Secuencias de encuestas de genomas
HTG Secuencias de alto rendimiento
Al ser GenBank un archivo genómico e incluir todos los datos de secuenc ias
que se envían, es frecuente encontrar varias entradas distintas para un mismo loci.
Las diferencias en los envíos reflejan va riaciones genéticas entre individuos u
organismos y anal izar estas diferencias es una manera de identificar poli morfismos
de un solo nuc leótido.
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 75
SFGOLSSl'DAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFSQLSELHCDKLHVDl'E
NFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH "
intron 266 .. 393
/number=1
exon 394 . . 615
/number=2
intron 616 .. 1504
/number=3
exon 1505 .. 1763
/number=3
ORIGIN
1 aatgaaggtt catttttcat tctcacaaac taatgaaacc ctgcttatct
taaaccaacc
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 77
ggctcagttc
14 41 tcagaagcca gtctttattt ctctgttaac catatgcatg tatctgccta
cctcttctcc
1501 gcagctcttg ggcaatgtgc tggtgtgtgt gctggcccgc aactttggca
aggaattcac
1561 cccacaaatg caggctgcct atcagaaggt ggtggctggt gtggctaatg
c c t t ggc t ca
1621 caagtaccat tgagatcctg gactgtttcc tgataaccat aagaagaccc
tatttcccta
1681 gat t ctattt tctgaacttg ggaacacaat gcctacttca agggtatggc
ttctgcctaa
1741 taaagaa t gt t cagctcaac ttcctgatta atttcactta tttcat tt tt
ttgtccaggt
1801 gtgtaagaag gttcctgagg ctctacagat agggagcact tctttatttt
acaaagagta
1861 catgggaaaa gagaaaagca agggaaccgt acaaggcatt aatgggtgac
act t ctacct
1921 ccaaagagca gaaattatca agaactcttg atacaaagat aatactggca
ctgcag
1/
6.1.2 Cabecera
Esta parte del registro es específica de la base de datos. Las diferentes bases
de datos existentes en GenBank no están obligadas a incluir la misma informac ión
en este segmento de l registro , sino que ex isten algu nas peq ueñas variac iones a pesar
de que se procura que todas ellas co ntengan la misma informació n.
En primer luga r, encontra mos e l nombre del locus, que es único en toda la
base de datos y que identifica al registro dentro de la misma. El nombre de l locus
recibe el nombre de identificador de acceso o accessionid y se trata de un campo
a lfanumérico con todas las letras mayúsculas. En este caso, se trata de la secuencia
V00505.
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 79
ACCESSION V00505
Tras e l accession, aparece la línea de vers ión que, como su nombre indica,
ofrece información sobre la versión de la secuencia junto con un identificador del
gen (gi, geninfo identifier). Estos identificadores se asocian a una secuencia de
nucleótidos única. Si cambia la secuencia, se incrementa el número de versión en
una unidad y e l gi también se mod ifica rá.
Por otra parte, cada reg istro de GenBank puede tener una o más referenc ias
o citas:
so urce l . . 1976
/organism= "Homo sapiens "
/mol_type= " genomic DNA"
/db xref= • taxon : 9606 •
prim_tra n script 123 .. 1763
exon 123 .. 265
/number=1
Este ejemplo tamb ién muestra el uso de referencias cruzadas con otras bases
de datos (calificador ldb_xrej). El contenido de este calificador se divide en dos partes:
la primera se refiere a la base de datos con la que se cruza la referencia mientras que
la segunda, que está separada de la primera por dos puntos, es el identificador de la
secuencia en dicha base de datos.
6.2 REFSEQ
Código Descripción
La Tabla 6.4 resume las princ ipales diferencias entre ReqSeq y GenBan k:
GcnBank RcfScq
No es curada Curada
El autor envla las secuencias Es el NCBI quien genera los registros a partir
de datos existentes
Sola mente el autor puede revisar las secuenc ias El NCBI revisa la infom1ación a medida que se
que envía va generando
Es posible e ncontrar varios registros para el Un único registro para cada molécula de Jos
. .
mismo Joci organ1 smos supenores
Probabilidad d e encontra r regis tros con
información contradictoria
No hay lím ite e n las especies incluidas Limitado a organismos modelo
Datos intercambiados con los m ie mbros del Información obtenida únicamente de las bases 1
INSDC de d atos del NCB 1 1
En laces a las proteí nas identificadas Enlaces a las proteínas y a los tránscritos
identificados
6.3 UNIPROT
6.4 PDB
·-·-·-
...~ ....
Biological Macromolecular Resource
fllll~.r.tlooo Latest release:
April 2014
1 Q_
1
---·
AHt>~ 00 ~ Ol'l
; ~· 101
~,,.......,¡v ... J~
.......
..lero(uboiCS
Nouablbo.h!l *'•'""
d'>e<'ot*'""· _........., ~ .-d ~ l.l«b IOilt'oe --ol
t!ltht~tn J thot ,,., lhtv ~e htol!. ....-<1~· ~ l:t>."ff nt<'t>d tt..GUGt>
h•OtiP•UdOI«~
.-en. booc-.on .ond dmem. The,.. m<lllon I>UI m...., !we• ol ...,.ao lh<ou;h thoe cel. t..._.,g
ft~,....,. ~lO .............~. fheVai'WIIIM 11 ~ ock .,the: "'«oe» d <d
1
-·--
tt.:l_.. ..
~ ·c•o.c.o
~ Jolooo6,
t.e~10,... lile ~o<•.-...:c:
6.~>oon. xo..t.otO!I,I tl\e <!t.ok.otel cht-~, do I'Ooo cbuohl'<~' celo.
·-tYQ<•IIIt
.......
.... l
---
q.lct¡ , _.. SW~tlt
Todos los ficheros PDB son ficheros de texto, de extensión variable, cuyas
líneas constan de 80 caracteres, de los cuales los 6 primeros co rresponden a l nombre
del registro. Cada línea puede contener un tipo de regis tro diferente y cada tipo de
registro se caracteriza por un descriptor de la información contenida en el mismo y
se divide en los campos Overview, Record Formal, Details, Veri.ficmion/ Va/idation/
Vahte Authority Control, Re/ationship lo other record typ es, Examples y Known
Problems. Las columnas que no se utilicen, se dejan en blanco.
Otra de las categorías es la de los registros que apa recen una vez en todo el
fichero pero que, a diferenc ia de los registros OTSL, ocupan varias líneas del fichero.
Son los registros OTML (One Time, Multiple Lines).
La tercera de las categorías son los registros MTOL (Mulliple Tim es , One
Line). Se trata de registros que aparecen va ri as veces en el fichero, a menudo en
grupos donde la información no está relacionada desde el punto de vista lógico pero
que, por alguna razón, se presenta junta.
Por otra parte, encontramos los registros con múltiples ocurrencias y que
ocupan va rias líneas de l fichero (MTML, Multiple Time, Multiple Line).
Así mismo, es posible encontrar tamb ién grupos de registros (ver Tabla 6.9).
Los registros ENDMDL y MODEL agrupan registros de tipo ATOM, HETATM,
ANlSOU y TER.
Heterogen
- Descripción de grupos no HET, HETNAM, HETSYN,
estándar FORMUL
Crysta llographíc
la macromolécula
Descripción de la celda
. .
cnstalografíca
--
CRYSTI
1
."
:\\ A.SS 1 OOBJ S-ervicc
- 008 1 TWitl"
o-. ........
t Nl-' 07 ::u
..........................................................········ ..............................................................................................
' tQ\4 0 1 17 000).)Jol•o)1· ¡~~'AI
,~
+• •
·
-
...... •
........ ,..·-' • 11 ·
- · G - o•U
~ •. ... 11!1,..,.... 0011-.- ..- -..._ ".. ""'""--c.. .
• • p l'!U-HOI!~ ~ ........... ._d...,....$$
... Dii\~lfl ....... ~ ... (-~-........ t_.....,~
-"C'· 0)p!K
...W'>. .t ( d $u....-........
~ - I.QIII
' - - ·( -
-
""'*
)ofl!!Pt• !l !W)
00(_ ..., .. . _ _
....oc ".
"""~ ,..,..-llo ... c;M•--•o..fl"" "'" ___..'"'*...... ·--·--·"""- ·.~(ic:dltW,.,.I(lll
~ """'t.ltlll.l ....... _..~-·-"" •'<GS-... ~ .... -~
""'..,..,...~.~~-·-··~---
- n _...,..,. ,.,..,....,,_ uuo-c...e-
--e-, ....._. ____._,_...,._. - · - - - -
'*,.,,.,.
__ ....,.._ .................
,_..,.o.,.o..._ ats!........
~"'
- ..... . .) .., ~ '""' tiiClS! ~......,.._
. ~ .....,.-..
c . - dlf.$f ••IC:S8ww=091c<"'ll)
_...,~,..._. .,..,
- 1116n.dtw -~...
....
~ -t- ~- *'t tv<)l -
-""-llt.o\S'I-
__--
GH4M. DIIU \IU9o>
_.,_, __ ___
lht (lo<O_ _ , . . _ , . ... _ _ _ ..;..... .,o!O~ . . . . .- • .........,.. ... _ .. . ..... -
1'_,.... .,....
..
. . . ... .,... . .......,....._
-
_
-~
" ' '_ oO'At~~
" ' ...,""7 ~~.-..,
_ _ ...,.,..,_
~
_ _ _ _ .. -
..,..,
...._........ c.-e...
.,.._..,....... JI _.~_,~
.,.,110"'..,.,,...,,
(_ ·- -~· -·
IG••
~ -·-
...
._._
. -
_. ( _ N . . _WO:•-'-....l • O....~I- IOpoM>:_.t_ll...., .... ~.~.
·- . .. ___ ......
·~--
............
··~
.._... ..
-··
--
_ ___..... __
.,_,
.._,..
_____
_ _ _ _...._,,_ ,_,_,_ _, _ _ _ _ _ _ ......,,_$ ••• · - - -
....... . .....- ..""" ~
----
, , ,.
- ·-
...., ""'""'.,.:y. ::e ..__:., -»U
.·__- .... t.:.u
,_ ...
·--
___
__ -
................ ............. _,_,.____..._,
"-'<'<''-'t. _
.._..... _
:~• ,
_.....,. .....
~-
Encontramos aquí dos bases de datos del NCBI. La prim era de ellas, Unigen
(http://www.ncbi.nlm.nih.gov/unigene), agrupa las secuencias almacenadas en
Ge nBank de manera que cada grupo (también llamado cluster) contenga únicamente
secuencias de un solo gen o gen putativo e información relacionada con el mismo.
e ID··-
Utlno UniGene
~
w.y.,....
'Rsn Ru!l Al<lwl! $<1
,.. Los SNP (Single Nucleotide Polymorphism) son las van ac10nes más
comunes y constituyen un cambio en un único nucleótido.
En los orga nismos procariotas, el tamaño limitado de sus genes, así como el
hecho de que la relación entre la sec uencia deADN y el ARNm sea lineal, tiene como
principal consecuencia que la información almacenada en las bases de datos sea fácil
de entender y de anotar. En esta primera práctica, estudiaremos la información que
ofrece GenBank sobre el gen dUTPase de la Escherichia Coli.
98 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA
-.....
Publl:)ed ..-
....... ,._
"'~"'"' ~-===============~ cm
PubMed CO,NONS
e~
Fea~Uf"f'CI COflllllotM . .11111 $t
""'-
BHt~ SI'EJ.tl ~"-"'"? Al.lcb0181*'601'1rnlt_
lm~.JI.o'l5, & tnn Cflll'~ • $J'JO rrwloetOitl
.........
Gl1UIG STAAIW
--""""''
Figura 7.1. Página principal de búsqueda del NCBI
, )51. e ... Y4ood c:. ......., ..........cel ;.u.....! tri....... 1!1 nc t!:) ()I'!IM: onl>'e )(..,,,..,. Wlo•~..,. ..., M"'' (f)
4~ 1j '!el SNftlltt.:talfo'(fl~f~IPro'S =
m ""' ~ 01'\W Of'l'flt.Wf:~ IV!lfi:Wt 1'1 ~~ l!l
1 I U10
r- , "
Vuelve a la página principal de búsqueda y selecciona alguna de
las opciones que no sea Nucleotide y comprueba la información
~ ...... que te ofrece e l NCBI sobre la secuencia bajo estudio desde
distintas perspectivas.
:.: l .('doftil-f('lcli!'P~~ JI . .. ._ _ _ _ _ _ _ __ _. . ._ _ __ _ __
Nudtodde
'
E. coll dut gene for dUTPase (EC 3.6.1.23) (deoxyuridlne 5'-triphosphate
nucleotidohydrolase)
C"'tomlr. lltt'W
oene.w. JCOH1 .; 1
8otk fo:ot11r.,.
¡.:¡¡; ~
.. Ot! "'1'1: "" "
c.... A:'i> - cos ,.., ...... C<'ly
toCUt liOHU
++
c¡_,:::
JiX:::•"•"'•"'
~.,I
~
..... :-- - ........,lE.
--··· ....
..._
holllt..,..•PUC
-
+ -..-~ .l ~tn •ilvfC'I' ...-~ti'UJ'o c¡o«! W...<....&.....p 1<_., ,..
Rebt.6 •nlonnlllo"+
C COII ~ 9"fW' 'Cf' dJTP - tEC 3 6 1 Zl) IO!O!)Unor. 5'·lrf"'9!P.'\a"A I'IUC~ Rtbrld~
1 60909 llfle<ll' I)I:A
~fi~IUh.l l Cl U~
...
c~ u, t;!l.. o:..~... ltrl.:.:to,!tOJ.r .u ......
~~rJIMC
GEN
ATG STOP
ARNm
ORF
l PROTEÍNA
Figura 7.6. Relación entre gen, ARNm y secuencia de proteínas en las células procariotas
Campo Signiticado
1
/so urce Origen de la zonas específicas de la secuencia. Es muy útil cuando se necesita
distinguir vectores de clonación de secuencias huésped.
En el caso del XO 1714, la secuencia completa corresponde al ADN genómico de
la E. Coli
/promotor Coordenadas del promotor. En este caso, hay dos promotores: uno en la región
-35 (posiciones 286 a 291) y otro en la región -1 O(posiciones 31 Oa 316)
/misc_feature Ubicación putativa del comienzo de la transcripción (síntesis del ARNm). En este
caso, es la secuencia comprendida entre las posiciones 322 a 324
RBS Localización del último elemento de subida, que se encuentra en las posiciones
330 a 333
CDS ORF del gen. La primera linea son las coordenadas de la ORF, desde su codón
inicial hasta el fina l, esto es, posiciones 343 a 798.
El resto de líneas indican el código genético que hay que aplicar (ltra!lsi_lable),
el identificador de la proteína (/proleill_itf) y referencias en otras bases de datos(/
db_xrej).
Finalmente, ltranslation es la secuencia de aminoácidos del segmento CDS
En los orga nismos eucariotas las regiones codifica ntes de ADN se d ividen
en un número variable de exones (fragmentos del gen que contribuyen a la proteína
final) entrelazados con intrones (fragmentos del gen que no codifican).
source 1. . 1976
/organism= " Homo sapiens "
/mol_ type= " genomic DNA"
/db xref= " taxon : 9606"
prim_transcript 123 .. 1763
exon 123 .. 265
/number=1
CDS join(173 .. 265 , 394 .. 615 , 1505 .. 1633)
/codon start=l
/product= " de l ta g l obin "
/protein_id= " CAA23763 . 1 "
/db xref= " GI : 30511"
/db xref= " GDB : 119298"
/db xref= " GOA : P02042 "
/db xref= " HGNC : 4829"
/db xref= " InterPro : IPR000971 "
/db xref= " InterPro : IPR002337 "
/db xref= " InterPro : IPR009050 "
/db_ x ref= " InterPro : I PR012292 •
/db xref= " PDB : 1SHR"
/db xref= " PDB : lS I 4"
/db xref= " UniProtKB/Swiss - Prot : P02042 "
/translation= " MVHLTPEEKTAVNALriGKVNVOAVGGEALGRLLVVYPWTQ
RFFESFGDLSASPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFSQLSELHCDKLHVDPENF
RLLGNVLVCVLRNFGKEFTPQMQAAYQKVVAGVANALAHKYH "
intron 266 .. 393
/number=1
e xon 394 .. 615
/number=2
intron 616 .. 1504
/number=3
exon 1505 .. 1763
/number=3
ORIGIN
1 aatgaaggtt catttttcat tctcacaaac taatgaaacc ctgcttatct
taaaccaacc
61 tgctcactgg agcagggagg acaggaccag cataaaaggc agggcagagt
cgactgttgc
121 ttacactttc ttctgacata acagtgttca ctagcaacct caaacagaca
ccatggtgca
181 tctgactcct gaggagaaga ctgctgtcaa tgccctgtgg ggcaaagtga
acgtggatgc
241 agttggtggt gaggccctgg gcaggttggt atcaaggtta taagagaggc
tcaaggaggc
301 aaatggaaac tgggcatgtg tagacagaga agactcttgg gtttctgata
ggcactgact
361 ctctgtccct tgggctgttt tcctaccctc agattactgg tggtctaccc
©RA-MA Capftulo 7. PRACTICA 2: BOSQUEOA DE SECUENCIAS 105
ttggacccag
421 aggttctttg agtcctttgg ggatctgtcc tctcctgatg ctgttatggg
caaccctaag
481 gtgaaggctc atggcaagaa ggtgctaggt gcctttagtg atggcctggc
tcacctggac
541 aacctcaagg gcactttttc tcagctgagt gagctgcact gtgacaagct
gcacgtggat
601 cctgagaact tcagggtgag tccaggagat gcttcacttt tctcttttta
ctttctaatc
661 ttacattttg gttcttttac ctacctgctc ttctcccaca tttttgtcat
tttactatat
721 tttatcattt aatgcttcta aaattttgtt atttttttat ttaaaaattc
tgcatttttt
781 ccttcctcac aatcttgcta ctctaaatta tttaatatcc tgtctttctc
tcccaacccc
841 ctcccttcat ttttccttct ctaacaacaa ctcaaattat gcataccagc
tctcacctgc
901 taatttcgca cttagaataa tccttttgtc tctccacatg ggtatgggag
aggctccaac
961 tcaaagatga gaggcataga atactgtttt agaggctata aatcatttta
caataaggaa
1021 taattggaat tttataaatt ctgtagtaaa tggaatggaa aggaaagtga
atatttgatt
1081 atgaaagact aggcagttac actggaggtg gggcagaagt cgttgctagg
agacagccca
1141 tcatcacact gatttatcaa ttcaatttgt atctattaat ctgtttatag
taattaattt
1201 gtatatgcta tatacacata caaaattaaa actaatttgg aattaatttg
tatatagtat
1261 tatacagcat atatgtacat atatagacta catgctagtt aagtacatag
aggatgtgtg
1321 tgtatagata tatgttatat gtatgcattc atatatgtac ttatttatgc
tgatgggaat
1381 aacctgggga tcagttttgt ctaagatttg ggcagaaaaa aatgggtgtt
ggctcagttc
1441 tcagaagcca gtctttattt ctctgttaac catatgcatg tatctgccta
cctcttctcc
1501 gcagctcttg ggcaatgtgc tggtgtgtgt gctggcccgc aactttggca
aggaattcac
1561 cccacaaatg caggctgcct atcagaaggt ggtggctggt gtggctaatg
ccttggctca
1621 caagtaccat tgagatcctg gactgtttcc tgataaccat aagaagaccc
tatttcccta
1681 gattctattt tctgaacttg ggaacacaat gcctacttca agggtatggc
ttctgcctaa
1741 taaagaatgt tcagctcaac ttcctgatta atttcactta tttcattttt
ttgtccaggt
106 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA
Este gen tiene dos in trones (el primero entre las posiciones 266 y 293 y el
segundo entre la 6 16 y la 1504) y dos exo nes (el primero entre las posiciones 394 y
6 15 y el segundo entre la 1505 y la 1763), co mo marca n los campos /exon y / intron.
- .•· p o o
-
OloriMo 'k*=r<€-- :t,. _ _ ., ~·
=~. 11!1111
l
)
ll:l _ _ _........ OliiO o;at.~·.,t~
WJCMI.Ifi!A
-..,.,_
C..-
~17t1
IA:I~
GIJH,J.
t....,...._ flt..Ja ;..¡~
He«)fP!e!...... eAz.eo,,.,.,.,.,!! DyQ r"t lfiUO: Q..lltW" ..................."(1
'*WI'-~
«<··-IC'I>-'1> ,..,. .....,._ _
----
~-
·~ -"
~-(' '
..... ~¡
.... -
!A$ Ct-..
..
~
-·-·M,.-'00'*-
'4dlr:i! ~ ~ ••lit« :.....,, ~l
~-$
" '-:.u ¡
_.., .., •(Of9oU•I
* ,.,._
~·-
· -· ... 111'-' • U o <u)l
.....
Nudao'l!de
'
G.!o e
~· tftlt tt~~ct
Dl:tlli!1 1C.
ltOCt"lctll
- . .,,..,.
IIK. O<ItOO'
~<M_ oo•oo• . J
J.u;o.,:¡ ,
I!Oil<> • • PlUe
o¡-.~"flo.ln ~DilO), t.,..,...... l~
01 : n.u~ee-o •
1~1
...nut ~;.Ta,
W..•Hol t .a.tr, o: t-n,;lw:intoolaut fTIN tUl K.l.r>lontoi&IT A.nltles ' OOV11tlt ONO Qtne
ColoU)tlll.fl.l : ~~~~u•: IIOftO. ~Wfd.•• JlloJI~ 0,.:~
RU't:~ l (h.ou 1 w 1:1,.,.)1 ris-'"..,. s)"d!o;•u . _ , :l'li;,("'='-•'Y :'01)1
:.1.1t:ll:i'lU .:.. e.:e....~t .;.~. lllo.to..·:..H ' ' • ''• :1>•o.: t tt , o.all<"': u , M~l t ...
Tl:.:=o 1!1l, JI :.:=J~·lk: .JX, 'kc:.u.ol< J:, 4 : 'h >.c:. :11, "=
r ::c<=; ! , Ostlo10<141Wdor< (1 !.ho -"'Oqk ~
:><<OOMcd¡nt.... C*IIfloot'"' 1"'<>'10... :latíJ
Qotll lf, llil M. Q.t!!;> :, dtn ~oli>MII :t. ltlh~htOU '.')!, l.al'\-·IIUt
""'- a.-1 .e. =::uoe,
- loe_ . l l 11 a..o IUHUt~¡ t. .:. J.oi.. ,... (l.loo'<lf\ e''''-'''
Jóol• OLIO
¡;::..t
.JOOIIIU1.
ro~
;, 3·N.:.c ~!:'
lAattoccc:>&! 41ül>~l!: •t
l~r. J, """'· eo..~. ))
>~·'~'"~'
e.tnt-"l':.~ .
"~~""'"~
t••· ~ fO· •U PO"~~ ~
!:1. ::lll)
...:•=: ..... .tr~ u~v
=::.::lu ~ oo.ob 0. 0..~«w>l4o(t-.J......,~ ;.)U)
... ~
,. ,...
variation 3713
/gene= " DMD"
/gene_ synonym= " BMD; CMD3B ; DXS142 ; DXS164 ; DXS206;
DXS230 ;
DXS239 ; DXS268 ; DXS269 ; DXS270 ; DXS272 ; MRX85 "
/note= " point mutation causing translational stop;
Glu1157X
(543366)"
/phenotype= " Duchenne Muscular Dystrophy (DMD)"
/replace= " t "
ll<iSo<
Resulta: 1 to 20 of 33 ;-. 1- ~f!
""' . ...
:.-.
rl HM!O llRit Q• g,ac;;:¡a,AIJemogiQQ::Q ltlllGl )ge;Qt, pmrt'ºt.tt ~20 aQQ ~!Jlal 'Oi
"' T., O
1 602 tlP ~ne.v or~
tbmo~
Aot;c~:.ion. #F487523.1 C' 1334~2'56
[] Hof!IO QQ!tDS A.(l.l!!T!Jil gtob n jHBCll !JMG HBCJ{i iff!r m imo? (:':ID$ M!d OM11'!1 f!'S
• MOOph<wOf~
..,..
HEISCHil:·f -..m..w 11: ;llll'tl!! «mn 3 illll Ril!llil1 ~SI:i
S 320 bp line-ar ow.
A«:t'$1011 FJ~~7$00.1 (;.lli7G-4t0:S
~ et "':1Sr:?"em;z
e
ft>.lO
""""*"
Horno H21• ns ~WOCAoQai"T'r'MQ'Wn 'HBG1 )~ne, OQrtill eos
Rtct nt a
•• 31 $ bp lr'le.lr OW\
A«:U ~Ion:CU00)4..1 1.1 Gt 1:291-ti':'i
G•!IO~nlt ro'\'.>'A G·api'W~ n•·•..o ~tqVotr.;:-u ~ ttlG1
"'"'
!hta~l'tla ~ ... ,;:¡ - l \lófttOt lbls
---- -· ----
<.o.. _ ..
-- "'"'"""
--· ... -
--
ReM.ttl t
·~-
•N:*_,,. ,.
~
--~
oa.w.. -
--- . .·1"'0- -
.,_...., ...... "*' ..,.,.SI'
1'11102'"' ~n
"""
_
--
ISU&l'l't
"
-
M 1 t.IJ.l ndMI IIIIID t " ib'lf
·--- - ....
"""
C> ·~·
......._._
,.~ o .... ti
h1C.(IOCC.:1.
~XIItUI, eno..- C.VIf'
0-t,SHCI"(~u.l-.) ~ .....
• . ,. . . . 1~1 . . .. ....11
-·- ·-· -- -
..... l'fO-
-..;....
ooa ~""'·~ 011 ...... ti (1)11)1.(
......
-· -
IC000011tf
~-
... ~
---
"......
:•u
c. ..
..,etilo l ...... _
............
NC.to00fl11
11M11-..t
•
lt'.ol»*~
C:O•IIll!:.ow-•
""" .... -~
-- ..... -· """ el _,
11!(i.HlltCf
............... """""_..........-l
lil*l " ·
~.toOtnll
l~ltiWrt,
1401~ .,.._ ... ,....
-
ro._ 01 ....... t
Q; leGINI0_1_1'1
--
101""' 0111~ I ¡¡MI- ~
••• COII!O . . . . .
VI,.U""''~~~~"~~
..-.e ~~e_~ u
,,.~,..,~"' ~
o. - ..
Q; leGIH0 - • - 1 ' 1
--
"""
Figura 7.1 2. 1nformación contenida en la base de datos Gene
En la parte superior de los resultados (ver F igura 7 . 13) aparece una descripción
general del ge n, las funciones que rea liza y un conjunto de enlaces a otras bases de
datos o ficheros del NCBI.
r~"~--~·-·
.. • "'·'' ........ ,~ 'N' •• •·~-· p
"" • ft .. • •
. ~-
__
,__,_ ~
l-
............~... Nll».m - _..,._
... ~ ....0.00.
, - Mt11Df!NII
* -.. . . ._ ..
~-~o
o..- ,...._.
......... ~ ""-o-.r.. o....r. v.-.... e..,...,........_,_.__~&....:...,......~....." "-'""·- ..
_...,
..-..-c.r-..
¡;.......... " ' _ , . - -
iloloO · - . "*" NIOft ,..,:t ltSOCa~ f'II:OIIIl1
~ flw--~-f.eGe"~"_...,..,l"n,.,..,""'-'"""· ,......,.,.--;,._...
.
cto.,• ..,..,... _ _ _"""c--.'-'-~f!tl')-"--,...,_".,_"'......,~
•-•-~--·--w-....-<-~<•---Tho-~11
__ .,. ........
A~-11«>11
,,._'l'f'..... -·
flo....,._.,,,._ ...8o~o,..,_......-.n~-·-~-·
f'!oo_ .... _ ..,... .......,_....,.., se...,......
.. 1101•110· ~-
,_,
o-.erto.~
--
'"
•1'1
-
..,.,.
_ _...,
...._.....
<l'tOM .q:q ...... )lo
Oilb"'"'uxrrtub!!!\t<J
c. ···-
"
"
<.GIU•IO~ 'liOWI _ , _ _,
C:J)IU• t tueoii!G' <;Ihlll - -
-..._.··- ..
.. _ _
~;.o
.,.,;.-
-
,...._
- . ....
--·
• .., ' " a ... ..,._.,._,,. .,,_ :.ooo "'' - .. .w-..,........
..
m -"""""...
. --··
- - w-c..-
E
r
Ho(lvl ~MR :J~ G-.u..~- 1.1"':' ~
"'' '"u•i
~··~·l
~····
..
.:<J:•O:»O
~J:•Oo»j
.. $~0»01
.. .
·~'"·l
,. . .....1
. .: •i $ h• ...
. ~~--LJ:z----1-
l iHH
H<I'H Oo1
..
. v..'•'i2')01
i
·~-)'1001
:::::¡
.. ;.:t•,0401
.1 = .... j
Figura 7.15. MapViewer (1)
112 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA
[= "'""!
...<iM,'
....,.,....
.......,.,..
. ..... LNr\d
~GJ;C«~(
..
~ U.U.OtiN6lZtdJ
LABORATORIO
(ptepataGión de la libre6a)
SECUENCIACIÓN
¡
ANÁLISIS DE LA CALIDAD
DE LAS SECUENCIAS
,¡,
ALINEAMENTO
IDENTIFICACIÓN DE
VARIACIONES
!
ANOTACIÓN
VISUALIZACIÓN
,¡,
¡/' LABORATORIO
" ' -·- -"
(va
_:;l;.:c
ida:..:.
ci"-'
ó n'-'•""
xpe
..:.;r.c.:
•m:.:c
<n.:.:;
t•"'l)_ _.-
Una de las herram ientas más extendidas para determinar y combatir los
efectos de la contaminación de secue ncias es VecScreen, accesib le desde la web del
NCBI y que explo raremos en la Práctica 3.
8.3 ALINEAMIENTO
Una vez que se d ispo ne de una secuencia que cumple con los estándares
de calidad, el paso siguiente es e l al ineam iento o comparación de secuencias. La
comparación de secuencias es una de las tareas más complicadas, hasta ta l punto
que incluso hoy en día está pendiente de resolver. Probablemente sea este el motivo
que explique la falta de un único método de comparación de secuencias. En general,
los algoritmos de alineamiento ana lizan secuencias de caracteres conside rando,
especialmente, algunas características de las secuencias biológicas:
La Tabla 8.1 resume los métodos más utilizados y que serán estudiados más
adelante en este capítulo.
116 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA
SECUENCIACIÓN DE
FRAGMENTOS DE ADN
!
MAPEO A UNA SECUENCIA
DE REFERENCIA
Por otra parte, cuando se tra ta de una nueva secuencia para la que no
existe referencia, los fragmentos de secuencia se ensamblan en grupos solapados
llamados contigs y la secuencia final (co nsenso) se obtiene a partir de estos contigs
sin necesidad de disponer de información so bre la secuencia original (ver Figura
8.3). La precisión de este método aumenta cuando se comparan secuencias largas de
moléculas de ADN de baja tasa de repetición.
SECUENCIACIÓN DE
FRAGMENTOS DE ADN
! ·:
CGGTAAAGGTTCTTCTTGj'IGGGATT ¡ TATC~TGATA!TIAA BÚSQU EDA DE
~GGGATTkTTACCTACTAACGGGtGATA! SOLAPAMIENTOS
¡'···................i ¡..............!
1
CGGTAAAGGTTCTTCTTGAGGGATT ATTACCTACTAACGGGTGATAmAA ENSAMBLADO DELADN
Una de las maneras más sencillas de comparar dos secuencias es con un método
visual llamado gráfico de puntos. Se dispone una secuencia en sentido horizontal y
la otra en sentido vertical (ver Figura 8.4) forma ndo una matri z. Cuando exista una
coincidencia de nucleótidos, se marca la casilla correspondiente de la matriz.
118 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA
llOii!ool:l!: SI!(;Ut!mt~l
nrtit'!l'l: Secu "n ~iér1
m~tri<: l !fel'l'lit¡
stid r,g \vindou. 1 S
zoom 1. 1
sco:e t~r,ge: O tt~ 1 S
!Jr~1 $UIQ 0%-100~
con las secuencias de una base de datos y calculando el grado de re levancia de las
coincidencias entre las secuencias. En la Práctica 2 estudiaremos este programa con
más detalle.
Existen va rias vers iones de BLAST en e l NCBI, cada una de las cuales
orientada a un fin específico:
,.. BLASTN : se emplea pa ra comparar una secuencia de nucleótidos bajo
estudio con la información guardada en una base de datos de secuenc ias
de nucleó ti dos.
,.. BLASTP: compara una secuencia de aminoácidos con una base de
datos de proteínas, es decir, resu lta útil cuando, teniendo una secuencia
proteica, se desea encontrar secuencias proteicas similares en una base de
datos de secuencias.
,.. BLASTX: traduce una secuencia deADN bajo estudio en sus 6 proteínas
d iferentes (cada una con una ORF) y compara cada una de esta proteínas
con las guardadas en una base de datos de secuencias de proteínas.
,.. TBLASTN: compara la secuencia de am inoácidos bajo estudio con una
base de datos de nucleótidos traducida en sus 6 posi bles ORF.
,.. TBLASTX: compara las seis traducc iones en sus marcos de lectura de la
secuencia de nucleótidos bajo estudio, contra las seis traduccio nes en sus
marcos de lectura de toda la base de datos de nucleótidos.
,.. Revisar manualmente los resultados del alineam iento, prestando especial
atención a las regiones con huecos.
,.. Eliminar las secuencias que parezcan distorsionar los resultados y volver
a alinear.
,.. Una vez identificados los residuos clave en las secuencias que han pasado
e l fi ltro del punto ante rior, añadir el resto de secuencias intentando
preservar las características clave de la fami lia.
(gap). Supongamos que queremos obtener la puntuación del alineamiento entre las
dos siguientes secuencias:
gg-a - tcgga -- tc
ggaaatcggaaatc
No existe una matri z de sustitución única que pueda emplearse siempre s ino
que se utiliza una u otra en función de la familia de proteínas y del grado de similitud
u homología esperado. Sin embargo, las más extendidas son las matrices PAM y las
matrices BLOSUM.
Como vemos, ambos tipos de matrices tienen el mismo objeti vo pero utilizan
metodologías distintas. Mientras que PAM deduce información evolutiva a partir
de la proximidad entre secuencias, BLOSUM se centra en anal izar las mutaciones
entre secuencias relacionadas. No obstante, es posible establecer cierta equi valencia,
como muestra la Tabla 8.2:
PAM BLOSUM
PAM 100 BLOSUM90
PAMI20 BLOSUM80
PAMI60 BLOSUM60
PAM200 BLOSUM52
PAM 250 BLOSUM45
Tabla 8.2. Equivalencia entre las matrices PAM y las matrices BLOSUM
Alelol .--- -.
SNP
Alelo2
'- - __ .,
Figura 8.5. Ejemplo de SNP
Existen bases de datos públicas sobre SNP. Dos de las más utilizadas son el
dbSNP del NCBT, que ofrece información sobre variaciones de distintas especies;
y, el HGMD (Human Gene Muwtion Database), especializada en mutaciones del
genoma humano asociadas a enfermedades y SNP funcionales.
Otro tipo de va riac iones son los polimorfismos. Se trata de variac iones
en la secuencia entre los individuos de una población, algu nos de ellos no tienen
manifestaciones fenotípicas pero otros sí, por ejemplo, como e l gen que codifica
el color de l pelo o de los ojos. Es lo que se conoce co mo CNP (Copy Number
Polymorphism). Si e l polimorfismo es de un solo nucleótido, recibe e l nombre SNP.
Por otra parte, los variomas estructu rales se dividen en dos grandes categorías
(ver F igura 8.6): balanceados, cuando hacen referencia a reordenaciones que no
modifican la longitud total de la secuencia (inversiones o translocaciones intra o
intercromosómicas); y, no balanceados, cuando los variomas sí que modifi can la
longitud tota l de la secuencia (inserciones y de leciones). Los va riomas estructurales
no balanceados también se llaman CNV (Copy Number Variations).
C@9~mlf;J--l'FiAsi:ac
Altlo 1
TA AAT -i
Alelo 1 TACTfCAAAATC lTRI\SLOCACIÓN
Alelo 2
AAAACD T
INVERSIÓN
Alelo 2 ~'1 TACTféAAAAfC
~ 1
INTRACROMOSÓMICA
Ualanc€'adas
Aleleloo
~A~l~J~TA~CTT
Al ~o A2
~ CAAAA
~~JC~I_ _ _ __ Cromosoma A
l RASLOC::ACIÓN
Alelo Bl INTERCROMOSÓMICI\
••~•1~•B~,;-~~r~•~iiAA~A~AT¡2j___ cromosomas
No
Alelo 1 balanceadas
1 TACTICAAAATC 1
~
BORRADO
Ale!o2
Uno de los problemas de las bases de datos genómicas actuales es, precisamente,
la caracterización de variaciones. A grandes rasgos, una variación queda descrita por la
posición en que se ha localizado, el valor original que tenía la secuencia de referencia
y el va lor de la variación. Desgraciadamente, estos pa rámetros dependen del algoritmo
de ali neamiento utilizado y, como consecuencia, científicos diferentes podrían llega r a
conclusiones distintas sobre el mismo hecho. La Figura 8.7 ilustra este hecho:
Referencia AATTGTTA
Referencia AATTGTTA
Algorit mo 1
AAI IIGJTA ..--- Secuenciabajoestudio
AATTGTTTA
Su stitución GT
Adyacente izda . AATT
Adyacente drcha. TTA
8.5 ANOTACIÓN
Hay que subrayar que la mayoría de estudios actua les se centran en el exoma
y no en el genoma completo, en parte, porque la secuenciac ión del exorna tiene un
coste asociado menor. Por otro lado, se cree que las variaciones del exoma pueden
tener un mayor impacto funciona l en las enfermedades humanas. Sin embargo,
estudios recientes han demostrado que tam bién las regiones no codificantes influyen
en las enfermedades.
8.6 VISUALIZACIÓN
11"' Herramientas con sopo rte para tratam iento de secuencias nuevas o
experi mentos de secuenciación.
VecScreen es un programa del NCBT que sirve para determ inar si una
muestra está con taminada uti lizando un algoritmo de similitud de secuencias co n las
almacenadas en la base de datos Un iVec.
CCATCGTCACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGA
TTGGCCTTGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAA
GGTGCAATGATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGC
CATCAAGAAGATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGG
CACTTTGATCAGAAGCTGCTTGAGGAAGAAGCT
> Secuencia2 Libro Bioinformatica
CCGTACCTTGNGGCGATTGGGCCCTCTAGATGCATGCTCGAGCGGCCGCCAGTGTGATGGATA
TCTGCAGAATTCGCCCTTTGCTGCAGCCTTTCCGCCATGCTTCCTCCTAGGGTTGCCCCGGCC
GCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACCCCTGCTTCCGTCTGGCTG
CCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGAAGGAGGTG
CTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTCCCCCAG
GCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAACGAG
CAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATCGT
GACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGAT
CACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATC
GTCACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTG
GCCTTGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGG
TGCAATGATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCC
ATCAAGAAGATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGC
ACTTTGATCAGAAGCTGCTTGAGGAAGAAGCT
Los formatos perm itidos son FASTA o bien un accession o un GI (ver Figura
9.2).
VeeScteen ,.~ •
Vocs.er..n: Sero~ •
~ ..
Soquet~ fOf voc.ot Contatnlnauon
~n..::~=~~
~~~t~~"O'lOQ,I,!)Oau.l.f
o;;Jt.fW;J~-~~~Ct,.,
'"TTT;;I.TQC:T~.m;
~~"1'~~~TOiiOOJ0''"' ' lt;MC;'W'
~~ICQiüO.~~~~~<:Q.!~;:t
lOO:'nT"~!G.I.C"-'-
'=•c•• •~~u··~c~
trV.X.::TT.»Ct~~~OTW1\11n.\11i~UC.:T~Ir.J
~~~"<!S.t..""'="=C!Sn'S' ''"'U'"': ~~ U4
~t~K'l'~a.t~~
O$f' ' 1f51~l'$-~~U.'Mf ''''~
~ :~a: ~= to:o.;.:;PA • o~a
~~r.*«Cr::".NMOCO\t~
:oca.r•t~M~t~ttCOCU~:Io.:XI
fr.l~c«t«<~~:.J~
«'loe'f'f«<C'tC~:OC:t=o:t:~ooo:t'CCt~~
..... --o.'"""'--,..-~ -
...... ...-~
- .. ..r..
Finalmente, hacemos clic en el botón run VecScr een para obtener la página
de resu ltados, en donde indicamos los parámetros del aná lisis que se va a rea liza r y
pulsa mos en el botón View Report (ver Figura 9 .3).
~ ~...1 lltoo~-..aUl81$to,.
'" '_,. _
~ " '"oroVtoV..c:
Job~ Sto.-ll t Ut~ 5-0fl'o!Wo:lt<:l (TUI.U.MJJ
·- ~..._ ~-
...... g~~~~~~-~-~~c~
~GJ ,.¡~
tiJ
[. <N........ .... =,x·o-:klw
~ ..
•
~,..,. 17~.,o-..-.... r101o -cu~
......._, O....~tt!:I~.Mtc...
_, .......
•
,.,._ -.
1..1 c:tv l ~ f.J
' .. ·~ . . . ........• .
b e.~
•
....
....
8 (l!•phis Sznrn•rx
O.ll:::::':"::::::::~::::::::::::::::j~
En la sección de alineamientos (Aiignm ents) enco ntra mos los vectores que
han co nta minado la secuencia bajo estudio (ver Figura 9.6).
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 133
..
,
9 Allqn"*lts
'!>;-=.n ,, o ~,
-~· (;,:~
-·
~~~··· - n- .~
100 1>1'.!($0)
._...
~ 19
, .._.
50(!0(1~)
0:-t:r » e.t~·~.n.~
11111' 111 1' ll l lf . ... . ... 11 1111111111 111 1111 111111
u
!to~ et :H C.:~~:lf:~"IY..:.I~:t':~~ 1t~
a ~~~
-- -
•rtoc .. ,;..., <iYH'k"WM "' ·
--·-'"""
Qoon-r•O lol'l'O'~ - . . ..- w ...............
~ -~..\..lilf....... cu ~ """''""~'-" ~
o-"<l~ t•o
Mobyle @Pasteur
__.......... ..........
- ..-....
,_,
...........
•
EMBOSS 6.3.1: wordcount
Count ¡¡nd extrilc:t unique words in m ol ec:ul oar
se.quen ce(.s)
. . .............. ~o,..~·~
r.'l!ft~"">~~(IW>~.Mf{HIQG)~. t~r• .,._..,_,, A ,......."~ td.(~t~C<,"'4-ll7
l f:iull-s
o Outptk •~on
'-"IUil~ out otJtios• (\t\'lrdcoun(R<'OO!t)
g wor<k~. e-~ 1i SAVI!
o u~
e zn
1. 165,
¡ li7
p ..~f!f«:C
~e 1~~~------------------------------------------------------------------
~u~~ opdon
Como vemos, la secuenci a bajo estudio está compuesta por 224 guaninas,
202 citosinas, 165 adeninas y 147 timinas. Si ahora, en lugar de contar palabras de
1 nucleótido, se especifica n palabras de 3 nucleótidos, los resultados son los de la
Figura 9 .13. De esta manera, es posible comprobar los ami noácidos que componen
la secuencia.
Wclcomc 1 forrns
CV.G ZS
«< ,
~OG 2:
.U.G 20
GTG l8
C« U
TGC l8
oc ~$
or
GriGCCCCGGCoCGCCGCCGCCGCCGCGCC7ACCi.:.iCTCGCCGOCGCGGCC!CG;.;;;t; CC!CMTCCw<OTGGCT<;cCTGNCx:GCGlG<ITGCCOOi;cccOOG<j
La empresa Genomatix ofrece una herram ienta web que permite ex traer
estadísticas básicas de una secuencia de A DN.
.....__,.
•mua !tmC:U o
~- o;con W: - U.st9.~~- G.nn•.ü
:IAA.Ttec'n~
~~r:1Ut.:>:t;;.J<:~n-:e-:~:;.,:'):o:"CSX'a.tt
et~\CM'ro
oc•••rccwr"""~'~"rrc.u:.
.
~·-to:~t--'te t ' e - .
- ·••looo ..-1•1 ~-~ ~~ ..
l.t.oN~•J IJiu«FfliJ
,. .
lt!Qit.l'" ll«o fM ~Iro o C.IWN'WI.IIb: ttbl UtO.UI'II!
&t+-Contt M:
..... n .211'1r. .....
T""' .-t.....,..,.~¡.,,. .._,.. ~sl.Jn ce..,..,.. O.ot'5
w:liiO-IIIICIOOCidOS: I)I.H•Ide<l'*::l:
•oeono n.cttoDClO
-
r- .,
•
M ...
"" """' A
A
•• " ..
• '
..
"
e
e
•
T
"'
"'
'"
:V.~"
;.;,;.~"
""""
-""
e
e
T
.." .." ,." .,
" " " "
IIUIK~ S:.
M AC ..
""
' • " ..• ..>
AT CA C<
Jlo«<n~ nlldeotiCio
CT .. oc
..,. "",, co ... TC re n
A
" >
,," ••
.. " ..•• " ,
"' " " •' " ,," •
-· .... ..' "' ' •" •• "•
e
·~· "
•
G
"
" " • ' " " •
'
No hay que confundir la ident ificación de una repetic ión en la secuencia bajo
estudio con la identificación de una repetic ión registrada en una lista de repeticiones
predefinidas. En el primer caso, el descubrimiento está relac ionado con la estructura
interna de la secuencia bajo estudio, mientras que en el segundo hace referencia al
reconoc imiento de c ierta similitud entre la secuencia bajo estudio y un conjunto
predefinido de repeticiones almacenadas en una base de datos como RepBase del
Genetic lnformation Research Institute (http://www.girinst.org).
CGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATC
GTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGAT
CACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCGT
CACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCCT
TGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAAT
GATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGAA
GATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGATC
AGAAGCTGCTTGAGGAAGAAGCT
Una de las herramientas más uti lizadas para dibujar gráficos de puntos es
e l Dotlet del SIB (http:/lmyhits.isb-sib.ch/cgi-binldotlet). Este sitio web es muy útil
para e l procesamiento simple de secuencias de ADN.
Dotlet
P~tern
... 54:1<treh
6lASTP/P51•8lASl
Pf'SEAACW (pt'o0e)
I MK:IU {ptofile- ~) t.lll"\t 10C110!1~1: ~,
Motif Sean
Q<wry •.• Plus• t~n 'I'Cr.f n QUt.~a e.IC\Iftmm~
l:ry l'>rot W\
by MOI)f
o\lgtt...,
r."!AI'f'T
1 COf'fLL
PfOflltl Allgn
Obs~>~fy ...
JA<CO
'''""""
"Took ••.
•
Hub
.....
Rt~o~t M5A
PAtoriNt seo
•
Re5111tS
MI'!><
e Fl · ~:.r
Dotl et
...
P~tt~m ~Mc:h
Ot.ll$1l'/~· OlAStT
PFSEMOI (pteflt) IIOti:OIU 't : .t\lltf'>: •1
~(pt~·HMM) ~JUI ~KIII.'ntlt l
MObf~ m.tb ot -~
Qu«Y .•.
tl•!m\1..,...,. IS
:oom:1:t
.,..,..
by Pf'OtM $(!rft~I'~KO ~
OfH S.C~tt· Ot.
1$
· 10"
-·""'"·
TCOff:EE
Pfoftto l.llgn
~fy _ ..
""'""
t>lkQom2
T<*S . . .
Hob
....,
Rdorm.;H MSA
~f«m.n SEQ
Re:sutts
"'"'
....... - . . .
' " r o n - •• "' ., o
·'
>"•r•" • ro o o•
........,.,,
,.ro• o• ·~o ••-.
barra de desplazamiento bajo la ventana del histograma hasta una posición en la que
las simili tudes bajas (las más abundantes) se fi ltren, esto es, hasta frecuencias del
histograma relativamente pequeñas. Llegados a este punto, el gráfico se ocurecerá,
ta l y como muestra la Figura 9. 18.
1 \
Una vez fi ltrado el ruido de fondo, podemos identifica r las repeticiones como
las líneas que aparezcan a ambos lados de la diagonal. Si las líneas son perpendiculares,
están asociadas a secuencias palindrómicas o repeticiones invertidas.
la parte superior de la Figura 9. 19. Estas áreas son secuencias repetidas con pocos
aminoácidos, como se puede comprobar en la sección de alineamiento, de la que
hablaremos más adelante.
-,,
"""" ••ooroo•• '" ••••
............. , ...... '"''l'"
¡1, 1 •••• o•orro
·• ....... ..... .
~
•r ""'
Si!C:UI!tiCM 1 li11 u
•
TGGATGTATATTCAAGGAGATTATCGCAAGATAGCACACTGAACATCACTGAAGAAATTAACGAA
GAAGATTTAAAGGAGTGTTTTCTTGATGATGTGATCAAGATACCCCCGGTGACAACATGGAACAC
ATACCTACGATATTTTACTCTCCATAAAGGCTTACTGCTAGTGCTGATTTGGTGCGTACTGGTTT
TTCTGGTTGAGGTGGCTGCTTCTTTATTTGTGTTATGGTTGCTTAAAAACAACCCTGTTAACAGT
GGAAACAATGGTACTAAAATTTCCAATAGCTCCTATGTTGTGATCATCACCAGTACCAGTTTCTA
TTATATTTTTTACATTTACGTGGGAGTGGCTGACACTTTGCTTGCCCTGAGCCTCTTCAGAGGTT
TGCCGCTGGTGCATACGTTAATCACAGCATCAAAAATTTTGCACAGGAAAATGTTACACTCCATT
CTTCACGCCCCTATGTCGACCATCAGCAAGCTGAAAGCAGGTGGGATTCTTAACAGATTCTCCAA
AGATATAGCAATTTTGGATGACTTTCTGCCTCTTACCATTTTTGACTTCATTCAGTTGGTGTTCA
TTGTGATTGGAGCTATAATAGTCGTCTCGGCATTACAACCCTACATCTTCCTAGCAACGGTGCCA
GGGCTAGTAGTCTTTATTTTACTGAGGGCCTACTTCCTTCATACAGCACAGCAGCTCAAACAACT
GGAATCTGAAGGCAGGAGTCCAATTTTCACCCACCTTGTGACAAGCTTAAAAGGACTCTGGACAC
TTCGAGCCTTCCGACGCCAGACTTACTTTGAAACTCTGTTCCACAAAGCTCTGAATTTGCACACT
GCCAACTGGTTTATGTATCTGGCAACCTTGCGCTGGTTCCAAATGAGAATAGACATGATATTTGT
CCTCTTCTTCATTGTTGTTACCTTCATCTCCATTTTAACAACAGGTGAAGGAGAAGGAACAGCTG
GTATTATTCTAACTTTAGCTATGAATATCATGAGTACTTTGCAGTGGGCTGTGAACTCAAGCATT
GATACAGATAGCTTGATGCGATCTGTGAGCAGAGTGTTTAAGTTTATTGATATACAAACAGAAGA
AAGTATGTACACACAGATAATTAAAGAACTACCTAGAGAAGGATCATCTGACGTTTTAGTCATTA
AGAATGAGCATGTGAAGAAAAGTGATATCTGGCCCTCTGGAGGCGAAATGGTTGTCAAAGACCTT
ACTGTGAAATACATGGATGATGGAAATGCCGTATTAGAGAACATTTCTTTTTCAATAAGTCCTGG
ACAGAGGGTGGGGCTCTTAGGAAGAACTGGATCAGGAAAAAGTACTTTGCTTTCAGCATTTTTAC
GAATGTTGAACATTAAAGGTGATATAGAGATTGATGGTGTCTCATGGAATTCAGTGACCTTACAA
GAATGGAGGAAAGCTTTCGGAGTGATAACACAGAAAGTATTTATCTTTTCTGGAACATTCAGACA
AAACCTGGATCCCAATGGAAAATGGAAAGATGAAGAAATATGGAAAGTTGCAGATGAGGTTGGAC
TCAAGTCTGTAATAGAGCAGTTTCCTGGACAGCTCAACTTTACCCTTGTGGATGGGGGTTATGTG
CTAAGCCATGGCCATAAGCAATTAATGTGCTTGGCCCGATCAGTTCTCAGTAAGGCCAAGATCAT
ACTGCTTGATGAGCCCAGTGCCCATCTAGACCCCATAACATACCAAGTCATTCGACGAGTTCTAA
AACAAGCCTTCGCTGGTTGCACAGTCATCCTCTGTGAACACAGGATAGAAGCGATGTTGGATTGC
CAGCGATTTTTGGTCATAGAAGAGAGCAATGTCTGGCAGTACGACTCCCTTCAGGCACTTCTGAG
TGAGAAGAGTATCTTCCAGCAGGCCATTAGCTCCTCGGAAAAGATGAGGTTCTTCCAGGGCCGCC
ACTCCAGCAAGCACAAGCCTCGGACGCAAATTACTGCTCTGAAAGAGGAGACAGAAGAAGAAGTT
CAAGAAACCCGTCTCTAGTGCTGGGATGCTGAGGAAGCAACTCAGTGCACTGAGTCCATTCCCAG
AACCCATGCAGAATGAAAAAAGCCAGGCATTTCCCATGCTTCTAACCCCAGTGCTGGGGACACAG
AGACAGGTGGATCCCTGGGGCTCTGTGGCAAGTGATCCTAGCCCACAAAGAGAGTTCCAGGCTGG
GCACCTGAGGGACAATACCTGTGGATATACTCTTGCTTCCACATGCAAGTACATATACACATGCA
TGCACATTAGTGGACATACACACAGAAAAGCAAAGAAGAAGGAAAGAGGGAAGAAAATAGTGCAA
ATAATTGCAAAACGATCATGTATGGAGTCTGCTCATGGACTTAGAGGAGGTGAACTCTACTACCT
GTGCCTTTGAAAGAAGGGTGAAGCCTGCGACTTGCTCTTTAAGAGACTGTTTTGGAAGAGAGTTC
AAAAACGTTCATATGGGTATGGGTAACTGACTTTCCAGCAGTAGTCAAATTGTTTGAACTTCAGA
TAGTTGATAATGACCACTTGTGTATTGCAAGGCAGATTTTTCTGAAAACATTTGCCCCCTAATAG
TAGCTGAAAAAGCAGCTATAAATGCCAACCAGGTTAGTCATTCGGCTTATTGTTCAGTACAGCTG
GTTAATTTGCATTATTGAAGAACTGAAATTATAGTGCTTAGATATAGGACAAAGTAAAGAGAACT
AAAAACAGTGTCTTATATAACTCAAAGCCCAACTTACTTTCCTCTAAGATATGTATTGCCTTCTA
TACATTGTCTGCCCCATTCCAAGCAAATGTTAGAATATTATACAAAATACTGGGTGGTATTGATT
GA.AAGATGCCCGACATCTGGTGATCTAGTAACCCATCAGGATT AAGGATA TCCAGGTCTTGGAAA
TTAAGGTTAAGACCATCTAGCCTTACTACCGTACAGCTAAACATTCTTATTACCAGAATAAGACC
TAGGAAAAGAACTGTTTCAGTCCCATAAAGTGGCCTGGATAATTTCCTTGATATGGAAATCGACA
146 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA
CACTTATGTTCCCAGAAAGCAACAGATCTTTAAGACTTCTGAAGTGAAGGAAGGTTGTGTTAGTG
CAAACTAGTGCAGCCCAGTGCCAGGTCCAGGAGTTAACATGTAGACAGGCCATGGACTGTGTGGG
TAGATGCTCATGGAAATGTGCAGTAGTATGTTCATGTGCTCTCAGCTAGCTGTGTGTACTTCAAA
CTGTCTCCACAGAGTTGTTGGGGAGACACTCTGAAAAAGAATTAATTGTGAATTAGTTTTATATA
CTTTGTTTTATAATTTGTGATGCAAATGAAAATTTCTCTGGGAAATATTTATTTTAGTAATAATG
TTTCAAACTCATATATAACAATGCTGTATTTTAAGAATGATTACATAATGACTTATATTTGTATA
AAATAATTTTTATATTTGAAATGTTAACTTTTTATAGCACTAGCTATTTTAAAACAGGGGAGTGA
GGAGGACAGGGATGATAAGGATCATTCAACTTCATGTTGTGAAGACGAGCTGATGTAAATCTTGT
ACCCATCTGTGTGGTTCTCAGACAACACATGCTCTCTTTTAATGCAGCTTTGAAGAAGATGGTAC
CAAAGGTTAAGACGGCCCCCTGATGGGCACATCAACTTCTGAACTGCAAACTAAGCTTTAGAGGA
ATGTATTATATTTATTACTGTAATAGAATATCATGTGTCAATAAAATCCTTTTATTTGTGTGAAA
>gil904213121refiNM_000492 . 31 Homo sapiens cystic fibrosis
transmembrane conductance regulator (ATP-binding cassette
sub-family C, member 7) (CFTR) , mRNA
AATTGGAAGCAAATGACATCACAGCAGGTCAGAGAAAAAGGGTTGAGCGGCAGGCACCCAGAGTA
GTAGGTCTTTGGCATTAGGAGCTTGAGCCCAGACGGCCCTAGCAGGGACCCCAGCGCCCGAGAGA
CCATGCAGAGGTCGCCTCTGGAAAAGGCCAGCGTTGTCTCCAAACTTTTTTTCAGCTGGACCAGA
CCAATTTTGAGGAAAGGATACAGACAGCGCCTGGAATTGTCAGACATATACCAAATCCCTTCTGT
TGATTCTGCTGACAATCTATCTGAAAAATTGGAAAGAGAATGGGATAGAGAGCTGGCTTCAAAGA
AAAATCCTAAACTCATTAATGCCCTTCGGCGATGTTTTTTCTGGAGATTTATGTTCTATGGAATC
TTTTTATATTTAGGGGAAGTCACCAAAGCAGTACAGCCTCTCTTACTGGGAAGAATCATAGCTTC
CTATGACCCGGATAACAAGGAGGAACGCTCTATCGCGATTTATCTAGGCATAGGCTTATGCCTTC
TCTTTATTGTGAGGACACTGCTCCTACACCCAGCCATTTTTGGCCTTCATCACATTGGAATGCAG
ATGAGAATAGCTATGTTTAGTTTGATTTATAAGAAGACTTTAAAGCTGTCAAGCCGTGTTCTAGA
TAAAATAAGTATTGGACAACTTGTTAGTCTCCTTTCCAACAACCTGAACAAATTTGATGAAGGAC
TTGCATTGGCACATTTCGTGTGGATCGCTCCTTTGCAAGTGGCACTCCTCATGGGGCTAATCTGG
GAGTTGTTACAGGCGTCTGCCTTCTGTGGACTTGGTTTCCTGATAGTCCTTGCCCTTTTTCAGGC
TGGGCTAGGGAGAATGATGATGAAGTACAGAGATCAGAGAGCTGGGAAGATCAGTGAAAGACTTG
TGATTACCTCAGAAATGATTGAAAATATCCAATCTGTTAAGGCATACTGCTGGGAAGAAGCAATG
GAAAAAATGATTGAAAACTTAAGACAAACAGAACTGAAACTGACTCGGAAGGCAGCCTATGTGAG
ATACTTCAATAGCTCAGCCTTCTTCTTCTCAGGGTTCTTTGTGGTGTTTTTATCTGTGCTTCCCT
ATGCACTAATCAAAGGAATCATCCTCCGGAAAATATTCACCACCATCTCATTCTGCATTGTTCTG
CGCATGGCGGTCACTCGGCAATTTCCCTGGGCTGTACAAACATGGTATGACTCTCTTGGAGCAAT
AAACAAAATACAGGATTTCTTACAAAAGCAAGAATATAAGACATTGGAATATAACTTAACGACTA
CAGAAGTAGTGATGGAGAATGTAACAGCCTTCTGGGAGGAGGGATTTGGGGAATTATTTGAGAAA
GCAAAACAAAACAATAACAATAGAAAAACTTCTAATGGTGATGACAGCCTCTTCTTCAGTAATTT
CTCACTTCTTGGTACTCCTGTCCTGAAAGATATTAATTTCAAGATAGAAAGAGGACAGTTGTTGG
CGGTTGCTGGATCCACTGGAGCAGGCAAGACTTCACTTCTAATGGTGATTATGGGAGAACTGGAG
CCTTCAGAGGGTAAAATTAAGCACAGTGGAAGAATTTCATTCTGTTCTCAGTTTTCCTGGATTAT
GCCTGGCACCATTAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAATATAGATACAGAAGCG
TCATCAAAGCATGCCAACTAGAAGAGGACATCTCCAAGTTTGCAGAGAAAGACAATATAGTTCTT
GGAGAAGGTGGAATCACACTGAGTGGAGGTCAACGAGCAAGAATTTCTTTAGCAAGAGCAGTATA
CAAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATACCTAGATGTTTTAACAGAAAAAG
AAATATTTGAAAGCTGTGTCTGTAAACTGATGGCTAACAAAACTAGGATTTTGGTCACTTCTAAA
ATGGAACATTTAAAGAAAGCTGACAAAATATTAATTTTGCATGAAGGTAGCAGCTATTTTTATGG
GACATTTTCAGAACTCCAAAATCTACAGCCAGACTTTAGCTCAAAACTCATGGGATGTGATTCTT
TCGACCAATTTAGTGCAGAAAGAAGAAATTCAATCCTAACTGAGACCTTACACCGTTTCTCATTA
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 147
GAAGGAGATGCTCCTGTCTCCTGGACAGAAACAAAAAAACAATCTTTTAAACAGACTGGAGAGTT
TGGGGAAAAAAGGAAGAATTCTATTCTCAATCCAATCAACTCTATACGAAAATTTTCCATTGTGC
AAAAGACTCCCTTACAAATGAATGGCATCGAAGAGGATTCTGATGAGCCTTTAGAGAGAAGGCTG
TCCTTAGTACCAGATTCTGAGCAGGGAGAGGCGATACTGCCTCGCATCAGCGTGATCAGCACTGG
CCCCACGCTTCAGGCACGAAGGAGGCAGTCTGTCCTGAACCTGATGACACACTCAGTTAACCAAG
GTCAGAACATTCACCGAAAGACAACAGCATCCACACGAAAAGTGTCACTGGCCCCTCAGGCAAAC
TTGACTGAACTGGATATATATTCAAGAAGGTTATCTCAAGAAACTGGCTTGGAAATAAGTGAAGA
AATTAACGAAGAAGACTTAAAGGAGTGCTTTTTTGATGATATGGAGAGCATACCAGCAGTGACTA
CATGGAACACATACCTTCGATATATTACTGTCCACAAGAGCTTAATTTTTGTGCTAATTTGGTGC
TTAGTAATTTTTCTGGCAGAGGTGGCTGCTTCTTTGGTTGTGCTGTGGCTCCTTGGAAACACTCC
TCTTCAAGACAAAGGGAATAGTACTCATAGTAGAAATAACAGCTATGCAGTGATTATCACCAGCA
CCAGTTCGTATTATGTGTTTTACATTTACGTGGGAGTAGCCGACACTTTGCTTGCTATGGGATTC
TTCAGAGGTCTACCACTGGTGCATACTCTAATCACAGTGTCGAAAATTTTACACCACAAAATGTT
ACATTCTGTTCTTCAAGCACCTATGTCAACCCTCAACACGTTGAAAGCAGGTGGGATTCTTAATA
GATTCTCCAAAGATATAGCAATTTTGGATGACCTTCTGCCTCTTACCATATTTGACTTCATCCAG
TTGTTATTAATTGTGATTGGAGCTATAGCAGTTGTCGCAGTTTTACAACCCTACATCTTTGTTGC
AACAGTGCCAGTGATAGTGGCTTTTATTATGTTGAGAGCATATTTCCTCCAAACCTCACAGCAAC
TCAAACAACTGGAATCTGAAGGCAGGAGTCCAATTTTCACTCATCTTGTTACAAGCTTAAAAGGA
CTATGGACACTTCGTGCCTTCGGACGGCAGCCTTACTTTGAAACTCTGTTCCACAAAGCTCTGAA
TTTACATACTGCCAACTGGTTCTTGTACCTGTCAACACTGCGCTGGTTCCAAATGAGAATAGAAA
TGATTTTTGTCATCTTCTTCATTGCTGTTACCTTCATTTCCATTTTAACAACAGGAGAAGGAGAA
GGAAGAGTTGGTATTATCCTGACTTTAGCCATGAATATCATGAGTACATTGCAGTGGGCTGTAAA
CTCCAGCATAGATGTGGATAGCTTGATGCGATCTGTGAGCCGAGTCTTTAAGTTCATTGACATGC
CAACAGAAGGTAAACCTACCAAGTCAACCAAACCATACAAGAATGGCCAACTCTCGAAAGTTATG
ATTATTGAGAATTCACACGTGAAGAAAGATGACATCTGGCCCTCAGGGGGCCAAATGACTGTCAA
AGATCTCACAGCAAAATACACAGAAGGTGGAAATGCCATATTAGAGAACATTTCCTTCTCAATAA
GTCCTGGCCAGAGGGTGGGCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCT
TTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATAAC
TTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACAT
TTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAAATATGGAAAGTTGCAGATGAG
GTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGG
CTGTGTCCTAAGCCATGGCCACAAGCAGTTGATGTGCTTGGCTAGATCTGTTCTCAGTAAGGCGA
AGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGA
ACTCTAAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCT
GGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACGATTCCATCCAGAAAC
TGCTGAACGAGAGGAGCCTCTTCCGGCAAGCCATCAGCCCCTCCGACAGGGTGAAGCTCTTTCCC
CACCGGAACTCAAGCAAGTGCAAGTCTAAGCCCCAGATTGCTGCTCTGAAAGAGGAGACAGAAGA
AGAGGTGCAAGATACAAGGCTTTAGAGAGCAGCATAAATGTTGACATGGGACATTTGCTCATGGA
ATTGGAGCTCGTGGGACAGTCACCTCATGGAATTGGAGCTCGTGGAACAGTTACCTCTGCCTCAG
AAAACAAGGATGAATTAAGTTTTTTTTTAAAAAAGAAACATTTGGTAAGGGGAATTGAGGACACT
GATATGGGTCTTGATAAATGGCTTCCTGGCAATAGTCAAATTGTGTGAAAGGTACTTCAAATCCT
TGAAGATTTACCACTTGTGTTTTGCAAGCCAGATTTTCCTGAAAACCCTTGCCATGTGCTAGTAA
TTGGAAAGGCAGCTCTAAATGTCAATCAGCCTAGTTGATCAGCTTATTGTCTAGTGAAACTCGTT
AATTTGTAGTGTTGGAGAAGAACTGAAATCATACTTCTTAGGGTTATGATTAAGTAATGATAACT
GGAAACTTCAGCGGTTTATATAAGCTTGTATTCCTTTTTCTCTCCTCTCCCCATGATGTTTAGAA
ACACAACTATATTGTTTGCTAAGCATTCCAACTATCTCATTTCCAAGCAAGTATTAGAATACCAC
AGGAACCACAAGACTGCACATCAAAATATGCCCCATTCAACATCTAGTGAGCAGTCAGGAAAGAG
148 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA
AACTTCCAGATCCTGGAAATCAGGGTTAGTATTGTCCAGGTCTACCAAAAATCTCAATATTTCAG
ATAATCACAATACATCCCTTACCTGGGAAAGGGCTGTTATAATCTTTCACAGGGGACAGGATGGT
TCCCTTGATGAAGAAGTTGATATGCCTTTTCCCAACTCCAGAAAGTGACAAGCTCACAGACCTTT
GAACTAGAGTTTAGCTGGAAAAGTATGTTAGTGCAAATTGTCACAGGACAGCCCTTCTTTCCACA
GAAGCTCCAGGTAGAGGGTGTGTAAGTAGATAGGCCATGGGCACTGTGGGTAGACACACATGAAG
TCCAAGCATTTAGATGTATAGGTTGATGGTGGTATGTTTTCAGGCTAGATGTATGTACTTCATGC
TGTCTACACTAAGAGAGAATGAGAGACACACTGAAGAAGCACCAATCATGAATTAGTTTTATATG
CTTCTGTTTTATAATTTTGTGAAGCAAAATTTTTTCTCTAGGAAATATTTATTTTAATAATGTTT
CAAACATATATAACAATGCTGTATTTTAAAAGAATGATTATGAATTACATTTGTATAAAATAATT
TTTATATTTGAAATATTGACTTTTTATGGCACTAGTATTTCTATGAAATATTATGTTAAAACTGG
GACAGGGGAGAACCTAGGGTGATATTAACCAGGGGCCATGAATCACCTTTTGGTCTGGAGGGAAG
CCTTGGGGCTGATGCAGTTGTTGCCCACAGCTGTATGATTCCCAGCCAGCACAGCCTCTTAGATG
CAGTTCTGAAGAAGATGGTACCACCAGTCTGACTGTTTCCATCAAGGGTACACTGCCTTCTCAAC
TCCAAACTGACTCTTAAGAAGACTGCATTATATTTATTACTGTAAGAAAATATCACTTGTCAATA
AAATCCATACATTTGTGTGAAA
Una vez introducidas las secuencias y, puesto que son relativamente largas,
ajusta remos los parámetros del gráfico como los de la Figura 9.22 con un zoom de
1: 1O y un tamaño de ventana de 59:
+
+M \tlh'!t" ~ qo!Nf\"(1 1(1 ... e .:JI ·v~·.Xf
Ul«: cur!rr ...ICit~t &oo ~ 1 n«d ~In! 1 II'Jm bV f ?!MftdC 1 O!r!t f.e~t!M"tt t t vg1!CI!! 1 .5
["•" ' ¡.....,. ¡
no • ~r
tool<i
!O~Cfl . ..
... ) .... ¡....., -- - - • $Q •
P.num SeJt<tt
8t.ASTP/PSI •8t.AST
PFSEAA(H (~f-)
W,IMEfll (~~ · ·lt·'M)
--.. ...
MOó"f sea::~
by PiO(~
-·.......· ...,
by MOlll
w.FF"J
OCOFFEE
.
O!J:..:.:ty ...
, .....,
>Aro<>
T odt; •••
R4fom'lilt MSA
llub
.....,
- f-Colmdtuq
Results
Mise
QeOre<-a1ed
M4!6n l l0
horaonMt Ratón
\t:tlt<~~ Hu m~no
mllrilc: ldertcy
S[(llr.Q wfniiOW: 59
¡oorn; 1:10
scor·e rat~Jíl : oto~
gQt~c;IQ; 6S%-100%
'
9.2.4.1 NCBI-ORFFINDER
La herram ienta básica más utilizada para predecir la presencia de secuenc ias
codificantes en proteínas es el ORF Finder del NCBI. Se trata de una herramienta
gráfica de análisis para la búsqueda de ORF de tamaño seleccionable en una secuencia,
ya sea introducida por e l usuario (y, potencialmente desconocida) o recuperada de
una base de datos de secuencias.
e •· ~
Flnder (Open Readlng Frame Finder)
·-
TO:
a4a ;~.;ae:~~~1;e:o;e:~;a;a~"c:""o;a~o•;a~Q10Qa;I\O~~~.o~~
& O t A & t t K t : $ D t t R
a!& ~;a~;a:~c;a~aq~;ae~;;c:;a~;;e;a;~1(:(;191;1(:;t~C~;a99C
O n A C k ~ 1 ~ Y Q • • k G G
c:2 ·~•t9•••c•y.•••••~••• •••••..- • •9•r-••,.•
l V R ~ O S l V t i t t t t O
418 ea~e:t-q¡q;augqqJ;a1;9e:e~;;~&~'t-&V~a~~eti~
ll i' t K (; i> A l. Y A • t: ~ A l.
~,3 fCU:~fi;l;llfl:'t-~'t-Uf,t.919Uf't't-91:;1ei.;ICCt9C:¡Cf,~
l. ~ Cit :t V IO'f:lt:t•:t:t.XS
~f8 01;;eOe;t~;a;a~otoe&;a~;a~e•e&Oe't-01CC~;11:1;ite~~;tC
V A S a C ' D i' Q l ! D F V t:
...,.,
~
t
...•..•....,
~ V A O ~
..,.,..,.,..,...,,...
6!3 I'JC'JU.-t-~-cc~~"-9J•9C-aJ9't ~·•flCC11;ie.;l;a,;aa;¡:;a ~te-t.
e r t. t t Q v e ~ : ~ ~ :. ~
a a V G 1 S M
~.
S Y
?C·3 ~ea:<:.~':>'JI':>C.&'JU9C-'t>1e~ ~~9~•!••9c~ ns
* M r O ~ 1 l. l. t: t t A
¡r jí;
:-:-,ew
--,J ""'¡"ee
=-na"a',.,-n'k""- - - ( Redraw J 100 - J SlxFra•es J Frame from <o Leni(b
+i o 73..737 666
-1 o 1..480 480
-2 o 390..644 255
-2 o 33 .257 225
+3 o 3..224 222
+2 0 272..466 195
-1 0 Si4..696 113
• <::
E~RD~Kl!KYO~~GG~VRtOS:V7PL!ifO~PEKG01l~~LALAl~~VNIKL
HNLMSVASRCNDPQLlCF~ S EF~tE~AIKK.[SEYVAQLRRVGKGH~IWH.FDQKLL
Ett.!l."
Bll.S!: COUNT 165 a 202 e 2H g li7 t.
01\IGIN
1 ot.wcceeoo ceaccceeoc COCC(jCIJCCt aectetctco ccooeocooc cteoacccet
61 qct.CCCQCCt. QQCt-qoccqt gceqcgt.gQt QCC:(Ilgaeccg g·Qgcagt(llcg cag:ggec:<,¡oc
121 9'9'Q'!lU9990. 09go.c¡qt-;c~ C49C~9C9~9 Qectt:e-::o.qc co.tee;o.c¡9o gcecao.991J;
181 aaOC'tCCOCC CCOtCCOCU ooc:caaooac C ! Q'tCt.Ct CO ctaaocaaaa ott.ctrtc-cac
Zil t;o Qt:9C90.99 C:e:QCC-o~oc:. C9~9COQ "-IO C o.~\.9t.99 0.9t o.CCeo.t:gCQt:C: c¡t.oc;cc¡~::
201 cActcccttt:: tcgcct.A:::'l:t. tQilt.cgtgAc AAC9ttgct.c ~CA"'-9't]tJAtt cgccAAAttc
S61 ttea.ae.caa;. CCAQ'CCAtoe. OOAQ'tOOQ'a.t ee.coca~aca ucece.tcaa ouceao~ac
121 Ct-g'~9~99'- 9 9=99'9t-íJC9 qc~cc-cg~cc- O~c-q tC.3 CCC etttqo.c-cqa qttc;cc-c-ae
481 CCCf.1llO&~Hl0 ooaaeaec:tt Ot~tCCt!tO oaottoo-cct eaoccetcoa ~~~aetto·~
9.2.4.2 GENEMARK
El primer paso será abrir la página principal de GeneMark (ver Figura 9.32) y
seleccionar el tipo de anális is que se desea hacer. Existen varias vers iones especializadas
de l progarn a, cada una de las cuales se corresponde con un modelo distinto de gen.
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 155
-
-T (;11~-IN> o.Nib~ ~ l'laiN-...-•~011 • Cfo'lfM. ~
• _ ¡/>- W.l'nii'I-P"...-.J~ISIU'\ 1' 'I~OIIK~Utlbe - ~~trtro
"' . ~ ~ b9' ~ Q010. t P0\71m""" ho;1'1111«nq..,., SPMC1 (Me
--
.. -"""""
_- c..n.M.ti...ES'(2005) . -ciOW'**H. ""*'*~ES'r.tt ~
..tii:.:3L ~r«~e ICt' ~vow~ Q(JOe) r.totntawo.t.,......., """'-'
IIIOI:HI~~-~~~tlt~.... ~-""toJ'
~oi WI'IIMI.E" •nclo-~·
.,..,
.""""
lj .
'::t, AIIJ$lll:l not'lf'O~f""l)lll'l$~ ~·~c~OI~ o...b~Meof~""'"
Ollbe'~i1.,1<Neo:lbyl~~d~S A~\eniOitd • f'loUr,ck
4 ~- ..... ...~~ CWI~.-Ib'l~.-~ • V /PfQ fii'Ollll
_
- ~-- IC+ro
A I!MIOW.IJ,.fÑ'JO 01 plwtlldQI'I bt ti\M'Uid"""" t't' .... ~ fTW.....,
"'""'•lklll0deftlr#lt~K$h:rltrftii~Wictt'fh:~no • U.'IOl"\ • PI~
. n.......o.~··.,.
lhl; ~ ptOO.'des A('OeHU .,._...;,.,. J 1 ! l¡j cetoe flf~ ~- Gefte.\tM!$ n..s \~ C~ fle
~ 1'«11 fl:~ ~\f.to:S v.1)liiii!J 4f\~v.t.:t~ tOttAM e,~ot~,w~ ~~
Q\'la.~ ...J(~.~---~a.dD-rtcDNA~
u.-..Cc..lbrkS~
:ox:c-1GO.'-~t~VoMCn.\f1\""~0CGIXAnft•!'1~ •
~~J.~f.W~$CJ'OOQ~$C:CMIJ.m:tflk:C'r.("''
r.-::.1:.r.::.:;.::.r.o.c-:r.:ne-:.:x·::.o=.--:-:~.;.:L~ ~:.:=>=c:.:-n:·~.-.::.:c~
et~.u.~n~u.~l.~tOJ.:f~t'ltttn;v. l
J>
GeneMarkS
.lolilll lk>so•rr, Al"-lMre ~Aasallu ... ~brk ~-sk:r
<i<mMI'tS.· f Kf'm.=rWJ!»df««cda!oo q(f!tOC !4;1m it.aotroNJ~ l!pr+t.yiwfi:tfiodnr t«atK(
tud~ .. ·~,q¡s..
Ntdlli< And' bJMPf"lt0001) l9 :60?·'MIS
cx.&lut(l(~¡ox· '~
tpor ~~-""''
~Ot."i! ~'ti km•&-I.W
r.-ud«(idc: ~ k·'-'·'-
C9!1&'1 lk 1~
IUI!It ::..:.: :
&>ele } , ..,, .,,.,., , .,,., llc-11: ...,~..,.,_,.,,.. l _ !o:_qc:nU•>c_ o:.:O._ t t _o::d_ 0<:_S.t
. 9"'-·
~U <lo:U AIUCil U ll<: l Oll tllU . , . !Xl:lt'l' H ,ll t . <Oll Oll't <;e M te: 4-7-'h.• ~ !te ;),O,l<U) I ~C.lJI'Ill' IOJ.M ) '•\ U~o:ll<>te IIOitleOUO~Oton)
.......
h•~>.O~
" u.t $·u~ :.e ;U&.~ f.~q'MCro>i <;e~ t :.a u
: d u ;- HO
t ,., 1n n•
.o ~· IUO u•
)'Otl>t 110t~t\" .~-l!:t MI•UU.C )OJf!~ UU !.- I~! U ~.!I l . ~o.H OUC ~:,e t c.t <IO'f hft (te ¡ , ,,!, ) U ldotGl<~U d ll>t · · ·lfO~ll>t.Ut r••1t•a#<W:,•, ,uoh .Ul
lKI ~..U«?t<:.'r: IOfi'IQifO'lvisY~F'r'NQ'~li'Yt:OAA~D)II.
C"-J<"A>qr.'tJOmo-~~t.~l'lo!am.lOI:r"...U.ctl M'ltYDl;JOlll;.a
...,,... ) 10t~t\' ,t"-!!U . . l•l)i ~J * t.l )0ii~ UU! .... I1::t!,!i, ! l l , c-o.1 1 lto:C 9f:.t t ot 40T h n ~ l, C, ! , ) Jj ldot4"'~'<Ui dl .... '' •< H~,Jj)t:. .t t.""l t<>;I.-,}'<UO! Oo.Ul
IOV"JJMti.#Pf~ftnl'Aj,.¡¡~~VIU..:;;ont.YPfi;l,.l:l"'t.t.
tho~:.n~~I'JlQ.'1.\'Gt l l>f.:~1JUS'IIr.l~lliiM I ~:,I,Q'I(
tr\'Wo~n=:!.~n>~:..=z~re~~~
"'J~l'I'!:'.SI~·~_t ~ .t.n:oUH.,.. I • IIo0$1!$40 >?li • Ut~l- 11t·)~11. 4 .!1 t. ~o)• chrt ?-~ (or .::1111'~ ''~' (f,C ,.4.:.111 IO.; ay•;o.n<h!l!l S• ·tU~-Js* 4 ~'1! r:oc;l e~u-.;t'lhOI 4.f'l! l
to.t:~u.r~: t~~u~oc~: rr.u:u...u·."'WilAA.l.Yll.lln>Jn-.ro
=.:.:rr=~t-:Y;::r..;~:.JU.JU.l'~~:.tiU:.tou.=r.a
!()Cll~tPU!t.AOt~ltA!I!~~ttrt!'tOtTlUSO!t.Attt~l!"'.~n:'t
..
anno~r :~t:~:nsnr:.
.P ¡ 1) Q • ft '"' A • 5
"9"'n•_I J~.<"·"-JUO.... .q• l ' !t.J "'JII'!l. . j -)liOlltt.t¡ l. o:oH 0..~ ,.nO !~u <Stnr.o.M l iC: J., . I . H ) 1_ .1'\o.<-101::• ···~U,.,_Fio.l~· n ....t.O<.IO&,..UoU.. . j
~7~~XJ.<l~Q.fQ...t!'r.u.a;.~:~~
<::ee"..A'lA~~~~ttt;)J;(lCt~COTTQG.\m
...
ooc~•• ;.c-•• •r- :.::~: ~~r-.:.:.:or.~-cr:
o:.:~:~.u,rnooe~~~~
ct).H~rncr~·--CJCXX;~!WI:tttr~c
cr::;xa.:.:-:;.:t.\C'1Cll.A..~!Il.~ t:;..r:);.::'l ~· • • a• • -:t :<~.<:OttAA
~~~; !j;~~~~~~=~~~~;;~:h~~~¿·'' !. eo!•
0 d.·•,. oc::« !<or dU'!Po:c l EC ,,6.1 . ts ~
~IJ.I«C'Aea'CTGtSer~~~T~~~
~r~~r~~"M"T~':"fttQ,(:~~t~rA-nc.o:
~::rr:a.~""~t""~~«~"-U:~:~.u:
OT<;C't'1QGT~TTGA«:GATT~A.~Go\~tTTQ::
...
cotGlo:.J..t-'"et~tca.ca.nC'.UoCC'T""~,~.uaoc:c~rJ:;
C':'r:-:~:««r~!~~-:-:.u.rc-:~~:..t~a=~:.cc=
~«ll<íQC:''ITGO'l'at~M
;:-~·~
·~"~'~=~~~<>~-~-~"~'~'-§'~"~·~
> N~>o~
: ue >-otltH"'Ieai>IXO: nt.:¡ '· co.:.t ot...t QOOM !ór .st::r~ ltC ).l. l . U ) ro:~l-..tt.U.t.e )'•ut-.o.¡:a...tc fl""t eou-.;r4<ot u~l
:: ~n.cnc-mtc:TCTOIJQ
('f<a,~~t~.ueu:c~····c-r~
e:re:;-xrr.~cca.cT~~~tceet.::~:~"'X'le.:.ro:t:ta..r
~!fCM!TtUco.w.nAfA~'t'tA.etCOCAtCMoOCte.\tTCTCMMU
(114Ul.~O.:OCCt~~oT.O':'TOCTGCnCT~OOT~:)
~AAT«''~te~*irO.tGe«:'!M~o\IJGUCGe
C'1G")0,.r.c<"''< 0 t~tC'l·tmtl.TT~~:'U't<: 111
o::~··~·'"''"'l.U~~~~m~nn:on~
(.M;I,~~~-~~ce~rnMAm
.:x-:~:u.:c.:.rrtt~.l:~~;.;.rr~~:r.:~;.;.r;.r ~
~t~G\.Tce;)~CJTtU
• 1 •
!UJ
jnU1
'l 11
'1'0
'- 1 '
«<
J.. 1
llU
1 "' 1
1111
1 1
!JIJ
•
,A ~A
J.... 1\L\..............
... . . ,), .
4.. .... .... ....
1 1
""
1
l.
J .n
M . l . ~ ... . ..
Ir'
,.l. '""
/"Y
-~ "" '""
i M '' .
' ....,~ ..__ ...... •
r
e
•O
,.
"'-1
N
•:o
..
.,
..
""'
Regiones de int erés
·-uu M
'{V
~
-~
Q)
~
·- o .., A Posición de los nucl eótidos
o 1
l lOO
"" ""' ~
'-'
,.
. .. ~
- JI
ORF
l•
"' '" l lOO
'"' ""'
•
~
~ o.s
' " . ~
• .---
! ,.l.
'"
., •
""' '"'
1
""'
1\ • -
\ft. '
M ~
}.
•• ... "'
<A
Dos sec uencias homólogas, es decir, con un ancestro común, suelen tener la
misma estructura 3D y funciones relacionadas. La mejor manera de encontra r una
secuencia homóloga a la secuencia bajo estudi o es buscarl a en una base de datos a
través de BLAST. Una vez encontrada, para decidir s i son homólogas o no, conviene
tener en cuenta los siguientes dos criterios:
,.. Secuencia proteica: más del 25% de similitud en más de 100 aminoácidos
entre la referencia y la secuencia bajo estud io o un valor E menor de 10·4 •
>Anonimal
CAGGCAGCCCCACACCCTCCGCCTCCTGCACCGAGAGACATGGAATAAAGCCCCTGAACCAGCCC
TGCTGTGCCGTCTGTGTGTCTTGGGGGCCCTGGGCCAAGCCCCACTTCCCGGCACTGTTGTGAGC
CCCTCCCAGCTCTCTCCATGCTCTCTGGGTGCCCACAGGTGCCAACGCCAGCCAGGCCCAGCATG
CAGTGGCTCTCCCCAAAGCGGCCATGCCTGTCGGCTGCCTGCTACCCCCACCCTGTGGCTCAGGG
TCCAGTATGGGAGCTGCGGGGGTCTCTGAGGGGCCAGGGGTGGTGGGGCCACTGAGAAATGACTT
CTTGTTCAGTAGCTCTGGACTCTTGGAGTCCCCAGAGACCTTGTTCAGGAAAGGGAATGAGAACA
TTCCAGCAATTTTCCCCCCACCTAGCCCTCCCAGGTTCTATTTTTAGATTTATTTCTGATGGAGT
CCCTGTGGAGGGAGGAGGCTGGGCTGAGGGAGGGGGTCCTGCAGGGCGGGGGGCTGGGAAGGTGG
GGAGAGGCTGCTGAGAGCCACCCGCTATCCCCAGCTCTGGGCAGCCCTGGGACAGTCACACACCC
TGGCCTCGCGGCCCAAGCTGGCAGCCGTCTGCAGCCACAGCTTATGCCAGCCCAGGTCCAGCCAG
ACACCTGAGGGACCCACTGGTGCCTTGGAGGAAGCAGGAGAGGTCAGATGGCACCATGAGCTGGG
GCAGGTGCAGGGACCGTGGCAGCACCGGG
• llt(Jtlt.A$1 MCiml
i!USll"'dt ¡.,..._.ofol..,il61ily..,._ ~ol ,.q_.. =:...
BLASTAssembledRetseqGeoomes
-
..• """"'
""""
..,.""'
a..
.""
·~
•· Gu!!tto!o
~
. ,_
·-.........
o y_,.
"' /"""'*"""" ,,..,.
-
a-...~- !V$"--
110\. ,_,..»''IOI~Ottfl'
e u.oa ru.u onn..
8aslc iLAST
~~ S.....ct~opo~•~~>~•·--.•pvc•lot......,.
~ bl:l!Pp "'~~~-- ~~- <Wiil "'-'
l;oltll! ~ potoln ~~· -"9 • trMII~ IWIICloolldo ...,.Y
tidB ~~6MI41'.M41K~OoiUOIMflot'OtiPIIOIOin....V
kAJl• ... -· .... - .,., ... ~...-- • ...,. _......,. • ...,. _._
..- - -
·~! •
~~~~to;Jo~or~c...
C«N:T~~Ilr~..cn~=
~~~~
~01:.\T.~~~~l=~~~.
:::r~"'n:~.~:tl"e.~~
OJ,IIPfO'(IniO '~~~~»1\.ll~~t'tf').f!~ y
Jobl.. _...,at
Cf11Mao,:.;:.~1.. il»f6Cr.•t(II.A!;l :•>~m t~t
--·
"'
,_.
E•~
CN!fet l.A.oc'UOI'IW«<IJI""t ~''U OUaiO.Otlt• ~U)CU<J ~·1
t! M:ált l)':l.t)p)CU'IC".t....e.~ ••111•'•~-·
~ttr.<IN!l ~
o ~.:atlOb ....etiU~~>I)
Mollteltilll'llilr ~,Cd~ II"'IJbli;M;I
J CowO
-·-· ..·-- •
,.- Megablast: está optimizado para secuencias con un a lto grado de similitud
(el 95% o más). Es la opción por defecto.
,.- Megablast d iscontin uo: u tiliza una semilla inicia l que ignora a lgunas
bases (permite no coinc idenc ias) y está pensado para co mparaciones de
secuencias pertenecientes a especies d istintas.
,.- BLASTN : es e l más lento y el que maneja grados de simi litud más bajos.
La Figura 9.44 muestra los resultados que obtiene BLASTN y que se dividen
en tres grandes partes: cabecera, gráficos, lista de coincidencias y alineamientos.
oo.. . ,~ •s•· rt-s. . .,1 r •.., w~ • !f ·;~ •P·• .. .. " .... " ''"··lh
®<;r.phlc Summ:uy
@ OJtSdQt!OO!
® AI!somtnJt
. , .....
.,.""".... . """•""·QMo'
.._
l" t1Sl · ~
........... OI()).o-.,...
··- ~
~-. ,......_. . ~ . (_...........m.~o.~r...-d••""Siho"~ ~·· ........_ •...,........... ~ ~ :;,...,..· ........ QI
conju nto de líneas gruesas e n la parte supe ri or de la figura, justo bajo la clave del
código de co lores, mientras q ue las coincidencias encontradas en la base de datos
apa recen justo debajo, de tal ma nera q ue la más parecida oc upa la posición superior.
'"'
QII@I'Y u) 'tl!m.)t ~Sf,N"- f'r
~f'\J~Jor! AI'IOr'W!IIl l)ll:S(rfi=(O. r.'UCJeol;~ c»>t<tion (ni)
~ 1.,-pt tu:ldt aod Pfoogtoi• a.ASrn 1.1.»• · ~
QlwtV • .-.,!h , ,...
e c,..ehic; Summary
Q~· ··v
1~0
1
' '
ooo '
·100
(t)Qppl!!t Su!Wf!.!!Y
€ O.•u1ftlon• '
--~~~
Selttt ~ &::1: Selocto4 o
-.... o
¡jo~.~.,.._
U">~
t»t
:m
Ul4 , . .
Ul.t Wfo
'*
tn~
~
,., u
00
00
00 --....
t~ ?nilC..I
..::m::o:u H
liiOut•a
'"' """""
..,_.....,
O f'Mit?Jbltle•JW.II!_m!ln)l.lh!.«"r,<o-w.= !:M~ IU t ~ 00
"' '"' "'-'
,;,.
ID tir.III!Jft~ Ul'ttm) •.ll.bl'n.at~~.1. . . .)11<!liC"'· •III~Ct"' IW'ft.t'!h¡.»12!~ IZ~) 9'7'\
'311 1201 1«114 fO
11tt ntJ tn. oo
9R
... r.;~('.;J
~mt!a1
,.. .,.,.,
tCII !NI 11" 00 1' . ........ '
Ott••••..,~ ... ~64'00
-·
!l7S bU(1 .:.:01
Oa:y t
a.tet tns
~· --toe~--
eny., ..• ._,.,.....,...._ -~ E
~•Y 41 ~~~:-::~cr.o~~~-:~
1 1!1 HUI! 111 1111111111111111 111 1 11 1 1 1111111111
$l!Jr. n.as ~(.Cf.:r~:cr::.:rer=:.=cr.:e:.co.l :u.o:ct~ ..
o._,n' ll:. N:'l~~~in":''O~G«'"~~(;l;t'A l:O
11 1111 1111!1 llllllllllllllllllllllllll 1111 111111111111
=1~=n=-:a.t=t'le::::-~~:=:a=
l'~'
~~~~ ..~~:~.;-:~~«::.: :so
l. 11111111111 11111111111111111111 1 111 1
11111111111 111111
S&H't ltH ~.MC'J.I 3041~tocrtGICDCICI:II:t'TGCr:.t u::
(l-JJO:y tH
"'.Ir;~. U~$
~c::M!~~lOXJC
11111111111111 11 11 ; 1111111111 UIIIHIII 1
~~"~"l'OCIX>OQq.~te~"'»C
111111; 11 ll lfl ll l
"'
lt'4
OatY
~,~.
n~
!»)
lWI~~'l'<Tl'l'MCL~~~
1 111111!1111 11 11 11111111111111111111 1
~1~~-=lol.=..-=t=)!'lCUu.r.Jt'l~»:.ner=:e=
11111111111111111 "'
O..tty IH JA.~:c~··w~·A.~!l.r:eo.:o.:.ttt:"~..xeett
n " " " " " 1111 1111111111111111 " " 111 '11111 1 111111
A>J""- au ~rror-···~--l~~rrr: ~..:.:o:Te
~ry u~ «Cr.l.::e«J.r.~~Co:leet~
:rn
«:er.T,\~~~~
A«"'liQC'~.Utct19CQ:IOQtctl.@'i-'CID:f~
1 1111 111111 111 1111111111111111111111
.-:l~:~...:.e.:.Y.IT~:o:-~t(í.Uo)
11111111111 111 11 1
...
~~:-r u~ Q.~~~~~·sr;c;:rtmJ~~
~)el. UM ~~~~~~
~:y )tl
~~'"'
1< 111 111111.111111111
'"'' r;~. Ut6 ~.,,,e
8 AI!qnn!ents
0 0o.oeobod .. GcaDid ~
Gorla vorta n:;IAín PI'«~~""..« (INS) ~. ecrup~ eeh:
....
~o:>g'II,.WUH•.!e 114Y•l7d61:1 ·- ~1-16 -0110-.._ t
consta nte de la Bioinformática por lo que, una vez más, nos encontramos ante la
disyuntiva de qué formato elegir. Aunque existen más, los formatos de alineamiento
más com unes so n el FASTA, el ALN , e l MSF y el PIR (si milar al FASTA pero con
una línea adicional para inc luir anotaciones).
§ Jalview
""
-- .......
+ •- ;..;...., P Oé·· ~~ · ii
~ Jalview
~-
~-
---......-
...
...o llll lllrC).IJt
~--- ...-~
..... -- ----·-·-
.... ..
'"
.,
"-
•
Clm(ol-
1
t·
TGGATGTATATTCAAGGAGATTATCGCAAGATAGCACACTGAACATCACTGAAGAAATTAACGAA
GAAGATTTAAAGGAGTGTTTTCTTGATGATGTGATCAAGATACCCCCGGTGACAACATGGAACAC
ATACCTACGATATTTTACTCTCCATAAAGGCTTACTGCTAGTGCTGATTTGGTGCGTACTGGTTT
TTCTGGTTGAGGTGGCTGCTTCTTTATTTGTGTTATGGTTGCTTAAAAACAACCCTGTTAACAGT
GGAAACAATGGTACTAAAATTTCCAATAGCTCCTATGTTGTGATCATCACCAGTACCAGTTTCTA
TTATATTTTTTACATTTACGTGGGAGTGGCTGACACTTTGCTTGCCCTGAGCCTCTTCAGAGGTT
TGCCGCTGGTGCATACGTTAATCACAGCATCAAAAATTTTGCACAGGAAAATGTTACACTCCATT
CTTCACGCCCCTATGTCGACCATCAGCAAGCTGAAAGCAGGTGGGATTCTTAACAGATTCTCCAA
AGATATAGCAATTTTGGATGACTTTCTGCCTCTTACCATTTTTGACTTCATTCAGTTGGTGTTCA
TTGTGATTGGAGCTATAATAGTCGTCTCGGCATTACAACCCTACATCTTCCTAGCAACGGTGCCA
GGGCTAGTAGTCTTTATTTTACTGAGGGCCTACTTCCTTCATACAGCACAGCAGCTCAAACAACT
GGAATCTGAAGGCAGGAGTCCAATTTTCACCCACCTTGTGACAAGCTTAAAAGGACTCTGGACAC
TTCGAGCCTTCCGACGCCAGACTTACTTTGAAACTCTGTTCCACAAAGCTCTGAATTTGCACACT
GCCAACTGGTTTATGTATCTGGCAACCTTGCGCTGGTTCCAAATGAGAATAGACATGATATTTGT
CCTCTTCTTCATTGTTGTTACCTTCATCTCCATTTTAACAACAGGTGAAGGAGAAGGAACAGCTG
GTATTATTCTAACTTTAGCTATGAATATCATGAGTACTTTGCAGTGGGCTGTGAACTCAAGCATT
GATACAGATAGCTTGATGCGATCTGTGAGCAGAGTGTTTAAGTTTATTGATATACAAACAGAAGA
AAGTATGTACACACAGATAATTAAAGAACTACCTAGAGAAGGATCATCTGACGTTTTAGTCATTA
AGAATGAGCATGTGAAGAAAAGTGATATCTGGCCCTCTGGAGGCGAAATGGTTGTCAAAGACCTT
ACTGTGAAATACATGGATGATGGAAATGCCGTATTAGAGAACATTTCTTTTTCAATAAGTCCTGG
ACAGAGGGTGGGGCTCTTAGGAAGAACTGGATCAGGAAAAAGTACTTTGCTTTCAGCATTTTTAC
GAATGTTGAACATTAAAGGTGATATAGAGATTGATGGTGTCTCATGGAATTCAGTGACCTTACAA
GAATGGAGGAAAGCTTTCGGAGTGATAACACAGAAAGTATTTATCTTTTCTGGAACATTCAGACA
AAACCTGGATCCCAATGGAAAATGGAAAGATGAAGAAATATGGAAAGTTGCAGATGAGGTTGGAC
TCAAGTCTGTAATAGAGCAGTTTCCTGGACAGCTCAACTTTACCCTTGTGGATGGGGGTTATGTG
CTAAGCCATGGCCATAAGCAATTAATGTGCTTGGCCCGATCAGTTCTCAGTAAGGCCAAGATCAT
ACTGCTTGATGAGCCCAGTGCCCATCTAGACCCCATAACATACCAAGTCATTCGACGAGTTCTAA
AACAAGCCTTCGCTGGTTGCACAGTCATCCTCTGTGAACACAGGATAGAAGCGATGTTGGATTGC
CAGCGATTTTTGGTCATAGAAGAGAGCAATGTCTGGCAGTACGACTCCCTTCAGGCACTTCTGAG
TGAGAAGAGTATCTTCCAGCAGGCCATTAGCTCCTCGGAAAAGATGAGGTTCTTCCAGGGCCGCC
ACTCCAGCAAGCACAAGCCTCGGACGCAAATTACTGCTCTGAAAGAGGAGACAGAAGAAGAAGTT
CAAGAAACCCGTCTCTAGTGCTGGGATGCTGAGGAAGCAACTCAGTGCACTGAGTCCATTCCCAG
AACCCATGCAGAATGAAAAAAGCCAGGCATTTCCCATGCTTCTAACCCCAGTGCTGGGGACACAG
AGACAGGTGGATCCCTGGGGCTCTGTGGCAAGTGATCCTAGCCCACAAAGAGAGTTCCAGGCTGG
GCACCTGAGGGACAATACCTGTGGATATACTCTTGCTTCCACATGCAAGTACATATACACATGCA
TGCACATTAGTGGACATACACACAGAAAAGCAAAGAAGAAGGAAAGAGGGAAGAAAATAGTGCAA
ATAATTGCAAAACGATCATGTATGGAGTCTGCTCATGGACTTAGAGGAGGTGAACTCTACTACCT
GTGCCTTTGAAAGAAGGGTGAAGCCTGCGACTTGCTCTTTAAGAGACTGTTTTGGAAGAGAGTTC
AAAAACGTTCATATGGGTATGGGTAACTGACTTTCCAGCAGTAGTCAAATTGTTTGAACTTCAGA
TAGTTGATAATGACCACTTGTGTATTGCAAGGCAGATTTTTCTGAAAACATTTGCCCCCTAATAG
TAGCTGAAAAAGCAGCTATAAATGCCAACCAGGTTAGTCATTCGGCTTATTGTTCAGTACAGCTG
GTTAATTTGCATTATTGAAGAACTGAAATTATAGTGCTTAGATATAGGACAAAGTAAAGAGAACT
AAAAACAGTGTCTTATATAACTCAAAGCCCAACTTACTTTCCTCTAAGATATGTATTGCCTTCTA
TACATTGTCTGCCCCATTCCAAGCAAATGTTAGAATATTATACAAAATACTGGGTGGTATTGATT
GA.AAGATGCCCGACATCTGGTGATCTAGTAACCCATCAGGATT AAGGATA TCCAGGTCTTGGAAA
TTAAGGTTAAGACCATCTAGCCTTACTACCGTACAGCTAAACATTCTTATTACCAGAATAAGACC
TAGGAAAAGAACTGTTTCAGTCCCATAAAGTGGCCTGGATAATTTCCTTGATATGGAAATCGACA
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 171
CACTTATGTTCCCAGAAAGCAACAGATCTTTAAGACTTCTGAAGTGAAGGAAGGTTGTGTTAGTG
CAAACTAGTGCAGCCCAGTGCCAGGTCCAGGAGTTAACATGTAGACAGGCCATGGACTGTGTGGG
TAGATGCTCATGGAAATGTGCAGTAGTATGTTCATGTGCTCTCAGCTAGCTGTGTGTACTTCAAA
CTGTCTCCACAGAGTTGTTGGGGAGACACTCTGAAAAAGAATTAATTGTGAATTAGTTTTATATA
CTTTGTTTTATAATTTGTGATGCAAATGAAAATTTCTCTGGGAAATATTTATTTTAGTAATAATG
TTTCAAACTCATATATAACAATGCTGTATTTTAAGAATGATTACATAATGACTTATATTTGTATA
AAATAATTTTTATATTTGAAATGTTAACTTTTTATAGCACTAGCTATTTTAAAACAGGGGAGTGA
GGAGGACAGGGATGATAAGGATCATTCAACTTCATGTTGTGAAGACGAGCTGATGTAAATCTTGT
ACCCATCTGTGTGGTTCTCAGACAACACATGCTCTCTTTTAATGCAGCTTTGAAGAAGATGGTAC
CAAAGGTTAAGACGGCCCCCTGATGGGCACATCAACTTCTGAACTGCAAACTAAGCTTTAGAGGA
ATGTATTATATTTATTACTGTAATAGAATATCATGTGTCAATAAAATCCTTTTATTTGTGTGAAA
>gil904213121refiNM_ 000492 . 3 1 Homo sapiens cystic fibrosis
transmembrane conductance regulator (ATP- binding casset t e
sub-family C, member 7 ) (CFTR) , mRNA
AATTGGAAGCAAATGACATCACAGCAGGTCAGAGAAAAAGGGTTGAGCGGCAGGCACCCAGAGTA
GTAGGTCTTTGGCATTAGGAGCTTGAGCCCAGACGGCCCTAGCAGGGACCCCAGCGCCCGAGAGA
CCATGCAGAGGTCGCCTCTGGAAAAGGCCAGCGTTGTCTCCAAACTTTTTTTCAGCTGGACCAGA
CCAATTTTGAGGAAAGGATACAGACAGCGCCTGGAATTGTCAGACATATACCAAATCCCTTCTGT
TGATTCTGCTGACAATCTATCTGAAAAATTGGAAAGAGAATGGGATAGAGAGCTGGCTTCAAAGA
AAAATCCTAAACTCATTAATGCCCTTCGGCGATGTTTTTTCTGGAGATTTATGTTCTATGGAATC
TTTTTATATTTAGGGGAAGTCACCAAAGCAGTACAGCCTCTCTTACTGGGAAGAATCATAGCTTC
CTATGACCCGGATAACAAGGAGGAACGCTCTATCGCGATTTATCTAGGCATAGGCTTATGCCTTC
TCTTTATTGTGAGGACACTGCTCCTACACCCAGCCATTTTTGGCCTTCATCACATTGGAATGCAG
ATGAGAATAGCTATGTTTAGTTTGATTTATAAGAAGACTTTAAAGCTGTCAAGCCGTGTTCTAGA
TAAAATAAGTATTGGACAACTTGTTAGTCTCCTTTCCAACAACCTGAACAAATTTGATGAAGGAC
TTGCATTGGCACATTTCGTGTGGATCGCTCCTTTGCAAGTGGCACTCCTCATGGGGCTAATCTGG
GAGTTGTTACAGGCGTCTGCCTTCTGTGGACTTGGTTTCCTGATAGTCCTTGCCCTTTTTCAGGC
TGGGCTAGGGAGAATGATGATGAAGTACAGAGATCAGAGAGCTGGGAAGATCAGTGAAAGACTTG
TGATTACCTCAGAAATGATTGAAAATATCCAATCTGTTAAGGCATACTGCTGGGAAGAAGCAATG
GAAAAAATGATTGAAAACTTAAGACAAACAGAACTGAAACTGACTCGGAAGGCAGCCTATGTGAG
ATACTTCAATAGCTCAGCCTTCTTCTTCTCAGGGTTCTTTGTGGTGTTTTTATCTGTGCTTCCCT
ATGCACTAATCAAAGGAATCATCCTCCGGAAAATATTCACCACCATCTCATTCTGCATTGTTCTG
CGCATGGCGGTCACTCGGCAATTTCCCTGGGCTGTACAAACATGGTATGACTCTCTTGGAGCAAT
AAACAAAATACAGGATTTCTTACAAAAGCAAGAATATAAGACATTGGAATATAACTTAACGACTA
CAGAAGTAGTGATGGAGAATGTAACAGCCTTCTGGGAGGAGGGATTTGGGGAATTATTTGAGAAA
GCAAAACAAAACAATAACAATAGAAAAACTTCTAATGGTGATGACAGCCTCTTCTTCAGTAATTT
CTCACTTCTTGGTACTCCTGTCCTGAAAGATATTAATTTCAAGATAGAAAGAGGACAGTTGTTGG
CGGTTGCTGGATCCACTGGAGCAGGCAAGACTTCACTTCTAATGGTGATTATGGGAGAACTGGAG
CCTTCAGAGGGTAAAATTAAGCACAGTGGAAGAATTTCATTCTGTTCTCAGTTTTCCTGGATTAT
GCCTGGCACCATTAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAATATAGATACAGAAGCG
TCATCAAAGCATGCCAACTAGAAGAGGACATCTCCAAGTTTGCAGAGAAAGACAATATAGTTCTT
GGAGAAGGTGGAATCACACTGAGTGGAGGTCAACGAGCAAGAATTTCTTTAGCAAGAGCAGTATA
CAAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATACCTAGATGTTTTAACAGAAAAAG
AAATATTTGAAAGCTGTGTCTGTAAACTGATGGCTAACAAAACTAGGATTTTGGTCACTTCTAAA
ATGGAACATTTAAAGAAAGCTGACAAAATATTAATTTTGCATGAAGGTAGCAGCTATTTTTATGG
GACATTTTCAGAACTCCAAAATCTACAGCCAGACTTTAGCTCAAAACTCATGGGATGTGATTCTT
TCGACCAATTTAGTGCAGAAAGAAGAAATTCAATCCTAACTGAGACCTTACACCGTTTCTCATTA
172 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA
GAAGGAGATGCTCCTGTCTCCTGGACAGAAACAAAAAAACAATCTTTTAAACAGACTGGAGAGTT
TGGGGAAAAAAGGAAGAATTCTATTCTCAATCCAATCAACTCTATACGAAAATTTTCCATTGTGC
AAAAGACTCCCTTACAAATGAATGGCATCGAAGAGGATTCTGATGAGCCTTTAGAGAGAAGGCTG
TCCTTAGTACCAGATTCTGAGCAGGGAGAGGCGATACTGCCTCGCATCAGCGTGATCAGCACTGG
CCCCACGCTTCAGGCACGAAGGAGGCAGTCTGTCCTGAACCTGATGACACACTCAGTTAACCAAG
GTCAGAACATTCACCGAAAGACAACAGCATCCACACGAAAAGTGTCACTGGCCCCTCAGGCAAAC
TTGACTGAACTGGATATATATTCAAGAAGGTTATCTCAAGAAACTGGCTTGGAAATAAGTGAAGA
AATTAACGAAGAAGACTTAAAGGAGTGCTTTTTTGATGATATGGAGAGCATACCAGCAGTGACTA
CATGGAACACATACCTTCGATATATTACTGTCCACAAGAGCTTAATTTTTGTGCTAATTTGGTGC
TTAGTAATTTTTCTGGCAGAGGTGGCTGCTTCTTTGGTTGTGCTGTGGCTCCTTGGAAACACTCC
TCTTCAAGACAAAGGGAATAGTACTCATAGTAGAAATAACAGCTATGCAGTGATTATCACCAGCA
CCAGTTCGTATTATGTGTTTTACATTTACGTGGGAGTAGCCGACACTTTGCTTGCTATGGGATTC
TTCAGAGGTCTACCACTGGTGCATACTCTAATCACAGTGTCGAAAATTTTACACCACAAAATGTT
ACATTCTGTTCTTCAAGCACCTATGTCAACCCTCAACACGTTGAAAGCAGGTGGGATTCTTAATA
GATTCTCCAAAGATATAGCAATTTTGGATGACCTTCTGCCTCTTACCATATTTGACTTCATCCAG
TTGTTATTAATTGTGATTGGAGCTATAGCAGTTGTCGCAGTTTTACAACCCTACATCTTTGTTGC
AACAGTGCCAGTGATAGTGGCTTTTATTATGTTGAGAGCATATTTCCTCCAAACCTCACAGCAAC
TCAAACAACTGGAATCTGAAGGCAGGAGTCCAATTTTCACTCATCTTGTTACAAGCTTAAAAGGA
CTATGGACACTTCGTGCCTTCGGACGGCAGCCTTACTTTGAAACTCTGTTCCACAAAGCTCTGAA
TTTACATACTGCCAACTGGTTCTTGTACCTGTCAACACTGCGCTGGTTCCAAATGAGAATAGAAA
TGATTTTTGTCATCTTCTTCATTGCTGTTACCTTCATTTCCATTTTAACAACAGGAGAAGGAGAA
GGAAGAGTTGGTATTATCCTGACTTTAGCCATGAATATCATGAGTACATTGCAGTGGGCTGTAAA
CTCCAGCATAGATGTGGATAGCTTGATGCGATCTGTGAGCCGAGTCTTTAAGTTCATTGACATGC
CAACAGAAGGTAAACCTACCAAGTCAACCAAACCATACAAGAATGGCCAACTCTCGAAAGTTATG
ATTATTGAGAATTCACACGTGAAGAAAGATGACATCTGGCCCTCAGGGGGCCAAATGACTGTCAA
AGATCTCACAGCAAAATACACAGAAGGTGGAAATGCCATATTAGAGAACATTTCCTTCTCAATAA
GTCCTGGCCAGAGGGTGGGCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCT
TTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATAAC
TTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACAT
TTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAAATATGGAAAGTTGCAGATGAG
GTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGG
CTGTGTCCTAAGCCATGGCCACAAGCAGTTGATGTGCTTGGCTAGATCTGTTCTCAGTAAGGCGA
AGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGA
ACTCTAAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCT
GGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACGATTCCATCCAGAAAC
TGCTGAACGAGAGGAGCCTCTTCCGGCAAGCCATCAGCCCCTCCGACAGGGTGAAGCTCTTTCCC
CACCGGAACTCAAGCAAGTGCAAGTCTAAGCCCCAGATTGCTGCTCTGAAAGAGGAGACAGAAGA
AGAGGTGCAAGATACAAGGCTTTAGAGAGCAGCATAAATGTTGACATGGGACATTTGCTCATGGA
ATTGGAGCTCGTGGGACAGTCACCTCATGGAATTGGAGCTCGTGGAACAGTTACCTCTGCCTCAG
AAAACAAGGATGAATTAAGTTTTTTTTTAAAAAAGAAACATTTGGTAAGGGGAATTGAGGACACT
GATATGGGTCTTGATAAATGGCTTCCTGGCAATAGTCAAATTGTGTGAAAGGTACTTCAAATCCT
TGAAGATTTACCACTTGTGTTTTGCAAGCCAGATTTTCCTGAAAACCCTTGCCATGTGCTAGTAA
TTGGAAAGGCAGCTCTAAATGTCAATCAGCCTAGTTGATCAGCTTATTGTCTAGTGAAACTCGTT
AATTTGTAGTGTTGGAGAAGAACTGAAATCATACTTCTTAGGGTTATGATTAAGTAATGATAACT
GGAAACTTCAGCGGTTTATATAAGCTTGTATTCCTTTTTCTCTCCTCTCCCCATGATGTTTAGAA
ACACAACTATATTGTTTGCTAAGCATTCCAACTATCTCATTTCCAAGCAAGTATTAGAATACCAC
AGGAACCACAAGACTGCACATCAAAATATGCCCCATTCAACATCTAGTGAGCAGTCAGGAAAGAG
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 173
AACTTCCAGATCCTGGAAATCAGGGTTAGTATTGTCCAGGTCTACCAAAAATCTCAATATTTCAG
ATAATCACAATACATCCCTTACCTGGGAAAGGGCTGTTATAATCTTTCACAGGGGACAGGATGGT
TCCCTTGATGAAGAAGTTGATATGCCTTTTCCCAACTCCAGAAAGTGACAAGCTCACAGACCTTT
GAACTAGAGTTTAGCTGGAAAAGTATGTTAGTGCAAATTGTCACAGGACAGCCCTTCTTTCCACA
GAAGCTCCAGGTAGAGGGTGTGTAAGTAGATAGGCCATGGGCACTGTGGGTAGACACACATGAAG
TCCAAGCATTTAGATGTATAGGTTGATGGTGGTATGTTTTCAGGCTAGATGTATGTACTTCATGC
TGTCTACACTAAGAGAGAATGAGAGACACACTGAAGAAGCACCAATCATGAATTAGTTTTATATG
CTTCTGTTTTATAATTTTGTGAAGCAAAATTTTTTCTCTAGGAAATATTTATTTTAATAATGTTT
CAAACATATATAACAATGCTGTATTTTAAAAGAATGATTATGAATTACATTTGTATAAAATAATT
TTTATATTTGAAATATTGACTTTTTATGGCACTAGTATTTCTATGAAATATTATGTTAAAACTGG
GACAGGGGAGAACCTAGGGTGATATTAACCAGGGGCCATGAATCACCTTTTGGTCTGGAGGGAAG
CCTTGGGGCTGATGCAGTTGTTGCCCACAGCTGTATGATTCCCAGCCAGCACAGCCTCTTAGATG
CAGTTCTGAAGAAGATGGTACCACCAGTCTGACTGTTTCCATCAAGGGTACACTGCCTTCTCAAC
TCCAAACTGACTCTTAAGAAGACTGCATTATATTTATTACTGTAAGAAAATATCACTTGTCAATA
AAATCCATACATTTGTGTGAAA
~~~~»:1t..t..~
OQ.Uélel.l~~~'X''l"''''' :'«TW('TO~!Oe«:
'!J w-..UI I
ie>eh y_ , n..rp, \'hlo6ew
•• "f
........,-c...... ,,
.
C:\V:e:~\darelrnar.IJPVNH\Oe~bcp\clu~:lo·f2J140SOO·OSS43S .C).IrJ.-45098~11· pg.du~~
""''
.
Ct.OSUM62 Score-
, .,..
P(rto•ru~ !dcn:ay
r,,to<
1-t¡o"rophllt.icCy
Ht:f" P"ro~re01y
111 11
r 4 A (; , (' ('lo\ . e <> ··,.
11
cc .A
Str~l'ld Pnopcr.~tty
Turn 9f'op.tuity
euncd ln:la
HIKitotide:
F'vrind'F'ytimtdin t
l ·<:otf« S<om
u(.. oai~~o?ll~
9yCcm-ben
Mcd1fyún~cnr~11Cn rh•d-.o d.. 1-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;i¡
~baY.. Id .n~Cy Thf~hcld F
M«<lfy ldcr:tity Thrcsheld ...
~· M nctatWn_
bJPN~ ldic:o
r- , "
Cambia los valores del modelo cromático y comprueba cómo varía
la representación gráfica de la secuencia.
~ """
,,( ~..-
Wl~-- ~
iiiiiiifllil ,...
.......~... _.....1~~.,..~...- ..
(oiO:'>IM
(I,¡.J
_,..>=<.
.._ ,..,...... Qol•"
~··
lo .... ~- '""•
Otol·l
.....,..u.,..,.s.r...- <M•Ht•l
<-""- 011•0
' -• - , .
-c.....,.. __ Ooi·U.,..._G
- ... ~ Qoi•U
."
Es posible edita r el grupo para darle un nombre descriptivo, pincha ndo, sobre
la selección del grupo, e l botón derecho del ratón. Aparecerá un menú desplegable
con las opciones descritas en la Figu ra 9.59:
-
~~~ ·
-·-
- · o..o,.. .. t - .
..... s.-01 ""*s.-· ~
la!C...p
_,., ...
, ....._ .... ~.t·-~
--·
•111 111111
"~ " • c. u ~· · • ""'" u• e e
111•11 •1
u""".,., .. <• u.:; u.u •
1
,..
8 ___.,..,"
-- ~~~- -·-·'""••lo l.
..
1 •u• 111111
. . ~. . • . • . . . • • l ( . ! . . . . . . . . . . . . . . . . . .
111
cu .. c .•. . ... . . u . • . c..
,.
__
.• . = _
·- .... .......;;a¡·
. "·,:...!l·a
~' ·•!ili¡''¡¡¡..!!u•li!ll!liii
~~
"" · "~~·~
' : · ·.... . . ·"- •.' ' "..·•
'• ( '
.."t.l!lii!P.!iilit.
.. . . ' '
"' ...
' • .. ,.. --.··•w' (.w'· .
· '. ·l!!'i!·"'
.•:lli! !( • ,~l'M'
. -
·- U
.... .. ll
•··. = !. U.~WW!JU !J. U . ..1
=..=. ..,.J' 1•
Para añadi r huecos, únicamente hay que mantener pulsado el botón Ctrl y
mover el puntero del ratón a vo luntad. Inmediatamente, el alineamiento y el consenso se
actuali zan para refleja r los cambios. Si co mparamos la Figura 9.61 co n la Figu ra 9.62,
se observan claramente los efectos de l desplazamiento de las secuencias agrupadas.
,..,. <o'-V
,..,
"' '''"'
..
....
~ "'""
......... k'!
~--·· -
-~
~·ll
~~twf'l)'c.--. (M.t
>Anonimal
CAGGCAGCCCCACACCCTCCGCCTCCTGCACCGAGAGACATGGAATAAAGCCCCTGAACCAGCCC
TGCTGTGCCGTCTGTGTGTCTTGGGGGCCCTGGGCCAAGCCCCACTTCCCGGCACTGTTGTGAGC
CCCTCCCAGCTCTCTCCATGCTCTCTGGGTGCCCACAGGTGCCAACGCCAGCCAGGCCCAGCATG
CAGTGGCTCTCCCCAAAGCGGCCATGCCTGTCGGCTGCCTGCTACCCCCACCCTGTGGCTCAGGG
TCCAGTATGGGAGCTGCGGGGGTCTCTGAGGGGCCAGGGGTGGTGGGGCCACTGAGAAATGACTT
CTTGTTCAGTAGCTCTGGACTCTTGGAGTCCCCAGAGACCTTGTTCAGGAAAGGGAATGAGAACA
TTCCAGCAATTTTCCCCCCACCTAGCCCTCCCAGGTTCTATTTTTAGATTTATTTCTGATGGAGT
CCCTGTGGAGGGAGGAGGCTGGGCTGAGGGAGGGGGTCCTGCAGGGCGGGGGGCTGGGAAGGTGG
GGAGAGGCTGCTGAGAGCCACCCGCTATCCCCAGCTCTGGGCAGCCCTGGGACAGTCACACACCC
TGGCCTCGCGGCCCAAGCTGGCAGCCGTCTGCAGCCACAGCTTATGCCAGCCCAGGTCCAGCCAG
ACACCTGAGGGACCCACTGGTGCCTTGGAGGAAGCAGGAGAGGTCAGATGGCACCATGAGCTGGG
GCAGGTGCAGGGACCGTGGCAGCACCGGG
(1 ·
~·v~~ No se recomiendan más de 5o 6 iteraciones.
p '(r Q
SimpielsBeautiful result
The results fo1YO'-'' iob are no·, ava lable at the folowill9 link·
Los resu ltados se orde nan en una tabla de secuencias putativas homó logas
de la secuencia bajo estudio encontradas en la base de datos de proteínas (ver Figura
9.69). Junto con los identificadores de las secuencias, encontramos los va lores E en
la segunda y la ú ltima interación y la figura de mérito, qu e se emplea para ordenar la
coincidencia de las coincidencias en la base de datos.
182 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA
)'~ "! J:~...~~$1~ '$$, ;t fit0 1C7t!l! i.OII <l:t.lAll'l"t f~!Z!lt t'tl\U(~II•lC• hlu: (iot!O:~ •td H!
t.o..¡;i> • i ? U
S<e-!t-e • U .1 blt: IUt) , U"~et • l~ ·lC , Y-'-t/:(01 ('~O H : 1Cl\ •Nv.: l : a ::,
l4r.o~>Hu • t tf./$46 fl$t~. Pc:<~ •t.~,.u • ! ' O/$U" t2U) , O.~.o • tW"E UUI
CCAGAAGAGCTTTTACTGTATCAATGGCGGCTTCACTCGACACCCCTCTTGAAGTTTGCGTCAAA
CAATCAATTACAACTCCTAACAAGCTCGGCGACTGCCCATTCACTCAGAGGGTTTTGCTTACGTT
GGAGGAAAAGCACCTTCCATATGACATGAAGTTTGTTGATTTAAGTAACAAGCCTGACTGGTTTT
TGAAGATAAGCCCCGAAGGTAAAGTTCCACTTATTAAGCTTGACGAGAAATGGGTTCCAGATTCA
GATGTCATCACACAGGCACTGGAGGAGAAGTTCCCTGAACCTCCGCTGACAACTCCTCCTGAGAA
GGCTTCCATTGGATCAAAGATCTTCCCGAAGTTTGTTGCTTTTCTGAAAAGCAAAGACCCCACTG
ATGGAACAGAGCAGGCTTTACTTGATGAGCTGACAGCTTTCAATGATTACCTTAAAGAAAATGGT
CCATTTATCAACGGAAATGAGGTATCTGCTGCTGATTTGTCGCTTGGACCAAAGCTATATCATTT
AGAAATATCTTTGGGGCACTATAAGAATTGGTCTATTCCAGATTCACTTTCCTACGTGAAATCAT
ACATGGAGAGTACATTCTCCAGGGAATCATTCATCAACACGCGGGCACTAAAAGAGGACGTCATT
GAAGGTTGGCGACCAAAAGTCATGGGTTAGACAAACTATATCATCTTTTGCATTTCTGAGGATTA
GATTTTTGTCACAAGGTATAGTAAGCTAGCATTTGGAAGGCTGTATGACAGTTCTTTGCCATGTA
TATTGTTATTAAAACATATACTCATCCTTGTTTGACTGAATGATAGCCTGA
>gil664750371gbiAY971874 . 11 Lycopersicon esculentum
dehydroascorbate reductase (0HAR2) mRNA , complete cds
CAGGCAACATGTCGACCGCAAAGATAACACCGTCAGCTGCTTCATTTGCGACTTCTATCAAACAC
CTTGCGGGCATTCAACTACCTCGACGCCAAAGCACCATTTTTACCTCCAATTCCACGAAGTTCAG
AGCACCCAGAAGAGGTTTTACTGTATCAATGGCGGCTTCAATCGAAACCCCTCTTGAAGTATGCG
TCAAACAATCAATTACAACTCCTAACAAGCTCGGTGACTGCCCATTCACCCAGAGGGTTTTGCTT
ACGTTGGAGGAGAAACACCTTCCATATGACATGAAGTTTGTTGACTTGAGTAACAAGCCTGACTG
GTTTTTGAAGATAAGCCCTGAAGGTAAAGTTCCTCTTATTAAGCTTGACGAGAAATGGGTGCCAG
ATTCAGATGTCATCTCACAGGCACTGGAGGAGAAGTTCCCCAAACCTCCGCTGACAACTCCTCCT
GAGAAGGCTTCCGTCGGATCAAAGATTTTCCCCAAGTTTGTTGCTTTCCTGAAAAGCAAAGACTC
CGGTGATGGAACAGAGCAGGCTTTACTTGATGAGCTGACAGCTTTCAATGATTACCTTAAAGAAA
ATGGTCCATTTATCAACGGAAATGAGGTATCTGCTGCTGATTTGTCGCTTGGACCAAAGCTATAT
CATTTAGAAATAGCTTTGGGGAACTATAAGAATTGGTCTATTCCAGATTCACTTTCCTACATGAA
ATCATACATGAAGAGTATATTCTCCAGGGAATCATTCATTCACACGCGGGCACTAAAAGAGGATG
TCATTGAGGGTTGGCGACCAAAAGTCATGGGTTAGACAAACTATATCATCTTTTGCATTTCTGAG
GATTAGGTTTTTGTCGCAAGGTATAGTAAGCTAGCATTTGGAAGGCTGTAAGACAGTTCTTTGCC
CTGTATATTGTTATTAAAACACATACTCATCCTTGTTAGACTGAATGATAGCCTGAGTTATATAT
GTAATACATACTTCCTAAGGCTTGTGCATAAAAAAAAAAAAAAAAAAAA
>gil281924261gb1AY074787 . 11 Nicotiana tabacum dehydroascorbate
reductase (OHAR) mRNA , complete cds
CGTTGCTGTCGGTTCCAAAAGAAAGACACTATATTCACCCAGAGTAGAATTCTCTAGTCCTTACC
ACACTACAAAGCGAAAAAGCTGTAGATCAATGGCTGTTGAAATCTGTGTCAAGGCTGCTGTGGGT
GCCCCTAATGTCCTCGGAGACTGTCCATTTAGCCAAAGGGCACTTCTGACATTGGAGGAAAAGAA
AGTGCCTTACAAGATGCACTTGATCAATGTTAGTGACAAGCCCAAATGGTTCTTGGAAGTGAACC
CAGAAGGAAAAGTTCCAGTGATCAAGTTTGATGAAAAATGGATCCCTGATTCTGATGTTATTGTT
GGGCTTCTTGAAGAGAAATACCCAAATCCCTCTCTCTCTAGTCCCCCTGAATTTGCTTCTGTGGG
CTCGAA.AATATTTCCTTCCTTTGTCTCATTTCGGAAGAGCAAGGATGCTAGTGACGGTACTGAGC
AGGCTCTGCTCGACGAGTTAAAGGCTTTGGAAGAGCATCTCAAGGCTCACGGACCATATGTCAAT
GGGGCGAATATTTGTTCAGTCGATTTGAGTTTGGCTCCGAAACTGTACCATCTTGAGGTGGCTCT
TGGCCATTTCAAGAAGTGGAGTGTACCTGAAAGCTTGAGTCATGTGCGTAAATACATGAAGTTGC
TCTTCGAGCGAGAGTCTTTCCAGAAAACCAAGGCTGCAAAAGAGTATGTCATTGCAGGATGGGCT
CCAAAGGTCAATCCATGAACCGATTCATAATTATAATCCCGTTGTTTCGCAGGAAGTTAGCAGTT
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 185
GAGGATACAGCATTTTGAAATATGAATGTATCTCGTAAGATCTAAAAATTGTTAAATGTTGGATC
ATGCTTGTACTGCTCTTTATGTTCTAATAAATAAGTCATGTTCTAAAAAAAAAAAAAAAAAAAAA
AA
1" Ali neamiento global de pares: lanza un alineam iento de pares entre cada
una de las secuencias y el resto. Es decir, para N secuencias, se efectuarán:
71 !
Na.!in•amitmtos =
2
(n _ 2)!
. . ........<-.... , -- e D· -
~ l · [fttt'lWII>II'I~·1
Q!J!M!~! Ctn-..IWO,.,.,..,.rJ -
Clustal con números Fom1ato Clustal con la numeración de las bases/residuos clustal num
incluida
SELEX
. .
Fom1ato de a lmea1mento SELEX Selex
Especialmente cuando el número de sec uen cias es elevado, res ulta adecuad o
habilitar la generación rápida del árbol guía, mediante el muestreo de las sec uenc ias
de entrada y su representación como vectores. Esta opción se controla con e l
parámetro mBed-like C lustering Cuide Tree. S i, además, se desea que se util ice la
misma filosofía en las sucesivas iteraciones, hay que establecer el pa rámetro mBed-
like Clustering Iteration al valor true.
188 BIOINFORMÁTICA: El AONA UNSOLO CLIC ©RA-MA
11"' Número máximo de iteraciones del árbol guía (Max G uid e Tree
Jter atio ns): una vez establecido el número de iteraciones combinadas,
este parámetro se puede cambiar para limitar el número de iteraciones
del árbol guía, dentro de los limites de las ite raciones combinadas árbol
guía/HMM.
..
~A .-.gl•-" -
0.. r•stth Sor th• pb "E,.mplo d• <lf'lih.t~ CIIA-tal Omtp" (10 cbo~tt;alo-E201t~C8!l9.09'l028-02S7.J8)982l¡..pg) c-an bt
... "'~"'·
..... ..
Job Oota.ls
-....
pogrom eli..~~Jo
'>9!~n. 12.1
gutttetruovt f<Jf"
cbmllto\.1' f* •
dco'9'1: fa'.$!
mbed. trv!J
m~!{.tttilboll.ltUii'
rl~ei:O'IS" O
g¡it etS~iO!\S ·1
h!M\:I~tioM, .1
c utflft clus;llll
Ofder~
ctype: dn~
A l pinchar en e l enlace, se abre una venta na del navegador (ver Figura 9.77)
con los resultados del anális is.
.~ ..u... •..wnt:lr~
····......:0.."11~.u.tMo.:::o.xnc:r=:·t~o.:::o.
~~··~U(I«$:~~"T~O
·-- ·-····-·-·-··--·--·--·-··-·--·~
~·u•••n•• ,.t,._JI'I.-"'·"
91 llllt'?U ,., UUUJI. ti
" ..."tU1•JO!.U01liU,1t
~~ IU.\IIN1• ...1--ItlllO,t!
~ 1:\0:U( r.U...'"'l1'1'!"'.:1
ln¡:¡ut SeQuences
sJ.~;?"talg:,~.?..O.J.~..:.~.~.Q~§.:.Q~.~1~:.~.~}.!l~.!l:1!9:.i.f.I.P.M~
Tool Ouiput
s~~?~"k?.~.~~~.,.~~~3~26;:9.2SJ~.~~J?~~.P-p.9.·.~'-:lt~t
~ .~.. • - ·-- .1
• • 0 0 • ....... 0: .. HH' < O .I. t t O t "-A. ;t, O.. ;.t:; ;t, ( .o t t •
T t : '!ti.
Sub!l'ilslon Ottals l
Phylogenet•c Tree
Tllif is • ~)gi';!xlclr-jolni';g ·t r'H ~ ~ «;rr«OOM.
1
1
~~ t!dUetnla ! t:ou: :.'"'· '' ::.~'~"·
1
<:l l l2Ut,~UI ')b1 Ut~.I II O.:lV4,
~1 1 6i.l ?$CrtLqG tl V9~1e1'4 ,~ 1 : O,OHot)
:C>.l$). 21
:~ .Of1 U,
ii 1 1 ~ UIUOYi ttri :I'I_U:ta: • . )l!t,;t«U.
~l l lti'H~f 'Jbi1\.Y0'f~~'· 11 : O.~ :~.SI;
Phylograrn
9tandlif!tl0t"': (6 OWI:>Sirdm e R.ea~
gol l4S3S8l 131f.ll...,_1 ~ 147<1.3 1 0.17$63;
tp l l ~3 1 8?08() 1 gb1 Ef! t9 533A .11 O.OUi'.t
rj l ~ 7$0)7! 9bi AY97~$7 • . 1 1 0.024!18
~ l l 4¡;3)$907 ( tllf(,..I_ I OIOI" ,) I 0,,00?>
!)ll2t10l 4 l&lgbiAY07470 7. 11 0 , 1 7lo4l
~!~'-'~ ~t~~
DlOot • -1»'1
,.. Árbol de salida: hace referencia al árbol guía que se tomará co mo base
para genera r los al inea mientos múltiples. El valor por defec to es ninguno
(none), aunque puede indica rse que se utilice uno para la primera
iteración (treel ) o para la segunda (tree2).
e ·tZ ~ >34300; os
~kA~ ~be "Tt - S\b'Mit;H(IO'I O.taok
escogiendo entre ningu na (non e), BLO SUM o PAM (se trata de una PAM 350).
También se indica si se desea que las secuencias se ordenen según el alineamiento
(align) o que se mantenga e l orden de entrada (input). Una vez establecida la
configuración, pulsando e l botón Su bmit se obtienen los resultados:
•••......ua,m~-AA\"Jiti:Ara.«tOI:TlCA.r.tcoe
-·.t..u.u:~¡¡o:w;r.VO»)Ulq.na.ur.-..a.na.. ---·
·-«.l.Ur.;~.AA!Ue~···AAt.\!4:.:AAX·~·;._·····
••c.c"ll'Ot1t:r.om::e- .u.>J.;).>M~Ct. ••• .cr.u-.••.
.
~;r~"(~·~ ~~~I(".U:l iX ...
.
o~ •:ult'~"-"r: nu~ .1' ~l:OJJO..~·~t*l.loC't·~~
o• ltl$i:U~?I1dl Ml)tttU ,3 ' ..;rttM··-··1-NJC'fA·o\···~·•·m~····
~o !: I H$1UJI:t: lk_:.!UI'C,J· '*-"t~~'r:-:-:a.:~";t"-~..13J:
9l l!l l tN;·I~I.Utl" I 'U.t J ··lt'tU·· •• •••~-<;. •• ~U.~.Uftl:·I·C::1-<;tt••••
?: l t~l)4J'!I'li>IU•~telt. \1
.. .
~·:~ -~IK·l.D('t-~
. .
10.1 GENERALIDADES
Las proteínas representa n e l 50% del peso seco de los seres vivos de la
bioesfera (ver Tabla 10.1 ). Se trata de compuestos químicos de gran peso molecular
formados por una secuencia determinada de elementos más simples denom inados
aminoácidos y que desempeñan funciones estructura les (colágeno del tejido
conjuntivo), transportadoras (hemoglobina de la sangre), nutrit ivas, inmuno lógicas,
hormonales y catalíticas. En ellas reside la información funcional de la célula.
196 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA
Agua 69
Iones inorgán icos
Metabolitos pequeños 3
Proteínas 18
ARN 1. 1
0,25
idos 3
Otros lípidos 2
Polisacáridos 2
En la natu raleza viva, 20 son los aminoácidos más comunes. Los aminoácidos
se combinan formando compuestos denominados polipéptidos mediante un iones
llamadas enlaces peptídicos. El enlace peptídico se prod uce cuando el grupo ca rboxilo
(CH 2 ) de un aminoácido reacciona con e l grupo amino de l s iguiente desprendiendo
una molécula de agua.
START
V
f IDENTIFICACIÓN DE
ESTRUCTURAS DE
RE FE RE NCIA CONOCIDAS
>
ALINEAMIENTO DE LA
SECUENCIA BAJO ESTUDIO
CON LAS REFERENCIAS
---·---·----------·--;,
CONSTRUCCIÓN DE UN
MODELO DE LA SECUENCIA
BAJO ESTUDIO
AJUSTE
CORRECTO
y
( END )
11 .1 ANÁLISIS BLAST
• IIC,.et.A$1*"""
...A$Tfl~~ottiml~tory~~ICOI -.q_... U.::..
-
.......
....."""" ....
."""" º"'
• 8&0 .""""'
.""""'
o Hoo.:y b:::
·- Z't<HCtl 1'1:.. ~.,..
kA!.""..,...,._ - M...._..
..
.... ...w-n!O'IW
·-
~,....-
...
• C.. o c. ..... ·~
~ CI...tba
f~ :II: J.., ;j;1t
1! »40 IL61111QCM
lrffOUP
"""" BlAST
_ -
-_... __
.. .....
J
,.,._~..,_,
,...IIIIIU'.......
I -·""'"-.
_
_,_...,.,.,.,.,.,_ '11;0
- -~-(
-
:::: -~~~~~~~~;;;;~~ ...
1"" '"' -
~
..
..
Progrtm 5e~l(ft
A.lforil'- • d~~~~ ,,.· ·~-EII.J.SI)
PS!a.AST~~l<tto'lllodev..m')
Pinchando en e l botón BLAST, obtenemos los resultados del aná lisis, que se
dividen en cuatro secciones:
11"' Refe rencias: lista los nombres de las secuencias si mila res a la secuencia
bajo estudio.
11"' Ali neamientos entre la secuenc ta bajo estudio y todas las referencias
encontradas.
e !:l ·r~
11"' Relevancia estadísti ca (bit score) del al ineamiento. Cuanto mayor sea
este valor, más similares serán las secuencias.
,1 ~ NCal&.o~t>tii.OPI')Sl.'t~ ...
. . ._ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __
'" "'
'" ..... ...
1CO'IO
100%
!: ...l'li!ll'
,,. ""J!"Y!<<Y-1-1
ll'J Oit~t~I!U.nta.Hf~Jn~
..,. '"
•o~J
,_.., ""
100"' )t-1;4
,,.. zz:IE;•m<'m-:U
~ PII'Kir:IJ'I'> ~·.A~*"'". ... .....~ -~
'" 100~ .._...;!!;!~· 1
~'~ :..~~~
2..
""
)t.t))'"' ,,..11'~)U
~•v.oor-' '
"'
\Oit;l:.;l(kt_.·;__c~ LOC 1'. .'<!~J2$Tt-lot. :111Zt t:u.tl
..."" "'
'"'
..
1- lll
••ll*
~ ~1:23J
-
Jí ' etcl..~~~t.l.0.0:1rotJW:Sif~l!)t1J;•C~II"\'!U"1,.C"
"~ ~l..l
lltllo"""* • ~
~IQ!Yl<l~ll~ Gtov!ll
...._.a~'~~
·ttu~~JI'«.U
W;bo
'"...,..m..._, .. ...,....,
... .
Adot.,.. ltdo..-1;.,
·--
C ~·t • IIIK«>~I·; Oll't -NI'
"<- ~·····" ~~-..o~ñ•ad,-..
~IHI~I lW) 0.·16-1 - .__,t>K
7nll'lo(l-) - -
170/)?Q(IOOII\} ~
Or
(nvo;O'IIo) . . . _.... (Wi~f. . ~-
0:.:'1 ! XCCriD!.U{VJ:'A~.J,.:Ir-!~::L
lCU..-n::ltu:O
~.Q:t:n:l..
~•":'"~~
-.".":'",·,~~~u::;.:;~r:-,....:~.~=
c:- -~-
"tltl Y-o:"ttt• "'O"e4-W-"
llb)n 1 .u.r.aiN,t;V/l'A~lAA:~ttn.:::uu·.or~~ •O tX%.(~=;,)3;. " " ' - - lOe-~.,
~:y •1 otl'U".J:IIXA:fi)I>'~Jll'l":t~n:t#.':!liiiCD:It~n'<o~Jo. \JO ~-.. ~
~'" ., &Hi::H~~~~~~.iiif.:i~~:t.-1 ta
~:T ::~ lt"~!"'.'l.Je~\...!::-r:.=-:~I!'A~I".':~~n.,or.r.u:l«,"'! ~ 10
;.n·r..:-.':AO.U.:.'"Ol :~r:v.- ;suy:r;.~r,-: ~r~:ll:',.,,
..O)n Ul ...
•u:..;:vlJrt';;U.:.W;~¡:-rur:;nn~.:: ~M~riQ"~lCII('I'lJ loO
~,., le~ ¡¡¡j¡"I">Ttr..n.n!lln:rr.,..1.1.T.U..r·~'-:.uar.r.~l1'
lel'"o'n'R.!¡fUWa!P!;>.1)..."1:'>.U'.~I'.~G.""Y
::•
~~" lt1 i'Wr•T\7..UN."lri'tJó'f7>V·1?J..I".tooS7...~~-y 2N
1
Si, por ejemplo, se hub iera escogido otra secuenc ia con un grado de similitud
mucho más bajo, e l alineamiento habría tenido el aspecto de la Figura 11.9.
Query
Sbjce
..
195 bits(495) 2e-58
6
I +L+L A
compos~ional matrix adjust. 103/213(48%) 132/213(6 1%) 3/213(1%)
~PVLIRATOADPLQDFCV1DLDSKVTVPGHACK- PASAAG,t FLfSSKIATG
A O PLQDFCVA O KV V»G CK P
ISLLILALATATTFAYDPSPLQDFCVAlliDP~GKrCKDPKQVTADDFLFKGFRYPG
D+FLF G
?2
65
Query ?3 GDV1WlPNG~WTEWJAEWPG\11I'LGVSlo'JlRVOF"..PGGTNPPHVHPRUE:VttiVLRGEL 132
AliP GS VI V +t GiNTLG+SH: R DF"...PGG NPPfl HPR TE+ tY G L
Sbjct 66 li-- :JU1PLGSKVT PAfVDQfAGUITLG l Sl'.AIU OnPGGLNPPBI BPRGIE 1 LVVIEGTL 12 3
Que:y 133 LVG: IGlLDIGNR'iYS?CVVRAGEl f"VI PR:iLMfi FQ:NVGKIEAlMWSfliSQNPG IVfVP 19 2
LVG + + N +++i<V+ Gi 'fV P GL+f.:Q N+GKI A + +SQ!i?G++ +
Sl>]Ct 121 LVGiV"''SNQUiNTfiT?M.I:<GDV:vrPIGLIF.:Ql.NIGKIPAIAfAALSSQNPGLIIIA 1e3
Query 193 LILTGSNPPIP'IP\t"'i,.V:QJ.RVDJ.·GVVC:LLKSKf 225
Sb) CC ,., +fGS PPI V"'i. i<A +VD W+ i.+++f
~iA.V!'GS~?!SAGVLTiG:QVD~l<WDY!.QAQF 216
11 .2 BÚSQUEDA DE DOMINIOSFUNCIONALES
Una proteína es una unidad muy compleja con gran cantidad de funciones .
Para simplificar el análisis de estas funciones, se definen los llamados domin ios
funcio nales encargados, cada uno de ellos, de una fu nción molecular concreta.
· ··--· · 1'1_.....,..._~
~~lO.,l..'l"ld I'IV<o.~
- !l.KI\I';.fi~Y<hl.o-
..
~~~t"'YGfi(.Vo()l'>fVVUJ.QQN"Ylft.:.ll)<O"\CXlf"(Y~~~~FlfS
1.,,:;, CCOI.t~lOI.'A-"Vo1'CO,.,S!\.C~IrPOO~E'.ICI'tt.AC
tl~lCIG!~Ir~QtloNQ;:It"l~ 11$<)1~\'k,.rtf
f'IIIPTPVI.~~..ll($olfl00'tj
t.OA.OIHC.••
voo moy book.mt~rl< t111s paoe to vtew your resvlls bner lf you wtSII. ReSult!O are stOted r01 7 d&Y'$.
,.- Domi nio (Domain) : los domi nios pueden existir en una amp lia variedad
de contextos biológicos y se caracterizan por una estructura, función o
fragmento de secuencia.
,.- Repetic ión ( Repeat): una coincidencia con una entrada de este tipo ind ica
que la secuencia bajo estudio presenta fragmentos que se repiten en la
proteína con la que coincide.
,.. S itio (Site): so n secuencias cortas que contienen una o más regiones
conservadas.
210 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA
hWI - - ·
Submtted
.........
.JI U ~...,..,
"lf 8 ~~oc-
CI ~~oFu..
~ O Sit•
1
·-·--
._ .. ===
- =============== ... xc.o. oco.a
• ~UOSI Rl'lfe·'"'=c.- ~
·- """'
~
======"'=========""== .,..=•u: •--<-•
...~c.o ~ -:o
.....
-
IIJ S'ROI~l<O
,~-
-
- ... ...,.." -.., '
:=~===============•'"')fii,.CVI~
. ..........oo.: ..-..
.
..................... "' • -
~. ,.
• ·~·11110
"'
.HI'Ile>' T... t
.. )
• · ~""'11• "
.,_o-.......
'
1\t;:lo..o;>Jtr F\II"Cbon
lf(()"'OI»>'.•~ - <>" t>-
lt~~'Z.l!-- .......
-·-
Figura 11.13. Predicción de las funciones de la proteina
©RA-MA Capítulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 211
-- ..
--~ ~
II Fcmlty
Gem1rl <IPFID I929J ~~ .....,.
,....,.. n_.......-o_
l .:(>!-:.:<o: ~, '"~ '~ "'"""'-'<~~
., l
..............
• •••11)1"1$
' N.OOm fe.'!UU!I)
A .,.o>a '""""" or lvxb:n "M tloeoen OJ"'QQVeteo.l kf ~ ord ~n<lltt ~t..-. , 101nt ..::t •
o.<d.ot= ~= !• tC:l.2.3.-.)oc -:oo :W<~to.oodc -......- (# EC'.~.IS. : l ), """"o!Mt~ .,....,. to ~
~'!V111f I)I'Ott"' O>' ttUIIC«t fOI' *Roii'WJ tf I""'tc.r'IS•
_,- •. 1
,.. PFAM-A, que son entradas curadas de a lta cal idad y que cubren un
amp lio rango de la base de datos de secuencias.
•
()ulOe U JeiiS YOU CAH rutO o ..u, IH fof A.M IH \IAIUOUS WAY!L.
SIQ!IIf!f!'f VAftOI Mil',.,_ yov ~~..., i..qu.'IC• f« Of0111 -tu-
YU,W A""'""' I'AJIII. IlY V- p ( - ,......, M>I!Ot;I,!I(Joll arld ~U
_;..:•.,1•·-·
M--
T ... 1< ~ 1>19" """"'-' of p<OI .... t-_ -"~-·"".., .,.....,.... ~·
.,....._[;, .to0 hilld(!n M<N'lov _,..-ej.. (HMM:1o) MO(c...,
~III(;W IIICJ
V.LW A
VI(W A (Vr.lf
vrrw .. M:(IVrtt<7
on-..cn..._
'"ª'§''"'~""~
~ .
---
___..~-.
.............
--~~
·- - -
, §~~·~'"~""§.......
- ....---- § ., .,. ........
..,.........,
...
l'f-QMI<H
.í'fw<MIO~AIIoOtt .
,•....- -.,..,.-,,.._...,.,-& - - · · • - - • · -
--.-~··-"'"-""' .._-~
,_
h(.t ,..._.........,. Klt "'• -~!NI ... ~·-·-" ... uo; • ..,~AI)oo t~ooo:ow.-c-
TMt~ WCkutt U ll'lt f~ (lo(JOO.....IIQ n.w.tt ~-Eel), ).ot( 1'<00 00<0' O&<ht
~ ....... co.--~- Oo ,........., .... ~·" .,.,. _ . , . ,...;~.,w,.,.l'f_..,.¡
.,.......{.. .....,. * - ~ ~ Mllf¡t'll( t .•)
... .... .. .
Si queremos inclu ir las famil ias PFAM-B en la búsqueda, hay que pinchar
en el enlace K eywor d s search y se abri rá la siguiente pantalla (ver Figu ra 11.1 8) :
.... • • .. . - "
.•
e O··- p
rrQNr 1 sr.~o•o• 1 ••owsr 1 111• 1 " ' ' " 1 At Out Pfam
.......,_
Search Pfam ..,_ .1 - <:: -~
• • • ~·
• Sequence searc.h
:»111~1GGl"o'::lU~t.:'o'~~~,..,_n::vfl
V'...iCilllt,-~: laT~...,.,._Y'I'SirO\w.cr.TV:f-l":~ntM~
VJYt:.~fl! l'1f'Y¡;~'I~'t
Jump to.• . -"
,...__ m
--
----·-14>-.
s.q~ - d t
__ .____
" ""'Uo
!M ...... _ ••"'t<<''••--••
. . . . _ .,_._-..... . .... ___ ..._,___ . ___ _
- : W N W . M .. ON.,_ _ _ _ , _ _ _... . . . _ ,. . . . . .,..._(IOat:O-G'O- ....
_____
........... 'P......_ .......... ... ..,_
,..,, ___
_...,_,.lloo ...
_____ ~
Jf_ .., _ ,... -
..._...- ,... ... .,. ...
.... ......... - -........
~
'II'>J...._I>'I.,_ A-O(lo"C"'l"' · -
.. .,., _ , _ _ .. _ _ _loof--...-- ~
..
~·-·· · - ~""'----
. . . ____ _ __ ..__
t'o~
-·"'-----·
.......... ""'.--.. . . . ....._________
....,._...., .._.......
.... ~ . . ""-. . ------
~-·-'"""-...""'"'..,._x•
~·~--'"'-•-...,..,.---•l>-• -~·-~to~~-••;oo...,.floloJ(I<.<f-.,_"1~ . -.,..,,.._.,.__..,;..,.
.. --_..,--......,.,,_,_d....,..<_ti>•W..OO""'""""-
... ....._
_.. _
~~ _1>"~- l'le:K"i~~
_. _____ _
.~
_
""""' ..,.., u.,..c.-_ ~ _
, -"'~-(
.,..,_ .. u-C>O••· -...,¡t;--.
............. ...__ .... ..........
.._.. ..
-·-
- •raoo _-...-..- -. .- - - - - · - -......
- · ·...· _,.~,.. · ---~ ..... ..__ . , . , _ ,_ _.,._
- U'~ . . . . ._ . ,_ _ ~ ~ -.~ ..._ ..... .............. _ ... . . . . . . . . "" . . ._ _..,......, . - _ . , . . , . , _
.._~,
-
-0" _., _ _ ............. -
.....,, _ _ . . . _
...
..., _.,._..............,......_.... _.....-
lilll'!ll't _ _ _ .,..._. _ _ ._,....
"'""'
SIQ~ ........... ..... ~
v.-. .. ,.'1 .. ..,._...
.....
o....
--
-.. .....h_,.
.......
~ ~
.,.,......_ ...... _, ...
• .... - .... ·- .. ·-.u -
u.. 1
..... 1 • ..... ....,......
,¡-
-
t«e..l.
........
oJI
................ _......_,.. ........" ,.. ... . ......
..... ,..._....
.......... ,,_ ......... -.............
~
•• •••···· .. ..•...........
••-.t •......t ,.,....... ~
,.. "01 .... ,..
t . . .. . . .
Una de las posibi lidades que ofrece PFAM es co nsultar directamente las
características de los dominios funcionales obtenidos en e l análisis. Si pinchamos en
e l enlace de la columna Familiy, PFAM mostra rá en el navegador las anotac iones
dispo ni bles sob re el dominio fu nciona l en cuestión (ver Figura 11.20).
... ~- · ·
__ ··-
- • .... . -
-·-
.. -tt 6 . . . . . .. . .
.: . - --"·--.. . . . . . . ., • "
_
F~mily: Cupl n_ l i PF00190)
~
-- '
.. --
-----·- .. __..._.__..........._..____
__ ·~-
..._,.
. -·. . . - . . .--
_-~--·- · ·--··!too
---
-·----
_;;~-
. -......... ..-
Cooo!n ~MIIIy ~ili
_, ___~;;·;· -
____ . __...
11 1 1! . ps
.. . .
·-·---..--·------
.....----- ---·~·- ·
,. ......
= • .-_
_, ~
- ll«ot-• 1(••=·1)
._...... ----Oh-·---.
_,.._,.
·-~ ~-'-
_..._____
____ .,. •·lll-otf)loi;l•
,.. . . .
..-__. .
~ ..__. .,.¡.,~'....
__
..
._.,"'·-~-·----·
_ _ IUOO"...._,!_,,.._._,.
-----------··
• l' ._.lO_ot
""--
- -- ----·-- .. ....---~........
..
.......... ...... .... ---
----·
,-· ~
.,,.
........ ,
............
·~
---~- :..t
Según el dogma central de la B iología Molecu lar, la copia orig inal del
mensaje que porta la proteína se encuentra en e l ADN y se transcribe en el ARNm
pa ra ser transportado y, posteriormente, traducido con el fin de sintetizar la proteína.
A pa rtir de ese momento, ocurren ciertos procesos postraduccionales previos a la
utilización de la proteína por parte de la cél ula, ya que debe ser transportada desde
los riboso mas (donde se sintetiza) hasta e l desti no final.
Afortunada mente, es posible predeci r la ubicación fi nal de una proteína con
la uti lización de herramientas informáticas. Una de estas herramientas es PSORT
(http://psort.hgcjpl).
En esta práctica predeciremos la ubicación su bcelular de la hemoglobina
hum ana subu nidad gamma- !, cuyo accession en Uni Prot es P69891 y cuya secuencia
de aminoác idos es la de la Figu ra 11.21.
PSORT Il Pt·ediction
... \\'a.flliDI . u
,.,...lr•ll•""'f•Pfflt6St._•• ( &bnt 1
Input S equence
• ..._,u••
o---•- ~.PDB l tuo..a.L
~ PDB ~
tlOT U,.- OA TJ. 'ANl M O: l~ J.-O l. 7014« S
~rt,a to (lfolook"" M.xn.JoniOiotuiM Structun•'
All lnfon11$ioa
PM JOf mcturc 1 0139 1 ~ PQIIStMI*' ,.; 0 0 al
_,.,_.__
; POli 101 t lldoo
~ .1-.0c-- ~~
---
...............
'-""'t>"F'l''"-~ ~~
~-·· "'""' ,._.. ~
$~ ·~ l
---
lOC:to·-·~
~·-
,....,.,;ow__
..--
. . _ p J• . • ,.,_,..~
O<~~.....
-$tQJtt'U
··
St.-d'> Tool
>OC IC$~ 10SJ.C~A(Irn»1. 1 1 0..~oo>441M lCOot<UftOr. ~t..ot~ [OI'!l~ ...,_,
(l. . . . . . (<Jti<¡rr"70UU)o):
~...t~t:W:!=::z.~YI'M:;ti.\C'-"~SWJGGW"'~
....... .
J
...•
....~.
'"'tiMe 'A<0 .!!L.!.
o.-...... ,'4 C...V~ty
c.-... c-v~t ~
-~
<.• • .,•• J
"'""'"'"'.......
- l'>...o«.c k.tv....
~q.l..nt<>
lOOtiQC:, o,wr
(~)
Stn~tnr•td
70 POft
EnlitiQs
~~;:>! 1\ 1 ._-.,y YIYYI.U..\,1\lN"VI.I OV.IVNJf't.\,lVI'-I,..V""-"-.V~V OVtll'l,.>f....\,.1\t'~l. 1 U'-~:>1\._.. 1\A1VV .._'t'O\,>
SNVTELOVJ',E\VPGVNTL.GVSIMit\'OFN>GGn.t~~I-M-IPAATE\'GM.RC~l.lVGJ!GTLOTGNR'WSK\1'\o'MGETM.,RGl. " (unique
.,..:Qf;NVGKTOTHWSt:N~PGIVfVPt.TLrGSNPPlPl PVL'IíK.lLRVO.lGwa.tK9iFTGGY - l:haln) )
l
A.tkl StulrW CrlhUid 0
.. e
>-;Ul.?f~ I Q UU U·J.ItM U".l OíiW,;.!'t ~ti r)l('.'>;l1 :'J:"A:1', '1. t...~I!U ¡Q;_yu, t.U':\'4 (;~:::, C":l.l::·JU·CXI'.'~• l
1 I'WI'DO """" ~~t~umt:.~o:o.-..n-.'UU>"
.J.;..~~.u ~=t«!~~.,.:u:-r.~•tn.-:=:J.~
lof»,C._A(_<o; "·"tt~..s::r»'.r.u·."n#)".~tl'.~:ll~.nv.:t'.";)t":"...l:~:.:.~-,1:.r.:...""!QI)'r'fa"."·~·m·t:r)'
a~~--
,..,..~,.....,•-c· .-r.~ ,..or:u......
.... -."t"""';ltM:\'"...~:.r-..-.., .....................
-:o.~·ta..:.n>'r.?C'f
C)..c<)'llto..h(l?i E~~V•I.J• • 10.0, s.q.,'"""' 1~1 • 0 141> S.._..dl Tool • bl..t, ...,.~ Lo• Ctnop~J!KV-,fl)
·-
C)o..oj~I'.-..U)
I'Oto<>• ........l+ l ! -
t.<•~~·~t;~ ~~,..
~loC<oiOt>l....
.....w .. ,AQ
o-ot>t-t:.(l • ..oc&U'!t .utQ.Ke (41
c.
• k:~~lNin 1.5Á(l)
J
X ·t i'V ll.tiOkilll<*
• bci'Oit'.:OOO(.t
c-a~ • ~~"'"".. U't ·' '-' l.o.«.m
2.0 2.~.«. '))
•'~* .~oo,c.: .
.,_,
:.- t'-'t • Ftl~sect.l$ ~ Ul
• <;t.~Otl\'l'«f r"'"""',cto:uc: O • .!-' ).(1/.. .!)
200 ) 2010(12}
• ~0!0-todlt(ll
0"...... . !J-1,. · 1.0~1'1\8tCÁ\l) • f'IICfo:~,..•.
11eoo fl'-.. r,.,. t~;
• FtutlUb.uti~Ul
• ~~!!l).PCC:Etl:'l(ll • moce~.e1: ..
• ~""'~ 17\01~ O$H- (l'
• «n« a~
.*
• !lOO 500(•d
•
1~(1~
m<:o'e~fw
¡fl)
~
>o.ttWII: (:t(W);))l'fltt Slltu:tbol 7! 1036-1~0
.....
Qooooovt""' 'toQ
""""~
~
e~.,.,
fiiiCIMft MSIIOKt:
Go<Twl"' a~ pooorolO<Joo> ~Oit.JIM., o»o»~,.ct'l · cr- ~ ~; ~;"' ....ol,-<111'1
h 4(tenM ..,.....t CIODt ~ .Jblotc .SCf fW n(ll~ fllt Rructutt, O<=Utw.n«< a'l 1.6 Art~.
o·-··••·
.,,..,.n~to'~'""
_......,._. bol~~-.camot'IOO'I<>rc Aodcod n1o a~- f;a.. .
[...,..... *'"'• ~~~ ,_....~r<KU 1
__
'~"<'--=(~ o)w. ...............
""'*
~ ·~ 1 ......_p. Wtl(llot.: al9'l2C 0 ~ .. ,~~u~ bv IIUI::hoos
q.'(ly_
,....,.,.,_,..,..u. ){'4011MfXMOr~~ (-"')(t)
n...'l'!,..
;; .w«lll001> TY!M': l omotb: ,.,
• ,
~
1.)_'\A ~ ~
-
~·o.~ -~~~""
-
·~
lliC 100'1"1'0~
lblVlUCI~-
1 -~ HIM
_ 11l
f-
LoniMod~
UI:I:VOo\1 ) :
1
'"' He!JIOd:: J:.fi.A.t O!ftAACTIOI'I
··-----·--- .
()»,.~u.:
.S. ..·uct-~
'""
._..*1-'l: ill ..,.
---
L lt•V•"-: O lOO(...oA)
t:-r •'ri
1,11111 ~:
L_~
""
~
»*0))0 o • oo.oo
tJ e 9)J9 6 • 9000
<• l07.H '1' . l lO.OO
..._,
--·
••
...
-
(lrtflllolt o-.irt - - - - - ,
• SCoP CI&Uik-ft vl.1S; 1 .,.._.. • flot.o ,._ -l$1
·~·- ··
1FI2 a.!c.-u,-
_
--,_.
$tl\¡(1~· Otulls. o
.. _....._
.......,..,..........
-
S=noou-o ~..~..,..., 1
__
~·-(11)
~--m
---
... _.
$~ «)
--
- ...-o
-·
-·~
-~~
....... 11
~-·....,_
~
............
.....
____
.. o-o- .........
.....
~-
_.,,_.,"... .....
~··-··· -
~ ---
_
.,,._
-
-·-·-·-·.... _
.........
.... ....
La segu nda pestaña de los resultados de la búsqueda son las citas académicas
(ver Figura 11.32), donde obtenemos una lista de refe rencias que tratan sob re el
res ultado encontrado.
.. e
........ ··--· "'bi
_-
,,..__
~-~· - ,.¡.:.
.............
..-~"'to.(o
... ih
t~-·"·.......
__
..,--
• ....o.
.........
....,..
--··')
...- ........
~14-- .
~'"
...
'""
Qooft'l'
__ ·...
~~ ·~1111~
-l&o>Mior.
-- -
>OII•,.,W' 1
>llllnl'l'!~-~~!U.~
.--
~
• .c.-..oo .t.-."'-""'"~~
•:M.tl t ~llr:ii!NCI. IV'llt.TM.
.....:·~~~....~~tn.ffii":.U~
..
UIMNJ~ ~~
:r=:..~r.,...,.......r.:,....,.,..,.,.- u,....,,........,,.,...,.,,..,....,_....~....,,
_...
..,.,,,,&1\Lk_,
.....
......;.,'il •'-'~ ~ ..
~""
....~."4
~
""'-
00
-
(U"f_,...VO
-~
~·~
r..-~ , ...,.
........ ... ~
lle4ao~·uMA.,~~T~ """"""'C..;.,.a~to:.,. ~-•C..t:.,..a J.., Illat>l,.MII.-t .,. ~t:..,"--•N
----··-
... o..---.-
· -·""'-*"
>{ . . . . , _
•>~-=- ......
M$..-.c OH"'I_.,to;>,,.
..... . , ¡ f -
-.....__ .. ..... t. ~11'1 S,.K,,c:;..... ,.,.-~0 '- " ' f J..,I\Ofh.wt Kl'l. Z~!OQ "(_,:.
~~ , "V"C ,._ e""" ~w n. ~u •r toa) ·'t
C•'"'~•• •ll&
"---~
"""""' ,_.. _ .,. t~ uo ~~ ~"
-
~ X ,_, 'WWOW t«b.ofg.lpc!b,>t~~,;,•Kult..tk> 'ut>!C4h<'•w t..g.¡,·>d.O.Qt'od 01S(!J...:l1
S.'tt~\·~·-~
1.1-.io,..........,.v •co oov Thlt'- _.... ~ IOVI!CIIn 011t Of - . Of tl!t
lf(loc.lo: 111 tt-c ~
r............ ~.........,"'
~l roo(l..,h!S t.. ~~~ Hlts r-.
~ otJoi:ll~·iu
oo on ~~~'~~a~ to tlo'~ótYol' OI!Nt ~
1 ~Da H....
<::10< Of'l ~ 1;) tJO t,f'IO-N lO\I((Vft$ ~' ~ ~.
I.<.J"NoC<.I'"<-
•·~..
Il.-• • -~
lt'I"'.::IU>Ic'l-~0:
~~li.oo..ro(U)
qo..., , ,.¡,,., (l)
"'-
~,JI_
~:.u JON
1\... . . . .,~r--
~·~dO'~O<.O' N(_~ l O: ACf ,IP~ ~11\fd>or.... Cottl.olnlio9 M:T {1IHIC:, 1-"'M, t.M;N,,,)
o..,.o.,..Q,)Io. r~ c,11,o,
wtt$<• fAO
~·-....q
••
c-..,VJ
_ft_l_. . . .
·~~
c.-
t>e..-~:..·1::
~
t ()¡
CA.I.O\.N)QU
CA 7$$9 $1""""'~ (011~ U. (J~O. 19(.0, IAO.) )
·- <>
j M LltMI.So;;ic · ~ x l...
.•...__ _ _ _ _ _ _ _ _ _ _ __
+"ll-·"'"--·
W:M[Sullll ~
·-
u-8..f01)4
l. ...., _ _ Sot_
: ~.
'
To submi1 .. query, cfick on one of the I09Q$ below or Hlect "Submit A Job'" from
l:he menu at the left.
VEQLKREISTMKLIKHPNVVEIIEVMASKTKIYIVLELVNGGELFDKIAQQGRLKEDEAR
RYFQQLINAVDYCHSRGVYHRDLKPENLILDANGVLKVSDFGLSAFSRQVREDGLLHTAC
GTPNYVAPEVLSDKGYDGAAADVWSCGVILFVLMAGYLPFDEPNLMTLYKRVRICKAEFS
CPPWFSQGAKRVIKRILEPNPITRISIAELLEDEWFKKGYKPPSFDQDDEDITIDDVDAA
FSNSKECLVTEKKEKPVSMNAFELISSSSEFSLENLFEKQAQLVKKETRFTSQRSASEIM
SKMEETAKPLGFNVRKDNYKIKMKGDKSGRKGQLSVATEVFEVAPSLHVVELRKTGGDTL
EFHKFYKNFSSGLKDVVWNTDAAAEEQKQ
>Atlg01140 . 3_SnRK3 . 12 SNFl-related Protein Kinase , subfamily 3
MSGSRRKATPASRTRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIKILDREKVFRHKM
VEQLKREISTMKLIKHPNVVEIIEVMASKTKIYIVLELVNGGELFDKIAQQGRLKEDEAR
RYFQQLINAVDYCHSRGVYHRDLKPENLILDANGVLKVSDFGLSAFSRQVREDGLLHTAC
GTPNYVAPEVLSDKGYDGAAADVWSCGVILFVLMAGYLPFDEPNLMTLYKRICKAEFSCP
PWFSQGAKRVIKRILEPNPITRISIAELLEDEWFKKGYKPPSFDQDDEDITIDDVDAAFS
NSKECLVTEKKEKPVSMNAFELISSSSEFSLENLFEKQAQLVKKETRFTSQRSASEIMSK
MEETAKPLGFNVRKDNYKIKMKGDKSGRKGQLSVATEVFEVAPSLHVVELRKTGGDTLEF
HKVCDSFYKNFSSGLKDVVWNTDAAAEEQKQ
>Atlg01450 . 1_ 2 - 1 - 1 putative protein kinase
MADFLLKHLGDGNESPKLFPSSLLDNTKDYQVKKRLGNGSQYKEITWLGESFALRHFFGD
IDALLPQITPLLSLSHPNIVYYLCGFTDEEKKECFLVMELMRKTLGMHIKEVCGPRKKNT
LSLPVAVDLMLQIALGMEYLHSKRIYHGELNPSNILVKPRSNQSGDGYLLGKIFGFGLNS
VKGFSSKSASLTSQNENFPFIWYSPEVLEEQEQSGTAGSLKYSDKSDVYSFGMVSFELLT
GKVPFEDSHLQGDKMSRNIRAGERPLFPFNSPKFITNLTKRCWHADPNQRPTFSSISRIL
RYIKRFLALNPECYSSSQQOPSIAPTVDYCEIETKLLQKLSWESTELTKVSQVPFQMFAY
RVVERAKTCEKDNLREPSESGSEWASCSEDEGGAGSDEQLSYAKERRLSCSSNDVGMSKK
QVSNLLKRASSLKPIQKPGEIIISQYIYIYIGSLTNMNLVTCTNFFVLCH
>Atlg01540 . 1_1-6-3 Putative protein kinase
MSVYDAAFLNTELSKPTSIFGLRLWVVIGILLGSLIVIALFLLSLCLTSRRKNRKPRADF
ASAAIATPPISKEIKEIVPAQNQSVPAEIQVDIGKIEHRVVFSDRVSSGESRGTASASET
ASYSGSGNCGPEVSHLGWGRWYTLRELEAATNGLCEENVIGEGGYGIVYRGILTDGTKVA
VKNLLNNRGQAEKEFKVEVEVIGRVRHKNLVRLLGYCVEGAYRMLVYDFVDNGNLEQWIH
GDVGDVSPLTWDIRMNIILGMAKGLAYLHEGLEPKVVHRDIKSSNILLDRQWNAKVSDFG
LAKLLGSESSYVTTRVMGTFGYVAPEYACTGMLNEKSDIYSFGILIMEIITGRNPVDYSR
PQGEVFDKHIQSSLCFCKWSYYVSWL
>Atlg01540 . 2_ Putative protein kinase
MSVYDAAFLNTELSKPTSIFGLRLWVVIGILLGSLIVIALFLLSLCLTSRRKNRKPRADF
ASAAIATPPISKEIKEIVPAQNQSVPAEIQVDIGKIEHRVVFSDRVSSGESRGTASASET
ASYSGSGNCGPEVSHLGWGRWYTLRELEAATNGLCEENVIGEGGYGIVYRGILTDGTKVA
VKNLLNNRGQAEKEFKVEVEVIGRVRHKNLVRLLGYCVEGAYRMLVYOFVDNGNLEQWIH
GDVGDVSPLTWDIRMNIILGMAKGLAYLHEGLEPKVVHRDIKSSNILLDRQWNAKVSDFG
LAKLLGSESSYVTTRVMGTFGYVAPEYACTGMLNEKSDIYSFGILIMEIITGRNPVDYSR
PQGETNLVDWLKSMVGNRRSEEVVDPKIPEPPSSKALKRVLLVALRCVDPDANKRPKMGH
IIHMLEAEDLLYRDERRTTRDHGSRERQETAVVAAGSESGESGSRHHQQKQR
>Atlg01560 . 1_4-5-l_MPK11 MAP kinase 11
MSIEKPFFGDDSNRGVSINGGRYVQYNVYGNLFEVSKKYVPPLRPIGRGASGIVCAAWNS
ETGEEVAIKKIGNAFGNIIDAKRTLREIKLLKHMDHDNVIAIIDIIRPPQPDNFNDVHIV
224 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA
YELMDTDLHHIIRSNQPLTDDHSRfFLYQLLRGLKYVHSANVLHRDLKPSNLLLNANCDL
KIGDfGLARTKSETDfMTEYVVTRWYRAPELLLNCSEYTAAIDIWSVGCILGEIMTREPL
fPGRDYVQQLRLITEVNfSLfHLTILFRfNLKKEH
>Atlg01740 . 1_1-16-1 putative protein kinase
MGGQSSKIGTCCSHKTTALEAPDVENKENGEVNGVHSFREYSLEQLKIATSCfALENVVS
EHGETAPNVVYQGKLENHMKIAIKRFSGTAWPDPRQFLEEARLVGQLRSKRMANLLGYCC
EGGERLLVAEFMPNETLAKHLfHWDTEPMKWAMRLRVALYISEALEYCSNNGHTLYHDLN
AYRVLFDEECNPRLSTfGLMKNSRDGKSYSTNLAFTPPEYLRTGRITAESVIYSFGTLLL
DLLTGKHIPPSHALDLIRDRNLQTLTDSCLEGQFSDSDGTELVRLTSCCLQYEARERPNI
KSLVTALISLQKDTEVLSHVLMGLPQSGTFASPPSPfAEACSGKDLTSMVEILEKIGYKD
DEDLSFMWTEQMQEAINSKKKGDIAFRRKDFSEAIEFYTQFLDLGMISATVLVRRSQSYL
MSNMAKEALDDAMKAQGISPVWYVALYLQSAALSVLGMEKESQIALTEGSILEARKISAS
TQN
>Atlg02970 . 1_4-3-1 putative protein kinase
MFEKNGRTLLAKRKTQGTIKTRASKKIRKMEGTLERHSLLQfGQLSKISFENRPSSNVAS
SAFQGLLDSDSSELRNQLGSADSDANCGEKDFILSQDFFCTPDYITPDNQNLMSGLDISK
DHSPCPRSPVKLNTVKSKRCRQESfTGNHSNSTWSSKHRVDEQENDDIDTDEVMGDKLQA
NQTERTGYVSQAAVALRCRAMPPPCLKNPYVLNQSETATDPFGHQRSKCASFLPVSTSGD
GLSRYLTDFHEIRQIGAGHFSRVFKVLKRMDGCLYAVKHSTRKLYLDSERRKAMMEVQAL
AALGfHENIVGYYSSWFENEQLYIQLELCDHSLSALPKKSSLKVSEREILVIMHQIAKAL
HFVHEKGIAHLDVKPDNIYIKNGVCKLGDFGCATRLDKSLPVEEGDARYMPQEILNEDYE
HLDKVDIFSLGVTVYELIKGSPLTESRNQSLNIKEGKLPLLPGHSLQLQQLLKTMMDRDP
KRRPSARELLDHPMFDRIRG
>Atlg03740 . 1_4-5-2 putative protein kinase
MGCVNSRHRPFRRKSTTLKESSEEKRSSRIDSSRRIDDWIQPEDGfDRLSNSGDAKVRLI
ESEMFSTSRCHDHQIGKILENPATVAHMDRVVHDQELRRASSAVVDSDLDIDPKVVKAKL
DRWNSKDSKVRLIESEKLSSSMFSEHHQIEKGVEKPEVEASVRVVHRELKRGSSIVSPKD
AERKQVAAGWPSWLVSVAGESLVDWAPRRANTFEKLEKIGQGTYSSVYRARDLLHNKIVA
LKKVRFDLNDMESVKFMAREIIVMRRLDHPNVLKLEGLITAPVSSSLYLVFEYMDHDLLG
LSSLPGVKfTEPQVKCYMRQLLSGLEHCHSRGVLHRDIKGSNLLIDSKGVLKIADFGLAT
FFDPAKSVSLTSHVVTLWYRPPELLLGASHYGVGVDLWSTGCILGELYAGKPILPGKTEV
EQLHKIFKLCGSPTENYWRKQKLPSSAGFKTAIPYRRKVSEMFKDfPASVLSLLETLLSI
DPDHRSSADRALESEYfKTKPfACDPSNLPKYPPSKEIDAKMRDEAKRQQPMRAEKQEDK
TL
>Atlg03920 . l 4-2-6 putative protein kinase
MDSARSWFHKFQPRDKPRKKDMFSGSTYGGGVTETTVPDGGNDTETATKLPPLGGDGEAL
SNSTKQKVAAAKQYIENHYKEQMKNLNERKERRTTLEKKLADADVCEEDQTNLMKFLEKK
ETEYMRLQRHKMGADDfELLTMIGKGAfGEVRVVREINTGHVFAMKKLKKSEMLRRGQVE
HVRAERNLLAEVDSNCIVKLYCSFQDNEYLYLIMEYLPGGDMMTLLMRKDTLSEDEAKFY
IAESVLAIESIHNRNYIHRDIKPDNLLLDRYGHLRLSDFGLCKPLDCSVIDGEDfTVGNA
GSGGGSESVSTTPKRSQQEQLEHWQKNRRMLAYSTVGTPDYIAPEVLLKKGYGMECDWWS
LGAIMYEMLVGYPPFYADDPMSTCRKIVNWKTHLKFPEESRLSRGARDLIGKLLCSVNQR
LGSTGASQIKAHPWFEGVQWEKIYQMEAAFIPEVNDDLDTQNFEKfDEEDNQTQAPSRTG
PWRKMLSSKDINFVGYTYKNFEIVNDYQVPGIAELKKKESKSKRPSVKSLFESESDSSSS
GSEQQTINRSYSNPTPRGMEPNLRRLDSE
© RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 225
FADQNGFFDPYLAAPNFPQQNRFFFETTTQKQKHPEVNLHDRRPSDDIYPHGQAYIGAEK
MTLKKNALSDPQLHDESQINNGLEAFTKQPWKILRKNLRVVATSKWEDSDDIYFNNPEGK
RCKELELTKEVPNSWINRONNPDSFDQATKKQDGSNSNSSFSPNYFSPNHQPAAQITSSD
SQDSGSSVFSLSVNTNENYLDCSREKFNGFQHDMSLDILIRSHTSATDQLCSTTKSSDKA
DYSSPNTNFPVVFLRQEPMIPRHDLETNSDDSDTQKSLPREESIHYSGLPLRKVGSRETT
FMHTQGSDDFFKSKLLGPQLIVEDVTNEVISDNLLSATIVPQVNRESDDDHKSYTREKEI
TNADHESEMEEKYKKSRNTDDSFSEAAMVEIEAGIYGLQIIKNTDLEDLHELGSGTFGTV
YYGKWRGTDVAIKRIKNSCFSGGSSEQARQTKDFWREARILANLHHPNVVAFYGVVPDGP
GGTMATVTEYMVNGSLRHVLQRKDRLLDRRKKLMITLDSAFGMEYLHMKNIVHFDLKCDN
LLVNLROPQRPICKVGDFGLSRIKRNTLVSGGVRGTLPWMAPELLNGSSNRVSEKVDVFS
FGIVMWEILTGEEPYANLHCGAIIGGIVNNTLRPPVPERCEAEWRKLMEQCWSFDPGVRP
SFTEIVERLRSMTVALQPKRRT
>Atlg05100 . 1_4-4-l_MAPKKK18 MAP kinase kinase kinase 18
MNWTRGKTLGRGSTATVSAATCHESGETLAVKSAEFHRSEFLQREAKILSSLNSPYVIGY
RGCEITREPFHNNGEATTYSLLMEYAPYGTLTOVATKNGGFIDEARVVKYTRQILLGLEY
IHNSKGIAHCDIKGSNVLVGENGEAKIADFGCAKWVEPEITEPVRGTPAFMAPEAARGER
QGKESDIWAVGCTVIEMVTGSQPWIGADFTDPVSVLYRVGYLGELPELPCSLTEQAKDFL
GKCLKKEATERWTASQLLNHPFLVNKEPELVTGLVTNSPTSVTOQMFWRSVEEEVSEDRS
SWWECHEDERIGVLSWIGHVVVESTWDLDGEDWITVRRN
>Atlg05700 . l_l-8-l putative light repressible receptor protein
MEEFRFLYLIYSAAFALCLVVSVLAQDQSGFISIDCGIPSGSSYKDDTTGINYVSDSSFV
ETGVSKSIPFTAQRQLQNLRSFPEGSRNCYTLIPIQGKGKKYLIRASFMYGNYDGENGSP
EFDLFLGGNIWDTVLLSNGSSIVSKEVVYLSQSENIFVCLGNKGKGTPFISTLELRFLGN
DNTTYDSPNGALFFSRRWDLRSLMGSPVRYDDDVYDRIWIPRNFGYCREINTSLPVTSDN
NSYSLSSLVMSTAMTPINTTRPITMTLENSDPNVRYFVYMHFAEVEDLSLKPNQTREFDI
SINGVTVAAGFSPKYLQTNTFFLNPESQSKIAFSLVRTPKSTLPPIVNALEIYVANSFSQ
SLTNQEDGDAVTSLKTSYKVKKNWHGDPCLPNDYIWEGLNCSYDSLTPPRITSLNLSSSG
LTGHISSSFSNLTMIQELDLSNNGLTGDIPEFLSKLKFLRVLNLENNTLTGSVPSELLER
SNTGSFSLRLGENPGLCTEISCRKSNSKKLVIPLVASFAALFILLLLSGVFWRIRNRRNN
PMAKSENKLLFTFADVIKMTNNFGQVLGKGGFGTVYHGFYDNLQVAVKLLSETSAQGFKE
FRSEVEVLVRVHHVNLTALIGYFHEGDQMGLIYEFMANGNMADHLAGKYQHTLSWRQRLQ
IALDAAQGLEYLHCGCKPPIVHRDVKTSNILLNEKNRAKLADFGLSRSFHTESRSHVSTL
VAGTPGYLDPLCFETNGLNEKSDIYSFGVVLLEMITGKTVIKESQTKRVHVSDWVISILR
STNDVNNVIDSKMAKDFDVNSVWKVVELALSSVSQNVSDRPNMPHIVRGLNECLQREESN
KNY
>Atlg06390 . 1_4-5-4_ASK-iota GSK3/shaggy-like protein kinase iota
MASLPLGPQPHALAPPLQLHDGDALKRRPELDSDKEMSAAVIEGNDAVTGHIISTTIGGK
NGEPKQTISYMAERVVGTGSFGIVFQAKCLETGESVAIKKVLQORRYKNRELQLMRPMOH
PNVISLKHCFFSTTSRDELFLNLVMEYVPETLYRVLRHYTSSNQRMPIFYVKLYTYQIFR
GLAYIHTVPGVCHRDVKPQNLLVDPLTHQVKLCDFGSAKVLVKGEPNISYICSRYYRAPE
LIFGATEYTASIDIWSAGCVLAELLLGQPLFPGENSVDQLVEIIKVLGTPTREEIRCMNP
NYTDFRFPQIKAHPWHKVFHKRMPPEAIDLASRLLQYSPSLRCTALEACAHPFFNELREP
NARLPNGRPLPPLFNFKQELGGASMELINRLIPEHVRRQMSTGLQN$
>Atlg06390 . 2_ASK-iota GSK3/shaggy-like protein kinase iota
MASLPLGPQPHALAPPLQLHDGDALKRRPELDSDKEMSAAVIEGNDAVTGHIISTTIGGK
©RA-MA Capítulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 227
NGEPKQTISYMAERVVGTGS~GIV~QAKCLETGESVAIKKVLQDRRYKNRELQLMRPMDH
PNVISLKHC~FSTTSRDELFLNLVMEYVPETLYRVLRHYTSSNQRMPIFYVKLYTYQIFR
GLAYIHTVPGVCHRDVKPQNLLVOPLTHQVKLCDFGSAKVLVKGEPNISYICSRYYRAPE
LIFGATEYTASIOIWSAGCVLAELLLGQPLFPGENSVOQLVEIIKVLGTPTREEIRCMNP
NYT DFRFPQ I KAH PI'IHKVFHKRMP PEA I DLASRLLQY S PSLRCTALEACAH P~FNELRE P
NARLPNGRPLPPL~N~KQELGGASMELINRLIPEHVRRQMSTGLQNS
Opllons
Oescriptiofl ofyour seguences: P'rto1m di$CrlmiutivG mc;tif di~C'OV'iry- tnt$r t:lH~ na mo of ~
file cont~in in 'neoativeseouences ·
No se ha selece!onado nlngUn 3rdllvo
MEME w.n rnd the optimum number of sites for
éach motif wittlin !he limi1s yo u spedt)' !\era:
Por otra parte, la opción S huffl e sequ ence letter s indica si deseamos barajar
las letras de la secuencia de entrada. Esto resulta bastante útil para determinar s i los
motivos encontrados con la sin barajar son estadísticamente significativos o no. Para
ello, se co mpara el valor E de l mejor motivo/alineamiento de la sec uencia original
con el correspondiente calculado con la opción Shuffle sequence letters marcada.
Si son iguales, probablemente el motivo sea poco significativo. También es posi ble
indicar si queremos rea lizar la búsqueda ún icamente en la hebra proporcionada
(Search given strand only) y/o si se desea buscar secuencias pal indrómicas (Look
for palindromes only).
--...... ...
Yo.
Yo.caa.__ _...,_.-,. ~
hnu.:••
._
~" eno:\\lo
:Siabft' d ci!G"iloiiiiQéB
_..
l:n-o «
¡
Olle pU K<J)('«C
~ oa:ob«: ÚÚ!o'~
~1..,.~c/.s '
"!ib.a~ il~
M.w.. -*'•it:io ,.•"
-·
T,-ped~
Cow.cd~<!S
~~t(o.......)
""'"'
1
Zl9
iA:qc'it Se~(' Ct~) m
A•n·l.A-~(1...-.,) ~29~
TotiJI~(1~) U1
Pinchand o en el enlace You can view your job results at, se muestra una
página en la que podemos consultar el estado del trabajo. Cuando este esté listo,
apa recerá una pantalla como la de la Figura 11.38:
......,_
. p...,~..,~~
• Ao,......ek
- t~olo/100» ·JIOOt•1• -ce . · IIOHi t"d . u .. UQOO ...... u .. ~~ - - tOC.,.:O ·IIIOOUU 1 _ ..... 10 -lnt iO
. _,_JOII:"(OS~~~ ~ ~S)~
• Sl~-
au ; -.IOtol ••...,....•• •.,.. , .noo~u10•
Pulsando, por ejemplo, en MEME htm l output, obtenemos los resu ltados
en formato HTML (ver Figura 11.39). Esta página, de extensión considerab le, se
divide en varias secciones.
•e n - ~.,,
e.'~
MEME EM for Motif (lklbollofl
l
•
ter (\,¡othe• rolot,_on._to rCeoprl!l ~J41 oQOIIi;s oo to of!l• eopvo/tt..., tGC -..,., p¡,..,.,. - tc*v'tcmed>und·
11 t01.1 viot MO< "' rov te~. ~<''f cu tht ~f'IO o~
1.....e.,.~ ~.,...SCW....::l~'TIItltlf • -llo.~ a'*'l~<!o~(O>-...._..,(Iolltoo!l-.-eo..-ouo~~·.~<f~~:-...~c.+-..••~ol~~~-~~.,
A.VJ !'o<>:, lo$.-=l<o :l'd , eu..~.,...,. tnl.
;o,.""
• l .to. lOO
• 14 totn
• 6 2..1:?1
"""' • 19 :M.U
• ; ,So:·OH
• 9 KU
1 .,. r ,-,., .
11"' Amplitud (Wídth): am plitud del motivo. Cada motivo desc ri be un patrón
de una amplitud fija, puesto que MEME no permite huecos.
11"' Sitios (Sites): número de sitios implicados en la construcc ión del motivo.
11"' Ratio de probabi lidad (Log Likelihood Ratio): ratio de probabilidad del
motivo, en unidades logarítmicas. Mide la probabilidad de ocurrencias
del motivo, dado un modelo del motivo fren te a la probabilidad de
ocurrencia del motivo si n disponer de modelo del mismo.
Monr 1 !!!:!'!~
s.q......... l..Qso
.......
Sunom:uy
l.t... IOO
·~~t~~~.
v.id!n
"
""'
lOO~ ~
19
lnkl~ C«<l.tr.t -
~·
<11.9~S)
t:ntroor
-
~,..e
<~M(t><a)
·~
d!t!w'-~
()oct,niOacJ LOGO Orlett~ ~IIICI - SSC: o& • ~:~~iJ) - \ "''4fv. 17 ~:1.! ~ 1 OC'Irr.mad 1
H$()$PJG~Wl]t\.W~ILY»"i~MJ).!~V)
l~r AIRJ)'Stflli
SitMI!J
.........
.U I \f0)100.1.._1·.._l m 1.11 ... 1• YLDPLC'F!.!N (IU;%.K$D l YSNYVLl.DCIN h'TV'tla!.SQ TKRVINSDW
4C 1\10)7'*0.1_....J..l IAl'""' ' R.PP%LLI.OJ..$ IYGVQVD 'I.MSl\Xl liDL VA? KUlhOI<T ~Q.t.m<If'K
.u t~700.1 _').J ... t _ fUI ¡ 6 t.sa.. ta A.P!:I.LMGSSH RVS!:KVDVPSNIVWtmll.'l '\iU ~A.NL CGAUGGlVN
.1.( 1 ~UO.l..3+H
.U t iJ(ll9'l0.1_:l•l •l IJJ)(l
A( l 0029i'O,l_•·>t
... ?41e-1' )!ACVNTHWl EIQ SRJWDIZS.I/'!~·LJM~ rl.R"SLt1fCYJLR AOTIOCOXYDK
6.tk> t7 YASV'NTilLOV I:IQS!UIDD ILAL.JWJM~ Pl.XOSL' 'lii~LK AGTIOCQ.XYOR
~ M•ao KPQ!:ll,N"'-DY E l.DKVD irSL':iVTVYZLIK~S L TESRN QSI.NlKZQJO.
A:lQOH 40..~-"
IUIIIM!:
2••Jdt0.1l ) ..111~<!5
--
- ----
1.::1001lcl0.2~) 1? 3A1H$
-- -
""1<;)01 :J-10.1...1-6-) ) l6t--l1
Hl(IOU40.2Jut;AA• l.lo.ll
M lo0tS60.I_.;.S·lJ.tPI<"t 1 , , ,...,~
-
J.:!c017 40.~.1 · 16·1 M 1e· :!
.O.::loOl-910..1_4.3•) l »e· l6
-
,1Ug0ll'4G.l_4-S-2 l A;k. ¡ jl
-------------- -------
-
.t.ao0»20.t_+2·o ).1~·20
-
... 19'1>1) l l).l_prOI<IIn 1.0)4>.1~
--
&IIOO.U.tO.I_> H·I )óJe·l'
-
.w t'))-1 100.1_~. . .... ¡_.M' 16 ~~~e
-
,l,lld)S100.t_141•1 1.11••18
N.!Q06.3.;G..1...4<So4J,SK-ot.o !.(1~·2 ~
A:IOOtJ'90.2JtiSI"~ll l.oM·2 ~
Cl tt Id
--
--
-- - -
ueO: l.0.2Jn':O : 2 1 9Go·6 1
.I.H.,OII~.J_fin'XJ..Il
!.IIQ(IUSO t j -1•1
t .Wo·01
94-1••2'3
'"o'
1!
----
:.ttgl) 1S.a0. 1_ 1•6-3 ~ .01c•2S
;.n9')~~~.t.. l ·I0.1
'·""·'· "'
:.uQ0:9ro 1...+.)-J f1H· N
- - ------- B
Gl_-
-
- -
:!.t t 0037.t0. t_• ·.\-2 4 .• ·)1 =
MI00)9:0.t_4.:-6 :.9U·« n
1.1100)9)0 1..)-I.J. U<()I'I ) 1)~6 1:1
&tloO• no t...P~ • 29e:·2S _ _ _¡¡__ _ o =- •
-
-.uoo.. te~.t_l·l·l·l •.SJ•·•9
'-1:oQ.I,OO.U·1-'· ~~ tó t.4h·~
--- - -
'o
_.
lil
,..
'
-
""
'
""
'
o -
'
""
'
"""
Figura 11.44. Diagrama de bloques combina do
©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 233
Una vez que se han identificado los posibles motivos en nuestras secuencias,
debemos comprobar si está n presentes en otras secuencias. Esto se consigue gracias
a la herramienta de la suite MEME llamada MAST, y que está accesib le desde la
sección F urth er Analysis (ver Figura 11 .45):
Esto nos lleva rá a la página principal de MAST (ver Figura 11.46), en la que
deberemos volver a introduci r la dirección de correo e lectrónico en donde queremos
recibir los res ultados y una descripción de los motivos, junto co n información
ad ic ional cuyo significado explicamos en los s iguientes párrafos.
1 j .!
ofh
~OW.c.l~..
Optlonal
a St;M....,.--.,.,.,.•
..,.eot~~ ~..,...
"'' VM~....,_.~
In c. 111\d ~ (')1::\ll)f)tl
E.vatue at>ovel
se ha selecdonado
1
0.5
0.2 E
0.1
005
0.02
0.01
0.005
0.002
0.001 hc<.s with E-value beiOw:
l e-5
l e-10
Required
A3upported dotobose:
categcwy:
L·
rcniVO.I F.====:=::=:=====1
Non·redundantand Special Databases
Olhe.t Genomes
ENSEMBL Ge.omes
ENSEMBL Ab t'litio Pred1aed Prote1ns e
OENBANK Fungi Oenomes
GENBANK Bacteria Genomes
U tr~am S ~H:Ju•neu ún annivO.I
Clear
~UIIb
....
.........,
StJt•, Mnt.a¡n
• hl.-a•-
..• .sur;,-
. .-~
-...
--~
...
··· ·- · - --·~......... .... -·~···· .._. ·Oof·~· - ..................~. ........._ ,,u.,·-.••.~~ ·- u-,...........
-.,.,.~,.~
Los resultados de MAST son más sencillos de inte rpretar que los de
MEME. Tras el resumen de la información de entrada a MAST (ver Figura 11.5 1),
encon tramos los resultados de la búsqueda.
._ _...
•to~~eo>-ll><"<!..,...t.,_o,no.lbe<.,.oot•-tl~-,.._...-c~'o•oe4'l«oo"N'M""r"'....,.NS
.....
... _ --.--~·-
a-,t. __._. _ ._....._...,.,._ ...---~-. ....,...._¡¿,.-....
INP\."''S
-s-• ,..__..e-
~
.....,...e- ••u"'''m..:.o;ou
11H~
l ............
t.W ~ ~·~J-
SllqUO!IIQD: f'•V8111e
~!Q1lUW~ICII't(l..,<l'O'SJ :J.:Jt·l l 1
_ , _ _ 6.10e·18
""'1
••~u
_, ..._,.._
a~:!IC
.............J.:UC
V
ll'I~YQSIOPKl..Jt,AATH ) .4t•12
'
to!Q....O(Cü't.7_OIIVSJ ' ,... u
•.,..u ' ..._
1
_,¡...11i.)XI)Cfl't(j- OllVSI 1
_._
.. .
~!QX)'t'j)ICIPI<W_OA:VSI
,. , ~ f.
8.3e·ll 1
'b • •
._
Figura 11.52. Resultados de la búsqueda en MAST
Una vez que se ha obtenido la secuencia de ADN del gen, y una vez
garantizada la calidad de dicha secuencia tras haber estudiado la contaminación, el
paso siguiente es la traducción del ADN en una secuencia de aminoácidos.
238 BIOINFORMÁTICA: El AON A UN SOLO CLIC © RA-MA
En este primer ejemplo, uti liza mos la herrami enta de traducc ión de Ex PASy
(hup://www.expasy.org/tools/dna.html) y trabaj aremos con la secuencia :
>IR64 Oxox 2
gcctctacggggtct t gactgctgactaatcttcctataagttaattgcaaattt t ctca
cgtgtgccacg t acgcatgaaacatgatcagttatgcacggaaggcacgatcgatgcatg
ggtgctcccctata t aaagggctccaaagctaactagatcatcagcaaagcaaagt agca
aacaaagccagccagctcgtcactgctactgtcttgcctgattgaagaagtaattagtta
ctagtagt tga t tagcaatggagtacggcttcaaagcagctgggttggtgtt cgtcgtgc
tgc t cctgcagcaggcgcccgtgttaatccgagccaccgacgc ggaccctc t gcaggat t
tctgcgtcgctgacctcaacagcgaggtgacggtgaacgggcacgcgtgcaagccggcgt
cggccgccggcgacgagttcctcttctcctccaagattgccacgggcggcgacgtgaacg
ccaacccgaacggctccaacgtcacggagctcgacgtcgccgagtggcccggcgtcaaca
cgctcggcgtgtccatgaaccgcgtcgacttcgcgcccggtggcaccaacccgccgcacg
tccacccgcgcgccaccgaggtcggcatcgtgctccgcggcgagctcctcgtcggcatca
tcggcaccctcgacaccgggaacaggtactactccaaggtggtccgtgccggcgagacgt
tcgtcatcccgagggggctcatgcacttccagttcaacgttggcaagacggaggccacca
tggtggtgtccttcaacagccagaaccccggcatcgtcttcgtcccgctcacattgttcg
gctccaacccgcccatcccgacgccggtgcttgtcaaggcactccgcgtggatgctggtg
tagttgagctgctcaagtccaaattcaccggcgggtactaattaatctgggagtattttc
gtaccgttcttcgctacgagcagcgtac
Translate
.. ..
~~n co;Qqt~c~t;~"'~c ct•ucucc:...~-:""''0<:-"""ut~ct"
~-:<~:<;<:e~ 01<• er-~t : _, • -"-" • t-: • : e<~; : t • t ~:-;-;• ·~>:e• <r.• <c >,¡A <<;.>:.. te
t'Jlf*'~~ut;~;~eoec;ntctueu,.ate.~ot~io!Ua-,caUfU'J'!>I
U <: :..u ! C !~ ! C: '~t!~-!4! t! ! ~ :~t!!C !t :IOH!4 t t'H4-~ uet ~ :t !f.:'t !4
c.t•;<wo;'Y.-'10~ w .,.,...~r.o~r.c' ~o.u~~t.;-7,1! Y.~'~Wt.O;t<;o
t<I'«OI:tO.::MC400.:~~~<ntUtQCO•O~~~O~OQtCt~:O..tt
u:.;oo<>:c<:~>:q<:Qc:CK=;t<N"~c•:c:q~oc<;c~:.;~.t4c~cc~cq:CIQ~&tc•
En este caso, los resultados son 6 tramas (tanto directas como inversas) de la
secuencia traducida que muestran Met (metonina), el codón de inicio y e l de parada
en negrita.
S')' Fi$tre 1
X XAS TGS 6top l l TNl PI S S.top LO! f SRV PRT HE T S.b:lp SV Stop l OHOOS KVANKASOt V 1 ATV LP
O $top A SN $topl l VVO S1op0WS TA$ KQ l GWCS SCC SCSR RP C $top S 1-- P Ft TR rl, CR ISA$ 1 1ST A R Stop R StiCip TG 1 RA $ RRR PPA T S
SSSPPRIPRAAT ~ lPTRrAPT$RSSTSPSGPASTRSACP ~p lASTSRPVAPTRR I STRAPPRSASCSAASSSSASSAPSlP
GTG Tl PRVISV PARRSSSR G G SC 1 S SSTLARR RPPWW CPS 1 ARTPASS S SRSHCSAPTRP SR R RCL SRH SA \V Stop lSC S
SPtl SPAG t N Stop SGSI FVP F F 1\ TSSV
S'3' FWI"$ 2
XX PlR O LOC $ top ll f l S4o¡>VHCK F S HVCHVR StopiiSKAK St(l90 TKPA SSSL l l SCliE E
VI S Y Stop Stopl l SNOVRlOSSWVGVR R A A.PAAG A RVN PSH RRO PSA O F l RR SCop PQQ I~GD O E RARVQAGVGR R RR VPLL t O OC
HGRRR•ROPtRLOI~HGARRRRVARROHARRVHEPRR I RARWHQP A ARPPARHRORHRAPRRAPRRHHRHPRHR•OVILOOG
PCAROVRHPfGAHALPVORWOOGGHHGGVLOOPEPRHRLRPAHIVRlOPAHPDAGACOGTPRGCWCS SlopAAOVOIHRRVLI
tiLO V¡: S Y RSS LAAA Y
S'l' Fta.rfl9 3
XX LYGVL lCA._D: :.-·"
ftJVLRYEQR
a·5· ~l'lltro '
VRCS S-top A.R TVR K YSOIN StopYPPVNl O L SS S TT PAS TRSALT S T GV G
. stoJ) YlF PVSRVP
MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEF
LFSSKIATGGDVNANPNGSNVTELOVAEWPGVNTLGVSMNRVOFAPGGTNPPHVHPRATEV
GIVLRGELLVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQN
PGIVFVPLTLFGSNPPIPTPVLVKALRVDAGVVELLKSKFTGGY
MCGGEVIPADMPAAPFTPRHGDGETWVDRKRRNKKKRKRGADEEWEAAFQEFMAADDDDDGGGLV
LSSKSLVLRSPGENDAGRGAAATMSMPLDPVTEEAEPAVAEKPRRRRPRRSYEYHGIRQRPWGRW
SSEIRDPVKGVRLWLGTFDTAVEAALAYDAEARRIHGWKARTNFPPADLSSPPPPPQPLCFLLND
NGLITIGEAPTDDAASTSTSTTEASGDARIQLECCSDDVMDSLLAGYDVASGDDIWTWTSGASST
SVNQEIKTPSIHQNISYAGARPMTCHFKNHKNTFVQMECSTMLNLLKGHKQ
ProtParam
'
ProtPuam
Stl~ of tndipQwltl on lllt Mq~~+n<;•
KI'Ct_OROME {J'OSt30)
Plc-o.:sc: ~1:-d ene oC :-.e f(ll(w.11'Q tcaNe:; u, dltl:llQ on o o.u of C'f'ICIOOIIt"... w tfle cCfl'p!,.(Qiwl MI be cameo oc.t 1or lile corre59QOO!no ~ucncc fra~rt. 6y óef~utlk
torrC~Iete ~ •:~ ~
N040: Of'tlle fe<aUI?SCOI~)()ndflOIO ~ Of*llee$11 Sres~ are~I'I(J'U!O
"" .....
-~
~:"1
......
:o-~4, .
.)S0·f0f
,...,""
,...),
... ,..,_c. .........
h:<ad&IU~ •
•o<Mt-·
"'" ....
:x_r:.:u r:o= ::e¡ . ... :..:1
;.:
•:.-~04 ~~ ~"!>"'
'·
~
tr(ft.''13
!1·-~~"
~~·S<.4
litlo~~l -·· , ·d~'~'t-
A-"tf tiSY .lY>ll.fUYI • '·
Or 11ycu wi~ 10 1:íll!)('t a O:~o)fl ~ 11 ~m (M IOIQ(:I 5 arn no aac~ lOng) )OU ean 01\!olf 1n1t ~f'ld ~m~ M tr.- ~~ 111)('9 (!)y' O(ol'aul N- O)f'l'lpl.f:er.;otho, • El'>
C.ll'l'•od 01.1! tot mo cool)loto ~).
N !CtflliMI
~0111
Además del peso molecular o la composición atóm ica, los parámetros más
importantes son:
,.. Coefi c iente de extinción: muestra cuánta luz absorbe una proteína a una
cierta longitud de onda y resulta muy útil en los estudios de espectrometría.
ProtParam ofrece una estimación que, en todo caso, debe confirmarse
expe rimenta lmente.
,.. Inestabilidad: se trata de una estimación de la estab ilidad de la proteína.
Cuando el valor es de 40, la proteína suele ser estable. Cuanto mayor sea
e l valor, más inestable será.
,.. Vida media: es una predicción del tiempo que tarda la proteína completa
en desaparecer después de su sín tesis en la célula.
-·-
"""'·--~
---- .
P(KI)OQ(PCt_~.
...,.-.,Jotyt ltW
- · ...,
H9''
ft--.lnPic:oo:A.S.nPtol
.,.._._ O ""'"'Y
- IDiollf!PI'\ '
l't.!l......_
·$-
--·-
aw.
p,_."·-
4
e. ............_
--.............
:.o--llof!t
- .....
Wft !IO)
~-
.,_,_ ""'
~-~
~--- ·· _
.... ..,.. ~ __,
"'""'"
t..._ ........ ~ •...._~ ........~ •..._ · t~·Oolo"• • li'o(IOI'I... •Iolfoc...... t....-..
~.o...... ~.
·-
·--
$it•~v~on
.-----·---·
--.
. . .__ -..•"\Otl-.·."---.
-""---ol----·--ot " " ""-·
- . .-,_.,__.
·--
The PSlPREO Protein Sequence Analysis Workbench
....-..-...
-
_,~ ~-· -·- -· -
ouno_. _ _ _ ,.IÑ_.,..,,_
,-__
.,. -~
..OIII..•.... -•-•...,--...,~Iil,._.., .....
o.~ ~ ,
..
~ ~-~
I M iiaHID 1 -
C,o..-~ ~f -.~-..ct.>f\ r._.._,_.,._ .. ~-··
,-~~ -~ 1011~-· ~-l-
__ _..."'-"'·•-Ocoo.d..o<.-
-....-
~
~-D•'U _ _ _)
r _ ...u«, (Jrooolio- •'"""-~
L .-f•U _ _ _.._,
r ..._ .._.~--·
c~01-·"---
.
--.
-.n.-·--··· -~"'-1
-~...
~--(-· -"-"""
-L ...........t,..-t~:.,.,_,._..,.. _..)
! ~4· ~--"0 ... _ ) "'-'--·-·-~-.--~
MEYGFKAAGLVFVVLLLQQA~VLIRATDAD~LQDFCVADLNSEVTVNGHACK~ASAAGDEFLFSS
LVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTLFG
SN~P I ~TPVLVKALRVDAGVVELLKSKFTGGY
.:J l!oo Setf v2 .O (~uto.oNo!d 1-lor~ Ho6d:l "'9) ~ Dcr•nl'o ed (Po-ole~" Oc...._. l'<e llo« - )
. ,ffiJI-ed v2,0 ( flol<,.<v«oc: f uno;bon ~n) ~ G.,onTHitfi.Of.'t ( R• PCt fcld ~~~ocn)
'D NtMf>ACI({SVM l'l'edlaon el lM T~ or<l noef;:.: F~) tJ itOoml"~Cil ( tQfd oo.r...c11 RecogMon)
D o.omsetf Vl.O ( '"*-...te:! Oon...... ~e-'-'51 by ~0.07)
!!("··
I nput Sequenc:e (Smqle !l.equconc:e or Mulbpltt Sttqucnc:e ohqnmt!nts; a!l u1w !l.equence or la'l>tn lorm.:~t}
MCV'Gtl<MGtVI'\I'JI.U~~AArc.:.oi'LqOfCVADV."Gt'ITVNGt1AO<PI&AAGOtru':l.:lKI
o\TGGCNN.:.,t~f<V"IUOYAi'IIPCv~t:tV'Of»>GT~9AA.TE\ICIVlRGtu.VG
! !CTlDT:;,.lt~M"R~\I'GICT~T~IWS •kSQ'IPC;~Tti'GStfU'I Irt
f'VlVK.At.i.VOI<GW t t.l.l($f(tTGGY
"'"'"
:! 'f(N wii!l tO ~t !Na Ct f'lieot fOil~· N iirC t0 r«r~t~ i tM fiSU '~r<oil.
subml<o.,lon Uet.:~tl.,
l'c o••
-
Srte N~vigot!on
Your PSIPRED server job has been submitted
V.. 101>•• n tho! Cl<lt!"' .....:Ho 1M...,......: Pr«~~--",P,'Idio> wM! tilol!r»IO- t42.a6n 4.0to(.a· l l!!.&..t'biH)016:ht105H
. .'.
F to,«lt
...-.......
...........
w.b ........
.........
(01'(~1
Gr-lntl~
Server Navlgatlon lli»fC:IP(~ t¡.loe acte.!61 30 t'!W'\ooC.~ ~~r~ u~~~,~.._ tlctl~~<t no t~e ¡ff~6~ OleM"e~
D$!OitfO,........- Y- •ri-'b..,. b., ro:t~ to 1M '"'W'I(k.l"' QO">t" 11>$ )OCJ 1¡¡;, ~~ JI tOU doM t:tl" ~ fl' d>QOo.., ~ ~iot., -~ •ov <.,... dlo:6: tt•"
~~~Ohell>
Sto'"o'(<' OvtNI~
,........,
P!O')"-• M hlt(>J/btf,J¡Id c.c..ucl~oo<~¡'f-.A¡7d3oi061:M·Oooói•ii-.1A7t&<OOI6,_ 1 10S'-l. Y'our ••••111• wtl b- ..,._o.csto ,ou~ lh-):t>luoo
,_...
Slte N.evlg.etlon
..._ Sequence analysis results for job: Proteína_bajo_estudio
--·
Poo,ect,.
ID:7d 3a6724-0e64-11e4-97bb-00163e110593
V_. .
....~ $o:!rl.~~
DOoo.roloid$
e~
Gfouo IIO".n.:t
Server Navlgation
............
OSZPIII:EO Safv~ ... ....
.,,.., . , .. , , , ••• , .. . ,o• • •• • 9t .o.•" "
,, .. ~
-·
-.o.-
s......
s...-.... c.ul4tl
H.~Off
lloll.·....... Oooo;. . ..od
'" -• - ---
- -·
ID
a-............................................. 0 ""'
»>
~~~ro prcd ct}~ ~rQ ((liQur <odOó cnto thc :cqu.;rco ~(lQOI"CCu'9 to ~1\o ;cq~.ro"'CQ ftN.turc koy al\own ~I:IW.
~ .,,.
:o1 .,
11 11
.::~~. ...
... ... ...
___
----
: : .- ---
-
--- ·-·-----
-* -·':-·1! ___ .. _
Conf : llllmmmlllllllllllllllllm~llllllllallllllf
Pred :
Pred : CCCCCHHHHHHHHHHHHHH HHHHHHCCCCCCCCEEEECCC
AA : l~EYGFKJU!.GLVFVVLLLQQAPVLIRATDADPLQDFCVAD L
1 1 1 1
10 20 30 40
Conf : Jlllllllllllllllllllll~~~llllllllllllllllf
Pred :
P red : ce ce ccccccc.c.cc cecee cccccccccc cccccccccc e
AA : NSEVTVNGHACKPASAAGDEFLFSSKIA7GGDVNANPNGS
1 1 1 1
so 60 iD 80
Conf : ll l mecaalllllllllllm•IIIIIIIID•Imaallllll[
Pred :
Pred : CCCCCCCCCCCCEEEEEECCCCCCCCEECCCCCCCCCCCC
AA : IJ~HFQFNVG KTEATMIIVSFNSQNPGIVFVPLTLFGSNPP I
' • ' 1
Conf : Jllllllllllllllllllllllmllllf
Pr:ed :.f'-")_ _---'HEJ)====)- ) --
Pred : CHHHHHHHKCCCHH HHHHH HHHCCCCC
AA : PTPVLVK.~.LRVO ~.GVVELLKSKFTGGY
' '
210 220
Leqe-nd.1
- coi l
llnwnlo;u1 PVPryttun9
li1! ~~ -
. -~--·- SWISS-MOOEL 11 , ., w' l><of"lllno 0<(> .,.., . n U t;l C • • ,., "'
Weleome to SWISS-MOOEL
$'\l$$.uoot'.t IJ • ..,l)~jii«MW''fiMII.tt~~~ ttens~~ ~~~~Y oott.~- Ot ten tht~t~t~Ot«f.•..,..
( $loi§.l PcD.~ lile pu"PQM! 01 ~ Mf'MIS 10 11W..t PfoWI Wllri!l.... -~ t!-SCIIe tQ .V OIOC~ W t'ltiii!C.UJ/1 ta::lgQS ~~
..,.,~ _,..~ 1)<01i!IW•Iu-'Mrv o~!\1~'-•I'Wr> .~.:. \11111':") W'o -~ f feo....-( ~~..,,~ OOfMJIII. ki.»AiotWI~II"O
~,.,.,~..u, "!\\J'-,. O<'Ori"""tr-. Kllolio:l Wlret' CI K!f'
MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEFLF$$
KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVGIVLRGEL
LVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTLFG
SNPPIPTPVLVKALRVDAGVVE LLKSKFTGGY
Re-set Fonn
Emall:
e n· - P o a • • ,, .e • =
E! ~·~
. _::~- ·- SWISS-MOOEL
Model Results o
~ Sofol~l)e(-
--·
t.i'& on () ...
-
~"""......,_.,....
.
--
""""'-"' --
09$ 019 ~ ...
• ~ 1't1tllll .
X
Como ya se ha visto a lo largo del libro, los avances tecno lógicos han
incrementado dramáticamente la ve locidad a la que se generan secuencias de ADN.
Sin emba rgo, la caracterización de dichas secuencias continúa siendo un proceso lento
e intensivo en recursos. A fottu nadamente existen herram ientas que faci litan el anális is.
mm
'"''
Su«-~
t;.MJ..!MY::/:M':/4.":~rA.~4.llt«lXt ••ttli\Xl,~=.\f
.lo.l3:n.:ou~ .lo.ttt;,.t'll..l.Gfr.~nc:;ac.uewtJ.OOter;.,..,.,..·.,.,.ro
•~rr.t.e~Clml0orr.\O:tca.l~n~;.1t,.,.ru~A.nu
l'~C'T«Ga"A.l~~f~"*TTGIOM.~~$,oi,A,l«<!M'I:J.ef
.......,
&6JIYU lllh 'KQ~
........
;.;.z:.cn;.,u~~~:.a~==I)OC'( ~~c o..,.. ¡.,~;o¡or~~
-- .....
c~.:.:~.:.a.~~~ttN.::.;.:,~o~t-.n:~.uMG:.:MtCflU':.t
~~~~....u.ec¡.~~~U~...Io.'M'I'J.ee.UT~'M'tQ C.WI!I~ Gc~- s.-n
~:.lM:.:.o:~~-::-:e~:t~e:-:-r:~•r:::o::.::.:>l>:r.wc~
:co·•oooooM::r;l<JrcooJ.~.a.?.u.u.nttrcerTI)n.a.cur~«o:AA.:.
reG.~n~~.a.t~t.:.=a:.r.net"~
.v.mcarc.Mn~r.-cnMrr~~n~...._,.A.T~~
r~~:ct~nn,~on:nu.:.a.t~tc:r.rerU'l"n.a.t:.v.rrnctCtAAUo"n-""-n.a.
;.-:.~:~:u.::c.:-a:.na:'!'>~:J.t>'s..r;.l..a:•:>::..:.:.:~-, ·~,...
..c.:.=-::=~
""""
PW"'-d (1\'u:tC"'I
c;.r-~n=~re•• ,.,,., .._l('Tr~~:n.:.li,.I,U,lo.rre
"""'
Figura 11.74. Obte nción de la secuencia que se desea analizar
BAILE Y, T. L.; BODÉN , M.; BUSKE, F.A.;FRITH, M.; GRANT, C. E.; C L EMENTI,
L. ; REN, J.; Ll, W. W. y NOBLE, W. S.; MEME SUITE: toolsfor mot({discovety
and searching, Nucle ic Acids Research, 37 :W202-W208, 2009.
BATNS, W.; Ingeniería Genética para todos, Ed. A lianza Ed itorial, 1994.
CLAMP, M.; CUFF, J.; SEARLE, S. M. y BARTON, G. J.; "The Jalview Java
alignment editor", Bioinformcuics, 20:426-427, 2004.
DATE, C. J.; Introducción a los sistemas de bases de datos, 7." Edición, Prentice
Hall, 200 l .
NAKAT, K. y HORTON, P.; PSORT: a program for detecting the sorting signals
of proteins and predicting their subce/lular localization, Trends Biochem. Sci,
24(1) 34-35, 1999.
PABINGET et al.; "A su rvey of tools for variant ana lys is of next-generation geno me
sequencing data", Briefings in Bioinjormatics, vol. 15, 11.0 2, pp. 256-278,20 13.
D J
Datos biológicos, 15, 53, 57, 126 Ja lview, 11, 167, 168, 174, 176, 177,
178, 191,255, 257
E
EMBL, 41 , 42, 55, 75, 9 1, 94 M
En trez, 53, 55, 98, 106,108, 109 Matriz de sustitución, 12 1, 193
Estructura primaria, 197, 209, 237, Modelado,56,57,59, 113,1 15, 119,
239 123, 197' 198, 216, 247
Estructura secundaria, 89, 197, 221, Motivos funci onales, 185, 20 1
242, 244, 245
Estructura te rc iaria, 197, 212, 247 N
Eucariotas, 20, 22, 23, 27, 29, 51 , 82, NCBI, 44, 51 , 53, 74, 75, 80, 82, 83,
103, 113 9 1, 92, 95, 98, 99, 103, 11 0 129,
150, 159, 16 1,202, 249
F
FASTA, 31 , 34, 35, 82, 99, 100, 130,
157, 16 1, 167, 180, 186, 187, 192,
o
ORF, 114, 11 9, 150, 151 , 152, 153,
2 17,228, 249
154, 159
FASTAQ, 3 1, 35
Fenotipo, 22, 95, 96, 122 p
Fi1ogenia, 185, 189
PDB, 55, 76, 82, 84, 85, 86, 87, 88,
89, 104, 2 17, 2 19
G
Procari otas, 20, 22, 27, 29, 51 , 97,
GenBank, 51 , 52, 55, 60,73,74, 75,
102, 114, 2 14
78, 80, 8 1, 82, 83, 9 1, 92, 93, 97,
Promotor, 102
99, 100, 101, 102, 103, 106, 107,
109, 150, 153, 154, 156, 157, 182 Proteoma, 214
Genética, 19, 90, 255
Ge noti po, 44 R
GFF, 31 , 4 1 Replicación, 28
GFF3, 3 1, 41 , 42, 43
Gráfico de puntos, 117, 118, 139, S
141 , 142, 143, 144 SAM, 3 1, 36, 37, 38, 39
Guani na, 32 Secuenciación, 31 , 35, 36, 37, 51, 55,
GVF, 31 , 43, 44, 45 96, 11 3, 114, 11 5, 11 6, 126, 129
Secuencia de bases, 24, 82, 152
1 Secuencia de nu cleótidos, 28, 32, 75,
Informació n biológica, 15, 53, 56, 80, 97, 101, 109, 11 9, 140, 155,
59, 75, 79, 8 1, 126 158, 160, 186
Ingeniería biomédica, 16 Secuencia proteica, 113, 119, 166,
Integración, 11, 60, 61 , 62 208, 2 16, 228, 237, 240, 243
©RA-MA [NO ICE ALFABÉTICO 261
T V
Traducción, 33, 75, 107, 124, 15 1, Variación, 43, 44, 45, 46, 48, 65, 96,
237, 238 106, 107, 122, 124, 125
VCF, 31, 45, 46, 47
u
UniProt, 55, 84, 2 15 X
Urac ilo, 24 XML, 59, 67, 68, 70