Está en la página 1de 262

Bioinformática

El ADN a un solo clic


Bioinformática
El ADN a un solo clic

David Roldán Martínez


la ley prohibe
Copiar o Imprim ir este libro

Bioin formát ica El ADN a un solo cl ic


© David Roldán Martinez

© De la Edición Original en papel publ icada por Editoria l RA-MA


ISBN de Edición en Papel: 978-84-9964-528 -5
Todos los derechos reservados © RA-MA, S.A. Editorial y Publ icac iones, Madrid, España.

MARCAS COMERCIALES. las designaciones uti lizadas por las empresas para distinguir sus productos
(hardware, software, sistemas operativos, etc.) suelen ser marcas registradas. RA-MA ha intentado a lo largo de
este libro d istinguir las marcas comerciales de los ténninos descript ivos, s iguiendo e l estilo que utiliza el
fabricante, s in intención de infringir la marca y solo en beneficio del propietario de la misma. los datos de los
ejemplos y pantallas son ficticios a no ser que se especifique lo contrario.
RA-MA es una marca comercial registrada.

Se ha puesto e l máximo empeño en ofrecer al lector una información completa y precisa. Sin embargo, RA-MA
Editorial no asume ninguna responsabilidad derivada de su uso ni tampoco de cualquier violación de patentes ni
otros derechos de terceras partes que pudieran ocurrir. Esta publicación tiene por objeto proporcionar unos
conocimientos precisos y acreditados sobre el tema tratado. Su venta no supone para e l editor ninguna forma de
asistencia legal. administrat iva o de ningíon otro tipo. En caso de precisarse asesoría legal u otra fom1a de ayuda
experta, deben buscarse los servic ios de un profesional competente.
Reservados todos los derechos de publicación en cualquier idioma.
Según lo dispuesto en el Código Penal vigente ninguna parte de este libro puede ser reproducida, grabada en
sistem~l de almacenamiento o transmitida en fonna alguna ni por cualquier procedimiento, ya sea electrónico,
mecán ico, reprográlico, magnético o cualquier otro s in autorización previa y por escrito de RA-MA ; su contenido
está protegido por la ley vigente que establece penas de prisión y/o multas a quienes, intencionadamente,
reprodujeren o plagiaren, en todo o en parte, una obra literaria, artíst ica o científica.

Editado por:
RA-MA, S.A. Editoria l y Publicaciones
Ca lle Jarama, 33, Polígono lndustria!IGARSA
28860 PARACUELLOS DE JARAMA, Madrid
Teléfono: 9 1 658 42 80
Fax: 91 662 81 39
Correo e lectrónico: editorial@ra-ma.com
Internet: www.ra·ma.es y www.ra·ma.com

Maquetación y diseño portada: Antonio Garcia Tomé

ISBN: 978-84-9964-575-9

E-Book desarrollado en España en Octubre de 20 15


A todos aquellos que se empetiaron en hacerme
caer una y otra vez, porque el levantarme
me ha hecho ser más fuerte.
A todos aquellos que intentaron acobardarme, porque
el temple que adquirí me ha hecho perder el miedo.
A todos aquellos que me infundieron desánimo,
porque superarlo ha hecho crecer mi autoestima.
A todos aquellos que me crearon problemas, porque
solucionarlos me ha hecho más inteligente y a todos
aquellos que amaron y me aman, que me ayudaron y
me ayudan porque sin ellos no sería nada.
ÍNDICE

AUTO R ... ... ....... ... ... .... ... ....... .... ... ... .... .............. ... ... ....... ....... .... ... ... ....... ....... ... .... ... ....... ...... l t

PRÓ LOGO ....... ... ..................... ... ..................... ... ... .............. .... ... ... .............. ... .... ... ....... ...... 13

'
CAPITULO '
l . INTROD UCC ION .................................................................................... 15
l.l A QU IÉN VA DESTINADO ESTE LI BRO . ..................................................... 16
1.2 ESTR UCTU RA DE ESTE LIBR0 ...................................................................... 16
1.3 LEYENDAS ....................................................................................... 17

CAPÍTULO 2. F UN DAMENTOS BIO LÓG ICOS .......................................................... 19


2. 1 FISIOLOGÍA CELULA R .................................................................................... 20
2 .2 MOR FOLOG ÍA DEL C RO MOSOMA ............................................................. 22
2.3 ÁC IDOS NUCLEICOS ....................................................................................... 24
2.3.1 ADN ....................................................................................................... 24
2.3.2 A RN ........................ ............................................................................... 25
2.3.3 Cód igo genético ...................................................................................... 26
2.4
.
DOG MA CENTRAL DE LA B IOLOG IA MOLECULA R ................................. 27
.

2.5 REGU LAC IÓN GÉNI CA .................................................................................... 29

'
CAPITULO 3. FO R MAT OS D E FICH EROS ................................................................. 3 1
3 .1 DATOS EN B RUTO ........................................................................................ 32
3.2 FASTA.................................................................................................................. 34
3 .3 FASTAQ ............................................................................................................... 35
3.4 SAM/B AM ........................................................................................................... 36
3.5 GFF/GFF3 ............................................................................................................ 41
3.6 GVF...................................................................................................................... 43
8 BIOINFORMATICA: El AON AUN SOLO CliC © RA-MA

3.7 VCF ...................................................................................................................... 45


3.8 BED............... ....................................................................................................... 4 8

CAPITULO 4. BASES DE DATOS GENÓMICAS ......................................................... SI


• •
4. 1 ¿QUE ES UNA BASE DE DATOS GENOM ICA? ............................................. 54
4 .2 CLAS IFI CAC IÓN DE LAS BASES DE DATOS GENÓMICAS .................... 54
4.3 CA RACTERÍSTICAS DE LA INFORMA CIÓN GENÓM ICA ...... .................. 56
4.4 CONSTRUCC IÓN DE UNA BAS E DE DATOS GENÓMICA ......................... 58
4 .5 MODELADO DE INFO RMA CIÓN GENÓM ICA .............. ....................... 59
4.6 INTEG RACIÓN DE BAS ES DE DATOS BIOLÓGICAS ................................. 60
, , -
CAPITULO S. PRA CTI CA 1: DISENO DE BASES DE DATOS BIOLOG ICAS ....... 63
;

5.1 DISEÑO RELACIONAL .................................................................................... 63


5.2 DISEÑO XML ..................................................................................................... 67
• •
CAP ITULO 6. PRI NC IPALES BAS ES DE DATOS GENOM ICAS ............................. 73
6. 1 GENBAN K .................................................................... ...................................... 73
6.1.1 Formato del registro ............................................................................... 75
6.1.2 Cabecera ................................................................................................ 78
6.1.3 Sección de características ....................................................................... 8 1
6.1.4 Sección ORIGIN .................................................................................... 82
6.2 REFSEQ ............................................................................................................... 82
6.3 UNIPROT ............................................................................................................ 84
6.4 PDB ...................................................................................................................... 84
6.4.1 Formato de l registro ............................................................................... 85
6.4.2 Tipos de registros ................................................................................... 85
6.4.3 Estructura del fichero ............................................................................. 88
6.5 OTRAS BASES DE DATOS GENÓM ICAS ................................................. .... 90
6.5. 1 Bases de datos de secuencias de A DN ................................................... 90
6.5.2 Bases de datos de secuencias de ARN ................................................... 92
6.5.3 Bases de datos de secuencias de proteínas ............................................. 93
6.5.4 Bases de datos de patrones y perfi les ..................................................... 94
6.5.5 Bases de datos clínico-genéticas ............................................................ 95
6.5.6 Bases de datos de mutaciones y SNP ..................................................... 96
6.5.7 Bases de datos de genóm ica funcional.. ................................................. 96
• • •
CAP ITULO 7. PRA CT ICA 2: BUSQUEDA DE S ECUENC IA S ................................... 97
7. I SECUENCIAS DE O RGANISMOS PRO CA RIOTAS ....................................... 97
7.2 SECUENCIAS DE ORGANISMOS EUCA RIOTAS ....................................... 103

7.3 BUSQUEDA DE VARIACIONES .................................................................... 106
7.4 EJ EM PLO DE ESTU DIO DE UNA PROTEÍNA ............................................. 108
©RA-MA IND ICE 9

' '
CAPITULO 8. ANALIS IS DE SECUENCIAS --------------·····----··--··--··--·--···------·------·-------113
8.1 DETECCIÓN DE ORF ................................................................................... 114
8.2 ANÁLIS IS DE CALI DA D . .............................................................................. 115
8.3 AUN EAM 1ENTO ..... _. .. _.._. ........ _. ..... _. .. _.._. ..... _.._.,._. ._. ..... _. ........ _. ... ,_. .............. 115
8.3.1 Gráficos de puntos ......-. ...... _. ................................ -. ............ -. ................ 117
8.3.2 A lineamiento de pares .......................................................................... 118
8.3.3 A lineamiento múltiple_. ....................................... -. ............................... 119
8.3.4 Puntuac ión del a linea miento ................................................................ 120
8.4 IDENTIFICACIÓN DE VARIACIONES _. ................... _.._. ............ -.-. ...... _. ....... 122
8.5 ANOTACIÓN ................ _.._. ................... _. .......................................................... 126
8 .6 VISUALIZACIÓN ............................................................................................ 126
8.7 PIPELINES ANALÍTI COS Y SISTEMAS DE FLUJO DE TRABAJO ........... 127
• • •
CAPITU LO 9. PRACTI CA 3: ANA LISIS DE SECUENCIAS --·-- --·---- ---- ·------·----· --·---- 129
9. 1 ANÁLISIS DE LA CALIDAD CON VECSCREEN ......._. ..... _. ..... _. ........ _. ..... _. 129
9 .2 ANÁLISIS DE LA COMPOS IC IÓN DELADN ........................................... 135
9.2.1 Búsqueda de palabras ·--···················--···············--··--·--·----···--·····--········-- 135
9.2.2 Estadísticas de la secuencia con Genomatix ........................................ 137
9.2.3 Búsqueda de repeticiones ......................................................... _........... 139
9.2.4 Búsqueda de ORF...._. ............ _. ......................... _. .......... _._. ._._. ............... 150
9.3 ALINEAMIENTO DE SECUENCIAS CON BLASTN ......... _. ..... _. ................. 160
9.4 EDIC IÓN DE ALINEAMIENTOS .. .............. ......................................... 166
9.4.1 Creación de grupos ............................................................................... 175
9.4.2 Reordenación del a lineamiento ............................................................ 177
9.4.3 Adición y borrado de huecos ................................................................ 178
9.5 BÚSQUEDA D E SECUENCIAS HOMÓLOGAS CON SIB-BLAST ............. 179
9.6 ALINEAMIENTO MÚLTIPLE ......................................................................... 183
9.6. 1 Alineamiento múltiple con Clustal Omega .......................................... 185
9.6.2 A líneamicnto mú lti ple con MUSCL E .................................................. 192
9.6.3 A lineamiento mú lti ple con T-Coffee .................................................... 193

CAP ÍTULO 10. PROTEÓM ICA ... ....... ... .... .... ...... ... .... ... .... ... ....... ... .... ... .... .......... ... .... ... l 95
10.1 GENERALIDADES .......................................................................................... 195
102 ESTRUCTU RA DE LAS PROTEÍNAS .........•..... _. ........................................... 196
10.3 MÉTODOS DE PREDICCIÓN ......................................................................... 197
10.4 MODELADO POR HOMOLOGÍA .................................................................. 198
10.5 RECONOCIMIENTO DE PLIEGUES .............. ...................................... 199
# . , ! •

CA PITULO 11. PRACTI CA 4: ANA LIS IS D E PRO T E INA$ ..................................... 201


11 .1 ANÁLISIS BLAST ............................................................................................ 201

11.2 BUSQUEDA DE DOMINIOS FUNCIONALES .............................................. 207
10 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA

11 .2.1 Búsqueda de dominios con EB I-Intcrpro ............................................. 208


11.2.2 Búsqueda de domin ios con PFAM ..... ................................•................. 21 1
11.3 PREDICCIÓN DE LA UBICACIÓN SUBCELULAR ..................................... 2l4
11 .4 BÚSQUEDA DE EST RUCTU RAS DE REFERENC IA .................................. 216
11.5 BÚSQUEDA DE MOTIVOS ............................................................................ 22 1

11.6 ANALISIS DE LA ESTRUCTU RA PRIMARIA DE UNA PROT EI• NA ......... 237
11.6.1 Traducción del A DN en secuenc ia proteica ......................................... 23 7
11 .6.2 Predicción de las propiedades físico-químicas ..................................... 239
11 .7 PREDICCIÓN DE LA ESTRUCTU RA SECUNDARIA. ............................. 242
11.8 PREDICCIÓN DE LA ESTRUCTU RA TERCIARIA ...................................... 247
11 .9 PREDICCIÓN DE GENES CON GENSCAN .................................................. 249

BIBL IOGRA FIA ............................................................................................................... 255
, ,
IN DICE ALFA BETICO .......... ... ....... ................. ........................ ....... ... ........... ... .......... .... 259
AUTOR
David Roldán Martínez es doctor ingeniero de Telecomunicación y máster
en Redes Corporativas e Integración de Sistemas por la Universidad Politécnica de
Valencia (UPV). Ha trabajado en empresas de co nsultoría y desarrollo de proyectos y
productos relacionados con las tecnologías de la información y hoy en día es analista
de aplicaciones de l ASIC de la UPV.

Ha contri buido activamente en comunidades open source co mo Sakai


(software e-learning en donde desempeñó diversos cargos de respo nsabilidad
mundial y que le otorgó en 20 11 el Sakai Fe/low Award por su participación activa
en e l desa rrollo y puesta en marcha de Sakai alrededor del mundo). Actualmente,
es desarrollador y responsable de i 18n de Jalview, una de las herram ientas para la
gestión y anotac ión de secuencias genómicas más utilizadas a nivel mundial.

Además, ha sido profesor del Departamento de Comunicaciones de la


Universidad Politécnica de Valencia y ha im partido formac ión de posgrado en
distintas uni versidades e instituciones. Es miembro de ACTA (Asociació n de
Autores C ientíficos y Técnicos) y, siempre preocupado por la divulgación c ientífico-
tecnológica, dispone en su haber de numerosos libros y artículos relacionados con
diversos aspectos de las TIC.

AG RAD ECIMIENTOS

Este libro es especial para mí por muchas razones. Supone haber cu mplido
una ilus ión que tenía desde hace mucho tiempo: transmitir mi pasión por la B iología.
Por este motivo qu isiera agradecer, en primer lugar, a RA-MA el haber confiado en
mí y aceptado m i propuesta de proyecto.
12 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA

Y, cómo no, muchas gracias a mi mujer y a mis hijos por el tiempo que les he
robado, que no tiene precio. Espero que el sacrific io haya merecido la pena.

No me olvida ré tampoco de Óscar Pastor, Ana Cidad y Mercedes Fernández


que, co nscientemente a veces e inconscientemente otras, me han animado a alcanzar
esta meta.

También me gustaría una mención especial a Luis Ruano, mi profesor de


B iología en 3.0 BUP en el Instituto José Conde Ga rcía de Almansa (A ibacete) y que,
en su día, supo sembrar en mí la pasión por este mundo que, aunque ha tardado en
germinar, finalmente lo ha hecho.

No me dejaré a Diana, Mar, Richard, María José, Jacobo, Juan Vicente,


Pepe, Manolo, Javier, Esteban, Sebastián, Aurora, David, Sergio, Tanja y Benjamín
por su ayuda y sus opiniones.
PRÓLOGO

Durante e l siglo pasado y a principios de este, asistimos a la revolución de


las Tecnologías de la Información y las Telecomunicaciones. En apenas una década
pasamos de buscar información en enormes tomos de papel que debían consultarse
por tu rnos con otros usuarios, en bibliotecas en donde, con suerte tras varias horas
la búsqueda tenía éxito, a disponer de amplios catálogos bibliográficos en línea,
ubicados en cualquier parte del planeta y cuyas consultas pueden efectuarse sentado
cómodamente en una hamaca de la playa desde el teléfono móvi l o la tableta .

El gran reto de estas dos próximas décadas será, sin duda alguna, la
revoluc ión biológica, en cuanto prácticamente cualquier tipo de experimento se
plantea en un contexto genómico. En efecto, el hecho de que los ava nces en las
tec nologías de secuenciación permitan el análisis no solo de la secuencia de ADN
de un indi vid uo sino también de su metaboloma con un nivel de detalle suficiente
como para predecir la evolución de una enfermedad o una terapia, va a suponer una
profunda transfo rmación co nceptual, técn ica y tecno lógica de la Biología en general
y de la Medicina en particular, que se nta rá las bases de la Medicina Predictiva,
Personalizada, Preventiva y Particípativa.

Por otra parte, e l creciente vol umen de información heterogénea en origen y


s ignificado, a lo que se suma su complejidad y la neces idad de analizarla en distintos
contextos ha convertido a la Bioínformática en una p ieza clave en el futuro cercano
de la humanidad.

A través de esta obra el au tor, David Roldán, intenta darnos una vis ión
eminentemente práctica de los principios básicos de la Bioinformática, ex plicando
14 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA

con detal le los aspectos fundamenta les de esta ra ma híbrida entre Co mputac ión y
B iología.

Desde estas líneas aprovecho la oportunidad pa ra da rle mi más sincera


enhorabuena por un trabajo ta n conseguido, así como para fe licitarle porque,
sinceramente, p ienso que e l esfuerzo y la ilus ión que ha invertido han merecido la
pena.

Óscar Pastor López


Caredrático de universidad
Director d el grupo de investigación PROS
INTRODUCCIÓN

La información biológica se produce a un ritmo fenomenal , hasta tal pun to


que se estima que cada 15 meses se duplica su tamaño. El resultado, además de una
eno rme montaña de datos biológicos, es que se hace imprescindible la utilización
de ordenadores que asista n a los c ientíficos en la gesti ón de dicha información. Y
es en este contexto en donde se enmarca la B ioinformática. Au nque son muchas las
definiciones que se han dado de la Bioinfo rmática a lo largo de los últimos años,
todas coinc iden en señalar dos aspectos básicos.

En prim er lugar, la Bioinfo rmática se encarga de la orga ni zación de la


información biológica de manera que se simplifique y optimice el acceso a la misma
por parte de los usuarios (investigadores, científicos y otras aplicaciones) así como de
la actualización consta nte de dicha información a medida que se vaya produciendo.

El segundo objetivo es proporcionar a los usuarios las herram ientas y


recursos necesar ios para analizar los datos bio lógicos. Efectivamen te, no solamente
se requ iere poder acceder a la información s ino también herramientas que permitan
realizar búsquedas en grandes volúmenes de datos de manera sencilla, o cruzar
información de distintas fuentes bien para contrastarla o bien incl uso para generar
información derivada. Este campo de la minería de datos ofrece una proyección de
futuro realmente espec tacular.

Este libro aborda el estudio de la Bioinformática centrándose, precisamente,


en estos dos enfoques. En los primeros capítulos se estudian las características de
la información biológica y qué principios es necesario tener en cuenta a la hora de
diseña r un s istema de info rmac ión biológico. Por otro lado, en su segunda pa11e, la
obra se centra en prese nta r herramientas y métodos de anális is de dicha información
biológica. Es im portante subrayar que se ha hecho especial hincap ié en seleccionar
16 BIOINFORMATICA: El AON AUN SOLO CLIC ©RA-MA

herram ientas de fuentes abiertas (open source), ya que de esta manera estarán al
a lcance de cualqu ier lector, sin tener que depender de onerosos costes de licencias.

Además, para reforza r esta vis ión, se presenta un conj unto de ejercicios
y cuestiones prácticas, donde se proponen y resuelven diferentes eje rc iCIOS que
permiten profundizar en los conceptos teóricos in troducidos.

1.1 AQUIÉN VA DESTINADO ESTE LIBRO

El libro está orientado tanto a informáticos, como a biólogos y estudiantes


de los primeros cu rsos de Biotec nología, Ingeniería Biomédica y ca rreras afines
pues aborda la temáti ca desde un punto de vista prác ti co planteando , cuando la
temática lo perm ite, ejercicios y cuestiones resueltas, co n una extensión amplia en
los comentarios de las soluciones.

Si e l lector es un usuario con amplia experiencia en Bioinfonnática, se verá


tentado a saltarse parte del contenido de este libro. La experiencia demuestra que
muchos de los conceptos básicos han s ido pasados po r alto incluso po r usuarios
experimentados. Pa ra evita r esto, en cada capítulo del libro se resa ltan con leyendas
gráficas (presen tadas en la sección 1.3) aspectos importa ntes que hay que tener en
cuenta, así como co nsejos práct icos.

1.2 ESTRUCTURA DE ESTE LIBRO

A lo largo del libro, y sobre todo en la segu nda pa rte del mismo, se hará uso
del sigui ente esquema para las prácti cas y para los ejem plos presentados.

El uso de la Bioin formática en la Biología Mo lecular se ha visto ace lerado


por la capacidad de l software para anal izar datos de secuencias así como po r la
posibilidad de almacenar conocimiento sobre las mismas en bases de datos de tal
manera que, cuando un biólogo se enfrenta al problema de identifi ca r una determinada
secuencia con el fin de ave riguar, por ejemplo, qué función o qué estructu ra tendrá,
se realiza una comparac ión de d icha secuencia con las guardadas en disti ntas bases
de datos. En esta co mparac ión y posterior procesado se identifica una serie de pasos
bien difere nciados (ver Figu ra 1.1 ). En primer lugar, se realiza una búsqueda en
bases de datos genómicas para determi nar si existe algún conocimiento anter ior de
dicha secuencia (paso 1), de secuencias simi lares (paso 2) o ciertas regiones de la
secuencia (motivo) con s ignificado fu nciona l o estructural (paso 3). Los resultados de
©RA-MA Capítulo !. INTRODUCCIÓN 17

la búsqueda (paso 4) se a linean con la secuencia bajo estudio (paso 5) para obtener,
por una parte, el árbol filogenético (paso 6) y, por otra, zonas conservadas (paso 7). A
pa rtir de las zonas conservadas es posible definir motivos (paso 8) e iniciar el proceso
de nuevo. Sobre este proceso básico, es posible construir otros más complejos como
la predicción de genes o la predicción de la estructura de secuencias de proteínas.

BASES DE DATOS
MOLECULARES

INFORMACIÓ N

.,.
~
.. - -· ....
RESULTADO DE
LA BÚSQUEDA ------·--
... -
____ -·-~-

------ ..
_..... __ _
,._.. .. _
__
_,..

·--..--
___--.....,
.-..
---·---·
,.
.---... ~-·
:=..-::-.=:-

- -
---
. .........
ALINEAMIENTO
SECUE NCIA

BASES DE DATOS DE
M OTIVOS MOTIVOS

Los 11 capítulos de este libro pretenden que el lector adquiera los


conocimientos básicos de Bioinformática que le permitan desenvolverse con cierta
soltura cuando se le plantee resolver e l problema de averigua r la mayor cantidad de
información posible sobre una determinada secuencia.

1.3 LEYENDAS

Co mo ya se ha comentado, en cada capítulo de este libro se destacan algunos


aspectos importantes que hay que tener en cuenta y se dan también determ inadas
recomendaciones prácticas. Para destacar estos puntos se u ti !izan las leyendas
gráficas que se presentan a continuación.
18 BIOINFORMATICA: El AON AUN SOLO CLIC © RA-MA

Aspecto que hay que tener en cuenta

Recomendación práctica

r .-.
00
.......... Prueba tú mismo

Ejemplo o punto teórico desarrollado en prácticas

~
~
~~ Recuerda
FUNDAMENTOS BIOLÓGICOS

La Genética, en su más amplio sentido, es la rama de la c iencia encargada


de estudiar el funcionamie nto y la transmisión de los genes, responsables últimos de
la herenc ia.

Sus bases fueron establecidas por el monje austriaco Gregor Mendel en 1866
con su trabajo sobre la hibridación de los guisantes. Tradicional mente, se ha basado en
los procesos de mutación y selección. Los experimentos de M en del concluyeron que la
herencia reside en unas unidades disc retas que pasan de generación en generación de
manera independ iente. Estas unidades, a las que se acuñó con el nombre de elemente, en
1909 tomarían el nombre de genes. La rama de la Genét ica encargada de la transm isión
de los ca racteres hered itarios de una generación a otra es la Genética C lásica, y está
relacionada con la Genética Poblac ional que, basándose en la genética de familias
individuales, trata de extrapolar las conclusiones a grupos de individuos más grandes.

Ya en la época moderna se estableció la Genética Molecular, encargada del


estudio físico-q uímico del ADN, e l ARN y las proteínas. También se conoce con el
nombre de Genómica y es en la que nos centra remos en este libro.

Finalmente, encontramos la Genética Cuantitativa. Se trata de un campo


extremadamente matemático cuyo objetivo es el aná lis is de relac iones estadísticas
entre los genes y los rasgos que imprimen.

Este capítulo introduce, muy brevemente, los fundamentos


elementales de Biología para comprender el contexto en que se
enmarca todo el desarrollo posterior.
~....:.:_.:.........c::CJ Algunos conceptos se han s implificado con el fin de facilitar su
comprensión por parte del lector no iniciado, aun a ri esgo de ser poco estrictos.
Rogamos a los expe rtos que sepan disculpar esta aparente fa lta de rigu rosidad.
20 BIOINFORMATICA: El AON AUN SOLO CLIC ©RA-MA

2.1 FISIOLOGÍA CELULAR

Una célula puede defin irse como la unidad mínima capaz de realizar todas
las funciones asociadas a un organismo vivo (nutrición, re lac ión y reproducci ón).

A la hora de c lasificar las células, existen orga nismos unicelulares y


organismos pluricel ulares.

Desde el punto de vista un icelular, podemos distinguir entre:

,.. Células procariotas: carecen de núcleo y otros orgánulos (vacuolas y


mitocondrias). En este caso, e l material genético está disperso en una o
más regiones nucleoides si n la protección de una membrana nuclear. A
este grupo pertenecen las bacterias y algunas algas.

,.. Células eucariotas: se caracterizan porque tienen un núcleo en e l que


se localiza el ADN y que almacena el material genético de la célula.
Además, en el c itoplasma existente entre el núcleo y la membrana celular
que marca los límites de la célula, encontra mos numerosos orgánu los con
func iones muy definidas.
La mayoría de los eucariotas son organismos pluricelulares, aunque
también los hay uni celulares como las levaduras.

,.. Virus y orga nismos subvirásicos: estrictamente hablando, no son seres


celulares, ya que no son capaces de sobrevivir de manera independiente
y necesitan de otra célula a la que infectan. Tienen una estructura muy
s imple formada por un filamento de ADN o ARN (nunca los dos en el
mismo virus), envuelto por una cápsu la proteica especial.

No obstante, en la naturaleza resulta muy común encontrar agrupaciones de


células especializadas denominadas tejidos y que son distintos en los ani males y en
las plan tas.

La célula tiene un alto nivel de organización sorprendentemente complejo.


En la Tabla 2. 1 se recogen los componentes que forman parte de la estructura cel ular
de organismos eucariotas y procariotas.
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 21

Estructura Descripción Función


Núcleo Nucleoplasma Rodeado por una doble Control de la célula
eelalar membl'ana, contiene
el nucléolo y los
crornosomas
Nucléolo Contiene ARN y Biosíntesis de ribosomas
proteínas
r-eromatma
. 11 ADN nuclear lr Contiene los genes
Sistema de Membrana Contiene el ci toplasma Establece los lí mites de la
membraaas plasmática célula viva con e l entorno que
la rodea, regula e l intercambio
de sustancias con dicho entorno,
mantiene la estructura celular y
comunica la célula con otras
Retículo Red de membranas Biosíntesis de lípidos
endoplasmático internas
1 (RE) liso

Retículo Biosíntesis de proteínas


e ndoplasmático
(RE) rugoso
Citoplasma Ribosomas Gránulos unidos al Biosíntesis de proteínas
RE o libres por e l

Aparato de
- citoplasma
Conjunto de sáculos
.....
Mod ifica, empaqueta y distribuye
Golgi membranosos proteínas a los orgánulos de la
célula
Lisosomns Sáculos me mbranosos Contienen enzimas que participan
(en animales) en los procesos de nutrición
celular 1
Vacuolas Sáculos membranosos Participan en la nutrición celular
(plantas. hongos y a lgas)
M icrocuerpos Sáculos me mbranosos Contiene enzimas para e l
metabolismo celular
-
M itocondrias Sáculos membranosos Se encarga de la respiración
celular y de la biosintesis de
energía
Plastos Sistemas membranosos Respiración celular
(plantas y hongos)
Cltoesqueleto Microtúbulos Túbulos huecos Funciones esh·uctura les
M icrofilamentos Estructuras sólidas y Funciones estructura les y
c ilíndricas movimiento celular
Ccntrio los Ci lindros huecos Participan en la división celular
r-cr
t tOS 11 Túbulos lr Movimiento celular 1
Flagelos M icrotúbulos Movimiento celular

Tabla 2.1. Estructura de la célula eucariota


22 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

2.2 MORFOLOG(A DEL CROMOSOMA

Los cromosomas son pequeños bastones en que organiza la cromatina del


núcleo durante la división celular y que están compuestos de ADN. La transmisión
del fenotipo exige que se copie el material genético de una generación a otra. Este
proceso puede ser relativamente simple, como en algunas células procariotas que
tienen un único cromosoma circular que se transm ite de padres a hijos durante la
mitosis, o mucho más complejo, como ocu rre en las cél ulas euca riotas en la mitosis
y la meios is.

El ADN que contiene los genes de la célula se encuentra en los


cromosomas.

El número de cromosomas es ca racterístico de cada especie (ver Tabla 2.2).


Por ejemplo, en e l ser humano (Homo sapiens) el ca ri otipo está formado por 46
cromosomas. Los cromosomas se dividen en sexuales (determinan el sexo de l sujeto) y
autosómicos (no sexuales). En el caso del ser humano, existen 2 cromosomas sexuales
y 44 autosómicos. Se denomina genoma al conjunto de genes de un orga nismo.

Especie Número cromosómico


Ser humano 46 (23 pares)
Bovinos 60 (30 pares) 1
1 Oveja 11 54 (27 pares)

1
Maíz 20 (lO pares)
1 Tabaco 11 48 (24 pares)
1 Tomate 24 ( 12 pares) 1

Tabla 2.2. Número de cromosomas de algunas especies

Los cromosomas suelen representarse como una X (ver Figura 2.1 ), aunque
únicamente adoptan esta forma durante la división celular. La parte central del
cromosoma, donde se cruzan sus brazos, recibe el nombre de centrómero, mientras
que los extremos son los telómeros. Es, precisamente, en los telómeros en donde se
enc uen tra una mayo r densidad de ADN.
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 23

Telómeros
/
Brazo corto

Alelo
Brazo largo

V
Cromátidas

Figura 2.1. Morfología básica de un cromosoma eucariota

Los cromosomas son los portadores de los genes y cada cromosoma


puede albergar más de un gen. Cada par de genes homólogos transporta la misma
información genética, es decir, los mismos genes, aunque sus copias (también
llamadas a lelas) no necesariamente tienen que ser idénticas. La posición que ocupa
un gen en un cromosoma dado recibe el nombre de locus.

A más bajo nivel, un gen es una secuencia de A DN que dicta las instrucciones
para la síntesis de proteínas. Sin embargo, no todos los genes codifican proteínas.
Algunos controlan el proceso de transcripción, tal y como veremos más adelante.

Por otra parte, en el cromosoma, además de ADN existen e lementos


reguladores transcripcionales y regiones conservadas (co mo la caja TATA de las
eucariotas).

En el ADN de un cromosoma podemos encontrar genes, reguladores


y regiones conservadas.
24 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

2.3 ÁCIDOS NUCLEICOS

Los ácidos nucleicos deben su importancia a que intervienen en el manejo


de la info rmac ión genética. En los seres vivos es posible encontrar dos tipos de
ác idos nucleicos: e l desoxirribonucleico (ADN) y el ribon ucleico (ARN). Se trata de
polímeros lineales compuestos por sucesiones de nucleótidos o bases nitrogenadas.

Las ci nco bases se agru pan en bases púricas (si ti enen una estructura en doble
an illo) o bases pirimidínicas (si el anillo es simple). Las primeras son la adenina (A)
y la guanina (G), mientras que las segundas son la timina (T), la c itosi na (C) y el
uracilo (U). No todas las bases fo rman parte de los dos ác idos nucleicos. En el ADN
encontramos adenina, guanina, timina y citosina, m ientras que en el ARN solamente
existen adenina, guani na, citosina y uracilo. La secuencia de bases nitrogenadas y
la longitud de la cadena de nucléotidos es característica para cada especie v iva. Sin
embargo, los trabajos de Chargaff ( 1951) concluyeron que en todo ser vivo existe
s iemp re la misma cantidad de adenina que de timina así como de c itosi na y guanina.

2.3.1 ADN

El ácido desoxirribonucleico o ADN es e l portador de la informac ión


genética que pasará de generació n en generación entre las células del organismo y
que, co mo hemos visto anteriormente, se encuentra concentrado en los cromosomas.

La molécula de ADN tiene una forma de dob le hélice en la que dos cadenas
de bases complementarias se enrollan a lo largo de su eje central. Las bases y la
longitud de la cadena de nucleótidos son característicos del organismo y se copian
con exactitud durante la reproducción celular. Este tema será tratado detalladamente
más adelante.

Todos los tipos de ADN están compuestos por las mismas cuatro bases y
tienen estructura de doble hélice, si bien llevan a cabo fu nciones diferentes, que son:

11'" ADN nuclear: es el que se encuentra en el núcleo de la célula y responsable


de la mayoría de funciones celulares. El A DN nuc lear es el portador de
los genes.

11'" ADN mitocondrial: los anima les, las plantas y los hongos incorporan ADN
en las mitocondrias (ADNmt) cuya misión es regular el metabolismo
cel ular. Una curiosidad acerca del ADN mt es que, a diferencia de lo
que ocurre con e l ADN nuclear en donde la mitad del material genético
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 25

procede de l padre y la otra m itad de la madre, todo e l ADNmt se hereda


de la madre.

11"' ADN de los cloroplastos: además de los dos anteriores, las plantas tienen
unos orgánulos encargados de la fotosíntesis llamados cloroplastos que
también contienen moléc ul as de ADN (ADNcp).

2_3.2 ARN

El ácido ribonucleico o ARN está comp uesto por una sola cadena lineal de
nucleótidos en la que el g lúcido es la ribosa. La mayo r parte de las células contienen
de 2 a 8 veces más ARN que ADN.

Existen tres tipos de ARN, cuya síntesis se ca tal iza por tres tipos distintos de
enzimas (ARN polimerasas), que son:

11"' ARN mensajero (ARNm): es una copia complementaria del fragmento


del código genético del ADN. Su síntesis está catalizada por la ARN
polimerasa li y suele tratarse de largas cadenas de nucleótidos.

11"' ARN de transferencia (A RNt): su síntesis está cata lizada por la ARN
polimerasa III. Es e l más pequeño de los tres y se ha lla disperso por todo
e l citoplasma. Se conocen unos 50 tipos de ARNt, todos ellos tienen una
configuración similar, con un brazo aceptor, en el que apa rece siemp re la
secuencia CCA; y un anticodón, que es un triplete de bases nitrogenadas
que determ ina el aminoácido que se va a unir a esa molécu la de ARNt .

11"' ARN ribosómico (ARN r) : está formado por moléculas muy largas y
p legadas y su síntesis está cata lizada por la ARN polimerasa

Hay experimentos que parecen confirmar que el ARN es la


molécula a partir de la cual su rgió la vida, pese a que actualmente
sea e l otro ácido nucleico (ADN) e l portador de la información
'-----':...;;._--"-' genética. Una de las propiedades más características del ARN es la
autocatálisis, es decir, la capacidad de acelerar su propia formación.
26 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

2.3.3 Código genético

Cada aminoácido se corresponde con un co nj unto de tres bases denominado


codón y las secuencias de ADN y ARN se constituyen co mo tiras de estos tripletes
o codones. Puesto que las bases que se combinan en el ADN son solamente 4 (A, G,
C y T) y el número de nucléotidos por codón es tres, el número de codones teórico
es de 4 3 = 64. Dado que únicamente hay 20 aminoácidos posibles, se trata de un
código degene rado, es dec ir, tiene múlt iples símbolos para todos los am inoác idos,
con excepción del Trp y la Met. La degeneración res ide, generalmente, en la tercera
posición de su codón (extremo 3 '): e l nucleótido de esta posición es mucho menos
específico que e l pri mero y que el segundo. Tres de las 64 secuencias no codifican
ningún am inoácido sino que determinan el final de la cadena polipeptidica, por lo
que se les co noce co n el nombre de codones de terminación.

El conjunto de códigos posibles recibe el nombre de código genético y es


universal. En la Tabla 2.3 se indica la codificación de bases de cada uno de los
aminoácidos.

Ala (A) GCU, GCC, GCA. GCG Lys (K) AAA. AAG

Arg (R) CGU. CGC, CGA, CGG, AGA, Mct (M) AUG
AGG
Asn (N) AAU, AAC Phe (F) uuu, uuc
Asp (D) J lGAU,GAC Pro (P) JLCCU, CCC, CCA . CCG
Cys (C) UGU, UGC Sec (U) UGA
Gln (Q) CAA, CAG Ser (S) UCU, UCC, UCA, UCG, AGU,
AGC
Glu (E) GAA, GAG Thr (T) ACU, ACC, ACA, ACG
Gly (G) JLGGU,GGC,GGA,GGG Trp (W) JLUGG
His (H) CAU, CAC Tyr (Y) UAU,UAC
Ilc (1) 11 AUU,AUC,AUA Val (V) GUU. GUC, GUA, GUG
Leu (L) UUA, UUG, CUU , CUC, CUA,
CUG
Comienzo 11 A UG 11 Parada 11 UAG, UGA, UAA 1
Tabla 2.3. Código genético
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 27

2.4 DOGMA CENTRAL DE LA BIOLOGIA MOLECULAR

La base química de la herencia es la molécula de ADN. En 1953 James


Watson y Francis Crick postularon que la molécula de ADN está formada por largas
cadenas de nucleótidos enrollados en espiral formando una doble hélice. Trabajos
posteriores de Crack, Brenner, Niremberg y Ochoa co ncluyeron la existencia de un
mecanismo de transmisión de la herencia: la transcripción del mensaje genético del
ADN a l ARN y la síntesis de proteínas (ver Figura 2.2). Esto es lo que se conoce
como Dogma central de la Biología Molecu lar.

Replicación Replicación

Transcripción Traducción
ADN ARN Proteína
Transcripción
inversa

Figura 2.2. Dogma central de la Biología Molecular

Aunque el proceso es esencialmente e l mismo en células eucariotas y en


procariotas, existen algunas diferencias pero quedan fuera del ámbito de este libro.

La Figura 2.3 esq uematiza cómo se lleva a cabo el proceso completo:

CADENA QUE SE TRANSCRIBE

l TRANSCRIPCIÓN

u u

., ., 1 \
y (
COOÓN DE INICIO

l TRADUCCIÓN
CODÓN DE TERMINACIÓN

Met Lys

Figura 2.3. Procesos de transcripción y traducción


28 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

Durante la replicación de una cadena de ADN se obtendrán dos cadenas


idénticas, una de las cuales irá a la célula madre y la otra a la hija. Comienza cuando
se encuentra en la cadena original la secuencia de inicio, que marca e l punto por el
que debe abrirse la doble hélice y comenzar la replicación. Una vez ab ietta, se van
ensamblando nucleótidos por complementariedad (transcripción), de manera que la
hebra origi nal se lee en sentido 3 '--+ 5' y la nueva se sintetiza en se ntido 5'--+ 3 ' . La
duplicación acaba cuando se encuentra una secuencia de nucleótidos denominada
secuencia de terminación.

Aunque este es el procedimiento habitual, en algunos casos el


ADN se sintetiza mediante un proceso denominado transcripción
inversa, en la que se patte de ARN y se obtiene ADN gracias a la
e=;;._""--'-' ADN-polimerasa-ARN-dirigida (transcriptasa inversa). Suele
ocurrir en virus de ARN cancerígenos.

La transcripción consiste en copiar la secuencia de ADN en ARNm.


A diferencia de lo que ocurre en la replicación, en donde se dup lica la mo lécula
de ADN completa, en la transcripción únicamente se copia un conjunto de genes
determinado.

La copia que se realiza durante la transcripción se efectúa por


complementariedad de bases y la unión de las mismas se rea liza en unas zonas
denominadas promotores. Se trata de secuencias com unes compuestas de 1O
nucleótidos (secuencia -1 0 o caja TATA) o de 35 nucleótidos (secuencia - 35 o caja
de entrada). La síntesis del ARNm finaliza cuando se encuentra una secuencia de
term inación. En este momento, el ARNm se separará y el ADN recupe rará su forma
de doble hélice original.

Finalizada la transcripción, e l paso siguiente es la traducc ión o biosíntesis de


proteínas. D ura nte este p roceso, hay que tener en cuenta que no todas las secuencias
de bases codifican proteínas, sino que hay segmentos que no tienen fu nción aparente.
Los primeros se denom inan exones, mientras que los segundos son los intrones.
En la sín tesis de proteínas, se eliminan los intrones y en el ARNm se ensamblan
únicamente los exones.
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 29

INTRONES

AO' ~-"'~" _J
EXONES

ARNm
l Se elim inan los intrones y
se e nsamblan los exon es

Figura 2.4. Síntesis de proteínas

2.5 REGULACIÓN GÉNICA

No todos los genes están activos en todo momento. Al contrario, de todos los
genes que posee un organismo, solo unos pocos se expresan en cada instante. Este
nivel de expresión se encuentra regulado debido a l alto coste energético que supone
la síntesis de proteínas. La regulación puede actuar durante la transcripción o du rante
la traducción.

En general, la regulación puede ser positiva o negativa. En la regulación


positiva se aumenta la expresión de los genes, mientras que en la regulación negativa
se disminuye. Los dos tipos de regulac ión, positiva y negativa, pueden darse
s imultáneamente en el mismo sistema celular. En ambos casos, los reguladores son
proteínas que reconocen secuencias específicas de ADN.

Los mecanismos de regulación son diferentes en células procariotas y en


células eucariotas. En el primer caso, e l ARNm suele ser policistrón ico (contiene
varios genes), mientras que en e l segundo cada secuencia de ARNrn contiene la
información de un solo gen (monocistrónico).
FORMATOS DE FICHEROS

Las plataformas de secuenciación genera n grandes cantidades de información


que exigen ser guardadas, parseadas y analizadas de manera eficiente. Una
secuenciación típica producirá ficheros que ocuparán desde unos pocos megabytes
a lera bytes y contend rán miles o mi llones de lecturas, junto con información como
identificadores de lectu ra, descripciones, anotaciones, metadatos, etc.

La Figura 3.1 muestra los principales formatos de ficheros en función de la etapa


de l aná lisis de la secuencia en que nos encontramos. Las plataformas de secuenciación,
a partir de una muestra biológica, generan información en formato FASTA/FASTAQ,
principalmente. Estas secuencias biológicas (de nuc leótidos o de aminoácidos) son
susceptibles de sufrir un proceso de al ineamiento (formatos SAM/ BAM), anális is de
variac iones (fo rmato VCF) y anotación (formatos GFF/GFF3, GVF y BED).

PLATAFORMAS DE
SECUENCIACIÓN

FASTA. FASTAQ

'
( AliNEAMIENTO )
SAM{BAM

ANÁliSIS DE
VARIACIONES
VCF
ANOTACIÓN

1
!
GFF/ GFFJ, GVf, BED
V

Figura 3.1. Formatos de ficheros en el análisis de datos genómicos


32 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

La lista de formatos que se estudiarán a lo largo de este libro no es


exhaustiva, ni mucho menos. Si algo caracteriza la Bioinformática
es la falta de un estándar g lobal para representar la información,
=;;....:..::..¡;;,-=::..~ cualquiera que sea el estado de la misma. En su lugar, encontramos
toda una miríada de formatos de ficheros. No obstante, hemos recogido aquí los
más hab ituales.

3.1 DATOS EN BRUTO

El hec ho de que una secuencia se pueda representar como una cadena de texto
permite que, en real idad, todos estos ficheros con secuencias de nucleótidos y proteínas
sean ficheros de texto plano. Estos ficheros únicamente pueden contener caracteres
lUPAC (ver Tablas 3.1 y 3.2) y espacios y si rven para almacena r solo la secuencia:

ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCC
CTGCCCCTGGAGGGTACGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATA
AGGAAAAGCAGCCTCCTGACTTTCCTCGCTTGGTAGTGGACCTCCCAGGCCAGTGCCGGGCCCCT
CATAGGAGAGGAAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCATCCGCGCGCCGGG
ACAGAATGCCCTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAA

Figura 3.2. Ejemplo de secuencia de nucleótidos

Este formato tiene algunas limitaciones obvias: no p ueden incluirse ni el


nombre de la secuencia (ca racteres alfan uméricos) ni más de una secuencia por
fichero. Po r este motivo, y por algunos otros, se han ido incorporando otros formatos
de fi chero más complejos que permiten referir más información.

Código de la base Significado


A 11 Aden ina 1
e eitosina
G 11 Guanina
T Timina
u 11 Uracilo 1
R G o A (purina)
y 11 T o e (pirimidina)
-
M
K
"
11
G o T (cetona)
A o e (am ino) -,
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 33

S G o e (interacción fuerte)
w 11 A o T (interacción débil)
B G, Toe (no A)
D 11 G,AoT(noe) 1
H A, e o T (no G) 1
V 11 G. e o A (no T ni lJ.).
N A, G, C, T (cualqu iera)
X 11 Máscara 1
Hueco _j
Tabla 3.1. Código IUB/IUPAC para nucleótidos

Código de aminoácido Significado

~ A 11 Alanina
B Asparagina
...,
e 11 eisteína
D Ácido aspártico
E 11 Ácido glutámíco
F Fenilalanina
G 11 Glicina
H Hístídína
1 11 lsoleucina 1
K Lisina
L 11 Leucina
M Metionina
N 11 Asparagina
o Pirrolisina
p 11 Prolina
Q Glutamina
"
R 11 Arginina 1
S S erina
T 11 Treonina
~
u Selenocisteína
---,
V 11 Valina
w Triptófano
y 11 Tírosína 1
z Glutamina
X 11 Cualquiera
• Parada de traducc ión
- 11 Hueco

Tabla 3.2. Código IUBIIUPAC para aminoácidos


34 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

3.2 FASTA

Un fichero en formato FASTA es un fichero de texto que contiene largas


cadenas de caracteres correspondientes a secuencias de nucleótidos o péptidos.
Además, incluye una línea de definición en la que se enc uentra e l nombre de las
secuencias y comentarios ac larativos sobre las mismas.

La línea de definición del formato FASTA se caracteriza por comenzar por el


símbolo '> 'seguido de un nombre y una descripción. A conti nuac ión, se encuentra
la secuencia escrita en texto plano:

>Human
ATGGCACATGCAGCGCAAGTAGGTCTACAAGACGCTACTTCCCCTATCATAGAAGAGCTTATCAC
CTTTCATGATCACGCCCTCATAATCATTTTCCTTATCTGCTTCCTAGTCCTGTATGCCCTTTTCC
TAACACTCACAACAAAACTAACTAATACTAACATCTCAGACGCTCAGGAAATAGAAACCGTCTGA
ACTATCCTGCCCGCCATCATCCTAGTCCTCATCGCCCTCCCATCCCTACGCATCCTTTACATAAC
AGACGAGGTCAACGATCCCTCCCTTACCATCAAATCAATTGGCCACCAATGGTACTGAACCTACG
AGTACACCGACTACGGCGGACTAATCTTCAACTCCTACATACTTCCCCCATTATTCCTAGAACCA
GGCGACCTGCGACTCCTTGACGTTGACAATCGAGTAGTACTCCCGATTGAAGCCCCCATTCGTAT
AATAATTACATCACAAGACGTCTTGCACTCATGAGCTGTCCCCACATTAGGCTTAAAAACAGATG
CAATTCCCGGACGTCTAAACCAAACCACTTTCACCGCTACACGACCGGGGGTATACTACGGTCAA
TGCTCTGAAATCTGTGGAGCAAACCACAGTTTCATGCCCATCGTCCTAGAATTAATTCCCCTAA

Figura 3.3. Secuencia en formato FASTA

Se recomienda que todas las líneas de texto tengan menos de 80 ca racteres


para fac ili tar la visualización y la edición. Por otra parte, las secuencias deben estar
escritas en el estánda r TUB/TUPAC, co n las siguientes excepciones:

,.. Se aceptan letras m inúsculas, aunque luego se conviertan a mayúsculas.

,.. Empleo de un paréntesis o un guió n para representar un hueco de longitud


indeterminada.

,.. Se aceptan la U y el carácter ' *'en secuencias de am inoácidos.

Con es te formato, es posible incluir va rias secuencias en un mismo fichero,


siempre y cuando tengan líneas de definición disti ntas.
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 35

3.3 FASTAQ

Se utiliza, sobre todo, para guardar las lecturas de las plataformas de


secuenciación y se trata de una extensión del FASTA que incorpora, junto a la
secuencia, una indicación de la calidad o PHRED de cada nucleótido de la secuencia.
Tanto la letra de la secuencia como su calidad se codifican, por "simplic idad" y no
"simplificidad", en un carácter ASCII.

En un fichero FASTAQ, existen cuatro secciones, tal y como se muestra


en el ejemplo (ver Figura 3.4). En la primera línea, se encuentra una arroba ('@')
seguido de un identificador de la secuencia sin ningún límite de longitud, por lo
que es posible incluir alguna anotación arbitraria o comentarios. A continuación,
aparecen las líneas de la secuencia en formato FASTA y, para señalizar el fin de las
líneas de secuencia y el comienzo de los indicadores de calidad, la tercera sección
empieza por un ' +', opcionalmente, seguido del identificador de la secuencia y la
descripción que ya se indicaron en la primera línea. Finalmente, vienen las líneas de
calidad, que son tiras de caracteres ASCII imprimibles, en donde el carácter ' !'es la
calidad más baja, el '-'la más alta y el resto son los va lores de calidad ordenados de
izquierda a derecha por calidad creciente.

@secuencia 1
-
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
! ' ' * ( ( ( ( ***+ )) %%%++ ) (%%%% ) .1 ***- +* ' ' ) ) **55CCF>>>>>>CCCCCCC65
@secuencia 2
ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG
+
208DA83 0 8A0 8SF83FHOSD8F08APFIDJFN34JW830UDS8UFDSADPFIJ3 N8DAA

Figura 3.4. Secuencia en formato FASTAQ

Es importante remarca r que e l símbolo '@ ' podría aparecer en cualquier


posición de la línea de calidad. En estos casos, no debe trata rse como marcado r de
una nueva secuencia y debe comprobarse que la longitud de la línea de calidad es
idéntica a la long itud de la secuencia.

La longitud de la secuencia y la de la línea de calidad deben ser


idénticas. En caso contrario, el fichero se puede considerar corrupto
e inservible.
36 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

El indicador PHRED está relacionado, loga rítm icamente, con la probabilidad


de error en la secuenciación P:

De esta manera, a partir de la lí nea de calidad es posible ca lcular la


probabi lidad de un erro r en la secuenciación. Por ejemplo, s i escogemos los valores
de calidad correspondientes a las tres primeras bases de la secuencia secuencia_ ! :

! ' ' * ( ( ( (*** +) ) %%%++ ) (%%%% ) . 1***-+*' ' )) **55CCF>>>»>CCCCCCC65

Figura 3.5. Ejemplo de linea de calidad

Sus valores ASCII so n, respectivamente, 33, 39 y 39. Teniendo en cuenta la


re lación anterior, las probabilidades de error en la secuenciación será n de 0,0501 %,
0,0 125% y 0,0125%.

Existen varias versiones de este formato, según el fabricante de la plataforma


de secuenciación, pero la más utilizada es la Sanger, que acepta PARED en el rango
[0, 93] y caracteres ASCII en tre e l 33 y el 126. Po r otro lado, lllu mina 1.0 codifica el
PHRED entre [-5, 62] y caracteres ASCTT entre el 59 y el 126 mientras que lllumina
1.3+ codifica PARED entre [0, 62) y caracteres ASCII entre 64 y 126.

3.4 SAM/BAM
El formato SAM (Sequence Alignment/MAP) es un formato genérico
utilizado para guardar alineamientos de secuencias de nucleótidos. Se trata de un
formato cuyo parseo consume gran cantidad de recursos y es lento, por lo que se
defin ió una versión binaria de l mismo, e l formato BAM.

Las principales ventajas de estos formatos son las siguientes:

11"' Flexibles, ya que permiten almacena r información de a li neamiento


generada po r varios programas.
11"' Simples, lo que posibilita que gran cantidad del software existente los
soporten.
11"' E l tamaño de l fichero es razonablemente reduc ido.
11"' No es necesa rio cargar todo el fichero para empezar a procesa r la
información que co ntiene.
11"' Es posible indexar e l contenido por la posición genómica.
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 37

Un fichero SAM es un fichero delimitado por tabuladores que co ntiene una


cabecera (opcional) y una sección con los datos del alineamiento propiamente dichos.

Si está presente, la cabecera es la primera de las secciones. Las líneas de la


cabecera van todas precedidas por una arroba '@'y un código de dos letras. Todas
las líneas de cabecera, excepto las que empiecen por @ CO, deben esta r tabuladas. A
continuac ión, se encuentran pares Etiqueta: Va lor.

Campo de la cabcce r·a Contenido Significado


[ @HD 1 VN* Versión
so Ordenación de los alineamientos
Valores aceptados: tmkown (por defecto), wtsorted,
queryname y coordinare
Diccionario de referencia de secuencias. El orden de
las líneas c. S determina el orden del alineamiento
Nombre de referencia de la secuencia

Rl de la secuencia
@ RG Grupo de lecturas
ID * Identificador del grupo de lecturas. Debe ser único a
nivel de todos los grupos de lecturas
CN Nombre de la secuencia central que produce la lectura
Descripción
Fecha de ejecución

usado para procesar el conjunto de lecturas

Plataforma de sccuenciación
Unidad usada en la plataforma

ldent ificador del programa de registro

Línea de comandos
Anterior PG-ID. Debe coincidir con el ID de alguna
cti ucta de e ncabezado PG
Versión del programa
--===;¡,¡¡:;== VN
@_CO Comentario

Tabla 3.3. Estructura de la cabecera


38 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

Tras la cabecera, se encuentran la sección de a lineamientos, en donde cada


línea tiene once campos obligatorios (ver Tabla 3.4) y un número variab le de campos
opcionales. Los campos obligatorios deben aparecer s iempre en e l mismo orden.

Orden 'iomhre Descri pciím

1 QNAME Nombre de la consulta


2 FLAG
= Bandera de opciones
r 3 11 RNAME Nombre de la secuencia
4 POS Posición de la base más a la izquierda
5
JL MAPQ ......Ca lidad del mapeo 1

6 CIGAR Cadena CIGAR


7 RNEXT Referencia al siguiente fragmento de la secuenc ia
8 PNEXT Posición del siguiente fragmento
9 TLEN Longitud de la plantilla
10 SEQ Fragmento de la secuencia
11 QUAL Ca lidad de la secuencia

Tabla 3.4. Campos obligatorios

La especificación completa del formato SAM/BAM está accesible


en http://samtools.source.forge.net/SAM l.pdf

En e l ejemplo de la Figu ra 3.6 vemos que se trata de un fichero de la vers ión


1.0 (@ HD VN: 1.0) donde los alineamientos se han ordenado por el campo RNAME
(SO:coordinate). Por otra parte, existen dos secuencias (@ SQ SN:seql y @ SQ
SN:seq2) y se ha añad ido el comentario " Ejemplo de fichero SAM".

@HD VN : l . O SO : coordinate
@SQ SN : seql LN : 5000
@SQ SN : seq 2 LN : 5000
@CO Ejemplo d e fic hero SAM
87 591 : 4 : 96 : 693 : 509 73 seql l 99 36M * o
O CACTAGTGGCTCATTGTAAATGTGTGGTTTAACTCG <<<<<<<<<<<<<<< ; <<<<
<<<<5<<<<< ;: <; 7 MF : i : 18 Aq : i : 73 NM : i : 0 UQ : i : 0 H0 : i : 1
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 39

Hl : i : O
EAS54 65 : 7 : 152 : 368 : 113 73 seq1 3 99 35M * o
O CTAGTGGCTCATTGTAAATGTGTGGTTTAACTCGT <<<<<<<<<<0<<<<655<<
<<< : 9<<3/ : <6) : MF : i : l S Aq : i : 66 NM : i : O UQ : i : O H O : i : 1
Hl : i : O

Figura 3.6. Fragmento de un fichero en formato SAM

En cuanto a la sección de alineamientos, podemos deduc ir la informac ión


res umida en la Tabla 3.5:

Campo Alineam iento 1 Alineamiento 2

QNA ME 1[ 87 _59 1:4:96:693:509 11 EAS54_ 65 :7: 152:368:11 3


FLAG 73 73

..
RNAME

scq 1 Scq l
POS 1 3
r-
MAPQ
-... 99
r-
99
CIGAR 36M 35M
MRNM/ RNEXT Jl• n·
MPOS/PNEXT o o
f lSIZErrLEN Jlo ~Lo
SEQ CACTAGTGGCTCATTGTA CTAGTGGCTCATTGTAAA
AATGTGTGG TTTAACTCG TGTGTGGTTTAACTCGT
QUAL <<<<<<<<<<<<<<<;<<<<<<<<< <<<<<<<<<<0<<<<655<<7<<<
,. ,
5<<<<<··<·7 :9«3/ :<6):
TAGs MF:i :l 8 Aq:i:73 MF:i :l 8 Aq: i:66
-
NM: i:O UQ:i:O NM :i:O UQ:i :O
HO: i: 1 H 1:i:O HO:i: 1 Hl: i:O

Tabla 3.5. Contenido de la sección de alineamientos

Uno de los pun tos en los que merece la pena detenerse, po r su complejidad,
es en la obtención de la cade na CIGAR (Compact ldiosyncratic Gapped Alignment
Report), que describe cómo se mapea una secuencia respecto a un genoma de
referencia.
40 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

La especificación establece que para calcular la cadena CTGAR de un


alineamiento hay que utilizar la Tabla 3.6:

Operador BAi\1 Descripción

M 11 o 11 Coincidencia en e l a lineamiento

L D
1 1
2
Inserción
JLBorrado
e-
~
N -"' 3 Salto de una región que está presente en la referencia pero no en la
secuencia que se a linea
S 4 11 Soji clipping 1
H 5 Hard clipping

~
p
~ e-
6 JLRelleno de la referencia -
- 7 Coincidencia entre la referencia y la secuencia que se alinea
X 11 8 11 No coincidencia entre la referencia y la secuenc ia que se alinea

Tabla 3.6. Operadores de cálculo de la cadena CIGAR

Supongamos que un secuenciado r nos proporciona la siguiente lectura:

ACTAGAATGGCT

Figura 3.7. Ejemplo de muestra de un secuenciador

Y que queremos alinearla con la siguiente secuencia de referencia:

CCATACTGAACTGACTAAC

Figura 3.8. Secuencia con la que se quiere alinear la salida del secuenciador

Para calcular la cadena CTGAR correspondiente a este a lineamiento, resulta


útil representarla en forma de tabla. En la fila superior se muestran las posiciones
(P); en la segunda fila, las bases de la secuencia de referencia y, en la tercera, la
secuencia que se alinea.

Figura 3.9. Cálculo de la cadena CIGAR


©RA-MA Capítulo 3. FORMATOS OE FICHEROS 41

Tomando como referencia la posición O, la cadena CIGAR serí a


1X 1=8X2=7D, es decir, que hay una base que no coincide en las dos secuencias, otra
base que sí coincide, seguida de 8 bases que no coinciden, 2 bases que sí coinciden
y 7 borrados (bases que están en la referencia pero no en la secuencia que se alinea).

3_5 GFF/GFF3

Un fichero en formato GFF (General Fea tu re Formal) está formado por líneas
con nueve campos cada una, todos ellos obl igatorios. Se trata de un formato muy
restrictivo puesto que si, por ejemplo, los campos se separan por espacios en lugar de
por tabuladores, algunas herramientas no podrán procesarlo adecuadamente.

La Figura 3. 1O muestra un ejemplo de fichero en formato GFF:

SEQ1 EMBL atg 103 105 . + 0


SEQ1 EMBL exon 103 172 . + O
SEQ1 EMBL splice5 172 173 . +
SEQ1 ne t gene sp l ice5 172 173 0 . 94 + .
SEQl ge n ie sp5-20 163 182 2 . 3 +
SEQ1 ge n ie sp5- 10 168 177 2 . 1 + .
SEQ2 grail ATG 17 19 2 . 1 - O

Figura 3.1 O. Fichero en formato GFF

El principal problema de l formato GFF es que, a pesar de encontrarse


muy extendido, existen a lgunas va riantes incompatibles entre sí. Para resolver este
inconveniente se creó un nuevo formato, el GFF3, caracterizado principalmente por:

1"' Proporciona un mecanismo para representar más de un nivel de


agrupamiento jerárquico de características y características de
características.
1"' Separa las ideas de miembro de un grupo y de nombre de característica.
1"' Restringe e l tipo de características a un vocabula ri o controlado.
1"' Permite que una característica dada, como un exón, pertenezca a más de
un grupo a la vez.
1"' Proporciona una convención explícita para los alineam ientos de pares.
1"' Proporciona una convención explícita para características que ocupan
regiones disjuntas.
42 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

La Tabla 3.7 resume brevemente el significado de estos campos:

:'llombrc d el ca mpo Descripción

l Seqname JlNombre de la secuencia


Source Programa que ha generado la secuencia
Featu re Tipo de secuencia (gen, CDS, etc.)
~
Start Posición de inicio de la secuencia
r-
End Posición final de la secuencia
Score Calificación de la secuencia. Cuando no existe ninguna calificación, se
especifica un '.'o un O
Strand Dirección de la secuencia. Los valores válidos son'+', ·.•, o·: (si no l
se sabe o no importa).
Frame Toma Jos valores 'O' , ' 1', '2' o ' .'
'0': indica que la primera base de la región especificada se corresponde
con la primera base de un codón
' 1·: significa que hay una base adicional, es decir, que la segunda base
de la región especificada se corresponde con la primera base de un
codón
'2': quiere decir que la tercera base de la región especificada es el
primera base de un codón
Attributcs Opcional. Otros atributos definidos por el usuario
!::
Comments Opcional. Cualquie r comentario acerca de la secuencia

Tabla 3.7. Campos de un fichero en formato GFF3

Teniendo en cuenta la Tabla 3.7, la primera línea del fichero de ejemplo


representa una secuencia llamada SEQ 1 obtenida de la base de datos de secuencias
de EMBL cuya característica atg, comprendida entre los nucleótidos 103 y 105, sin
calificación, pertenece a la dirección '+' . Al tener el campo fi·ame el valor cero, se
trata de un exón.

Utilizando la información de la Tabla 3.7, interpreta el resto de


·' líneas del fichero . Si tienes alguna duda, puedes consultar
~,!:~~~ directamente la especificación oficial del formato en https:l!www.
~-----~ sanget:ac.uk/ resources/software/gj]7spec. htm/.
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 43

3.6 GVF

GVF es un tipo de formato GFF3 que incluye pragmas y atrib utos


adic ionales (ver Tabla 3.8). De hecho, un fichero GVF tiene la misma es tructu ra de
líneas delimitadas por tabu ladores con nueve campos y todas las restricc iones que se
ap lica n a un fichero GFF3, también lo hacen a un fic hero GVF.

La cabecera de un fichero GVF está compuesta de pragmas precedidas por


una doble almohadilla. Conti enen metadatos y la única obligatoria es ##gvf-version
1.07, que indica la versión de la especificación del formato del fic hero que se ha
util izado.

Es muy importante remarcar el hecho de que la almohadilla debe


ser doble o, de lo contrario, la línea será ignorada, incluso si
contiene una única almohadi lla.

A la cabecera le s1guen las líneas de características que contienen la


información sobre las variaciones:

11"' Seqid: cromosoma o contig en el que se ha encontrado la vari ación.

11"' Source: fuente de la que procede la variac ión.

11"' Type : tipo de va ri ación.

11"' Start: comienzo de la variación.

11"' End: fin de la variación.

11"' Score : probabilidad de error en la va riación, calculada en escala PHRED.

11"' Atributos: conjunto de pares etiqueta=valor según las directrices


recogidas en la Tabla 3.8 (los campos obligatorios están marcados con
un aster isco):
44 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

Etiqueta Descripción
ID* Identificador único a nivel de fichero
Variant_seq Secuencia de la variación. Si tiene más de 50 bases, se puede resumir
con un ··•. Por otra parte, si se trata de un borrado respecto de la
secuencia de referencia el campo torna el valor' ·
"' ' ' -
f Reference seq 11 Secuencia de referencia
Variant reads Núrnero de lecturas que soporta cada variación
[rotal r~ads 11 Número total de lecturas
Genotypc Genotipo de la variación
~ariant_freq 11 Frecuencia de la variación en una población de indiv iduos
. . .. . .
Vanant_effect Consecuenctas de la vanac10n en la secuencta de referencta
~..-,-,-;-~-
Variant_copy_nurnber Para las regiones en las que existen varias copias de la variación del
_ _. 1..!i!:l norna, este cameoJnd i~p.el número de co ia
e::.:.:
Reference_copy_number Para las regiones en las que existen varias copias de la variación del
genoma, este campo indica el número de copia en forma de identilicador
Nomcnclaturc Indica la denominación HGVS de la variación

Tabla 3.8. Atributos de una variación

,_,¿
La especificación completa del formato GVF está accesible en
.-. hup:/lwww.sequenceontology.OI·glresourceslgvfhtml.
~

La Figura 3. 11 muestra un ejemplo de variac iones descritas en formato GVF,


según la especificación 1.07 del formato del fichero. Si ana lizamos la primera línea
de características, obtendremos que se trata de una variación en el cromosoma 16,
generada con samtools, de tipo SNV, que comienza en la posición 4929 1141 y acaba
en la 4929114 1, con un indicador PHRED ' +' (probabilidad de error del 0,005%),
ca racterizada porque se encuentran dos bases (A y G) en lugar de una G.

Nigvf-version 1 . 07
Nigenome- build NCBI B36 . 3
Nisequence-region chr16 1 88827254
chr16 samtoo l s SNV 4929114 1 49291141 + ID=ID l ; Variant
seq=A , G; Reference_seq=G ;
chr16 samtoo l s SNV 49291360 49291360 + ID:ID_2 ; Variant
seq=G;Reference_ seq=C ;
chr16 samtools SNV 49302125 49302125 + ID=ID_3 ; Variant
seq=T , C; Reference_ seq=C;
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 45

chr16 samtools SNV 49302365 49302365 + ID=ID 4 ; Variant


seq=G , C; Reference_ seq=C;
chr16 samtools SNV 49302700 49302700 + ID=ID 5 ; Variant
seq=T; Reference_ seq=C ;
chr16 samtools SNV 49303084 49303084 + ID= ID 6 ; Variant
seq=G , T ; Reference_seq=T ;
chr16 samtools SNV 493031 56 49303156 + ID=ID 7 ; Variant
seq=T , C; Reference_seq=C ;
chr16 samtoo l s SNV 49303427 49303427 + ID=ID S ; Variant
seq=T , C; Reference_seq=C ;
chr16 samtools SNV 49303596 49303596 + ID~ ID 9 ; Variant
seq=T , C; Reference_ seq=C;
-
Figura 3.11. Ejemplo de fichero GVF

HGVS es una especificación de variaciones muy compleja cuya


descripción queda fuera del ámbito de este libro. Remitimos al
lector al sitio web http://www.hgvs.org/mutnomen/.

3J VCF
El formato VCF (Variant Cal/ Formal) se emplea para recoger información
de variaciones. Como en los casos anteriores, se trata de un fichero de texto dividido
en líneas cuyos campos se separan por tabuladores.

Los campos empleados por el formato VCF se resumen en la Tabla 3.9:

Columna Campo Descripción

1 CIIROM Nombre del cromosoma


2 POS Posición, más a la izquierda, de la variación
3 ID Identificador de la variación
4 REF A le lo de referencia
5 ALT A le los a lternativos SCQarados QOr comas
6 QUAL Indicador de la ca lidad de la variación
7 FILTER Fi ltrj>s_ap..!j¡;ados
8 !NFO Información sobre la variación
9 FORMAT
10 SAMPLE

Tabla 3.9. Campos de un fichero VCF


46 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

Por otra parte, las etiquetas empleadas en el campo INFO son las de la Tabla
3.10:

Etiqueta l>escripciiÍn

~ AA Alelo ancestral
AC Número de a lelos en el genotipo
AF lf Frecuencia del alelo
AN Número total de alelas en e l genotipo
BQ i['"Calidad RMS de esta ~osición
CIGAR Cadena CIGAR que describe cómo a linear e l a lelo con e l a lelo de referencia
DB Entrada dbSN P
END Posición final de la variación
H2 ll ldentificador HPMAP2

~
li3 l ndenti ficador li PM A P3
MQ Calidad RMS
MQO Número MAPQ

- NS
SB
SOMATIC
ILNúmero de muestras con datos
liebra en esta posición
Indica que el registro es una mutación somática para los estudios relacionados
con el cáncer
VAUDATED Variación contrastada experimentalmente
IOOOG Miembro de 1000 Geno mes

Tabla 3.1 O. Formato del campo INFO

El proyecto HapMap (hup://hapmap.ncbi.nlm.nih.govl) es una


iniciativa internacional cuyo objetivo es recop ilar información
sob re genes y enfermedades humanas.

La Figu ra 3.1 2 muestra un ejemplo de fichero VCF sencillo.

#ilfileformat=VCFv4 . O
NllfileDa te=200 9080 S
##source=myimputationProgramV3 .1
Nllreference=l000GenomesPilot-NCBI36
Niphasing=partia l
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 47

NtiNFO=<ID=NS , Number=1 , Type=Integer, Description=" Number of


Samples Wit h Da t a " >
NtiNFO=<ID=DP , Number=1 , Type=Integer, Description=" Total Depth" >
UINFO=<ID=AF , Number= ., Type=Float , Description=" Allele Frequency" >
NiiNFO=<ID=AA , Number=1 , Type=String , Description=" Ancestral
Allele " >
#iiNFO=<ID=DB , Number=O , Type=Flag , Description="dbSNP membership ,
build 129" >
NiiNFO=<ID=H2 , Number=O , Type=Flag , Description=" HapMap2
membership " >
NiFILTER•<ID=q10 , Description•" Quality below 10 " >
#iFILTER=<ID=sSO , Description=" Less than 50 % of samples have
data " >
#iFORMAT=<ID=GT , Number=1 , Type=String , Description=" Genotype " >
Nl!FORMAT=<ID=GQ , Number=l , Type=Integer , Description=" Genotype
Quality" >
#i!FORMAT=<ID=DP , Number=1, Type=Integer, Description=" Read Dept h " >
Nl!FORMAT=<ID=HQ , Number=2 , Type=Integer, Description="Haplotype
Quality">
NCHROM POS ID REF ALT QUAL FILTER INFO FORMAT
NA00001 NA00002 NA00003
20 14370 rs6054257 G A 29 PASS NS=3 ; DP=14 ; AF=0 . 5 ; DB ; H2
GT : GQ : DP : HQ 010 : 48 : 1 : 51 , 51 1 10 : 48 : 8 : 51 , 511/1 : 43 : 5 : . , .
20 17330 T A 3 q 1 0 NS=3 ; DP=11 ; AF=0 . 017
GT : GQ : DP : HQ 010 : 49 : 3 : 58 , 50 0 11 : 3 : 5 : 65 , 3 0/0 : 41 : 3
20 1110696 rs6040355 A G, T 67 PASS NS=2 ; DP=10 ; AF=0 . 333 , 0
667 ; AA=T ; DB GT : GQ : DP : HQ 112 : 21 : 6 : 23 , 27 211 : 2 : 0 : 18 , 2 2/2 : 35 : 4
20 1230237 . T 47 PASS NS=3 ; DP=13 ; AA=T
GT : GQ : DP : HQ 010 : 54 : 7 : 56, 60 0 10 : 48 : 4 : 51 , 51 0/0 : 61 : 2
20 1234567 microsat1 GTCT G, GTACT 50 PASS NS=3 ; DP=9 ; AA=G
GT : GQ : DP 0/1 : 35 : 4 0/2 : 17 : 2 1/1 : 40 : 3

Figura 3.12. Ejemplo de fichero VCF

Los ficheros VCF suelen comprimirse e ir acompai'lados de un fichero de


índices en tabix, lo que permite que un navegador genómico pueda interp retar
únicamente los fragme ntos de la información que se están viendo en ese momento.

La especificación completa del formato VCF está accesible en


hllp:llwww. 1OOOgenomes.org.
48 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

3.8 BED

El formato BED proporciona una manera flexible de describir las anotac iones
sobre variaciones.

Cada línea de un fichero BED tiene tres campos obligatorios y nueve campos
opcionales y están resum idos en la Tabla 3. 11, donde los campos obligatorios están
ma rcados con un asterisco.

Campo Descripción
Chrom• 11 Nombre del cromosoma o esqueleto
chromStart* Inicio de la variación dentro del cromosoma o esqueleto
(JhromEnd*J~Fin de la variación dentro del cromosoma o esqueleto
Name Nombre de la linea del fichero
Score 11 Puntuación entre O y 100. Se utiliza en la representación gráfica del fichero
Strand Orientación de la hebra('+' o'-')
thickS tan JI Inicio en que se com ienza a d ibujar la lectura
thickEnd Final del dibujo de la lectura
itemRgb Color que tendrá la lectura cuando se visualice (solo si se ha indicado que
itemRbg=''On" en la cabecera)
blockCount Número de exones presentes en la línea del fichero
blockSizes Lista, separada por comas, de los tamaños de los exones. El número de elementos
de la lista debe ser blockCormt
blockStarts Lista, separada por comas, de las posiciones de inicio de cada exón, relativas a
clrromStart. El número de elementos de la lista debe ser blockCowrt

Tabla 3.11. Campos de un fichero BED

La especificación completa de l formato BED está accesible en


http://genome. ucsc.edu/FA QIFA Qformat.html#formatl .
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 49

La Figura 3.1 3 muestra un ejemplo de fi chero BED:

browser position chr7 : 127471196-127495720


browser hide all
track name=" ItemRGBDemo" description= " Item RGB demonstration"
visibility=2 itemRgb=" On "
chr7 127471196 127472363 Pos1 o + 127471196 127472363 255 , 0 , 0
chr7 127472363 127473530 Pos2 o + 127472363 127473530 255 , 0 , 0
chr7 1 27473530 1 27474697 Pos3 o + 1 27473530 127474697 255 , 0 , 0
chr7 127474697 127475864 Pos4 o + 127474697 127475864 255 , 0 , 0
chr7 1 27475864 1 274 77031 Neg1 o 1 27475864 127477031 - 0 , 0 , 255
chr7 127477031 127478198 Neg2 o - 127477031 127478198 0 , 0 , 255
chr7 127478198 127479365 Neg3 o 127478198 127479365 - 0 , 0 , 255
chr7 1 27479365 1 27480532 Pos5 o + 1 27479365 127480532 255 , 0 , 0
chr7 127480532 127481699 Neg4 o 127480532 127481699 - 0 , 0 , 255

Figura 3.13. Ejemplo de fichero BEO

La representación gráfica de este fichero en el UCSC Genome Browser es


la de la Figura 3.1 4. Como puede observarse, los colores se corresponden con los
indicados en las diferentes líneas del fichero.

nn:u • ..,....,. • '• • • nnn- • • · - - ..-- >or>"""'"'-•,.,...--

Figura 3.14. Representación gráfica del fichero BED anterior


BASES DE DATOS GENÓMICAS

El primer genoma se secuenció en 1995 en el Institute ofGenomic Research y


correspondía a la bacteria Haemophilus influenzae. Solo unos pocos meses más ta rde,
se completó el genoma de la levadura Saccharomyces cerevisiae. Desde entonces la
cantidad de genomas secuenciados ha crecido a pasos ag igantados, incluyendo la
secuenciación completa de l genoma humano en diciembre de 2013. Tanto es así
que en apenas 20 años se ha producido una verdadera explosión de la información
genómica gracias, entre otras cosas, a l menor coste de la tecnología necesaria.

Merece la pena detenernos en observar algunos ejemplos que nos darán idea
de la magnitud de la informac ión a que nos referi mos así como del crecimiento
vertigi noso a que está sometido dicho vo lumen de información.

Una de las bases de datos genómicas más importantes, y que estudiaremos


con detalle en un capítulo posterior, es la NCBI-GenBank. En la Figura 4.1 se
observa que tanto el número de bases como el nú mero de secuencias almacenadas
ha evolucionado exponencialmente desde la versión 3 liberada en 1982. Junto con
GenBank, se muestra también la evolución de los registros del proyecto WGS, en
donde se maneja información de genomas procariotas y eucariotas y que comenzó
en abril de 2002.
52 BIOINFORMATICA: El AON A UN SOLO CLIC © RA-MA

Bases

1.000.000.000 .... • GenBank


. WGS
100.000.000.0...

10.000.000.000

1.000 000.000

100.000.000

10.000.000

1.000.000

1985 1990 1995 2000 2005 2010

Sequences
• GenBank
100.000.000 . WGS

10.000.000

1.000.000

100.000

10.000

1.000

1985 1990 1995 2000 2005 2010

Figura 4.1. Evolución de la información almacenada en GenBank y WGS


©RA-MA Capítulo 4. BASES DE DATOS GENOMICAS 53

Por otra parte, la Figu ra 4.2 resume los genomas registrados en la base de
datos Entrez y el sistema de búsqueda de secuencias por excelencia, que también
está alojado en el NCB!:

·~
l,.,

115.1
- ,,., - •
""'' ""

Figura 4.2. Estadísticas de la base de datos de genomas del NBCI

Esta exposición de información que, en cierta manera, podría verse como una
oportu nid ad para desarrollar un conocimiento más profundo de distintos organismos,
también constituye un riesgo de encontrarse información dispersa, desactualizada y
compleja de procesa r.

A medida que la cantidad de los datos aumenta, la tarea de identificar las


re lac iones criticas entre ellos se vuelve compleja. Organiza r la informac ión biológica
en bases de datos dedicadas en las que se a lmacena informac ión relacionada ha s ido
muy útiL Sin embargo, el número de estas bases de datos ha alcanzado una c ifra
considerable (del orden de mi les de ellas a l año), lo que plantea otros retos como la
extracción de información útil o la minería de datos eficiente.

En gran medida, las dificultades actua les de l anál isis de datos biológicos
surgen, simplemente, de la neces idad de cruzar la información presen te en distintas
bases de datos que, por si fuera poco, se encuen tran dispersas y, además, con más
frecuencia de la necesaria ofrecen dato s incoherentes e inc luso con tradictorios.
54 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

La solució n a estos problemas de dispersión de recu rsos y variedad de


formatos de la información son las bases de datos genómicas, cuyas características,
variedad y principios básicos de d iseño abordaremos a lo largo de este capítulo.

4.1 ¿QUÉ ES UNA BASE DE DATOS GENÓMICA?

Una base de datos genómica es un repositorio de informac ión que incluye


todos o pa rte de los datos de una secuencia de ADN de uno o más organismos.
Ge nera lmente, en una base de datos genómica también puede encontrarse informac ión
ad ic ional (anotaciones) que o bien describen características de la propia secuencia
de ADN o bien propiedades biológicas de los organismos a los que pertenece dicha
secuencia. Las anotaciones genómicas pueden clasificarse en dos grandes gru pos:

,. A notaciones cromosó m icas locales, que está n asoc iadas a una determ inada
regió n de un cromosoma. La ubicación de los genes o anotaciones sobre
la estructura del ge n que indiquen las fronteras exón/ intrón const.ituyen
a lgunos ejemplos de este tipo de anotaciones.

,. Anotaciones no d irectamente asociadas con una región genómica como


datos sobre la estructura de la proteína o sob re vías metabólicas.

A lgunas bases de datos genómicas proporcionan una interfaz de usuario


que perm ite realizar consultas, v isualizar las anotaciones, etc. Esta interfaz recibe el
nombre de navegador genó mico.

Una base de datos genómica es un reposito rio de información que


incluye todos o parte de los datos de una secuencia de ADN de uno
o más organismos.

4.2 CLASIFICACIÓN DE LAS BASES DE DATOS GENÓMICAS

Las primeras bases de datos genómicas que aparecieron se centraban en


la integración de los datos de una úni ca especie. Ejem plos represe ntati vos son
WormBase (dedicada al gusano Caenorhabditis elegans) o F lyBase (especializada en
la mosca de la fruta, la Drosophi/a melanogaster). Sin embargo, la apa rición de otras
©RA-MA Capítulo 4. BASES DE DATOS GENOMICAS 55

bases de datos y la evidencia de la re lac ión entre los genomas de distintas especies
han puesto de manifiesto que para la comprensión del genoma de una especie es vital
compararlo con la evol uci ón de sus parientes cercanos. Así, podemos encontrar bases
de datos genómicas globales, que contienen datos de varios organismos y diferentes
tipos de secuencia y, bases de datos genómicas especializadas en determinados
organismos, categorías o funciones específicas de secuencias o datos generados por
tecnologías de secuenciación concretas. La Tabla 4.1 recoge algunos de los ejemplos
más representativos.

Globales Nucleótidos GenBank


EMBL: European Molecular Biology
Laboratory
DDBJ: DNA Data Bank of Japan
Proteínas Entrez Protein
Swiss-Prot
PIR -lnternational
UniProt
Estructura de proteínas MMDB: Molecular Modeling Database -
(basada en PDB)
PDB: Protein Data Bank
Gcnomas y mapas Entrez Genome
Bibliografia j l,PUBMED
Rutas metabólicas KEGG
Enfermedades genét icas OMIM
humanas
Especializadas Organismos Human Gcnomc Sequencing
GDB: Genome Database (human mapping
information)
MGD: Mouse Genome Database
SGD: Saccharomyces Genome Database
Categorías o funciones de TRANSFAC: Transcription Factors
secuencias Vector Database 1
Datos generados por EST: Expressed Scquence Tags
tecnologías de secuenciación GSS: Genome Survey Sequences
concretas STS: Sequence Tagged Sites
HTG: High Throughput Sequcncc

Tabla 4.1. Ejemplos de bases de datos genómicas

Finalmente, otra manera muy extendida de c lasificar las bases de datos


genómicas es atendiendo al origen de los datos que almacenan. Según este criterio
distinguimos entre bases de datos primarias y bases de datos secundarias.
56 BIOINFORMATICA: El AON AUN SOLO CLIC ©RA-MA

Las bases primarias a lmacenan datos en bruto procedentes de experimentos


en laboratorios y se dividen en bases de datos de secuencias (como Swiss-Prot) y
bases de datos estructurales (como Protein Databank para la estructura de proteínas).
Genera lmente, contienen enormes cantidades de info rmación y se actua liza n co n una
e levada frecuencia .

Por su parte, las bases de datos secunda rias contienen información derivada de
una o más bases de datos primarias que se obtiene como resultado del procesamiento
de estas últ imas. A diferencia de las bases de datos primarias, su frecuencia de
actualización es más reducida. Su mayo r ventaja es que, al contener información
tratada, ahorran a los c ientíficos tiempo y esfuerzo en el aná lisis de los datos.

4.3 CARACTERfSTICAS DE LA INFORMACIÓN GENÓMICA

En teoría, la construcción de una base de datos biológica no debería ser


muy distinta de la construcción de una base de datos para cualquier otro dominio de
ap licación como un sistema de info rmac ión ba ncario o el de una agencia de segu ros.
Desgraciadamente, nada más lejos de la realidad, ya que la información biológica
presenta unas características ún icas que dificultan, y mucho, la implementación de
este tipo de sistemas de información.

Uno de los aspectos que más merece la pena destacar es el grado de


incertidu mbre en las reglas de negocio, a diferencia de lo que ocurre en otros entornos.
Las reglas de negocio son las restricciones que hay que aplicar sobre los datos y que
se deducen de las entidades del mundo real que representan dichos datos, así como
las debidas a las necesidades específicas de la organización que explotará la base de
datos. En un contexto biológico, las reg las de negocio que marcan las restricciones
sobre los datos presentan cierto nive l de incertidumbre, debido, fundamentalmente,
a las siguientes razones:

11"' La interp retación de la información almacenada puede cambiar con el


tiempo gracias a un descubrimiento científi co que altera las relac iones
entre los datos. Por ejemplo, algunos genes estructurales de ARN no se
a lmacenaba n en las bases de datos hasta hace relativamente poco tiempo,
cuando se descubrieron otros genes de ARN con funciones muy d iversas.
Esta amp liación de l co nocimiento tiene un c laro impacto en el modelado
del sistema.

11"' La informac ión a lmacenada se considera in varia ble basándose en unos


c iertos resultados experimentales, ya que hay medidas más fiab les
©RA-MA Capítulo 4. BASES DE DATOS GENOMICAS 57

que otras. Sobre esta información tamb ién se genera otro resultado de
la interpretación de la primera. Si un experimento demostrara que la
supuesta invariabilidad era errónea, la interpretación de la m isma exigiría
una revisión que podría tener un impacto considerable en e l mode lo.

Una manera de reducir la incertidumbre es almacenarlos j unto a


info rmación de manera desestructu rada en forma de co menta ri os
de texto. Pa ra evitar que esta desestructurac ión afecte a las
L-~~J consultas comp lejas, es preferi ble categorizarla de alguna manera.
En la Práctica l se mostrará cómo.

Por otra pa11e, el elevado nive l de complej idad de los datos b iológicos
co mparado con otros do mini os de apl icación de las bases de datos supone un reto
pa ra el modelado de las estru cturas de datos y sus relaciones que ha sido abordado
desde diferentes perspectivas (ficheros planos, bases de datos relaciona les, bases
de datos orientadas a objetos, etc .). Un mode lado poco preciso puede llevar a una
pérdida de información que desemboque en un fallo total de l diseño.

En general, distintas bases de datos emplean diferentes formatos para


a lmacenar y represe nta r la info rmac ión (este punto lo trataremos en un capítulo
pos terior). Por tanto, los tipos de datos escogidos en el d iseño de la base de datos
deben ser suficientemente flexibles. De hec ho, en ocasiones es necesario utilizar
distintos tipos de datos para la misma informació n dependiendo de l co ntexto de uso,
por lo que resulta hab itual construi r va rios esq uemas conceptuales de un mismo
esq uema fís ico.

Otro obstáculo es que los usuarios de las bases de datos genómicas tienen,
normalmente, un conocimiento red ucido del d iseño del esquema, lo que obliga a
que la interfaz de acceso a la base de datos (generalmente, a través de la web) sea
flexible, intuitiva y maneje una gran variedad de consultas potencialmente co mplejas
así como que permita realizar comparaciones con los resul tados obtenidos de otras
bases de datos.

Finalmente, resulta basta nte común real izar cambios en el esquema y


someterlo a un proceso conti nuo y recursivo de rediseño. La pri ncipal consecuencia
es que es recomendable, por no decir obligatorio, seguir una polí tica de control de
vers iones con publicación de las actualizaciones respecto de versiones anterio res.
58 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

Las principales características de la info rmación almacenada en las


bases de datos genómicas son las siguientes:

~ Muy compleja y, en ocasiones, redundante.


~ Variabilidad de la información genómica.
~ Elevada tasa de cambio que puede implicar cambios en el esquema de la
base de datos.
~ Conocimiento limi tado del esquema por parte de los usuarios de la base de
datos.
~ Importancia de consultas complejas.

4.4 CONSTRUCCIÓN DE UNA BASE DE DATOS GENÓMICA

La construcción de una base de datos genómica es una tarea compleja en la


que pueden distinguirse algunas subtareas comunes a la gra n mayoría de bases de
datos genómicas, y que son:
~ Diseño e implementación de la arquitectura de almacenamiento que
albergará los datos.
~ Mantenimiento y actualización de la base de datos a medida que se
publique información adic ional.
En muchos casos, la responsabilidad de estas tareas recae en equipos de
proyectos distintos. Esta complejidad de tareas y dispersión de responsabilidades tiene
como principal consecuencia que no todas las bases de datos genómicas sean igual de
fiables. De hecho, cabe distingu ir entre archivos genómicos y bases de datos maduras.
Los arch ivos genómicos son bases de datos genómicas que constituyen un
repositorio de información en ocasiones redundante (por eje mpl o, porque contenga
va ri as secuencias de l mismo gen, una de un laboratorio diferente), no se mantiene
ningún control sobre los reg istros que se guardan, no existe un vocabulario co ntro lado,
etc. No se trata, ni mucho menos, de bases de datos con información errónea, pero sí
conviene tener en cuenta estos aspectos.
Por su parte, las bases de datos maduras están sometidas a procedimientos
de contro l rigurosos que consiguen el im inar la redundancia de la información
y garant.izar la coherencia de los datos guardados. Además, dicha información es
revisada por equipos de expertos.
©RA-MA Capítulo 4. BASES DE DATOS GENOMICAS 59

4.5 MODELADO DE INFORMACIÓN GENÓMICA

Un modelo adecuado es crítico para la construcción y mantenimiento de


la base de datos genó mica. Obviamente, para realiza r un buen modelado resulta
imprescindib le un mínimo conocimiento del dom inio del problema, es dec ir, del
contexto biológico en que se enmarca la información genómica. Por ello, remitimos
al lector a la primera parte de este libro, en la que encontrará una explicación detallada
de los co nceptos biológicos básicos.

A la hora de elegir la técnica de modelado, co nviene centrarse en los aspectos


de los datos o de l anál isis de los mismos re levantes para la aplicac ión y enlazar a
otras bases de datos biológicas para el resto. Sin embargo, esta limitación del enfoque
no debe confundirse con un d iseño de la base de datos que cubra los req uisitos más
inmediatos de la aplicac ión. A l contrari o, e l d iseño de la base de datos puede ig norar
o simplificar la informac ión que quede fuera del ámbito del proyecto, pero debe
establecer una representac ión completa de la parte de información biológica que
representa, incl uso au nque dicha apl icación no vaya a uti liza r parte de la info rmac ión
a lmacenada. La consecuencia princ ipal es que e l diseño es mucho más robusto y
flexible.

En cuanto a las técnicas de mode lado, destaca remos las siguientes:

,. Modelado Entidad-Relació n: es una de las técnicas de modelado más


extendidas en la Ingeniería del Software. Resu lta muy adecuada cuando
existen entidades bien definidas con relaciones re lat ivamente sim ples
entre ellas. Como hemos v isto en el punto anterior, este no es e l caso,
por lo que es necesario extender el mode lo Entidad-Relación. De hec ho,
en la Práctica 1 uti lizaremos el mode lo Entidad-Relación Extendido,
amp liamente documentado en la Bibliografía.

,. Modelado UML: UML (Unified Mode/ling Language) es un lenguaje


de modelado que captura información de un sistema bajo estudio desde
d iversas perspect.ivas y con distintos niveles de detalle. Por otra pa rte,
ofrece una represen tación ideal para perspectivas ori entadas a objetos.

,. Modelado XML (eXtensible Markup Language): XML es un lenguaje de


marcado que se emplea para representar la estructura de la información
que maneja el sistema bajo estudio y para establecer las reg las básicas
del intercamb io de la misma entre entidades relacionadas con el mismo.
60 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

4.6 INTEGRACIÓN DE BASES DE DATOS BIOLÓGICAS

Según algu nos estudios, el vo lumen de la información genómica se dobla


cada 18 meses y, además, e l número de bases de datos crece a una tasa anual de en
torn o al 5%. Todo ello tiene como resultado una dispersión enorm e del conocimiento
biológico que hace que el principal problema pa ra el investigador sea la búsqueda
de dicha información y para al bioinformático el diseño de un sistema capaz de
proporcionarla.

Co n e l fin de dar respuesta a estos interrogantes se han desarrollado varias


estrateg ias de integració n que parten del hecho de que, aunque las bases de datos
biológicas difieren en su estructu ra interna, implementación y ámb ito bio lógico, la
mayo ría tienen una arquitectura de tres capas.

La estrategia de integración más sencilla es la basada en referencias. En


este caso, pa ra las entradas de una base de datos se proporciona una referencia a la
información contenida sob re dicha en trada en otra base de datos di ferente, de tal
manera que, al presentar la información a l usuari o fina l esta referencia se co nvierte en
un enlace a la otra base de datos. La princ ipal ventaja de este enfoque es su senci llez
de implementación aunq ue a costa de la actua lización, fiab ilidad y va lidez de la
fuente externa. Por ejemplo, si buscamos en GenBank el registro correspondiente a
la hemoglobina humana (ve r Figu ra 4 .3), ve remos que aparecen una serie de enlaces
y que al segu irlos nos lleva n, en este caso, a la info rmac ión recuperada de la base de
datos taxonómica.

Homo aaptens NilW>GIOC* (H88) g.ne, promo..,r ftgiOn, txons 1, 2 and p¡rllll cds
~O,OQ\WTOII1

~110 Jaoag

~ . . ... .. ~.. 0:. - ¡,...... ... .........•«•


~

..""... ...,.
'"'m'"'"' ...
- ._._.:¡,..._ ,_,,.,.. ·-· - ·· ..._,.,, ..,.,..., u.~~o t . •.,.

- ---·---
....

·- ..... __.....
~
'tli<U:OO )I>~H 1 X•~$~n10

..,.,_
.......... -
.......,, ,.
, .,_,..., _.........
..
- ;.., ,.., ,
.-·-··_ ........ .............. ......... ................
P <'N!',.OI ···-·(ti,(~ o ~ ·"oto \>60"~.-ro f".>• Of'l""ll

~
... , ... '"''..... ,_.
.......... ...,.. -·- ..... ,............ _
.....,.. .. . . - _.. .,__. -
-~
~
lUlo« ,_....,.,..,.n "'n~ ..w..u. -........., •:
·~
;
u..~...,. n~•• "' "'" .... p
~_l

...rua:: : - · ; .. ....
M;tJI,;t.,t
nn.:
.-..:. a..- ""-··-
•oiWolor., f.e•d•f>l•o IO;.J.UC..o r.,

_ , ... o:~.:»co
~$-fo

- - - , , ..:, eo:.o ~·•· _ ...,


... ,..,.,,,,

·:.::::::;~:::;~.::'" ~ ~
.u..-.. . . .. . . , _ , ........., • 1,

-- ~b---!1It:
~¿.=:?.:="E~~~~~:sl
-..
..... d ......
• ~~lc. Qon;o~tCM~oo---"""-­
' U.....;.. .........._ ~
• "-m· m•'e'""·~~

Figura 4.3. Integración basada en referencias


©RA-MA Capítulo 4. BASES DE DATOS GENOMICAS 61

Un enfoque basado en serv1c1os web soluciona estos inconvenientes a la


vez que mantiene una simplicidad de implementación. En este caso, la integración
con la base de datos externa se lleva a cabo por medio de la comunicación con un
proceso remoto que expone los datos de la base de datos deseada. Manteni endo la
interfaz de co mun icación entre las bases de datos, cualquier cambio que se produzca
en ambas será transparente para el otro extremo. Un ejemplo es la base de datos de
dom inios funcionales en proteínas PRODOM (http://prodom.prabi.fr), que ofrece
una in terfaz basada en servicios web para la consulta de información y la realización
de operaciones básicas. La Figura 4.4 muestra el fichero de descripc ión de uno de
sus servicios web:

<">-J..._... ,,o. ~1ft ... '>


• .:.-.;dl;ckft~otOM n- - 'b&.ostpt0<1Son.4ol' IO'I'ft• 'OOIII>:'In.,.://~"'-·)(mko"f>·.../-.ell/-p/" o)'l'jN •- ='tllltp:j/pr...,..,, pr..bUr, ...,,.,~·
,...,.....W$dl -'llng://S(II~~.XMI,..p..oro(w~ ' ""*"'' '-IOJMfp://-.wJ~/:tVO I /liiMlS(flt-' tlii"'t~-...a»«..'llrt'IJI!//Pf'OOOo'in.()f~..lr/lll~l(iW'OdoOm' >
<W"...dl:docuncntAbon..0....1<0Cl: O..nid . ....... k..t.n&IH"""....,"'·"...... ty... t .fdtefet.,.c:e: !krv•nt r , l'lru C,. C.ni...... $, c:-,_,n., r , Coou.y J, P>o:yt~KO, IC.h10 f) ()00,)
PWODom: .,...,..,,.,tod du'<l...t.g ot~.. dom..,,., lldall..g'< lnllkointMn.A"Ik;o., Yol ~.no ~;)116• J:U </..,.d:• ..........,t~_, >
• <wS<I:~ ¡,.
"-"'C':~ ~tf"OO'I't!Oer....,t -'tj-liroo:d' t4f9etl'~ce-.,,Us>://~ooo.,.....bO.I•/b&.~lllf'OCkleto' ,.... tl'd-'t>UP'.//pfodo>oM.po•bi.lt/....,-.lvt~•·
-*'-m ..,Up:/ /- w.w'l .Of'J/)00 1/ XIoUllldoum" '"
- c:nc:l:~........ .._ ..........t ........ >
- 011<1 ~~~ ) f
- (I!Sd:$~>
en<~ ~ "-•""Pf<l!J'••'"' t'JS)c 'x..cb.~ 1>
~:~ nno,..qvery' ~ """X,;.d:!stltng' 1>
QI'Od:..~Ñ _ . .....,....... typn *'•'Od:~tti'"!J'/>
</'O!'d ~n(O)o
<IJj<l:(~. .,.>
<JJ;ll(!·.t.... .....b
..,,..,,dem<nl ......... ·w...............pooo...,' >
<l(ld ·~oTypo >
• «$d!HQUéf\Ot}o
c»>ll ~ n~:"'..&&os~a · t')'I~ -·~:Shlo.,' />
~:~ n)l'lle llf"ll&oo,.tptOdlm"9e' tvoe "''nd:.«<l"ft9" 1>
4 c.d .......,....,., ..
-rlnd:~ypo,.
</Gd:tiotfiii'Pn
<IXS~ Kf~ ,.
q,.$11:1~~,.
..,...d:eoo::o:~ ouma .,..,.,.,pt<>d~~:ooq-.,tMo.g' ,.
<o'l~:p;~rt nr•,..II\I*M'I'&~ dti'loent -'tM.:biM1JtrOCI ' ¡:,.
q ..1dl ~>
· ~:r.t9SOtCM ,.._....~o<llteSpqonS~~~,.
._.,,¡t;p.o•l ele~net~L::"tn"':!I~J""'dOlle.,.-...,' - - 'oiO'If"'4W•.......,.... />
~~..,,_~...,. ,.

..w~:C>OI'tt\'ll4 nr,._.l*!o;tp«>doMI>or1lYJM)'>
- ( ftWI C(I,..»>ñ ~='tii~IP*">

Figura 4.4. Integración a través de servicios web

Otra posibilidad es la llamada integración po r vistas. Una vista, co mo su


nombre indica, es una panorámica de la información que conti ene una base de datos
que está limitada por una serie de factores y que se consulta como si de información
propia se tratara. Genera lmente, las vistas se generan a partir de información de
distintas tab las, de manera que el usuari o que consulta la vista no necesita conocer
la estructura de las tablas imp licadas en la definición de la vista. En la Figura 4 .5 se
ve como la Vista A está formada a parti r de l subco nj unto de las tab las de la base de
datos, mientras que la Vista B permite e l acceso a datos a otro subconjunto distinto.
62 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

VISTA A VISTAS

ll ll íi ltl

- 1 1 1 1 1 1

·-

TABLAS DE LA BASE DE DATOS

Figura 4.5. Integración por vistas

Finalmente, encontram os los almacenes de datos (data warehouse) , cuyo


objetivo es aglutinar, en una sola base de datos, un modelo de datos unificado
que contenga la información de todas las fuentes de datos externas. El principal
obstáculo que se enc uentra es la naturaleza dinám ica de la info rmac ión y la dificultad
de mantenimiento de la misma.
PRÁCTICA 1: DISEÑO DE BASES
,
DE
DATOS BIOLOGICAS

En esta práctica sobre diseño de bases de datos biológicas propondremos un


eje mplo simplificado de este tipo de bases de datos y abordaremos, con cierto nivel
de detal le, e l diseño de las mismas utilizando varias aprox imacio nes.

El ejemplo base será un s istema de información que almacena rá datos sobre


proteínas y las especies en que se encuentran, así como de las secuencias que las
componen. Adicionalmente, se rá posib le adjuntar, j unto a las proteínas, anotac iones
sobre las mismas.

5.1 DISEÑO RELACIONAL

La elaboración de un esquema Entidad-Relación es un proceso a ltamente


creativo, por lo que resulta complejo establecer un procedimiento s istemático que
garantice la resolución de cualquier ti po de problema. No obsta nte, la práctica
demuestra que hay ciertas recomendaciones que simplifican el proceso de diseño.

En un diagrama Entidad-Relación encontramos, en la versión más sencilla,


tres elementos :

,.. En ti dades: so n los objetos principales del modelo y recogen los co nceptos
del dominio bajo estudio. En este ejemplo, serían proteína, especie,
secuencia y anotación.
64 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

11"' Atr ibutos: representan características de las entidades del modelo y los
hay de dos tipos: los identificadores (aquellos que permiten d istinguir
ocu rrencias disti ntas de un ejempla r de la entidad) y los descriptores (el
resto).

11"' Relaciones: so n asociaciones entre una o más entidades, de l mismo o de


d istinto tipo. Se caracterizan por la cardinalidad o número de entidades
que se relacionan.

El diagrama Entidad-Relació n' correspondiente al ejemplo que nos ocupa


es el que se muestra en la Figura 5.1. En él, podemos encontrar seis entidades
(PROTEIN, PROTEIN_S YNONYM, SPECIE, SEQUENCE, PROTEIN_INFO y
PROTETN_ TNFO _TYPE_ CODE).

PROTtiN_INFO
PROTtiN_INFO_TYPE_COOE ·PROTEIN_INfO_ID: tnt
· PROTEIN_INF-O_TYPE_CODE_ID: int ·PROTEIN_INFO: ~tring
· CODE,..OESC : suin¡: ·REFERENCE_URl: strin¡:
·COOE VERBOSE DESC : sttin&
- •DAlt..CREATEO : int
<REATED_BY: strtlg
1

-
1

S{QUEHCE
PROTEIN
·SEQUENCE_IO: lnt
-PROTEIN..IO : lnt
•S{QOENCE_ANNOTATION : $lting
·PROTEIN..ClASS_NAME : S.lting
·Sl·QUENCE_LENGTH : lnt
·DATE,.CREATEO : lnt
·ACCESSION..NUMBER : strfl¡
·S!O.UENCE_LOAD_OATE : lnt
- • .CREATED_BY: String

-
PAOTEIN_SVNOMYM SPECIE
.PROTEIN..SYNONYM_ID: int ·S:PECtE..IO: lnt
·SYNO.NYM : h t ·SCIENnFIC_NAME: string
o()ATE_CREATEO: int
h .COMMON..NAME: string
.CREATEO..BY: strlng • 1 ·DATE_CAEATtO: lnt
.CREATED..BY: strin¡

Figura 5.1. Diagrama Entidad-Relación

La notación específica empleada para la construcción de este tipo de diagramas puede encontrarse en Ja Biblio-
gralia.
©RA-MA Capftulo 5. PRACTICA 1: DISENO DE BASES DE DATOS BIOlÓGICAS 65

Aunque no es el caso, podría ocurrir que aparecie ran algunas restricc iones
semánticas que escapan a la capacidad de representación del modelo Entidad-Relación.
Po r este motivo, se extendió el modelo para dar lugar al modelo Entidad-Relac ión
Ex tendido que, j unto a lo an teriormente comentado incluye la generalización.

La generalización propo rciona un mecanismo de abstracción que permite


especializa r una entidad, es decir, generar sub tipos de un supe rtipo. Por ejemplo,
una variac ión puede ser de tres ti pos: inserción, delec ión o indel. En un diagrama
En tidad-Relación estas relaciones quedarían representadas como:

VARIATION
~
·VARIATION_ID: int
....
V
"
~

INSERTION DELETION INDEL

Figura 5.2. Ejemplo de generalización

Junto con esta relació n de generalización aparecen las de tota lidad/


parcialidad y las de exclusividad/solapamiento. Una relación de generalizació n es
total cuando no existe ninguna entidad del supertipo y no pertenece a a lguno de los
subtipos; en caso contrario, se d ice que la general ización es pa rc ial. Por otra parte, la
generalización será exclusiva si una entidad perienece única mente a un subtipo. En
e l caso de las vari ac iones, se trata de una generalización total y exclus iva: todas las
variaciones son una inserción, o una deleción o un indel.

Una vez que se dispone del diagrama Entidad-Re lación, el paso siguiente
es transformar este modelo conceptual a un mode lo relaciona l, es decir, obtener las
tablas de la base de datos que co nte ndrán la info rmac ión que queremos almacena r.
Las tres reglas básicas que debemos seguir son:

r Una entidad se transforma en una tabla cuya clave primaria es el


identificador de la entidad.

r La relaciones N :M se transforman en una tabla con una clave primaria


fo rmada por los identificadores de las entidades que relacionan.

r Las relac iones 1:N dan lugar o bien a una propagación de la clave o bien
a una tabla.
66 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

A la hora de decidir si se propaga o no la clave, conviene hacer un


esfuerzo en prever qué es lo que ocurrirá con la relación en el
futuro . Si se cree posible que evolucione a una relación N:M,
resulta recomendable transformar la relación 1:N en una tabla.

Si aplicamos estas reglas, obtenemos e l esquema de tablas de la Figura 5.3:

SEQUENCE PROTEIN

PK SEQ.UENCE ID PK PROTEI N ID

PROTEIN_ CLASS_NAME
SEQU ENCE_ANNOTATION
SEQUENCE_LENGTH
~ OATE_CREATEO
ACCESSION_NUMBER CREATEO_BY
SEQU ENCE_LOAO_OATE

PROTEIN_INFO

PROTEIN_SEQUENCE PK,FKl PROTWI ID


PK PROTEIN INFO ID
PK PROTEIN ID
K SEQ.UENCE ID PROTEIN_INFO_ TYPE_ COOE_IO
PROTEIN_INFO
OATE_CREATEO REFERENCE_URL
CREATEO_BY OATE_CREATEO
COMMENT CREA TE O_ BY

SPECIE

PK SPECIE ID PROTEIN_INFO_TYPE _CODE

SCIENTIFIC _NAME PK PROTEIN INFO TYPE CODE ID


COMMON _NAME
DATE_CREATEO
CREATEO_BY
.
~

PK,FKl
PROTEIN_SYNOMYM
FKl
CODE_OESC
COOE_ VERBOSE_OESC
PROTEIN_INFO_IO
PROTEIN ID
PK PROTEIN SYNONYM ID FKl PROTEIN_ID

SYNONYM
FK2 SPECIE_ ID
DATE_CREATED
CREATED_BY

Figura 5.3. Ejemplo de esquema de tablas


©RA-MA Capftulo 5. PRACTICA 1: DISENO DE BASES DE DATOS BIOlÓGICAS 67

5_2 DISEÑO XML

Un documento XML(eXtended Markup Lcmguage) es un documento de texto


plano en el que pueden encontrarse etiquetas delimitadas por los signos de meno r y
mayor y que pueden anidarse entre sí. Algunas de estas etiquetas (o, más propiamente
dicho, elementos) tienen atributos con va lores especificados entrecom illas.

La Figu ra 5.4 muestra un ejemplo de documento XML que sería vá lido para
el modelo de datos de la base de datos biológica del ejemplo.

<proteins>
<protein created=" OS/09/2014 " createdBy=" darolmar " >
<specie value= " Homo sapiens" />
<sequences>
<sequence load_ date= " 27/ll/2003" >
<annotation>Anotación de ejemplo</annotation>
<length>S</length>
<accession>P . 150308 . 1</accession>
</sequence>
<sequence load_date= " Ol/12/2003" >
<annotation> notación de ejemplo 2</annotation>
< l ength>S</length>
<accession>P . 150308 . 5</accession>
</sequence>
</sequences>
<infos>
<info created=" l3/04/1976 " author= " darolmar" >
<type>2</type>
<value>Información sobre la proteína</value>
<url>http : //mi . host . es/protein?id=l50508
</info>
<infos>
</protein>
</proteins>

Figura 5.4. Estructura de un documento XML

Si, durante el diseño XML, se duda entre incluir una determinada


información como un elemento o como un atributo, generalmente
se prefiere uti lizar los atributos cuando la información es breve y
L-~~J sencilla, mientras que cuando la estructura de la información es
más compleja, resulta recomendable recurrir a un elemento.
68 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

Un documento XML debe estar siempre bien formado, pa ra lo que es


requisito imprescindible que cumpla los siguientes requisitos:

r Estructura jerárquica de elementos: los documentos XML deben seguir


una estructura estrictamente jerárquica respecto a las etiquetas que
delimitan sus elementos:
• Una etiqueta debe esta r co rrectamente incluida en otra.
• Los elementos con contenido deben esta r correctamente cerrados. A
diferenc ia de lo que ocurre en HTML, en XML a cada etiqueta se le
asocia otra etiqueta de cierre.

r Etiquetas vacías: los elementos sin co ntenido se especifican de la forma


<elemento sin contenido/> .
r Un solo elemento raíz: en un documento XML únicamente debe existir
un elemento inicial.

r Delimitación de los valo res de atributos: los valores de los atrib utos
s iempre van encerrados entre comillas.
r Tipo de letras: XML es sensible a las mayúsculas y las minúsculas.

Además, para una determinada aplicación, el documento será válido


si es posible comprobar que cump le con las reglas semánticas recogidas en otro
documento: un OTO o un XMLSchema.

Un OTO (Document Type Definilion) es un documento con una sintaxis


especial que se emplea para va lidar e interpretar el contenido de un documento
XML. En la Figura 5.5 podemos ver un posible OTO para el ejemplo que nos ocupa:

< ! DOCTYPE proteins [


<!ELEMENT (proteins)*>
<!ELEMENT protein (specie , sequences , infos)>
<!ATTLIST protein created CDATA>
<!ATTLIST protein createdBy CDATA>
<!ELEMENT specie EMPTY>
<!ATTLIST specie load_data CDATA>
<!ELEMENT sequences (sequence)*>
<!ELEMENT sequence (annotation , length , accession)>
<!ATTLIST sequence load_date CDATA>
<!ELEMENT annotation (#PCDATA)>
<!ELEMENT length (#PCDATA)>
<!ELEMENT accession (§PCDATA)>
<!ELEMENT infos (info)*>
<!ELEMENT info (type , value , url)>
<!ATTLIST info created CDATA>
©RA-MA Capftulo 5. PRACTICA 1: DISENO DE BASES DE DATOS BIOlÓGICAS 69

<!ATTLIST info author CDATA>


<!ELEMENT type (#PCDATA)>
<!ELEMENT value ( IPCDATA ) >
<!ELEMENT url (iPCDATA)>
1>

Figura 5.5. OTO de ejemplo

En la defi nición del elemento, los valores entre paréntesis significa n Jo


s iguiente (ve r Tabla 5.1):

Pro te in Exactamente un elemento protein


Protein? Ninguno o un elemento protein
Protein+ Uno o más elementos protcin
Protein• Ninguno, uno o más e lementos protein

Tabla 5.1. Indicadores de card inalidad

Además, entre paréntesis se indica e l contenido posible de un elemento :

spec1e, seque nces Tiene un elemento specie y a continuación un elemento sequences


sequences 1infos Tiene un elemento sequences o un elemento infos

Tabla 5.2. Contenido de un elemento

Y, finalmente, se especifican los atributos para cada uno de los e lementos,


para Jo que se utiliza la expres ión:

< !ATTLIST elemento atributo tipo modo>

donde:
Elemento Es el nombre del e lemento al que pertenece e l atributo
Atributo Es el nombre del atributo
Tipo Es el tipo del atributo, que puede ser:
CDATA: cadena de caracteres
(vall J .. . ) val N): tipo enumerado
Modo Modos de actuar:
# REQU lR ED: obligatorio
# lMPLIED: opcional
"valor"': valor por defecto (opcional)
# FlXED "valor": si el atributo aparece, tendrá obl igatoriamente el valor ·'va lor"

Tabla 5.3. Definición de un atributo


70 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

El DTD es opcional y solo se debe utilizar si la aplicación exige la


validación del documento. Si únicamente es necesario que esté
formado, puede ser recomendable no utilizar DTD, por ejemplo,
L-~~J porque se esté trabajando con un conjunto pequeño de documentos
XML.

Como hemos visto, un DTD tiene una sintaxis muy farragosa, sobre todo
cua ndo la estructura del documento XML se complica. Además, ti ene e l inconveniente
de que es necesario aprender un idioma distinto de l XML.

Para resolver estos inconvenientes se pensó en definir la estructura de la


información de un documento XML y sus reglas de validación en otro documento
XML, el XMLSchema.

La Figura 5.6 muestra el XMLSchema equi va lente al DTD anterior. En


la Bibliografia se encontrará un estudio detallado de cómo definir documentos
XMLSchema, aquí únicamente nos interesa llamar la atención sobre la senci llez de
compresión de esta alternativa, si se la compara con el DTD.

<?xml version= " l . O" ?>


<xs : schema xmlns : xs= " http : //www . w3 . org/2001/XMLSchema"
targetNamespace= " http : //www . mibiosoftware . es "
xmlns ='' www . mibiosoftware . es ''
elementFormDefault=" qualified " >
<xs : element name= " proteins " type= " TipoListaProteinas" />
<xs : complexType name= " TipoListaProteinas " >
<xs : sequence>
<x s :element nameo '' protein'' typec ''TipoProteina''
ma xOccurs=" unbounded " />
</xs : sequence>
</xs : complexType>
<xs : complexType name= " TipoProteina" >
<xs : sequence>
<x s : element name= " specie" type= " TipoSpecie" maxOccurs= " l " />
<xs : element name= " sequences" type= " TipoListaSecuencias"
maxOccurs= " l " />
<xs : element name= " infos " type="TipoListainfo"
ma xOccurs="l "/>
</xs : sequence>
<xs : attribute name= " created" type= "xs : date " />
©RA-MA Capftulo 5. PRACTICA 1: DISENO DE BASES DE DATOS BIOlÓGICAS 71

<xs : attribute name= " createdBy" type• " xs : string" />


</ x s : complexType>
<xs : complexType name= "x s : string" >
<xs : attribute name= " va l ue • type= " x s : string" />
</xs : complexType>
<x s : comple xType name= " TipoListaSecuencias " >
<xs : seque nce>
<xs : element name= " sequence • type= " TipoSecuencia"
maxOccurs=" unbounded " />
</xs : sequence>
</ xs : comple x Type>
<x s : complexType name= " TipoSecuencia" >
<xs : sequence>
<xs : element name= " annotat i on • type= " xs : string• maxOccurs= " l " />
<xs : element name= " length " type= " xs : positiveinteger•
max Occurs="l " />
<xs : element name= " access i on • type="xs : string • maxOccurs="l " />
</ x s : sequence>
<xs : attribute name= " load_ date " type= " xs : date " />
</xs : complexType>
<x s : comple x Type name= " TipoL i stainfo" >
<xs : seque nce>
<xs :element name= '' info '' type= "Tipo!nfo"
maxOccurs="unbounded " />
</xs : sequence>
</ xs : comple x Type>
<xs : complexType name= " Tipoinfo " >
<xs : seque nce>
<xs : element name= " type • type= " xs : postiveinteger•
maxOccurs=" l "/>
<xs :element name=''va l ue " type=''xs : string'' maxOccurs='' l '' />
<xs : element name= " url " type= " xs : string• maxOccurs= " l " />
</ x s : sequence>
<xs : a ttrib ute name= " created" type= " xs : date " />
<xs :attribute name="author" type= "xs :date"/>
</ x s : comple x Type>

</ xs : schema>

Figura 5.6. Ejemplo anterior con XMLSchema


PRINCIPALES BASES DE, DATOS
GENOMICAS

Como ya se dijo al princ1p10 de este capítulo, existe una gran variedad


de bases de datos genóm icas. Queda fuera de l ámbito de este libro ofrecer una
descripción detallada de todas y cada una de las mismas, por lo que nos centraremos
únicamente en aquellas que vayan a emplearse en los casos prácticos propuestos a lo
largo de esta obra que, por otra parte, son las de uso más común.

6.1 GENBANK

GenBank es una colección pública de secuencias de nucleót idos anotadas


que incluye secuencias de ARNm con regiones codificantes, ADN genómico
correspondientes a uno o varios genes y ARN ribosómico.

La información contenida en GenBank se organiza en dos d ivisiones


o categorías cuyo objetivo es simplificar la búsqueda: en la primera división
(orgasnimal) se inc luyen bases de datos de secuencias derivadas de organismos
específicos; por su parte, bajo la categoría func ional (functional) se engloban bases
de datos de secuencias de distintos tipos. Cada registro de GenBank pertenece a una
única división. La Tabla 6. 1 y la Tabla 6.2 muestran la situación actual de las bases
de datos de secuencias, clasificadas por div isiones:
74 BIOINFORMATICA: El AONA UNSOLO CLIC ©RA-MA

Base de datos Di\'isión

BCT Secuencias de bacterias


PRI Secuencias de primates
ROO Secuencias de roedores

1 MAM Secuencias de otros mamíferos 1

1 VRT lf Secuencias de otros vertebrados 1


INV Secuencias de invertebrados d
PLN lf Secuencias de plantas y hongos ==¡
VRL Secuencias de vin•s
PHG 11 Secuencias de lagos
RNA Secuencias de ARN estructural
SYN 11 Secuencias sintéticas y quiméricas
UNA Secuencias sin anotar

Tabla 6.1. Bases de datos de la división de organismos

Base de datos Di\'isión

EST
STS Sitios STS
GSS Secuencias de encuestas de genomas
HTG Secuencias de alto rendimiento

Tabla 6.2. Bases de datos de la división funcional

Esta base de datos está orientada a almacenar datos primarios de secuencias.


Cuando se envía una nueva secuencia para su incorporación a GenBank, el NCBI
lleva a cabo un control de calidad básico y lo not ifica al remitente pero en ningún
caso se revisa y se contrasta la información: el responsable de la misma es el propio
remitente. De hecho, a pesar de que se insiste a los autores para que actua licen sus
regi stros con nuevos datos sobre las secuencias o sus anotaciones, lo cierto es que en
la práctica es habitual encontra r regi stros sin actualizar.

Al ser GenBank un archivo genómico e incluir todos los datos de secuenc ias
que se envían, es frecuente encontrar varias entradas distintas para un mismo loci.
Las diferencias en los envíos reflejan va riaciones genéticas entre individuos u
organismos y anal izar estas diferencias es una manera de identificar poli morfismos
de un solo nuc leótido.
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 75

GenBank intercambia diariamente información con dos partners del TNSDC


(International N ucleotide Sequence Data base Collaboration): el EBI (European
Bioinformatics lnstitute) de EMBL (European Molecular Biology Laboratory) y el
banco de ADN del DDBJ (Data Bank of Japan). La mayoría de datos de secuencias
depositados en las bases de datos del TNSDC procede de laboratorios de generación
de secuencias, en parte porque muchas publicaciones exigen e l depósito previo con
el fin de que el accession se inc luya en e l artículo.

Si parte de una secuencia de nucleótidos de GenBank codifica una proteína,


se anota una traducción conceptual llamada secuencia o región de codificación
(CDS) y se le asigna un identificador o accession que caracterizará al registro que
se añade y se encuentra enlazado con un registro en la base de datos de proteínas del
NCBT o en la sección TrEMBL de la base de datos Uniprot.

6.1.1 Formato del registro

El formato de los registros de GenBank es uno de los más comú nmente


utilizados para describir información biológica, por lo que lo estudiaremos con cierto
nivel de detalle.

Un registro en GenBank contiene un fichero plano (GBFF, GenBank Flat


File) cuyo contenido se d ivide en tres par1es: cabecera, que contiene desc riptores
que se apl ican a todo el registro; características o anotaciones sobre e l registro; y, la
secuencia propiamente dicha. Al final de cada registro, encontra mos dos barras ' //'
que indica n e l final del fichero.

Para explicar cómo se estructura la información en un registro de GenBank,


utilizaremos e l siguiente ejemplo (ver F igura 6.1):

LOCUS va osos 1976 bp DNA linear PRI 14-NOV-2006


DEFINITION Human gene for delta-globin .
ACCESSION VOOSOS
VERSION VOOSOS . l GI : 30510
KEYWORDS delta globin ; germ line ; globin .
SOURCE Horno sapiens (human)
ORGANISM Horno sapiens
Eukaryota ; Metazoa ; Chordata ; Craniata ; vertebrata ;
Euteleostomi ;
Mammalia ; Eutheria ; Euarchontoglires; Primates ;
Haplorrhini ;
Catarrhini ; Hominidae; Horno .
76 BIOINFORMATICA: El AON AUN SOLO CLIC © RA-MA

REFERENCE 1 (bases 1 to 1976)


AUTHORS Spritz , R . A . , DeRiel , J . K. , Forget , B. G. and Weissman , S . M.
TITLE Complete nucleotide sequence of the human delta-globin
gene
JOURNAL Cell 21 (3) , 639-646 (1980)
PUBMED 7438204
COMMENT KST HSA . DELGLOBIN .
FEATURES Location/Qualifiers
so urce 1. . 1976
/organism= "Homo sapiens "
/mol_type= " genomic DNA"
/db xref= " taxon : 9606 "
prim_transcript 123 .. 1763
exon 123 . . 265
/number=l
CDS join(173 . . 265 , 394 .. 615 , 1505 . . 1633)
/codon start=1
/product= " delta globin "
/protein_id= " CAA23763 . 1 "
/db xref= " GI : 30511 "
/db xref="GDB : 119298"
/db xref= " GOA : P02042 "
/db xref="HGNC : 4829"
/db xref= " InterPro : IPR000971 "
/db xref= " InterPro : IPR002337 "
/db xref="InterPro : IPR009050 "
/db xref= " InterPro : IPR012292 "
/db xref="PDB : 1SHR"
/db xref= " PDB : 1SI4"
/db xref= " Unil'rotKB/Swiss-Prot : P02042 "
/ t r an s la t ion= " MVHLT l'EEKTAVNALWGKVNVDAVGGEALGRLLVVY l'~ITQRFFE

SFGOLSSl'DAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFSQLSELHCDKLHVDl'E
NFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH "
intron 266 .. 393
/number=1
exon 394 . . 615
/number=2
intron 616 .. 1504
/number=3
exon 1505 .. 1763
/number=3
ORIGIN
1 aatgaaggtt catttttcat tctcacaaac taatgaaacc ctgcttatct
taaaccaacc
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 77

61 tgctcactgg agcagggagg acaggaccag cataaaaggc agggcagagt


cgactgt t gc
121 ttacactttc ttctgacata acagtgttca ctagcaacct caaacagaca
ccatggtgca
181 tctgactcct gaggagaaga ctgctgtcaa tgccctgtgg ggcaaagtga
acgtggatgc
241 agttggtggt gaggccctgg gcaggttggt atcaaggtta taagagaggc
tcaaggaggc
301 aaatggaaac tgggcatgtg tagacagaga agactcttgg gtttctgata
ggcactgact
361 ctctgtccct tgggctgttt tcctaccctc agattactgg tggtctaccc
ttggacccag
421 aggttctttg agtcctttgg ggatctgtcc tctcctgatg ctgttatggg
caaccctaag
481 gtgaaggctc atggcaagaa ggtgctaggt gcctttagtg atggcctggc
tcacctggac
541 aacc t caagg gcactttttc tcagctgagt gagctgcact gtgacaagct
gcacgtggat
601 cctgagaact tcagggtgag tccaggagat gcttcacttt tctcttttta
ctttctaatc
661 ttacattttg gttcttttac ctacctgctc ttctcccaca tttttgtcat
tttactatat
721 tttatcattt aatgcttcta aaattttgtt atttttttat ttaaaaattc
tgcatttttt
781 ccttcctcac aatcttgcta ctctaaatta tttaatatcc tgtctttctc
tcccaacccc
841 ctcccttcat ttttccttct ctaacaacaa ctcaaattat gcataccagc
tctcacctgc
901 taatttcgca cttagaataa tccttttgtc tctccacatg ggtatgggag
aggctccaac
961 tcaaagatga gaggcataga atactgtttt agaggctata aatcatttta
caataaggaa
1021 taattggaat tttataaatt ctgtagtaaa tggaatggaa aggaaagtga
atatttgatt
1081 atgaaagact aggcagttac actggaggtg gggcagaagt cgttgctagg
agacagccca
1141 tca t cacact gatttatcaa ttcaatttgt atctattaat ctgt tta t ag
taattaattt
1201 gtatatgcta tatacacata caaaattaaa actaatttgg aattaatttg
tatatagtat
1261 tatacagcat atatgtacat atatagacta catgctagtt aagtacatag
aggatgtgtg
1321 tgtatagata tatgttatat gtatgcattc atatatgtac ttatttatgc
tgatgggaat
1381 aacctgggga tcagttttgt ctaagatttg ggcagaaaaa aatgggtgtt
78 BIOINFORMATICA: El AON A UN SOLO CLIC © RA-MA

ggctcagttc
14 41 tcagaagcca gtctttattt ctctgttaac catatgcatg tatctgccta
cctcttctcc
1501 gcagctcttg ggcaatgtgc tggtgtgtgt gctggcccgc aactttggca
aggaattcac
1561 cccacaaatg caggctgcct atcagaaggt ggtggctggt gtggctaatg
c c t t ggc t ca
1621 caagtaccat tgagatcctg gactgtttcc tgataaccat aagaagaccc
tatttcccta
1681 gat t ctattt tctgaacttg ggaacacaat gcctacttca agggtatggc
ttctgcctaa
1741 taaagaa t gt t cagctcaac ttcctgatta atttcactta tttcat tt tt
ttgtccaggt
1801 gtgtaagaag gttcctgagg ctctacagat agggagcact tctttatttt
acaaagagta
1861 catgggaaaa gagaaaagca agggaaccgt acaaggcatt aatgggtgac
act t ctacct
1921 ccaaagagca gaaattatca agaactcttg atacaaagat aatactggca
ctgcag
1/

Figura 6.1. Ejemplo de registro GenBank

6.1.2 Cabecera

Esta parte del registro es específica de la base de datos. Las diferentes bases
de datos existentes en GenBank no están obligadas a incluir la misma informac ión
en este segmento de l registro , sino que ex isten algu nas peq ueñas variac iones a pesar
de que se procura que todas ellas co ntengan la misma informació n.

La primera línea de la cabecera es el LOCUS:

LOCUS V00505 1 976 bp DNA l inear PRI 14 - NOV - 2006

En primer luga r, encontra mos e l nombre del locus, que es único en toda la
base de datos y que identifica al registro dentro de la misma. El nombre de l locus
recibe el nombre de identificador de acceso o accessionid y se trata de un campo
a lfanumérico con todas las letras mayúsculas. En este caso, se trata de la secuencia
V00505.
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 79

En muchas de las herram ientas que vere mos a lo largo de l libro,


podremos trabajardirectamentecon la secuencia o bien referenc iarla
por su accession.

El segundo elemento es la longitud de la secuencia, que está comprendida


entre l y 350000 bp (pa res de bases) po r registro. La secuencia VOOSOS está
compuesta por 1976 bases.

A continuación, encontramos e l tipo de molécu la que podrá ser DNA, RNA,


tRNA, rRNA, mRNA o uRNA.

El cuarto elemento de la línea de LOCUS indica la estructura de la mo lécula


{linear o circular) mientras que el quinto es un campo de tres letras que establece el
tipo de división (ver Tabla 1.2 y Tabla 1.3). F ina lmente, se encuentra la fecha en que
publicó la últ ima actua lizació n de la secuencia.

Resumiendo, según el contenido de la línea LOCUS podemos afirmar que la


secuencia VOOSOS pertenece a un primate, que se trata de una secuencia de ADN de
estructura lineal actua lizada por últ ima vez el 14 de noviemb re de 2006.

La sigu iente línea de la cabecera es la de defin ició n, cuyo propósito es


resumir la información biológica que contiene el regi stro.

DEFINITION Human gene for delta-globin .

El accession , en la tercera línea de la cabecera, constituye la clave primaria


por la que se referencia al reg istro en la base de datos. Todos los reg istros tienen una
única lí nea accession:

ACCESSION V00505

No obstante, es cierto que en algunos es posible encontrar más de un


accession. Si este es el caso, habrá un accession primario y e l resto serán secundarios.
El significado de estos ú ltimos ha ido cambiando a lo largo de los años.
80 BIOINFORMATICA: El AONAUNSOLO CLIC ©RA-MA

Tras e l accession, aparece la línea de vers ión que, como su nombre indica,
ofrece información sobre la versión de la secuencia junto con un identificador del
gen (gi, geninfo identifier). Estos identificadores se asocian a una secuencia de
nucleótidos única. Si cambia la secuencia, se incrementa el número de versión en
una unidad y e l gi también se mod ifica rá.

Es posible añadir palabras clave al registro. Sin embargo, puesto que


tradicionalmente ha sido un campo de texto libre sobre el que no se ha llevado
ningún tipo de control, el NCBI desaconseja su utilización, a pesar de que la incluye
si aparece en la petición de creación de un nuevo registro.

KEYWORDS delta globin ; germ line ; globin .

La línea de fuente contiene el nomb re común o científico del organismo al


que pertenece la secuencia. En la actualidad, el NCBI está hac iendo un esfuerzo
para obtener esta info rmac ión taxonómica directamente desde las bases de datos
correspondientes.

SOURCE Homo sapiens (human)


ORGANISM Homo sapiens
Eukaryota ; Metazoa ; Chordata ; Craniata ; Vertebrata ;
Euteleostomi ;
Mammalia ; Eutheria ; Euarchontoglires; Primates ;
Haplorrhini ;
Catarrhini ; Hominidae ; Homo .

Por otra parte, cada reg istro de GenBank puede tener una o más referenc ias
o citas:

REFERENCE 1 (bases 1 to 1976)


AUTHORS Spritz , R . A ., DeRie l, J . K., Forget, B. G . and weissman , S . M.
TITLE Complete nucleotide sequence of the human delta - globin
gene
JOURNAL Cell 2 1 (3) , 639- 646 (1980)
PUBMED 7438204

Finalmente, la última línea de la cabecera es la línea de comentarios en la


que se incluye info rmación variada (descriptores).

COMMENT KST HSA . DELGLOBIN .


©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 81

6.1.3 Sección de características

La tab la de características es la representac ión de la info rmac ión biológica


más im portante contenida en el registro de GenBank y hace referencia a anotac iones
sobre una parte de la secuencia, mientras que las anotaciones sobre la secuencia
completa reciben e l nombre de descriptores.

Se puede obtener una lista completa de las características íncluídas


en un registro de GenBank, así como de la información asociada a
las mismas en jip:/lfip.ncbi.nih.gov/genbank/gbrel. txt.

La característica SO URCE es la única que está presente en todos los registros


de GenBank. Todas las características tienen una serie de calificadores permitidos,
a lgunos de los cuales son obligatorios (como l organism para SO URCE).

so urce l . . 1976
/organism= "Homo sapiens "
/mol_type= " genomic DNA"
/db xref= • taxon : 9606 •
prim_tra n script 123 .. 1763
exon 123 .. 265
/number=1

Otra de las características significativas es la ca racterística CDS, que


contiene las instrucciones de obtención de una secuencia siguiendo las coordenadas
que se indican en el rango. Es posible que haya que unir varias secuencias, en cuyo
caso, se utiliza la palabra clavejoin.

CDS join(173 .. 265 , 39 4 . . 615 , 1505 .. 1633)


/codon start=1
/product= • ctelta globin "
/protein_id= " CAA23763 . 1 "
/db xref= " GI : 30511"
/db xref= " GDB : ll9298 "
/db xref= " GOA : P02042 "
/db xref= " HGNC : 4829"
/db x ref= " InterPro : IPR000971 "
/db xref= · rnterPro : IPR002337 •
/db xref= " InterPro : IPR009050 "
82 BIOINFORMATICA: El AON A UN SOLO CLIC © RA-MA

/db x ref• " InterPro : IPR012292 "


/db xref= " PDB : lSHR"
/db xref• " PDB : l$!4 "
/db xref= " UniProtKB/Swiss - Prot : P02042 "
/translation= " MVHLTPEEKTAVNALWGKVNVDAVGGEALGRLL
VVYPWTQRFFESFGDLSSPDAVMGNPKVKAHGKKVLGAFSDGLAHLD
NLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQM
QAAYQKVVAGVANALAHKYH "

Este ejemplo tamb ién muestra el uso de referencias cruzadas con otras bases
de datos (calificador ldb_xrej). El contenido de este calificador se divide en dos partes:
la primera se refiere a la base de datos con la que se cruza la referencia mientras que
la segunda, que está separada de la primera por dos puntos, es el identificador de la
secuencia en dicha base de datos.

6.1.4 Sección ORIGIN

La sección ORIGIN contiene la secuencia de bases en filas de 60 bases


agrupadas en columnas de 1O nucleótidos y precedidas de un número que ind ica
la posición, dentro de l tota l de nucleótidos, que ocupa la prim era base de la línea
correspondiente . De esta manera, resulta más sencillo local izar un fragmento de la
secuencia para, por ejemplo, averiguar la secuencia de una CDS.

El contenido de esta sección incluye números y letras y no puede


utilizarse directamente en las herramientas de análisis de
secuencias. En su lugar, hay que obtener la secuencia en cuestión
.___.;...,;....::'-' en formato FASTA, lo que puede conseguirse fác ilmente
seleccionando esta opción del menú desplegable.

6.2 REFSEQ

La base de datos RefSeq (Reference Sequence) es una base de datos


secundaria y revisada de secuenc ias de ADN, ARN y proteínas construida por el
NCBI. A diferencia de GenBank, RefSeq contiene un único registro por cada
molécula biológica para los organismos más importantes, desde los virus hasta
bacterias y eucariotas, de los que se tiene suficiente información.
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 83

Para cada modelo de organismo, RefSeq intenta proporcionar una serie de


registros sepa rados y enlazados en tre sí. El forma to de un registro de RefSeq es
s imi lar al del GenBank excepto porque en RefSeq el accessíon inc lu ye un subrayado
y en el ca mpo COMMENT se especifica e l estado de l reg istro de RefSeq (ver Tabla
6.3).

Código Descripción

M O DEL El registro ha sido proporcionado por el pipeline de anotación de gcnomas del


NCBI y no es una revisión entre ejecuciones
INFERRED El registro es una predicción obtenida del análisis del gcnoma, pero no hay
ni nguna evidencia empírica
PREDICTED El registro todavía no se ha revisado, aunque algunos aspectos se han pred ic ho
PROV ISIONAL El registro todavía no se ha revisado
REV IEWED El registro ha sido revisado por el persona l del NCBI o a lgún colaborador.
Algunos registros pueden incluir anotaciones
VALIDATED El registro ha pasado con éxito la revisión inicial pero está pendiente de una
revisión fina l en la que es posible incluir inlormación funcional
WG S El registro representa un genoma comp leto y está pendiente de una revisión
individual o de revisiones e ntre actualizaciones del genoma.

Tabla 6.3. Códigos de estado de un registro de RefSeQ

La Tabla 6.4 resume las princ ipales diferencias entre ReqSeq y GenBan k:

GcnBank RcfScq
No es curada Curada
El autor envla las secuencias Es el NCBI quien genera los registros a partir
de datos existentes
Sola mente el autor puede revisar las secuenc ias El NCBI revisa la infom1ación a medida que se
que envía va generando
Es posible e ncontrar varios registros para el Un único registro para cada molécula de Jos
. .
mismo Joci organ1 smos supenores
Probabilidad d e encontra r regis tros con
información contradictoria
No hay lím ite e n las especies incluidas Limitado a organismos modelo
Datos intercambiados con los m ie mbros del Información obtenida únicamente de las bases 1
INSDC de d atos del NCB 1 1

En laces a las proteí nas identificadas Enlaces a las proteínas y a los tránscritos
identificados

Tabla 6.4. Comparación entre RefSeq y GenBank


84 BIOINFORMATICA: El AON A UN SOLO CLIC © RA-MA

6.3 UNIPROT

UniProt (Universal Protein Resource) es una base de datos de secuencias de


proteínas que se formó como resultado de la un ificación de otras tres bases de datos:
Swiss-prot (proteínas mejor anotadas por expertos), TrEMBL (p roteínas que no
están en Swiss-Prot encontradas auto máticamente) y PIR-PSD (p roteínas anotadas
por expertos).

6.4 PDB

Protein Data Bank (PDB, http://www.rcsb.org/pdblhome/home.do) es


un repositorio de información sobre proteínas y otras macromoléculas biológicas
importantes. Contiene información sobre su estructura 30 obtenida por cristalografía
de rayos X y RMN .

" •Ut•~" "*' ,.. t:PDB


An lrol(lfi!OO!tion ~ol io 0~0(.,. M.cromolcw&$r Structu~.,_
I L' IO.UB.l

"'d T~J•I 01.1014 411 Sf'Hf>OT IJ~e.)tt l013'91 ~~ ro.Swchtlu ~ 11 0 llill

·-·-·-
...~ ....
Biological Macromolecular Resource
fllll~.r.tlooo Latest release:
April 2014

1 Q_
1
---·
AHt>~ 00 ~ Ol'l

~ l.oogk P·''i MOIIoc:lll•of t... MO....

; ~· 101

~,,.......,¡v ... J~
.......
..lero(uboiCS
Nouablbo.h!l *'•'""
d'>e<'ot*'""· _........., ~ .-d ~ l.l«b IOilt'oe --ol
t!ltht~tn J thot ,,., lhtv ~e htol!. ....-<1~· ~ l:t>."ff nt<'t>d tt..GUGt>
h•OtiP•UdOI«~
.-en. booc-.on .ond dmem. The,.. m<lllon I>UI m...., !we• ol ...,.ao lh<ou;h thoe cel. t..._.,g
ft~,....,. ~lO .............~. fheVai'WIIIM 11 ~ ock .,the: "'«oe» d <d
1
-·--

tt.:l_.. ..
~ ·c•o.c.o
~ Jolooo6,
t.e~10,... lile ~o<•.-...:c:
6.~>oon. xo..t.otO!I,I tl\e <!t.ok.otel cht-~, do I'Ooo cbuohl'<~' celo.

·-tYQ<•IIIt
.......
.... l

---
q.lct¡ , _.. SW~tlt

Pl'(lll.,;" S.rv<t• r• 111111.\ot~ r~t..., $/J'-t-


ONA.IAl ;an d P;tnu~tk C<Jn<er
NtOIC.lll'ftt~ 11$ ~ Oft ;,ti tN:e....-. IV'( N)t lle"" UI'OtU tot ~ vt~~ llle
d'oaf~ e l9fr4etot(n~tNIC ~ó'lcn!"CC'tn~('r «1,_ IJOth«thcv~b~ WOC'tt4-
wcn ~ttoruos .,..,.... a~~o ~ e~ Jn co~•cMoo<n ~'O"oottt ~ l'3f'lta)
$11'\c:f'l• ~~·'tt'lilv ( 1 ~$),.), PSI t~tn. Nu,.c.; ~Jt b«n ~ ,a orott-ro,
OHAJ',t. C'l:ll ~ b CI MI é«tJoe W!)(lf 101' .. ~1'1\' ~ tOfl!l 01 <.:r~Ctt ~;w'(l'(l3!:<

Figura 6.2. Página principal de POB


©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 85

A través del portal web de PDB, podemos encontrar la siguiente información:

11"' Ficheros en formato PDB: básicamente, un fichero PDB es una serie de


coordenadas de mo léculas bio lógicas que, en conjunto, representan la
estructu ra de las mismas. Este formato de fichero se describirá co n mayor
nivel de detalle en epígrafes posteriores.

11"' Visualización de estructuras: además de los ficheros en fo rmato PDB,


también es posible encontrar herramientas que perm itan la navegación y
la visua li zación de la info rmación contenida en dichos ficheros.

Cualquier herramienta software que lea ficheros PDB debe ser


capaz de reconstruir los enlaces químicos basándose en una serie
de reglas (por ejemplo, que un enlace está formado por dos puntos
.___:....;__..:..J separados en e l espacio real por 1,S A). Sin embargo, se trata de

convenciones de cum plimiento no obligatorio, por lo que el programador tiene


libertad para elegir y, por tanto, la misma molécula puede presentar un aspecto
diferente en herramientas distintas.

6-4.1 Formato del registro

Todos los ficheros PDB son ficheros de texto, de extensión variable, cuyas
líneas constan de 80 caracteres, de los cuales los 6 primeros co rresponden a l nombre
del registro. Cada línea puede contener un tipo de regis tro diferente y cada tipo de
registro se caracteriza por un descriptor de la información contenida en el mismo y
se divide en los campos Overview, Record Formal, Details, Veri.ficmion/ Va/idation/
Vahte Authority Control, Re/ationship lo other record typ es, Examples y Known
Problems. Las columnas que no se utilicen, se dejan en blanco.

6-4.2 Tipos de registros

Los registros se agrupan en categorías basándose en la frecuencia de


aparición de l tipo de registro en una entrada PDB dada.
86 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

La primera de las categorías es la de aparición única en una sola línea (OTSL,


One Time, Single Line). Las líneas correspond ientes a estos registros solamente
apa recen una vez en todo el fic hero y son las de la Tabla 6.5.

Registro Descrip ción


CRYSTI Parámetros de celda-unidad, z
END Último registro del fichero
HEADER Primera línea del fichero que contiene el código del identificador PDB ID, la
clasificación y la fecha de depósito 1
NUMMDL Número de modelos
MASTER Registro de control para la búsqueda automática y funciones de biblioteca -
-
ORIGXn Transformación de coordenadas ortogona les a las coordenadas actuales
(n= 1,2,or3)
SCALEn Transformación de coordenadas ortogonales a las coordenadas cristalográficas
(n=l,2,or3)

Tabla 6.5. Tipos de registro OTSL

Otra de las categorías es la de los registros que apa recen una vez en todo el
fichero pero que, a diferenc ia de los registros OTSL, ocupan varias líneas del fichero.
Son los registros OTML (One Time, Multiple Lines).

Tipo de r egistro Descri pción


AUTHOR Lista de personas que han contribuido a su edición
CAVEAT Indicador de error severo
COMPND
EX PDTA Técnicas experimenta les empleadas para la determinación de la estructura
MDLTYP Anotaciones adicionales correspondientes a las coordenadas indicadas en
el re istro
KEYWDS Lista de palabras clave que describen la macromolécula
OBSLTE El registro ha sido elim inado porque se ha reemplazado otro cuyo ID se
indica aquí
SOURCE Fuente biológica de la macromolécula
SPLJT Lista de las entradas PDB que componen una molécula compleja
SPRSDE Lista de identilícadores de versiones anteriores y la últ ima (aparece en
primer lugar) con su fecha
TITLE Descripción del experimen to representado en esta entrada

Tabla 6.6. Registros de tipo OTML


©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 87

La tercera de las categorías son los registros MTOL (Mulliple Tim es , One
Line). Se trata de registros que aparecen va ri as veces en el fichero, a menudo en
grupos donde la información no está relacionada desde el punto de vista lógico pero
que, por alguna razón, se presenta junta.

Tipo de registro Descripción

AN ISO U ll_Factores de temperatura anisotrópica


ATOM Coordenadas atómicas de grupos estándar
CISPEP UIdentificación de residuos de J.>éQtidos en conformación CIS
CONECT Registros de conectiv idad
1 DBREF lf Referencia de la entrada en la base de datos de secuencias
HELIX Identificación de la subestructu.r a hel icoidal
LHET lLIdentificación de grupos o restos no estándar
HETATM Coorde nadas atómicas de grupos heterogéneos
LINK Identificación de enlaces entre residuos
M ODRES Identificación de modificaciones en residuos estándar
MTRIXn Transformaciones que expresan simetría no cristalográfica (n = 1, 2, or 3)
Fecha de la revisión e información relacionada
Identificación de conflictos entre PDB y la base de datos de secuencias
SHEET Identificac ión de subestructura lámina b
SS BOND Identificación de uentes disulfuro

Tabla 6.7. Registros de tipo MTSL

Por otra parte, encontramos los registros con múltiples ocurrencias y que
ocupan va rias líneas de l fichero (MTML, Multiple Time, Multiple Line).

Tipo de registro Descripción


FORMUL ILJórmula química de grupos no estándar
HETNAM Coordenadas atómicas de grupos heterogéneos
HETSYN lb,Sinónimos de grupos heterogéneos
SEQRES Secuencia primaria de los residuos que forma n la macromolécu la
[ SITE 11 Identificación de grupos que forman sitios importantes

Tabla 6.8. Registros de tipo MTML


88 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

Así mismo, es posible encontrar tamb ién grupos de registros (ver Tabla 6.9).
Los registros ENDMDL y MODEL agrupan registros de tipo ATOM, HETATM,
ANlSOU y TER.

Tipo de reg is tro DescripciiÍn

ENDMDL Registro de fin de modelo para estructuras múltiples en una única


coordenada de registro

M O DEL Especificación del número de modelo para estructuras múltiples en una


ion ica coordenada de registro

TER Terminador de cadena

Tabla 6.9. Registros de tipo agrupación

Finalmente, encontramos otros tipos de registros que no pueden clasificarse


en ninguno de los grupos anteriores y que presenta n una estructura muy particular
(ver Tabla 6.10).

Tipo de registro Descripción

JRNL Cita que define el conjunto de coordenadas

REMAR K Apuntes generales, estructurados en formato libre

Tabla 6.1 O. Otros tipos de registros

6.4.3 Estructura del fichero

En un fichero PDB es muy importante e l orden en que aparecen los registros


y la sección en que aparecen . La Tabla 6. 11 resu me esta información:

Sección Descrip ciiÍ n T ipos de registro

Tille Resumen y apuntes descriptivos IIEADER, OBSLTE,


TITLE, SPLIT, CAVEAT,
COMPND, SOURCE,
KEYWDS,EXPDTA,
NUMMDL, MDLTYP,
AUTHOR, REVDAT,
SPRSDE, JRNL
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 89

Remark Comentarios sobre las REMARKs 0-999


anotaciones de la entrada que
se ha considerado importante
indicar con mayor nivel de
detalle que en un registro
estándar

Primary s tructure Secuencia de péptidos o DBREF, SEQADV, SEQRES


nuclcótidos y su relación MODRES
con la secuencia PDB y la
encontrada en la base de datos
de secuencias

Heterogen
- Descripción de grupos no HET, HETNAM, HETSYN,
estándar FORMUL

Secondary structure Descripción de la estructura IIELIX, SHEET


secundaria

Connectivity Anotación de la conectividad SSBOND, LINK, CISPEP


química

M iscellaneous Características dentro de las de SI TE

Crysta llographíc
la macromolécula

Descripción de la celda
. .
cnstalografíca
--
CRYSTI
1

Coordinate transformation Operadores de transformación ORIGXn, SCALEn, MTR!Xn 1


de coordenadas
Coordinate Datos de coordenadas atómicas MODEL, ATOM , AN ISOU,
TER, HETATM, ENDMDL
Connectivity Resumen de conectividad CONECT
química

Bookkeeping Información de resumen MASTER, END

Tabla 6.11. Estructura de un fichero POB


90 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

6.5 OTRAS BASES DEDATOS GENÓMICAS

Son muchas y muy d iversas las bases de datos genómicas existentes. No


pretendemos, ni mucho menos, ofrecer un aná lisis ex haustivo pero sí dar al lector
una guía de las principales.

6.5.1 Bases de datos de secuencias de ADN

Estas bases de datos almacenan información sobre secuencias de ADN que se


han ido acumulando a lo largo de los años. Con el fin de garantizar la disponibilidad
pública de secuencias, hay revistas que exigen como requis ito previo a la publicación
de un artícu lo el haber depositado la secuencia en a lguna de las bases de datos que
c itaremos a contin uac ión.

Existen tres grandes proyectos a nivel mundial:

11"" DDBJ (http://www.ddbj.nig.acJp/): el DDBJ (DNA Data Bank ofJapan)


depende del Instituto Nacional de Genética (NIG, Nat ional lnstitute of
Genomics) y comenzó su andadura en 1986. Aunque el DDBJ rec ibe
datos, principalmente, de investigadores japoneses, acepta contribuciones
de otras nacionalidades.

t 0081Hlt01> o.ua......u. x -~-----------


<; D· T~'

."
:\\ A.SS 1 OOBJ S-ervicc

- 008 1 TWitl"

o-. ........

t Nl-' 07 ::u

..........................................................········ ..............................................................................................
' tQ\4 0 1 17 000).)Jol•o)1· ¡~~'AI

• 701-4 01 !<1 ~,0!4_.07,..~

• 7014.41 ! 4) POG10l4·0 l'411 ....,......,

Figura 6.3. Página principal de DDBJ


©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 91

11"' NCBT-GenBank (http://www.ncbi.nlm.nih.govlgenbank/): es la base de


datos de secuencias de ADN anotadas y públicas de l NCBI. Se creó en
1982 por diversas organizaciones estadounidenses. Desde ento nces ha
ido creciendo a un ritmo vertiginoso, de hecho, se estima que su tamaño
se dupl ica cada 18 meses.

,~
+• •
·
-
...... •
........ ,..·-' • 11 ·

(WIIhoo • .._ • - o.- • W01 • 111(111 • (tl.()ll • -- • - • ~ • IIOIOt •

- · G - o•U
~ •. ... 11!1,..,.... 0011-.- ..- -..._ ".. ""'""--c.. .
• • p l'!U-HOI!~ ~ ........... ._d...,....$$
... Dii\~lfl ....... ~ ... (-~-........ t_.....,~
-"C'· 0)p!K

...W'>. .t ( d $u....-........
~ - I.QIII
' - - ·( -
-
""'*
)ofl!!Pt• !l !W)
00(_ ..., .. . _ _
....oc ".
"""~ ,..,..-llo ... c;M•--•o..fl"" "'" ___..'"'*...... ·--·--·"""- ·.~(ic:dltW,.,.I(lll
~ """'t.ltlll.l ....... _..~-·-"" •'<GS-... ~ .... -~
""'..,..,...~.~~-·-··~---
- n _...,..,. ,.,..,....,,_ uuo-c...e-
--e-, ....._. ____._,_...,._. - · - - - -
'*,.,,.,.
__ ....,.._ .................
,_..,.o.,.o..._ ats!........
~"'
- ..... . .) .., ~ '""' tiiClS! ~......,.._

. ~ .....,.-..
c . - dlf.$f ••IC:S8ww=091c<"'ll)
_...,~,..._. .,..,
- 1116n.dtw -~...
....
~ -t- ~- *'t tv<)l -

-""-llt.o\S'I-

__--
GH4M. DIIU \IU9o>

_.,_, __ ___
lht (lo<O_ _ , . . _ , . ... _ _ _ ..;..... .,o!O~ . . . . .- • .........,.. ... _ .. . ..... -

1'_,.... .,....
..
. . . ... .,... . .......,....._
-
_

-~
" ' '_ oO'At~~
" ' ...,""7 ~~.-..,
_ _ ...,.,..,_

~
_ _ _ _ .. -
..,..,
...._........ c.-e...
.,.._..,....... JI _.~_,~
.,.,110"'..,.,,...,,

(_ ·- -~· -·
IG••
~ -·-

...
._._
. -
_. ( _ N . . _WO:•-'-....l • O....~I- IOpoM>:_.t_ll...., .... ~.~.

Figura 6.4. Página principal de GenBank

11"' EMBL-EBT (http:llwww.ebi.ac.uk/emb//index.html): es un centro


europeo de investigación y servicios bioinfo rmáticos. Se constitu yó en
1974, aunq ue se desarro lló dura nte la década de los 80.

·- . .. ___ ......
·~--
............
··~

.._... ..
-··
--
_ ___..... __
.,_,

.._,..
_____
_ _ _ _...._,,_ ,_,_,_ _, _ _ _ _ _ _ ......,,_$ ••• · - - -
....... . .....- ..""" ~

----
, , ,.
- ·-
...., ""'""'.,.:y. ::e ..__:., -»U
.·__- .... t.:.u

,_ ...
·--
___
__ -
................ ............. _,_,.____..._,
"-'<'<''-'t. _
.._..... _
:~• ,
_.....,. .....
~-

Figura 6.5. Página pri ncipal de EMBL-EBI


92 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA

Estas tres instituciones comparten información, de manera que integran los


datos de las investigaciones que tengan registradas y se s incronizan cada 24 horas.

6.5.2 Bases de datos de secuencias de ARN

Encontramos aquí dos bases de datos del NCBI. La prim era de ellas, Unigen
(http://www.ncbi.nlm.nih.gov/unigene), agrupa las secuencias almacenadas en
Ge nBank de manera que cada grupo (también llamado cluster) contenga únicamente
secuencias de un solo gen o gen putativo e información relacionada con el mismo.

Un gen putativo es un gen que origina lmente no se enco ntraba en


la secuencia de ADN sino que, debido a su ut il idad práctica, se ha
introduc ido por algún método artificial.

Los datos de U ni gen se generan computacionalmente a partir de la informac ión


almacenada en otras bases de datos del NCBI, identificando los tránscritos para el
mismo locus y analizando su expresión cuando sea posible.

e ID··-

Utlno UniGene
~

w.y.,....
'Rsn Ru!l Al<lwl! $<1

- .,. - ..c:... e.... .. ...._ .....~

Figura 6.6. Página principal de NCBI-UniGene


©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 93

La otra base de datos es dbEST (hllp:l/www.ncbi.nlm.nih.gov/dbEST/index.


htmf). Se trata de una base de datos de EST (Expressed Sequence Tags) obtenida a
partir de la información almacenada en GenBank.

Exprcsscd Sequen ce Tags

• lnfonnttlon on""' cu"'"" '*'"

Figura 6.7. Página principal de dbEST

6.5.3 Bases de datos de secuencias de proteínas

Swiss-Prot (hllp://www.expasy.ch/cgi-bin/sprot-search-jitf) es una base de


datos curada manual mente que incluye referencias cruzadas en la que, a d iferencia
de otras, no existen reg istros dup licados.

El EBI d ispone de TrEMBL (hup://www.ebi.ac.uk/trembl/), que contiene


secuencias de proteínas que todavía no se ha n incluido en Swiss-Prot, con la que
mantiene un inte rca mbio de informació n constante.

Finalmente, encontramos la base de datos PIR (http://pil:georgetown.edu/),


manten ida en tre el MIPS (M unich lnfo rmat ion Centers fo r Protein Sequences) y el
JIP ID (Japanese International Protein Sequence Database). Almacena info rmac ión
sobre secuencias, anotaciones y alinea mientos.
94 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA

6.5.4 Bases de datos de patrones y perfiles

Estas bases de datos a lmacenan información sobre estructuras secu ndarias


o dom inios.

r Pfam (http://p fam.xfam.org/) es un proyecto de EMBL-EBI. Se trata de


una base de datos de fami lias de proteínas con sus a li neamientos mú ltip les
de secuencia y sus modelos HMM (Hiden Markov Model.~) .

En general, las proteínas están co mpuestas de una o más regiones


funcio nales denom inadas dominios, de tal manera, que la
combinación de domin ios da luga r al amplio abanico de proteínas
L.......:'--'-"'-.....:...J presen tes en la naturaleza. La ident ificación de estos dominios
dentro de la estructu ra de la proteína constituye un indicio de la fu nció n de la
m1sma.

Dentro de PFAM existen dos componentes: PFAM-A, que son entradas


cu radas de alta calidad y que cubren un amp lio rango de la base de
datos de secuencias; y, PFAM-B, entradas generadas automáticamente
a partir de l procesado de la información contenida en la base de datos
ADDA (Automatic Domain Decomposition Algorithm), accesible en
http:1/ekh idna. biocen te1: helsinkijilsqgraph/pairsdblindex_html. Aunque
de menor calidad que la anterior, las fami lias PFAM-8 son úti les para
identificar regiones co nservadas func ionalmente que no se encuentran en
PFAM-A.

En la Práctica 3 se estudiará más en detalle la util ización de PFAM


para encontra r dom inios func ionales.

r PRODOM (hllp:llp rodom.prabiji·l) es una base de datos de dom inios de


proteínas generados automáticamente mediante técn icas de agrupamiento
de domin ios de homó logos basándose en PSI-BLAST. Las secuencias de
las proteínas origen se derivan de UnitProtKB (Swiss-Prot y TrEMBL).
Cada entrada de PRO DOM proporciona un a lineamiento múlt iple con los
dom inios de homólogos y una secuencia de consenso de la fam ilia.
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 95

11"' PRTNTS (http://www.bioinfmancheslel:ac. uk/dbbrowser/PRTNTS/index.


php) es un archivo genómico de huellas digitales de proteínas. La huella
d igital de una proteína es un grupo de motivos conservados empleado
para ca racteri za r dicha proteína.

11"' BLOCKS (hap:llblocks.jhcrc.orgl) es una base de datos de reg iones


conservadas de grupos de proteínas doc umentados en InterPro (hup:/1
www.ebi.ac.uk/inte1¡Jrol). La información contenida en BLOCK se
gene ra automáticamente.

11"' La base de datos PROSITE (hup.l/prosite.expasy.orgl) es una base de


datos de fa mi lias de proteínas y domi nios. Se basa en la existencia de un
gran número de proteínas que pueden agruparse siguiendo criterios como
la similitud de sus secuencias, en un número limitado de fam ilias, de tal
manera, que las proteínas o dominios de proteínas pertenecientes a una
misma fami lia suelen tener atributos func ionales comunes y proceden de
un ancestro común.

6.5.5 Bases de datos clínico-genéticas

11"' OMTM (http://omim.org/) es un catálogo de información sobre e l ser


humano que desc ribe informaciones genéticas y relaciones genotipo-
fenotipo .

11"' HGMD (http://www.hgmd.org/) es una recopilación de mutac iones


genéticas co nocidas y publicadas del ser humano.

11"' GeneCards (hllp://www.genecards.org/) es una base de datos secundaria


que extrae e integra información genómica, transcriptómica, proteómica,
genética, c línica y fu ncional de diversas fuentes de datos sobre genes
humanos. Entre la información que se incluye se enc uentra relación con
enfermedades, mutac iones, SNP, expresión y función génica, etc.

11"' NCB T-P heGenl (http://www.ncbi.nlm.nih.govlgap/phegenil) ofrece


relaciones entre las variaciones de las secuencias de ADN y diferencias
entre genes y la expresión de los mismos pa ra un fenotipo dado, como el
as ma o la diabetes. Los resultados se enlazan a las fuentes origina les en
donde los investigado res pueden encontra r mayor información.
96 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA

6.5.6 Bases de datos de mutaciones y SNP

Un aspecto crítico en e l análisis genético es la relación entre genotipo y


fenotipo y cómo una variación en el genotipo ti ene una manifestación apreciab le en
un rasgo hereditario (fenotipo).

,.. Los SNP (Single Nucleotide Polymorphism) son las van ac10nes más
comunes y constituyen un cambio en un único nucleótido.

,.- dbSNP (http://www.ncbi.nlm.nih.gov/snp) es una base de datos pública


de polimorfismos, ya sean sustituciones de un solo nucleótído o pequeñas
inserciones o borrados de varias bases.

,.. GWAS Central (hllp :llwww.gwascentral.org/) es el repositorio central


de mutaciones de la Human Genome Va ri ation Socíety (HGVS). Es una
base de datos curada.

6.5.7 Bases de datos de genómica funcional

La Ge nómica Funcional es la rama de la Genó mica que se encarga del


estudio de las relaciones genotipo-fenotipo, es decir, de cómo los genes determinan
las características de los individuos a los que pertenecen.

,.- ArrayExpress (http://www.ebi.ac.uk/arrayexpressl) es un repositorio


público de expe rimentos de genómíca funciona l de l que es posible
consultar y descargar información. Incluye información de expresión
génica procedente de estudios realizados con microarrays y técn icas de
secuenciación de alto rendimiento.

,.- GEO (http://www.ncbi.n/m.nih.govlgeol) es un repositorio de datos


público que a lmacena y distribuye gratuitamente información sobre
mícroarrays y otros datos genómicos.

,.- SMD (hllp:l/smd.princeton.edul) almacena los datos experimenta les de


microarrays sin procesar y normal izados, así como sus correspondientes
archivos de ímagen. Además, proporciona interfaces para la recuperación
de datos, aná lisis y visual ización. Los datos son hechos públicos según
criterio del investigador o en el momento de su publicación.
PRÁCTICA 2: BÚSQUEDA DE
SECUENCIAS

La búsqueda y recuperación de secuencias de interés de distintas bases de


datos es una de las tareas más comunes en Bioinformática. Básicamente, se trata
de recuperar una secuencia de nucleót idos o de aminoác idos de una base de datos
biológica. Sin embargo, pese a la aparente sencillez de esta tarea, realizarla de una
manera eficiente y eficaz requiere cierta práctica.

En esta práctica se estudiarán co n cierto nivel de detalle varios ejemplos de


búsqueda de secuencias en distintas bases de datos biológicas. No se pretende, por
razones de extensión, cubrir absolutamente todas las bases de datos biológicas ni
tampoco todas las posibilidades de aná lisis existentes pero sí hacer hincapié en los
aspectos más importantes a tener en cuenta y en la interpretación de los resultados.
Por esta razón, para una explicación más amplia sobre la configuración de las
búsquedas avanzadas, remitimos al lector a la Bibliografia y a la documentación
existe nte sob re cada base de datos.

7.1 SECUENCIASDE ORGANISMOS PROCARIOTAS

En los orga nismos procariotas, el tamaño limitado de sus genes, así como el
hecho de que la relación entre la sec uencia deADN y el ARNm sea lineal, tiene como
principal consecuencia que la información almacenada en las bases de datos sea fácil
de entender y de anotar. En esta primera práctica, estudiaremos la información que
ofrece GenBank sobre el gen dUTPase de la Escherichia Coli.
98 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA

NCBI-Entrez perm ite consultar múltiples bases de datos


simultáneamente. Sin embargo, las búsquedas están restringidas
siempre a las d iferentes bases de datos del NCB I.

Para acceder a Entrez, abriremos una ventana de l navegador y tec learemos


la direcc ión de su pági na principal (http:// www.ncbi.nlm.nih.gov/entrezl). Puesto que
vamos a buscar secuencias de ADN, seleccionare mos, en el menú desplegab le de la
parte superi or izquierda, la opció n Nucleotide (ver F igura 7.1).

H!WIW · "-'Wtof· HCII K "-------- - - - -- - - - -- - - - - - - - - - - -1


~1 11·· -==

-.....
Publl:)ed ..-
....... ,._
"'~"'"'­ ~-===============~ cm
PubMed CO,NONS

e~
Fea~Uf"f'CI COflllllotM . .11111 $t

""'-
BHt~ SI'EJ.tl ~"-"'"? Al.lcb0181*'601'1rnlt_
lm~.JI.o'l5, & tnn Cflll'~ • $J'JO rrwloetOitl

Pub~Tools Moro A:..ou1u1


fl¡ll.ltd.M:il:tt -.\.);ll1..Q;UCjai'

A.,,.., tél'h t'Jn~~ tro

A:bl.!td , ........,~ E.uíloW.. 00!


Nr- ..,¡ Nc!l,....,..by o

.........
Gl1UIG STAAIW

--""""''
Figura 7.1. Página principal de búsqueda del NCBI

Por supuesto, es posible escoger cualquiera de las otras opciones y la


búsqueda se efectuaría sobre otras bases de datos del NCBI. De la misma manera,
s i se selecciona la opción All Databases, se obtendrá una perspectiva general de
toda la información almacenada en el NCBI acerca de la sec uencia introducida (ver
F igura 7 .2).
©RA-MA Capftulo 7. PRACTICA 2: BÚSQUEDA DE SECUENCIAS 99

(g} EntrezJ The Lite Sclences Search Englne.

SOtTl ~ Pri.eted: e.on(ICI(ilol I~CG':~;;an;¡ ~':l.-' XI$ m ... llJ ~Of"'r!Cbtcie$

, )51. e ... Y4ood c:. ......., ..........cel ;.u.....! tri....... 1!1 nc t!:) ()I'!IM: onl>'e )(..,,,..,. Wlo•~..,. ..., M"'' (f)

4~ 1j '!el SNftlltt.:talfo'(fl~f~IPro'S =
m ""' ~ 01'\W Of'l'flt.Wf:~ IV!lfi:Wt 1'1 ~~ l!l

1 I U10

unn ~ """'*~~'~t '.to.Hf(('oSau~w m •


(fi)" G t - : t9d"'f"'t...,q •.r.¡;""
S litlf>1 Q) 212<1 ~ JO Oom•tn J: wr-'I'"~II'Oml<'trttS:Nr.Vt::

UO Q) );ti'\IRII" ll'lfU4m(1l$0N!tr.ilCV-ICittUW WllOitU f!l UO o UftlfTS:f1'".ll'llf~ollllmtpjh'IQ~


1 e Ta-.oy.O"if.......,.inC:••••..t lll ttU Q¡ ~t:ror-A~!411o:t1 .str...,.~
7742 ~ $MP: :.~r~;ltnoc:!et~UCirt!'t.,., :11'1 (!1 SSU ( ; GfO PNfll._.:~re$101«1 ,....el ~\1 01 •f:lo'.o'ICI""'~<'OI' .,;. l!l
lG-U ® G•-·'.l~...,,~ ..,_,,.,..ako!> f!l 13 ~ GEOo.t.ScU!t•~<~'"l#~t•GEOcb'll !!)

en € ""'""'lltC4Ml eJ~t'ft<:KI'IO-l'~O::"'I)!. l!l


7 e P'\oll(:ho:"' (-~ Ul'o!JI>t V..tllroolf(\h (1\fl!'nklll !111\oC:Iu-~ tiJ
m
126
'
tlJl ,_,\Chtm llo.\uwr: bi•~t ~~W>Ufc~r~ wt"lrnc:~ 1!1
t JJ ® f'll.c:JitM $'111Wbi'IU' Cl(~' •.M (7'l<f!'IUI '..0~'-Cf IOKU.:I'. C!l - 8 GfHSAT: o.-.~ .Cllo,Off't~<tfO'll netYO"'~.-n l!l
1 ® G t - P..;.(t:~·-·•l"CCI"'"t Jtler.,.._ 1%1 Xt e"'""' . . ...,..~11>< ou9r,.,...,.
.,
l'loMot .-;¡¡ _JNt. .!t:<:kC¡It(S "ll'c.'m;r.QIIUW(I7lt101~41M"* 1t A.ltfii'J~u•KJ t!l lti M Mf:loll:ll,...)f:{ "!''!-<litiO-U•~~ fllN.,(OI'In'l('d"rtoC«<u'II'Y
Y/ tltlet Í~'M G-Y.liHI~U ~1!1
'lJJ ~ IU.Hcat. ...;u"'09cfi>MI().IO<IIT"aoldM•)'WI'I.>J/II)!OI!tCI4lf;' 1%1
" ' tolkl:r-~

Figura 7.2. Selección de bases de datos de búsqueda

r- , "
Vuelve a la página principal de búsqueda y selecciona alguna de
las opciones que no sea Nucleotide y comprueba la información
~ ...... que te ofrece e l NCBI sobre la secuencia bajo estudio desde
distintas perspectivas.

En la caja de texto de búsqueda, teclee el identificador del gen que buscamos,


X01714 y haga clic en Go.

La Figura 7.3 muestra la entrada de GenBank XO 1714. Aunque por defecto


la información se muestra en formato GenBank, el menú desplegable de la parte
superior izquierda permite indicar tam bién otros formatos de salida, el más común
de los cuales es el FA STA.
100 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

:.: l .('doftil-f('lcli!'P~~ JI . .. ._ _ _ _ _ _ _ __ _. . ._ _ __ _ __

+ " ·- .'...... ""'00'"' ..


'
' ~ 1l'

Nudtodde

'
E. coll dut gene for dUTPase (EC 3.6.1.23) (deoxyuridlne 5'-triphosphate
nucleotidohydrolase)
C"'tomlr. lltt'W
oene.w. JCOH1 .; 1
8otk fo:ot11r.,.
¡.:¡¡; ~
.. Ot! "'1'1: "" "
c.... A:'i> - cos ,.., ...... C<'ly

toCUt liOHU

~ • 4 : :!p.:;;-~::e ::~:!e: • ~4-:l:~--:.:: ~==<>•


xc:':'
lii>I, U.l ~: :~U~

--·
" " - ~ bJ NCIJI
.! J ~~· _ . . , . .
7t»-,.,..--
" ~
..

++
c¡_,:::
JiX:::•"•"'•"'
~.,I

.l!l.ll'fl• tflft ••q_-•


... sv.s.
;.~
t !'ftt:
:...O.<IIH>:,;r,:..o ••
lÑc:}n.'.;.~dc Hq'M::.O.C
n.>.•o~_...::,II .O. , lt.u!~<-•Ga,O.ll.
o! tbc U .....C:\7o.-.l ';o<:.C
*'"':;.,.......,P.O.
!o• diJ'Ttuc o!
,,,.,_.
l:~l>o:tUC:l'>U cqh J:-l2 ~~f.._.u
.~ CiliO:. ~ ,,,, " , •.,. t~tth
f~n ... ~

~ C.au l<1.r;:lly ...., _ (J~·IK'V• H•UI I>'J t. :.0:.-..Z.r'\J•


m~ t.o...t.=-...l~h!a:a
-~ 1 •• uot Rttai.H ''"'~on
/ C>t•:U1:111"'t :eM n el\U C':>U ' R•hl<d $o.pct"Co<
I•~ .~J'PO'-"C:cMBJ.~ tt~J. •
,~_

~
..... :-- - ........,lE.

--··· ....
..._
holllt..,..•PUC

Figura 7.3. Resultados de la búsqueda

Ahora cambiamos la vista de GenBank a S ummary y en la página de


resultados (ver Figura 7.4) aparecerá una defin ición breve de la sencuencia de
entrada, precedida de su identificador.

-
+ -..-~ .l ~tn •ilvfC'I' ...-~ti'UJ'o c¡o«! W...<....&.....p 1<_., ,..

Rebt.6 •nlonnlllo"+
C COII ~ 9"fW' 'Cf' dJTP - tEC 3 6 1 Zl) IO!O!)Unor. 5'·lrf"'9!P.'\a"A I'IUC~ Rtbrld~
1 60909 llfle<ll' I)I:A
~fi~IUh.l l Cl U~
...
c~ u, t;!l.. o:..~... ltrl.:.:to,!tOJ.r .u ......
~~rJIMC

Figura 7.4. Registro GenBank X01714

Para guardar la secuencia en un fichero de texto en formato FASTA,


selecciona la opción de fo rmato texto (Tex t) y Send To en e l menú desplegable pa ra
generar el fichero de la entrada y guárdalo utilizando las opciones de l navegado r.
©RA-MA Capftulo 7. PRACTICA 2: BOSQUEOA DE SECUENCIAS 101

~ Lcok dut~forciJTP.n.~ X 'lo..;..-------- -------------------1

Figura 7.5. Registro GenBank XOI714 en formato texto

A continuación, aprenderemos a interpretar el contenido del fichero, aunque


para una descripción más deta llada y formal remitimos al lector a l capítu lo anterior,
en donde se trató e l formato de fichero de GenBank.

La Tabla 7. 1 resume la información que se extrae de la cabecera:

:-.lombre del campo Inte rpretación

LOCUS Nombre del locus (ECDUT). tamaño de la secuencia de nucleótidos


1 (bp), naturaleza de la molecula (ADN) y topología (lineal)

DEFINITION Descripción corta del gen al que corresponde la secuencia de esta


entrada. En este caso, el gen DUTPase de la E. Coli
lf.CCESSION JL,!dentificador de la secuencia (XO 1714)
VERSION Versión de la secuencia
KEYWORDS 11 Lista de términos que caracterizan la entrada
SOURCE Nombre común del organismo a l que pertenece la secuencia
ORGANISM 11 Información taxonómica 1
R EFERENCE Información b ibliográfica de toda la secuencia o solamente de partes de
la misma
COMMENT Texto en formato libre que proporciona información adicional al resto
_ , ._d;;.e;..campos

Tabla 7.1.1nformación de la cabecera del fichero

Después de la cabecera, encontramos la sección de características


(FEATURES) que describe las regiones del gen y las propiedades biológicas que
se han identificado en la sec uencia de nucleótidos. Llegados a este punto, conviene
hacer hincapié en la simplicidad de la transmis ión de la información ge nética en este
tipo de organismos (ver Figura 7.6). Como puede verse, la secuencia de ARN m que
se traduce en proteína es aquella que está señalizada con una subsecuencia especial
llamada RBS (Ribosome Binding Site).
102 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

GEN

ATG STOP
ARNm

ORF

l PROTEÍNA

Figura 7.6. Relación entre gen, ARNm y secuencia de proteínas en las células procariotas

De acuerdo con lo anterior, la información registrada en la base de datos


debe contener, al menos, las coordenadas de algún promotor, las coordenadas del
RBS y las coordenadas de los límites de la región ORF. El resumen de la información
de la entrada obtenida está recogido en la Tabla 7.2:

Campo Signiticado
1
/so urce Origen de la zonas específicas de la secuencia. Es muy útil cuando se necesita
distinguir vectores de clonación de secuencias huésped.
En el caso del XO 1714, la secuencia completa corresponde al ADN genómico de
la E. Coli
/promotor Coordenadas del promotor. En este caso, hay dos promotores: uno en la región
-35 (posiciones 286 a 291) y otro en la región -1 O(posiciones 31 Oa 316)
/misc_feature Ubicación putativa del comienzo de la transcripción (síntesis del ARNm). En este
caso, es la secuencia comprendida entre las posiciones 322 a 324
RBS Localización del último elemento de subida, que se encuentra en las posiciones
330 a 333
CDS ORF del gen. La primera linea son las coordenadas de la ORF, desde su codón
inicial hasta el fina l, esto es, posiciones 343 a 798.
El resto de líneas indican el código genético que hay que aplicar (ltra!lsi_lable),
el identificador de la proteína (/proleill_itf) y referencias en otras bases de datos(/
db_xrej).
Finalmente, ltranslation es la secuencia de aminoácidos del segmento CDS

Tabla 7.2. Sección FEATURES de la entrada de GenBank


©RA-MA Capftulo 7. PRACTICA 2: BOSQUEOA DE SECUENCIAS 103

Las entradas con más de un gen so n muy frecuentes en los registros


de GenBank.

7.2 SECUENCIAS DE ORGANISMOS EUCARIOTAS

En los orga nismos eucariotas las regiones codifica ntes de ADN se d ividen
en un número variable de exones (fragmentos del gen que contribuyen a la proteína
final) entrelazados con intrones (fragmentos del gen que no codifican).

A continuación, se analizará la entrada de GenBank V00505, que contiene


el gen que codifica la delta-g lobina humana. Para ello, abrimos un navegador web y
tecleamos la d irecció n de la pági na principal del NCBI: http://www.ncbi.nlm.nih.gov/
entrez/ y, al igual que hemos hecho en e l epígrafe anterior, en e l menú desplegable de
la parte superior izquierda, seleccionamos la opción Nucleotide.

En la caja de texto de búsqueda, tecleamos e l identificador del gen que


buscamos, VOOS05, hacemos clic en Go y obtenemos el s iguiente registro:

LOCUS V00505 1976 bp DNA linear PRI 14 - NOV - 2006


DEFINITION Huma n gene for delta - globin .
ACCESSION V00505
VERSION V00505 . 1 GI : 30510
KEYWORDS de l ta globi n ; gerrn line ; g l obi n .
SOURCE Horno sapiens (human)
ORGANISM Horno sapiens
Eukaryota; Metazoa; Chordata ; Craniata ; Vertebrata;
Eute l eostorni ;
Marnrnalia ; Eu t he r ia ; Euarchontoglires ; Primates ;
Haplorrhini ;
Catarrhini ; Horninidae; Horno .
REFERENCE 1 (bases 1 to 1976 )
AUTHORS Spri t z , R. A. , DeRiel, J . K. , Forget, B. G. and Weissrna n, S . M.
TITLE Complete nucleotide sequence of the human d elta- globin
gene
JOURNAL Cell 2 1 ( 3) , 639-6 46 (1 980 )
PUBMED 7438204
COMMENT KST HSA . DELGLOBIN .
FEATU RES Location/Qualifiers
104 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

source 1. . 1976
/organism= " Homo sapiens "
/mol_ type= " genomic DNA"
/db xref= " taxon : 9606"
prim_transcript 123 .. 1763
exon 123 .. 265
/number=1
CDS join(173 .. 265 , 394 .. 615 , 1505 .. 1633)
/codon start=l
/product= " de l ta g l obin "
/protein_id= " CAA23763 . 1 "
/db xref= " GI : 30511"
/db xref= " GDB : 119298"
/db xref= " GOA : P02042 "
/db xref= " HGNC : 4829"
/db xref= " InterPro : IPR000971 "
/db xref= " InterPro : IPR002337 "
/db xref= " InterPro : IPR009050 "
/db_ x ref= " InterPro : I PR012292 •
/db xref= " PDB : 1SHR"
/db xref= " PDB : lS I 4"
/db xref= " UniProtKB/Swiss - Prot : P02042 "
/translation= " MVHLTPEEKTAVNALriGKVNVOAVGGEALGRLLVVYPWTQ
RFFESFGDLSASPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFSQLSELHCDKLHVDPENF
RLLGNVLVCVLRNFGKEFTPQMQAAYQKVVAGVANALAHKYH "
intron 266 .. 393
/number=1
e xon 394 .. 615
/number=2
intron 616 .. 1504
/number=3
exon 1505 .. 1763
/number=3
ORIGIN
1 aatgaaggtt catttttcat tctcacaaac taatgaaacc ctgcttatct
taaaccaacc
61 tgctcactgg agcagggagg acaggaccag cataaaaggc agggcagagt
cgactgttgc
121 ttacactttc ttctgacata acagtgttca ctagcaacct caaacagaca
ccatggtgca
181 tctgactcct gaggagaaga ctgctgtcaa tgccctgtgg ggcaaagtga
acgtggatgc
241 agttggtggt gaggccctgg gcaggttggt atcaaggtta taagagaggc
tcaaggaggc
301 aaatggaaac tgggcatgtg tagacagaga agactcttgg gtttctgata
ggcactgact
361 ctctgtccct tgggctgttt tcctaccctc agattactgg tggtctaccc
©RA-MA Capftulo 7. PRACTICA 2: BOSQUEOA DE SECUENCIAS 105

ttggacccag
421 aggttctttg agtcctttgg ggatctgtcc tctcctgatg ctgttatggg
caaccctaag
481 gtgaaggctc atggcaagaa ggtgctaggt gcctttagtg atggcctggc
tcacctggac
541 aacctcaagg gcactttttc tcagctgagt gagctgcact gtgacaagct
gcacgtggat
601 cctgagaact tcagggtgag tccaggagat gcttcacttt tctcttttta
ctttctaatc
661 ttacattttg gttcttttac ctacctgctc ttctcccaca tttttgtcat
tttactatat
721 tttatcattt aatgcttcta aaattttgtt atttttttat ttaaaaattc
tgcatttttt
781 ccttcctcac aatcttgcta ctctaaatta tttaatatcc tgtctttctc
tcccaacccc
841 ctcccttcat ttttccttct ctaacaacaa ctcaaattat gcataccagc
tctcacctgc
901 taatttcgca cttagaataa tccttttgtc tctccacatg ggtatgggag
aggctccaac
961 tcaaagatga gaggcataga atactgtttt agaggctata aatcatttta
caataaggaa
1021 taattggaat tttataaatt ctgtagtaaa tggaatggaa aggaaagtga
atatttgatt
1081 atgaaagact aggcagttac actggaggtg gggcagaagt cgttgctagg
agacagccca
1141 tcatcacact gatttatcaa ttcaatttgt atctattaat ctgtttatag
taattaattt
1201 gtatatgcta tatacacata caaaattaaa actaatttgg aattaatttg
tatatagtat
1261 tatacagcat atatgtacat atatagacta catgctagtt aagtacatag
aggatgtgtg
1321 tgtatagata tatgttatat gtatgcattc atatatgtac ttatttatgc
tgatgggaat
1381 aacctgggga tcagttttgt ctaagatttg ggcagaaaaa aatgggtgtt
ggctcagttc
1441 tcagaagcca gtctttattt ctctgttaac catatgcatg tatctgccta
cctcttctcc
1501 gcagctcttg ggcaatgtgc tggtgtgtgt gctggcccgc aactttggca
aggaattcac
1561 cccacaaatg caggctgcct atcagaaggt ggtggctggt gtggctaatg
ccttggctca
1621 caagtaccat tgagatcctg gactgtttcc tgataaccat aagaagaccc
tatttcccta
1681 gattctattt tctgaacttg ggaacacaat gcctacttca agggtatggc
ttctgcctaa
1741 taaagaatgt tcagctcaac ttcctgatta atttcactta tttcattttt
ttgtccaggt
106 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

1801 gtgtaagaag gttcctgagg ctctacagat agggagcact tctttatttt


acaaagagta
1861 catgggaaaa gagaaaagca agggaaccgt acaaggcatt aatgggtgac
acttctacct
1921 ccaaagagca gaaattatca agaactcttg atacaaagat aatactggca
ctgcag
11

Figura 7.7. Registro GenBank correspondiente a la entrada VOOSOS

Este gen tiene dos in trones (el primero entre las posiciones 266 y 293 y el
segundo entre la 6 16 y la 1504) y dos exo nes (el primero entre las posiciones 394 y
6 15 y el segundo entre la 1505 y la 1763), co mo marca n los campos /exon y / intron.

7.3 BÚSQUEDA DE VARIACIONES

Encuentre el efecto de una variación en la región 3713 del gen


h umano q ue d etermina la dist r ofia muscular d e Duchen ne (DMD ANO
Homo sapiens) .

Para resolver este anál isis, ab rimos un navegador web y tecleamos la


dirección de la página principal de Entrez. De nue vo, en e l menú desplegable de la
parte superior izquierda, seleccionamos la opción Nuc leotide. En la caja de texto de
búsqueda, escri bi rn os "DMD ANO Ho rno sapiens" y hacemos clic en Go.

- .•· p o o

-
OloriMo 'k*=r<€-- :t,. _ _ ., ~· ­
=~. 11!1111

o'-·"'- ·- · ·--C"MM urQ2) .cce(IJ


S..DW!IMI'Xfl'! . . . c..-... ICQ.. f $ )mil

--e-~ frcrcQ!) BliWI..Illl

,.. tt"!QQ .......... traN""C~!;J!ID!*I6.UC~


"'.. ' ... -· .....
' 2,110 ""k-f!A1ót<
..,,,q.
_ o.p. m:,t!t.!.'d
_....
c_ . , . , _r!Q
--·--·""'~
~..., f~l">
IP.IIli A•·ot1.•W!.,.."'
e : -.....· - ·
r t»
"l

l
)
ll:l _ _ _........ OliiO o;at.~·.,t~
WJCMI.Ifi!A

-..,.,_
C..-
~17t1
IA:I~
GIJH,J.
t....,...._ flt..Ja ;..¡~
He«)fP!e!...... eAz.eo,,.,.,.,.,!! DyQ r"t lfiUO: Q..lltW" ..................."(1

'*WI'-~
«<··-IC'I>-'1> ,..,. .....,._ _
----
~-
·~ -"
~-(' '
..... ~¡
.... -

!A$ Ct-..

..
~

P" · p ot!IIOIU:~IIWOJ"-Id ·•. . lk!oc.'llld;;!l(o


• l)?'ntlpl~-

-·-·M,.-'00'*-
'4dlr:i! ~ ~ ••lit« :.....,, ~l
~-$
" '-:.u ¡
_.., .., •(Of9oU•I
* ,.,._
~·-
· -· ... 111'-' • U o <u)l

Figura 7.8. Búsqueda del registro en GenBank


©RA-MA Capftulo 7. PRACTICA 2: BOSQUEOA DE SECUENCIAS 107

En la parte superior derecha, seleccionamos RefSeq y el tránscrito Dp427m


(accession NM_ 004006).

.....
Nudao'l!de
'

Horno sapiens dysltophln (DMD), transerlpt variant Dp427m, mRNA


1-<:EI Atref~ ~e ~-I)0.4(l(l(; 2
f:l.'<l:. ('1""'t~

G.!o e
~· tftlt tt~~ct

Dl:tlli!1 1C.
ltOCt"lctll
- . .,,..,.
IIK. O<ItOO'
~<M_ oo•oo• . J
J.u;o.,:¡ ,
I!Oil<> • • PlUe
o¡-.~"flo.ln ~DilO), t.,..,...... l~

01 : n.u~ee-o •

1~1
...nut ~;.Ta,

r..:.:-.:o.:·,-.: 01 Y.u~::-s: 0:.<:¿:.:~; C::o.=.>-~~~• ~·~::u:o::. ¡ ro=::! <::.::=:


.ax.:..
--·
'"'IUST

lltffiStl $..:11.'1\Y>et ,~~'


r...,.,t.s~•

W..•Hol t .a.tr, o: t-n,;lw:intoolaut fTIN tUl K.l.r>lontoi&IT A.nltles ' OOV11tlt ONO Qtne
ColoU)tlll.fl.l : ~~~~u•: IIOftO. ~Wfd.•• JlloJI~ 0,.:~
RU't:~ l (h.ou 1 w 1:1,.,.)1 ris-'"..,. s)"d!o;•u . _ , :l'li;,("'='-•'Y :'01)1
:.1.1t:ll:i'lU .:.. e.:e....~t .;.~. lllo.to..·:..H ' ' • ''• :1>•o.: t tt , o.all<"': u , M~l t ...
Tl:.:=o 1!1l, JI :.:=J~·lk: .JX, 'kc:.u.ol< J:, 4 : 'h >.c:. :11, "=
r ::c<=; ! , Ostlo10<141Wdor< (1 !.ho -"'Oqk ~
:><<OOMcd¡nt.... C*IIfloot'"' 1"'<>'10... :latíJ
Qotll lf, llil M. Q.t!!;> :, dtn ~oli>MII :t. ltlh~htOU '.')!, l.al'\-·IIUt
""'- a.-1 .e. =::uoe,
- loe_ . l l 11 a..o IUHUt~¡ t. .:. J.oi.. ,... (l.loo'<lf\ e''''-'''
Jóol• OLIO
¡;::..t

.JOOIIIU1.
ro~
;, 3·N.:.c ~!:'
lAattoccc:>&! 41ül>~l!: •t
l~r. J, """'· eo..~. ))
>~·'~'"~'
e.tnt-"l':.~ .
"~~""'"~
t••· ~ fO· •U PO"~~ ~
!:1. ::lll)
...:•=: ..... .tr~ u~v
=::.::lu ~ oo.ob 0. 0..~«w>l4o(t-.J......,~ ;.)U)
... ~

~rx~ 1 (~"u 1 to l,n,.


PJ!IW4:ft ror tllt' Dt.tO o•ne
......,_ECU •.._,
nru. •• " -0.."'7"'
.. .•..,..... . ·- '
~

,. ,...

Figura 7.9. Registro de GenBank

Si exami namos, como se nos p ide, la sección del fichero correspondiente a


la variación 3713 , encontramos:

variation 3713
/gene= " DMD"
/gene_ synonym= " BMD; CMD3B ; DXS142 ; DXS164 ; DXS206;
DXS230 ;
DXS239 ; DXS268 ; DXS269 ; DXS270 ; DXS272 ; MRX85 "
/note= " point mutation causing translational stop;
Glu1157X
(543366)"
/phenotype= " Duchenne Muscular Dystrophy (DMD)"
/replace= " t "

Figura 7.10. Sección del fichero correspondiente a la va riación 3713

Es decir, se trata de una variación que termina el proceso de traducción del


gen.
108 BIOINFORMÁTICA: El AON AUN SO LOCLIC ©RA-MA

7.4 EJEMPLO DE ESTUDIO DE UNA PROTE[NA

Se trata de rea l izar un estudio práctico de la proteina humana


hemoglob ina subunid ad gamma -1 codificada en el HBGl , resp ond iend o
a las siguientes preguntas :
l . ¿Cuáles son l as coordenadas del gen HBG l ?
2 . ¿En qué hebra se encuentra el gen HBGl?
3 . ¿Cuántos tránscr i tos cod i fica el gen HBG l ?

Como viene s iendo habitual, abrimos un navegador web y tecleamos la


dirección de Entrez (hltp:/lwww.ncbi.nlm.nih.gov/entrezl) . En el menú desplegable de
la pa rte superior izquierda, seleccionamos la opción N ucleotide y en la caja de texto
de búsqueda, tecleamos e l identificador del ge n que buscamos, HBG 1 y hacemos
clic en Go. En los resultados de la búsqueda (ver Figura 7.1 1), seleccionamos la
séptima entrada por ser la que contiene toda la región codificante.

~ ::; Uac.t AND I ~ MflltM·tt. \+


+
._. • \J._.,.,.. "<;hnltr ~n.,.;c~oc.h•"' ti~!-,\IIC•H...._:..p,;,
"
m =~,.-

ll<iSo<
Resulta: 1 to 20 of 33 ;-. 1- ~f!
""' . ...
:.-.

rl HM!O llRit Q• g,ac;;:¡a,AIJemogiQQ::Q ltlllGl )ge;Qt, pmrt'ºt.tt ~20 aQQ ~!Jlal 'Oi
"' T., O
1 602 tlP ~ne.v or~
tbmo~
Aot;c~:.ion. #F487523.1 C' 1334~2'56

~""""" 5\m C•A!!!:i'..;¡ 8f.ttdSo~o:.. ,.,...,


S)fthtf

[] Hof!IO QQ!tDS A.(l.l!!T!Jil gtob n jHBCll !JMG HBCJ{i iff!r m imo? (:':ID$ M!d OM11'!1 f!'S

• MOOph<wOf~

.o.cotulon AYS344ilat CA Utla76 17


~ ~ ~ Rl"»'~~'!~'~'~'-...'
-·""'""""""
.......
tJ Horno I!R'!" ! fleta 910011' r~M (HA.nf!ll) aM netnoc»obh, bela (HBB) and llet~bk'l , deM rueo~. ano~ ~1100 1 Fl nd ~la

• íti!!SJl aniJ l\f!f!C!l~PD.!!!.Jii!I!W!!3..I\.~


81.70G Dp tnear Ot~
ar'ld llern~J:!O!:*J...gaiMI3...C': ~~R~~tl'lfOiflO'i.(llrlll.11
Dill~~-

"«tUl~' NG.000001 J G 2ll&OG36


f;foiii'IM!t IA.'IJ5 ro·~~ l(fi",Jtl(l ~/ll-..... ~

1 ~I.R.I.fJll ~oog:~ ga¡:;.;)Al;.(lj El~ l).lllB:t.i5 Suret'ld


• f.U bp b:tt mtlf.t4
ACC8~$1011. NU oooe6t.2 Cl 23302130
:!54!:(:.!.'
"nr~e""
Ct!IS..n.~t e·~:.. Rt' .L~ SO!l!Xr"..ttt
'"""
[1 Homg lillii:IIQI Ilt~kD'I 01111 ~ 'i18 U::UHi llSI!::IIll
.;I(IJ)ol<!.n~

..,..
HEISCHil:·f -..m..w 11: ;llll'tl!! «mn 3 illll Ril!llil1 ~SI:i
S 320 bp line-ar ow.
A«:t'$1011 FJ~~7$00.1 (;.lli7G-4t0:S
~ et "':1Sr:?"em;z

e
ft>.lO
""""*"
Horno H21• ns ~WOCAoQai"T'r'MQ'Wn 'HBG1 )~ne, OQrtill eos
Rtct nt a
•• 31 $ bp lr'le.lr OW\
A«:U ~Ion:CU00)4..1 1.1 Gt 1:291-ti':'i
G•!IO~nlt ro'\'.>'A G·api'W~ n•·•..o ~tqVotr.;:-u ~ ttlG1

.J HOI'I'IQ llRII Ql De:QOgiQQIJ. g,a.c.ma El.ittBGl) geae: , m o:ek' 'as ~


7 l !i,4~l) bp linear OtlA
Acc;c~:;• tm. CU324m , Ct. 30231lH2
""'"
Q. HAa

Figura 7.11. Resultados de la búsqueda en Entrez


©RA-MA Capftulo 7. PRACTICA 2: BOSQUEOA DE SECUENCIAS 109

Si visua lizamos el fichero en formato GenBank, veremos que la información


correspondiente al gen HBG 1 es:

gene 2006 .. 3591


/gene= " HBG1 "

Y que el ARNm que cod ifica la proteína es:

mRNA join(2006 .. 2150 , 2273 .. 2495 , 3376 . . 3591)


/gene= " HBG1 "
/product= " hemoglobin , gamma A"

La notación jo in hace referencia a los rangos, dentro de la secuencia, que


forman parte del ARNm, esto es, que la cadena de nucleótidos de l ARNm se rá la
concatenación de las tres subcadenas indicadas. Por otra parte, la región codificante
del gen es:

CDS join(2059 . . 2150 , 2273 . . 2495 , 3376 . . 3504)


/gene= " HBG1 "
/codon start= l
/product= " hemoglobin , gamma A"
/protein_id= " ADL14496 . 1"
/db xref= " GI : 302313143"
/translation= " MGHFTEEDKATITSLWGKVNVEDAGGETLGRLL
VVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDATKHLDDLKGTFAQLSELHCDKLH
VDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH"

Finalmente, se conocen hasta 44 va ri aciones del HGB 1, cada una co n una


frecuencia de apar ición.

Ahora abordaremos el análisis desde una perspectiva centrada en el gen en


lugar de en la secuencia de nucleótidos que lo constituye. La principal ventaja es
que la info rmación obte nida está más resumida. Para ello, volvemos a Entrez pero,
en lugar de se leccionar la base de datos de nucleótidos, especificamos la base de
datos de genes (opción Gene) y en la caja de texto de búsqueda escribiremos el
identificador del gen HBG 1 y hacemos clic en Go.
110 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

+• ...~ .......- ~ •.. -·- - ....- e g .g..,.,

"'"'
!hta~l'tla ~ ... ,;:¡ - l \lófttOt lbls

---- -· ----
<.o.. _ ..

-- "'"'"""

--· ... -
--
ReM.ttl t

·~-
•N:*_,,. ,.
~
--~
oa.w.. -

... .... ---


r...,

--- . .·1"'0- -
.,_...., ...... "*' ..,.,.SI'
1'11102'"' ~n
"""
_
--
ISU&l'l't

"
-
M 1 t.IJ.l ndMI IIIIID t " ib'lf

·--- - ....
"""
C> ·~·
......._._
,.~ o .... ti
h1C.(IOCC.:1.
~XIItUI, eno..- C.VIf'
0-t,SHCI"(~u.l-.) ~ .....
• . ,. . . . 1~1 . . .. ....11

-·- ·-· -- -
..... l'fO-
-..;....
ooa ~""'·~ 011 ...... ti (1)11)1.(
......
-· -
IC000011tf
~-
... ~

---- ·-·- ---·


IP~Wl'JU ~-

---
"......
:•u
c. ..
..,etilo l ...... _
............
NC.to00fl11
11M11-..t


lt'.ol»*~
C:O•IIll!:.ow-•
""" .... -~

Q; teGI.ood - ......... 11')

-- ..... -· """ el _,
11!(i.HlltCf

............... """""_..........-l
lil*l " ·
~.toOtnll
l~ltiWrt,
1401~ .,.._ ... ,....

-
ro._ 01 ....... t
Q; leGINI0_1_1'1

--
101""' 0111~ I ¡¡MI- ~

••• COII!O . . . . .
VI,.U""''~~~~"~~
..-.e ~~e_~ u
,,.~,..,~"' ~
o. - ..
Q; leGIH0 - • - 1 ' 1
--
"""
Figura 7.1 2. 1nformación contenida en la base de datos Gene

En la parte superior de los resultados (ver F igura 7 . 13) aparece una descripción
general del ge n, las funciones que rea liza y un conjunto de enlaces a otras bases de
datos o ficheros del NCBI.

r~"~--~·-·
.. • "'·'' ........ ,~ 'N' •• •·~-· p
"" • ft .. • •
. ~-

""" ..... :~~ .JCD ...,


~~~-~ ,.~ ....... --e-ni~
.
.........
_(_.,.
-- --·-
H8G1 tlernoglobfn, ~ A ( Homo Ap#MS (hU!Mtlt J
<"oeo.O lOI,,...,.....,zw~
o-..,c.t. · - - ~
• .oJ ..~.....,
te3, _ _
--
..........
-_....- ...
O
S
d
o
l
l
~
O.lol,..._ ~ ..... ~.

__
,__,_ ~

l-
............~... Nll».m - _..,._
... ~ ....0.00.
, - Mt11Df!NII
* -.. . . ._ ..
~-~o
o..- ,...._.
......... ~ ""-o-.r.. o....r. v.-.... e..,...,........_,_.__~&....:...,......~....." "-'""·- ..
_...,
..-..-c.r-..
¡;.......... " ' _ , . - -
iloloO · - . "*" NIOft ,..,:t ltSOCa~ f'II:OIIIl1
~ flw--~-f.eGe"~"_...,..,l"n,.,..,""'-'"""· ,......,.,.--;,._...
.
cto.,• ..,..,... _ _ _"""c--.'-'-~f!tl')-"--,...,_".,_"'......,~

•-•-~--·--w-....-<-~<•---Tho-~11
__ .,. ........
A~-11«>11
,,._'l'f'..... -·
flo....,._.,,,._ ...8o~o,..,_......-.n~-·-~-·
f'!oo_ .... _ ..,... .......,_....,.., se...,......
.. 1101•110· ~-

,_,
o-.erto.~

-.e ~ Ol--' ~- ~ _ _, ....,._~~ .lA*'I -~

Figura 7.13. Información en Gene sobre el registro buscado

A co ntinuación, las secciones Genomic context y Genomic r egions,


transcripts a nd products muestran una vista esquemática de la estructura del gen y
su localización en el cromosoma 11.
©RA-MA Capftulo 7. PRACTICA 2: BOSQUEOA DE SECUENCIAS 111

--
'"
•1'1
-
..,.,.
_ _...,
...._.....
<l'tOM .q:q ...... )lo
Oilb"'"'uxrrtub!!!\t<J
c. ···-
"
"
<.GIU•IO~ 'liOWI _ , _ _,
C:J)IU• t tueoii!G' <;Ihlll - -
-..._.··- ..
.. _ _
~;.o
.,.,;.-

co--..... ~...... ~-- " "' ·--"-... ~-..._.,.


o. .. -- ~~-.._

-
,...._

... ..._..__ ...... -·--...


.._ --
.. . ..... .
............
n ...- .•- .. ,.,., ' "
.-..- ,...
,, _ ..., _ .,,,__ , . ...... ,.., .,._ ... ,, ,..._ .....

- . ....
--·
• .., ' " a ... ..,._.,._,,. .,,_ :.ooo "'' - .. .w-..,........
..
m -"""""...
. --··
- - w-c..-
E

Figura 7.14. Visi ón genómica del registro

Haciendo clic en e l Map Viewer se mostrará una ventana con la estructura


detallada de l gen. Como su nombre indica, MapViewer está diseñado para simplificar
la construcción de mapas genómicos.

r
Ho(lvl ~MR :J~ G-.u..~- 1.1"':' ~

"'' '"u•i
~··~·l

~····

..
.:<J:•O:»O

~J:•Oo»j
.. $~0»01
.. .
·~'"·l
,. . .....1
. .: •i $ h• ...

. ~~--LJ:z----1-
l iHH
H<I'H Oo1
..
. v..'•'i2')01
i
·~-)'1001

:::::¡
.. ;.:t•,0401

. -~:~:m~ '-: .O.O»oj


. . .......
1
1-;-~·---~·,.:,,u;:.>.,
.....,.~~
~""l
,.t4• ...,...

.1 = .... j
Figura 7.15. MapViewer (1)
112 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

[= "'""!
...<iM,'
....,.,....
.......,.,..

. ..... LNr\d
~GJ;C«~(

..
~ U.U.OtiN6lZtdJ

Figura 7.16. Map Viewer (y 11)


ANÁLISIS DE SECUENCIAS

El caso más habitual en Biología Molecular consiste en estudiar fragmentos


desconocidos de ADN obtenidos como resultado de un experimento de laborato rio.
A partir de la secuencia, se trata de identificar qué genes están presentes en la misma.
En organismos procariotas la dens idad de genes es muy alta, por lo que la tarea
es relativamente sencilla. Sin embargo, en organismos eucariot.as, en donde las
regiones codificantes se encuentran d ispersas e imbricadas con exones e intrones,
esta tarea es mucho más compleja. Además, ex isten dificu ltades añad idas como los
genes de ARNm o la dens idad de genes de la secuencia anteriormente comentada
(por ejemplo, el80% en bacterias y entre e l 3% y el S% en ser humano). Una vez que
se ha identificado e l gen, la secuencia de ADN se convierte en secuencia proteica y
e l problema, entonces, se tras lada a l mode lado de la proteína que tiene por objetivo
determ inar su estructu ra y fu nciones.

En este capítulo centraremos la atención en el análisis de secuencias y


dejaremos el mode lado de proteínas y la identificación de genes para más adelante.
Nuestro punto de pa rtida, por tanto, será rea lizar el trabajo en e l laborato ri o y enviar
la muestra a la plataforma de secuenciación; el investigador se enfrenta a una tarea
de procesamiento de una cantidad eno rme de datos. La Figura 8.1 muestra el flujo de
trabajo básico de un proyecto de secuenciación genérico. Después de la preparación
de las muestras, estas se secuencian en una determinada plataforma. U na vez
obtenida la secuencia, se realiza un análisis de ca lidad y se alinea con una secuencia
de referencia con el fin de identificar las variaciones de la secuencia bajo estudio, de
tal manera que las mutaciones encontradas se anotarán, se filtrarán y se priorizanín
y los resu ltados se mostra rán en herramientas de visualización. Fina lmente, dichos
resu ltados se va lidarán en e l labo ratorio.
114 BIOINFORMÁTICA: El AONA UNSOLO CLIC ©RA-MA

LABORATORIO
(ptepataGión de la libre6a)

SECUENCIACIÓN
¡
ANÁLISIS DE LA CALIDAD
DE LAS SECUENCIAS

,¡,
ALINEAMENTO

IDENTIFICACIÓN DE
VARIACIONES
!
ANOTACIÓN

VISUALIZACIÓN
,¡,
¡/' LABORATORIO
" ' -·- -"
(va
_:;l;.:c
ida:..:.
ci"-'
ó n'-'•""
xpe
..:.;r.c.:
•m:.:c
<n.:.:;
t•"'l)_ _.-

Figura 8.1. Flujo de trabajo de un proyecto de secuenciación genérico

8.1 DETECCIÓN DE ORF

El primer paso en la identificación de un gen a partir de una secuencia de


ADN es determinar la trama de lectura correcta. Puesto que cada aminoácido es un
triplete de bases, existen tres posibles tramas de lectura en cada hebra de la mo lécula
de ADN. La trama de lectura co rrecta u ORF (Open Reading Frame) es la trama más
larga ininterrumpida por un codón de fi n (TGA, TAA o TAG). Cua nto mayor sea la
longitud de la ORF, más probabil idad hay de que se trate de un gen.

ORF de entorno a 300 nucleótidos ( 100 aminoácidos) suelen ser


suficientes para la identificación de la mayoría de los genes
procariotas.
©RA-MA Capftulo 8. ANALISIS DE SECUENCIAS 115

8.2 ANÁLISIS DE CALIDAD

Una vez que ya se ha obtenido la secuencia correspondiente a la muestra


preparada en el laboratorio, el siguiente paso es eval uar la calidad de los datos en
bruto y eliminar, recortar o co rregir las lecturas que no cumplan con los estándares
de calidad adecuados. En efecto, la secuenciación de un fragmento de ADN impl ica
su purificación, clonación utilizando un determinado vector (por ejemplo, un
plásmido), amp lificación en organismo huésped (genera lmente, una bacteria o un
virus) y, finalmente, la preparación de la muestra como paso previo a su envío a
la plataforma de secuenciación. Durante este proceso, es posible que fragmentos
accesorios de ADN se enlacen deliberadamente con la muestra objetivo, todo ello sin
olvidar los errores que pudieran ocurrir durante el proceso.

En definitiva, el resultado final es que los datos en bruto ge nerados por


la plataforma de secuenciación hay que filtrarlos y recortarlos para prevenir
conclusiones biológicas erróneas.

Una de las herram ientas más extendidas para determinar y combatir los
efectos de la contaminación de secue ncias es VecScreen, accesib le desde la web del
NCBI y que explo raremos en la Práctica 3.

8.3 ALINEAMIENTO

Una vez que se d ispo ne de una secuencia que cumple con los estándares
de calidad, el paso siguiente es e l al ineam iento o comparación de secuencias. La
comparación de secuencias es una de las tareas más complicadas, hasta ta l punto
que incluso hoy en día está pendiente de resolver. Probablemente sea este el motivo
que explique la falta de un único método de comparación de secuencias. En general,
los algoritmos de alineamiento ana lizan secuencias de caracteres conside rando,
especialmente, algunas características de las secuencias biológicas:

a) Las sec uencias biológicas tienen un juego de caracteres definidos


(cód igos TUPAC-TUB).

b) Existen caracteres que representan el va lor de dos nucleótidos


s imultáneamente.

La Tabla 8.1 resume los métodos más utilizados y que serán estudiados más
adelante en este capítulo.
116 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Herramienta Situaciones en qUt.• se utiliza


Gráfico de puntos • Exploración general de la secuencia
• Búsqueda de repeticiones
• Búsqueda de variaciones largas
• Extracción de fragmentos para alineamientos múltiples
-
Alineamiento local • Comparación de secuencias parcialmente homólogas
• Alineamientos de alta calidad
• Análisis residuo por residuo • 1

Alineamiento global • Comparación de dos secuencias en toda su longitud


• ldcntilicación de variaciones
• Comprobación de la calidad de los datos

Tabla 8.1. Herramientas de comparación de secuencias

El a li neamiento de secuencias es una manera de comparar dos secuencias


primarias de ADN, ARN o proteína para identificar regiones similares que tengan su
justificación en una relación func ional, estructural o evolutiva.

En general, existen dos escenarios diferentes: el alineamiento de la secuencia


con una de referencia o bien el a li neamiento de una secuencia para la que no existe
refere ncia.

En e l primer caso, la secuenciación para una posterior comparación con un


genoma de referenc ia, se siguen tres pasos. Primeramente, las moléculas de ADN se
rompen, por posiciones a leatorias, en fragmentos más pequeños y se secuencia cada
uno de estos fragmentos utilizando enzimas de restricción o métodos mecán icos. A
co ntinuación, se crea una lib rería que contiene esos fragmentos de tamaño conocido
y, finalmente, los fragmentos se mapean siguiendo las instrucciones de una secuencia
de referencia conocida. Este proceso queda resumido en la F igura 8.2.

ADN GENÓM ICO

SECUENCIACIÓN DE
FRAGMENTOS DE ADN

!
MAPEO A UNA SECUENCIA
DE REFERENCIA

Figura 8.2. Alineamiento con una secuencia de referencia


©RA-MA Capftulo 8. ANALISIS DE SECUENCIAS 117

En e l caso del genoma humano, po r eje mplo, ex isten en la actualidad dos


grandes librerías de referencia: e l proyecto ENCODE de la UCSC (University of
Santa Cruz) y la base de datos de l GRC (Genome Reference Co nsorti um). Ambos
recursos proporcionan vari as versiones del genoma humano (hgl8 y hl 9 y GRC36 y
GRC37, respectivamente). Realmente, ambas versiones son idé nticas y la diferencia
estriba en la nomenclatura empleada.

Por otra parte, cuando se tra ta de una nueva secuencia para la que no
existe referencia, los fragmentos de secuencia se ensamblan en grupos solapados
llamados contigs y la secuencia final (co nsenso) se obtiene a partir de estos contigs
sin necesidad de disponer de información so bre la secuencia original (ver Figura
8.3). La precisión de este método aumenta cuando se comparan secuencias largas de
moléculas de ADN de baja tasa de repetición.

SECUENCIACIÓN DE
FRAGMENTOS DE ADN

! ·:
CGGTAAAGGTTCTTCTTGj'IGGGATT ¡ TATC~TGATA!TIAA BÚSQU EDA DE
~GGGATTkTTACCTACTAACGGGtGATA! SOLAPAMIENTOS
¡'···................i ¡..............!

1
CGGTAAAGGTTCTTCTTGAGGGATT ATTACCTACTAACGGGTGATAmAA ENSAMBLADO DELADN

Figura 8.3. Ensamblado de una secuencia de ADN

En cualquiera de los casos, e l res ultado de la comparación de secuencias es


un índice de similitud. Depe ndiendo del número de secuencias que se comparen,
encontramos alineamiento de pares (cua ndo se comparan dos secuencias) o
alineamiento múltip le (más de dos sec uencias).

8.3.1 Gráficos de puntos

Una de las maneras más sencillas de comparar dos secuencias es con un método
visual llamado gráfico de puntos. Se dispone una secuencia en sentido horizontal y
la otra en sentido vertical (ver Figura 8.4) forma ndo una matri z. Cuando exista una
coincidencia de nucleótidos, se marca la casilla correspondiente de la matriz.
118 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Cuando se vayan a comparar dos secuencias, es recomendable


empezar realizando un gráfico de puntos comparando cada una de
ellas consigo misma ya que de esta manera se simplifica la
L-~~J identificación de regiones repetidas dentro de la propia secuencia.

llOii!ool:l!: SI!(;Ut!mt~l
nrtit'!l'l: Secu "n ~iér1
m~tri<: l !fel'l'lit¡
stid r,g \vindou. 1 S
zoom 1. 1
sco:e t~r,ge: O tt~ 1 S
!Jr~1 $UIQ 0%-100~

Figura 8.4. Ejemplo de gráfico de puntos

Aunque el gráfico de puntos es sencillo, para secuencias largas se vue lve


inmanejable desde el punto de vista práctico. Pa ra solventar estos inconvenientes se
em plean los al inea mientos. Básicamente, ex isten dos tipos de al inea miento. En el
alineamiento g lobal, ambas secuencias se a linean en toda su longitud y se encuentra
así el mejor a lineamiento posible. Sin embargo, en e l alineamiento local, se busca el
mejor alineamiento entre las regiones más s imilares y se ignora el resto.

8.3.2 Alineamiento de pares


El alineamiento de pares de secuencias (PSA, Pairwise SequenceA/ignmnent)
consiste en comparar dos secuencias biológicas (ácidos nucleicos o pro teí nas) con el
fin de obtener la s imilitud u homología de ambas, determ inando en qué se parecen y
en qué se diferencian.

La herramienta de alineamie nto de secuencias más utilizada es BLAST


(Basic Local A/ignment Search Too/). BLAST comprueba si la secuencia de entrada
tiene alguna similitud con una librería de secuencias, comparando dicha entrada
©RA-MA Capftulo 8. ANALISIS DE SECUENCIAS 119

con las secuencias de una base de datos y calculando el grado de re levancia de las
coincidencias entre las secuencias. En la Práctica 2 estudiaremos este programa con
más detalle.

Probablemente, la versión más popular de BLAST es la implementación del


NBCI, accesible desde http://www.ncbi.nlm.nih.gov/ BLASTI. Sin emba rgo, existen
otras muc has que pueden encontrarse fácilmente lanzando una búsqueda sencilla en
cualquier buscador.

Existen va rias vers iones de BLAST en e l NCBI, cada una de las cuales
orientada a un fin específico:
,.. BLASTN : se emplea pa ra comparar una secuencia de nucleótidos bajo
estudio con la información guardada en una base de datos de secuenc ias
de nucleó ti dos.
,.. BLASTP: compara una secuencia de aminoácidos con una base de
datos de proteínas, es decir, resu lta útil cuando, teniendo una secuencia
proteica, se desea encontrar secuencias proteicas similares en una base de
datos de secuencias.
,.. BLASTX: traduce una secuencia deADN bajo estudio en sus 6 proteínas
d iferentes (cada una con una ORF) y compara cada una de esta proteínas
con las guardadas en una base de datos de secuencias de proteínas.
,.. TBLASTN: compara la secuencia de am inoácidos bajo estudio con una
base de datos de nucleótidos traducida en sus 6 posi bles ORF.
,.. TBLASTX: compara las seis traducc iones en sus marcos de lectura de la
secuencia de nucleótidos bajo estudio, contra las seis traduccio nes en sus
marcos de lectura de toda la base de datos de nucleótidos.

8.3.3 Alineamiento múltiple


El al inea miento de pa res es útil a la hora de buscar secuencias similares en
una base de datos. Sin embargo, cuando se requiere comparar un número mayor
de secuencias simultáneamente, e l PSA se vuelve inabordable. En estos casos, se
emplea el a li nea mi ento múltiple (MSA, Multiple Sequence Alignmelll) que permite
que, de una sola tacada, se puedan comparar varias secuencias. Por otra parte, el
a li nea miento múltip le, en lugar de consultar una base de datos y generar un ranking
de secuencias por orden de similitud, compara y ali nea las sec uencias de entrada.
E l al inea miento mú ltiple consiste en reescribir las secuencias de entrada de manera
que los fragmentos similares se encuentren en la misma col umna. De esta manera,
es posible detectar características com unes en conjuntos de secuencias y predecir la
estructura y la función de las mismas.
120 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Incluso aunque se esté interesado en la sim ilitud entre dos


secuencias, resulta conveniente realizar un alineamiento mú ltiple
con todas las secuencias disponibles (o un número razonable de
L-~~J ellas). La utilización de estas secuencias adic ionales mejora la
exactitud de los alineamientos entre pares de secuencias.

En gene ral, e l proceso de alineamiento múltiple se basa en la repetición


s istemática de los siguientes pasos:

,.. Obtención de las secuencias a través de una búsqueda en base de datos u


otro medio.

,.. Localización de las regiones que interesa alinear.

,.. Ejecutar el programa de alineamiento. Existe gran cantidad de software


de a lineamiento múltiple (TCoffee, MUSCLE, MAFFT, PROBCONS,
etc.). Sin embargo, el más amp liamente utilizado, y que será desarrollado
en la Práctica 3, es Clustal Omega.

,.. Revisar manualmente los resultados del alineam iento, prestando especial
atención a las regiones con huecos.

,.. Eliminar las secuencias que parezcan distorsionar los resultados y volver
a alinear.

,.. Una vez identificados los residuos clave en las secuencias que han pasado
e l fi ltro del punto ante rior, añadir el resto de secuencias intentando
preservar las características clave de la fami lia.

8.3.4 Puntuación del alineamiento

Para poder comparar alineamientos es necesario establecer algún sistema


de puntuación que cuantifique la s imilitud entre la secuencia bajo estudio y una
secuencia de referencia. De esta manera, e l mejor alineam iento será el que presente
una mayor puntuación.

En el caso de secuencias de nuc leótidos, el sistema de puntuación resulta


relativamente sencillo puesto que únicamente hay que tener en cuenta tres
s ituaciones simples: coincidencia (match), no coincidencia (mismatch) y hueco
©RA-MA Capftulo 8. ANALISIS DE SECUENCIAS 121

(gap). Supongamos que queremos obtener la puntuación del alineamiento entre las
dos siguientes secuencias:

gg-a - tcgga -- tc
ggaaatcggaaatc

Y que el sistema de puntuación e legido es ta l que la coincidencia puntúa 1,


la no coincidencia puntúa O y el hueco puntúa - l . La puntuación del alineamiento
seria, por tanto:

Puntuación = 10 coincidencias * 1+ O no coincidencias * O + 4


huecos *(-1)= 6

Existen otros sistemas de puntuación de alineamiento más complejos que


incluyen penalizaciones, no solo para los huecos, sino también para las situaciones
de apertura o extensión de los mismos.

En e l caso de cadenas de aminoácidos la situación se vuelve más compleja


puesto que la compa ración no es binaria sino que dos aminoácidos pueden ser
iguales, di sti ntos o tener cierto parecido. La soluc ión consiste en ut ilizar matrices
de sustitución. Las matrices de sustitución contienen valores proporcionales a la
probabilidad de que un aminoácido X sea sustituido por un aminoácido Z, y se
calcula la matriz para todos los pa res de aminoácidos posibles.

No existe una matri z de sustitución única que pueda emplearse siempre s ino
que se utiliza una u otra en función de la familia de proteínas y del grado de similitud
u homología esperado. Sin embargo, las más extendidas son las matrices PAM y las
matrices BLOSUM.

Las matrices PAM (Percent Accepted Mutation Matrix) se derivan de


alineamientos glo bales de secuencias. Una matriz PAM es una matriz cuadrada de
orden 20, puesto que 20 so n los aminoácidos esenciales. El valor de cada elemento de
la matriz está re lacionado con la probabilidad de que el am inoácido correspondiente
a la columna antes de la mutación se al inee con el aminoácido correspondiente a la
fila. De esta manera, es posible caracterizar la distancia evolutiva entre las secuencias,
de manera que cuanto mayor sea este número, mayor será dicha d istancia. Es decir,
la matriz PAM250 se ut iliza rá para secuencias de proteínas cuyo grado de homología
esperado sea bajo, mientras que emplearemos la matriz PAM60 cua ndo se espera un
parecido de en torno al 60% entre las secuencias.

Por su parte, las matrices BLOSUM se construyen a partir de alineam ientos


locales. Al igual que las matrices PAM, las matrices BLOSUM se caracteri zan por
122 BIOINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA

un número. Si e l número es alto es porque la matriz se ha diseñado para comparar


secuencias cercanas evolutivamente mientras que, por e l contrario, s i el número es
bajo, la matriz está orientada a secuencias lejanas.

Como vemos, ambos tipos de matrices tienen el mismo objeti vo pero utilizan
metodologías distintas. Mientras que PAM deduce información evolutiva a partir
de la proximidad entre secuencias, BLOSUM se centra en anal izar las mutaciones
entre secuencias relacionadas. No obstante, es posible establecer cierta equi valencia,
como muestra la Tabla 8.2:

PAM BLOSUM
PAM 100 BLOSUM90
PAMI20 BLOSUM80
PAMI60 BLOSUM60
PAM200 BLOSUM52
PAM 250 BLOSUM45

Tabla 8.2. Equivalencia entre las matrices PAM y las matrices BLOSUM

El cálculo de las matrices de sustitución PAM y BLOSOM para la


.-. comparación de secuencias queda fuera del ámbito de este libro.
"' -~
~ v
Rem itimos a la Bibliografia, en donde se encontrarán referencias
que detallan e l proceso con gran exactitud.

8.4 IDENTIFICACIÓN DE VARIACIONES

Una parte crucial del análisis de secuencias es la identificación de variaciones.


Una variación ge nética es una diferencia entre la secuencia bajo estudio y la secuencia
de referencia. Pueden deberse o bien a la herencia de uno de los progenitores o bien a
una mu tación que introduce un cambio en el cromosoma heredado. Estas variaciones
afecta n a la fabricación de proteínas y pueden tener efecto sobre e l fenotipo o no.

La forma de variación más sencilla es aquella en la que las secuencias


difieren en un único nucleótido. Este tipo de variación estructural recibe el nombre
de SN P (Single Nucleotide Polymorphism) o SNY (Single Nucleolide Variation) . Los
SNP son sustituciones de un ún ico nucleótido y se divide n en dos tipos: transiciones
©RA-MA Capftulo 8. ANALISIS DE SECUENCIAS 123

(intercambio de dos purinas o dos pirim idinas) y transversiones (intercambios entre


purinas o pirimidinas). La Figura 8.5 muestra un ejemplo de transición:

Alelol .--- -.
SNP

Alelo2

'- - __ .,
Figura 8.5. Ejemplo de SNP

Existen bases de datos públicas sobre SNP. Dos de las más utilizadas son el
dbSNP del NCBT, que ofrece información sobre variaciones de distintas especies;
y, el HGMD (Human Gene Muwtion Database), especializada en mutaciones del
genoma humano asociadas a enfermedades y SNP funcionales.

Sin embargo, las variaciones estructurales no tienen porqué ser de un único


nucleótido. De hecho, en la actualidad existe una tendencia al estudio de variaciones
polinucleótidas, también llamadas variomas estructurales y que pueden ser:

,.. Sustituciones de una base por otra: también se llaman mutaciones


puntuales o indels (insertion and deletion). Generalmente, son de un
único nucleótido.

,.. Inserciones: se introducen bases ad icionales en la secuencia.

,.. Borrados: se eliminan una o más bases de la secuencia original.

,.. Inversio nes: parte de la secuencia aparece invertida cambiando la


estructura del cromosoma.

,.. Translocaciones: ocurre cuando un segmento del cromosoma se desplaza


a un nuevo lugar del genoma.
124 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Ade más, las va ri aciones pueden clasificarse atendiendo a su ámbito en


cromosómicas, cuando se producen a nivel de un cromosoma; y, génicas, si tienen lugar
a nivel de gen. Si la variación ocu rre dentro de un gen un posible efecto es una variación
en la pauta de lectu ra durante la fase de traducción, sobre todo si la mutación afecta a
una o dos bases, ya que esto tiene un impacto directo en la detección de l codón de inicio
o de fin. Si, por el co ntrario, la mutación afectara a tres bases, el codón quedaría intacto
y el resultado sería la ad ición o eliminación de un aminoácido.

Otro tipo de va riac iones son los polimorfismos. Se trata de variac iones
en la secuencia entre los individuos de una población, algu nos de ellos no tienen
manifestaciones fenotípicas pero otros sí, por ejemplo, como e l gen que codifica
el color de l pelo o de los ojos. Es lo que se conoce co mo CNP (Copy Number
Polymorphism). Si e l polimorfismo es de un solo nucleótido, recibe e l nombre SNP.

Por otra parte, los variomas estructu rales se dividen en dos grandes categorías
(ver F igura 8.6): balanceados, cuando hacen referencia a reordenaciones que no
modifican la longitud total de la secuencia (inversiones o translocaciones intra o
intercromosómicas); y, no balanceados, cuando los variomas sí que modifi can la
longitud tota l de la secuencia (inserciones y de leciones). Los va riomas estructurales
no balanceados también se llaman CNV (Copy Number Variations).

C@9~mlf;J--l'FiAsi:ac
Altlo 1
TA AAT -i
Alelo 1 TACTfCAAAATC lTRI\SLOCACIÓN
Alelo 2
AAAACD T
INVERSIÓN
Alelo 2 ~'1 TACTféAAAAfC
~ 1
INTRACROMOSÓMICA

Ualanc€'adas
Aleleloo
~A~l~J~TA~CTT
Al ~o A2
~ CAAAA
~~JC~I_ _ _ __ Cromosoma A
l RASLOC::ACIÓN
Alelo Bl INTERCROMOSÓMICI\
••~•1~•B~,;-~~r~•~iiAA~A~AT¡2j___ cromosomas

No
Alelo 1 balanceadas
1 TACTICAAAATC 1

~
BORRADO
Ale!o2

Figura 8.6. Variaciones estructurales


©RA-MA Capftulo 8. ANALISIS DE SECUENCIAS 125

Uno de los problemas de las bases de datos genómicas actuales es, precisamente,
la caracterización de variaciones. A grandes rasgos, una variación queda descrita por la
posición en que se ha localizado, el valor original que tenía la secuencia de referencia
y el va lor de la variación. Desgraciadamente, estos pa rámetros dependen del algoritmo
de ali neamiento utilizado y, como consecuencia, científicos diferentes podrían llega r a
conclusiones distintas sobre el mismo hecho. La Figura 8.7 ilustra este hecho:

Referencia AATTGTTA

<-- Secuencia bajo estudio


Algorit mo 1 AAI 1IGiTA
AATTG l i lA

secuencia bajo estudio


Algoritmo 2
AATTTGTTA .t----
AA-TTGTTA

Figura 8.7. Problemas de los algoritmos de alineamiento

En e l caso del primer algoritmo de al ineam iento, se detecta una sustitución


de dos bases, mientras que según el segundo, existe una inserción en una posición.
S in embargo, se trata del mismo cam bio en la secuencia.

Una posible soluc ión a este tipo de problemas es la caracterización de las


variaciones mediante region es adyacentes (jfanking sequences), en lugar de basarse
únicamente en la posició n del nucleótido. De esta manera, una región adyacente
estará formada por un número suficiente de bases que permiten la identificación
de una secuencia dada. Con esta nueva aprox imación (ver Figura 8.8), no existe
amb igüedad posible y se detecta la sustitución en cualquier caso.

Referencia AATTGTTA

Algorit mo 1
AAI IIGJTA ..--- Secuenciabajoestudio

AATTGTTTA

Su stitución GT
Adyacente izda . AATT
Adyacente drcha. TTA

Figura 8.8. Alineamiento mediante regiones adyacentes


126 BIOINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA

Sin embargo, la util ización de regiones adyacentes plantea un p roblema y es


determinar el tamaño óptimo tal que se garantice la identificac ión de la secuencia.

8.5 ANOTACIÓN

El término anotación hace referencia a la obtención de información


biológica de datos de secuencias sin procesar. Una anotación es estructural cuando
está relacionada con la identificación de genes y otros elementos; mientras que una
anotació n es func ional, si está orientada a averiguar su fu nción en el organismo. Las
anotaciones se co nsiguen gracias a la ap licación de las tecnologías de la informac ión
a la gestión y análisis de datos biológicos.

La mayoría de herramientas de anotación de variaciones se centran en la


anotació n de SNP, puesto que es este tipo de va ri aciones el más fác il de identificar
y ana lizar. No obstante, algunas herramientas de última generación son capaces
de anotar CNY. La anotació n más co mún es proporc ionar enlaces a bases de datos
de variaciones como dbSNP. El número de va riac iones depende del genoma. Por
eje mplo, para el genoma humano actua lmente existe n entre 3 y 5 millones de
. .
vanac10nes.

Hay que subrayar que la mayoría de estudios actua les se centran en el exoma
y no en el genoma completo, en parte, porque la secuenciac ión del exorna tiene un
coste asociado menor. Por otro lado, se cree que las variaciones del exoma pueden
tener un mayor impacto funciona l en las enfermedades humanas. Sin embargo,
estudios recientes han demostrado que tam bién las regiones no codificantes influyen
en las enfermedades.

8.6 VISUALIZACIÓN

Las herramientas de visua lización de datos genómicos se c las ifican en:

11"' Herramientas con sopo rte para tratam iento de secuencias nuevas o
experi mentos de secuenciación.

11"' Navegadores genómicos: muestran los datos de secuenciación j untos con


las anotaciones que se hayan realizado sob re los mismos en una interfaz
gráfica unificada.
©RA-MA Capftulo 8. ANALISIS DE SECUENCIAS 127

11"' Visores comparativos que facil itan la comparación de secuencias de


múltip les organismos o individuos.

8J PIPELINESANALÍTICOSYSISTEMASDE FLUJO DE TRABAJO

La combinación de estos métodos de aná lisis para la obtención de resultados


con significado biológico es todavía un reto, incluso para usuarios avanzados.

Una a lternativa viable es la utilizació n de pipelines capaces de ana lizar todos


los pasos y que abarcan desde e l procesamiento de las secuencias en bruto hasta
la anotación de variaciones. Generalmente, establecen un orden predefinido de las
etapas de anál isis e incorporan algoritmos que se pueden modifica r o reemplazar
para adaptarlos a unas necesidades concretas.
PRÁCTICA 3: ANÁLISIS DE SECUENCIAS

9.1 ANÁLISIS DE LA CALIDAD CON VECSCREEN

VecScreen es un programa del NCBT que sirve para determ inar si una
muestra está con taminada uti lizando un algoritmo de similitud de secuencias co n las
almacenadas en la base de datos Un iVec.

~ Cua ndo se rec ibe una secuencia procedente de una plataforma de


~ secuenciación hay que recordar que existen dos potenciales fuentes
.... _ , de error: las inherentes a las limitaciones tecnológicas de las
" - - - --' máquinas secuenciadoras y las debidas a la contaminación de la
secuencia en el laboratorio, previamente a su envío a l secuenciador.

En primer lugar, abrimos un navegadorweb y tecleamos la dirección de la página


principal de VecScreen: http://www.ncbi.nlm.nih.gov/tools/vecscreen/. Seguidamente,
copia mos y pegamos las siguientes secuencias en el área de texto de la pantalla.

>Secuencial Libro Bi oin f ormatica


GTTGCCCCGGCCGCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACC CCTGCTT
CCGTCTGGCTGCCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGG
GAAGGAGGTGCTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTC
GTCCCCCAGGCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCA
TCAACGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTT
TGATCGTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAG
AGGGATCACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGT
130 BIOINFORMÁTICA: El AON AUN SO LOCLIC ©RA-MA

CCATCGTCACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGA
TTGGCCTTGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAA
GGTGCAATGATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGC
CATCAAGAAGATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGG
CACTTTGATCAGAAGCTGCTTGAGGAAGAAGCT
> Secuencia2 Libro Bioinformatica
CCGTACCTTGNGGCGATTGGGCCCTCTAGATGCATGCTCGAGCGGCCGCCAGTGTGATGGATA
TCTGCAGAATTCGCCCTTTGCTGCAGCCTTTCCGCCATGCTTCCTCCTAGGGTTGCCCCGGCC
GCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACCCCTGCTTCCGTCTGGCTG
CCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGAAGGAGGTG
CTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTCCCCCAG
GCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAACGAG
CAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATCGT
GACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGAT
CACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATC
GTCACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTG
GCCTTGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGG
TGCAATGATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCC
ATCAAGAAGATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGC
ACTTTGATCAGAAGCTGCTTGAGGAAGAAGCT

Figura 9.1 . Secuencias bajo estudio

Los formatos perm itidos son FASTA o bien un accession o un GI (ver Figura
9.2).

- - - - - - - - - - -· ......,. __ P Ro• • ... ... a

VeeScteen ,.~ •

Vocs.er..n: Sero~ •
~ ..
Soquet~ fOf voc.ot Contatnlnauon

·~- ÑI ....,"'- '~J "' · ~~ .......~, -- .. ., -~.. 'he!•-""""'-


.....
_...,_ -..,..,.......e-*-'"..,.. ~ "'-1 ........ .· - ........... !:!!!:!_. - ~~
• "WWaMH«tto,.a•
( _ , _ . . . , . ........... " ' -... . A«........ (). .. ~ • Crmnc=m
»-~u ;.~CIPO auut•""" ¡q• o Jbtl.bWd)l!. .
v. j i)X(~c«tO«..o:::oc«x:l~;.J'~~ o C...•C!.~S!Mc<•••
~Q;~.;T=;o;T;'l':=;~:;;: . ,,,_.,;;r~
o t".g:• 'f l bY=<!"':::r!; •=1
«>::XOOO.J•~~~~t.\.."'f~

~n..::~=~~
~~~t~~"O'lOQ,I,!)Oau.l.f
o;;Jt.fW;J~-~~~Ct,.,
'"TTT;;I.TQC:T~.m;
~~"1'~~~TOiiOOJ0''"' ' lt;MC;'W'

~~ICQiüO.~~~~~<:Q.!~;:t
lOO:'nT"~!G.I.C"-'-
'=•c•• •~~u··~c~
trV.X.::TT.»Ct~~~OTW1\11n.\11i~UC.:T~Ir.J
~~~"<!S.t..""'="=C!Sn'S' ''"'U'"': ~~ U4
~t~K'l'~a.t~~
O$f' ' 1f51~l'$-~~U.'Mf ''''~
~ :~a: ~= to:o.;.:;PA • o~a
~~r.*«Cr::".NMOCO\t~
:oca.r•t~M~t~ttCOCU~:Io.:XI
fr.l~c«t«<~~:.J~
«'loe'f'f«<C'tC~:OC:t=o:t:~ooo:t'CCt~~

..... --o.'"""'--,..-~ -
...... ...-~
- .. ..r..

Figura 9.2. Página principal de VecScreen


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 131

Finalmente, hacemos clic en el botón run VecScr een para obtener la página
de resu ltados, en donde indicamos los parámetros del aná lisis que se va a rea liza r y
pulsa mos en el botón View Report (ver Figura 9 .3).

~ ~...1 lltoo~-..aUl81$to,.

'" '_,. _
~ " '"oroVtoV..c:
Job~ Sto.-ll t Ut~ 5-0fl'o!Wo:lt<:l (TUI.U.MJJ

~QIIOJI II) $\~U>21mR

·- ~..._ ~-
...... g~~~~~~-~-~~c~
~GJ ,.¡~

tiJ
[. <N........ .... =,x·o-:klw
~ ..

~,..,. 17~.,o-..-.... r101o -cu~

......._, O....~tt!:I~.Mtc...
_, .......

,.,._ -.
1..1 c:tv l ~ f.J
' .. ·~ . . . ........• .
b e.~

....
....

Figura 9.3. Informe de resultados

En la ventana de informe, seleccionamos la primera secuencia (ver Figura


9 .4).

ltuds tor: 'l~<ntnt~l ~~lll:~l .. .¡

IUO S't'l!l>2U01JI!. I&~f Qn O& OJCO:U ;..•


~ J1) lttl19116 o.•~~w~~
Oob<r!PI* S«!..<.-no.ll UDtO i:toflfot~•.c.u ~ VfW«~fO)
.........,.,.., ' '"""' nudnc IK>d t~..,.._ lll..t&T'H? ?_,.. .. QI,¡Q¡o
Q-v-l• lt(llto ?3&

....., ...,. . ...,__ ...-,...... -~roo

Figura 9.4. Detalles del informe para la pri mera secuencia


132 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Co mo puede verse, para esta secuencia VecScreen determina que no ha


encontrado ningún resultado, lo que quiere decir que la secuencia no está contaminada
y podemos proseguir e l aná lisis de la m isma.

Ahora, seleccionamos la segunda secuencia. En este caso, la secuencia sí está


contam inada y VecScreen proporciona información útil sobre dicha contaminación.

En la parte superior de l informe se mu estra la d istribución de las secuencias


contam inantes con un código de colores similar al de la Figura 9.5:

SOC:uencta1li:Jro BIOinformatica (738 iOCIIors)

.__,.,. loo: ?t::11i1lf~ Leooblotoo s •'W . IJ



liJO S'fXI'j2I10 11 \COIWdCW>OO..,SCO !)..-)
~JO ICIII9111 f>Mio¡s. " <l. . WttnWio}(
Ooe..c;rlpl;.. ~l.bt$~<.. l)u(riplloft thNK (buld 8.0)
.......,.... ,.,.. tlldoie _,. """"•m ~ 1.::1.~" • ct~"'!!!
Q""V uno~ •~

OChoel teoot"U: · ~~·..wlro.II.J [l.aQf ~~ l ..:fJJC'M:: tl~;.:,..ruJ

8 (l!•phis Sznrn•rx

O.ll:::::':"::::::::~::::::::::::::::j~

S.OI'MI'IIf ~W~KIIino ....aon


Slm; tr#Cfl t6-1:2
Sr-mSJ!s¡Or. 1. 15

Figura 9.5. Informe de contaminación de la segunda secuencia

Tal y co mo indica la leye nda, e l rojo se corresponde con un alto nivel de


contaminación; el púrpura, con un ni ve l moderado; y, el verde, co n un nivel bajo. Un
nivel alto o mode rado indica que el segmento orig inal de ADN foráneo se adj untó
a l ADN/ARN origen durante el proceso de clonación. Por el contrario, un nivel de
contamin ación déb il significa que los segmentos de la secuencia son potencialmente
idénticos a los de la secuencia origen.

En la sección de alineamientos (Aiignm ents) enco ntra mos los vectores que
han co nta minado la secuencia bajo estudio (ver Figura 9.6).
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 133

..
,
9 Allqn"*lts

~I::U729126 1 156-SEW Clonng ~lor c$-WtT<X: BU:-


... . -'

. . _ _ .. l - - . 2.-o ...._ .......... 1

O;.ett l t ¡,rf~~I"50.1'~515.C6aD~ ''


111111 11 '111111' 11 11 111111 1 11 1111 11111!1•11 1111111
Jibl~~ : ol l!t~:.n=!:.coc:~~2f:.l:.t::r.n:C'I.~n<: t~l

'!>;-=.n ,, o ~,

.!lr>Jc~ ae e ' :.o

-~· (;,:~

--·............... ._·-· ...-...


GritJY,IiG8CXI08S I'I ·Sf ¡:G:R2 I ·TOPO
~~ w-.~ •-tetYdUou! l

t03bft~S4)_ ~·H S4/Sool{lOO'lll)


~" =• ~.U:tO~~tr.t.U\\9.:~te~te:.etttt
.u t:
,_,,« ~
ll ll lll. ll l'l ll ll l ! l l
~G~UocaZ~O.UOOA1lte':tO.GMfTCOOC:::'tt
11111111 11 1111 11111111!1 1
1
'


~~~··· - n- .~
100 1>1'.!($0)
._...
~ 19
, .._.
50(!0(1~)

0:-t:r » e.t~·~.n.~
11111' 111 1' ll l lf . ... . ... 11 1111111111 111 1111 111111
u
!to~ et :H C.:~~:lf:~"IY..:.I~:t':~~ 1t~

Figura 9.6. Vectores contam inantes

Los segmentos extraños ub icados cerca de l final de la secuencia deben


eliminarse, excepto las colas PolyA porque suponen una marca fác il de identi ficar.
Una cola PolyA es una cadena de adeninas que se añade al ARNm durante su
procesamiento para au mentar la estabilidad de la molécula. Por ta nto, eliminaremos
cualquier fragmento de secuencia a partir de la posición de la cola PolyA.

Un fragmento de secuencia extraña en medio de la secuencia bajo análisis


suele indicar que dos fragmentos de la secuencia nativa se han unido, ya sea durante
la clonación o durante el ensamblado de la secuencia. En la mayoría de los casos, el
fragmento de secuencia extraña debe eliminarse y dividir la secuencia bajo análisis
en dos secuencias separadas.

Basándonos en los resultados de la sección de Alineamientos, se observa


que existen secuencias de tres vectores: pSMARTGC Blue, pCR2.1 -TOPO y pCR-
XL-TOPO mulliple c/oning si te. Suponga mos que uti lizamos e l primero durante la
clonación.
134 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

a ~~~

V .....lliU1'9721$ 1 1 5~ ~YI(:'IOI ~RlGC&l.lt


~"" U"''~· ta _.,Ufl ol...
oel
.__ .......... ~. '
c.,.. -
! 4 :s
$o:- .,._. · -
12:: ~t:>!'lJ 61f"l{1~) 0}6! Ct*} t.~

~"' '' :.n ~tt:.:.:.:=c.:oc-:~:~~~


11111 11 1 1111 111 111 111 1 11.111.11 11 H
~c
11 lll 11 11 11
.,
:t>):t J (') r.n»XlX''ttiolii!U~~~c...ro:'-C~~~~oan~TK :•t
Or¡e_ry ' (. ' ,..
Ro); t U •) ;; u e'

Figura 9.7. Primer vector de clonación

En este caso, se ve que el alineamiento se corresponde con las bases 17-75


de la secuencia bajo estudio y que, por tanto, las bases 1-75 deben e liminarse. Si
procedemos así, la secuencia origen, una vez recortada quedará:

> Secuencia2 Libro Bioinformatica


GCCCTTTGCTGCAGCCTTTCCGCCATGCTTCCTCCTAGGGTTGCCCCGGCCGCCGCCGCCGCCGC
GCCTACCTATCTCGCCGCCGCGGCCTCGACCCTGCTTCCGTCTGGCTGCCTGTGCCGCGTGGTGC
CGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGAAGGAGGTGCTCAGCGGCGTGGTCTTCC
AGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTCCCCCAGGCCAAGGACCAGTCTCTCGCT
AGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAACGAGCAGATCAATGTGGAGTACAATGC
ATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATCGTGACAACGTTGCTCTCAAGGGATTCG
CCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGATCACGCAGAGAAACTCATCAAGTACCAG
AACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCGTCACACCTTTGACAGAGTTCGACCATCC
TGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCCTTGGCTCTCGAAAAGCTTGTAAATGAGA
AGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAATGATCCACAGCTGACCGACTTCGTTGAG
AGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGAAGATCTCTGAGTATGTCGCCCAGCTGAG
AAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGATCAGAAGCTGCTTGAGGAAGAAGCT

Figura 9.8. Segunda secuencia recortada

Si ahora se vuelve a ejecutar el análisis de la secuencia (pasos 1 al 5), se


obtiene que no se han encontrado similitudes y que, por tanto, la secuencia está
" limpia" y podemos proseguir con el análisis.

-- -
•rtoc .. ,;..., <iYH'k"WM "' ·

..,.... __... ,,,...


IJ6 ;.»Ul,;; !Ou...,......,.-OO.e.MIO)

--·-'"""
Qoon-r•O lol'l'O'~ - . . ..- w ...............
~ -~..\..lilf....... cu ~ """''""~'-" ~

o-"<l~ t•o

Figura 9.9. Resultado de analizar la secuencia recortada


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 135

En general, si la co ntaminació n se halla en los extremos de la


secuencia y se corresponde con el vector empleado, la secuencia se
puede limpiar fáci lmente y e l proceso acaba aquí. Si, por el
L-~~J contrario, la contaminación está dispersa, la mejor opción es
desechar la secuencia.

9.2 ANÁLISIS DE LA COMPOSICIÓN DEL ADN

Una vez que estamos seguros de que la secuencia es correcta, ya se está en


condiciones de comenzar a obtener información sobre la misma.

9.2.1 Búsqueda de palabras

El Instituto Pasteur proporciona la herramienta WordCount (http://mobyle.


pastewjdcgi-bin/portal.py?#forms::wordcount) para la búsqueda de palabras, con
sentido bio lógico, en una secuencia dada.

En primer lugar, copiamos la secuencia bajo estudio en el área de texto


dest inada al efecto (ver Figura 9.10 y Figura 9.1 1):

>Secuencial Libro Bioinformatica


GTTGCCCCGGCCGCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACCCCTGCTTC
CGTCTGGCTGCCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGA
AGGAGGTGCTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTC
CCCCAGGCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAA
CGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATC
GTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGAT
CACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCGT
CACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCCT
TGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAAT
GATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGAA
GATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGATC
AGAAGCTGCTTGAGGAAGAAGCT

Figura 9.1 O. Secuencia bajo estudio


136 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Mobyle @Pasteur
__.......... ..........
- ..-....
,_,
...........


EMBOSS 6.3.1: wordcount
Count ¡¡nd extrilc:t unique words in m ol ec:ul oar
se.quen ce(.s)

. . .............. ~o,..~·~
r.'l!ft~"">~~(IW>~.Mf{HIQG)~. t~r• .,._..,_,, A ,......."~ td.(~t~C<,"'4-ll7

Figura 9.11. WordCount de EMBOSS

Si hacemos clic en Run obtenemos la página de resultados (ver F igura 9.12):

l f:iull-s
o Outptk •~on
'-"IUil~ out otJtios• (\t\'lrdcoun(R<'OO!t)
g wor<k~. e-~ 1i SAVI!

o u~

e zn
1. 165,
¡ li7

p ..~f!f«:C

~e 1~~~------------------------------------------------------------------
~u~~ opdon

Figura 9.12. Página de resultados


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 137

Como vemos, la secuenci a bajo estudio está compuesta por 224 guaninas,
202 citosinas, 165 adeninas y 147 timinas. Si ahora, en lugar de contar palabras de
1 nucleótido, se especifica n palabras de 3 nucleótidos, los resultados son los de la
Figura 9 .13. De esta manera, es posible comprobar los ami noácidos que componen
la secuencia.

Wclcomc 1 forrns

'" OutJ!'A sed;on


outfiJc_out
a

CV.G ZS
«< ,
~OG 2:
.U.G 20
GTG l8
C« U
TGC l8
oc ~$

or

s.QuQnC:Iil opUon (Siqt.MI~)


o •-~•qu~.d~ (FM;U ) li u v •

GriGCCCCGGCoCGCCGCCGCCGCCGCGCC7ACCi.:.iCTCGCCGOCGCGGCC!CG;.;;;t; CC!CMTCCw<OTGGCT<;cCTGNCx:GCGlG<ITGCCOOi;cccOOG<j

Figura 9.13. Página de resultados con palabras de 3 nucleótidos

9.2.2 Estadísticas de la secuencia con Genomatix

La empresa Genomatix ofrece una herram ienta web que permite ex traer
estadísticas básicas de una secuencia de A DN.

En primer lugar, indicamos la secuencia en la página principal de Genomatix


(http://www.genomatix.de/cgi-binltools/tools.pl) y pinchamos en el botón Load
Sequence:
138 BIOINFORMÁTICA: El AONA UNSOLOCLIC © RA-MA

+• ~ 9""!·.....·~ ••.t ... ·~· ·~ 1'1J_l~ , _,~_lb_'q~21f:'lhiU1<''>.1MI: .,.,..,..,., <i ;IEJ· - · p (1


" • • .
Y genomatix software suile ••
((M. . . &'WOo» > ..
"-'* HQiM<ICit -~
'-oto«>•!

.....__,.
•mua !tmC:U o
~- o;con W: - U.st9.~~- G.nn•.ü
:IAA.Ttec'n~
~~r:1Ut.:>:t;;.J<:~n-:e-:~:;.,:'):o:"CSX'a.tt
et~\CM'ro
oc•••rccwr"""~'~"rrc.u:.
.

tllo\. . . - . ¡o) ~:..:.oc:T


-.J
-.r~ot,... _ ... ..S~I..lh~

[ fm-rwnv 1N:io)O u Jolotcr.'llldo"I'IG""'•~~~~


01- ·-- ~.:J
,., __ I"'alotl lli•

~·-to:~t--'te t ' e - .
- ·••looo ..-1•1 ~-~ ~~ ..
l.t.oN~•J IJiu«FfliJ

,. .
lt!Qit.l'" ll«o fM ~Iro o C.IWN'WI.IIb: ttbl UtO.UI'II!

~~- ~-·--·---..-lrojlj; ·--·~-·~;,·· .. "o''.._ L~:311 ~

Figura 9.14. Página principal de Genomatix

Una vez cargada la secuencia, pinchamos en el botón St ar t Task pa ra inic iar


e l procesado de la secuencia. Fina lmente, obtendremos unos resultados como los de
la Figura 9.1 5:

+ it ~..... g.no.,....tb.<l'~ '<t·bOIOI".toc~r'tool~-~"••m3i• .:~1b~"tU7H~lSJüS ? C 11- &.o•


~J!!l'EA~ ,..
C rMCe ~IIIU !ot.!IU)k!l

Stao~ t<)r . . •nc-t ~es (738 M8eCilltr3 ~ t ~s):

&t+-Contt M:
..... n .211'1r. .....
T""' .-t.....,..,.~¡.,,. .._,.. ~sl.Jn ce..,..,.. O.ot'5

w:liiO-IIIICIOOCidOS: I)I.H•Ide<l'*::l:

•oeono n.cttoDClO
-
r- .,

M ...

"" """' A
A

•• " ..
• '
..
"
e

e

T
"'
"'
'"
:V.~"
;.;,;.~"

""""
-""
e
e
T
.." .." ,." .,
" " " "
IIUIK~ S:.

M AC ..
""
' • " ..• ..>
AT CA C<
Jlo«<n~ nlldeotiCio

CT .. oc
..,. "",, co ... TC re n
A
" >

,," ••
.. " ..•• " ,
"' " " •' " ,," •
-· .... ..' "' ' •" •• "•
e
·~· "

G

' ' • "


' • " " ..
"
"
:~

"
" " • ' " " •
'

Figura 9.15. Esta dísticas básicas de la secuencia bajo estudio


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 139

9.2.3 Búsqueda de repeticiones

Una repetición es un segmento de secuencia que ocurre más de una vez en


la secuencia bajo estudio y que es suficientemente larga como para que la repetición
no sea aleatoria. El interés en las repeticiones se debe a que suelen estar implicadas
en mecanismos de regulación de la expresión de l gen.

La principal diferencia entre el conteo de palabras y el análisis de repetic iones


es que no es necesa rio que las repetic iones sean idénticas. De hecho, se distingue
entre repet iciones en tándem (fragmentos de secuencia similares en la misma heb ra
de ADN) y repet iciones invertidas (fragmentos de secuencia simi lares que ocurren
en la heb ra directa y la inversa).

A la ho ra de anal izar las repetiCiones, el punto crítico es el umbral de


repetición, que es el número de nucleótidos iguales a partir de los cuales se puede
considerar que dos fragmentos de una secuencia constituyen una repetición.

Los algoritmos de búsqueda de repeticiOnes dependen de gran


cantidad de parámetros, por lo que se recomienda contrastar los
valores con d istintas herramientas y, sob re todo, no da r po r
L-~~J defi nitiva una búsqueda de repeticiones infructuosa.

No hay que confundir la ident ificación de una repetic ión en la secuencia bajo
estudio con la identificación de una repetic ión registrada en una lista de repeticiones
predefinidas. En el primer caso, el descubrimiento está relac ionado con la estructura
interna de la secuencia bajo estudio, mientras que en el segundo hace referencia al
reconoc imiento de c ierta similitud entre la secuencia bajo estudio y un conjunto
predefinido de repeticiones almacenadas en una base de datos como RepBase del
Genetic lnformation Research Institute (http://www.girinst.org).

Una manera de contrastar los resultados ofrecidos por distintas herramientas


es uti liza r un gráfico de puntos, sobre todo, cuando estamos trabaja ndo con secuencias
de ADN de una longitud considerable. Para aprender cómo utilizar los gráficos de
puntos, emplearemos la siguiente secuencia:

>Secuencial Libro Bioinformatica


GTTGCCCCGGCCGCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACCCCTGCTTC
CGTCTGGCTGCCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGA
AGGAGGTGCTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTC
CCCCAGGCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAA
140 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

CGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATC
GTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGAT
CACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCGT
CACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCCT
TGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAAT
GATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGAA
GATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGATC
AGAAGCTGCTTGAGGAAGAAGCT

Una de las herramientas más uti lizadas para dibujar gráficos de puntos es
e l Dotlet del SIB (http:/lmyhits.isb-sib.ch/cgi-binldotlet). Este sitio web es muy útil
para e l procesamiento simple de secuencias de ADN.

En la página principal de SIB-Dotlet (ve r Figura 9 .1 6), introd uc ire mos la


secuencia en la ventana que se ab re al p inchar e l botón input, tras lo cual haremos
clic en el botón O k de dicha ventana. Una vez que se ha introducido la secuencia, ya
no es posible realizar ninguna mod ificación en la misma.

Dotlet

P~tern
... 54:1<treh
6lASTP/P51•8lASl
Pf'SEAACW (pt'o0e)
I MK:IU {ptofile- ~) t.lll"\t 10C110!1~1: ~,
Motif Sean
Q<wry •.• Plus• t~n 'I'Cr.f n QUt.~a e.IC\Iftmm~
l:ry l'>rot W\
by MOI)f
o\lgtt...,
r."!AI'f'T
1 COf'fLL
PfOflltl Allgn
Obs~>~fy ...
JA<CO

'''""""
"Took ••.

Hub
.....
Rt~o~t M5A
PAtoriNt seo

Re5111tS
MI'!><

Figura 9.16. Introducción de una secuencia en Dotlet

Al pegar la secuencia en la ventana, no hay que incluir el nombre


de la misma, si no la secuencia de nucleótidos en texto plano.
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 141

En este caso, puesto que lo que se desea es la búsqueda de repeticiones,


compararemos la secuencia bajo estudio con ella misma; por ello en los dos
desp legables seleccio naremos el nombre de la secuencia bajo estudio.

Pinchando en e l botón com pute, obtenemos el gráfico de puntos (ver Figura


9.17) resultado de generar una matriz con la secuencia bajo estudio, tanto en el eje
horizontal como en el eje vertical.

e Fl · ~:.r
Dotl et

...
P~tt~m ~Mc:h
Ot.ll$1l'/~· OlAStT
PFSEMOI (pteflt) IIOti:OIU 't : .t\lltf'>: •1
~(pt~·HMM) ~JUI ~KIII.'ntlt l

MObf~ m.tb ot -~
Qu«Y .•.
tl•!m\1..,...,. IS
:oom:1:t
.,..,..
by Pf'OtM $(!rft~I'~KO ~
OfH S.C~tt· Ot.
1$
· 10"

-·""'"·
TCOff:EE
Pfoftto l.llgn
~fy _ ..

""'""
t>lkQom2
T<*S . . .

Hob
....,
Rdorm.;H MSA
~f«m.n SEQ

Re:sutts
"'"'
....... - . . .
' " r o n - •• "' ., o
·'
>"•r•" • ro o o•
........,.,,
,.ro• o• ·~o ••-.

Figura 9.17. Gráfico de puntos

Podemos ve r que el gráfico de puntos contiene una diagona l de lado a lado,


algo lógico si pensamos có mo se construye y que estamos comparando una secuencia
consigo misma. Además, puede observarse una simetría respecto de la diagonal.

En la sección del histograma se represe nta la frecuencia de cada puntuación.


Cada pixel se corresponde con una base en la secuenc ia horizo ntal y otra en la
secuencia vertica l y su color depende de la simi litud de estas dos secuencias en la
posición correspondiente al pixe l, de manera, que cua nto más oscuro es el pixel,
menor es la similitud. Es decir, que el pixel represen ta una medida o puntuación
de la s im ilitud de las secuencias que se co mpara n. En ge neral, existe un elevado
número de pixels co rrespo ndientes a un bajo nivel de similitud que tienden a
confundi r la interpretación del gráfico. Es posible eliminar su efecto moviendo la
142 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

barra de desplazamiento bajo la ventana del histograma hasta una posición en la que
las simili tudes bajas (las más abundantes) se fi ltren, esto es, hasta frecuencias del
histograma relativamente pequeñas. Llegados a este punto, el gráfico se ocurecerá,
ta l y como muestra la Figura 9. 18.

h~ri!ontal: Se:<ue:nci:rl Ltoro Gl~ :nfo :m~l ~ ~


Yertic:tl: Se:tue:nd:tllitJ;o Sioirlolm:tll.a
m~tri:t: ld,!ii!v
s i dlogw.ndO'W 1S
%OOm: 1:Z
St OII~ r<IM!j@'' 0 to 1 5
ur..,y $t .,le 51~· l (Xfl)

1 \

St:t:ut~nc;kl1 lbo Bioinfurm&:icill 8


TT«« I CO<m <CIICe««<<i<IDC7.iiiC71oi'~C71CiilcccT
Tt '!"t "tl'.I.1.Wetu'l.AA(,1'TCG-'Jt G-J.t (;A.t-~!;;l.~CA'lt.U (;(J.(;J..' fi.Un;"rt;. (>l 'A.QAAT«A'Jiebd¡;.t:GI,.t.t llJn;lat·l-rrJCCIJVm t;J.
S~ttut:n~i.:l1lbo BioiufUim4tit:.o 270
S~l(!i<l l UbnJ 6ioic•fonnotie<t (•tM:omp'tJ) 8
C)I1CICS.O~""""l'<CCCCCCC,...>.j¡~CCCCCC~j:IICl<CCCCCCAAq
'T'If!'Cit:f'~A.AA.lll'nCC'!CCJ.CIJ:C\I('CUII»X'ATC'.U.C'~'!'CllTC:TC.qlCT1CüTCC/tTCCTlCCCc.TJ.CC1t'f'CC'·!:'TTTTCCCC'T!CTri'Cl
SllCuencta1 LllfO BIO!flrc~rn2ltlcal 2111

Figura 9.18. Filtrado del ruido de fondo

Una vez fi ltrado el ruido de fondo, podemos identifica r las repeticiones como
las líneas que aparezcan a ambos lados de la diagonal. Si las líneas son perpendiculares,
están asociadas a secuencias palindrómicas o repeticiones invertidas.

Una secuencia palindrómica es aquella que se lee igual hacia


de lante que hacia atrás. Por ejemplo, AGGA.

Si ca mbiamos el tamaño de la ventana a 11 y redibujamos el gráfico de


puntos, aparecen áreas con una elevada densidad de pun tos, como los rectángulos de
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 143

la parte superior de la Figura 9. 19. Estas áreas son secuencias repetidas con pocos
aminoácidos, como se puede comprobar en la sección de alineamiento, de la que
hablaremos más adelante.

ll(llizOflt¡t Stcv inli ~ l U)!O Ekli r-lnitK~


vti'IC41:~t'.l~Mf ) l L_,nl '116111to)l'mY. Il4
f(~'t( :do:'ltlli
CIUin(J ~t"~ 11
i GCm: 1 1
S«~re rllno; e: O to 11
IJI-SC&If: )2':~· 1 00 ~

-,,
"""" ••ooroo•• '" ••••
............. , ...... '"''l'"
¡1, 1 •••• o•orro
·• ....... ..... .
~
•r ""'

socuon~1 Libro 8iotr:urm~ 1•


Sot,cucnc:ill1 lbo Oiainfor-t1lllllic.a (lfNConiP'oe 6
~1Cc.&G~~~~CQXQ!i.UAIÑ"7liGG!Oiit(;4/CINCG~
Jr!ICO."f~'OCCCO:«'CCC CCCO:CT.I.CCTA'tl!'l'tCCOOCCC:CCVCc."rro>\tcC
Sl.leuon~t l.IH'O 8iOII(Ofmatiea Id;

Figura 9.19. Recálculo del gráfico de puntos

El alineamiento de la secuencia bajo estudio consigo misma puede verse


en la parte inferior de la pa ntalla (ver Figura 9.20). Los residuos que están en azu l
indican que son idénticos y la ventana de compa ración está marcada en vio leta.
Mov iendo las barras de desp lazam iento, la venta na se va desplazando a lo largo de
las secuencias.

Si!C:UI!tiCM 1 li11 u

Figura 9.20. Sección de alineamiento


144 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Veamos ahora qué ocurre cuando comparamos do s secuencias diferentes y


como e l gráfico de puntos puede ayudar en la identificación de secuencias. Para ello,
trabajaremos con las siguientes dos secuencias, correspondientes al ARN mensajero
de Cftr de ratón (accession NM _ 02 1050.2) y su equivalente humano (NM _ 000492.3 ).

>gi 11160081791 ref 1NM_021050 . 21 Mus musculus cystic fibrosis


transmemb rane conductance regulator (Cftr) , mRNA
AATTGGAAGCAAATGACATCACCTCAGGTCTGAGTAAAAGGGACGAGCCAAAAGCATTGACCTGG
TCCTGGATATCCAGATGTCGAGTCCAACCTGAATTTAGCCGAACACAGACCTCATTGCCTCACGG
AGACATCATGCAGAAGTCGCCTTTGGAGAAAGCCAGCTTTATCTCCAAACTCTTCTTCAGCTGGA
CCACACCAATTTTGAGGAAAGGGTACAGACACCACTTGGAGTTGTCAGACATATACCAAGCCCCT
TCTGCTGATTCAGCTGACCACTTGTCTGAAAAACTAGAAAGAGAATGGGACAGAGAACAAGCTTC
AAAAAAGAATCCCCAGCTTATCCACGCCCTTCGGCGATGCTTTTTCTGGAGATTCCTCTTCTATG
GAATTTTGCTATACCTAGGGGAAGTCACCAAGGCTGTCCAGCCTGTCTTGCTAGGAAGAATCATA
GCATCCTATGATCCAGAAAACAAGGTGGAACGTTCCATTGCCATTTACCTTGGCATAGGCTTATG
CCTTCTCTTCATTGTCAGGACACTGCTTCTTCACCCAGCTATTTTTGGCCTTCATCGCATTGGAA
TGCAGATGAGAACAGCTATGTTTAGCTTGATTTATAAGAAGACTTTAAAGTTGTCAAGCCGCGTT
CTTGATAAAATAAGTATTGGACAACTTGTTAGTCTTCTTTCCAACAACCTGAACAAATTTGATGA
AGGACTTGCCTTGGCACATTTTATATGGATTGCTCCTTTACAAGTGACTCTTCTGATGGGGCTTC
TCTGGGACTTGTTACAGTTCTCAGCCTTCTGTGGCCTTGGTTTACTGATAATCCTGGTTATTTTT
CAAGCTATCCTAGGGAAGATGATGGTGAAGTACAGAGATCAGAGAGCTGCAAAGATCAATGAAAG
ACTCGTGATCACATCAGAAATTATTGATAATATCTATTCTGTTAAGGCATATTGTTGGGAATCAG
CGATGGAGAAAATGATTGAAAACTTGAGAGAGGTGGAGCTGAAAATGACCCGGAAGGCGGCCTAT
ATGAGGTTCTTCACTAGCTCTGCCTTCTTCTTTTCAGGGTTCTTTGTAGTCTTTCTATCTGTGCT
TCCCTACACAGTCATCAACGGAATCGTCCTACGAAAAATATTCACAACCATTTCATTCTGCATTG
TCCTACGTATGTCAGTCACACGGCAGTTCCCCACTGCCGTACAGATATGGTATGATTCTTTTGGA
ATGATAAGAAAAATACAGGATTTCCTGCAGAAACAAGAGTATAAAGTACTGGAGTATAACTTAAT
GACCACAGGCATAATCATGGAAAATGTAACAGCATTTTGGGAGGAGGGATTTGGGGAATTACTGG
AGAAAGTACAACAAAGCAATGGTGACAGAAAACATTCCAGTGATGAGAACAATGTCAGTTTCAGT
CATCTCTGCCTTGTGGGAAATCCTGTGCTGAAAAACATCAATTTGAATATAGAGAAAGGAGAGAT
GTTGGCTATTACTGGATCTACTGGATCAGGAAAGACATCACTCCTGATGTTGATTTTGGGAGAAC
TGGAAGCTTCAGAGGGAATTATTAAGCACAGTGGAAGAGTTTCATTCTGCTCTCAATTTTCTTGG
ATTATGCCGGGTACTATCAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAGTACAGATATAA
GAGTGTTGTCAAAGCTTGCCAACTACAGCAGGACATCACCAAGTTTGCAGAACAAGACAACACAG
TTCTTGGAGAAGGTGGAGTCACACTGAGTGGAGGTCAGCGTGCAAGGATTTCTTTAGCAAGAGCA
GTATATAAAGATGCTGATTTGTACCTATTAGATTCCCCTTTTGGATATCTAGATGTTTTTACTGA
AGAACAAGTATTTGAAAGCTGTGTTTGTAAATTGATGGCCAACAAAACTAGGATTTTGGTTACAT
CTAAAATGGAACACTTAAGGAAAGCTGACAAAATACTAATTTTGCATCAGGGCAGTAGCTATTTT
TATGGGACATTTTCTGAGCTACAAAGTCTACGTCCAGACTTCAGTTCGAAACTCATGGGGTATGA
TACTTTTGACCAGTTTACTGAGGAAAGAAGAAGTTCAATTCTAACTGAGACCTTACGCAGGTTCT
CAGTAGACGATTCCTCTGCCCCGTGGAGCAAACCCAAACAGTCGTTTAGACAGACTGGAGAGGTG
GGAGAAAAAAGGAAGAACTCTATTCTAAATTCATTCAGCTCTGTAAGGAAAATTTCCATTGTGCA
AAAGACTCCATTATGTATCGATGGAGAGTCTGATGATCTCCAAGAAAAGAGACTGTCCCTAGTTC
CGGATTCTGAACAGGGGGAGGCTGCTCTGCCGCGCAGCAACATGATCGCCACCGGCCCCACATTT
CCAGGCAGAAGAAGACAGTCTGTTTTGGATCTGATGACGTTCACACCCAACTCAGGCTCCAGCAA
TCTTCAGAGGACCAGAACTTCTATTCGAAAAATCTCCTTAGTCCCTCAGATAAGCTTAAATGAAG
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 145

TGGATGTATATTCAAGGAGATTATCGCAAGATAGCACACTGAACATCACTGAAGAAATTAACGAA
GAAGATTTAAAGGAGTGTTTTCTTGATGATGTGATCAAGATACCCCCGGTGACAACATGGAACAC
ATACCTACGATATTTTACTCTCCATAAAGGCTTACTGCTAGTGCTGATTTGGTGCGTACTGGTTT
TTCTGGTTGAGGTGGCTGCTTCTTTATTTGTGTTATGGTTGCTTAAAAACAACCCTGTTAACAGT
GGAAACAATGGTACTAAAATTTCCAATAGCTCCTATGTTGTGATCATCACCAGTACCAGTTTCTA
TTATATTTTTTACATTTACGTGGGAGTGGCTGACACTTTGCTTGCCCTGAGCCTCTTCAGAGGTT
TGCCGCTGGTGCATACGTTAATCACAGCATCAAAAATTTTGCACAGGAAAATGTTACACTCCATT
CTTCACGCCCCTATGTCGACCATCAGCAAGCTGAAAGCAGGTGGGATTCTTAACAGATTCTCCAA
AGATATAGCAATTTTGGATGACTTTCTGCCTCTTACCATTTTTGACTTCATTCAGTTGGTGTTCA
TTGTGATTGGAGCTATAATAGTCGTCTCGGCATTACAACCCTACATCTTCCTAGCAACGGTGCCA
GGGCTAGTAGTCTTTATTTTACTGAGGGCCTACTTCCTTCATACAGCACAGCAGCTCAAACAACT
GGAATCTGAAGGCAGGAGTCCAATTTTCACCCACCTTGTGACAAGCTTAAAAGGACTCTGGACAC
TTCGAGCCTTCCGACGCCAGACTTACTTTGAAACTCTGTTCCACAAAGCTCTGAATTTGCACACT
GCCAACTGGTTTATGTATCTGGCAACCTTGCGCTGGTTCCAAATGAGAATAGACATGATATTTGT
CCTCTTCTTCATTGTTGTTACCTTCATCTCCATTTTAACAACAGGTGAAGGAGAAGGAACAGCTG
GTATTATTCTAACTTTAGCTATGAATATCATGAGTACTTTGCAGTGGGCTGTGAACTCAAGCATT
GATACAGATAGCTTGATGCGATCTGTGAGCAGAGTGTTTAAGTTTATTGATATACAAACAGAAGA
AAGTATGTACACACAGATAATTAAAGAACTACCTAGAGAAGGATCATCTGACGTTTTAGTCATTA
AGAATGAGCATGTGAAGAAAAGTGATATCTGGCCCTCTGGAGGCGAAATGGTTGTCAAAGACCTT
ACTGTGAAATACATGGATGATGGAAATGCCGTATTAGAGAACATTTCTTTTTCAATAAGTCCTGG
ACAGAGGGTGGGGCTCTTAGGAAGAACTGGATCAGGAAAAAGTACTTTGCTTTCAGCATTTTTAC
GAATGTTGAACATTAAAGGTGATATAGAGATTGATGGTGTCTCATGGAATTCAGTGACCTTACAA
GAATGGAGGAAAGCTTTCGGAGTGATAACACAGAAAGTATTTATCTTTTCTGGAACATTCAGACA
AAACCTGGATCCCAATGGAAAATGGAAAGATGAAGAAATATGGAAAGTTGCAGATGAGGTTGGAC
TCAAGTCTGTAATAGAGCAGTTTCCTGGACAGCTCAACTTTACCCTTGTGGATGGGGGTTATGTG
CTAAGCCATGGCCATAAGCAATTAATGTGCTTGGCCCGATCAGTTCTCAGTAAGGCCAAGATCAT
ACTGCTTGATGAGCCCAGTGCCCATCTAGACCCCATAACATACCAAGTCATTCGACGAGTTCTAA
AACAAGCCTTCGCTGGTTGCACAGTCATCCTCTGTGAACACAGGATAGAAGCGATGTTGGATTGC
CAGCGATTTTTGGTCATAGAAGAGAGCAATGTCTGGCAGTACGACTCCCTTCAGGCACTTCTGAG
TGAGAAGAGTATCTTCCAGCAGGCCATTAGCTCCTCGGAAAAGATGAGGTTCTTCCAGGGCCGCC
ACTCCAGCAAGCACAAGCCTCGGACGCAAATTACTGCTCTGAAAGAGGAGACAGAAGAAGAAGTT
CAAGAAACCCGTCTCTAGTGCTGGGATGCTGAGGAAGCAACTCAGTGCACTGAGTCCATTCCCAG
AACCCATGCAGAATGAAAAAAGCCAGGCATTTCCCATGCTTCTAACCCCAGTGCTGGGGACACAG
AGACAGGTGGATCCCTGGGGCTCTGTGGCAAGTGATCCTAGCCCACAAAGAGAGTTCCAGGCTGG
GCACCTGAGGGACAATACCTGTGGATATACTCTTGCTTCCACATGCAAGTACATATACACATGCA
TGCACATTAGTGGACATACACACAGAAAAGCAAAGAAGAAGGAAAGAGGGAAGAAAATAGTGCAA
ATAATTGCAAAACGATCATGTATGGAGTCTGCTCATGGACTTAGAGGAGGTGAACTCTACTACCT
GTGCCTTTGAAAGAAGGGTGAAGCCTGCGACTTGCTCTTTAAGAGACTGTTTTGGAAGAGAGTTC
AAAAACGTTCATATGGGTATGGGTAACTGACTTTCCAGCAGTAGTCAAATTGTTTGAACTTCAGA
TAGTTGATAATGACCACTTGTGTATTGCAAGGCAGATTTTTCTGAAAACATTTGCCCCCTAATAG
TAGCTGAAAAAGCAGCTATAAATGCCAACCAGGTTAGTCATTCGGCTTATTGTTCAGTACAGCTG
GTTAATTTGCATTATTGAAGAACTGAAATTATAGTGCTTAGATATAGGACAAAGTAAAGAGAACT
AAAAACAGTGTCTTATATAACTCAAAGCCCAACTTACTTTCCTCTAAGATATGTATTGCCTTCTA
TACATTGTCTGCCCCATTCCAAGCAAATGTTAGAATATTATACAAAATACTGGGTGGTATTGATT
GA.AAGATGCCCGACATCTGGTGATCTAGTAACCCATCAGGATT AAGGATA TCCAGGTCTTGGAAA
TTAAGGTTAAGACCATCTAGCCTTACTACCGTACAGCTAAACATTCTTATTACCAGAATAAGACC
TAGGAAAAGAACTGTTTCAGTCCCATAAAGTGGCCTGGATAATTTCCTTGATATGGAAATCGACA
146 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

CACTTATGTTCCCAGAAAGCAACAGATCTTTAAGACTTCTGAAGTGAAGGAAGGTTGTGTTAGTG
CAAACTAGTGCAGCCCAGTGCCAGGTCCAGGAGTTAACATGTAGACAGGCCATGGACTGTGTGGG
TAGATGCTCATGGAAATGTGCAGTAGTATGTTCATGTGCTCTCAGCTAGCTGTGTGTACTTCAAA
CTGTCTCCACAGAGTTGTTGGGGAGACACTCTGAAAAAGAATTAATTGTGAATTAGTTTTATATA
CTTTGTTTTATAATTTGTGATGCAAATGAAAATTTCTCTGGGAAATATTTATTTTAGTAATAATG
TTTCAAACTCATATATAACAATGCTGTATTTTAAGAATGATTACATAATGACTTATATTTGTATA
AAATAATTTTTATATTTGAAATGTTAACTTTTTATAGCACTAGCTATTTTAAAACAGGGGAGTGA
GGAGGACAGGGATGATAAGGATCATTCAACTTCATGTTGTGAAGACGAGCTGATGTAAATCTTGT
ACCCATCTGTGTGGTTCTCAGACAACACATGCTCTCTTTTAATGCAGCTTTGAAGAAGATGGTAC
CAAAGGTTAAGACGGCCCCCTGATGGGCACATCAACTTCTGAACTGCAAACTAAGCTTTAGAGGA
ATGTATTATATTTATTACTGTAATAGAATATCATGTGTCAATAAAATCCTTTTATTTGTGTGAAA
>gil904213121refiNM_000492 . 31 Homo sapiens cystic fibrosis
transmembrane conductance regulator (ATP-binding cassette
sub-family C, member 7) (CFTR) , mRNA
AATTGGAAGCAAATGACATCACAGCAGGTCAGAGAAAAAGGGTTGAGCGGCAGGCACCCAGAGTA
GTAGGTCTTTGGCATTAGGAGCTTGAGCCCAGACGGCCCTAGCAGGGACCCCAGCGCCCGAGAGA
CCATGCAGAGGTCGCCTCTGGAAAAGGCCAGCGTTGTCTCCAAACTTTTTTTCAGCTGGACCAGA
CCAATTTTGAGGAAAGGATACAGACAGCGCCTGGAATTGTCAGACATATACCAAATCCCTTCTGT
TGATTCTGCTGACAATCTATCTGAAAAATTGGAAAGAGAATGGGATAGAGAGCTGGCTTCAAAGA
AAAATCCTAAACTCATTAATGCCCTTCGGCGATGTTTTTTCTGGAGATTTATGTTCTATGGAATC
TTTTTATATTTAGGGGAAGTCACCAAAGCAGTACAGCCTCTCTTACTGGGAAGAATCATAGCTTC
CTATGACCCGGATAACAAGGAGGAACGCTCTATCGCGATTTATCTAGGCATAGGCTTATGCCTTC
TCTTTATTGTGAGGACACTGCTCCTACACCCAGCCATTTTTGGCCTTCATCACATTGGAATGCAG
ATGAGAATAGCTATGTTTAGTTTGATTTATAAGAAGACTTTAAAGCTGTCAAGCCGTGTTCTAGA
TAAAATAAGTATTGGACAACTTGTTAGTCTCCTTTCCAACAACCTGAACAAATTTGATGAAGGAC
TTGCATTGGCACATTTCGTGTGGATCGCTCCTTTGCAAGTGGCACTCCTCATGGGGCTAATCTGG
GAGTTGTTACAGGCGTCTGCCTTCTGTGGACTTGGTTTCCTGATAGTCCTTGCCCTTTTTCAGGC
TGGGCTAGGGAGAATGATGATGAAGTACAGAGATCAGAGAGCTGGGAAGATCAGTGAAAGACTTG
TGATTACCTCAGAAATGATTGAAAATATCCAATCTGTTAAGGCATACTGCTGGGAAGAAGCAATG
GAAAAAATGATTGAAAACTTAAGACAAACAGAACTGAAACTGACTCGGAAGGCAGCCTATGTGAG
ATACTTCAATAGCTCAGCCTTCTTCTTCTCAGGGTTCTTTGTGGTGTTTTTATCTGTGCTTCCCT
ATGCACTAATCAAAGGAATCATCCTCCGGAAAATATTCACCACCATCTCATTCTGCATTGTTCTG
CGCATGGCGGTCACTCGGCAATTTCCCTGGGCTGTACAAACATGGTATGACTCTCTTGGAGCAAT
AAACAAAATACAGGATTTCTTACAAAAGCAAGAATATAAGACATTGGAATATAACTTAACGACTA
CAGAAGTAGTGATGGAGAATGTAACAGCCTTCTGGGAGGAGGGATTTGGGGAATTATTTGAGAAA
GCAAAACAAAACAATAACAATAGAAAAACTTCTAATGGTGATGACAGCCTCTTCTTCAGTAATTT
CTCACTTCTTGGTACTCCTGTCCTGAAAGATATTAATTTCAAGATAGAAAGAGGACAGTTGTTGG
CGGTTGCTGGATCCACTGGAGCAGGCAAGACTTCACTTCTAATGGTGATTATGGGAGAACTGGAG
CCTTCAGAGGGTAAAATTAAGCACAGTGGAAGAATTTCATTCTGTTCTCAGTTTTCCTGGATTAT
GCCTGGCACCATTAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAATATAGATACAGAAGCG
TCATCAAAGCATGCCAACTAGAAGAGGACATCTCCAAGTTTGCAGAGAAAGACAATATAGTTCTT
GGAGAAGGTGGAATCACACTGAGTGGAGGTCAACGAGCAAGAATTTCTTTAGCAAGAGCAGTATA
CAAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATACCTAGATGTTTTAACAGAAAAAG
AAATATTTGAAAGCTGTGTCTGTAAACTGATGGCTAACAAAACTAGGATTTTGGTCACTTCTAAA
ATGGAACATTTAAAGAAAGCTGACAAAATATTAATTTTGCATGAAGGTAGCAGCTATTTTTATGG
GACATTTTCAGAACTCCAAAATCTACAGCCAGACTTTAGCTCAAAACTCATGGGATGTGATTCTT
TCGACCAATTTAGTGCAGAAAGAAGAAATTCAATCCTAACTGAGACCTTACACCGTTTCTCATTA
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 147

GAAGGAGATGCTCCTGTCTCCTGGACAGAAACAAAAAAACAATCTTTTAAACAGACTGGAGAGTT
TGGGGAAAAAAGGAAGAATTCTATTCTCAATCCAATCAACTCTATACGAAAATTTTCCATTGTGC
AAAAGACTCCCTTACAAATGAATGGCATCGAAGAGGATTCTGATGAGCCTTTAGAGAGAAGGCTG
TCCTTAGTACCAGATTCTGAGCAGGGAGAGGCGATACTGCCTCGCATCAGCGTGATCAGCACTGG
CCCCACGCTTCAGGCACGAAGGAGGCAGTCTGTCCTGAACCTGATGACACACTCAGTTAACCAAG
GTCAGAACATTCACCGAAAGACAACAGCATCCACACGAAAAGTGTCACTGGCCCCTCAGGCAAAC
TTGACTGAACTGGATATATATTCAAGAAGGTTATCTCAAGAAACTGGCTTGGAAATAAGTGAAGA
AATTAACGAAGAAGACTTAAAGGAGTGCTTTTTTGATGATATGGAGAGCATACCAGCAGTGACTA
CATGGAACACATACCTTCGATATATTACTGTCCACAAGAGCTTAATTTTTGTGCTAATTTGGTGC
TTAGTAATTTTTCTGGCAGAGGTGGCTGCTTCTTTGGTTGTGCTGTGGCTCCTTGGAAACACTCC
TCTTCAAGACAAAGGGAATAGTACTCATAGTAGAAATAACAGCTATGCAGTGATTATCACCAGCA
CCAGTTCGTATTATGTGTTTTACATTTACGTGGGAGTAGCCGACACTTTGCTTGCTATGGGATTC
TTCAGAGGTCTACCACTGGTGCATACTCTAATCACAGTGTCGAAAATTTTACACCACAAAATGTT
ACATTCTGTTCTTCAAGCACCTATGTCAACCCTCAACACGTTGAAAGCAGGTGGGATTCTTAATA
GATTCTCCAAAGATATAGCAATTTTGGATGACCTTCTGCCTCTTACCATATTTGACTTCATCCAG
TTGTTATTAATTGTGATTGGAGCTATAGCAGTTGTCGCAGTTTTACAACCCTACATCTTTGTTGC
AACAGTGCCAGTGATAGTGGCTTTTATTATGTTGAGAGCATATTTCCTCCAAACCTCACAGCAAC
TCAAACAACTGGAATCTGAAGGCAGGAGTCCAATTTTCACTCATCTTGTTACAAGCTTAAAAGGA
CTATGGACACTTCGTGCCTTCGGACGGCAGCCTTACTTTGAAACTCTGTTCCACAAAGCTCTGAA
TTTACATACTGCCAACTGGTTCTTGTACCTGTCAACACTGCGCTGGTTCCAAATGAGAATAGAAA
TGATTTTTGTCATCTTCTTCATTGCTGTTACCTTCATTTCCATTTTAACAACAGGAGAAGGAGAA
GGAAGAGTTGGTATTATCCTGACTTTAGCCATGAATATCATGAGTACATTGCAGTGGGCTGTAAA
CTCCAGCATAGATGTGGATAGCTTGATGCGATCTGTGAGCCGAGTCTTTAAGTTCATTGACATGC
CAACAGAAGGTAAACCTACCAAGTCAACCAAACCATACAAGAATGGCCAACTCTCGAAAGTTATG
ATTATTGAGAATTCACACGTGAAGAAAGATGACATCTGGCCCTCAGGGGGCCAAATGACTGTCAA
AGATCTCACAGCAAAATACACAGAAGGTGGAAATGCCATATTAGAGAACATTTCCTTCTCAATAA
GTCCTGGCCAGAGGGTGGGCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCT
TTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATAAC
TTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACAT
TTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAAATATGGAAAGTTGCAGATGAG
GTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGG
CTGTGTCCTAAGCCATGGCCACAAGCAGTTGATGTGCTTGGCTAGATCTGTTCTCAGTAAGGCGA
AGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGA
ACTCTAAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCT
GGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACGATTCCATCCAGAAAC
TGCTGAACGAGAGGAGCCTCTTCCGGCAAGCCATCAGCCCCTCCGACAGGGTGAAGCTCTTTCCC
CACCGGAACTCAAGCAAGTGCAAGTCTAAGCCCCAGATTGCTGCTCTGAAAGAGGAGACAGAAGA
AGAGGTGCAAGATACAAGGCTTTAGAGAGCAGCATAAATGTTGACATGGGACATTTGCTCATGGA
ATTGGAGCTCGTGGGACAGTCACCTCATGGAATTGGAGCTCGTGGAACAGTTACCTCTGCCTCAG
AAAACAAGGATGAATTAAGTTTTTTTTTAAAAAAGAAACATTTGGTAAGGGGAATTGAGGACACT
GATATGGGTCTTGATAAATGGCTTCCTGGCAATAGTCAAATTGTGTGAAAGGTACTTCAAATCCT
TGAAGATTTACCACTTGTGTTTTGCAAGCCAGATTTTCCTGAAAACCCTTGCCATGTGCTAGTAA
TTGGAAAGGCAGCTCTAAATGTCAATCAGCCTAGTTGATCAGCTTATTGTCTAGTGAAACTCGTT
AATTTGTAGTGTTGGAGAAGAACTGAAATCATACTTCTTAGGGTTATGATTAAGTAATGATAACT
GGAAACTTCAGCGGTTTATATAAGCTTGTATTCCTTTTTCTCTCCTCTCCCCATGATGTTTAGAA
ACACAACTATATTGTTTGCTAAGCATTCCAACTATCTCATTTCCAAGCAAGTATTAGAATACCAC
AGGAACCACAAGACTGCACATCAAAATATGCCCCATTCAACATCTAGTGAGCAGTCAGGAAAGAG
148 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

AACTTCCAGATCCTGGAAATCAGGGTTAGTATTGTCCAGGTCTACCAAAAATCTCAATATTTCAG
ATAATCACAATACATCCCTTACCTGGGAAAGGGCTGTTATAATCTTTCACAGGGGACAGGATGGT
TCCCTTGATGAAGAAGTTGATATGCCTTTTCCCAACTCCAGAAAGTGACAAGCTCACAGACCTTT
GAACTAGAGTTTAGCTGGAAAAGTATGTTAGTGCAAATTGTCACAGGACAGCCCTTCTTTCCACA
GAAGCTCCAGGTAGAGGGTGTGTAAGTAGATAGGCCATGGGCACTGTGGGTAGACACACATGAAG
TCCAAGCATTTAGATGTATAGGTTGATGGTGGTATGTTTTCAGGCTAGATGTATGTACTTCATGC
TGTCTACACTAAGAGAGAATGAGAGACACACTGAAGAAGCACCAATCATGAATTAGTTTTATATG
CTTCTGTTTTATAATTTTGTGAAGCAAAATTTTTTCTCTAGGAAATATTTATTTTAATAATGTTT
CAAACATATATAACAATGCTGTATTTTAAAAGAATGATTATGAATTACATTTGTATAAAATAATT
TTTATATTTGAAATATTGACTTTTTATGGCACTAGTATTTCTATGAAATATTATGTTAAAACTGG
GACAGGGGAGAACCTAGGGTGATATTAACCAGGGGCCATGAATCACCTTTTGGTCTGGAGGGAAG
CCTTGGGGCTGATGCAGTTGTTGCCCACAGCTGTATGATTCCCAGCCAGCACAGCCTCTTAGATG
CAGTTCTGAAGAAGATGGTACCACCAGTCTGACTGTTTCCATCAAGGGTACACTGCCTTCTCAAC
TCCAAACTGACTCTTAAGAAGACTGCATTATATTTATTACTGTAAGAAAATATCACTTGTCAATA
AAATCCATACATTTGTGTGAAA

Figura 9.21 . Secuencias bajo estudio

Una vez introducidas las secuencias y, puesto que son relativamente largas,
ajusta remos los parámetros del gráfico como los de la Figura 9.22 con un zoom de
1: 1O y un tamaño de ventana de 59:
+
+M \tlh'!t" ~ qo!Nf\"(1 1(1 ... e .:JI ·v~·.Xf

Ul«: cur!rr ...ICit~t &oo ~ 1 n«d ~In! 1 II'Jm bV f ?!MftdC 1 O!r!t f.e~t!M"tt t t vg1!CI!! 1 .5
["•" ' ¡.....,. ¡
no • ~r
tool<i
!O~Cfl . ..
... ) .... ¡....., -- - - • $Q •

P.num SeJt<tt
8t.ASTP/PSI •8t.AST
PFSEAA(H (~f-)
W,IMEfll (~~ · ·lt·'M)

--.. ...
MOó"f sea::~
by PiO(~

-·.......· ...,
by MOlll

w.FF"J
OCOFFEE

.
O!J:..:.:ty ...
, .....,
>Aro<>
T odt; •••
R4fom'lilt MSA

llub
.....,
- f-Colmdtuq

Results
Mise
QeOre<-a1ed

M4!6n l l0

Figura 9.22 Gráfico de puntos de dos secuencias diferentes


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 149

La ruptura de la diagonal indica la ubicac ión de diferencias entre las


secuencias. Como vemos, ambas secuencias son muy s imilares y apenas se observan
discontinuidades en la diagonal. Sin em bargo, alrededor de las bases 1500 y 2500 la
s imili tud disminuye.

horaonMt Ratón
\t:tlt<~~ Hu m~no
mllrilc: ldertcy
S[(llr.Q wfniiOW: 59
¡oorn; 1:10
scor·e rat~Jíl : oto~
gQt~c;IQ; 6S%-100%

'

Figura 9.23. Regiones con grado de similitud bajo

Por otra parte, alrededor de la posición 4500 hay una inserción en la


secuencia del ratón (o una deleción en la secuencia humana), como indica el hecho
de que exista una región que aparece en el genoma del ratón y no en el humano (ver
Figura 9.24).

Figura 9.24. Detección de una inserción


!50 BIOINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA

9.2.4 Búsqueda de ORF

Una ORF (Open Reading Frame) es la secuencia de ADN


comprendida entre un codón de inicio (generalmente, ATG) y un
codón de parada (TAA, TAG o TGA).

9.2.4.1 NCBI-ORFFINDER

La herram ienta básica más utilizada para predecir la presencia de secuenc ias
codificantes en proteínas es el ORF Finder del NCBI. Se trata de una herramienta
gráfica de análisis para la búsqueda de ORF de tamaño seleccionable en una secuencia,
ya sea introducida por e l usuario (y, potencialmente desconocida) o recuperada de
una base de datos de secuencias.

En este primer ejemplo, utilizaremos la siguiente secuenci a:

>Secuencial Libro Bioinformatica


GTTGCCCCGGCCGCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACCCCTGCTTC
CGTCTGGCTGCCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGA
AGGAGGTGCTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAG CTCAAGGGGGAGCTCTCCCTCGT
CCCCCAGGCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCA
ACGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGAT
CGTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGA
TCACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCG
TCACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCC
TTGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAA
TGATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGA
AGATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGAT
CAGAAGCTGCTTGAGGAAGAAGCT

Figura 9.25. Secuencia bajo estudio

Abrimos un navegador e introduc imos la página principal del ORF Finder:


http://www.ncbi.nlm.nih.govlgorflgOJjhtml. Una vez allí, pegue la secuencia anterior
en el área de texto destinada para ello (ver Figura 9.26) o, s i se trata de una secuencia
obtenida de a lguna base de datos (GenBank, por ejemplo), se puede introducir el GI
o el accession.
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 151

e •· ~
Flnder (Open Readlng Frame Finder)

sequence In FASTA format


C71~c»:CCOCO::.:OX=«:t~J.tel.~tQ
OCCI:fOQ'ftOCO'l'U'lOC'TOQ:l1o:'40CII)(I010l~~.C~r.;, •
QOO;~AA'"MA~~
~=~c:-eeron~=c;
c:~r:-:~~.J.!t)•oc>•tO.Q).:~
'*':.:.c=.:.r.a.:ot~:.~o«acrwc,., ¡('lt(("l~:m~
~->.no:.~~~~~~ ....
OOG.l.f~~a..rOJ.'l~AA~OCO

·-
TO:

Figura 9.26. Página principal del ORF Finder

Junto al en lace Genetic codes hay un menú desplegable que permite


seleccionar e l diccionario genético de codones. Por defecto, se emplea el estándar
aunque en el menú se dispone de hasta 22 opciones.

En el enlace hay una descripción detallada del diccionario de


traducción.
http://www.ncbi.nlm.nih.gov!Taxonomy/Utilslwprintgc.cgi?mode=c

Pulsamos el botón OrfFind y aparecerá la ventana de resultados (ver Figura


9 .27).
+

ORF Flnder (Open Readlng Frame


~ NCBI Flnder)

Secuencia1 Ubro Bioinformatica

y.-, 1~ .. ( Rod1rw 1 100 .. f SIKf17114S f ftanf S'c a Co> Lftltilll


-¡ o 7} ;j1 666
.¡ o 1..4$() 4-SO
·'l 8 390 644 lSS
.1 o 1L 2S1 J:lS
• J • 3 2:N 221
- ! D l 71 466 19>
· 1 OSN..696 lll

Figura 9.27. Ventana de resultados del ORF Finder


!52 BIOINFORMÁTICA: El AON A UN SOLO CLIC ©RA-MA

Las regiones sombreadas de verde se correspo nden con las ORF de la


secuencia. Por otra parte, la tab la de la derecha muestra las coordenadas y la longitud,
en número de bases, de cada una de las ORF encontradas. El símbo lo ' +' indica que
la secuencia se ha enviado em pezando desde el extremo 5' mientras que el '-'se
refiere a la posició n co mplementa ria.

Si se hace clic en una ORF, su zo na en la imagen cambiará a violeta, indicando


que se ha seleccionado, y aparecerán las secuencias de bases y de am inoácidos. Por
ejemplo, si pinchamos en la primera ORF, obtendremos la imagen de la Figura 9.28.
t-'uDf'lleo t:ntrez t:l..A~ ' U\111\'1 Jaxooom ~t'ucture

Secue ncia1 Libro Bioinformatica

• 1 BIASTJ EJ with par=el= 1 Cugni tor_l

!~Vi~, .~,~~~l~G~en~B~a~nk~·~ÍI~~R~ed~raw~~~~l~O~O ·~IS~i~x~fr~a~s~


oo l +1 • 73 .. i37 666
Frame from 10 Ltngth
· 1 D l. .480 480
-2 IJ 390..644 255
-2 o 33..257 225
+3 D 3..224 222
+2 IJ 272..466 195
-1 o 574..696 123
Len&1f>; 221 aa
1 Accepl 11 Alternalive lniiafon Codon:s 1
'l':J ~~cc:-...<pgc::gcor~<r-9<==9'i"'C :cwg'fC ~~~g-;~9'9'9<:<:
:. :> v :> r, e A e :> e o.
v e Q .1.
1!! qc"qna:aq~q:;aq~a~e~ca~wcqtwtctt.c:ca<re:a
A C K C ! ~ V ~ $ ~ V V ~ Q P
1(2 t~9~9~'JCtc:aonggo¡a ;tctct:cctc¡tcc:ccca¡vc:a...,.g
~ e e :. x G e :. ~ • ~ • Q A «
:e• .,• •• .,..•••••.,.•••.,. . . ..~•• .,.. , ........... .,...
O 0 S ~ A - 0 ~ r V O t C t A
2$a gcca~a.~cgagcagatcaat9'9'J~~ac~.a ~a tc~¡c;~g
A : N t ~ % N V t Y W A S Y A
2~0 ~;t(0:~1;iCCC~1;i1;1;i<::f(:(:1;;101;i'-~;t~(~;a~;ae~~
Y K 8 ~ t ~ Y r 0 ~ ~ ~ V A ~

a4a ;~.;ae:~~~1;e:o;e:~;a;a~"c:""o;a~o•;a~Q10Qa;I\O~~~.o~~
& O t A & t t K t : $ D t t R
a!& ~;a~;a:~c;a~aq~;ae~;;c:;a~;;e;a;~1(:(;191;1(:;t~C~;a99C

O n A C k ~ 1 ~ Y Q • • k G G
c:2 ·~•t9•••c•y.•••••~••• •••••..- • •9•r-••,.•
l V R ~ O S l V t i t t t t O
418 ea~e:t-q¡q;augqqJ;a1;9e:e~;;~&~'t-&V~a~~eti~
ll i' t K (; i> A l. Y A • t: ~ A l.
~,3 fCU:~fi;l;llfl:'t-~'t-Uf,t.919Uf't't-91:;1ei.;ICCt9C:¡Cf,~
l. ~ Cit :t V IO'f:lt:t•:t:t.XS
~f8 01;;eOe;t~;a;a~otoe&;a~;a~e•e&Oe't-01CC~;11:1;ite~~;tC

V A S a C ' D i' Q l ! D F V t:

...,.,
~

t
...•..•....,
~ V A O ~
..,.,..,.,..,...,,...
6!3 I'JC'JU.-t-~-cc~~"-9J•9C-aJ9't ~·•flCC11;ie.;l;a,;aa;¡:;a ~te-t.
e r t. t t Q v e ~ : ~ ~ :. ~

a a V G 1 S M
~.

S Y
?C·3 ~ea:<:.~':>'JI':>C.&'JU9C-'t>1e~ ~~9~•!••9c~ ns
* M r O ~ 1 l. l. t: t t A

Figura 9.28. Detalle de una ORF

Si ahora se pincha en el botón Accept, la región seleccionada se vue lve


verde claro indicando que hemos aceptado la ORF y que estamos interesados en
obtener más información acerca de la misma.
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 153

.- ORF Finder (Open Reading Frame


~ NCBI Finder)
~Jt:lrJlM t:rtrez OlAS! JIIAI\1 l<uoncrny Sfrtrtur~

Secuencia1 Libro Bioi nformatica

¡r jí;
:-:-,ew
--,J ""'¡"ee
=-na"a',.,-n'k""- - - ( Redraw J 100 - J SlxFra•es J Frame from <o Leni(b
+i o 73..737 666
-1 o 1..480 480
-2 o 390..644 255
-2 o 33 .257 225
+3 o 3..224 222
+2 0 272..466 195
-1 0 Si4..696 113

Figura 9.29. Información sobre la región seleccionada

Por ejemplo, podríamos ver la información de la ORF en formato GenBank


pulsando el botón View con la opción de GenBank seleccionada:

• <::

LOCUS See'Uen-:ia1 '73S tp


OEfi~! TI09 L~bro Slo~nforttac le~ .
ACCE3SI~~ 3c cucnci4 1
\~~rON
l'..t"YWORD!S
SCtm<:E Onhc::·..-n .
ORGANISH Un~e~~ .
on.c!as!t1!1ed .
TEAIURES Loeation/Qu&l1!1ers
$CUree 1 . • ?38
cos 73 .. 1~8
/not••"?~•dict•d codi r~ ~•qion~
/t.rAn$1-! ~ l on•" .1.. f'VPRGAGPSA'\'CRAAC:!(G!(.tVl.SSY'\' ~Q:P !'tt L.>c;Gt LSI..'1 PQA
i<DQSL'\RQ?. FVCECtJ..AI~l!:"OINV'EYNhSYJ,.YHSLFA'i:'DJU:NVA!.KGFAF.Ff'":<tSSD

E~RD~Kl!KYO~~GG~VRtOS:V7PL!ifO~PEKG01l~~LALAl~~VNIKL
HNLMSVASRCNDPQLlCF~ S EF~tE~AIKK.[SEYVAQLRRVGKGH~IWH.FDQKLL
Ett.!l."
Bll.S!: COUNT 165 a 202 e 2H g li7 t.
01\IGIN
1 ot.wcceeoo ceaccceeoc COCC(jCIJCCt aectetctco ccooeocooc cteoacccet
61 qct.CCCQCCt. QQCt-qoccqt gceqcgt.gQt QCC:(Ilgaeccg g·Qgcagt(llcg cag:ggec:<,¡oc
121 9'9'Q'!lU9990. 09go.c¡qt-;c~ C49C~9C9~9 Qectt:e-::o.qc co.tee;o.c¡9o gcecao.991J;
181 aaOC'tCCOCC CCOtCCOCU ooc:caaooac C ! Q'tCt.Ct CO ctaaocaaaa ott.ctrtc-cac
Zil t;o Qt:9C90.99 C:e:QCC-o~oc:. C9~9COQ "-IO C o.~\.9t.99 0.9t o.CCeo.t:gCQt:C: c¡t.oc;cc¡~::
201 cActcccttt:: tcgcct.A:::'l:t. tQilt.cgtgAc AAC9ttgct.c ~CA"'-9't]tJAtt cgccAAAttc
S61 ttea.ae.caa;. CCAQ'CCAtoe. OOAQ'tOOQ'a.t ee.coca~aca ucece.tcaa ouceao~ac
121 Ct-g'~9~99'- 9 9=99'9t-íJC9 qc~cc-cg~cc- O~c-q tC.3 CCC etttqo.c-cqa qttc;cc-c-ae
481 CCCf.1llO&~Hl0 ooaaeaec:tt Ot~tCCt!tO oaottoo-cct eaoccetcoa ~~~aetto·~

Sil aac-;¡ageao;c c.gco.ceacct QC!leagc.gtq c;;cucaaqqc. gceat.Qatcc o.cogctgaoc


601 qact-:c<ortt.9 ~ll(.raqc;aan cca;a9;rag caqc¡t.t.9&a9 ccac.caac¡aa 9&tCtCt(JaQ"
661 tecotccccc aoct aeasao aotacoaaaa aaocae::aco cataacacee taeecaaeaa
721 c~9;n9o;q co; o.cqc'-
11

Figura 9.30. Registro en GenBank


!54 BIOINFORMÁTICA: El AONA UNSOLOCLIC ©RA-MA

9.2.4.2 GENEMARK

Los algoritmos de búsqueda de ORF convencionales identifican alrededor


de l 85% de las regiones codificantes de interés. Sin embargo, existen situaciones en
las que es necesa rio una aprox imación más compleja. Tal es el caso de la búsq ueda
de proteínas cortas, la resoluc ión de ambigüedades o la identificación de l codón de
íncio exacto. Una de las herramientas que util iza n estos algo ritmos más complejos
es GeneMark (http://exon.gatech.edu/GeneMarkl) .

Aprenderemos a utilizar GeneMark con la secuencia del gen UTPase de


la Escherichia coli, cuyo accession es el XO 1714. Podernos obtener su secuencia
directamente desde Ge nBank :

>gi l 412961emb iX01714 . 1 1 E . co l i dut gene for dUTPase (EC 3 . 6 . 1 . 23)


(deox yuridi ne 5 ' -triphosphate nucleotidohydrolase)
CAGAGAAAATCAAAAAGCAGGCCACGCAGGGTGATGAATTAACAATAAAAATGGTTAAAAACCCC
GATATCGTCGCAGGCGTTGCCGCACTAAAAGACCATCGACCCTACGTCGTTGGATTTGCCGCCGA
AACAAATAATGTGGAAGAATACGCCCGGCAAAAACGTATCCGTAAAAACCTTGATCTGATCTGCG
CGAACGATGTTTCCCAGCCAACTCAAGGATTTAACAGCGACAACAACGCATTACACCTTTTCTGG
CAGGACGGAGATAAAGTCTTACCGCTTGAGCGCAAAGAGCTCCTTGGCCAATTATTACTCGACGA
GATCGTGACCCGTTATGATGAAAAAAATCGACGTTAAGATTCTGGACCCGCGCGTTGGGAAGGAA
TTTCCGCTCCCGACTTATGCCACCTCTGGCTCTGCCGGACTTGACCTGCGTGCCTGTCTCAACGA
CGCCGTAGAACTGGCTCCGGGTGACACTACGCTGGTTCCGACCGGGCTGGCGATTCATATTGCCG
ATCCTTCACTGGCGGCAATGATGCTGCCGCGCTCCGGATTGGGACATAAGCACGGTATCGTGCTT
GGTAACCTGGTAGGATTGATCGATTCTGACTATCAGGGCCAGTTGATGATTTCCGTGTGGAACCG
TGGTCAGGACAGCTTCACCATTCAACCTGGCGAACGCATCGCCCAGATGATTTTTGTTCCGGTAG
TACAGGCTGAATTTAATCTGGTGGAAGATTTCGACGCCACCGACCGCGGTGAAGGCGGCTTTGGT
CACTCTGGTCGTCAGTAACACATACGCATCCGAATAACGTCATAACATAGCCGCAAACATTTCGT
TTGCGGTCATAGCGTGGGTGCCGCCTGGCAAGTGCTTATTTTCAGGGGTATTTTGTAACATGGCA
GAAAAACAAACTGCGAAAAGGAACCGTCGCGAGGAAATACTTCAGTCTCTGGCGCTGATGCTGGA
ATCCAGCGATGGAAGCCAACGTATCACGACGGCAAAACTGGCCGCCTCTGTCGGCGTTTCCGAAG
CGGCACTGTATCGCCACTTCCCCAGTAAGACCCGCATGTTCGATAGCCTGATTGAGTTTATCGAA
GATAGCCTGATTACTCGCATCAACCTGATTCTGAAAGATGAGAAAGACACCACAGCGCGCCTGCG
TCTGATTGTGTTGCTGCTTCTCGGTTTTGGTGAGCGTAATCCTGGCCTGACCCGCATCCTCACTG
GTCATGCGCTAATGTTTGAACAGGATCGCCTGCAAGGGCGCATCAACCAGCTGTTCGAGCGTATT
GA.AGCGCAGCTGCGCCAGGTATTGCGTGAAAAGAGAATGCGTGAGGGTGAAGGTTACACCACCGA
TGAAACCCTGCTGGCAAGCCAGATCCTGGCCTTCTGTGAAGGTATGCTGTCACGTTTTGTCCGCA
GCGAATTTAAATACCGCCCGACGGATGATTTTGACGCCCGCTGGCCGCTAATTGCGGCCAGTTGC
AGTAATATGACGCCGGATGACTTTTCATCCGGCGAGTTTCTTTAAACGCCAAACTCTTCGCGATA
GGCCTTAACCGCCGCCAGATGTTCCGCCATTTCCGGCTTCTCTTCCAGG

Figura 9.31. Secuencia bajo estudio

El primer paso será abrir la página principal de GeneMark (ver Figura 9.32) y
seleccionar el tipo de anális is que se desea hacer. Existen varias vers iones especializadas
de l progarn a, cada una de las cuales se corresponde con un modelo distinto de gen.
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 155

+ oct .. ..,...._ .....


-- -- .... ·--·.- ·- < •·

G- P'reodlc.Cion k! SK..r~ AfC.hoM4. Mela~H •ncl MttlloCnl~omes


AI'IMI~C~«t! tlt"lf*_..b,'flt~ki'IMI .....
"" Heu!ltlk: ftiOIWt UDyh: ~~ C.~S - fle'~~ IS
.• b\)li'Nol$0UI) r«ii'Nn)'~--~~~~. N)'I).I

-
-T (;11~-IN> o.Nib~ ~ l'laiN-...-•~011 • Cfo'lfM. ~
• _ ¡/>- W.l'nii'I-P"...-.J~ISIU'\ 1' 'I~OIIK~Utlbe - ~~trtro
"' . ~ ~ b9' ~ Q010. t P0\71m""" ho;1'1111«nq..,., SPMC1 (Me

Ott'!t ,rt<lletiOt'l tn i Vkt"YOI"


... _...
• Gcn<-M1'1S
• tt ~ n..w
. ... • ..HC81
Folt 'JQ>'t!Ofli"'IOI"''...~It·. . . •~~~t~toc.tr--- tti'·!Uon"O~

--
.. -"""""
_- c..n.M.ti...ES'(2005) . -ciOW'**H. ""*'*~ES'r.tt ~
..tii:.:3L ~r«~e ICt' ~vow~ Q(JOe) r.totntawo.t.,......., """'-'
IIIOI:HI~~-~~~tlt~.... ~-""toJ'
~oi WI'IIMI.E" •nclo-~·
.,..,
.""""
lj .
'::t, AIIJ$lll:l not'lf'O~f""l)lll'l$~ ~·~c~OI~ o...b~Meof~""'"
Ollbe'~i1.,1<Neo:lbyl~~d~S A~\eniOitd • f'loUr,ck
4 ~- ..... ...~~ CWI~.-Ib'l~.-~ • V /PfQ fii'Ollll

OtM Prf'dlcOOtl tn V'Nt... Phlgtt ~ PIUtnlclt

_
- ~-- IC+ro
A I!MIOW.IJ,.fÑ'JO 01 plwtlldQI'I bt ti\M'Uid"""" t't' .... ~ fTW.....,
"'""'•lklll0deftlr#lt~K$h:rltrftii~Wictt'fh:~no • U.'IOl"\ • PI~

• pooo¡nme.~$' Bolh~ . .IWi f Polf41C11t~d


~ ......-~ ._....,_...,.
Otrlotl' ' " ' · -

. n.......o.~··.,.

Figura 9.32. Página principal de GeneMark

Supondremos que se desea predecir un gen en una bacteria, por lo que


se seleccionará e l enlace Gen e P redicti on in Bact eria, Ar ch aa ea and Meta-
tr anscriptomes y pi ncha mos en el enlace GeneMarkS (ver F igura 9.33). Además de la
secuencia podemos especifi car algu nas opciones de búsqueda como el tipo de secuencia
(en nuestro caso, procariota) o el fo rmato de salida. Seleccionaremos todas las opciones
de salida (secuencia de proteínas, secuencia de nucleótidos de los genes y PDF).
+ + .:t: ........~m _.~,~.. ' ~- . • ·)

lhl; ~ ptOO.'des A('OeHU .,._...;,.,. J 1 ! l¡j cetoe flf~ ~- Gefte.\tM!$ n..s \~ C~ fle
~ 1'«11 fl:~ ~\f.to:S v.1)liiii!J 4f\~v.t.:t~ tOttAM e,~ot~,w~ ~~
Q\'la.~ ...J(~.~---~a.dD-rtcDNA~
u.-..Cc..lbrkS~

:ox:c-1GO.'-~t~VoMCn.\f1\""~0CGIXAnft•!'1~ •
~~J.~f.W~$CJ'OOQ~$C:CMIJ.m:tflk:C'r.("''
r.-::.1:.r.::.:;.::.r.o.c-:r.:ne-:.:x·::.o=.--:-:~.;.:L~ ~:.:=>=c:.:-n:·~.-.::.:c~
et~.u.~n~u.~l.~tOJ.:f~t'ltttn;v. l

ll "l<M• ('(!<):e • • Ir~ 11(( • • S~.q~ ~~


P s..id!rifHadlf(.r[l;tl'(,....t~MrJ~,>

Figura 9.33. Página principal de GeneMarkS


!56 BIOINFORMÁTICA: El AON A UN SOLO CLIC ©RA-MA

Si pinchamos en e l botón Start Ge neMarkS obtenemos una página de


resultados como la de la Figura 9.34:

J>

GeneMarkS
.lolilll lk>so•rr, Al"-lMre ~Aasallu ... ~brk ~-sk:r
<i<mMI'tS.· f Kf'm.=rWJ!»df««cda!oo q(f!tOC !4;1m it.aotroNJ~ l!pr+t.yiwfi:tfiodnr t«atK(
tud~ .. ·~,q¡s..
Ntdlli< And' bJMPf"lt0001) l9 :60?·'MIS

cx.&lut(l(~¡ox· '~

tpor ~~-""''
~Ot."i! ~'ti km•&-I.W
r.-ud«(idc: ~ k·'-'·'-
C9!1&'1 lk 1~

Figura 9.34. Página de resultados

En primer lugar, examinaremos la sección de predicción de genes navegando


por el gms.out (ver Figura 9.35). En la cabecera del info rme de resultados se encuentran
datos básicos del mismo entre los que se encuentran la fecha, el a lgoritmo uti lizado
para hacer la predicción, etc. Por otra parte, bajo la definición de la secuencia que
hemos in troducido, se encuentran las coordenadas de los genes, indicando la hebra,
las posiciones de inicio y final.

Go:odllilt, •.._ ~l'OTIC '' 'u-noa ~ -t&l


Ooo:o : - .:-.-~ ~' Ol: • ,:n ,_,~•
- ::t• ,..,.., ...q . !"""
!I'!Q'Il-....
-at nh - : ___.u<.tUUt'. -
~IIAJQtt

IUI!It ::..:.: :
&>ele } , ..,, .,,.,., , .,,., llc-11: ...,~..,.,_,.,,.. l _ !o:_qc:nU•>c_ o:.:O._ t t _o::d_ 0<:_S.t

. 9"'-·
~U <lo:U AIUCil U ll<: l Oll tllU . , . !Xl:lt'l' H ,ll t . <Oll Oll't <;e M te: 4-7-'h.• ~ !te ;),O,l<U) I ~C.lJI'Ill' IOJ.M ) '•\ U~o:ll<>te IIOitleOUO~Oton)

.......
h•~>.O~
" u.t $·u~ :.e ;U&.~ f.~q'MCro>i <;e~ t :.a u
: d u ;- HO
t ,., 1n n•
.o ~· IUO u•

Figura 9.35. Descripción de los resultados

Si comparamos la predicción con la información contenida en el registro de


GenBank, veremos que en esta base de datos se indica que esta secuencia contiene
dos regiones CDS, una alrededo r de la posición 340 y otra alrededor de la 900.

LOCUS X0171 4 1 609 bp DNA l inear BCT 23-0CT-2008


DEFINITION E . co l i dut gene for dUTPase (EC 3 . 6 . 1 . 23)
(deoxyuridine
5 ' -triphosphate nucleotidohydrolase ) .
ACCESSION X017 1 4
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 157

VERS I ON X01714 . 1 GI : 41296


KEYWORDS dUTPas e ; unidentified reading frame .
SOURCE Escherichia ce l i
ORGANISM Escherichia ce l i
Bacteria ; Proteobacter i a ; Gammaproteobacteria ;
Enterobac t eriales ;
Enterebacteriaceae ; Escherichia .
REFERENCE 1 (bases 1 te 1609)
AUTHORS Lundberg , L . G., Thoressen , H. O ., Karlstrom, O . H. and
Nyman , P . O .
TITLE Nuc l eo t ide sequence of the structural gene for dUTPase
of Escherichia col i K-1 2
JOURNAL EMBO J . 2 (6 ), 967 - 971 ( 1983)
PUBMED 6139280
COMMENT Data kindly reviewed ( 25- NOV - 1985) by L . Lund berg .
FEATURES Locat i on/Qualifiers
seurce l .. 1609
/erganism= " Escher i ch i a coli "
/mol_ type= " genem i c DNA"
/db xref= " taxon : 562"
prometer 286 .. 29 1
/note= ''-35 reg i on ''
prometer 31 0 .. 316
/note= " -10 regien "
mise feature 322 . . 324
/note= " put . transcription start regien •
RBS 330 . . 333
/note• " pu t . rRNA binding si t e "
CDS 343 . . 798
[ ... ]
CDS 905 . . 1540
[ ... ]

Figura 9.36. Registro GenBank

En los resultados sobre las secuencias de proteínas (enlace gms.out. faa) , se


muestra la secuencia de aminoácidos correspo ndiente a cada uno de los genes que se
han predicho en formato FASTA (ver Figura 9.37):

)'Otl>t 110t~t\" .~-l!:t MI•UU.C )OJf!~ UU !.- I~! U ~.!I l . ~o.H OUC ~:,e t c.t <IO'f hft (te ¡ , ,,!, ) U ldotGl<~U d ll>t · · ·lfO~ll>t.Ut r••1t•a#<W:,•, ,uoh .Ul
lKI ~..U«?t<:.'r: IOfi'IQifO'lvisY~F'r'NQ'~li'Yt:OAA~D)II.
C"-J<"A>qr.'tJOmo-~~t.~l'lo!am.lOI:r"...U.ctl M'ltYDl;JOlll;.a
...,,... ) 10t~t\' ,t"-!!U . . l•l)i ~J * t.l )0ii~ UU! .... I1::t!,!i, ! l l , c-o.1 1 lto:C 9f:.t t ot 40T h n ~ l, C, ! , ) Jj ldot4"'~'<Ui dl .... '' •< H~,Jj)t:. .t t.""l t<>;I.-,}'<UO! Oo.Ul
IOV"JJMti.#Pf~ftnl'Aj,.¡¡~~VIU..:;;ont.YPfi;l,.l:l"'t.t.
tho~:.n~~I'JlQ.'1.\'Gt l l>f.:~1JUS'IIr.l~lliiM I ~:,I,Q'I(
tr\'Wo~n=:!.~n>~:..=z~re~~~
"'J~l'I'!:'.SI~·~_t ~ .t.n:oUH.,.. I • IIo0$1!$40 >?li • Ut~l- 11t·)~11. 4 .!1 t. ~o)• chrt ?-~ (or .::1111'~ ''~' (f,C ,.4.:.111 IO.; ay•;o.n<h!l!l S• ·tU~-Js* 4 ~'1! r:oc;l e~u-.;t'lhOI 4.f'l! l
to.t:~u.r~: t~~u~oc~: rr.u:u...u·."'WilAA.l.Yll.lln>Jn-.ro
=.:.:rr=~t-:Y;::r..;~:.JU.JU.l'~~:.tiU:.tou.=r.a
!()Cll~tPU!t.AOt~ltA!I!~~ttrt!'tOtTlUSO!t.Attt~l!"'.~n:'t
..
anno~r :~t:~:nsnr:.

Figura 9.37. Secuencias de proteínas de los genes


!58 BIOINFORMÁTICA: El AON A UN SOLO CLIC ©RA-MA

De la misma manera, podemos obtener la secuencia de nucleótidos de cada


gen pinchando en el enlace gms.out.fnn (ver Figura 9.38):

.P ¡ 1) Q • ft '"' A • 5
"9"'n•_I J~.<"·"-JUO.... .q• l ' !t.J "'JII'!l. . j -)liOlltt.t¡ l. o:oH 0..~ ,.nO !~u <Stnr.o.M l iC: J., . I . H ) 1_ .1'\o.<-101::• ···~U,.,_Fio.l~· n ....t.O<.IO&,..UoU.. . j
~7~~XJ.<l~Q.fQ...t!'r.u.a;.~:~~
<::ee"..A'lA~~~~ttt;)J;(lCt~COTTQG.\m
...
ooc~•• ;.c-•• •r- :.::~: ~~r-.:.:.:or.~-cr:

o:.:~:~.u,rnooe~~~~

ct).H~rncr~·--CJCXX;~!WI:tttr~c
cr::;xa.:.:-:;.:t.\C'1Cll.A..~!Il.~ t:;..r:);.::'l ~· • • a• • -:t :<~.<:OttAA
~~~; !j;~~~~~~=~~~~;;~:h~~~¿·'' !. eo!•
0 d.·•,. oc::« !<or dU'!Po:c l EC ,,6.1 . ts ~
~IJ.I«C'Aea'CTGtSer~~~T~~~
~r~~r~~"M"T~':"fttQ,(:~~t~rA-nc.o:
~::rr:a.~""~t""~~«~"-U:~:~.u:
OT<;C't'1QGT~TTGA«:GATT~A.~Go\~tTTQ::
...
cotGlo:.J..t-'"et~tca.ca.nC'.UoCC'T""~,~.uaoc:c~rJ:;

C':'r:-:~:««r~!~~-:-:.u.rc-:~~:..t~a=~:.cc=
~«ll<íQC:''ITGO'l'at~M
;:-~·~
·~"~'~=~~~<>~-~-~"~'~'-§'~"~·~
> N~>o~
: ue >-otltH"'Ieai>IXO: nt.:¡ '· co.:.t ot...t QOOM !ór .st::r~ ltC ).l. l . U ) ro:~l-..tt.U.t.e )'•ut-.o.¡:a...tc fl""t eou-.;r4<ot u~l
:: ~n.cnc-mtc:TCTOIJQ
('f<a,~~t~.ueu:c~····c-r~
e:re:;-xrr.~cca.cT~~~tceet.::~:~"'X'le.:.ro:t:ta..r
~!fCM!TtUco.w.nAfA~'t'tA.etCOCAtCMoOCte.\tTCTCMMU
(114Ul.~O.:OCCt~~oT.O':'TOCTGCnCT~OOT~:)
~AAT«''~te~*irO.tGe«:'!M~o\IJGUCGe
C'1G")0,.r.c<"''< 0 t~tC'l·tmtl.TT~~:'U't<: 111
o::~··~·'"''"'l.U~~~~m~nn:on~
(.M;I,~~~-~~ce~rnMAm
.:x-:~:u.:c.:.rrtt~.l:~~;.;.rr~~:r.:~;.;.r;.r ~

~t~G\.Tce;)~CJTtU

Figura 9.38. Secuencia de nucleótidos de los genes

Finalmente, GeneMark proporciona una visión gráfica de la predicción de


genes (ver Figura 9.39) en donde es posible visua lizar la ubicación de los genes
detectados.

• 1 •
!UJ

l .· ~ ~ ~·¡ fl. ""


,. .. ,, . . .dr·IWJ.,
1
...
• 1

1J L.. ·~ .:. "" ....


• 1 •
:n•

jnU1
'l 11

'1'0
'- 1 '

«<
J.. 1

llU
1 "' 1

1111
1 1
!JIJ

,A ~A
J.... 1\L\..............
... . . ,), .
4.. .... .... ....
1 1

""
1

Figura 9.39. Gráficas con los genes predichos


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 159

De esta gráfica, poderno s obtener informac ión muy interesante, ta l y corn o


muestra la Figura 9.40:

l.

J .n
M . l . ~ ... . ..
Ir'
,.l. '""
/"Y
-~ "" '""
i M '' .
' ....,~ ..__ ...... •

r
e
•O
,.
"'-1
N
•:o

..
.,
..
""'
Regiones de int erés

·-uu M
'{V
~
-~

Q)
~
·- o .., A Posición de los nucl eótidos
o 1
l lOO
"" ""' ~

'-'

,.
. .. ~

- JI
ORF

l•
"' '" l lOO
'"' ""'

~
~ o.s
' " . ~
• .---

! ,.l.
'"
., •
""' '"'
1

""'
1\ • -
\ft. '
M ~

}.
•• ... "'
<A

~~rostbrl ""' "" ""'

Figura 9.40. Análisis de la gráfica

Como acabamos de ver, con GeneMark es posible encontrar ORF.


r- ' ·' Compara los resultados con los obtenidos con el NCBI-ORF
te1 - ..., Finder.
160 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

9.3 ALINEAMIENTO DE SECUENCIAS CON BLASTN

Dos sec uencias homólogas, es decir, con un ancestro común, suelen tener la
misma estructura 3D y funciones relacionadas. La mejor manera de encontra r una
secuencia homóloga a la secuencia bajo estudi o es buscarl a en una base de datos a
través de BLAST. Una vez encontrada, para decidir s i son homólogas o no, conviene
tener en cuenta los siguientes dos criterios:

Secuencia de ADN: al menos el70% de similitud en más de 100 bases entre


la referencia y la secuencia bajo estudio o un valor E menor de 10·4 •

,.. Secuencia proteica: más del 25% de similitud en más de 100 aminoácidos
entre la referencia y la secuencia bajo estud io o un valor E menor de 10·4 •

,.. S in embargo, estos umbrales son orientati vos: si una referencia se


encuentra cerca del umbral, podría ser homóloga o no serlo. Es aquí
cuando las técnicas de al ineamiento de pares ayudan a decid ir la
relevancia de la referencia.

BLASTN se emplea para comparar una secuencia de nucleótidos bajo estudio


con la información guardada en una base de datos de secuencias de nucleótidos. La
s ituación más habitual es aque lla en la que llega al laborato rio una secuencia (la
secuencia bajo estudio) y se desea identificarla, comparándola con otras secuencias
conocidas.

Se trata de identificar la siguiente sec uenc ia:

>Anonimal
CAGGCAGCCCCACACCCTCCGCCTCCTGCACCGAGAGACATGGAATAAAGCCCCTGAACCAGCCC
TGCTGTGCCGTCTGTGTGTCTTGGGGGCCCTGGGCCAAGCCCCACTTCCCGGCACTGTTGTGAGC
CCCTCCCAGCTCTCTCCATGCTCTCTGGGTGCCCACAGGTGCCAACGCCAGCCAGGCCCAGCATG
CAGTGGCTCTCCCCAAAGCGGCCATGCCTGTCGGCTGCCTGCTACCCCCACCCTGTGGCTCAGGG
TCCAGTATGGGAGCTGCGGGGGTCTCTGAGGGGCCAGGGGTGGTGGGGCCACTGAGAAATGACTT
CTTGTTCAGTAGCTCTGGACTCTTGGAGTCCCCAGAGACCTTGTTCAGGAAAGGGAATGAGAACA
TTCCAGCAATTTTCCCCCCACCTAGCCCTCCCAGGTTCTATTTTTAGATTTATTTCTGATGGAGT
CCCTGTGGAGGGAGGAGGCTGGGCTGAGGGAGGGGGTCCTGCAGGGCGGGGGGCTGGGAAGGTGG
GGAGAGGCTGCTGAGAGCCACCCGCTATCCCCAGCTCTGGGCAGCCCTGGGACAGTCACACACCC
TGGCCTCGCGGCCCAAGCTGGCAGCCGTCTGCAGCCACAGCTTATGCCAGCCCAGGTCCAGCCAG
ACACCTGAGGGACCCACTGGTGCCTTGGAGGAAGCAGGAGAGGTCAGATGGCACCATGAGCTGGG
GCAGGTGCAGGGACCGTGGCAGCACCGGG

Figura 9.41. Secuencia bajo estudio


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 161

En primer lugar, abrimos un navegador e introduci mos la página principal


de NCBI-BLAST: hup:/lblast.ncbi.nlm.nih.gov/Biast.cgi y aparecerá la pantalla de
la Figura 9.42 :

• llt(Jtlt.A$1 MCiml
i!USll"'dt ¡.,..._.ofol..,il61ily..,._ ~ol ,.q_.. =:...

BLASTAssembledRetseqGeoomes
-
..• """"'
""""
..,.""'
a..
.""
·~
•· Gu!!tto!o
~
. ,_
·-.........
o y_,.
"' /"""'*"""" ,,..,.
-
a-...~- !V$"--
110\. ,_,..»''IOI~Ottfl'
e u.oa ru.u onn..

8aslc iLAST

~~ S.....ct~opo~•~~>~•·--.•pvc•lot......,.
~ bl:l!Pp "'~~~-- ~~- <Wiil "'-'
l;oltll! ~ potoln ~~· -"9 • trMII~ IWIICloolldo ...,.Y

tidB ~~6MI41'.M41K~OoiUOIMflot'OtiPIIOIOin....V

Figura 9.42. Página principal de BLAST

Seleccionamos BLASTN pinchando en el enlace n ucleotide blast y


aparecerá la ventana de introducción de los parámetros búsqueda. Una vez allí, el
paso siguiente es especificar los datos de la secuencia bajo estudio. Aunque aquí
pegaremos la secuencia en el área de texto, en general, existen tres métodos para
indicar la secuencia de anál isis:

,.. Escribi r el identificador GI, si la secuencia ya se encuentra en una base


de datos.

,.. S i la secuencia no está registrada en una base de datos (o se trata de una


se ncuencia en bruto), podemos subir el fichero FASTA de la rmsma o
pegarla en el área de texto, tal y como se hará en esta práctica.

,.. Introducir el accession de la secuencia.


162 BIOINFORMÁTICA: El AON AUN SO LOCLIC ©RA-MA

kAJl• ... -· .... - .,., ... ~...-- • ...,. _......,. • ...,. _._

~ntw «<-ooo. ~•N. f1N,Of f-ASTA wq,;•nc:oo(ot fl

..- - -
·~! •
~~~~to;Jo~or~c...
C«N:T~~Ilr~..cn~=
~~~~
~01:.\T.~~~~l=~~~.
:::r~"'n:~.~:tl"e.~~

OJ,IIPfO'(IniO '~~~~»1\.ll~~t'tf').f!~ y
Jobl.. _...,at
Cf11Mao,:.;:.~1.. il»f6Cr.•t(II.A!;l :•>~m t~t

E AIIOn fWO 01 IIIOf. .ttiii(IIIOtl ti


--·
"'
,_.
E•~
CN!fet l.A.oc'UOI'IW«<IJI""t ~''U OUaiO.Otlt• ~U)CU<J ~·1
t! M:ált l)':l.t)p)CU'IC".t....e.~ ••111•'•~-·
~ttr.<IN!l ~

o ~.:atlOb ....etiU~~>I)
Mollteltilll'llilr ~,Cd~ II"'IJbli;M;I

J CowO
-·-· ..·-- •

Figura 9.43. Identificación de secuencias con BLASTN

Además de la secuencia o un rango de la misma, ta mbién es posible


especificar otros parámetros. En la sección C hoose Search Set, se puede restringi r la
búsqueda a un conjunto de datos concreto, como el geno m a humano o EST. Por otra
pa rte, la sección Progr am Selection permite escoger el a lgoritmo BLAST concreto
que se empleará para calcular e l alineamiento entre tres opciones:

,.- Megablast: está optimizado para secuencias con un a lto grado de similitud
(el 95% o más). Es la opción por defecto.

,.- Megablast d iscontin uo: u tiliza una semilla inicia l que ignora a lgunas
bases (permite no coinc idenc ias) y está pensado para co mparaciones de
secuencias pertenecientes a especies d istintas.

,.- BLASTN : es e l más lento y el que maneja grados de simi litud más bajos.

Dejaremos la opción por defecto (Megablast) y al fina l de la práctica


repetiremos e l aná lisis pa ra observar los resu ltados. Completados todos los
pa rámetros de búsqueda, pulsamos e l botón BLAST N para obtener los resultados.
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 163

La Figura 9.44 muestra los resultados que obtiene BLASTN y que se dividen
en tres grandes partes: cabecera, gráficos, lista de coincidencias y alineamientos.

~ f«mUooi:...!C SnrSr-n,Sb*7·u . , ....,.lr'lladtcm


A-1

liJO JOl5!1l •V0!5(lJOr~' on 06·06 1 4 ~» 0111


q_.¡ l O ld~ l
·- o..~ . ....._ "'
~Ion ~· l>ewtMion "'U<i«~ <or.tcDon l ...l
..-a... ,..,,. rw.,doo;c ~ PI'OI)r - tltASTN ¡ 110• loo ~
q ...,.l....p;h , ....

oo.. . ,~ •s•· rt-s. . .,1 r •.., w~ • !f ·;~ •P·• .. .. " .... " ''"··lh
®<;r.phlc Summ:uy
@ OJtSdQt!OO!

® AI!somtnJt

. , .....

Figura 9.44. Informe de resultados de BLASTN

En la cabecera de l informe de salida (ver Figura 9.45) encontramos


información específica del program a (versión, compi lac ión, fecha , etc.) y una lista
de referencias científicas que deben incluirse si se publica a lguna investigación que
utilice BLAST. Sin embargo, la información de la cabecera más importante pa ra
la identificación de la secuencia son los nombres de la secuencia y el de la base de
datos.

• IICIWIIl.ASII . . . . ~,~~ · IIJSil.IVOU


'
EAu..~ SM..St«U!-SI.:.•r<liU " ~~"-'~~».. •O.&od
Anoniom1

lliO [AlShil1'o0l~(&IW'e' CIA 06-<16 t.i 32 - )


~10 k'tS'>PSI ()M¡~~ l U . . flf
o-;rlpt. . . .!.JlOtVIt;> l OoMo'lptllon K.od_.. <IOCoor.'Don (rt)
~le-"'" ~IOIS ""01- IRASI"' l .2.29+ Yl..QII9J)
()uoetv leooollo 1.;4

.,.""".... . """•""·QMo'
.._
l" t1Sl · ~
........... OI()).o-.,...
··- ~
~-. ,......_. . ~ . (_...........m.~o.~r...-d••""Siho"~ ~·· ........_ •...,........... ~ ~ :;,...,..· ........ QI

Figura 9.45. Cabecera BLASTN

La segunda parte de la página de resultados propo rc iona una vista gráfica


(ver Figura 9 .46) de las coincidenc ias encontradas en la base de datos y del grado
de similitud con cada una de ellas. La secuencia bajo estudio se representa como un
164 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

conju nto de líneas gruesas e n la parte supe ri or de la figura, justo bajo la clave del
código de co lores, mientras q ue las coincidencias encontradas en la base de datos
apa recen justo debajo, de tal ma nera q ue la más parecida oc upa la posición superior.

'"'
QII@I'Y u) 'tl!m.)t ~Sf,N"- f'r
~f'\J~Jor! AI'IOr'W!IIl l)ll:S(rfi=(O. r.'UCJeol;~ c»>t<tion (ni)
~ 1.,-pt tu:ldt aod Pfoogtoi• a.ASrn 1.1.»• · ~
QlwtV • .-.,!h , ,...

e c,..ehic; Summary

Q~· ··v

1~0
1
' '
ooo '
·100

Figura 9.46. Resumen gráfico de las coincidencias con la base de datos

Si se mueve el ratón por la g ráfica, se va mostrando la secuencia con la que


existe co incidencia en ese fragme nto de la secuencia bajo estudi o. La interp retación
de la gráfica es senci lla. El color roj o significa un alto g rado de co inc idenc ia entre
la secuencia registrada en la base de datos y la secuencia bajo estudio; si el color es
rosa, la coincidencia es moderadamente alta, mientras que un color verde indica que
es una coincidencia poco significativa. Los valores más bajos so n e l azul y el negro.
Fina lmente, si se pi ncha e n la barra d el gráfico, BLASTN muestra e l a lineamiento
correspo nd iente a la secuencia asociada al área en que se hizo clic.

La siguiente secció n del informe de resultados es la q ue contiene la


informaci ó n detallada de las coincide ncias con las secuencias registradas en la base
de datos de nucleótidos o hit lis/ (ver Figura 9.47). BLAST o rde na las co incidenc ias
calc ulando una medida estadística de similitud llamada E-value (va lor esperado).
Cuanto más bajo es e l valor de E , menos significativa es la coincidencia. De la misma
mane ra, un alto valor de E indica que las secuencias han evolucio nado de un ancestro
co mún (secuencias ho mólogas).
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 165

(t)Qppl!!t Su!Wf!.!!Y
€ O.•u1ftlon• '

--~~~
Selttt ~ &::1: Selocto4 o

-.... o
¡jo~.~.,.._

urs m~ 1COI4 oo ,, ..,.,.


ft
a
a
~lilh"s.Mé..t tlL!t~l .t.· '-ll'!'~~~ ll

tlU\11 ••w ll!!::mwct n ..,.vn,ar;u: ut'""""'W'*


'»" .~. . ,,.7919'!-
1!1 ...., ........,lQ•• •@MI 2 l
u. """tlt+)m" <P"U"' .. :l!. . .

_...,..CM tp<li!!..W.I!tf•!I!II!Uoal!thf2iqot<t tif!l


13~

U">~

t»t
:m
Ul4 , . .
Ul.t Wfo

'*
tn~
~
,., u
00
00

00 --....
t~ ?nilC..I
..::m::o:u H
liiOut•a

'"' """""
..,_.....,
O f'Mit?Jbltle•JW.II!_m!ln)l.lh!.«"r,<o-w.= !:M~ IU t ~ 00
"' '"' "'-'
,;,.
ID tir.III!Jft~ Ul'ttm) •.ll.bl'n.at~~.1. . . .)11<!liC"'· •III~Ct"' IW'ft.t'!h¡.»12!~ IZ~) 9'7'\
'311 1201 1«114 fO
11tt ntJ tn. oo
9R
... r.;~('.;J

~mt!a1

1'1 p..w,.....,..... .,... _ r t ( ¡ ! ...... G!Q!Hilo<!'!t 11r? nl't 1:o1o u


"" """"
'"
....
~_!~

,.. .,.,.,
tCII !NI 11" 00 1' . ........ '
Ott••••..,~ ... ~64'00

l'l~~~ lU ZU lt'lt. )tU "'"" U'IUt 1


1M 1~ 1~ lt.SS. t1S 14UUU
us ~~ ,. So.2f; ..... 1M~'

us '" ~ ~ *"' '"'~'~-·

Figura 9.47. Coincidencias en la base de datos

A co ntinuación, se encuentra la secció n de alineamientos, verdadero corazón


de l informe (ver Figu ra 9.48).
~~~ .. GROd" O'~
~ gcc~ ..~ precur~ (tiS) ~· tomoktt cñ
....
~eOgMYJll'SfO !6YIH4'") l~ ll tl -loo•OI""'Io....~ 1


!l7S bU(1 .:.:01
Oa:y t
a.tet tns
~· --toe~--­
eny., ..• ._,.,.....,...._ -~ E
~•Y 41 ~~~:-::~cr.o~~~-:~
1 1!1 HUI! 111 1111111111111111 111 1 11 1 1 1111111111
$l!Jr. n.as ~(.Cf.:r~:cr::.:rer=:.=cr.:e:.co.l :u.o:ct~ ..
o._,n' ll:. N:'l~~~in":''O~G«'"~~(;l;t'A l:O
11 1111 1111!1 llllllllllllllllllllllllll 1111 111111111111
=1~=n=-:a.t=t'le::::-~~:=:a=
l'~'
~~~~ ..~~:~.;-:~~«::.: :so
l. 11111111111 11111111111111111111 1 111 1
11111111111 111111
S&H't ltH ~.MC'J.I 3041~tocrtGICDCICI:II:t'TGCr:.t u::

(l-JJO:y tH

"'.Ir;~. U~$
~c::M!~~lOXJC
11111111111111 11 11 ; 1111111111 UIIIHIII 1
~~"~"l'OCIX>OQq.~te~"'»C
111111; 11 ll lfl ll l
"'
lt'4
OatY
~,~.
n~
!»)
lWI~~'l'<Tl'l'MCL~~~
1 111111!1111 11 11 11111111111111111111 1
~1~~-=lol.=..-=t=)!'lCUu.r.Jt'l~»:.ner=:e=
11111111111111111 "'
O..tty IH JA.~:c~··w~·A.~!l.r:eo.:o.:.ttt:"~..xeett
n " " " " " 1111 1111111111111111 " " 111 '11111 1 111111
A>J""- au ~rror-···~--l~~rrr: ~..:.:o:Te

O.lottY 1t1 <:Oo:X;Ttt1.\tmt.loC.\TtiAl'T!('tC,l,f~t<XX:IC-!Q) , }.o.»':t')O)~t


11 I I U l l l l l l l l l l l l l l i l l l l l l l l l l l l l l l l l l 111 1 <1 111 11 111 11 1
~'"" ltt& ~Amrt'.ltoMt'IATT;Q!;;I,.~-r«<:J~~

Q-..e:y u~ pq:;v.or.n-~..,.,~ ......~,.. =o... =-:o<:~:~;'~~


sweo; nu ~"'" ~~~~ ..
....... 111111 111111111111111 1111111111 1 111 11111111111111

~ry u~ «Cr.l.::e«J.r.~~Co:leet~

,.,, <"t 111111111111 11 11 11 •111111111111111 1 111 1 111 111111 11 111 11 1


'"
OJ~O' u~
21-J't
na

:rn
«:er.T,\~~~~

A«"'liQC'~.Utct19CQ:IOQtctl.@'i-'CID:f~
1 1111 111111 111 1111111111111111111111
.-:l~:~...:.e.:.Y.IT~:o:-~t(í.Uo)
11111111111 111 11 1
...
~~:-r u~ Q.~~~~~·sr;c;:rtmJ~~

~)el. UM ~~~~~~
~:y )tl
~~'"'
1< 111 111111.111111111
'"'' r;~. Ut6 ~.,,,e

Figura 9.48. Alineamientos con las coincidencias en la base de datos


166 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

Cada alineamiento va precedido po r el identificador de la secuencia, la línea


de definición completa y la longitud del fragmento de la secuencia que coincide
en número de aminoácidos (ver Figura 9.49). Es la linea de definición en la que
apa recen algunos datos básicos como el identificador, el va lor E y la hebra.

8 AI!qnn!ents

0 0o.oeobod .. GcaDid ~
Gorla vorta n:;IAín PI'«~~""..« (INS) ~. ecrup~ eeh:
....
~o:>g'II,.WUH•.!e 114Y•l7d61:1 ·- ~1-16 -0110-.._ t

._ ........... ~·• •e- ...._ ~


lltlllt\'4 l idOn'lll>ltoa

- ' -' ............ c.- $1.- Glg¡. . ··--~ OC"C «U*'


II; ?IOc!(cr ~!o;.....t - - <·: r.to"'
1)1Sb~-t!U1 00 14<Vf& l j l~} (l{J.U(~) ~~

-.,...~ : • J• c~..x-~~~~~tü.:X: •'••


~.:U'I 'l ~GC"Ml~::;-:~;1~~~..::~ ~:>:
111111111 11111 111 l lll 111 111111111111111.1!1 111!111 ! 11
.,.:.. ti-» ~~~~"TttC::IOCCIC ··~
~ry U'l TmGTGIOOXX:l~!~;~:~~~~ l tO
'"" "' " f " 1 " """"' " "" " .. 1 • '

Figura 9.49. Línea de definición para cada coincidencia

A continuación, se encuentra la puntuación, el valor-E, los residuos idénticos


del alineamiento (Identities) y el número de espacios en e l alineamiento (Gaps).
Finalmente, encontramos la secuencia bajo estudio en la patte supe ri or de cada
a linea miento y la secuencia de referencia enco ntrada en la base de datos debajo y
etiquetada como Sbjct. Los números a la derecha y a la izquierda indican la posición
de l nucleótido (o e l am inoácido, si fuera una secuencia proteica) en la secuencia.
Uno o más guiones (-) representan inserciones o borrados.

Existen regiones en las que la coincidencia parece conservarse, lo que


indica que los residuos correspondientes desempeñan un papel crítico para mantener
la estru ctura y/o función de la proteí na en cuestión. No obstante, una similitud
e levada en una región no permite concluir nada y toda hipótesis debe ser va lidada
experimenta !mente.

9.4 EDICIÓN DE ALINEAMIENTOS

Una vez que se ha generado el alineamiento múltiple, indenpendientemente


de la herramienta que se haya uti lizado para ello, lo más probable es que haya que
editar el fichero manualmente antes de poder reutiliza rlo. Esto no es, ni mucho
menos, una tarea trivial, ya que supone la inserción de huecos en un su bgrup o de
secuencias, el desplazamiento de var ias secuencias si multáneamente, etc.

Un aspecto importante en la edición de un a lineamiento es e l formato del


mismo. Desgraciadamente, la no existencia de un formato único es una ca racterística
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 167

consta nte de la Bioinformática por lo que, una vez más, nos encontramos ante la
disyuntiva de qué formato elegir. Aunque existen más, los formatos de alineamiento
más com unes so n el FASTA, el ALN , e l MSF y el PIR (si milar al FASTA pero con
una línea adicional para inc luir anotaciones).

Para la edición y publicación de alineamien tos utilizaremos Jalview (hup:/1


wwwJalview.org). Se trata de una de las herram ientas más potentes que existen por
la gran cantidad de funcionalidades que soporta y por su faci lidad de uso. Desde la
página web podemos elegir entre lan za r la ap licación completa (Jalview Desktop, que
es la misma que nos podernos instalar) o una versión ejecutable desde el navegador
web (Jalview Applet). En esta práctica, emplearemos la versión completa.

§ Jalview

Jt~<o-., •'"""~~..-.b.....,.,• ''"41"""• .."T""'-.,


~ ,....,"""....., _..,,.,.r,...
u.. tt,_""" oót ·~· ~~ .-~ "'""'
"'oth ~otc: lrtori MdjWIC.., (OI"',otl-tt~ ~ ~,, ~ fil«t Md . . . . fTO'"'(uW ,I!Ua..... ~ ...--.<-'1

""

-- .......

Figura 9.50. Página principal de Jalview

Aunque Jalview se utiliza on-line directamente desde la página


web de l proyecto, también es posible instalarlo en modo local. Las
instrucc iones están disponib les en http://wwwJalview.org

A l pinchar en el botón Launch J alview Desktop , aparece una ventana que


pregunta si desea mos descarga r (y ejecuta r) la aplicación.
168 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

+ •- ;..;...., P Oé·· ~~ · ii

~ Jalview
~-­
~-
---......-
...
...o llll lllrC).IJt

~--- ...-~
..... -- ----·-·-
.... ..
'"
.,
"-

Clm(ol-
1

Figura 9.51. Ejecución de Jalview

Co nfirmamos afirmativamente y aparecerá la ventana principal de Jalview.


Inic ialmente, se carga un fichero con un alinea miento de ejemplo, aunque en esta
práctica, por cuestiones de coherencia y continuidad, nos centraremos en el manejo
de los a lineamientos que hemos manejado hasta el momento.

Figura 9.52. Pantalla principal de Jalview


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 169

En pnmer lugar, obtendremos el fichero de ali neamiento ge nerado por


C lustaiO para dos secuencias que, en este caso, serán las que ya utili zamos en
la práctica de Dotlet y que se correspondían al ARN mensajero de Cftr de ratón
(accession NM _021 050.2) y su equi valente humano (NM_ 000492.3).

>gi 11160081791 ref 1NM_021050 . 21 Mus musculus cystic fibrosis


transmembrane conductance regulator (Cftr) , mRNA
AATTGGAAGCAAATGACATCACCTCAGGTCTGAGTAAAAGGGACGAGCCAAAAGCATTGACCTGG
TCCTGGATATCCAGATGTCGAGTCCAACCTGAATTTAGCCGAACACAGACCTCATTGCCTCACGG
AGACATCATGCAGAAGTCGCCTTTGGAGAAAGCCAGCTTTATCTCCAAACTCTTCTTCAGCTGGA
CCACACCAATTTTGAGGAAAGGGTACAGACACCACTTGGAGTTGTCAGACATATACCAAGCCCCT
TCTGCTGATTCAGCTGACCACTTGTCTGAAAAACTAGAAAGAGAATGGGACAGAGAACAAGCTTC
AAAAAAGAATCCCCAGCTTATCCACGCCCTTCGGCGATGCTTTTTCTGGAGATTCCTCTTCTATG
GAATTTTGCTATACCTAGGGGAAGTCACCAAGGCTGTCCAGCCTGTCTTGCTAGGAAGAATCATA
GCATCCTATGATCCAGAAAACAAGGTGGAACGTTCCATTGCCATTTACCTTGGCATAGGCTTATG
CCTTCTCTTCATTGTCAGGACACTGCTTCTTCACCCAGCTATTTTTGGCCTTCATCGCATTGGAA
TGCAGATGAGAACAGCTATGTTTAGCTTGATTTATAAGAAGACTTTAAAGTTGTCAAGCCGCGTT
CTTGATAAAATAAGTATTGGACAACTTGTTAGTCTTCTTTCCAACAACCTGAACAAATTTGATGA
AGGACTTGCCTTGGCACATTTTATATGGATTGCTCCTTTACAAGTGACTCTTCTGATGGGGCTTC
TCTGGGACTTGTTACAGTTCTCAGCCTTCTGTGGCCTTGGTTTACTGATAATCCTGGTTATTTTT
CAAGCTATCCTAGGGAAGATGATGGTGAAGTACAGAGATCAGAGAGCTGCAAAGATCAATGAAAG
ACTCGTGATCACATCAGAAATTATTGATAATATCTATTCTGTTAAGGCATATTGTTGGGAATCAG
CGATGGAGAAAATGATTGAAAACTTGAGAGAGGTGGAGCTGAAAATGACCCGGAAGGCGGCCTAT
ATGAGGTTCTTCACTAGCTCTGCCTTCTTCTTTTCAGGGTTCTTTGTAGTCTTTCTATCTGTGCT
TCCCTACACAGTCATCAACGGAATCGTCCTACGAAAAATATTCACAACCATTTCATTCTGCATTG
TCCTACGTATGTCAGTCACACGGCAGTTCCCCACTGCCGTACAGATATGGTATGATTCTTTTGGA
ATGATAAGAAAAATACAGGATTTCCTGCAGAAACAAGAGTATAAAGTACTGGAGTATAACTTAAT
GACCACAGGCATAATCATGGAAAATGTAACAGCATTTTGGGAGGAGGGATTTGGGGAATTACTGG
AGAAAGTACAACAAAGCAATGGTGACAGAAAACATTCCAGTGATGAGAACAATGTCAGTTTCAGT
CATCTCTGCCTTGTGGGAAATCCTGTGCTGAAAAACATCAATTTGAATATAGAGAAAGGAGAGAT
GTTGGCTATTACTGGATCTACTGGATCAGGAAAGACATCACTCCTGATGTTGATTTTGGGAGAAC
TGGAAGCTTCAGAGGGAATTATTAAGCACAGTGGAAGAGTTTCATTCTGCTCTCAATTTTCTTGG
ATTATGCCGGGTACTATCAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAGTACAGATATAA
GAGTGTTGTCAAAGCTTGCCAACTACAGCAGGACATCACCAAGTTTGCAGAACAAGACAACACAG
TTCTTGGAGAAGGTGGAGTCACACTGAGTGGAGGTCAGCGTGCAAGGATTTCTTTAGCAAGAGCA
GTATATAAAGATGCTGATTTGTACCTATTAGATTCCCCTTTTGGATATCTAGATGTTTTTACTGA
AGAACAAGTATTTGAAAGCTGTGTTTGTAAATTGATGGCCAACAAAACTAGGATTTTGGTTACAT
CTAAAATGGAACACTTAAGGAAAGCTGACAAAATACTAATTTTGCATCAGGGCAGTAGCTATTTT
TATGGGACATTTTCTGAGCTACAAAGTCTACGTCCAGACTTCAGTTCGAAACTCATGGGGTATGA
TACTTTTGACCAGTTTACTGAGGAAAGAAGAAGTTCAATTCTAACTGAGACCTTACGCAGGTTCT
CAGTAGACGATTCCTCTGCCCCGTGGAGCAAACCCAAACAGTCGTTTAGACAGACTGGAGAGGTG
GGAGAAAAAAGGAAGAACTCTATTCTAAATTCATTCAGCTCTGTAAGGAAAATTTCCATTGTGCA
AAAGACTCCATTATGTATCGATGGAGAGTCTGATGATCTCCAAGAAAAGAGACTGTCCCTAGTTC
CGGATTCTGAACAGGGGGAGGCTGCTCTGCCGCGCAGCAACATGATCGCCACCGGCCCCACATTT
CCAGGCAGAAGAAGACAGTCTGTTTTGGATCTGATGACGTTCACACCCAACTCAGGCTCCAGCAA
TCTTCAGAGGACCAGAACTTCTATTCGAAAAATCTCCTTAGTCCCTCAGATAAGCTTAAATGAAG
170 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

TGGATGTATATTCAAGGAGATTATCGCAAGATAGCACACTGAACATCACTGAAGAAATTAACGAA
GAAGATTTAAAGGAGTGTTTTCTTGATGATGTGATCAAGATACCCCCGGTGACAACATGGAACAC
ATACCTACGATATTTTACTCTCCATAAAGGCTTACTGCTAGTGCTGATTTGGTGCGTACTGGTTT
TTCTGGTTGAGGTGGCTGCTTCTTTATTTGTGTTATGGTTGCTTAAAAACAACCCTGTTAACAGT
GGAAACAATGGTACTAAAATTTCCAATAGCTCCTATGTTGTGATCATCACCAGTACCAGTTTCTA
TTATATTTTTTACATTTACGTGGGAGTGGCTGACACTTTGCTTGCCCTGAGCCTCTTCAGAGGTT
TGCCGCTGGTGCATACGTTAATCACAGCATCAAAAATTTTGCACAGGAAAATGTTACACTCCATT
CTTCACGCCCCTATGTCGACCATCAGCAAGCTGAAAGCAGGTGGGATTCTTAACAGATTCTCCAA
AGATATAGCAATTTTGGATGACTTTCTGCCTCTTACCATTTTTGACTTCATTCAGTTGGTGTTCA
TTGTGATTGGAGCTATAATAGTCGTCTCGGCATTACAACCCTACATCTTCCTAGCAACGGTGCCA
GGGCTAGTAGTCTTTATTTTACTGAGGGCCTACTTCCTTCATACAGCACAGCAGCTCAAACAACT
GGAATCTGAAGGCAGGAGTCCAATTTTCACCCACCTTGTGACAAGCTTAAAAGGACTCTGGACAC
TTCGAGCCTTCCGACGCCAGACTTACTTTGAAACTCTGTTCCACAAAGCTCTGAATTTGCACACT
GCCAACTGGTTTATGTATCTGGCAACCTTGCGCTGGTTCCAAATGAGAATAGACATGATATTTGT
CCTCTTCTTCATTGTTGTTACCTTCATCTCCATTTTAACAACAGGTGAAGGAGAAGGAACAGCTG
GTATTATTCTAACTTTAGCTATGAATATCATGAGTACTTTGCAGTGGGCTGTGAACTCAAGCATT
GATACAGATAGCTTGATGCGATCTGTGAGCAGAGTGTTTAAGTTTATTGATATACAAACAGAAGA
AAGTATGTACACACAGATAATTAAAGAACTACCTAGAGAAGGATCATCTGACGTTTTAGTCATTA
AGAATGAGCATGTGAAGAAAAGTGATATCTGGCCCTCTGGAGGCGAAATGGTTGTCAAAGACCTT
ACTGTGAAATACATGGATGATGGAAATGCCGTATTAGAGAACATTTCTTTTTCAATAAGTCCTGG
ACAGAGGGTGGGGCTCTTAGGAAGAACTGGATCAGGAAAAAGTACTTTGCTTTCAGCATTTTTAC
GAATGTTGAACATTAAAGGTGATATAGAGATTGATGGTGTCTCATGGAATTCAGTGACCTTACAA
GAATGGAGGAAAGCTTTCGGAGTGATAACACAGAAAGTATTTATCTTTTCTGGAACATTCAGACA
AAACCTGGATCCCAATGGAAAATGGAAAGATGAAGAAATATGGAAAGTTGCAGATGAGGTTGGAC
TCAAGTCTGTAATAGAGCAGTTTCCTGGACAGCTCAACTTTACCCTTGTGGATGGGGGTTATGTG
CTAAGCCATGGCCATAAGCAATTAATGTGCTTGGCCCGATCAGTTCTCAGTAAGGCCAAGATCAT
ACTGCTTGATGAGCCCAGTGCCCATCTAGACCCCATAACATACCAAGTCATTCGACGAGTTCTAA
AACAAGCCTTCGCTGGTTGCACAGTCATCCTCTGTGAACACAGGATAGAAGCGATGTTGGATTGC
CAGCGATTTTTGGTCATAGAAGAGAGCAATGTCTGGCAGTACGACTCCCTTCAGGCACTTCTGAG
TGAGAAGAGTATCTTCCAGCAGGCCATTAGCTCCTCGGAAAAGATGAGGTTCTTCCAGGGCCGCC
ACTCCAGCAAGCACAAGCCTCGGACGCAAATTACTGCTCTGAAAGAGGAGACAGAAGAAGAAGTT
CAAGAAACCCGTCTCTAGTGCTGGGATGCTGAGGAAGCAACTCAGTGCACTGAGTCCATTCCCAG
AACCCATGCAGAATGAAAAAAGCCAGGCATTTCCCATGCTTCTAACCCCAGTGCTGGGGACACAG
AGACAGGTGGATCCCTGGGGCTCTGTGGCAAGTGATCCTAGCCCACAAAGAGAGTTCCAGGCTGG
GCACCTGAGGGACAATACCTGTGGATATACTCTTGCTTCCACATGCAAGTACATATACACATGCA
TGCACATTAGTGGACATACACACAGAAAAGCAAAGAAGAAGGAAAGAGGGAAGAAAATAGTGCAA
ATAATTGCAAAACGATCATGTATGGAGTCTGCTCATGGACTTAGAGGAGGTGAACTCTACTACCT
GTGCCTTTGAAAGAAGGGTGAAGCCTGCGACTTGCTCTTTAAGAGACTGTTTTGGAAGAGAGTTC
AAAAACGTTCATATGGGTATGGGTAACTGACTTTCCAGCAGTAGTCAAATTGTTTGAACTTCAGA
TAGTTGATAATGACCACTTGTGTATTGCAAGGCAGATTTTTCTGAAAACATTTGCCCCCTAATAG
TAGCTGAAAAAGCAGCTATAAATGCCAACCAGGTTAGTCATTCGGCTTATTGTTCAGTACAGCTG
GTTAATTTGCATTATTGAAGAACTGAAATTATAGTGCTTAGATATAGGACAAAGTAAAGAGAACT
AAAAACAGTGTCTTATATAACTCAAAGCCCAACTTACTTTCCTCTAAGATATGTATTGCCTTCTA
TACATTGTCTGCCCCATTCCAAGCAAATGTTAGAATATTATACAAAATACTGGGTGGTATTGATT
GA.AAGATGCCCGACATCTGGTGATCTAGTAACCCATCAGGATT AAGGATA TCCAGGTCTTGGAAA
TTAAGGTTAAGACCATCTAGCCTTACTACCGTACAGCTAAACATTCTTATTACCAGAATAAGACC
TAGGAAAAGAACTGTTTCAGTCCCATAAAGTGGCCTGGATAATTTCCTTGATATGGAAATCGACA
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 171

CACTTATGTTCCCAGAAAGCAACAGATCTTTAAGACTTCTGAAGTGAAGGAAGGTTGTGTTAGTG
CAAACTAGTGCAGCCCAGTGCCAGGTCCAGGAGTTAACATGTAGACAGGCCATGGACTGTGTGGG
TAGATGCTCATGGAAATGTGCAGTAGTATGTTCATGTGCTCTCAGCTAGCTGTGTGTACTTCAAA
CTGTCTCCACAGAGTTGTTGGGGAGACACTCTGAAAAAGAATTAATTGTGAATTAGTTTTATATA
CTTTGTTTTATAATTTGTGATGCAAATGAAAATTTCTCTGGGAAATATTTATTTTAGTAATAATG
TTTCAAACTCATATATAACAATGCTGTATTTTAAGAATGATTACATAATGACTTATATTTGTATA
AAATAATTTTTATATTTGAAATGTTAACTTTTTATAGCACTAGCTATTTTAAAACAGGGGAGTGA
GGAGGACAGGGATGATAAGGATCATTCAACTTCATGTTGTGAAGACGAGCTGATGTAAATCTTGT
ACCCATCTGTGTGGTTCTCAGACAACACATGCTCTCTTTTAATGCAGCTTTGAAGAAGATGGTAC
CAAAGGTTAAGACGGCCCCCTGATGGGCACATCAACTTCTGAACTGCAAACTAAGCTTTAGAGGA
ATGTATTATATTTATTACTGTAATAGAATATCATGTGTCAATAAAATCCTTTTATTTGTGTGAAA
>gil904213121refiNM_ 000492 . 3 1 Homo sapiens cystic fibrosis
transmembrane conductance regulator (ATP- binding casset t e
sub-family C, member 7 ) (CFTR) , mRNA
AATTGGAAGCAAATGACATCACAGCAGGTCAGAGAAAAAGGGTTGAGCGGCAGGCACCCAGAGTA
GTAGGTCTTTGGCATTAGGAGCTTGAGCCCAGACGGCCCTAGCAGGGACCCCAGCGCCCGAGAGA
CCATGCAGAGGTCGCCTCTGGAAAAGGCCAGCGTTGTCTCCAAACTTTTTTTCAGCTGGACCAGA
CCAATTTTGAGGAAAGGATACAGACAGCGCCTGGAATTGTCAGACATATACCAAATCCCTTCTGT
TGATTCTGCTGACAATCTATCTGAAAAATTGGAAAGAGAATGGGATAGAGAGCTGGCTTCAAAGA
AAAATCCTAAACTCATTAATGCCCTTCGGCGATGTTTTTTCTGGAGATTTATGTTCTATGGAATC
TTTTTATATTTAGGGGAAGTCACCAAAGCAGTACAGCCTCTCTTACTGGGAAGAATCATAGCTTC
CTATGACCCGGATAACAAGGAGGAACGCTCTATCGCGATTTATCTAGGCATAGGCTTATGCCTTC
TCTTTATTGTGAGGACACTGCTCCTACACCCAGCCATTTTTGGCCTTCATCACATTGGAATGCAG
ATGAGAATAGCTATGTTTAGTTTGATTTATAAGAAGACTTTAAAGCTGTCAAGCCGTGTTCTAGA
TAAAATAAGTATTGGACAACTTGTTAGTCTCCTTTCCAACAACCTGAACAAATTTGATGAAGGAC
TTGCATTGGCACATTTCGTGTGGATCGCTCCTTTGCAAGTGGCACTCCTCATGGGGCTAATCTGG
GAGTTGTTACAGGCGTCTGCCTTCTGTGGACTTGGTTTCCTGATAGTCCTTGCCCTTTTTCAGGC
TGGGCTAGGGAGAATGATGATGAAGTACAGAGATCAGAGAGCTGGGAAGATCAGTGAAAGACTTG
TGATTACCTCAGAAATGATTGAAAATATCCAATCTGTTAAGGCATACTGCTGGGAAGAAGCAATG
GAAAAAATGATTGAAAACTTAAGACAAACAGAACTGAAACTGACTCGGAAGGCAGCCTATGTGAG
ATACTTCAATAGCTCAGCCTTCTTCTTCTCAGGGTTCTTTGTGGTGTTTTTATCTGTGCTTCCCT
ATGCACTAATCAAAGGAATCATCCTCCGGAAAATATTCACCACCATCTCATTCTGCATTGTTCTG
CGCATGGCGGTCACTCGGCAATTTCCCTGGGCTGTACAAACATGGTATGACTCTCTTGGAGCAAT
AAACAAAATACAGGATTTCTTACAAAAGCAAGAATATAAGACATTGGAATATAACTTAACGACTA
CAGAAGTAGTGATGGAGAATGTAACAGCCTTCTGGGAGGAGGGATTTGGGGAATTATTTGAGAAA
GCAAAACAAAACAATAACAATAGAAAAACTTCTAATGGTGATGACAGCCTCTTCTTCAGTAATTT
CTCACTTCTTGGTACTCCTGTCCTGAAAGATATTAATTTCAAGATAGAAAGAGGACAGTTGTTGG
CGGTTGCTGGATCCACTGGAGCAGGCAAGACTTCACTTCTAATGGTGATTATGGGAGAACTGGAG
CCTTCAGAGGGTAAAATTAAGCACAGTGGAAGAATTTCATTCTGTTCTCAGTTTTCCTGGATTAT
GCCTGGCACCATTAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAATATAGATACAGAAGCG
TCATCAAAGCATGCCAACTAGAAGAGGACATCTCCAAGTTTGCAGAGAAAGACAATATAGTTCTT
GGAGAAGGTGGAATCACACTGAGTGGAGGTCAACGAGCAAGAATTTCTTTAGCAAGAGCAGTATA
CAAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATACCTAGATGTTTTAACAGAAAAAG
AAATATTTGAAAGCTGTGTCTGTAAACTGATGGCTAACAAAACTAGGATTTTGGTCACTTCTAAA
ATGGAACATTTAAAGAAAGCTGACAAAATATTAATTTTGCATGAAGGTAGCAGCTATTTTTATGG
GACATTTTCAGAACTCCAAAATCTACAGCCAGACTTTAGCTCAAAACTCATGGGATGTGATTCTT
TCGACCAATTTAGTGCAGAAAGAAGAAATTCAATCCTAACTGAGACCTTACACCGTTTCTCATTA
172 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

GAAGGAGATGCTCCTGTCTCCTGGACAGAAACAAAAAAACAATCTTTTAAACAGACTGGAGAGTT
TGGGGAAAAAAGGAAGAATTCTATTCTCAATCCAATCAACTCTATACGAAAATTTTCCATTGTGC
AAAAGACTCCCTTACAAATGAATGGCATCGAAGAGGATTCTGATGAGCCTTTAGAGAGAAGGCTG
TCCTTAGTACCAGATTCTGAGCAGGGAGAGGCGATACTGCCTCGCATCAGCGTGATCAGCACTGG
CCCCACGCTTCAGGCACGAAGGAGGCAGTCTGTCCTGAACCTGATGACACACTCAGTTAACCAAG
GTCAGAACATTCACCGAAAGACAACAGCATCCACACGAAAAGTGTCACTGGCCCCTCAGGCAAAC
TTGACTGAACTGGATATATATTCAAGAAGGTTATCTCAAGAAACTGGCTTGGAAATAAGTGAAGA
AATTAACGAAGAAGACTTAAAGGAGTGCTTTTTTGATGATATGGAGAGCATACCAGCAGTGACTA
CATGGAACACATACCTTCGATATATTACTGTCCACAAGAGCTTAATTTTTGTGCTAATTTGGTGC
TTAGTAATTTTTCTGGCAGAGGTGGCTGCTTCTTTGGTTGTGCTGTGGCTCCTTGGAAACACTCC
TCTTCAAGACAAAGGGAATAGTACTCATAGTAGAAATAACAGCTATGCAGTGATTATCACCAGCA
CCAGTTCGTATTATGTGTTTTACATTTACGTGGGAGTAGCCGACACTTTGCTTGCTATGGGATTC
TTCAGAGGTCTACCACTGGTGCATACTCTAATCACAGTGTCGAAAATTTTACACCACAAAATGTT
ACATTCTGTTCTTCAAGCACCTATGTCAACCCTCAACACGTTGAAAGCAGGTGGGATTCTTAATA
GATTCTCCAAAGATATAGCAATTTTGGATGACCTTCTGCCTCTTACCATATTTGACTTCATCCAG
TTGTTATTAATTGTGATTGGAGCTATAGCAGTTGTCGCAGTTTTACAACCCTACATCTTTGTTGC
AACAGTGCCAGTGATAGTGGCTTTTATTATGTTGAGAGCATATTTCCTCCAAACCTCACAGCAAC
TCAAACAACTGGAATCTGAAGGCAGGAGTCCAATTTTCACTCATCTTGTTACAAGCTTAAAAGGA
CTATGGACACTTCGTGCCTTCGGACGGCAGCCTTACTTTGAAACTCTGTTCCACAAAGCTCTGAA
TTTACATACTGCCAACTGGTTCTTGTACCTGTCAACACTGCGCTGGTTCCAAATGAGAATAGAAA
TGATTTTTGTCATCTTCTTCATTGCTGTTACCTTCATTTCCATTTTAACAACAGGAGAAGGAGAA
GGAAGAGTTGGTATTATCCTGACTTTAGCCATGAATATCATGAGTACATTGCAGTGGGCTGTAAA
CTCCAGCATAGATGTGGATAGCTTGATGCGATCTGTGAGCCGAGTCTTTAAGTTCATTGACATGC
CAACAGAAGGTAAACCTACCAAGTCAACCAAACCATACAAGAATGGCCAACTCTCGAAAGTTATG
ATTATTGAGAATTCACACGTGAAGAAAGATGACATCTGGCCCTCAGGGGGCCAAATGACTGTCAA
AGATCTCACAGCAAAATACACAGAAGGTGGAAATGCCATATTAGAGAACATTTCCTTCTCAATAA
GTCCTGGCCAGAGGGTGGGCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCT
TTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATAAC
TTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACAT
TTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAAATATGGAAAGTTGCAGATGAG
GTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGG
CTGTGTCCTAAGCCATGGCCACAAGCAGTTGATGTGCTTGGCTAGATCTGTTCTCAGTAAGGCGA
AGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGA
ACTCTAAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCT
GGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACGATTCCATCCAGAAAC
TGCTGAACGAGAGGAGCCTCTTCCGGCAAGCCATCAGCCCCTCCGACAGGGTGAAGCTCTTTCCC
CACCGGAACTCAAGCAAGTGCAAGTCTAAGCCCCAGATTGCTGCTCTGAAAGAGGAGACAGAAGA
AGAGGTGCAAGATACAAGGCTTTAGAGAGCAGCATAAATGTTGACATGGGACATTTGCTCATGGA
ATTGGAGCTCGTGGGACAGTCACCTCATGGAATTGGAGCTCGTGGAACAGTTACCTCTGCCTCAG
AAAACAAGGATGAATTAAGTTTTTTTTTAAAAAAGAAACATTTGGTAAGGGGAATTGAGGACACT
GATATGGGTCTTGATAAATGGCTTCCTGGCAATAGTCAAATTGTGTGAAAGGTACTTCAAATCCT
TGAAGATTTACCACTTGTGTTTTGCAAGCCAGATTTTCCTGAAAACCCTTGCCATGTGCTAGTAA
TTGGAAAGGCAGCTCTAAATGTCAATCAGCCTAGTTGATCAGCTTATTGTCTAGTGAAACTCGTT
AATTTGTAGTGTTGGAGAAGAACTGAAATCATACTTCTTAGGGTTATGATTAAGTAATGATAACT
GGAAACTTCAGCGGTTTATATAAGCTTGTATTCCTTTTTCTCTCCTCTCCCCATGATGTTTAGAA
ACACAACTATATTGTTTGCTAAGCATTCCAACTATCTCATTTCCAAGCAAGTATTAGAATACCAC
AGGAACCACAAGACTGCACATCAAAATATGCCCCATTCAACATCTAGTGAGCAGTCAGGAAAGAG
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 173

AACTTCCAGATCCTGGAAATCAGGGTTAGTATTGTCCAGGTCTACCAAAAATCTCAATATTTCAG
ATAATCACAATACATCCCTTACCTGGGAAAGGGCTGTTATAATCTTTCACAGGGGACAGGATGGT
TCCCTTGATGAAGAAGTTGATATGCCTTTTCCCAACTCCAGAAAGTGACAAGCTCACAGACCTTT
GAACTAGAGTTTAGCTGGAAAAGTATGTTAGTGCAAATTGTCACAGGACAGCCCTTCTTTCCACA
GAAGCTCCAGGTAGAGGGTGTGTAAGTAGATAGGCCATGGGCACTGTGGGTAGACACACATGAAG
TCCAAGCATTTAGATGTATAGGTTGATGGTGGTATGTTTTCAGGCTAGATGTATGTACTTCATGC
TGTCTACACTAAGAGAGAATGAGAGACACACTGAAGAAGCACCAATCATGAATTAGTTTTATATG
CTTCTGTTTTATAATTTTGTGAAGCAAAATTTTTTCTCTAGGAAATATTTATTTTAATAATGTTT
CAAACATATATAACAATGCTGTATTTTAAAAGAATGATTATGAATTACATTTGTATAAAATAATT
TTTATATTTGAAATATTGACTTTTTATGGCACTAGTATTTCTATGAAATATTATGTTAAAACTGG
GACAGGGGAGAACCTAGGGTGATATTAACCAGGGGCCATGAATCACCTTTTGGTCTGGAGGGAAG
CCTTGGGGCTGATGCAGTTGTTGCCCACAGCTGTATGATTCCCAGCCAGCACAGCCTCTTAGATG
CAGTTCTGAAGAAGATGGTACCACCAGTCTGACTGTTTCCATCAAGGGTACACTGCCTTCTCAAC
TCCAAACTGACTCTTAAGAAGACTGCATTATATTTATTACTGTAAGAAAATATCACTTGTCAATA
AAATCCATACATTTGTGTGAAA

Figura 9.53. Secuencias bajo estudio

Una vez generado e l fichero de alineamiento, lo descargaremos y lo


guardaremos en local.

<: D ·" "" P oé •* ~ · - =


-
Jnpo.¡' ro·tl' W~·~ ~-(""Ao: ~ 11dp &. D1XU11"1('1ot.fu:m -; 5/"l'J:" : . . ·~~!ii)(k

Toob , r.lo.dl~ ~ """r-='•t :. 0...~.. ~


~ l o; 1CY tOO Cl~.o~I.JIO·I201•1 CfiOSHJ.35-135-()43
k·· :SGI ._-.J, SVW~~&IV l'fl..tooel'ltóe T~e ~~OIU14
-4~11-P'J
..
,1 .u.o-.u•t¡ror
91
~cao-~.J,
,;unuu., ~t ll'l.o:~;u: .~•
AA.rl'"'''t..,lrc.t.:l~ftT"~:-~r
~~~~=)d')' ••· •~~C»r .

r. ~uocn•tuu ,.,_~::.;u.: ·--~~.a..'"W--.17.~'"':~"1": • •


9' tlO}lJUIH ~!I)I.O:f-tt:.J =~rl.tl:te:r:G:.O.r:~~-····.ec::~

<l lti i"X~t'Jlrt! I~..Jtl(<$0.l• G'lWl'~~OCT.M~G~


r. •:e:: ~~: t:t :1SII_o:c at: . ¡ .t:w.~utz.«l.U.::v.:-:::rn:l.~01..
'"C7
...u.u..t."i

~~~~»:1t..t..~
OQ.Uélel.l~~~'X''l"''''' :'«TW('TO~!Oe«:

<J! l t•«ll" , . . .: ~-c:~o-•o. >1 reo:.c-.;~,rt.err:nnGQQ,t:.x'le-.:c·u,r~:nr.ca~.l!CO~t


11 •:Hl,I U •• fl lk.O!tt•:. l• !~!!¡! : :::?.~~==-"!•::?.~:~~:~:~~

Figura 9.54. Descarga del fichero de alineamiento

A continuación, en e l menú Archivo de Jalview, seleccionamos la opción de


cargar el fichero desde un fichero local (el que acabamos de guardar):
174 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

'!J w-..UI I
ie>eh y_ , n..rp, \'hlo6ew

•• "f

........,-c...... ,,

Figura 9.55. Carga de un fich ero local en Jalview

Una vez seleccionado e l fichero, Jalview mostrará una representación gráfica


del alineam iento múltiple (ver Figura 9.56):

.
C:\V:e:~\darelrnar.IJPVNH\Oe~bcp\clu~:lo·f2J140SOO·OSS43S .C).IrJ.-45098~11· pg.du~~

t11 ~ E<*t SeiKt V1ew fotmn Colo~r Clltt.riUe Web Sevl<e


~ ~ ~ ~
~1 1160031731~1\ffi(.Ol1()$1.).<"1t~ :u. 1 , ¿ 6 A, AG
9'11~ Z1 $12'f'Jt•.w_
e ~. mf~Act.AGdc;~
"l\A" A. CA. t f ACÓT! .A(•(; 1
OOll'$~.31''~-e131 8A.Idi~.aai ~aa&W:ecAJ,.eJ::t~&ia~ü~A~l r~eSl:!C:~sui
A

Figura 9.56. Representación gráfica del alineamiento


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 175

En la opción Colour, de todos los modelos cromáticos soportados,


seleccionamos la opción Clustalx, ya que colorear el alineamiento simplifica la
inspección visual del mismo (ver Figura 9.57).

""''

.
Ct.OSUM62 Score-

, .,..
P(rto•ru~ !dcn:ay

r,,to<
1-t¡o"rophllt.icCy
Ht:f" P"ro~re01y
111 11
r 4 A (; , (' ('lo\ . e <> ··,.
11
cc .A

Str~l'ld Pnopcr.~tty
Turn 9f'op.tuity
euncd ln:la
HIKitotide:
F'vrind'F'ytimtdin t
l ·<:otf« S<om
u(.. oai~~o?ll~
9yCcm-ben
Mcd1fyún~cnr~11Cn rh•d-.o d.. 1-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;i¡
~baY.. Id .n~Cy Thf~hcld F
M«<lfy ldcr:tity Thrcsheld ...
~· M nctatWn_
bJPN~ ldic:o

Figura 9.57. Cambio del modelo cromático

r- , "
Cambia los valores del modelo cromático y comprueba cómo varía
la representación gráfica de la secuencia.
~ """

9A.1 Creación de grupos

Un grupo es una región etiquetada de un alineamiento que puede manejarse


de manera autónoma para, por ejemplo, seleccionar d icha reg ión directamente sin
tener que volver a buscar los fragmentos de las secuencias implicadas.

Para ello, se seleccionan las secuencias mientras se mantiene pulsada la tecla


C trl. En este caso, vamos a crear un grupo con los nucleótidos comprend idos entre la
posición 68 y la 129 (ver Figura 9.58). Una vez seleccionadas las secuencias, pulsamos
e l botón derecho de l ratón y en el menú desplegable, indicamos Select • Create
176 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Groups. Cuando se ha creado un grupo, las secuencias aparecen recuadradas en rojo


con trazo discontinuo en la parte superior (ver Figma 9.58). A partir de ese momento, el
grupo se compo rtará, a efecto de la edición del alineamiento, como una unidad.
. .-1_._.,._
... -- - ~ .. .

,,( ~..-
Wl~-- ~
iiiiiiifllil ,...
.......~... _.....1~~.,..~...- ..
(oiO:'>IM
(I,¡.J
_,..>=<.
.._ ,..,...... Qol•"

~··
lo .... ~- '""•
Otol·l
.....,..u.,..,.s.r...- <M•Ht•l
<-""- 011•0
' -• - , .
-c.....,.. __ Ooi·U.,..._G
- ... ~ Qoi•U

."

Figura 9.58. Creación de un grupo con Jalview

Es posible edita r el grupo para darle un nombre descriptivo, pincha ndo, sobre
la selección del grupo, e l botón derecho del ratón. Aparecerá un menú desplegable
con las opciones descritas en la Figu ra 9.59:

-
~~~ ·

-·-
- · o..o,.. .. t - .
..... s.-01 ""*s.-· ~

la!C...p
_,., ...
, ....._ .... ~.t·-~

--·
•111 111111
"~ " • c. u ~· · • ""'" u• e e
111•11 •1
u""".,., .. <• u.:; u.u •
1
,..

Figura 9.59. Edición de un grupo


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 177

Si seleccionamos la opción Edit name and description of current


group, aparecerá una caja de diá logo en donde podremos introducir el nombre y la
descripción de l grupo que hemos seleccionado (ver Figura 9.60).

8 ___.,..,"
-- ~~~- -·-·'""••lo l.
..

Figura 9.60. Nombre y descripción de un grupo

9.4.2 Reordenación del alineamiento


La reordenación del alineamiento con Jalview es muy sencilla: ún icamente
hay que seleccionar las secuencias que se desea reordenar y pulsar las flechas del
cursor a derecha o izquierda tantas posiciones como se desee. Automáticamente, los
nucleótidos (o aminoácidos) de las secuencias seleccionadas se desplazarán en la
dirección indicada.

Si seleccionamos la secuencia del ARN del ratón (accession NM _ 021 050.2) y


la desplazamos 6 posiciones a la derecha, obtendremos la situación de la Figura 9.6 1:
Situación inicial
-

1 •u• 111111
. . ~. . • . • . . . • • l ( . ! . . . . . . . . . . . . . . . . . .
111
cu .. c .•. . ... . . u . • . c..

,.
__
.• . = _
·- .... .......;;a¡·
. "·,:...!l·a
~' ·•!ili¡''¡¡¡..!!u•li!ll!liii
~~
"" · "~~·~
' : · ·.... . . ·"- •.' ' "..·•
'• ( '
.."t.l!lii!P.!iilit.
.. . . ' '
"' ...
' • .. ,.. --.··•w' (.w'· .
· '. ·l!!'i!·"'
.•:lli! !( • ,~l'M'
. -

·- U
.... .. ll
•··. = !. U.~WW!JU !J. U . ..1
=..=. ..,.J' 1•

Figura 9.61. Alineamiento modificado por desplazamiento de la primera secuencia


178 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Si se quiere desplazar una secuenci a respecto de otras varias, suele


ser más sencillo crear un grupo con estas últimas y desplazar el
grupo en lugar de la primera secuencia.

9.4.3 Adición y borrado de huecos

Para añadi r huecos, únicamente hay que mantener pulsado el botón Ctrl y
mover el puntero del ratón a vo luntad. Inmediatamente, el alineamiento y el consenso se
actuali zan para refleja r los cambios. Si co mparamos la Figura 9.61 co n la Figu ra 9.62,
se observan claramente los efectos de l desplazamiento de las secuencias agrupadas.

Figura 9.62. Inserción de huecos en el alineamiento

Otra operación habitual en la edición de alineamientos es el borrado de


huecos. En Ja lview estas operaciones se encuen tran agrupadas en el menú Edición
de la ventana del alinea miento. Por ejemplo, para borrar todos los huecos, dentro de
este menú, pinchamos en R em ove All Gaps:

,..,. <o'-V

,..,
"' '''"'
..
....
~ "'""
......... k'!
~--·· -
-~

~·ll
~~twf'l)'c.--. (M.t

Figura 9.63. Borrado de huecos


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 179

Con lo que obtendremos el a lineamiento de la Figura 9.64:

Figura 9.64. Alineamiento tras el borrado de huecos

En estos casos también es buena idea utilizar los grupos, si se desea


introducir huecos en las mismas posiciones de secuencias distintas.

9.5 BÚSQUEDA DE SECUENCIAS HOMÓLOGAS CON SIB-BLAST

SIB-BLAST es una herramienta que, dada una secuencia, proporciona un


conjunto de secuencias potencialmente homólogas a la secuencia bajo estudio.

En primer lugar, abriremos un navegador e introduciremos la URL de la


página princ ipal de SIB-BLAST: http://bioserv.mps.ohio-state.edu/sib-blastl.
Aparecerá entonces la pantalla de la Figura 9.65:

·---·--···.... e •· ~ P O G • * "' "'•S

~h&o.~ ;.~-.c ..+


··c ~...,,'"......,""'~"'~"·-«W=~ftnc.PSt.lll.AST :M~,.,...., t\i:~ • .. m""',wut..e.-.do"W.a...ot..... ...
~<-lk~M·Nv~WJ- ---- Ifl•*----.too~nlk~•ttM~...W io,.:.-llw-~olaP$t..ai.A$T~"'-"t.•­
....,-.¡Rpoo otW!o~(F~f)io l........_,lllj ...... E·~diao. . l .... ~d-&olli1111'._ &f0.\1. . . ~ .. -...w:..m.t aiii • ...... .....JIIl:.

h!.. ,.. ......

Figura 9.65. Página principal de SIB-BLAST


180 BIOINFORMÁTICA: El AON AUN SO LOCLIC ©RA-MA

STB-BLAST requ iere tres parámetros de entrada. En primer lugar, la


secuencia bajo estudio, que puede proporcionarse pegándola en formato FASTA en
el área de texto acondicionada para ello o b ien subiendo el fichero FASTA con la
. .
propia secuencia.

>Anonimal
CAGGCAGCCCCACACCCTCCGCCTCCTGCACCGAGAGACATGGAATAAAGCCCCTGAACCAGCCC
TGCTGTGCCGTCTGTGTGTCTTGGGGGCCCTGGGCCAAGCCCCACTTCCCGGCACTGTTGTGAGC
CCCTCCCAGCTCTCTCCATGCTCTCTGGGTGCCCACAGGTGCCAACGCCAGCCAGGCCCAGCATG
CAGTGGCTCTCCCCAAAGCGGCCATGCCTGTCGGCTGCCTGCTACCCCCACCCTGTGGCTCAGGG
TCCAGTATGGGAGCTGCGGGGGTCTCTGAGGGGCCAGGGGTGGTGGGGCCACTGAGAAATGACTT
CTTGTTCAGTAGCTCTGGACTCTTGGAGTCCCCAGAGACCTTGTTCAGGAAAGGGAATGAGAACA
TTCCAGCAATTTTCCCCCCACCTAGCCCTCCCAGGTTCTATTTTTAGATTTATTTCTGATGGAGT
CCCTGTGGAGGGAGGAGGCTGGGCTGAGGGAGGGGGTCCTGCAGGGCGGGGGGCTGGGAAGGTGG
GGAGAGGCTGCTGAGAGCCACCCGCTATCCCCAGCTCTGGGCAGCCCTGGGACAGTCACACACCC
TGGCCTCGCGGCCCAAGCTGGCAGCCGTCTGCAGCCACAGCTTATGCCAGCCCAGGTCCAGCCAG
ACACCTGAGGGACCCACTGGTGCCTTGGAGGAAGCAGGAGAGGTCAGATGGCACCATGAGCTGGG
GCAGGTGCAGGGACCGTGGCAGCACCGGG

Figura 9.66. Secuencia bajo estudio

Adic ionalmente, es necesario proporcionar el número de iteracio nes del


a lgoritmo de búsqueda que se desea que STB-BLAST efectúe.

(1 ·
~·v~~ No se recomiendan más de 5o 6 iteraciones.

Para finalizar, se establece el número máximo de resultados. Hecho esto,


pulsando el botón de Submit se obtienen los res ultados (ver Figura 9.67):
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 181

p '(r Q

Status oC your Simple l.s Beautiful job


.u ci 1 S· t ~:20 Jm 20, 2014 EDT·

Jl:ahll rh~ ~pl~rM


1
j;,
l " '"""
, r..,.,.,., "' r, . ·ro. __1 _ _1 L01
IPSl.Jlt.\ST !omd ljpoclmie¡( ll"-)
IPSJ·BLASl •-21""""*<~
IPSI·BLAST """"' >1~
IPSI·BLAST """" ·1- r
I PSI.DLAST "'"""si"""""
[Fil"eof""" 1""""*<~
<Moe )'c-.1 job fri~ )W will.J.e &We 10 &ld your r~t nl fle fokv.in¡ lJR.L
I!!WJ,~v.JZ!P?.olw ~cdl'~'~b t:Wt'wioi!dS!DJUlYO? tkfte~SUM.ltml
Pk<U~: noto: tb;,ttb: lt~S.n 'l>.lJ\1(: d:kttd.--:: «r. ~

lf)·ou prO\idtd aa Enl..'li add--tss '4ih )-ouf origi\11 ~


che IJ'"R.L ,... be k1ll: to }W OIIC't' flc. ;ob &i!hes
m, '~~"~' tuse ·d i be rcloll&d e\U)' m~ S«Of'.lk
~ tis W plo!:m 1do.d tht ~ ~·.

Figura 9.67. Resultados de SIB-BLAST

Si se especifica la dirección de correo electrónico, no es necesario esperar a


que acabe el procesamiento del trabajo, sino que cuando este esté listo, llegará una
notificación al respecto (Figura 9.68):

SimpielsBeautiful result

sib.blast@bioserv.mps.ohio.state.edu 20 de jun. (hace 2 dias)


pa1a mi ..

> español ... Traducir mensaje

The results fo1YO'-'' iob are no·, ava lable at the folowill9 link·

httcrh'biqsm mos dlio-state edufsib-blast!udoad/SIBsUzYOP <lir/tesuhSUM html


Please note that the res-ult fles wll be deleted after one week..

Figura 9.68. Notificación de disponibilidad de resultados

Los resu ltados se orde nan en una tabla de secuencias putativas homó logas
de la secuencia bajo estudio encontradas en la base de datos de proteínas (ver Figura
9.69). Junto con los identificadores de las secuencias, encontramos los va lores E en
la segunda y la ú ltima interación y la figura de mérito, qu e se emplea para ordenar la
coincidencia de las coincidencias en la base de datos.
182 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

ft -· .....- ..... ··---- ,_...........- .

Figura 9.69. Resultados de SIB-BLAST

Se trata de una proteína del orangután de Sumatra (Pongo Abelii). Si


pinchamos en los enlaces de la columna GI nu mb er & Descrip tion, se abre el
registro en GenBank correspondiente.

Si hacemos clic en la columna correspondiente al valor E, obtenemos el


fichero de alinea miento (ver Figura 9 .70):
..._....,.~_.. ..., · ~

+- e D b-'osHV.~o-s~at~.e<~~ t-~.JI!.J.,uplc).td.l!!.t8V'1l)"-.<li•/.l; qun·,.,t:..IXP.ooJslb!)vJrn.lll..

)'~ "! J:~...~~$1~ '$$, ;t fit0 1C7t!l! i.OII <l:t.lAll'l"t f~!Z!lt t'tl\U(~II•lC• hlu: (iot!O:~ •td H!
t.o..¡;i> • i ? U

S<e-!t-e • U .1 blt: IUt) , U"~et • l~ ·lC , Y-'-t/:(01 ('~O H : 1Cl\ •Nv.: l : a ::,
l4r.o~>Hu • t tf./$46 fl$t~. Pc:<~ •t.~,.u • ! ' O/$U" t2U) , O.~.o • tW"E UUI

0:.~1'1' : 1 0."""30e:::t.tO.:«t:OOCX":"~C::::).IG.:I· • • • •• · .:..e:..HIG.I,; .':'l;.A··:iC


. $1
c:o~: -e c:oeOt: Aol ..C 6 • "
"';~~>• ZO:S e~"::;:~:PC!IC~iiCkt\'OC"~NO~CPfl_o,:,<;I\Cfltua~t 2(:

~;H'f• » «:--- -~O"" ...J.:lOC:O:O::O: ~:::~~:n~:e: ~~:::---····<n'l<l n


e~ :o e e: .::• ?<: e e: o , t: e. o
~;ct.: 16! C\'~D~~Ux.501t:OSIC----!~.'C!I""''t'l'~IX:C'n.!C~ !~ ~

~·· n- · :'X' o:;.;.=··J<:"::Cle'::l'~:l'='!.l.:):=c:t::: •••·:..G.."'l>:Itltc:..I"T. ·• ~ ~¡


ccec 1 e:: o<: e::e ce c e. e e
,_JCt• J~t =-::1-~~~~UC»'OCX:.I :<l::ltVCC;~OC.il!OCO(!n"l'CUtle~C 11t

Q-acy : ~ :.~ •••••••ic:T:70>~Gt:n)"l'r~··•··•·•~;.,e::-,.,.,_-ec.;..x;a.roc :•~


cec -e e ce eec e e e
lbJCt: S"t ~:tD::EC:::~UC:I~.'":~:o:~~CI:.C:t:"."dl:;n~lAAtM.!i< Ut

Q-;oocy : ~.- Mt~r.Te:';::lt~JT...::;.:nn3!C,~XTU••••••••C«~C ~·~


~~e eeA ~e e~e~ e -~ e e 1IC
~l~t; 1 :lt "'-3'-!.U:t."!"."O:<)Y!.~~·"lstr.)XJUCL.."%.\l~,~»r.")CeOr~t-(1 1 '-l

<!'"'•no: Ht ~~~~~;;~n.~m'l --~e«r-.4- ---:netm~ 'eo


e e: e~; ece:c: ce:e: .-e:.
::b'~t, 1n ::a.lMl.:-;-:x~~.=n,m.t::c,,AA:f4:X=l~:Ct=·.:-:cu.:.~~;~:::x r.J.Je ~a

o.~ "'' »: w;r;G-----ac>:;o.cr~t~'7TCtfmCAQTMet~~~c 'S$


G~Ci CCC C: •G ee;ce~C

~; H ' 1>~) ~:O:Iii""...J.:>Or-~~:";'CtlNl'YV.:Z:l>e:'\~l':l=::!ll••••','!~r.!~!Y'r.l~ ( ~ 1

Oo1rt: ~· «CJ.~~:;WMN:.MJ::;.w.v.wte~;-Af.ieM.~~ •1•


e •: e~ r oa.r e ;. c e
~:·~-. . (:1 c.:;: r.-:r:::l~liC.z:t;li'::.c:s-;n• ..,.,:c:cwxr~Rl:li.•·-----·<·~ tu
~-••y• •:• ~~•=~>:n-ru..:.~<.rnJ..n:.etur ~---··M:: ~C'l'········'i ~ · ~
o: 33C o o:03 ~e.:

:t.: ~~ ~ '-" GV:~a.-:or:;:;to:--···-- -«!UUUJ.:I':ü:;JU~~.:v&C;n:<fD:;\! ,!¡

~-•"Y• u.~ ~"Y~..C:'l=Ha.=~ u ?


~ G:;C G : G ;.:;
~:~· 'a ~c~~Jt;oz:a::JGj;YCY.:JGY:.:; ' "t

Figura 9.70. Fichero de alineamiento


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 183

9.6 ALINEAMIENTO MÚLTIPLE

En esta práctica trabajaremos con las secuencias de la dehidroascorbato


reductasa de varias especies de plantas:

>gil1453581131refiNM_ 121676 . 31 Arabidopsis thaliana DHAR3


(DEHYDROASCORBATE REDUCTASE 1) ; glutathione dehydrogenase
(ascorbate) (DHAR3 ) mRNA, complete cds
GGAAATTAAACCACTGCGAAAAATATGATAAGCCTTAGGTTTCAACCAAGCACCACCGCCGGTGT
TTTATCGGCGTCAGTGAGCCGCGCCGGTTTTATCAAGCGGTGCGGTTCGACTAAACCGGGAAGGG
TTGGCCGGTTTGTTACAATGGCGACGGCGGCGAGTCCTCTTGAAATCTGCGTTAAAGCTTCTATC
ACCACTCCCAACAAGCTCGGAGACTGCCCTTTTTGCCAAAAGGTGTTACTGACAATGGAGGAGAA
GAATGTTCCTTATGACATGAAAATGGTGGATTTGAGTAACAAACCAGAATGGTTCTTGAAGATTA
GTCCAGAAGGTAAAGTCCCAGTTGTGAAGTTTGATGAGAAATGGGTTCCGGATTCAGATGTTATA
ACACAGGCTTTAGAAGAGAAGTATCCTGAGCCTCCTCTTGCTACCCCACCTGAAAAGGCTTCAGT
TGGATCGAAGATCTTTTCCACATTTGTCGGTTTTCTGAAGAGCAAAGATTCAGGAGATGGAACTG
AGCAAGTTTTGTTGGATGAGCTTACTACATTCAACGATTATATCAAGGACAATGGCCCTTTCATA
AATGGAGAGAAGATCTCGGCAGCAGATTTGTCCTTGGCACCAAAGTTATACCACATGAAGATTGC
ATTGGGACATTACAAGAACTGGTCTGTTCCAGATTCACTTCCTTTCGTCAAATCCTACATGGAGA
ATGTTTTCTCGAGGGAATCATTCACGAACACACGGGCGGAAACAGAGGATGTAATTGCTGGTTGG
AGACCAAAGGTTATGGGTTAAGAGATTTTGATGTTGACCTCAAGCTTCCTTGTCTTCTACTAAAT
GTAAAAAACATAATAATCAAATCTTCTTCAACTGTTACCAATGATATATACCTTGAATCCTTGAT
TGCTTATATGATGAAAACTATATTGTGTCATAGTGGGGAAGCTTGC
>gill453359071refiNM_l01814 . 31 Arabidopsis thaliana DHARl
(DEHYDROASCORBATE REDUCTASE) ; g l utathione dehydrogenase
(ascorbate) (DHARl ) mRNA, complete cds
AAAAATGGCCCACTGGTGGGTGGAGAATGGTAATAATTCAGTTTAAAAGCTAAGCCTTCTCACTG
ATTAACTCAATCATTCATCCGTCTCTGCAAACAAAGGAAGAAGAATCAAGATGGCTCTGGAAATC
TGTGTGAAAGCTGCTGTTGGTGCTCCTGATCATCTCGGCGACTGTCCGTTCAGCCAACGGGCTCT
TCTCACACTCGAGGAGAAGAGTCTTACCTACAAAATCCATCTGATTAACCTCTCTGACAAACCCC
AGTGGTTCTTGGACATTAGTCCTCAAGGGAAAGTACCAGTGCTTAAGATCGACGACAAGTGGGTG
ACTGATTCCGACGTCATCGTTGGTATACTCGAGGAGAAGTATCCTGATCCACCACTCAAGACTCC
TGCTGAATTTGCCTCTGTTGGATCCAACATTTTTGGTACTTTTGGGACATTCTTGAAGAGCAAAG
ACTCCAATGACGGATCTGAACATGCCTTGCTTGTTGAGCTAGAAGCTTTGGAAAACCATCTTAAG
AGTCACGATGGCCCTTTTATCGCCGGAGAAAGAGTTTCCGCAGTGGATCTAAGCTTAGCACCAAA
GCTTTACCACCTTCAAGTTGCTCTTGGCCATTTCAAAAGCTGGTCTGTCCCTGAGAGCTTTCCCC
ATGTCCATAACTACATGAAGACTCTGTTCTCGCTCGACTCTTTTGAGAAAACTAAGACCGAGGAA
AAGTATGTGATCTCTGGATGGGCTCCCAAGGTTAACCCTTGAAACTATGCACCGTTATGAGATCG
TTGGTGTGGTAATGTTGTTCAAGGTCTCTCTCTTATATCAGTCAAATAATGTACTTGGACCTTTT
TATGTAATGTACTGTATCAATCAAATAAGAAGCCTATTTTGAAATAAGATTTGCCTCCATATC
>gil1231870861gbiEF195334 . l l Solanum tuberosum d ehydroascorbate
reductase (DHAR2) mRNA , complete cds
AACATGTCGACCGCAAAGATAACACCATCAGCTGCTTCATTTGCGACTTCTATCAAACACCTTGC
GGGCATTCAACTACCTCGACTCCAAAACACCATTTATACCTCCAATTCCACTAAGTTTAGAGCAC
184 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

CCAGAAGAGCTTTTACTGTATCAATGGCGGCTTCACTCGACACCCCTCTTGAAGTTTGCGTCAAA
CAATCAATTACAACTCCTAACAAGCTCGGCGACTGCCCATTCACTCAGAGGGTTTTGCTTACGTT
GGAGGAAAAGCACCTTCCATATGACATGAAGTTTGTTGATTTAAGTAACAAGCCTGACTGGTTTT
TGAAGATAAGCCCCGAAGGTAAAGTTCCACTTATTAAGCTTGACGAGAAATGGGTTCCAGATTCA
GATGTCATCACACAGGCACTGGAGGAGAAGTTCCCTGAACCTCCGCTGACAACTCCTCCTGAGAA
GGCTTCCATTGGATCAAAGATCTTCCCGAAGTTTGTTGCTTTTCTGAAAAGCAAAGACCCCACTG
ATGGAACAGAGCAGGCTTTACTTGATGAGCTGACAGCTTTCAATGATTACCTTAAAGAAAATGGT
CCATTTATCAACGGAAATGAGGTATCTGCTGCTGATTTGTCGCTTGGACCAAAGCTATATCATTT
AGAAATATCTTTGGGGCACTATAAGAATTGGTCTATTCCAGATTCACTTTCCTACGTGAAATCAT
ACATGGAGAGTACATTCTCCAGGGAATCATTCATCAACACGCGGGCACTAAAAGAGGACGTCATT
GAAGGTTGGCGACCAAAAGTCATGGGTTAGACAAACTATATCATCTTTTGCATTTCTGAGGATTA
GATTTTTGTCACAAGGTATAGTAAGCTAGCATTTGGAAGGCTGTATGACAGTTCTTTGCCATGTA
TATTGTTATTAAAACATATACTCATCCTTGTTTGACTGAATGATAGCCTGA
>gil664750371gbiAY971874 . 11 Lycopersicon esculentum
dehydroascorbate reductase (0HAR2) mRNA , complete cds
CAGGCAACATGTCGACCGCAAAGATAACACCGTCAGCTGCTTCATTTGCGACTTCTATCAAACAC
CTTGCGGGCATTCAACTACCTCGACGCCAAAGCACCATTTTTACCTCCAATTCCACGAAGTTCAG
AGCACCCAGAAGAGGTTTTACTGTATCAATGGCGGCTTCAATCGAAACCCCTCTTGAAGTATGCG
TCAAACAATCAATTACAACTCCTAACAAGCTCGGTGACTGCCCATTCACCCAGAGGGTTTTGCTT
ACGTTGGAGGAGAAACACCTTCCATATGACATGAAGTTTGTTGACTTGAGTAACAAGCCTGACTG
GTTTTTGAAGATAAGCCCTGAAGGTAAAGTTCCTCTTATTAAGCTTGACGAGAAATGGGTGCCAG
ATTCAGATGTCATCTCACAGGCACTGGAGGAGAAGTTCCCCAAACCTCCGCTGACAACTCCTCCT
GAGAAGGCTTCCGTCGGATCAAAGATTTTCCCCAAGTTTGTTGCTTTCCTGAAAAGCAAAGACTC
CGGTGATGGAACAGAGCAGGCTTTACTTGATGAGCTGACAGCTTTCAATGATTACCTTAAAGAAA
ATGGTCCATTTATCAACGGAAATGAGGTATCTGCTGCTGATTTGTCGCTTGGACCAAAGCTATAT
CATTTAGAAATAGCTTTGGGGAACTATAAGAATTGGTCTATTCCAGATTCACTTTCCTACATGAA
ATCATACATGAAGAGTATATTCTCCAGGGAATCATTCATTCACACGCGGGCACTAAAAGAGGATG
TCATTGAGGGTTGGCGACCAAAAGTCATGGGTTAGACAAACTATATCATCTTTTGCATTTCTGAG
GATTAGGTTTTTGTCGCAAGGTATAGTAAGCTAGCATTTGGAAGGCTGTAAGACAGTTCTTTGCC
CTGTATATTGTTATTAAAACACATACTCATCCTTGTTAGACTGAATGATAGCCTGAGTTATATAT
GTAATACATACTTCCTAAGGCTTGTGCATAAAAAAAAAAAAAAAAAAAA
>gil281924261gb1AY074787 . 11 Nicotiana tabacum dehydroascorbate
reductase (OHAR) mRNA , complete cds
CGTTGCTGTCGGTTCCAAAAGAAAGACACTATATTCACCCAGAGTAGAATTCTCTAGTCCTTACC
ACACTACAAAGCGAAAAAGCTGTAGATCAATGGCTGTTGAAATCTGTGTCAAGGCTGCTGTGGGT
GCCCCTAATGTCCTCGGAGACTGTCCATTTAGCCAAAGGGCACTTCTGACATTGGAGGAAAAGAA
AGTGCCTTACAAGATGCACTTGATCAATGTTAGTGACAAGCCCAAATGGTTCTTGGAAGTGAACC
CAGAAGGAAAAGTTCCAGTGATCAAGTTTGATGAAAAATGGATCCCTGATTCTGATGTTATTGTT
GGGCTTCTTGAAGAGAAATACCCAAATCCCTCTCTCTCTAGTCCCCCTGAATTTGCTTCTGTGGG
CTCGAA.AATATTTCCTTCCTTTGTCTCATTTCGGAAGAGCAAGGATGCTAGTGACGGTACTGAGC
AGGCTCTGCTCGACGAGTTAAAGGCTTTGGAAGAGCATCTCAAGGCTCACGGACCATATGTCAAT
GGGGCGAATATTTGTTCAGTCGATTTGAGTTTGGCTCCGAAACTGTACCATCTTGAGGTGGCTCT
TGGCCATTTCAAGAAGTGGAGTGTACCTGAAAGCTTGAGTCATGTGCGTAAATACATGAAGTTGC
TCTTCGAGCGAGAGTCTTTCCAGAAAACCAAGGCTGCAAAAGAGTATGTCATTGCAGGATGGGCT
CCAAAGGTCAATCCATGAACCGATTCATAATTATAATCCCGTTGTTTCGCAGGAAGTTAGCAGTT
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 185

GAGGATACAGCATTTTGAAATATGAATGTATCTCGTAAGATCTAAAAATTGTTAAATGTTGGATC
ATGCTTGTACTGCTCTTTATGTTCTAATAAATAAGTCATGTTCTAAAAAAAAAAAAAAAAAAAAA
AA

Figura 9.71. Secuencias ba jo estudio

Gracias al alineamiento múltiple es posible realizar diversos


análisis: fi logenia, búsqueda de motivos funciona les, etc. De ahí la
importancia de dominar el manejo de estas herramientas.

9.6.1 Alineamiento múltiple con Clustal Omega

Clt1stal Omega es un programa de al inea miento múltiple de secuenc ias de


ADN o de proteínas. Para realizar los al ineamientos, Clusta iO sigue una estrategia
progresiva en tres pasos:

1" Ali neamiento global de pares: lanza un alineam iento de pares entre cada
una de las secuencias y el resto. Es decir, para N secuencias, se efectuarán:
71 !
Na.!in•amitmtos =
2
(n _ 2)!

1" Construcción de l árbol guía: a partir de la pun tació n de cada a lineamiento


de pares, se constru ye un árbol que describe la relación entre las
.
secuencias.

1" Alineamiento mú ltiple : siguiendo el árbo l guía, se com1enzan los


a lineamientos múlt iples.

Para utilizar Clustal Omega, en primer lugar, accederemos a su página


principal (http://ww w.ebi.ac.uk/ Tools/msalclustalol). Aparecerá la pantalla principal
de Clustal Omega (ver Figura 9.72), en la que se indican los pasos que hay que seguir
pa ra util izar la herramienta.
186 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

. . ........<-.... , -- e D· -

Mult _..ie St:qu!""'"~Ce Algnmen·


OWIUI~" ¡......., -.-s~· óll~ jiO~ tNI- _....,. _,_ __ ,_.0_.,.... t~ t6fM"'l'~ ~'-

~ l · [fttt'lWII>II'I~·1

1:-~· ~ ... u~ . '~""'.,_,.~ .. -

,.,. W~HIJI!tt w.a ._..,_.,... ~~--- - - - - - Ho)IO


IMMte~~~ 1 l(:ltut,._ ·~--••...,Ottll~r•<Y...,.~J

Figura 9.72. Página principal de Clustal Omega

A continuación, pegamos las secuencias que vamos a alinear y seleccionamos


la opción DNA en lugar de P r otein (opción por defecto). Los datos necesarios
para realizar un análisis con Clustal Omega se agrupan en cuatro secciones de la
página principal: datos de las secuencias, opciones del a lineamiento, parámetros del
a lgoritmo y co nfi guración del envío.

En la sección de secuencias, como viene s iendo habitual, es posible pegar


las secuencias en el área de texto o bien adjuntarlas en un fichero en formato FA STA
e indicar si se trata de una secuencia de nuc leótidos o de aminoácidos, aunque la
propia ap licación nos advierte de l erro r, s i rea lizamos la selección incorrectamente.

Multple $eqUI;t'V;e Aligflnlodl'll


~ ~ 1$ • IW"IO .,_;.~ ~~ . , . , _ flllloV..,.. ""'' ..e'! ~«":t fU'(Ie t'en ...-o- INO~CWflfe tei:MQ.IC'J 10 ~otc 4t,_u.

Figura 9.73. Sección de secuencias


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 187

En la sección de opciones de l alineamiento (ve r Figura 9.74), podemos


seleccionar las características del alineamiento.

Q!J!M!~! Ctn-..IWO,.,.,..,.rJ -

~!?!~'~~~ ·~!~~~~~~~ ~~-t;l_U.'J!~ ~~ ~~-c! ~.:lfll?!l!'~-


• .,., • Y"" • H".WI(C.

Figura 9.74. Parámetros de configuración del alineamiento

En primer lugar, indicamos si queremos desalinear las secuencias de entrada


(Dealign input sequ ences) eliminando de las mismas los huecos.

A continuación, escogemos el formato del fichero de alineamiento entre


a lguno de los valo res recogidos en la Tabla 9.1:

Formato Descripciím Selección


Clustal sin números Fom1ato Clustal sin la numeración de las bases/residuos Clustal
incluida

Clustal con números Fom1ato Clustal con la numeración de las bases/residuos clustal num
incluida

Pearson/FASTA IL Formato Pearson o FASTA fa


1

MSF Formato MSF (Mulliple Sequence File) Msf

PHYLIP Formato de a lineamiento enlrelazado PHYLIP Phylip

SELEX
. .
Fom1ato de a lmea1mento SELEX Selex

STOCKIIOLM Formato de a lineamiento Stockholm Stockholm ,


V IENNA Formato de a lineamiento Vienna Vienna

Tabla 9.1. Formatos del fichero de alineamiento soportados por ClustaiO

Especialmente cuando el número de sec uen cias es elevado, res ulta adecuad o
habilitar la generación rápida del árbol guía, mediante el muestreo de las sec uenc ias
de entrada y su representación como vectores. Esta opción se controla con e l
parámetro mBed-like C lustering Cuide Tree. S i, además, se desea que se util ice la
misma filosofía en las sucesivas iteraciones, hay que establecer el pa rámetro mBed-
like Clustering Iteration al valor true.
188 BIOINFORMÁTICA: El AONA UNSOLO CLIC ©RA-MA

Finalmente, se especifican los parámetros relacionados con las iteraciones


del algoritmo, que son:

11"' Número de iteraciones com binadas (N umb er of Combined Iter ations):


número de iteraciones del algoritmo de a li nea miento, entre las realizadas
sobre el árbo l guía y las HMM (Hidden Markov Model).

11"' Número máximo de iteraciones del árbol guía (Max G uid e Tree
Jter atio ns): una vez establecido el número de iteraciones combinadas,
este parámetro se puede cambiar para limitar el número de iteraciones
del árbol guía, dentro de los limites de las ite raciones combinadas árbol
guía/HMM.

11"' Nú mero máximo de iteraciones HMM: similar al anterior, pero


controlando las iteraciones del modelo de Markov.

Por último, se especifica si el orden de las secuencias en el a lineamiento


(order) será el mismo en e l que se proporcionaron las secuencias de entrada (in pu t) o
si, por el contrario, será el propio alineam iento el que determine el orden (alignmenl).

Finalmente, se puede introducir una dirección de correo e lectrónico para que


C lustal Omega le noti fique que el aná lisis ha concluido . Una vez que ClustalO ha
recibido los datos de su análisis, se le mostrará una pantalla simi lar a la de la Figura
9.75:

Your job is currently running ... please be patient

P'ease note :11e fo IO'.·.ing


O YOU 11'1:1\' ~k lht " ' • to "'CM yc..r ft~t1: bt~ 11 'fW wrdl.
o fte-.:llts •e n«ed rOl' 1 cl.:.yt.

Figura 9.75. Trabajo procesándose

Si se ha escogido la notificación por correo electrónico, cuando el informe


esté listo llegará una notificación (ver Figura 9.76):
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 189

..
~A .-.gl•-" -

0.. r•stth Sor th• pb "E,.mplo d• <lf'lih.t~ CIIA-tal Omtp" (10 cbo~tt;alo-E201t~C8!l9.09'l028-02S7.J8)982l¡..pg) c-an bt
... "'~"'·

..... ..
Job Oota.ls
-....

pogrom eli..~~Jo
'>9!~n. 12.1
gutttetruovt f<Jf"
cbmllto\.1' f* •
dco'9'1: fa'.$!
mbed. trv!J
m~!{.tttilboll.ltUii'
rl~ei:O'IS" O
g¡it etS~iO!\S ·1
h!M\:I~tioM, .1
c utflft clus;llll
Ofder~
ctype: dn~

Figura 9.76. Correo informativo con los resultados del trabajo

A l pinchar en e l enlace, se abre una venta na del navegador (ver Figura 9.77)
con los resultados del anális is.

En la primera pestaña, Alignments, podemos descargar el fichero de


alineamiento, colorear los resultados para fac ilita r su análisis visua l o enviarlo a una
herram ienta de filogenia.

10<» >1'1•11.(>~ ~·~> O.Ct.l~

~.• _I(;YIIJtlCI.- t E2f'1'1~ 09302'8~ J83'9621JOC!


••!Ff - s - - y ...,..-.e T<'" w-o)t'l Oot*
Orl..ni)KI~,.. ~toO...~~

.~ ..u... •..wnt:lr~
····......:0.."11~.u.tMo.:::o.xnc:r=:·t~o.:::o.
~~··~U(I«$:~~"T~O
·-- ·-····-·-·-··--·--·--·-··-·--·~
~·u•••n•• ,.t,._JI'I.-"'·"
91 llllt'?U ,., UUUJI. ti
" ..."tU1•JO!.U01liU,1t
~~ IU.\IIN1• ...1--ItlllO,t!
~ 1:\0:U( r.U...'"'l1'1'!"'.:1

"' IOJ~IH) ......_tn.,o.ll


•' l:UI-1 ... tr.OU., ,'f
tl ""''"',.'mtt•·•·''
tl<llllJIIQhtd !ll!l,.ttllll,l!
.IIIMU1f~lUI:t~~(&.u«
:~"f.Uit1QIJQ.l1Cl.:COIX':tr~;:u.a.ut
~ :t!1o:U~>~U7' 1'1'.10
.
(OI,Uouo.ut!'e'f~~~t»..'f
.

Figura 9.77. Sección de alineamientos


190 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Si examinamos más detenidamente uno de los alineamientos (ver Figura 9. 78),


veremos que se utilizan algunos símbolos justo debajo de las lí neas correspondientes a
los fragmentos de las secuencias. El carácter ' .' indica que hay una coincidencia en las
secuencias que se ali nean. Si, por el contrario, el carácter empleado es el ':',entonces la
coincidencia es alta. Finalmente, si encontramos el carácter '*', la coi ncidencia es exacta.

CLüSTAL O(l . Z-lt ~ulciple s equence eliqnmeD&

g 1114S3Se ll31 re ! INM_l21676 . 31 --GGAAAITAAACCACTGCG---AA-------AAAIAJGATAAC-cClTAC~TiTCAACCA


Oii12318708610b1 Efl95334. 11 -----AACAIGTCGACCGCAAAGATAACACCAICAGCIGCIICAI TIGCGACITCIAICA
g i l 664150371qbi AY971874 . 11 CAGGCAACAIGTGGACCGCAAAGATAACACCGICAGCIGCIICATTIGCGACITCIATCA
gi l l 453359071re! INM 101814 . 31 ------------------------------------------------------~·~--1
oi l 281924261qb1AY074787 . ll

gii14S3581131re f iNM_ 121676 . 31 A~CCACCGCCGGTGTTTTATCGGCGTCAGTGAGCCGCGCCGGTTTTAlCAAGCGGIGC


gi l l 231870861gb1 Ef19S334.11 AACACCIT-GCGGGCAITCAACIACCICGACICCAAAACACCA11IAI ACCTCCAAIICC
g i l 664150371qbiAY971874 . 11 AACACCIT-GCGGGCA!TCAACIACCTCGACGCCAAAGCACCAITTITACCTCCAATTCC
g i 114 53 35907 1ref 1~lM_l0 1814 . 3 1 C~CCACTGGTGC~TGGAGAATGGTAA!AA!ICAGT!!AAAAGCIAAG-------CCI!C
g i l 28192426 1gbiAY074787 . 1 1 --------CGIIGCIGICGGT!-------cCAAAAGAAAC~CACIAIA------- T ICAC
• • •

Figura 9.78. Interpretación de un alineamiento múltiple

La segunda pestaña (ver Figura 9.79) resume los resultados ofreciendo


información general sobre el alineamiento:

Results for ¡ob clusta o-::20 ' 1!0809-093028-025 7-383982 13-pg


Nignmcnts Rc~t SLrnm:ar¡ Phylogonotic Treo Subnisston Ootaüs

ln¡:¡ut SeQuences
sJ.~;?"talg:,~.?..O.J.~..:.~.~.Q~§.:.Q~.~1~:.~.~}.!l~.!l:1!9:.i.f.I.P.M~
Tool Ouiput
s~~?~"k?.~.~~~.,.~~~3~26;:9.2SJ~.~~J?~~.P-p.9.·.~'-:lt~t

1\fgnment in CLUSTAl tormat


~l.':!~-~~:§.~01~~-.!:12.~.~2~.~.~~~.?_:~.~!!!~.~. ?.:e9:.~!~=~~~.
Ph;(ogenelic -roo
~!~.?-~~.:§~l~.:~~~~=g~!?..:.?.~2!!!.~-~J..:.P..9.:P.;~.
Percerll tdemi:y Malrlx

Figura 9.79. Resumen de los resultados


©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 191

Desde esta misma pestaña, es posible visualizar el fichero de a lineamiento


en Jalview (ver Figura 9.80):

~ .~.. • - ·-- .1
• • 0 0 • ....... 0: .. HH' < O .I. t t O t "-A. ;t, O.. ;.t:; ;t, ( .o t t •

T t : '!ti.

Figura 9.80. Visualización del alineamiento en Jalview

Las otras dos pestañas restantes proporcionan información para la


construcción del árbo l filogenético de las secuencias (G uid e Tree) y el propio árb ol
(Phylogenetic Tree).

Sub!l'ilslon Ottals l
Phylogenet•c Tree
Tllif is • ~)gi';!xlclr-jolni';g ·t r'H ~ ~ «;rr«OOM.

1
1
~~ t!dUetnla ! t:ou: :.'"'· '' ::.~'~"·
1
<:l l l2Ut,~UI ')b1 Ut~.I II O.:lV4,
~1 1 6i.l ?$CrtLqG tl V9~1e1'4 ,~ 1 : O,OHot)
:C>.l$). 21
:~ .Of1 U,
ii 1 1 ~ UIUOYi ttri :I'I_U:ta: • . )l!t,;t«U.
~l l lti'H~f 'Jbi1\.Y0'f~~'· 11 : O.~ :~.SI;

Phylograrn
9tandlif!tl0t"': (6 OWI:>Sirdm e R.ea~
gol l4S3S8l 131f.ll...,_1 ~ 147<1.3 1 0.17$63;
tp l l ~3 1 8?08() 1 gb1 Ef! t9 533A .11 O.OUi'.t
rj l ~ 7$0)7! 9bi AY97~$7 • . 1 1 0.024!18
~ l l 4¡;3)$907 ( tllf(,..I_ I OIOI" ,) I 0,,00?>
!)ll2t10l 4 l&lgbiAY07470 7. 11 0 , 1 7lo4l

Figura 9.81. Arbol filogenético correspondiente a las secuencias bajo estudio

Finalmente, ex iste una pestaña ad iciona l en la que se recoge información del


envío (Sub m ission d ctails).
192 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

9.6.2 Alineamiento múltiple con MUSCLE

En primer lugar, abrimos la página principal de MUSCLE (hllp :llwww.ebi.


ac.uk! Toolslmsalmusclel) y establecemos la configurac ión de l alineam iento (ver
Figura 9.82):

Mul~o!e Seqll€1\Ce A191101ent


II«..I'CU 1t.onck (or ii'IILlipo s.quctn<:o c:....,..mon by i.o9' -..poct.uion. MUSC:e.. io d-.., to .K..._.. boltl bctt• 0\1'01"9" Knr«y .,.¡ ...tiOt 1pOM ,,_ 0..0.1~ oc
T•COffo<l, cl<liptoodng «>.,. ct>outn oplioow.

tl'tMOI_p;;t :t~ 1 Mtdt•~" rl W'fo/f>.4'1'CtlHI:lrli'Ol.


eC1'1GC"'GlÓOOn~AV.ll~IC1CJ.A(j!CCt~lloGA.tCAAIQQCt(;1TG-\MtC1GIGr('...VOQCTOCfGl(i(;GtG(; •
COCl.v.JG10C.TCOO..O:.C::T(If(CA~f(3.lC:.TT~t~OC,..C.ITOATC.V.TGTT~T~TTcnOOAA~
A'IQG••4~(fTTCC/..G:TGJ.TC,.U4TTTCJifa.v.t.AA~TTCf(O.\'l'GT!IJTCl'T'GGOCT'TC1TGAW'!AG>•ttr..VXCAAATCCCTCTCT~TCCCC~GC1TCTGU~oo.r..v..
MNTIO:ITCC'Tnf;'!Cft.Arn~~R;AC~~rc'I(;C"~~m~~~~ti'IA:'I;'I~
fAlTfGTTCIGTOOI>mGAGmGGCTOCGAAN:fGTACC.Ucn~TGGCTCTTGGC~GoG.IoGTGt.oCCTGA.AA.GCrTGAGTCAIGTGCG1MATACA1GoV.GTTGCtenCGAGCG.\
GAGTC~CCAAMCN:iWCTCAfl'CCIICGirllGGCClc:c.t.MCGT~lMTCCCGTJCJTfOC."'..ACGNIC~ .J
mGAAAWGMIGVJCTOGIAAGATClMMATIG~TGCTI'GfACTGC'I cm.SGfftrMTNNAJ.c;rCAfGTTCI~""""""' •

$reP 2. $4<1~ "-'""~'~""·


9JlMJ':.QRUAt CM:UIW

~!~'-'~ ~t~~
DlOot • -1»'1

Sn:P 1 · $1/llt!"'t )'0.1 PI


V S.IY.to."" llyofNII rr« u - . tfll<J"""IIJH~-tL.., Df.-nM~r.ttr:J.t:t-••·lblfJ

Figura 9.82. Configuración del alineamiento con MUSCLE

En la primera sección, pegarnos las secuencias que se qu1eren alinear o


subimos un fichero en formato FASTA con las m ismas.

En la segunda sección, in troduc imos los parámetros de entrad a, que son:

,.. Fo rmato de salida: formato que se dará al alineamiento de salida. Se suele


emplear la opción por defecto, Clusta lW.

,.. Árbol de salida: hace referencia al árbol guía que se tomará co mo base
para genera r los al inea mientos múltiples. El valor por defec to es ninguno
(none), aunque puede indica rse que se utilice uno para la primera
iteración (treel ) o para la segunda (tree2).

,.. Orden de salida en que se mostrarán las secuencias en el a lineamiento


final. Actua lmente, únicamente es pos ible el valor aligned, que significa
que se mostrarán según el árbo l guía.
©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 193

Si pinchamos en el botón Submi t, se lanza rá e l al ineamiento múltiple y,


a l cabo de unos instantes, se mostrará una pantalla de resultados similar a la del
epígrafe anterior.

e ·tZ ~ >34300; os
~kA~ ~be "Tt - S\b'Mit;H(IO'I O.taok

<;1 1 1 1 H~U)Ild *¡:u•(..)l


'(11 1ltllt"4UJCO!IP1.'t$»~ ,1 1
--· -·······---· ·· ···-- ~~~"-:~u.-··-··
----···-·---·-···-····u.:l.~:uoco::
<Q.UI~l~,..l;t>I J.lt"'t{T; 11 -····-···-----· -···"('~:0~~~
OH :I UJS~tHd JK_a : t: c.) , l.I.U.l.~~~:~:U.fU:1Q.'r.:11W«'!~
'l!ll~ ~ jqtl~171>1A'tV' t "U,t 1 -···-···-···-··········-al::l'«:·~~.A . .. .
?~ l l l ~»ttHI1tfi ....U i tlC>.l l
o: Hlllt0.XCI;b!U !tUU .ll
o~ ' '"' ~l"' 171>1A~1"}Utt.tl
;; :;!;:~:~:;;~¡~:;¡~:;~ ;~ ·' . .. .
rur~"'"""r:oca~---·-···-·-·--·-···-··

~" l t I.»SfU)I :di *..ttU't: ,$ , ~·X>'X!J!Jl.~roc:::mttO.Irt.'"t - -AA.~


('¡ l l lUt,Oihft!mtHJI,ll O\,l,l,liC'.lt."C.::.:'".J.LI.t!:-·-·I(Q.Ul:%.J:':-·:.I.Im'~
, , ''"' t1oetli<Jb! l.'n?1tl1.1 1 ~rrn:lu.: .... ••
- .ra:..u!~ ,ucr:~
?11: o})J) l0\'1 tet 1lOS..; ncu . , '
.. .
--· -···-·---·-·tcont"!~t'C"AA·-··
?~l::l•l4U!-;t>ll'W' 1" ,.1 1
--·-···-·---·- -·~~~'(r!Uoo-··

~>I! I H\IUJIJU I ~!:Ul-,,) ::;r:.-G~.:.:~··-··~-o.t.r.m::~e~::~


9' l!l"Jlt101 e,..,!lf't '111•.) 1 err:IC:':.~:a.xu:~ra:-:~~rr.oct~t
1•11<-CI:.C,I>;IIIlf,..,telt 11 mr:~l.."C.\."'GICIMI:'TrCM~'t'I$AA6~"~
1 ..
ot ': !»1 !"'1•~ ~ ~-~ •;.t: '·
J -·-· -·--- .a.~---·--·-·---·<'!:1~:c:;n:,~ ~

Figura 9.83. Resultados del alineamiento con MUSCLE

Si nos detenemos a observar el residuo que con CLUSTALW detectamos


que estaba mal alineado, veremos que MUSCLE lo ha alineado correctamente (ver
Figura 9.84):

CLOSIAL mul tiple !Jecruenc.e •liqrunent by MOSCLE (3 . 8)

g1114535811 31 re!H!M_lZ1676 . 31 ----------------------------GGAAATTAAACCAC!GC~ ' 'TA-------


Q11123 1 870861gb1 Ef1 ~5 334 . 1 1 -------------------------------AACATGTCGACC TAACACCJIIC
gii66Q75037 1 Qb i JIY ~71874 . ll --------------------------cAGGCAACATGTCGACC I AACACCGIC
gi 11453359071 refH!M_101814 . 31 1\AAAA!GGCCCAC!GGTGGGTGGAGAA.TGGTAATAA!TCJ>.G!TI • .1AAGCCTTCT
gil28192426 1qbi AY074787 . 11 --------------------------- -CGTTGC-TGTCGGTIC • SACACI~
• • •
Figura 9.84. Alineam iento con MUSCLE

9.6.3 Alineamiento múltiple con T-Coffee

La herramienta T-Coffee está disponible en hllp:l/www.ebi.ac.uk/ Tools/


msaltcojfee/. La configuración del alineamiento, en este caso, cons iste en establecer
la matriz de susti tución que se desea emplear al ge nerar e l a lineamiento múl tiple,
194 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

escogiendo entre ningu na (non e), BLO SUM o PAM (se trata de una PAM 350).
También se indica si se desea que las secuencias se ordenen según el alineamiento
(align) o que se mantenga e l orden de entrada (input). Una vez establecida la
configuración, pulsando e l botón Su bmit se obtienen los resultados:

lt~"""- ~ GuQ Tftot D!vt~OC.,......, ~$001'1 0.1"

'00...~ MOt'lltin( Fft: $tne to O..t.»~

•••......ua,m~-AA\"Jiti:Ara.«tOI:TlCA.r.tcoe
-·.t..u.u:~¡¡o:w;r.VO»)Ulq.na.ur.-..a.na.. ---·
·-«.l.Ur.;~.AA!Ue~···AAt.\!4:.:AAX·~·;._·····
••c.c"ll'Ot1t:r.om::e- .u.>J.;).>M~Ct. ••• .cr.u-.••.
.
~;r~"(~·~ ~~~I(".U:l iX ...
.
o~ •:ult'~"-"r: nu~ .1' ~l:OJJO..~·~t*l.loC't·~~
o• ltl$i:U~?I1dl Ml)tttU ,3 ' ..;rttM··-··1-NJC'fA·o\···~·•·m~····
~o !: I H$1UJI:t: lk_:.!UI'C,J· '*-"t~~'r:-:-:a.:~";t"-~..13J:
9l l!l l tN;·I~I.Utl" I 'U.t J ··lt'tU·· •• •••~-<;. •• ~U.~.Uftl:·I·C::1-<;tt••••
?: l t~l)4J'!I'li>IU•~telt. \1
.. .
~·:~ -~IK·l.D('t-~
. .

Figura 9.85. Alineamiento con T-Coffee


PROTEÓMICA

La Proteómica, en su acepción más simple, es el estudio del conjunto de


proteínas de un organismo y consiste en el análisis sistemático de dichas proteínas,
su estructura, función y regu lac ión del organismo en cuestión.

Por lo general, el estud io de las proteínas es mucho más complejo que el


del ADN ya que no se dispone de técnicas de amp lificac ión con la PCR sino que e l
estudio de las proteínas debe realizarse in vivo . Además, no existe una ap roximación
estándar para el estudio de las proteínas.

10.1 GENERALIDADES

Las proteínas representa n e l 50% del peso seco de los seres vivos de la
bioesfera (ver Tabla 10.1 ). Se trata de compuestos químicos de gran peso molecular
formados por una secuencia determinada de elementos más simples denom inados
aminoácidos y que desempeñan funciones estructura les (colágeno del tejido
conjuntivo), transportadoras (hemoglobina de la sangre), nutrit ivas, inmuno lógicas,
hormonales y catalíticas. En ellas reside la información funcional de la célula.
196 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

Componente /c, del peso total


0

Agua 69
Iones inorgán icos
Metabolitos pequeños 3
Proteínas 18
ARN 1. 1
0,25
idos 3
Otros lípidos 2
Polisacáridos 2

Tabla 10.1. Composición aproximada de una célula trpica de mamífero

10.2 ESTRUCTURA DE LASPROTE(NAS

Conocer la estructura de una proteína perm ite, no solo conocer su influencia


en el comportamiento fisico-químico del organismo, sino que sienta las bases para
averiguar cómo interferir en ellas e inc luso, diseñar proteínas "a medida".

En esencia, todas las proteínas so n polímeros de aminoácidos, caracterizados


por presentar simultáneamente un grupo ca rboxilo (- COOH) y un grupo am ino
(-N H 2),junto con un radical lateral (R) que es el que d iferencia unas de otras.

Grupo ácido terminal

Grupo amino terminal


o
a

Figura 10.1. Estructura de un aminoácido


©RA-MA Capitulo JO. PROTEÓMICA 197

En la natu raleza viva, 20 son los aminoácidos más comunes. Los aminoácidos
se combinan formando compuestos denominados polipéptidos mediante un iones
llamadas enlaces peptídicos. El enlace peptídico se prod uce cuando el grupo ca rboxilo
(CH 2 ) de un aminoácido reacciona con e l grupo amino de l s iguiente desprendiendo
una molécula de agua.

A l orden en que los am inoácidos se ordenan para forma r proteínas se le


denomina estructu ra primaria. Es altamente específica de cada proteína y un cambio
de orden o sustitución de un único aminoácido supone la a lteración de la mo lécula.

Esta cadena polipeptídica adopta una disposición espacial denominada


estructura secundaría. En esta estructura espacial la cadena princ ipal forma la
estructura central y cadenas laterales que se extienden po r fuera de la hélice (hélice
a lfa) o en hoja plegada (plegamiento beta).

La estructura terciaria es la estructura tridimensional de la cadena


polipeptídica. Cuando hay más de una cadena polipeptídica, la rep resentación de
cómo se interconectan entre sí y de su organización es la estructura cuaternaria.

La información necesaria para la síntesis de proteínas está contenida


en e l ácido desoxirribonucleico (ADN) que se forma en el material genético del
. .
microorgan ismo.

10.3 MÉTODOS DE PREDICCIÓN

La pri mera familia de métodos de predicción so n los llamados métodos ab


initio , que parten de la suposició n de que, para conocer la estructura de la proteína,
toda la informac ión necesa ri a se encuentra en su secuencia de am inoácidos. Su
principal ventaja es que permite modelar proteínas tomando como dato de partida su
secuencia, aunque son computacionalmente muy costosos. Todo ello hace que en la
práctica se ut ilicen como apoyo a otras técnicas más potentes.

El segu ndo conjunto de métodos de predicción es e l mode lado por homología.


En este caso, se trata de buscar proteínas cuyas secuencias tenga n cierto grado de
s imi li tud (por encima del30%) y, apoyándose en el mismo, suponer que la estructura
de la proteína bajo estudio y la de la proteína encon trada también serán simi lares.

Sin embargo, cuando la similitud entre la proteína bajo estudio y la referencia


es baja, no es posible aplicar el modelado por homología. En estos casos, se utiliza e l
reconocimiento de pliegues o threading, que consiste en someter la secuencia de la
proteína bajo estudio a diferentes p liegues conocidos y evalua r cómo coincide dicha
proteína en cada uno de ellos.
198 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

10.4 MODELADO POR HOMOLOGrA

El modelado por homo logía es un proceso iterativo que consiste en repetir


las siguie ntes etapas hasta conseguir una calidad razonable en los resultados (ver
F igura 10.2):
,.. Identificación de estructu ras conocidas o referencias relacionadas con la
secuencia bajo estudio ut ilizando métodos BLAST.
,.. A lineamiento de la secuencia bajo estud io con las referencias (por
ejemplo, con CLUSTAL).
,.. Construcción de l modelo de la secuencta bajo estudio partiendo del
a lineamiento realizado.

,.. Evaluación del modelo. Si se supera el control de calidad, el modelo


se considera bueno. En caso contrario, se efectúa una nueva iteración
revisando las desv iac iones enco ntradas.

START
V

f IDENTIFICACIÓN DE
ESTRUCTURAS DE
RE FE RE NCIA CONOCIDAS
>
ALINEAMIENTO DE LA
SECUENCIA BAJO ESTUDIO
CON LAS REFERENCIAS
---·---·----------·--;,
CONSTRUCCIÓN DE UN
MODELO DE LA SECUENCIA
BAJO ESTUDIO

AJUSTE
CORRECTO
y
( END )

Figura 10.2. Proceso de modelado por homología


©RA-MA Capitulo JO. PROTEÓMICA 199

10.5 RECONOCIMIENTO DE PLIEGUES

Los métodos de reconocimiento de p liegues, en lugar de a linear secuencias,


a li nean estructuras. Colocan la secuencia de la proteína bajo estudio según la forma
de la proteína de referencia . Por su complej idad, quedan fuera del ámb ito de esta
obra aunque, por completitud, hemos creído necesario reseñar su existencia.

Afortunadamente, existen herramientas informáticas que nos


j" - :1,
$ ,··· as isten en la predicción de la estructura 3D de proteínas utilizando
\_~
\:- métodos basados en el reconocimiento de pliegues. Una de ellas es
- Libellula, basada en redes neuronales y de la que puede ha llarse
más información en http://www.bioin.formalics.orgl wiki/LIBELLULA.
PRÁCTICA 4: ANÁLISIS DE PROTEÍNAS

A la hora de modelar una proteína bajo estudio, conviene llevar a cabo


un análisis básico de su secuencia y estudiar el grado de deso rden, los motivos
funcio nales o la ubicación subcelular, entre otros aspectos.

La calidad de la predicción aumenta si se consideran las secuencias


de proteínas homólogas.

11 .1 ANÁLISIS BLAST

El análisis BLAST de una proteína permite encontrar otra proteína s imilar


en una base de datos de secuencias.

ObjetiYo Herrr-amicnta BLAST


Información sobre la función de la proteína bajo estudio BLASTP
Búsqueda de nuevos genes que codifiquen proteínas simples TBLASTN

Tabla 11.1. Herramientas BLAST


202 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

El objetivo es encontrar proteínas similares a la siguiente:

>gil1087105321gbiABF98327 . 1 1 Oxa l ate o x idase 2 precursor ,


putative , expressed [Oryza sativa (japonica cultivar-group))
MEHSFKTIAAGVVIVVLLLQQAPVLIRATDADPLQDFCVADLDSKVTVNGHACKPASAAGDEFLF
SSKIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVGIVLRG
ELLVGIIGTLDTGNRYYSKVVRAGETFVI PRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTL
FGSNPPIPTPVLVKALRVDAGVVELLKSKFTGGY

En primer lugar, abrimos la página principal de NCBT-BLAST (hllp:llblast.


ncbi.nlm.nih.gov!Biast.cgi) y escogemos la herramienta BLASTP (ver Figura 11.1 ):
8 81..<Sll *'<k'--'•"lotll•"•- .,;·; ...._ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _._ ... =•¡
+ . .. .. .,... ...
~-~,..-. •,

• IIC,.et.A$1*"""
...A$Tfl~~ottiml~tory~~ICOI -.q_... U.::..

lez~ OELTA·8LAST. a tnOre S8tiSllltt'C pror.elr\--pcotOl'l SOftfdl .!ia~ l

-
.......
....."""" ....
."""" º"'
• 8&0 .""""'
.""""'
o Hoo.:y b:::
·- Z't<HCtl 1'1:.. ~.,..

kA!.""..,...,._ - M...._..
..
.... ...w-n!O'IW

·-
~,....-

...
• C.. o c. ..... ·~
~ CI...tba
f~ :II: J.., ;j;1t

1! »40 IL61111QCM
lrffOUP

"""" BlAST

_ -
-_... __
.. .....
J
,.,._~..,_,

,...IIIIIU'.......
I -·""'"-.
_
_,_...,.,.,.,.,.,_ '11;0
- -~-(­

Figura 11.1. Página BLAST del NCBI

A con tinuación, pegamos la secuencia de la proteína en la ventana de


búsqueda (ver Figura 11 .2) y en Database escogemos la base de datos SwissProt.
©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 203

8 ~llMI'IIt.lf(lo l"'lloll, ., .,;•;...._ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _, •"'==l

,.;.uu.,.., • ..,.,;,..,.. t(lryu ,_.._,... 1; •- • u _ , ; , .,., .._,..;.)


....-:ro:r~...:.&«;.~.~'tu~~ar.:r.g:~.~~.u.u.c;::c
n.ouo:~.o."""".........,_~,uv.-:r.~.,..,,w.
• .....
o:-;u:r..t?r.WT...M'01nu~rn "r~·~····'~
~:·.Tmn~W~::nr.l"r.\'IOJ...'v.I.I.~:.1:U.ICUr.=r •
Oo,<lplcwt. . J ~- ) Mott lsntlt«IOftMO ~i"9:ttlltfli<O ..
Jollflh ,.,i)Jt t~~ II Oq#<llt O!k!Ut

Allgn f""') or _.,. ~· V

()loo:Ke S,.:1tCh &1

-
:::: -~~~~~~~~;;;;~~ ...
1"" '"' -
~

..
..

Progrtm 5e~l(ft
A.lforil'- • d~~~~ ,,.· ·~-EII.J.SI)
PS!a.AST~~l<tto'lllodev..m')

Figura 11.2. Página de análisis de la secuencia

Pinchando en e l botón BLAST, obtenemos los resultados del aná lisis, que se
dividen en cuatro secciones:

11"' Información gráfica: mu estra en qué partes de la secuencia, la secuenci a


bajo estudio es similar a secuencias de referencia encontradas en la base
de datos.

11"' Refe rencias: lista los nombres de las secuencias si mila res a la secuencia
bajo estudio.

11"' Ali neamientos entre la secuenc ta bajo estudio y todas las referencias
encontradas.

11"' Parámetros de la búsqueda.


204 BIOINFORMÁTICA: El AON AUN SO LOCLIC ©RA-MA

• 11(:-IIU.Itl -··- ._..., ~ '1Mt\C1JU:DU


&r: rQJlt ll.~ ~M~ .. i:tl''Y!..il!t':"~
gll10871 tm2fgb¡ABF98327.11Oxal3!e oxidase...

AJt) u ggctJJrou (D'por" on e>¡ -o; n n e-o)


Q.tfv 10 ldfMIOI D.IIUM"W KM10 nr
Oori(rll)l- -:o IOO'l0$32 '0biA(!~3r. 11 o..~~OO:diltf ~ ~W. CVI.ilOI~ ~rfte- Al fiOO'WtclvA<Ifr( ~1.: C05 ti~pte..,., O§.~:>tot-DIJ:-:OW
bP<hi ed ;Oc'!u ')11.' o..~ ~lr ·ooown e.ocl..4no tnkOI"r'oentJI ~trom ·.YGS oro)«tl
~le twoo .:,mno :¡(Id flroo,.,. lllAS1'P 2 .2.29'* .. ~
Cl- v b ll(lltlo J~O

c::tl>o.o....,ortl: .. , .. ~..,~ ,..... _...J.(!~~ ,. <:"P '"'-Ji'"'lt"C tl g of, h'~P ? 1111


1lil:l CEl.TA·BLAST. a moro SOr'ISillv6P«*litl·~SOOf& ..i~JI
® Gup!!!s lkllnrn.ary
Ci.lDt.etfpOOM

Figura 11 .3. Secciones de la página de resu ltados de BLASTP

La sección de información gráfica ofrece un resumen visua l de los resultados


(ver F igura 11.4). La secuencia bajo estudio se encuentra en la parte superior y cada
ba rra representa el fragmento de una referencia encontrada en la base de datos
que coi ncide con la secuencia bajo es tudio. Los colores ind ican la relevancia de la
coi ncidencia.

e !:l ·r~

~ c-<Wd dom• ¡,qa.,...., ...... ~. clc'l ooo 1"-lm..,O~ b doi.>IIH ,......._


_ , _... ' ··· · j' ,, .r .. 1 . . . '& ····+,. , .,. . . .. 1 .. ,. ¡ . 1 1 1
""
'

-..c lH~ U \.1 ~b\,.1


,.._r...su~ 0....10'\al .alfl"'l,.f -1 1\1

Figura 11 .4. Sección de información gráfica


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 205

Por otra parte, la lista de referencias encontradas en la base de datos (ver


F igura 11.5) proporciona, para cada referencia, la siguiente información:

11"' Nombre y accession de la sec uencia: con un hiperenlace a la entrada de


la base de datos que contiene esta secuencia.

11"' Descripción: procede de la anotac ión de la secuencia y permite saber,


de un vistazo ráp ido, si la referencia es re levante para los fines de la
investigación.

11"' Relevancia estadísti ca (bit score) del al ineamiento. Cuanto mayor sea
este valor, más similares serán las secuencias.

11"' Valor E: es otra medida de relevanc ia estadística. Cuanto más similares


sean las secuencias, más próximo a cero estará el valor E.

,1 ~ NCal&.o~t>tii.OPI')Sl.'t~ ...
. . ._ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __

+ & tt " _ _.._ ,"' ·•


WQup!'!!s Syremtty
S oucriptloO!!•

...... ... -.. - --


'"' ...
ser~-~<.-
'
...A
o •

¡r. O<t~'Orl'J'~ 1QO'tio ~"' IM l f' (>) 1';:;-&..t .,)


.., ....
t!:l ~----P1·~·1.!!9'1P•-'~~•~--c,~
~·.k)!!)e)Q.,{)r~.)I.'Q.J.U'OQO Q:id

'" "'
'" ..... ...
1CO'IO
100%
!: ...l'li!ll'
,,. ""J!"Y!<<Y-1-1
ll'J Oit~t~I!U.nta.Hf~Jn~
..,. '"
•o~J
,_.., ""
100"' )t-1;4
,,.. zz:IE;•m<'m-:U
~ PII'Kir:IJ'I'> ~·.A~*"'". ... .....~ -~
'" 100~ .._...;!!;!~· 1
~'~ :..~~~

e:; ... u • • , .•• , . -. . ..... . .,....,.,..... "


..."' .,."''" ...
100'1io lt-Uf

2..
""
)t.t))'"' ,,..11'~)U

~•v.oor-' '

1P" (D~~'f! Ql.$1 W))..:..u~~ "' Jll "" r,.rn ""


,oo,. "" >r """'"'"'
t)i 6CC·· ~,- ~

"'
\Oit;l:.;l(kt_.·;__c~ LOC 1'. .'<!~J2$Tt-lot. :111Zt t:u.tl

...'" "'"' ,_, ....


100'10 h-IU
"' l
1#> Mil•"'"·

,.,. ...,, "" Ci".CU'..zaJ


.. ,..
U': !Xl,4JIWI~ 1

t~t'•t li'1 1UJ.~


""
""'
fl.ta:Njt,tn~-.:.u~.1~1t~ "'
"' '"
'" ,,. ., ;~ J., o.4 1HI1

..."" "'
'"'
..
1- lll

••ll*
~ ~1:23J

-
Jí ' etcl..~~~t.l.0.0:1rotJW:Sif~l!)t1J;•C~II"\'!U"1,.C"
"~ ~l..l

1!: Qo,,,,. ,...!Ji*(i•.lfl~ ,.. "' .,, ""


... ,. ""
~~ Clall'll l
"' t7'tio

'" ""' """""'


Figura 11.5. Referencias encontradas en la base de datos del NCBI
206 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

La Figura 11.6 muestra la información proporcionada para cada alineamiento:

lltllo"""* • ~
~IQ!Yl<l~ll~ Gtov!ll
...._.a~'~~
·ttu~~JI'«.U
W;bo

'"...,..m..._, .. ...,....,
... .
Adot.,.. ltdo..-1;.,
·--
C ~·t • IIIK«>~I·; Oll't -NI'
"<- ~·····" ~~-..o~ñ•ad,-..
~IHI~I lW) 0.·16-1 - .__,t>K
7nll'lo(l-) - -
170/)?Q(IOOII\} ~
Or
(nvo;O'IIo) . . . _.... (Wi~f. . ~-

0:.:'1 ! XCCriD!.U{VJ:'A~.J,.:Ir-!~::L
lCU..-n::ltu:O
~.Q:t:n:l..
~•":'"~~
-.".":'",·,~~~u::;.:;~r:-,....:~.~=
c:- -~-
"tltl Y-o:"ttt• "'O"e4-W-"
llb)n 1 .u.r.aiN,t;V/l'A~lAA:~ttn.:::uu·.or~~ •O tX%.(~=;,)3;. " " ' - - lOe-~.,
~:y •1 otl'U".J:IIXA:fi)I>'~Jll'l":t~n:t#.':!liiiCD:It~n'<o~Jo. \JO ~-.. ~

~'" ., &Hi::H~~~~~~.iiif.:i~~:t.-1 ta
~:T ::~ lt"~!"'.'l.Je~\...!::-r:.=-:~I!'A~I".':~~n.,or.r.u:l«,"'! ~ 10
;.n·r..:-.':AO.U.:.'"Ol :~r:v.- ;suy:r;.~r,-: ~r~:ll:',.,,
..O)n Ul ...
•u:..;:vlJrt';;U.:.W;~¡:-rur:;nn~.:: ~M~riQ"~lCII('I'lJ loO
~,., le~ ¡¡¡j¡"I">Ttr..n.n!lln:rr.,..1.1.T.U..r·~'-:.uar.r.~l1'
lel'"o'n'R.!¡fUWa!P!;>.1)..."1:'>.U'.~I'.~G.""Y
::•
~~" lt1 i'Wr•T\7..UN."lri'tJó'f7>V·1?J..I".tooS7...~~-y 2N
1

Figura 11.6. Información de un alineamiento

En primer lugar, encon tramos el nombre de la referencia enco ntrada con la


que se efectúa el alineamiento. Además, tenemos información sobre el porcentaje de
similitud (un va lor de 25% puede considerarse aceptable), el valor E, los positivos
(porcentaje de aminoácidos que son idénticos o similares), los huecos (am inoácidos
que no están a li neados) y la longitud de l alineamiento.

Os03g0694000 [Oryza sativa Japonica Group]


Scque ncc 10: reflNP 001050968 11 Length: 229 11umt>cr of Motch e$: 1
r>See 6 more trtle(S)

Range 1: 1 to 229 Gll!n P1=p t Graph k:s


Scoro E-"!p Qct Mo thod l d o-ntrti<H
"
Pas:ltivos
' "
c... "
463 bits( ll92) 9 e -l64 compositional matrix adjust. 229/ 229(100o/o) 229/ 229( lO O%) 0/ 229(0%)

Figura 11.7.1nlormación sobre el alineamiento

Sin embargo, la parte más interesante es que se corresponde con e l


alineamiento propiamente dicho (ver Figura 11.8). En la parte superior, se encuentra
la secuencia bajo estudio mientras que en la parte inferior está la secuencia referencia
recuperada de la base de datos. En tre ambas, aparece la línea de alineamiento, que
muestra un símbolo '+' para indicar que los aminoác idos son similares; una letra,
para residuos idénticos; y, un espacio para las no coincidencias. Finalmente, los
números de la derecha indican las coordenadas en las que la secuencia bajo estud io
y la referencia coinciden.
© RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 20 7

Q\1<:::-y 1 Y.t:iSFKTIAA<;WIVVI.l.!.QQAPV'L l AAT~ADI:-LO.DFc;\I';ULDS":rCVT\l~Ciii.Ci<P.\SJW; E.Q


Y.E.HSfKIIAAGVVJ1NLu..QQI¡PVL!RAT::>ADFI..QDfCV"ADLDSXVTI1iG!U.CK?.tSAA!i
SbJct. 1 MEHSMi llGWI'WLUQOlP'IJLjPJo.TOADH.0DFC\t'}J)LDS:<V'T\¡1.ffiiilCKPl.SllG €0

Query 61 DEtLFSSKil7C-GITitilliPNGS!M!Lnvl.::.""WPGVN'ILGVSMNR.:.rDnPC-G!NPPHVHPít 120


OE nFSSKil:C-GD'Jtllii?NGS!MtLO'IIlEW?GVN'!LGVSMNRVD~-G!NP?3VHP':t
Sl>]e< El DEEl.FSSKil:C-GITilWi?NGSMELO'I/AZW?GVNlJ..GVSMNR:¡[IFAPGG!NP?W.>iP':t 120

Query 121 ATLVG!V"!.RGtLLV&IIG!LMGliR)'YSK'~ ttfVIP~L'Ci!QF!NGY.TEli.7MVVS 180


ATt'VCIV"WtCt:I.I.vtliCTLMC)mYYSI<'JVAAttTFVli»>.CI-'!:-I!'QFh"VC;at.A:'XWS
Sb]ct. 121 Ut'VG!V!.RGE.L!..Vl;l!G!LMGllR~'YSK'~ETMP~L.'C:i!QnNG:r!EA:-MVVS 180

Quecy !81 !'!IS:¡NPGIVFVP!.ttFGS~PPlPTPVLVIG.LR.VOAG\vt.L!.KSK:TGGY 229


F!ISJ,N?GrvFV?LTtFG~PPl?TPYLVKU.RVO}.GVV"E.!..!.:<SK:TGGY
Sb]ct 1e1 !:fiS:2,N?GlYf'VPLTt.fGS~PPl?TPVLVKU.RWAG\<'VE.LL'<SK:"!GGY 229

Figura 11.8. Alineam iento de secuencias

Si, por ejemplo, se hub iera escogido otra secuenc ia con un grado de similitud
mucho más bajo, e l alineamiento habría tenido el aspecto de la Figura 11.9.

!ilDownload v GenPeot Graphics


hy¡>othetical protein EUGRSUZ_H04166, partial [Eucalyptus grandis)
Se41enee ID: gb!KCW61436 11 Length: 216 Humber of r.t.alehes: 1
R.ange 1: Oto 216 GenPtpt Gr¡oht;s
Scote Exped Method Identities Positives Caps

Query
Sbjce
..
195 bits(495) 2e-58

6
I +L+L A
compos~ional matrix adjust. 103/213(48%) 132/213(6 1%) 3/213(1%)
~PVLIRATOADPLQDFCV1DLDSKVTVPGHACK- PASAAG,t FLfSSKIATG
A O PLQDFCVA O KV V»G CK P
ISLLILALATATTFAYDPSPLQDFCVAlliDP~GKrCKDPKQVTADDFLFKGFRYPG
D+FLF G
?2
65
Query ?3 GDV1WlPNG~WTEWJAEWPG\11I'LGVSlo'JlRVOF"..PGGTNPPHVHPRUE:VttiVLRGEL 132
AliP GS VI V +t GiNTLG+SH: R DF"...PGG NPPfl HPR TE+ tY G L
Sbjct 66 li-- :JU1PLGSKVT PAfVDQfAGUITLG l Sl'.AIU OnPGGLNPPBI BPRGIE 1 LVVIEGTL 12 3
Que:y 133 LVG: IGlLDIGNR'iYS?CVVRAGEl f"VI PR:iLMfi FQ:NVGKIEAlMWSfliSQNPG IVfVP 19 2
LVG + + N +++i<V+ Gi 'fV P GL+f.:Q N+GKI A + +SQ!i?G++ +
Sl>]Ct 121 LVGiV"''SNQUiNTfiT?M.I:<GDV:vrPIGLIF.:Ql.NIGKIPAIAfAALSSQNPGLIIIA 1e3
Query 193 LILTGSNPPIP'IP\t"'i,.V:QJ.RVDJ.·GVVC:LLKSKf 225
Sb) CC ,., +fGS PPI V"'i. i<A +VD W+ i.+++f
~iA.V!'GS~?!SAGVLTiG:QVD~l<WDY!.QAQF 216

Figura 11.9. Alineam iento de secuencias

11 .2 BÚSQUEDA DE DOMINIOSFUNCIONALES

Una proteína es una unidad muy compleja con gran cantidad de funciones .
Para simplificar el análisis de estas funciones, se definen los llamados domin ios
funcio nales encargados, cada uno de ellos, de una fu nción molecular concreta.

En esta parte de la práctica estudiaremos cómo buscar dominios


¡- ~ .·.
funcio nales en las bases de datos más empleadas (EBI-Interpro y
~ - PFAM), pero hay más. Sugerimos al lector que repita los ejemplos
con HHPred (http://hhpred.tuebingen.mpg.de/hhpred) o DomPred
(http://bioinfcs.uc/.ac.uk/dompred) y compare los resultados.
208 BIOINFORMÁTICA: El AON A UN SOLO CLIC ©RA-MA

11 .2.1 Búsqueda de dominios con EBI-Interpro

Supongamos que debemos encontrar el dom inio fu ncional y la fami lia de


una secuencia proteica desconocida.

>Proteina bajo estudio


MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEFLFSS
KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVG I VLRGEL
LVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTLFG
SNPPIPTPVLVKALRVDAGVVELLKSKFTGGY

Un dominio es un fragmento de la secuencia que tiene una


estructura estable y muestra un nivel de co nservación a lo largo de
la evoluc ión de la proteína.

Este problema puede resolverse auxiliándonos con la herramienta EBI-


InterPro (hltp://www.ebi.ac.uk/inlelprol).

Una vez abierta la página principal de InterPro, se copia la secuencia de


proteínas bajo estud io en el área de texto acon dicionada para ello (ver Figura 11. 10):

lnterPro: protein sequence analysis & classification lll{('f~O 47.0


ltC~O l)r'Ovo;)t. flll'ltliOr'l» ~ 01 ~ Oy ~lyo'\9 ~ 11'1~ t,li'Mtt ~ ¡)(~ OCI!t.IOI'lt ~ tfiCIOIUI'IC .. :M.W. •
Xll h ....,?014
'~ l)ft>l- ~- frctl't ¡ ~ of ~ &l~Mf oOto ¡ ~ ~I'MOIII'U. Ufo~ on IMf" M~ tt.eo:- Ael"'"'
<trcn¡thc 10 ~ ~ ,_~ ......., r.od obl;br.o :nd ~ti.; toeillto~ ._... :bout tnl«,_., • ....,~llo tM~tll ('.~).

· ··--· · 1'1_.....,..._~
~~lO.,l..'l"ld I'IV<o.~
- !l.KI\I';.fi~Y<hl.o-
..
~~~t"'YGfi(.Vo()l'>fVVUJ.QQN"Ylft.:.ll)<O"\CXlf"(Y~~~~FlfS
1.,,:;, CCOI.t~lOI.'A-"Vo1'CO,.,S!\.C~IrPOO~E'.ICI'tt.AC
tl~lCIG!~Ir~QtloNQ;:It"l~ 11$<)1~\'k,.rtf
f'IIIPTPVI.~~..ll($olfl00'tj

Docul'l'lefltQiion Pro:oo tocos Pubhcations


'-l>o.lt ~r>t.-: .-.. cono:FU, upd~'­ _,.~· ~tc--·­
l'roc•·•••..:v. h:w to c:o'.<:, ~,.,.. .,..,. o'loloh)* *"'rd!og<:,._, , . . - : crb: -t-:>n
((li"8(JfbJn~ l~~-~
00 'f'O<I f\¡IYO ,..,._ ~
~~ .r~a<.J'!o:_-i'!!'
... -netr ~ p,.,., "'""
rAQ,. ..~>.;~ .,..,. ,.,iG"r
t~' 0"4 ....,. c:.-ot ·~ -=~ 4t l"fi.1? Juo.t <l....c.bttg ....... 4Yt~l.o
.,,,. lfl<iv noottitlt. ..,~,.llftO •e.Vtt.,. tlJf ¡ tor'IC Of~ _, <o t~-. kh q4 o.<h ~ ""'* ...~.. ;t!tet~
Figura 11.10. Página principal de lnterPro
©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 209

Tras p incharen el botón Search, TnterPro muestra la pantalla de procesamiento


del trabajo (ver Figura 11. 11).

t.OA.OIHC.••

Your job is currently running ... please be patient


Tho fC~It or y<>uf JOb wlll ap~a.f In thls bt'OWSC!I wlfKiow . Thl$ pa9Q rcfroSh<!o!o automatrcally CY'«)' 20 soconm;.

voo moy book.mt~rl< t111s paoe to vtew your resvlls bner lf you wtSII. ReSult!O are stOted r01 7 d&Y'$.

Job ID: il)fs<¡tn$oS20140611·09480()-0S94-60660737•oy

Figura 11.11. Procesamiento del trabajo

Una vez que el procesamiento de l trabajo ha finalizado, aparece la página


de resultados. Esta página dispone de un a sección de fi ltrado en donde es posible
especificar el tipo de resultados que se desean ver según una serie de criterios. El más
importante de ellos es el tipo de entrada. A cada entrada de InterPro se le as igna uno de
los siguientes tipos, que permiten inferir cuándo una proteína coincide con una entrada:

,.. Familia (Family ): una fam ilia de proteínas en un grupo de proteínas


que comparten una evolución común, lo que queda reflejado en que
desempeña n funciones relacionadas o tienen una estructura primaria,
secundaria o terciaria similar.

,.- Domi nio (Domain) : los domi nios pueden existir en una amp lia variedad
de contextos biológicos y se caracterizan por una estructura, función o
fragmento de secuencia.

,.- Repetic ión ( Repeat): una coincidencia con una entrada de este tipo ind ica
que la secuencia bajo estudio presenta fragmentos que se repiten en la
proteína con la que coincide.

,.. S itio (Site): so n secuencias cortas que contienen una o más regiones
conservadas.
210 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Teniendo en cuenta lo anterior, el resultado obtenido es que la secuencia


pertenece a la fam ilia GERMIN (IPR001929), que se han encontrado coincidencias
en los dominios IPRO 147 1O, IPRO11 05 1 e IPR006045 as í como un site IPRO 19780.

hWI - - ·

Submtted

.........
.JI U ~...,..,

"lf 8 ~~oc-
CI ~~oFu..
~ O Sit•
1
·-·--
._ .. ===
- =============== ... xc.o. oco.a

Figura 11 .12. Resultado del análisis de la secuencia

Además, también nos predice las funciones que tendrá la proteína


correspondiente a la secuencia bajo estudio:

e- -···· tD Jn«<U110 IIWIC•'I.e.,... rt11 kU

• ~UOSI Rl'lfe·'"'=c.- ~

·- """'
~
======"'=========""== .,..=•u: •--<-•

...~c.o ~ -:o
.....
-
IIJ S'ROI~l<O

,~-

O M I'< U'II'C.,.,~ . .......

-
- ... ...,.." -.., '
:=~===============•'"')fii,.CVI~
. ..........oo.: ..-..
.
..................... "' • -
~. ,.

• ·~·11110
"'
.HI'Ile>' T... t

.. )
• · ~""'11• "
.,_o-.......
'

1\t;:lo..o;>Jtr F\II"Cbon
lf(()"'OI»>'.•~ - <>" t>-
lt~~'Z.l!-- .......

-·-
Figura 11.13. Predicción de las funciones de la proteina
©RA-MA Capítulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 211

Por otro lado, es posible exportar los resultados en varios formatos y


consultar las bases de datos biológicas de las que se ha obtenido la información.

Si pinchamos, por ejemplo, en el nombre de la fam ilia, en otra ventana


apa recerá información re lat iva a la misma (ver F igura 11 .1 4):

-- ..
--~ ~
II Fcmlty
Gem1rl <IPFID I929J ~~ .....,.
,....,.. n_.......-o_
l .:(>!-:.:<o: ~, '"~ '~ "'"""'-'<~~
., l
..............
• •••11)1"1$
' N.OOm fe.'!UU!I)

o.e.lrin~onc~ .,........,.lke pt"Gte~n• (1'JOM:Il': •t"Hl:;),.., • ,....,... or~ ~too.» p&ont


~-· Tr>ev ~•~t r•tro:tod to ~~ v--» ~ toelt.4>t a-J ~ <..eod
•o¡;oe:rin•'• but lhev e:>i•1 in.., •9-• <nd deo...._,t,. ~1.090• · ,........, .r. k=t pOifttw" ...,.,oc>.tcd -.itfl
t1le &tr~ ...,tr\1•

A .,.o>a '""""" or lvxb:n "M tloeoen OJ"'QQVeteo.l kf ~ ord ~n<lltt ~t..-. , 101nt ..::t •
o.<d.ot= ~= !• tC:l.2.3.-.)oc -:oo :W<~to.oodc -......- (# EC'.~.IS. : l ), """"o!Mt~ .,....,. to ~
~'!V111f I)I'Ott"' O>' ttUIIC«t fOI' *Roii'WJ tf I""'tc.r'IS•

~-~· 111<>t~-·-~lroi.>•to.,_._.,,,........... u......,u,.......,.._


crot(liM tmt aC'CI.QIJIJ tt !~.lll f Q.llng spll6!11Jti00, 1 croe~ n:l.ICtd by vs.:>Us f:ffi of
-•III'II!IIW~ l~U '"l'wbMMll to """Y' !..,.,!-~·

_,- •. 1

Figura 11.14.1nformación sobre la fa milia de proteínas

11 .2.2 Búsqueda de dominios con PFAM

PFAM (http://pjam.xfam.org/) se basa en alineamientos múltip les para


definir familias de secuencias o dominios y fac ili ta su localización en otras proteínas.
Dentro de PFAM existen dos niveles de cal idad:

,.. PFAM-A, que son entradas curadas de a lta cal idad y que cubren un
amp lio rango de la base de datos de secuencias.

,.. PFAM-B, se trata de entradas generadas automáticamente a partir del


procesado de la información contenida en la base de datos ADDA
(Automatic Domain Decomposition Algorithm), acces ib le en hllp:/1
ekhidna. biocentet:helsinki.fi!sqgraph/pairsdb/index _html. Au nque de
menor calidad que la anterior, las fami lias PFAM-B son útiles para
identificar regiones conservadas funciona lmente que no se encuentran
en PFAM-A.
212 BIOINFORMÁTICA: El AON AUN SO LOCLIC ©RA-MA

Una entrada PFAM se clasifica en una de cuatro maneras: familia (colección


de regiones de proteínas relacionadas), dominio (unidad estructural), repetición
(unidad co rta que es inestable de manera aislada pero forma una estructura estable
cua ndo está presente más de una copia) y motivo (u nidad corta que se puede encontrar
fuera de dominios globulares). Por otra parte, algunas fam ilias PFAM se agrupan en
c lanes o colecciones de fami lias que han evolucionado de un origen co mún y que se
caracterizan po r presentar una estructura terciaria similar o, cuando las estructuras
no están d isponibles, motivos co munes en sus respectivas secuencias.

A l igual que en el caso anterior, trabajaremos sob re la siguiente secuencia:

>Proteina bajo estudio


MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEFLFSS
KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVGIVLRGEL
LVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTLFG
SNPPIPTPVLVKALRVDAGVVELLKSKFTGGY

Figura 11 .15. Secuencia de la proteína bajo estudio

En la página principal de PFAM (ver Figura 11. 16), seleccionamos la opción


Sequ ence Search. Aparecerá una caja de texto en donde pegaremos la secuencia bajo
estudio (ver Figura 11.1 7) y pincharemos en el botón G o para proceder a la búsqueda.
\•

II ON- r 1 Sf Ait CII 1 btOwSr 1 rTfl 1 ti HP 1 •tOUT Pfam


Vtam 11.0 (Narch 10 13, H831 tan'A!s)
~~-- -
TI~ "-"'"d.~.. ,. • t.rp. collooc'oon ~f PIGt..., f...Mon, -el'! ~.,,.,.tood tJt n" .oltlplo: ~.....n<:"'
~lio.,._U. ~ hiclokl't M.(ltiiOY ~(UN-M$). ~


()ulOe U JeiiS YOU CAH rutO o ..u, IH fof A.M IH \IAIUOUS WAY!L.
SIQ!IIf!f!'f VAftOI Mil',.,_ yov ~~..., i..qu.'IC• f« Of0111 -tu-
YU,W A""'""' I'AJIII. IlY V- p ( - ,......, M>I!Ot;I,!I(Joll arld ~U

VIXW A S(QU[MC( l . d ot t:h<: ~ CI'IJ"'"'"'-' ol • J"oteofO ~e


VI,W A li"UII.ICTUII• ..ind th<t dom- on ~- •lruclulo

<»"- """~ - - · 0<.-. 1_..... ..


• ..,_ . .... . . ... of ... . . ..__ :o ... l"_ ... .... ....., . - · .._ ............

o-,.. '"'"~~~~ ro. .... .,,~_.

Aec-ent Pfa m t!k!!Jd' oosts


tto~•m.oa~ 3' t-lll-v!:OI41

~k l'l ~ ~l: ... :.t~~~ u~t u...xr~ c.:.m


ltltnt UK .. ,. mo"no n""
trot ~"Ita:~
Tt~t ~ 2tls-bQ;t~ to) ~ ('~,~t(ll)toOh ~(1(, i""itc\ltol («:Nl'l·((JII), IVM l'lfiot dOof Oll ~
weac- Tn,.,t c:er- ~· Or\ l w"*Y .... e:~~,,_,,_ b)' ~olt tne ,__Md
~ 10tbt•~~ rdl'1"' SJII!!« ~ ff!Cille«<I'IO ;II IUI'tlC ¡._¡

Figura 11.16. Página principal de PFAM


©RA-MA Capitulo I L PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 213

... f!<. ... _ , ..,.

_;..:•.,1•·-·

M--
T ... 1< ~ 1>19" """"'-' of p<OI .... t-_ -"~-·"".., .,.....,.... ~·
.,....._[;, .to0 hilld(!n M<N'lov _,..-ej.. (HMM:1o) MO(c...,

~III(;W IIICJ

~' IICt .1101NICN


\II{WI. K ...M J'A,M._Y

V.LW A
VI(W A (Vr.lf

vrrw .. M:(IVrtt<7
on-..cn..._
'"ª'§''"'~""~
~ .
---
___..~-.
.............
--~~

·- - -
, §~~·~'"~""§.......
- ....---- § ., .,. ........
..,.........,
...
l'f-QMI<H

.í'fw<MIO~AIIoOtt .
,•....- -.,..,.-,,.._...,.,-& - - · · • - - • · -
--.-~··-"'"-""' .._-~
,_

Re<:t>nt P1~111r J!kWii" OO.SU


~ASMJ.!M'fl'fl- 1 "h 2'0's.&l
... ~-

h(.t ,..._.........,. Klt "'• -~!NI ... ~·-·-" ... uo; • ..,~AI)oo t~ooo:ow.-c-
TMt~ WCkutt U ll'lt f~ (lo(JOO.....IIQ n.w.tt ~-Eel), ).ot( 1'<00 00<0' O&<ht
~ ....... co.--~- Oo ,........., .... ~·" .,.,. _ . , . ,...;~.,w,.,.l'f_..,.¡
.,.......{.. .....,. * - ~ ~ Mllf¡t'll( t .•)

... .... .. .

Figura 11.17. Análisis de secuencias con PFAM

Si queremos inclu ir las famil ias PFAM-B en la búsqueda, hay que pinchar
en el enlace K eywor d s search y se abri rá la siguiente pantalla (ver Figu ra 11.1 8) :

.... • • .. . - "
.•
e O··- p

rrQNr 1 sr.~o•o• 1 ••owsr 1 111• 1 " ' ' " 1 At Out Pfam
.......,_
Search Pfam ..,_ .1 - <:: -~
• • • ~·
• Sequence searc.h

~ )lr<IUl&& ...:0. O.Jll;ot.O


Mt'n,..l.lo:):I.Vr.~:...-.r~~~·vr;·.•)IQ(U.u.tr.~oOOJn.

:»111~1GGl"o'::lU~t.:'o'~~~,..,_n::vfl
V'...iCilllt,-~: laT~...,.,._Y'I'SirO\w.cr.TV:f-l":~ntM~
VJYt:.~fl! l'1f'Y¡;~'I~'t
Jump to.• . -"
,...__ m

c . . - ..._ _ ... - - · ...... _. ....._ - . - . . .....


l o•••• • • Ohl . . olo t ••oloo• ~·•••.toH

Figura 11.18. Opciones de búsqueda

Aparecerá, ento nces, la pági na de resultados (ver Figu ra 11.19), en donde


encon tramos, coincidiendo con los obtenidos en el epígrafe anterior, que la proteína
bajo estudio pertenece al dominio funciona l C upin_ l .
214 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

--
----·-14>-.
s.q~ - d t

__ .____
" ""'Uo
!M ...... _ ••"'t<<''••--••
. . . . _ .,_._-..... . .... ___ ..._,___ . ___ _
- : W N W . M .. ON.,_ _ _ _ , _ _ _... . . . _ ,. . . . . .,..._(IOat:O-G'O- ....

_____
........... 'P......_ .......... ... ..,_
,..,, ___
_...,_,.lloo ...
_____ ~
Jf_ .., _ ,... -
..._...- ,... ... .,. ...
.... ......... - -........
~
'II'>J...._I>'I.,_ A-O(lo"C"'l"' · -
.. .,., _ , _ _ .. _ _ _loof--...-- ~
..
~·-·· · - ~""'----

....___ --...._._.., __ __ .. _.........


_ ,...,.. _ _ . , . . _ . , . . _ _.. ,,.... , _ . , . _ _( ......

. . . ____ _ __ ..__
t'o~

-·"'-----·
.......... ""'.--.. . . . ....._________
....,._...., .._.......
.... ~ . . ""-. . ------
~-·-'"""-...""'"'..,._x•
~·~--'"'-•-...,..,.---•l>-• -~·-~to~~-••;oo...,.floloJ(I<.<f-.,_"1~ . -.,..,,.._.,.__..,;..,.
.. --_..,--......,.,,_,_d....,..<_ti>•W..OO""'""""-
... ....._
_.. _
~~ _1>"~- l'le:K"i~~

_. _____ _
.~

_
""""' ..,.., u.,..c.-_ ~ _

, -"'~-(
.,..,_ .. u-C>O••· -...,¡t;--.
............. ...__ .... ..........
.._.. ..

-·-
- •raoo _-...-..- -. .- - - - - · - -......
- · ·...· _,.~,.. · ---~ ..... ..__ . , . , _ ,_ _.,._
- U'~ . . . . ._ . ,_ _ ~ ~ -.~ ..._ ..... .............. _ ... . . . . . . . . "" . . ._ _..,......, . - _ . , . . , . , _
.._~,

-
-0" _., _ _ ............. -

.....,, _ _ . . . _

- - ' rf- Jo -"Oo- · -..._¡•


......_
- -
... - _ . . _ ..... _

.... . _..... ,.._ _ _ ..._ • • • y ...._ ,...... _


....... - . _....... - _ . . . .. l ... _ _ _

..,."--}. v.,...., ......- .... _,,..,. •f-e_,_,


................... _ . _ _........ . _ .. _ , _ _ _ _,..... _,..,.o~~o,. _

...
..., _.,._..............,......_.... _.....-
lilll'!ll't _ _ _ .,..._. _ _ ._,....
"'""'
SIQ~ ........... ..... ~
v.-. .. ,.'1 .. ..,._...
.....
o....
--
-.. .....h_,.
.......
~ ~
.,.,......_ ...... _, ...
• .... - .... ·- .. ·-.u -
u.. 1
..... 1 • ..... ....,......
,¡-

-
t«e..l.

........
oJI
................ _......_,.. ........" ,.. ... . ......
..... ,..._....
.......... ,,_ ......... -.............
~

.,..., ............... ...........................................


lll ... 1 • .....

•• •••···· .. ..•...........
••-.t •......t ,.,....... ~
,.. "01 .... ,..
t . . .. . . .

•• ,, ••• •• .-.................- .............. .......- . . . . . . . . . ..... , ..


·~

Figura 11.19. Resultados del análisis

Una de las posibi lidades que ofrece PFAM es co nsultar directamente las
características de los dominios funcionales obtenidos en e l análisis. Si pinchamos en
e l enlace de la columna Familiy, PFAM mostra rá en el navegador las anotac iones
dispo ni bles sob re el dominio fu nciona l en cuestión (ver Figura 11.20).

... ~- · ·
__ ··-
- • .... . -
-·-
.. -tt 6 . . . . . .. . .

.: . - --"·--.. . . . . . . ., • "

_
F~mily: Cupl n_ l i PF00190)
~

-- '

.. --
-----·- .. __..._.__..........._..____
__ ·~-
..._,.
. -·. . . - . . .--
_-~--·- · ·--··!too

---
-·----
_;;~-
. -......... ..-
Cooo!n ~MIIIy ~ili
_, ___~;;·;· -
____ . __...
11 1 1! . ps

--· ._ .......... ........ . ,


. _..

.. . .
·-·---..--·------
.....----- ---·~·- ·
,. ......
= • .-_
_, ~

- ll«ot-• 1(••=·1)

._...... ----Oh-·---.
_,.._,.
·-~ ~-'-

_..._____
____ .,. •·lll-otf)loi;l•
,.. . . .
..-__. .
~ ..__. .,.¡.,~'....
__
..
._.,"'·-~-·----·­
_ _ IUOO"...._,!_,,.._._,.

-----------··
• l' ._.lO_ot

""--
- -- ----·-- .. ....---~........
..
.......... ...... .... ---
----·
,-· ~
.,,.
........ ,
............

·~
---~- :..t

Fígura 11.20. Anotaciones sobre el dominio funcional de la proteína bajo estudio

11.3 PREDICCIÓN DE LA UBICACIÓN SUBCELULAR

El análisis subcelular del proteoma es un proceso que incluye, entre otros


aspectos, la predicción de l destino de la proteína bajo estud io en la célula a partir de
la secuencia de aminoácidos de la misma, lo que co nstituye un paso importante para
determinar su función bioquím ica.
©RA-MA Capítulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 215

Según el dogma central de la B iología Molecu lar, la copia orig inal del
mensaje que porta la proteína se encuentra en e l ADN y se transcribe en el ARNm
pa ra ser transportado y, posteriormente, traducido con el fin de sintetizar la proteína.
A pa rtir de ese momento, ocurren ciertos procesos postraduccionales previos a la
utilización de la proteína por parte de la cél ula, ya que debe ser transportada desde
los riboso mas (donde se sintetiza) hasta e l desti no final.
Afortunada mente, es posible predeci r la ubicación fi nal de una proteína con
la uti lización de herramientas informáticas. Una de estas herramientas es PSORT
(http://psort.hgcjpl).
En esta práctica predeciremos la ubicación su bcelular de la hemoglobina
hum ana subu nidad gamma- !, cuyo accession en Uni Prot es P69891 y cuya secuencia
de aminoác idos es la de la Figu ra 11.21.

>gii567498601SPIP69891 . 21HBG1 HUMAN RecName : Full=Hemoglobin


subunit gamma-1 ; AltName : Full=Gamma-1-globin ; AltName : Full=Hb
F Agamma ; AltName : Full=Hemoglobin gamma-1 chain ; AltName :
Full=Hemoglobin gamma - A chain
MGHFTEEDKATITSLWGKVNVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHG
KKVLTSLGDAIKHLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQAS
WQKMVTAVASALSSRYH

Figura 11 .21. Proteína bajo estudio

En la página principal de PSORT, introducimos la secuencta anterior y


pulsamos el botón Su bmit:

PSORT Il Pt·ediction
... \\'a.flliDI . u

1l:il ,~sioo olPSORT is r~ SLOW. Pte.::s{' be~-

.Sourt'~ oflnpnl St_qnf'llt'f>:

Ea tt:1· J(III CA'TlNO~CTD SF.Ql[f.NCE


or !ht M·cr.ssloe '-'umbrr orSWISS. NtOT;

:o::IKnt.r:cr.:or 1:-.s=r:v:ror:o.:.~r:.ou:.·.'Vrl"llT'2J.T1'DSrtl!I:..S!l;..s.;.l~ rr.•..:


._'!Gitli.'.J1.~th!lol!la!!.OD:Y.31':.\Q:.!!::.!C'!:;.:t.!!'."t'?!S!Y"--!M.'Vlii!'~U!!!!'Gite!':
rt<:w;;.:;.~.-.¡,:r~s¡¡!M

,.,...lr•ll•""'f•Pfflt6St._•• ( &bnt 1

LM1 J41dar~· .\'.o\-.bw :!4, 1999


~,~_.~ct.t>t.,Jp

Figura 11.22. Introducción de datos de la búsqueda


216 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

Una vez que el trabajo se ha procesado, aparece la página de resultados (ver


F igura 11.23).

Input S equence

IC>if: U;;:G. :nn ...a:r!ll t'tUOI::L~ s:.:.~·nn~ a,:,.,~-,;,

!Ma:IBIW ~':.: t ll»o\JIQ!l,O tU$PJC'.,., t:.r.t~~:.r~


1= : . w; ~··Tlt.o\:1':..
~ r.:r.rr~ ~~~·~ ,c,~~~n

Results ofSubp rograms


..... e -u· ........... _,_
- • • •• •

M· reH~l :~ :-ti>. t: -·'*~ tt ~.cae~ t


ll• :t<:)t~~• :~~:-u:'' pul! 'I'Ct;t ~·"
U < • .,.,., · •· • •

. ,,. •• •• tu.....••~• • -:.uo -~·• •


PO.Ull>.l~ ClM-'..4 t fH~Il ht10etn h Uolll n

j\:tl(o tldn t• e t •t ••'»1 t~• DI ,.,.,, ti'N"' IZ~


,. ., ,...u ooa ...,, co:~u-•-• :
:t~'""" ~~• C: '!)CilfJ t ~< : J:,e :~J:.Ol4 O, S; 1
,:~r •t
:ldh~ Nr ~li«AO\o ~ •• , ~
...., •..,._... u.,.,.,, _ - a.u • •• : n ¡
J.:b( ..:.re: -O.Jl " · - • or oc»: 01

l<l.D;f~· " ' ""UO''""''U~V''"CM-o ol •~<'1.·<~1


a o:n:•~:: , 11,' 0 - ."< 1' 11 • ' ·"
'/lt1'0 ~nUlo • I~.:J O 0$01'"~'' l
t!<! OC!r.'""'llll : JH <!Ce~:!IH 1
mru .,,so

Figura 11.23. Página de resultados de PSORT

PSORT ejecuta, para la misma secuencia proteica, una va ri edad de programas


orientados cada uno de ellos a determinar diferentes propiedades de dicha secuencia.
Entrar en una descripc ión deta llada de dichas propiedades queda fuera del ámb ito de
esta publicac ión, aunqu e puede encontrarse en el manua l de ayuda de la herramienta.

11 .4 BÚSQUEDA DE ESTRUCTURAS DE REFERENCIA

En e l capítulo 1O introdujimos los principios fu ndamentales del modelado


de proteínas. Para pone r en práctica los conceptos ex plicados a llí, trabaj aremos con
la siguiente secuencia:

>gil1087105321gb 1ABF98327 . 1 1 Ox a l ate o x idase 2 precursor ,


p utative , expressed [Oryza sativa (japonica cul t ivar - group ) ]
MEHSFKTIAAGVVIVVLLLQQAPVLIRATDADPLQDFCVADLDSKVTVNGHACKPASAAGDEFLF
SS KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGT NPPHVHPRATEVGIVLRG
ELLVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTL
FGS NPPIPTPVLVKALRVDAGVVELLKSKFTGGY

Fígura 11.24. Proteína bajo estudio


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 217

A la hora de modelar y predecir la estructura y funciones de una proteína, la


mejor fuente de información es el PDB. En la página principal de PDB, seleccionamos
la opción de búsqueda avanzada. Aparecerá un desplegable con una amplia variedad
de opciones que determinan e l método de búsqueda. Puesto que disponemos de la
secuenc ia en fo rmato FASTA, seleccionaremos la opción Sequence (BLAST/FASTA/
PSI-BLAST) y pegamos la secuencia bajo estudio en el área de texto disponible (ver
Figura 11 .25). Además de la secuencia podemos especificar la herramienta de búsqueda
(BLAST, FASTA o PS!-BLAST), el valor E de umbral por encima del cual no se
considerará representativa la coincidencia encontrada en la base de datos o el porcentaje
de similitud que marca el límite de significado de la coincidencia en la base de datos.

• ..._,u••
o---•- ~.PDB l tuo..a.L

~ PDB ~
tlOT U,.- OA TJ. 'ANl M O: l~ J.-O l. 7014« S
~rt,a to (lfolook"" M.xn.JoniOiotuiM Structun•'
All lnfon11$ioa
PM JOf mcturc 1 0139 1 ~ PQIIStMI*' ,.; 0 0 al

_,.,_.__
; POli 101 t lldoo
~ .1-.0c-- ~~

---
...............
'-""'t>"F'l''"-~ ~~
~-·· "'""' ,._.. ~

$~ ·~ l

---
lOC:to·-·~
~·-

,....,.,;ow__
..--
. . _ p J• . • ,.,_,..~
O<~~.....
-$tQJtt'U
··

St.-d'> Tool
>OC IC$~ 10SJ.C~A(Irn»1. 1 1 0..~oo>441M lCOot<UftOr. ~t..ot~ [OI'!l~ ...,_,
(l. . . . . . (<Jti<¡rr"70UU)o):
~...t~t:W:!=::z.~YI'M:;ti.\C'-"~SWJGGW"'~

....... .
J

...•
....~.
'"'tiMe 'A<0 .!!L.!.
o.-...... ,'4 C...V~ty
c.-... c-v~t ~
-~
<.• • .,•• J
"'""'"'"'.......
- l'>...o«.c k.tv....
~q.l..nt<>
lOOtiQC:, o,wr
(~)

Figura 11.25. Búsqueda por secuencia en PDB

En cualquier momento es posible conocer e l número de resultados de la


búsqueda pulsando en el botón Result Count (ver Figura 11.26):

~l#n ~ (S I.AST Qf F.ASTA)

Stn~tnr•td
70 POft
EnlitiQs
~~;:>! 1\ 1 ._-.,y YIYYI.U..\,1\lN"VI.I OV.IVNJf't.\,lVI'-I,..V""-"-.V~V OVtll'l,.>f....\,.1\t'~l. 1 U'-~:>1\._.. 1\A1VV .._'t'O\,>
SNVTELOVJ',E\VPGVNTL.GVSIMit\'OFN>GGn.t~~I-M-IPAATE\'GM.RC~l.lVGJ!GTLOTGNR'WSK\1'\o'MGETM.,RGl. " (unique
.,..:Qf;NVGKTOTHWSt:N~PGIVfVPt.TLrGSNPPlPl PVL'IíK.lLRVO.lGwa.tK9iFTGGY - l:haln) )

Figura 11.26. Recuento de resulta dos


218 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Es posible añadir más criterios de búsqueda y relacionarlos entre sí pu lsando


en el en lace Ad d Search Criteria de la parte derecha de la pantalla (ver Figura
11.27):

l
A.tkl StulrW CrlhUid 0

Figura 11.27. Adición de criterios de búsqueda

Finalmente, si pulsamos en el botón Submit Query, obtenemos la página


de resultados (ver Figura 11.28) en la que encontramos tres secciones: entradas en la
base de datos de estructuras, c itas académ icas y c ientíficas y entradas en la base de
datos de ligandos. Explicaremos cada una de estas secciones por separado.

En la primera pestaña encontramos los resultados de la consulta rea lizada


en la base de datos de estructuras, con una sección en la que es posible refinar los
resultados de dicha búsqueda, inc luso de manera gráfica. Debajo de estas opciones
de búsqueda avanzada, se encuentra la lista de coincidencias.

.. e

: POe 101 llide ,, ~•-«oc.~~ ~ .-, i!i@JI.iijj@l,jj


..ll~··"'·""'~
~...,._"9,COO.O-"
lfd-'t ..... _..
tM.t~ll­
,_.~.,

>-;Ul.?f~ I Q UU U·J.ItM U".l OíiW,;.!'t ~ti r)l('.'>;l1 :'J:"A:1', '1. t...~I!U ¡Q;_yu, t.U':\'4 (;~:::, C":l.l::·JU·CXI'.'~• l
1 I'WI'DO """" ~~t~umt:.~o:o.-..n-.'UU>"
.J.;..~~.u ~=t«!~~.,.:u:-r.~•tn.-:=:J.~
lof»,C._A(_<o; "·"tt~..s::r»'.r.u·."n#)".~tl'.~:ll~.nv.:t'.";)t":"...l:~:.:.~-,1:.r.:...""!QI)'r'fa"."·~·m·t:r)'

a~~--­
,..,..~,.....,•-c· .-r.~ ,..or:u......
.... -."t"""';ltM:\'"...~:.r-..-.., .....................
-:o.~·ta..:.n>'r.?C'f

C)..c<)'llto..h(l?i E~~V•I.J• • 10.0, s.q.,'"""' 1~1 • 0 141> S.._..dl Tool • bl..t, ...,.~ Lo• Ctnop~J!KV-,fl)

·-
C)o..oj~I'.-..U)

I'Oto<>• ........l+ l ! -
t.<•~~·~t;~ ~~,..
~loC<oiOt>l....
.....w .. ,AQ
o-ot>t-t:.(l • ..oc&U'!t .utQ.Ke (41
c.
• k:~~lNin 1.5Á(l)
J
X ·t i'V ll.tiOkilll<*

• bci'Oit'.:OOO(.t
c-a~ • ~~"'"".. U't ·' '-' l.o.«.m
2.0 2.~.«. '))
•'~* .~oo,c.: .
.,_,
:.- t'-'t • Ftl~sect.l$ ~ Ul
• <;t.~Otl\'l'«f r"'"""',cto:uc: O • .!-' ).(1/.. .!)
200 ) 2010(12}
• ~0!0-todlt(ll
0"...... . !J-1,. · 1.0~1'1\8tCÁ\l) • f'IICfo:~,..•.
11eoo fl'-.. r,.,. t~;
• FtutlUb.uti~Ul
• ~~!!l).PCC:Etl:'l(ll • moce~.e1: ..
• ~""'~ 17\01~ O$H- (l'
• «n« a~

• Potv~Mr tvpe ( . seo~·~ • en~ e»ss~~~u~ ...., se~ (I¡Sillkii!Joll


• t:rl~-n U]) • 100 :00<•• • ~:,.).4-()~00>IO~t( l} • ~( ...... ·;~t)~ ... JI)
• 200 300(4) • ~-ó .torJoe7Sorol~f"-'PPI,"))

.*
• !lOO 500(•d

1~(1~
m<:o'e~fw

Figura 11.28. Resultados de la consulta en la base de datos de estructuras


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 219

Si p inchamos en el enlace correspondiente a una de las coinc idenc ias en la


base de datos, PDB muestra toda la información almacenada correspondiente a dicha
coincidencia (ver Figura 11.29 y Figura 11.30):

¡fl)

Gtnllllt b ~__,.,..eMICIOIIIOiniiiO ~- wfl:tl~e~e ~114 SUM:~~~~~­


-dyfl....
W'.O,{J, ,._, O..wen,J.M. , idetl' l ~P.w.,, ~.A.C. , lltclcc.I'S(IIILILW.

~
>o.ttWII: (:t(W);))l'fltt Slltu:tbol 7! 1036-1~0

PubHM: l l061SS'J \'


~-~--""'~.,.,. 001; 10.103*/100><1(1)
..........""'
~:,;n~l<>c:
Seoofd~ ~ Ntik' -ioo ~ jjJ

.....
Qooooovt""' 'toQ
""""~
~
e~.,.,
fiiiCIMft MSIIOKt:
Go<Twl"' a~ pooorolO<Joo> ~Oit.JIM., o»o»~,.ct'l · cr- ~ ~; ~;"' ....ol,-<111'1
h 4(tenM ..,.....t CIODt ~ .Jblotc .SCf fW n(ll~ fllt Rructutt, O<=Utw.n«< a'l 1.6 Art~.
o·-··••·
.,,..,.n~to'~'""
_......,._. bol~~-.camot'IOO'I<>rc Aodcod n1o a~- f;a.. .
[...,..... *'"'• ~~~ ,_....~r<KU 1

•ro-s..._ S'mi'T'«r•·: OJ vtew


5tW--'I· - 116 o.,_,.

__
'~"<'--=(~­ o)w. ...............
""'*
~ ·~ 1 ......_p. Wtl(llot.: al9'l2C 0 ~ .. ,~~u~ bv IIUI::hoos
q.'(ly_
,....,.,.,_,..,..u. ){'4011MfXMOr~~ (-"')(t)
n...'l'!,..
;; .w«lll001> TY!M': l omotb: ,.,
• ,
~
1.)_'\A ~ ~

e.;.-.--~• - - ._.... vfoa... />1 -·<.~~-,; 1_,_:10 ~

-
~·o.~ -~~~""

-
·~
lliC 100'1"1'0~
lblVlUCI~-

1 -~ HIM
_ 11l

Figura 11 .29. Información de un registro POB (1)

f-

LoniMod~
UI:I:VOo\1 ) :

MWM CIJ!jfl ttlll t;r otY11t


20 J 1·0 1 · 13
~M.Je-ot.
' 20 1 1•0 1· 13
• v.trtoen rCI'I'lM <tf'"fllo)nc~

1
'"' He!JIOd:: J:.fi.A.t O!ftAACTIOI'I

··-----·--- .
()»,.~u.:

.S. ..·uct-~
'""
._..*1-'l: ill ..,.
---
L lt•V•"-: O lOO(...oA)
t:-r •'ri

1,11111 ~:
L_~
""
~
»*0))0 o • oo.oo
tJ e 9)J9 6 • 9000
<• l07.H '1' . l lO.OO

..._,

--·
••
...
-
(lrtflllolt o-.irt - - - - - ,
• SCoP CI&Uik-ft vl.1S; 1 .,.._.. • flot.o ,._ -l$1

Figura 11.30. Información sobre un registro POB (y 11)


220 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

En la sección 3D, podemos ver una representación tridimensional de la


estructura de la proteína construida con la herramienta JMol, tal y como muestra la
Figura 11.31:

·~·- ··
1FI2 a.!c.-u,-

_
--,_.
$tl\¡(1~· Otulls. o
.. _....._
.......,..,..........
-
S=noou-o ~..~..,..., 1

"',o(lf-.... S_,.,_ Ool>tf ~

__
~·-(11)
~--m

---
... _.
$~ «)

--
- ...-o


-·~
-~~
....... 11

~-·....,_
~

............
.....
____
.. o-o- .........
.....
~-
_.,,_.,"... .....
~··-···­ -
~ ---
_
.,,._
-
-·-·-·-·.... _
.........
.... ....

Figura 11.31. Estructura tridimensional de la proteína

La segu nda pestaña de los resultados de la búsqueda son las citas académicas
(ver Figura 11.32), donde obtenemos una lista de refe rencias que tratan sob re el
res ultado encontrado.

.. e
........ ··--· "'bi
_-
,,..__
~-~· - ,.¡.:.

.............
..-~"'to.(o
... ih

t~-·"·.......
__
..,--
• ....o.
.........
....,..
--··')
...- ........
~14-- .
~'"
...
'""
Qooft'l'
__ ·...

~~ ·~1111~
-l&o>Mior.
-- -

>OII•,.,W' 1
>llllnl'l'!~-~~!U.~
.--
~
• .c.-..oo .t.-."'-""'"~~
•:M.tl t ~llr:ii!NCI. IV'llt.TM.
.....:·~~~....~~tn.ffii":.U~
..
UIMNJ~ ~~

:r=:..~r.,...,.......r.:,....,.,..,.,.- u,....,,........,,.,...,.,,..,....,_....~....,,

' ':.*~7·• ..,lllt'óloQ:~'I.f*li:M'JII;'Jn!Pr..-.~>,"J!.tnrr.on"


E-1t1~ • tOO. ~- ~· O'I.. 'kft'(l>l«Joo • IIIM(.. Mo-~1 tt•(~~·
...
&o.ll'l?l IJJ(oi!CI> ~lfi'M-tfQI:'t•)

_...
..,.,,,,&1\Lk_,
.....
......;.,'il •'-'~ ~ ..
~""
....~."4
~
""'-
00

-
(U"f_,...VO

-~
~·~
r..-~ , ...,.

........ ... ~
lle4ao~·uMA.,~~T~ """"""'C..;.,.a~to:.,. ~-•C..t:.,..a J.., Illat>l,.MII.-t .,. ~t:..,"--•N

_,..,.~~lOI,M t•N!1) , UU·-11


-.,; :HI21-'0)ol ....... .....00(1 ~

----··-
... o..---.-
· -·""'-*"
>{ . . . . , _

•>~-=- ......
M$..-.c OH"'I_.,to;>,,.
..... . , ¡ f -

-.....__ .. ..... t. ~11'1 S,.K,,c:;..... ,.,.-~0 '- " ' f J..,I\Ofh.wt Kl'l. Z~!OQ "(_,:.
~~ , "V"C ,._ e""" ~w n. ~u •r toa) ·'t
C•'"'~•• •ll&­

"---~
"""""' ,_.. _ .,. t~ uo ~~ ~"

Figura 11.32. Resultados de la consulta en la base de datos de citas


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 221

Finalmente, la última pestaña es la de li gandos (ver Figura 11.33):

-
~ X ,_, 'WWOW t«b.ofg.lpc!b,>t~~,;,•Kult..tk> 'ut>!C4h<'•w t..g.¡,·>d.O.Qt'od 01S(!J...:l1

.. .. ,.,. o,•...,: POB l t."\11).,"-"-


~ ~
An htiOflllolltiOn P<lrtill l (>llk*l<lk~ M~rOmoiKoubr Sttu( l u rü
~ert~J•IOl, 10 1 "111 ~ -P111~fUt~ I O I :.t"lt~e& voe~'tMIStki ~ 0 0 ...

S.'tt~\·~·-~
1.1-.io,..........,.v •co oov Thlt'- _.... ~ IOVI!CIIn 011t Of - . Of tl!t
lf(loc.lo: 111 tt-c ~
r............ ~.........,"'
~l roo(l..,h!S t.. ~~~ Hlts r-.
~ otJoi:ll~·iu
oo on ~~~'~~a~ to tlo'~ótYol' OI!Nt ~
1 ~Da H....
<::10< Of'l ~ 1;) tJO t,f'IO-N lO\I((Vft$ ~' ~ ~.
I.<.J"NoC<.I'"<-

•·~..
Il.-• • -~
lt'I"'.::IU>Ic'l-~0:
~~li.oo..ro(U)
qo..., , ,.¡,,., (l)

"'-
~,JI_
~:.u JON
1\... . . . .,~r--­
~·~dO'~O<.O' N(_~ l O: ACf ,IP~ ~11\fd>or.... Cottl.olnlio9 M:T {1IHIC:, 1-"'M, t.M;N,,,)
o..,.o.,..Q,)Io. r~ c,11,o,
wtt$<• fAO
~·-....q
••
c-..,VJ
_ft_l_. . . .
·~~
c.-
t>e..-~:..·1::
~

t ()¡
CA.I.O\.N)QU
CA 7$$9 $1""""'~ (011~ U. (J~O. 19(.0, IAO.) )

·- <>

Figura 11.33. Resultados de la búsqueda en la base de datos de ligandos

Cua ndo la proteína bajo estudio no tenga estructuras homólogas obvias, ha y


que recurrir a los a lgoritmos de predicción por reconocimiento de pl iegues. Estos
a lgoritmos tratan de alinear la estructura secundaria de la proteína bajo estudio con
las almacenadas en una base de datos de estructuras

Modela la proteína bajo estudio lanzando una búsqueda con


... _ -.; .-. HHPred (http://hhpred.tuebingen.mpg.de/hhpred).
~

11.5 BÚSQUEDA DE MOTIVOS

Para encontrar motivos, utilizaremos las herrami entas MEME y MAST,


ambas disponibles en http://meme.nbcJ:net/memel.
222 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

j M LltMI.So;;ic · ~ x l...
.•...__ _ _ _ _ _ _ _ _ _ _ __

+"ll-·"'"--·
W:M[Sullll ~

The MEME Suite


' $o.f)-..A.Jee
..........
~ Ooe...,.,.tu:.«>
Motif-based sequence anatysls tools

·-
u-8..f01)4
l. ...., _ _ Sot_
: ~.

'

The MEME Sulte ano•,.•s you to:


. Ot$CMt,...,
U$100 ~'{_~ ()flfU{ <l:X"~ (ln"J) OJ Q...I..IAl QOO'OIJPSol t CGtCG ~ Of P'OIC'.ft$1t:0Utt'Ce:f
• te:m:li~~~...CI'IIXIlftUq liiiSt FNO. M:A.Sl « OI..AM2SCA."t
• ~ •n:~~•IIO .. motf., 111 ll~~ 01 m;)IAJ.
• ~)O(l.ole mQ&tseii\Gél:'oiOnl*9¡~\'<i llr:"~~~ atlll
• ~w~ec:n:~t w119 s~uo or ccn:1~

To submi1 .. query, cfick on one of the I09Q$ below or Hlect "Submit A Job'" from
l:he menu at the left.

Figura 11.34. Página principal de MEME

Un motivo es un conjunto de bases conservadas que son importantes


funcionalmente y que están localizadas próximas las unas de las
otras.

Trabajaremos con las proteínas de ejemplo que pueden obtenerse pinchando


en Sam ple Protein In pu t Sequ ences:

>Atlg01140 . 1_4-2-4_SnRK3 . 12 SNFl-related Protein Kinase, subfamily 3


MSGSRRKATPASRTRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIKILDREKVFRHKM
VEQLKREISTMKLIKHPNVVEIIEVMASKTK I YIVLELVNGGELFDKIAQQGRLKEDEAR
RYFQQLINAVDYCHSRGVY HRDLKPENLILDANGVLKVSDFGLSAFSRQVREDGLLHTAC
GTPNYVAPEVLSDKGYDGAAADVWSCGVI LFVLMAGYLPFDEPNLMTLYKRICKAEFSCP
PWFSQGAKRVIKRILEPNPITRISIAELLEDEWFKKGYKPPSFDQDDEDITIDDVDAAFS
NS KECLVTEKKEKPVSMNAFELISSSSEFSLENLFEKQAQLVKKETRFTSQRSASEI MSK
MEETAKPLGFNVRKDNYKIKMKGDKSGRKGQLSVATEVFEVAPSLHVVELRKTGGDTLEF
HKFYKNFSSGLKDVVWNTDAAAEEQKQ
>Atlg01140 . 2_ SnRK3 . 12 SNFl- related Protein Kinase, subfamily 3
MSGSRRKATPASRTRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIKILDREKVFRHKM
© RA-MA Capitulo I L PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 223

VEQLKREISTMKLIKHPNVVEIIEVMASKTKIYIVLELVNGGELFDKIAQQGRLKEDEAR
RYFQQLINAVDYCHSRGVYHRDLKPENLILDANGVLKVSDFGLSAFSRQVREDGLLHTAC
GTPNYVAPEVLSDKGYDGAAADVWSCGVILFVLMAGYLPFDEPNLMTLYKRVRICKAEFS
CPPWFSQGAKRVIKRILEPNPITRISIAELLEDEWFKKGYKPPSFDQDDEDITIDDVDAA
FSNSKECLVTEKKEKPVSMNAFELISSSSEFSLENLFEKQAQLVKKETRFTSQRSASEIM
SKMEETAKPLGFNVRKDNYKIKMKGDKSGRKGQLSVATEVFEVAPSLHVVELRKTGGDTL
EFHKFYKNFSSGLKDVVWNTDAAAEEQKQ
>Atlg01140 . 3_SnRK3 . 12 SNFl-related Protein Kinase , subfamily 3
MSGSRRKATPASRTRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIKILDREKVFRHKM
VEQLKREISTMKLIKHPNVVEIIEVMASKTKIYIVLELVNGGELFDKIAQQGRLKEDEAR
RYFQQLINAVDYCHSRGVYHRDLKPENLILDANGVLKVSDFGLSAFSRQVREDGLLHTAC
GTPNYVAPEVLSDKGYDGAAADVWSCGVILFVLMAGYLPFDEPNLMTLYKRICKAEFSCP
PWFSQGAKRVIKRILEPNPITRISIAELLEDEWFKKGYKPPSFDQDDEDITIDDVDAAFS
NSKECLVTEKKEKPVSMNAFELISSSSEFSLENLFEKQAQLVKKETRFTSQRSASEIMSK
MEETAKPLGFNVRKDNYKIKMKGDKSGRKGQLSVATEVFEVAPSLHVVELRKTGGDTLEF
HKVCDSFYKNFSSGLKDVVWNTDAAAEEQKQ
>Atlg01450 . 1_ 2 - 1 - 1 putative protein kinase
MADFLLKHLGDGNESPKLFPSSLLDNTKDYQVKKRLGNGSQYKEITWLGESFALRHFFGD
IDALLPQITPLLSLSHPNIVYYLCGFTDEEKKECFLVMELMRKTLGMHIKEVCGPRKKNT
LSLPVAVDLMLQIALGMEYLHSKRIYHGELNPSNILVKPRSNQSGDGYLLGKIFGFGLNS
VKGFSSKSASLTSQNENFPFIWYSPEVLEEQEQSGTAGSLKYSDKSDVYSFGMVSFELLT
GKVPFEDSHLQGDKMSRNIRAGERPLFPFNSPKFITNLTKRCWHADPNQRPTFSSISRIL
RYIKRFLALNPECYSSSQQOPSIAPTVDYCEIETKLLQKLSWESTELTKVSQVPFQMFAY
RVVERAKTCEKDNLREPSESGSEWASCSEDEGGAGSDEQLSYAKERRLSCSSNDVGMSKK
QVSNLLKRASSLKPIQKPGEIIISQYIYIYIGSLTNMNLVTCTNFFVLCH
>Atlg01540 . 1_1-6-3 Putative protein kinase
MSVYDAAFLNTELSKPTSIFGLRLWVVIGILLGSLIVIALFLLSLCLTSRRKNRKPRADF
ASAAIATPPISKEIKEIVPAQNQSVPAEIQVDIGKIEHRVVFSDRVSSGESRGTASASET
ASYSGSGNCGPEVSHLGWGRWYTLRELEAATNGLCEENVIGEGGYGIVYRGILTDGTKVA
VKNLLNNRGQAEKEFKVEVEVIGRVRHKNLVRLLGYCVEGAYRMLVYDFVDNGNLEQWIH
GDVGDVSPLTWDIRMNIILGMAKGLAYLHEGLEPKVVHRDIKSSNILLDRQWNAKVSDFG
LAKLLGSESSYVTTRVMGTFGYVAPEYACTGMLNEKSDIYSFGILIMEIITGRNPVDYSR
PQGEVFDKHIQSSLCFCKWSYYVSWL
>Atlg01540 . 2_ Putative protein kinase
MSVYDAAFLNTELSKPTSIFGLRLWVVIGILLGSLIVIALFLLSLCLTSRRKNRKPRADF
ASAAIATPPISKEIKEIVPAQNQSVPAEIQVDIGKIEHRVVFSDRVSSGESRGTASASET
ASYSGSGNCGPEVSHLGWGRWYTLRELEAATNGLCEENVIGEGGYGIVYRGILTDGTKVA
VKNLLNNRGQAEKEFKVEVEVIGRVRHKNLVRLLGYCVEGAYRMLVYOFVDNGNLEQWIH
GDVGDVSPLTWDIRMNIILGMAKGLAYLHEGLEPKVVHRDIKSSNILLDRQWNAKVSDFG
LAKLLGSESSYVTTRVMGTFGYVAPEYACTGMLNEKSDIYSFGILIMEIITGRNPVDYSR
PQGETNLVDWLKSMVGNRRSEEVVDPKIPEPPSSKALKRVLLVALRCVDPDANKRPKMGH
IIHMLEAEDLLYRDERRTTRDHGSRERQETAVVAAGSESGESGSRHHQQKQR
>Atlg01560 . 1_4-5-l_MPK11 MAP kinase 11
MSIEKPFFGDDSNRGVSINGGRYVQYNVYGNLFEVSKKYVPPLRPIGRGASGIVCAAWNS
ETGEEVAIKKIGNAFGNIIDAKRTLREIKLLKHMDHDNVIAIIDIIRPPQPDNFNDVHIV
224 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

YELMDTDLHHIIRSNQPLTDDHSRfFLYQLLRGLKYVHSANVLHRDLKPSNLLLNANCDL
KIGDfGLARTKSETDfMTEYVVTRWYRAPELLLNCSEYTAAIDIWSVGCILGEIMTREPL
fPGRDYVQQLRLITEVNfSLfHLTILFRfNLKKEH
>Atlg01740 . 1_1-16-1 putative protein kinase
MGGQSSKIGTCCSHKTTALEAPDVENKENGEVNGVHSFREYSLEQLKIATSCfALENVVS
EHGETAPNVVYQGKLENHMKIAIKRFSGTAWPDPRQFLEEARLVGQLRSKRMANLLGYCC
EGGERLLVAEFMPNETLAKHLfHWDTEPMKWAMRLRVALYISEALEYCSNNGHTLYHDLN
AYRVLFDEECNPRLSTfGLMKNSRDGKSYSTNLAFTPPEYLRTGRITAESVIYSFGTLLL
DLLTGKHIPPSHALDLIRDRNLQTLTDSCLEGQFSDSDGTELVRLTSCCLQYEARERPNI
KSLVTALISLQKDTEVLSHVLMGLPQSGTFASPPSPfAEACSGKDLTSMVEILEKIGYKD
DEDLSFMWTEQMQEAINSKKKGDIAFRRKDFSEAIEFYTQFLDLGMISATVLVRRSQSYL
MSNMAKEALDDAMKAQGISPVWYVALYLQSAALSVLGMEKESQIALTEGSILEARKISAS
TQN
>Atlg02970 . 1_4-3-1 putative protein kinase
MFEKNGRTLLAKRKTQGTIKTRASKKIRKMEGTLERHSLLQfGQLSKISFENRPSSNVAS
SAFQGLLDSDSSELRNQLGSADSDANCGEKDFILSQDFFCTPDYITPDNQNLMSGLDISK
DHSPCPRSPVKLNTVKSKRCRQESfTGNHSNSTWSSKHRVDEQENDDIDTDEVMGDKLQA
NQTERTGYVSQAAVALRCRAMPPPCLKNPYVLNQSETATDPFGHQRSKCASFLPVSTSGD
GLSRYLTDFHEIRQIGAGHFSRVFKVLKRMDGCLYAVKHSTRKLYLDSERRKAMMEVQAL
AALGfHENIVGYYSSWFENEQLYIQLELCDHSLSALPKKSSLKVSEREILVIMHQIAKAL
HFVHEKGIAHLDVKPDNIYIKNGVCKLGDFGCATRLDKSLPVEEGDARYMPQEILNEDYE
HLDKVDIFSLGVTVYELIKGSPLTESRNQSLNIKEGKLPLLPGHSLQLQQLLKTMMDRDP
KRRPSARELLDHPMFDRIRG
>Atlg03740 . 1_4-5-2 putative protein kinase
MGCVNSRHRPFRRKSTTLKESSEEKRSSRIDSSRRIDDWIQPEDGfDRLSNSGDAKVRLI
ESEMFSTSRCHDHQIGKILENPATVAHMDRVVHDQELRRASSAVVDSDLDIDPKVVKAKL
DRWNSKDSKVRLIESEKLSSSMFSEHHQIEKGVEKPEVEASVRVVHRELKRGSSIVSPKD
AERKQVAAGWPSWLVSVAGESLVDWAPRRANTFEKLEKIGQGTYSSVYRARDLLHNKIVA
LKKVRFDLNDMESVKFMAREIIVMRRLDHPNVLKLEGLITAPVSSSLYLVFEYMDHDLLG
LSSLPGVKfTEPQVKCYMRQLLSGLEHCHSRGVLHRDIKGSNLLIDSKGVLKIADFGLAT
FFDPAKSVSLTSHVVTLWYRPPELLLGASHYGVGVDLWSTGCILGELYAGKPILPGKTEV
EQLHKIFKLCGSPTENYWRKQKLPSSAGFKTAIPYRRKVSEMFKDfPASVLSLLETLLSI
DPDHRSSADRALESEYfKTKPfACDPSNLPKYPPSKEIDAKMRDEAKRQQPMRAEKQEDK
TL
>Atlg03920 . l 4-2-6 putative protein kinase
MDSARSWFHKFQPRDKPRKKDMFSGSTYGGGVTETTVPDGGNDTETATKLPPLGGDGEAL
SNSTKQKVAAAKQYIENHYKEQMKNLNERKERRTTLEKKLADADVCEEDQTNLMKFLEKK
ETEYMRLQRHKMGADDfELLTMIGKGAfGEVRVVREINTGHVFAMKKLKKSEMLRRGQVE
HVRAERNLLAEVDSNCIVKLYCSFQDNEYLYLIMEYLPGGDMMTLLMRKDTLSEDEAKFY
IAESVLAIESIHNRNYIHRDIKPDNLLLDRYGHLRLSDFGLCKPLDCSVIDGEDfTVGNA
GSGGGSESVSTTPKRSQQEQLEHWQKNRRMLAYSTVGTPDYIAPEVLLKKGYGMECDWWS
LGAIMYEMLVGYPPFYADDPMSTCRKIVNWKTHLKFPEESRLSRGARDLIGKLLCSVNQR
LGSTGASQIKAHPWFEGVQWEKIYQMEAAFIPEVNDDLDTQNFEKfDEEDNQTQAPSRTG
PWRKMLSSKDINFVGYTYKNFEIVNDYQVPGIAELKKKESKSKRPSVKSLFESESDSSSS
GSEQQTINRSYSNPTPRGMEPNLRRLDSE
© RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 225

>Atlg03930 . 1_3-1-1-1_ADK1 protein kinase ADKl


MDLVIGGKFKLGRKIGSGSFGELYLGINVQTGEEVAVKLESVKTKHPQLHYESKLYMLLQ
GGTGVPNLKWYGVEGDYNVMVIDLLGPSLEDLFNYCNRKLSLKTVLMLADQLINRVEFMH
TRGFLHRDIKPDNFLMGLGRKANQVYIIDFGLGKKYRDLQTHRHIPYRENKNLTGTARYA
SVNTHLGVEQSRRDDLEALGYVLMYFLKGSLPWQGLKAGTKKQKYDRISEKKVATPIEVL
CKNQPSEFVSYFRYCRSLRFDDKPDYSYLKRLFRDLFIREGYQFDYVFDWTVLKYPQIGS
SSGSSSRTRNHTTANPGLTAGASLEKQERIAGKETRENRFSGAVEAFSRRHPATSTTRDR
SASRNSVDGPLSKHPPGDSERPRSSSRYGSSSRRAIPSSSRPSSAGGPSDSRSSSRLVTS
TGGVGTVSNRASTSQRIQAGNESRTSSFSRAARNTREDPLRRSLELLTLRK
>Atlg04210 . l_protein kinase ADKl
MDSKIKKPANLIEDADIDGGSESDSTISSVLSLEDDSVVDVSGQNLEFSLLDNVDDSVKG
LYFFRNVFNLIPKSIGGLGRLRKLKFFSNEIDLFPPELGNLVNLEYLQVKISSPGFGDGL
SWDKLKGLKELELTKVPKRSSALTLLSEISGLKCLTRLSVCHFSIRYLPPEIGCLKSLEY
LDLSFNKIKSLPNEIGYLSSLTFLKVAHNRLMELSPVLALLQNLESLDVSNNRLTTLHPL
DLNLMPRLQILNLRYNKLPSYCWIPTWIQCNFEGNYEEMGVDTCSSSMVEMDVFETPYEN
NVITVPHKGSHRNPLNMSTGISSISRCFSARKSSKRWKRRQYYFQQRARQERLNNSRKWK
GEVPPEGLSLKMEVEETGKQGMKVPQNTDRGSVDNSCSDENDKLFEEASVITSEEEESSL
KADVVSDNSQCVETQLTSERDNYESCEIKTSSPSSGDAPGTVDYNSSSERKKPNNKSKRC
SEKYLDNPKGSKCHKLSTDITNLSRKYSSNSFCSTEDSLPDGFFDAGRDRPFMTLSKYEK
VLPLDSREVILLDRAKDEVLDAITLSARALVARLKKLNCLTPDVDQVSIDNLQVASFLAL
FVSDHFGGSDRTAIIERTRKAVSGTNYQKPFICTCLTGNQDDLAALNKQVSTTAEDAILS
DVCEKSLRSIKSKRNSIVVPLGKLQFGICRHRALLMKYLCDRMEPPVPCELVRGYLDFMP
HAWNIVPVKQGSSWVRMVVDACRPHDIREDTDQEYFCRYIPLNRLNESIRIKEKLEPGCS
VSSLSTGKGVERANSSLIRCKLGSTEAVVKMRTLEVSGASLDDIRTFEYTCLGEVRILGA
LKHDCIVELYGHEISSKWITSENGNEHRVLQSSILMEHIKGGSLKGHIEKLSEAGKHHVP
MDLALSIARDISGALMELHSKDIIHRDIKSENVLIDLDNQSANGEPIVKLCDFDRAVPLR
SHLHGCCIAHVGIPPPNICVGTPRWMSPEVFRAMHEQNFYGLEVDIWSFGCLIFELLTLQ
NPYFDLSELQIHESLQNGKRPKLPKKLETLISETEEEESTNKLSEVFDLTESDLDTMRFL
IDVFHQCTEESPSDRLNAGDLHEMILSRKKRE
>At1g04440 . 1 3-1-1 - 1 putative casein kinase I
MDRVVGGKFKLGRKLGSGSFGEIFLGVNVQTGEEVAVKLEPLRARHPQLHYESKLYMLLQ
GGTGIPHLKWFGVEGEFNCMVIDLLGPSMEEFFNYCSRSFSLKTVLMLADQMINRVEYMH
VKGFLHRDIKPDNFLMGLGRKANQVYIIDYGLAKKYRDLQTHKHIPYRENKNLTGTARYA
SVNTHLGIEQSRRDDLESLGYLLMYFLRGSLPWQGLRAGTKKQKYDKISEKKRLTPVEVL
CKNFPPEFTSYFLYVRSLRFEDKPDYSYLKRLFRDLFIREGYQFDYVFDWTILRYPQFGS
SSSSNSKPRPTLRPAMNIPVPSADKAEKPPIGQDSRERFSGVFEAYTRRNGSGTGVQADQ
SSRPRTSENVLASKDTQNQERPNSLSRNLSSSRKAIAGSSVRATSSADFTENRLSRLIPN
NDRSSTTLRTQFAPSSSSVATKAAPTRAARDITLQSLELLSIGNSKRK
>Atlg04700 . 1_ 2 - 1-4 - 1_ Raf 1 6 MAP kinase kinase kinase Raf16
MRMEFPGSSNQHLGRDRFNGEVGCGNNCSQTGEEFSNEFLRDFGAQRRLQHGGVNRNVEG
NYNNRHLVYEDFNRILGLQRVDSNMSEGINSSNGYFAESNVADSPRKMFQTAISDVYLPE
VLKLLCSFGGRILQRPGDGKLRYIGGETRIISIRKHVGLNELMHKTYALCNHPHTIKYQL
PGEDLDALISVCSDEDLLHMIEEYQEAETKAGSQRIRVFLVPSTESSESPKIFHERNMNI
NRNTNQQTDIDHYQYVSALNGIVDVSPQKSSSGQSGTSQTTQFGNASEFSPTFHLRDSPT
SVHTWEHKDSNSPTFMKPYGNTNAVHFMPKMQIPRNSFGQQSPPTSPFSVHKRANTDVPY
226 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

FADQNGFFDPYLAAPNFPQQNRFFFETTTQKQKHPEVNLHDRRPSDDIYPHGQAYIGAEK
MTLKKNALSDPQLHDESQINNGLEAFTKQPWKILRKNLRVVATSKWEDSDDIYFNNPEGK
RCKELELTKEVPNSWINRONNPDSFDQATKKQDGSNSNSSFSPNYFSPNHQPAAQITSSD
SQDSGSSVFSLSVNTNENYLDCSREKFNGFQHDMSLDILIRSHTSATDQLCSTTKSSDKA
DYSSPNTNFPVVFLRQEPMIPRHDLETNSDDSDTQKSLPREESIHYSGLPLRKVGSRETT
FMHTQGSDDFFKSKLLGPQLIVEDVTNEVISDNLLSATIVPQVNRESDDDHKSYTREKEI
TNADHESEMEEKYKKSRNTDDSFSEAAMVEIEAGIYGLQIIKNTDLEDLHELGSGTFGTV
YYGKWRGTDVAIKRIKNSCFSGGSSEQARQTKDFWREARILANLHHPNVVAFYGVVPDGP
GGTMATVTEYMVNGSLRHVLQRKDRLLDRRKKLMITLDSAFGMEYLHMKNIVHFDLKCDN
LLVNLROPQRPICKVGDFGLSRIKRNTLVSGGVRGTLPWMAPELLNGSSNRVSEKVDVFS
FGIVMWEILTGEEPYANLHCGAIIGGIVNNTLRPPVPERCEAEWRKLMEQCWSFDPGVRP
SFTEIVERLRSMTVALQPKRRT
>Atlg05100 . 1_4-4-l_MAPKKK18 MAP kinase kinase kinase 18
MNWTRGKTLGRGSTATVSAATCHESGETLAVKSAEFHRSEFLQREAKILSSLNSPYVIGY
RGCEITREPFHNNGEATTYSLLMEYAPYGTLTOVATKNGGFIDEARVVKYTRQILLGLEY
IHNSKGIAHCDIKGSNVLVGENGEAKIADFGCAKWVEPEITEPVRGTPAFMAPEAARGER
QGKESDIWAVGCTVIEMVTGSQPWIGADFTDPVSVLYRVGYLGELPELPCSLTEQAKDFL
GKCLKKEATERWTASQLLNHPFLVNKEPELVTGLVTNSPTSVTOQMFWRSVEEEVSEDRS
SWWECHEDERIGVLSWIGHVVVESTWDLDGEDWITVRRN
>Atlg05700 . l_l-8-l putative light repressible receptor protein
MEEFRFLYLIYSAAFALCLVVSVLAQDQSGFISIDCGIPSGSSYKDDTTGINYVSDSSFV
ETGVSKSIPFTAQRQLQNLRSFPEGSRNCYTLIPIQGKGKKYLIRASFMYGNYDGENGSP
EFDLFLGGNIWDTVLLSNGSSIVSKEVVYLSQSENIFVCLGNKGKGTPFISTLELRFLGN
DNTTYDSPNGALFFSRRWDLRSLMGSPVRYDDDVYDRIWIPRNFGYCREINTSLPVTSDN
NSYSLSSLVMSTAMTPINTTRPITMTLENSDPNVRYFVYMHFAEVEDLSLKPNQTREFDI
SINGVTVAAGFSPKYLQTNTFFLNPESQSKIAFSLVRTPKSTLPPIVNALEIYVANSFSQ
SLTNQEDGDAVTSLKTSYKVKKNWHGDPCLPNDYIWEGLNCSYDSLTPPRITSLNLSSSG
LTGHISSSFSNLTMIQELDLSNNGLTGDIPEFLSKLKFLRVLNLENNTLTGSVPSELLER
SNTGSFSLRLGENPGLCTEISCRKSNSKKLVIPLVASFAALFILLLLSGVFWRIRNRRNN
PMAKSENKLLFTFADVIKMTNNFGQVLGKGGFGTVYHGFYDNLQVAVKLLSETSAQGFKE
FRSEVEVLVRVHHVNLTALIGYFHEGDQMGLIYEFMANGNMADHLAGKYQHTLSWRQRLQ
IALDAAQGLEYLHCGCKPPIVHRDVKTSNILLNEKNRAKLADFGLSRSFHTESRSHVSTL
VAGTPGYLDPLCFETNGLNEKSDIYSFGVVLLEMITGKTVIKESQTKRVHVSDWVISILR
STNDVNNVIDSKMAKDFDVNSVWKVVELALSSVSQNVSDRPNMPHIVRGLNECLQREESN
KNY
>Atlg06390 . 1_4-5-4_ASK-iota GSK3/shaggy-like protein kinase iota
MASLPLGPQPHALAPPLQLHDGDALKRRPELDSDKEMSAAVIEGNDAVTGHIISTTIGGK
NGEPKQTISYMAERVVGTGSFGIVFQAKCLETGESVAIKKVLQORRYKNRELQLMRPMOH
PNVISLKHCFFSTTSRDELFLNLVMEYVPETLYRVLRHYTSSNQRMPIFYVKLYTYQIFR
GLAYIHTVPGVCHRDVKPQNLLVDPLTHQVKLCDFGSAKVLVKGEPNISYICSRYYRAPE
LIFGATEYTASIDIWSAGCVLAELLLGQPLFPGENSVDQLVEIIKVLGTPTREEIRCMNP
NYTDFRFPQIKAHPWHKVFHKRMPPEAIDLASRLLQYSPSLRCTALEACAHPFFNELREP
NARLPNGRPLPPLFNFKQELGGASMELINRLIPEHVRRQMSTGLQN$
>Atlg06390 . 2_ASK-iota GSK3/shaggy-like protein kinase iota
MASLPLGPQPHALAPPLQLHDGDALKRRPELDSDKEMSAAVIEGNDAVTGHIISTTIGGK
©RA-MA Capítulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 227

NGEPKQTISYMAERVVGTGS~GIV~QAKCLETGESVAIKKVLQDRRYKNRELQLMRPMDH

PNVISLKHC~FSTTSRDELFLNLVMEYVPETLYRVLRHYTSSNQRMPIFYVKLYTYQIFR

GLAYIHTVPGVCHRDVKPQNLLVOPLTHQVKLCDFGSAKVLVKGEPNISYICSRYYRAPE
LIFGATEYTASIOIWSAGCVLAELLLGQPLFPGENSVOQLVEIIKVLGTPTREEIRCMNP
NYT DFRFPQ I KAH PI'IHKVFHKRMP PEA I DLASRLLQY S PSLRCTALEACAH P~FNELRE P
NARLPNGRPLPPL~N~KQELGGASMELINRLIPEHVRRQMSTGLQNS

Figura 11 .35. Proteínas bajo estudio

U na vez en la pág ina princ ipa l de la suite de herramientas MEME, pinchamos


en el icono co rrespondiente a MEME s ituado e n la parte izq uierda d e la pantall a y
se mostrará e l formu lario d e in troducción de datos de búsq ued a (ver Figura 11 .36):

111 MEME. Submiuio" form X +


~~================~~~
~ rA - '

MEME Suite Menu


e S.bmit A Job
®~ Oocumentation
1!1-0ownlo>ds
lil User Support
MEME
Multlple Em for Motif Ellcltatlon
Use this fonn to submj DNA or protein
sequences to MEME. WEME wil ana:yze your
sequences tor slmilartties among them and
- - - - - - ' - - - - - - - - - - - - produce a descñplion (motif) for each
$ -.A!temate Ser.~ers VeBion 4.9 .1 pa«em ~ discovers
Authors
· Oting Dau Submi ssion Form
Required
Your e-mailaMress: How do ycu t-,tnk th~ occurrenc!s ot J
;ingl e motif ; re dit>tributod 3mon9 th~
Sé(J.I~n ~?

e Ono por coquenco


@ Zero or one per .:s"quence
Please enter tfle sec¡uencu whith rou belie..-e sha-e one or O Any oomoer 01 repeUions
moré
motifs. lhe seQutnces may containno more tha'l60000
MEllE will flnd ttlo optim1.m wMfth of o::adl
cl'laractei'S
motif withh lhe limls )OU sp.1cify her~·
totar totalln art¡ 01 a 1arge OUniOEf 01 rormats.
~ Uini'ntJm w;dth (>= 2)
Entorthe ntmo ot a filooontainin tno &ocuonCA~s ho~ : ~ Uaximum width (~- 300)
Exam ner_ No se na Sélecconaao nng¡in arcniV<I, crear
1~ j1.1'lldmum number or mot1f!S to find
or
lhe ;,c tuot se(l.lences here (SC!mple Ptotein Input Sequences)

Opllons
Oescriptiofl ofyour seguences: P'rto1m di$CrlmiutivG mc;tif di~C'OV'iry- tnt$r t:lH~ na mo of ~
file cont~in in 'neoativeseouences ·
No se ha selece!onado nlngUn 3rdllvo
MEME w.n rnd the optimum number of sites for
éach motif wittlin !he limi1s yo u spedt)' !\era:

Figura 11.36. Parámetros de búsqueda de MEME


228 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA

En prim er lugar, arriba a la izq ui erda, se pide la información necesaria para


enviar los resultados a una dirección de correo electrónico. Tam bién arriba, pero a la
derecha, se establece el número de motivos que se espera enco ntrar en la secuencia,
así como la longitud estimada de dichos motivos.

Por otra parte, la opción S huffl e sequ ence letter s indica si deseamos barajar
las letras de la secuencia de entrada. Esto resulta bastante útil para determinar s i los
motivos encontrados con la sin barajar son estadísticamente significativos o no. Para
ello, se co mpara el valor E de l mejor motivo/alineamiento de la sec uencia original
con el correspondiente calculado con la opción Shuffle sequence letters marcada.
Si son iguales, probablemente el motivo sea poco significativo. También es posi ble
indicar si queremos rea lizar la búsqueda ún icamente en la hebra proporcionada
(Search given strand only) y/o si se desea buscar secuencias pal indrómicas (Look
for palindromes only).

Finalmente, disponemos de un área en la que introducir la secuenc1a


proteica o bien su núm ero de accession. En nuestro caso, pegaremos la secuencia
de aminoácidos en formato FASTA y pulsaremos el botón Start search para lanzar
la búsqueda y obtendremos una pantalla intermedia co mo la de la Figura 11.37,
en donde se nos proporciona el enlace a los resultados del proceso junto co n un
res umen de la información de configu ración de la búsqueda que hemos introduc ido
anteriormente.

+ -~·~ .... c.c.- . ....._....._..,,


~ .,.__.,~ e 11 · ~ol.:o:t~ p o .
" "
~
* --
Ycw )(lb dio: ...)lll.\fE_.a,!l.lt •08006-'9~SU-1 ~S~
ca,._,_ jgob ttdJ • t!!e!'*'"·~n ""'..t"""--- .. 9 1'~12bd!J!!:!nl*ft "t''.t•l -;\lf"~ 4 O 1140S00619~n1.J641'~&--.\.iF-v.'ll

--...... ...
Yo.
Yo.caa.__ _...,_.-,. ~

hnu.:••

._
~" eno:\\lo

Dillr~ « fllltlil 0(~($

:Siabft' d ci!G"iloiiiiQéB
_..
l:n-o «
¡
Olle pU K<J)('«C

~ oa:ob«: ÚÚ!o'~
~1..,.~c/.s '
"!ib.a~ il~
M.w.. -*'•it:io ,.•"

T,-ped~
Cow.cd~<!S
~~t(o.......)
""'"'
1
Zl9
iA:qc'it Se~(' Ct~) m
A•n·l.A-~(1...-.,) ~29~
TotiJI~(1~) U1

y.,.. d ..Joo<K""'• a~-uv a '1""'8' taW. *""••• ..,•.....,.,~~L-

Figura 11.37. Página de resu ltados de MEME


©RA-MA Capitulo I L PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 229

Pinchand o en el enlace You can view your job results at, se muestra una
página en la que podemos consultar el estado del trabajo. Cuando este esté listo,
apa recerá una pantalla como la de la Figura 11.38:

MEME Job- Done

• MrMF ... S!lf!l


• MIME ,.,. 5!11*
• ~alewp!!
• MASUtii&0!4'!M
• MASlA!Al~
• MAS.l.\1.1...~
· ~~~
Srnu ¡\ltuagu

......,_
. p...,~..,~~
• Ao,......ek

- t~olo/100» ·JIOOt•1• -ce . · IIOHi t"d . u .. UQOO ...... u .. ~~ - - tOC.,.:O ·IIIOOUU 1 _ ..... 10 -lnt iO
. _,_JOII:"(OS~~~ ~ ~S)~
• Sl~-
au ; -.IOtol ••...,....•• •.,.. , .noo~u10•

• .-u •~ ....,.,..,.~;, 0.1) -~

Figura 11.38. Resultado final de MEME

Pulsando, por ejemplo, en MEME htm l output, obtenemos los resu ltados
en formato HTML (ver Figura 11.39). Esta página, de extensión considerab le, se
divide en varias secciones.

•e n - ~.,,

e.'~
MEME EM for Motif (lklbollofl
l

ter (\,¡othe• rolot,_on._to rCeoprl!l ~J41 oQOIIi;s oo to of!l• eopvo/tt..., tGC -..,., p¡,..,.,. - tc*v'tcmed>und·
11 t01.1 viot MO< "' rov te~. ~<''f cu tht ~f'IO o~
1.....e.,.~ ~.,...SCW....::l~'TIItltlf • -llo.~ a'*'l~<!o~(O>-...._..,(Iolltoo!l-.-eo..-ouo~~·.~<f~~:-...~c.+-..••~ol~~~-~~.,
A.VJ !'o<>:, lo$.-=l<o :l'd , eu..~.,...,. tnl.
;o,.""

• l .to. lOO
• 14 totn

• 6 2..1:?1

"""' • 19 :M.U

• ; ,So:·OH
• 9 KU

1 .,. r ,-,., .

Figura 11.39. Página de resultados de MEME en formato HTML


230 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA

En la sección de motivos encontrados, obtenemos información sobre los


motivos hallados, en este caso, tres. Para cada motivo se ofrece su presentación
en forma de logo y un enlace que nos lleva a una descripció n detallada de dicho
motivo. Si pinchamos, por ejemplo, e l correspondiente al primer motivo, Motif/,
encon tramos la informac ión organizada en varias partes.

En primer lugar, encontramos un resumen de la in formación sobre el motivo


y el logo de su secuenc ia (ver Figura 11 .40). En el resumen se ofrece la siguiente
información:

11"' Valor E (E-value): importancia estadística del motivo. MEME muestra


los motivos con mayor imp01tancia estadística (menor valor E) los
primeros en la lista. E l cálculo del valor E de un motivo se basa en su
ratio de probabi lidad, amp li tud, sitios, frecuencias de las letras de fondo
y e l tamaño del conju nto de entrenam iento y co nsti tuye una estimac ión
del número de motivos esperado dado un ratio de probabilidad y con la
misma amp li tud y número de sitios que uno encontraría de un conj un to
de secuencias a leatorias de tamaño parecido.

11"' Amplitud (Wídth): am plitud del motivo. Cada motivo desc ri be un patrón
de una amplitud fija, puesto que MEME no permite huecos.

11"' Sitios (Sites): número de sitios implicados en la construcc ión del motivo.

11"' Ratio de probabi lidad (Log Likelihood Ratio): ratio de probabilidad del
motivo, en unidades logarítmicas. Mide la probabilidad de ocurrencias
del motivo, dado un modelo del motivo fren te a la probabilidad de
ocurrencia del motivo si n disponer de modelo del mismo.

11"' Contenido de la información (!nformation Content) : es e l motivo en bits.

11"' En tropía relativa (Relative Entropy) : es la en tropía relativa de l motivo en


bits y se calcula como el ratio de probabilidad dividido entre el número
de sil es.

Monr 1 !!!:!'!~

s.q......... l..Qso
.......
Sunom:uy
l.t... IOO

·~~t~~~.
v.id!n
"
""'
lOO~ ~
19

lnkl~ C«<l.tr.t -

<11.9~S)

t:ntroor

-
~,..e
<~M(t><a)
·~
d!t!w'-~
()oct,niOacJ LOGO Orlett~ ~IIICI - SSC: o& • ~:~~iJ) - \ "''4fv. 17 ~:1.! ~ 1 OC'Irr.mad 1

Figura 11.40. Resumen y logo del motivo Motif!


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 231

A co ntinuación, encontramos una expresión regular que describe el motivo,


si queremos efec tuar un análisis más profundo del motivo en cuestión (entra remos en
deta lle más adelante en este epígrafe) y de los formatos de salida (ver Figura 11.4 1) :

H$()$PJG~Wl]t\.W~ILY»"i~MJ).!~V)

l~r AIRJ)'Stflli

Sut>u cr.' "-'C>>f to ~

n..u J".......,h (!'


~w1homot:f~n PSPNr~ fr t ~r......... :!J IIU')()(S:r~

Figura 11.4l. lnformación adicional del motivo

Seguidamente, se muestra la información sob re los sitios (ver Figu ra 11.42).


MEME muestra los sitios (ocurrencias) de l motivo en el conjunto de entrenamiento.
Estos si ti os se alinean entre sí y las diez posiciones anteriores y posteriores a cada
s itio tamb ién se visua lizan. Cada sitio se identifica por el nombre de la secuencia
en que ocurre, la habrá si se emplean las dos hebras de la secuencia de ADN y la
posición en la secuencia en la que el sitio co mienza.

SitMI!J

Cki.M"" ~ to~« '-~., ¡_1, . 4


.,_
··-
.U I <J(IIl.t0.,J_5no:O U ...... .,..,...._ s:11~ 1T
;J...~7•'l VA~SDKG '!l) r"Alll)VWSC~IL!'VlM'A'lYt.J POE tN LWLYlCRIOC
.u 19(1 ll~.l-Sloltt:S.t:l
&t t.,01 1.0.1_....2·•-~ , , ... U7 ...l ) VAPEVLSDKG 'mQM.lDW~C'QV1l.F'VU!:l9 YL" rDE Jll IMTLYKRVRI
),41•·)$ V~SDKCJ YDLAMlJWSCGVIL~3Yl.l !'tiEfN t.tt!'l'l.Y~ICK
l.(J6e.1~ AAnLirGAT !:t 'fASll)IttSA'...CVLA!Ll.II.>Q L!' "(;!N SYDQLVZII.K
~·tuC16J9(1.l_I.SK·O!lt.<l

"' 1 CIM-)' RAl'ZI.llGA'l E':"l'A Sl DI WSl/"CVJAELWIQ Lf'"'(:eN SVDQl.VZUK


&t to06*.1_.¡·$4..,.I.SI(·I$C·
U .l o01S60.t_ • · S•l.../I'A(ll '"
ll 1 2..1le-2) ~:tLlJ..K<:S rtTAAIDIWSVQCl iA!DCTJU: Lf'llGN) YVOO_UU.Itt
4U00 1$a.O.~t m ) ~~•21 YVUZYACTG IICUo"%KSll n'SN il.IM!llTGPJI VDYSR i'QG!Th"'LVDW
4U.,OIS41U _ I+) HM-21 'i'W.PEYAC1'0 NU."EKSD I Yf>FOI LI NEIItt,RN I"VO\'SR PQG!VI'DKBI
4-t i/,1039-:0. J...•· M "' 3o ~20 YIA.PEVI,.Ll(K CJYC'WECD'. r"'5 IIlAINYENI.VGY • F"'AOO Pk$1'CRi<l"VN
~IO!Il4SO.t _l•l•l '"
"' S.M.e.l'O QT.OSG'IAGSL JO'SDKSDVYS rGCVSF'ZLL'fGKVi rED S LQGDKW.SIUfi
M: 1004liO. IJWOI:tn m J.G2t· l '1 ~-Qtf rYCLEYD l W5 f'GCL 1F!:Ll.TLQN U rDL6 l:LQIKESLQN
Ati OOSlOO,l_...... J~IS tao 1 7~ 1 9 J'WA.PZAAAGE RQ<;~!;D IWA~&Oiliflca.D r:DP\'SVX.YR

.........
.U I \f0)100.1.._1·.._l m 1.11 ... 1• YLDPLC'F!.!N (IU;%.K$D l YSNYVLl.DCIN h'TV'tla!.SQ TKRVINSDW
4C 1\10)7'*0.1_....J..l IAl'""' ' R.PP%LLI.OJ..$ IYGVQVD 'I.MSl\Xl liDL VA? KUlhOI<T ~Q.t.m<If'K
.u t~700.1 _').J ... t _ fUI ¡ 6 t.sa.. ta A.P!:I.LMGSSH RVS!:KVDVPSNIVWtmll.'l '\iU ~A.NL CGAUGGlVN
.1.( 1 ~UO.l..3+H

.U t iJ(ll9'l0.1_:l•l •l IJJ)(l
A( l 0029i'O,l_•·>t
... ?41e-1' )!ACVNTHWl EIQ SRJWDIZS.I/'!~·LJM~ rl.R"SLt1fCYJLR AOTIOCOXYDK
6.tk> t7 YASV'NTilLOV I:IQS!UIDD ILAL.JWJM~ Pl.XOSL' 'lii~LK AGTIOCQ.XYOR
~ M•ao KPQ!:ll,N"'-DY E l.DKVD irSL':iVTVYZLIK~S L TESRN QSI.NlKZQJO.

U l o01740.1_1• ! 6•t '"'


n~ M1t> t6 !TPHYlJI.!G R.ITAtSVIYSfG'H.LLDLI.'r\.~ l:Jt S A LDLliWlWLO

Figura 11.42. Informa ción sobre los sitios

Finalmente, para cada motivo se muestran los diagramas de bloques del


motivo en el conj unto de secuencias de entrenamiento. Cada diagrama se corresponde
con una secuencia y se muestran todos los sitios que han sido implicados en ese
motivo y en esa secuencia, y se muestran tam bién estas en el mismo orden en que se
introdujeron en la configuración de la búsqueda.
232 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

A:lQOH 40..~-"
IUIIIM!:

2••Jdt0.1l ) ..111~<!5
--
- ----
1.::1001lcl0.2~) 1? 3A1H$

AoC lgDII~o..3-Jni!Xc• • l2 , ..., ••;t)

41100t 4.)0.1_l+H .)$~·JO

-- -
""1<;)01 :J-10.1...1-6-) ) l6t--l1
Hl(IOU40.2Jut;AA• l.lo.ll
M lo0tS60.I_.;.S·lJ.tPI<"t 1 , , ,...,~

-
J.:!c017 40.~.1 · 16·1 M 1e· :!
.O.::loOl-910..1_4.3•) l »e· l6

-
,1Ug0ll'4G.l_4-S-2 l A;k. ¡ jl

-------------- -------
-
.t.ao0»20.t_+2·o ).1~·20

ol.t ICI))9)0.l..,)-1·l · IJI,ll(l .l)t-17

-
... 19'1>1) l l).l_prOI<IIn 1.0)4>.1~

--
&IIOO.U.tO.I_> H·I )óJe·l'

-
.w t'))-1 100.1_~. . .... ¡_.M' 16 ~~~e

MlOOliOO.l_.._.. lJW'IQQ( I3l.7C..· I9

-
,l,lld)S100.t_141•1 1.11••18
N.!Q06.3.;G..1...4<So4J,SK-ot.o !.(1~·2 ~

A:IOOtJ'90.2JtiSI"~ll l.oM·2 ~

o' ... ' ,,..


'

Figura 11.43. Diagramas de bloques de un motivo

A l final de la página de resultados encontramos un diagrama combinado de


bloques, en el que se observan las ocurrencias de todos los motivos (ver F igura 11.44).

NM-+.~ §t:et W(h ·~~ btc"lf!f1'*'0 0001


Tho l'>coc:H el ti'Mo ..e.f 'bbck""., ~oon.ol to •log(p-.;ÜteJ, tnrcoted :tt the he.aht b " _ ,, ..eh " lt"W"ñfe ol ~e" l O.
Qlct on ~~tWro" tol!tontoM MO.Itf'IOt ltl .-II'JCotll..
lllt -.onr tilodel .,.,.,.. tool~"'lth II'IO(tlf'll~.

Cl tt Id

--
--
-- - -
ueO: l.0.2Jn':O : 2 1 9Go·6 1
.I.H.,OII~.J_fin'XJ..Il

!.IIQ(IUSO t j -1•1
t .Wo·01

94-1••2'3
'"o'
1!

----
:.ttgl) 1S.a0. 1_ 1•6-3 ~ .01c•2S

Mt001)40 .~·e 2·00t·ZS o


I.U oO U OO, 1_ 4· Sol.J'I'I(J 1 l.Jet·~J

;.n9')~~~.t.. l ·I0.1
'·""·'· "'
:.uQ0:9ro 1...+.)-J f1H· N

- - ------- B
Gl_-
-

- -
:!.t t 0037.t0. t_• ·.\-2 4 .• ·)1 =
MI00)9:0.t_4.:-6 :.9U·« n
1.1100)9)0 1..)-I.J. U<()I'I ) 1)~6 1:1
&tloO• no t...P~ • 29e:·2S _ _ _¡¡__ _ o =- •

-
-.uoo.. te~.t_l·l·l·l •.SJ•·•9
'-1:oQ.I,OO.U·1-'· ~~ tó t.4h·~

--- - -
'o
_.
lil
,..
'
-
""
'
""
'
o -

'
""
'
"""
Figura 11.44. Diagrama de bloques combina do
©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 233

Puede ocurrir que el diagrama de bloques combinado no se


corresponda exactamente con la combinación de los diagramas de
bloques de cada motivo, puesto que solo se muestra n los motivos
con un valo r p de 0,000 1 que no se solapan con otros

Una vez que se han identificado los posibles motivos en nuestras secuencias,
debemos comprobar si está n presentes en otras secuencias. Esto se consigue gracias
a la herramienta de la suite MEME llamada MAST, y que está accesib le desde la
sección F urth er Analysis (ver Figura 11 .45):

1\lrtho.r An.Al'' 'b


lklt>ril.JI-a.e.l ,v.,sr 1 , FI\'0 ... a oc::iCS] --•b<..e-f«-•We......,..

Figura 11.45. Sección Further Ana lysis

Esto nos lleva rá a la página principal de MAST (ver Figura 11.46), en la que
deberemos volver a introduci r la dirección de correo e lectrónico en donde queremos
recibir los res ultados y una descripción de los motivos, junto co n información
ad ic ional cuyo significado explicamos en los s iguientes párrafos.

l.tAST ~lle.teh utlf'\9 your


-
~· ~lllt>l1t b stll~·~etect -

1 j .!
ofh

previoutly provided motift•l: IAEUE


motift trom ..queneu In "le

r¡;;_;: .... ,_~·~oo~~~
' U~I\COUI ' . YI:IIWIASIA~, (~ ('OQOOOO~d'-.~J

~OW.c.l~..

Optlonal
a St;M....,.--.,.,.,.•
..,.eot~~ ~..,...

~Mqvo nc•: 1i4JI E-valle OOIOW ....


a s~.a~l'l nuei+OU<I• ci.II.OIM'~ prob!rl

!QIIOrt MOtlfs 11 f•Wll.JC abO'fe


~~~~~s

"'' VM~....,_.~
In c. 111\d ~ (')1::\ll)f)tl

Figura 11.46. Página principal de MAST


234 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Inicialmente, tenernos dos filtros relac ionados con e l va lor E. El primero de


los fi ltros es el filtro de visib ilidad de secuencias (Display sequ ences with E -value
below) que elimina de los resultados todas las secuencias cuyo valor E se encuentre
por debajo del va lor umbral que indicamos en este filtro (ver Figura 11.47).

with E-value below:

E.vatue at>ovel

Figura 11.47. Filtro de visibilidad de secuencias

El otro filtro de valor E es el filtro de motivos, que indica si deseamos ignorar


los motivos co n un va lor E mayor que el umbral seleccionado (ver Figura 11.48).

Es recomendable establecer un va lor en este fi ltro, puesto que los


motivos con va lores E e levados es probable que resulten
biológicamente poco significativos.
L__:~~ E l umbral por defecto hará que MAST utilice todos los motivos
(use all motifs), independientemente del valor E de cada motivo.

se ha selecdonado

1
0.5
0.2 E
0.1
005
0.02
0.01
0.005
0.002
0.001 hc<.s with E-value beiOw:
l e-5
l e-10

@:1 use IM Mdllal sequence cornposltlon


in E- andp-value catculalion

Figura 11.48. Filtro de valor E para los motivos


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 235

Si marcamos la casilla use individual sequ e nce compositio n in E-and


p -valu e calculation, mejoraremos la búsqueda selectiva cuando se produzcan
coi ncidencias erróneas debidas a la composición de las secuencias. Gene ralmente,
MAST calcula el va lor E y el va lor p uti lizando un modelo de secuencia aleatorio
basado en to das las letras de la base de datos sobre la que se realiza la búsqueda. Con
esta opción, se uti li zará un modelo a leatorio diferente y basado en la co mposición de
la secuencia objetivo para cada una de estas secuencias, en lugar de la composición
de toda la base de datos.

Ma rca r esta opción puede incrementar, considerablemente, el


tiempo de búsqueda debido a la mayor carga de proceso que
supone.

Además, debemos indicar la base de datos en la que se buscará el motivo.


Para e llo, ex isten do s desplega bles (su pported database category y database).
En nuestro caso, seleccionaremos Non-redundant and Sp ecial Oatabases e n la
primera lista y swissprot en la segunda.

Required

SeQuen ce cfata!)ase to snrch-select one oflhe


followlng:

A3upported dotobose:
categcwy:

rcniVO.I F.====:=::=:=====1
Non·redundantand Special Databases
Olhe.t Genomes
ENSEMBL Ge.omes
ENSEMBL Ab t'litio Pred1aed Prote1ns e
OENBANK Fungi Oenomes
GENBANK Bacteria Genomes
U tr~am S ~H:Ju•neu ún annivO.I
Clear

Sampte ONA database.

Figura 11.49. Bases de datos de búsqueda

La lista disponible en h!tp://meme.nbet:net/meme/cgi-bin/get_db_


list.cgi?db _na mes fasta_db.csv&mode=doc&short_only= 1
describe todas las bases de datos en las que busca MAST.
236 BIOINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA

Es posible escalar el umbra l de visualización de motivos por la longitud de


la secuencia (scale m otif d isplay ther eshold by sequ ence lenght). Por defecto,
MAST muestra los motivos cuya puntuación se encuentra por encima de un cierto
umbral y calcula el umbral basá ndose en la probabilidad de los moti vos, teniendo
en cuenta la longitud media de las secuencias de proteínas, sin tener en cuenta la
longitud de la secuencia . Seleccionando esta opció n, e l umb ral de visualización se
calcula considerando la longitud media de las secuencias, con lo que se reducen el
número de motivos mostrados y el tamaño de l fichero de salida.

Finalmente, es posi ble lanzar las búsquedas de la vers ión, en secuencias de


bases, de la secuencia de aminoácidos de la proteí na.

Una vez establecidos los parámetros de la búsqueda, pinchando en el botón


Start sea r ch , obtendremos, al igual que en el caso de MEME, las páginas intermedias
de resu ltados hasta que, una vez concluido el procesamiento, se muestra el resultado
final (ver Figura 11.50), en donde seleccionaremos la versión html.

;\l.\ST Job • Oou


y~-~~~-_..

~UIIb
....
.........,
StJt•, Mnt.a¡n
• hl.-a•-
..• .sur;,-
. .-~
-...
--~
...
··· ·- · - --·~......... .... -·~···· .._. ·Oof·~· - ..................~. ........._ ,,u.,·-.••.~~ ·- u-,...........
-.,.,.~,.~

Fígura 11.50. Página de resultados

Los resultados de MAST son más sencillos de inte rpretar que los de
MEME. Tras el resumen de la información de entrada a MAST (ver Figura 11.5 1),
encon tramos los resultados de la búsqueda.

._ _...
•to~~eo>-ll><"<!..,...t.,_o,no.lbe<.,.oot•-tl~-,.._...-c~'o•oe4'l«oo"N'M""r"'....,.NS

.....
... _ --.--~·-
a-,t. __._. _ ._....._...,.,._ ...---~-. ....,...._¡¿,.-....

INP\."''S

-s-• ,..__..e-
~
.....,...e- ••u"'''m..:.o;ou
11H~
l ............

t.W ~ ~·~J-

Figura 11.51. Resumen de la información de entrada a MAST


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 237

Las secuencias encontradas (ver Figura 11.52) se ordenan por el va lor E de la


secuencia, de menor a mayor. Tras el nombre de la secuencia y su va lor E, aparece una
flecha cuya pulsación muestra información adicional de la secuencia en un panel que
se abrirá con dicha pulsación. A continuación, podemos ver el diagrama de bloques de
los motivos que se han encontrado en las secuencias de la base de datos. En cua nto a la
información adicional, se muestra la descripción de la secuencia, el va lor p combinado
y la secuencia anotada, indicando la posición del motivo dentro de la misma.

SllqUO!IIQD: f'•V8111e
~!Q1lUW~ICII't(l..,<l'O'SJ :J.:Jt·l l 1

_ , _ _ 6.10e·18

""'1
••~u
_, ..._,.._
a~:!IC
.............J.:UC
V

-.~'' J.:DC ~ "A;I=~t-: ;1.uvuc,;. . . r,:\.l~

ll'I~YQSIOPKl..Jt,AATH ) .4t•12
'
to!Q....O(Cü't.7_OIIVSJ ' ,... u
•.,..u ' ..._
1
_,¡...11i.)XI)Cfl't(j- OllVSI 1
_._
.. .
~!QX)'t'j)ICIPI<W_OA:VSI

,. , ~ f.
8.3e·ll 1
'b • •
._
Figura 11.52. Resultados de la búsqueda en MAST

11 .6 ANÁLISIS DE LA ESTRUCTURA PRIMARIA DE UNA PROTEÍNA

La estructura primaria de una proteína se considera caracterizada por


la secuencia de am inoácidos que la constituyen y el orden en que se disponen para
formar la molécula. Conocer la estru ctura de una proteína permite, no solo conocer su
influenc ia en el comportamiento fis ico-químico del organismo, sino que sienta las bases
para averiguar cómo interferir en ellas e incluso, diseñar proteínas "a medida" .

11 .6.1 Traducción del ADN en secuencia proteica

Una vez que se ha obtenido la secuencia de ADN del gen, y una vez
garantizada la calidad de dicha secuencia tras haber estudiado la contaminación, el
paso siguiente es la traducción del ADN en una secuencia de aminoácidos.
238 BIOINFORMÁTICA: El AON A UN SOLO CLIC © RA-MA

En este primer ejemplo, uti liza mos la herrami enta de traducc ión de Ex PASy
(hup://www.expasy.org/tools/dna.html) y trabaj aremos con la secuencia :

>IR64 Oxox 2
gcctctacggggtct t gactgctgactaatcttcctataagttaattgcaaattt t ctca
cgtgtgccacg t acgcatgaaacatgatcagttatgcacggaaggcacgatcgatgcatg
ggtgctcccctata t aaagggctccaaagctaactagatcatcagcaaagcaaagt agca
aacaaagccagccagctcgtcactgctactgtcttgcctgattgaagaagtaattagtta
ctagtagt tga t tagcaatggagtacggcttcaaagcagctgggttggtgtt cgtcgtgc
tgc t cctgcagcaggcgcccgtgttaatccgagccaccgacgc ggaccctc t gcaggat t
tctgcgtcgctgacctcaacagcgaggtgacggtgaacgggcacgcgtgcaagccggcgt
cggccgccggcgacgagttcctcttctcctccaagattgccacgggcggcgacgtgaacg
ccaacccgaacggctccaacgtcacggagctcgacgtcgccgagtggcccggcgtcaaca
cgctcggcgtgtccatgaaccgcgtcgacttcgcgcccggtggcaccaacccgccgcacg
tccacccgcgcgccaccgaggtcggcatcgtgctccgcggcgagctcctcgtcggcatca
tcggcaccctcgacaccgggaacaggtactactccaaggtggtccgtgccggcgagacgt
tcgtcatcccgagggggctcatgcacttccagttcaacgttggcaagacggaggccacca
tggtggtgtccttcaacagccagaaccccggcatcgtcttcgtcccgctcacattgttcg
gctccaacccgcccatcccgacgccggtgcttgtcaaggcactccgcgtggatgctggtg
tagttgagctgctcaagtccaaattcaccggcgggtactaattaatctgggagtattttc
gtaccgttcttcgctacgagcagcgtac

Figura 11.53. Secuencia bajo estudio

Una vez copiada en e l área de texto, pulsamos e l botón Run y obtendremos


la página de resultados (ver Figu ras 11.54 y 11.55):

Translate

.. ..
~~n co;Qqt~c~t;~"'~c ct•ucucc:...~-:""''0<:-"""ut~ct"
~-:<~:<;<:e~ 01<• er-~t : _, • -"-" • t-: • : e<~; : t • t ~:-;-;• ·~>:e• <r.• <c >,¡A <<;.>:.. te
t'Jlf*'~~ut;~;~eoec;ntctueu,.ate.~ot~io!Ua-,caUfU'J'!>I
U <: :..u ! C !~ ! C: '~t!~-!4! t! ! ~ :~t!!C !t :IOH!4 t t'H4-~ uet ~ :t !f.:'t !4
c.t•;<wo;'Y.-'10~ w .,.,...~r.o~r.c' ~o.u~~t.;-7,1! Y.~'~Wt.O;t<;o
t<I'«OI:tO.::MC400.:~~~<ntUtQCO•O~~~O~OQtCt~:O..tt

t<:"t.;-Q':tC~Ct1•Ce-t~o.~>e~t&~O~O&~O; e>;M,..-'!':'!V.OC1~C~~ 't:--"'0:0:0:~


~C"'i9'"9""f'"~t ~t.Ct tCtC<:t<><U a;atti~.&OO)f9"'fl"9aOO)t<JU ·t9
cc.a.a;.; :n ~ : ;c ~-:c:aa·: ro-: v. ;n 7~-:c; t : :-:;.;:e :~ ;-;q;.;,;;q;~-:o"·:•
~'lll>lW~~t?l~fO::C~C>:QO;<;;cn>:v.-,.;.o~;"~()t.?f

u:.;oo<>:c<:~>:q<:Qc:CK=;t<N"~c•:c:q~oc<;c~:.;~.t4c~cc~cq:CIQ~&tc•

te-;: :...eec""''"c ·~:-:-;•" a~>:-<•c~ •c~oe.t.;-:-t<;: ~CC'J<?CC9>:<r.' ...,.1'0:~


te,ot$ot~a·~~oeecatf$ett~a9ttene.ttU¡to: a~q~9aM~~
t~r.~r.c: :te ~: ::::-:~:u : e : :-::e :: ::: -n : e n e :e-:e:~• = ~= :c' tcc
Oltpl.tkKI'M! \f..t:.o: e ~ -s..,• "P"~bol:-• •••i:!.-) •1
~I(((IÓC ~

Figura 11 .54. Página pri ncipal de ExPASy Translate Tool


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 239

En este caso, los resultados son 6 tramas (tanto directas como inversas) de la
secuencia traducida que muestran Met (metonina), el codón de inicio y e l de parada
en negrita.

S')' Fi$tre 1
X XAS TGS 6top l l TNl PI S S.top LO! f SRV PRT HE T S.b:lp SV Stop l OHOOS KVANKASOt V 1 ATV LP
O $top A SN $topl l VVO S1op0WS TA$ KQ l GWCS SCC SCSR RP C $top S 1-- P Ft TR rl, CR ISA$ 1 1ST A R Stop R StiCip TG 1 RA $ RRR PPA T S
SSSPPRIPRAAT ~ lPTRrAPT$RSSTSPSGPASTRSACP ~p lASTSRPVAPTRR I STRAPPRSASCSAASSSSASSAPSlP
GTG Tl PRVISV PARRSSSR G G SC 1 S SSTLARR RPPWW CPS 1 ARTPASS S SRSHCSAPTRP SR R RCL SRH SA \V Stop lSC S
SPtl SPAG t N Stop SGSI FVP F F 1\ TSSV
S'3' FWI"$ 2
XX PlR O LOC $ top ll f l S4o¡>VHCK F S HVCHVR StopiiSKAK St(l90 TKPA SSSL l l SCliE E
VI S Y Stop Stopl l SNOVRlOSSWVGVR R A A.PAAG A RVN PSH RRO PSA O F l RR SCop PQQ I~GD O E RARVQAGVGR R RR VPLL t O OC
HGRRR•ROPtRLOI~HGARRRRVARROHARRVHEPRR I RARWHQP A ARPPARHRORHRAPRRAPRRHHRHPRHR•OVILOOG
PCAROVRHPfGAHALPVORWOOGGHHGGVLOOPEPRHRLRPAHIVRlOPAHPDAGACOGTPRGCWCS SlopAAOVOIHRRVLI
tiLO V¡: S Y RSS LAAA Y
S'l' Fta.rfl9 3
XX LYGVL lCA._D: :.-·"

ftJVLRYEQR
a·5· ~l'lltro '
VRCS S-top A.R TVR K YSOIN StopYPPVNl O L SS S TT PAS TRSALT S T GV G
. stoJ) YlF PVSRVP

Sto.pO StopRAOYIL Cl LL Cf AO O l VS r OAL YIQ E ll PCI DRAfRA Stop l l


Sto.p C O S-t op SAVKT P S-top R XX
3'5' Ftll.l'OO 2
YAAA S EE RYE ftT PA LIS TAA $top iWT StopAAOt HOHP RC VP ~op QAPA SCWAG WSAT liiStopAGR AA C R C SCC Stop AT PPWVIP
PSeOR S:opTC SA $topAPSC $topATSA RHCP PWS S Te SR e ll Ce ll Stop e ARCAR ACARC RPR WR AG CAAACWC HRAR SR RCSVJ
e
TRR AC $topRRAT ARA AA P S-top R'.V S ASGYIRS RR A PWQ S W R RRG lAR ARPTPACTRAR SPS PR StopGQRR RN PAE G P AA VIl Cl
TRAPAAGAARRTPTOll Stop$ RT PlliNY Stop Stop LI TSSIROOSSSOE lA GFVCYF All- Siop l Al E P Fl S.top GSTHASIVPSV H
lf Stop SCF Stop E Nl Ol TYA Kl SOO SR PR RG XX
l'S'F~'l
fll VAKfl 0 1 Kll PO Stot>l VPAG 1: r GLtOLNYT SIHAE:.Cl OKHR IHtOGRVGAt: OCf ROE 0 OAOVlAVE G H HHGG l RlANVEl E VH
EPPR00€ALAGT0HLGVYPVPGVEGA00ADE€LAAEH0A0LCCARY0YRRV0AfCREV0AVHCHA€RV0A0PLG0VELR0V
GAVR VG VH VAARGN LGGEE El VA GGR R RlARVPV HRHlAVE YSOA ¡;: ll ORV n VGGS O Stc.pHGR Ll O ~OHDE HOPSC F EAV L H
C Stop S T TSU Stopl L lOSGK TVAVTSWL AL fA f Ll C Stop S1op SS Stc.p l VIS Pl YRGAP Stc.p L
tGRl VSSOOPVEXXX

Figura 11 .55. Página de resultados de ExPASy Translate Tool

Generalmente, la región mejor traducida es el fragmento más largo. En este


caso, se corresponde con la siguiente secuencia escrita en sentido 5 '3' de la tercera
trama.

MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEF
LFSSKIATGGDVNANPNGSNVTELOVAEWPGVNTLGVSMNRVOFAPGGTNPPHVHPRATEV
GIVLRGELLVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQN
PGIVFVPLTLFGSNPPIPTPVLVKALRVDAGVVELLKSKFTGGY

Figura 11.56. Fragmento más largo

11 .6_2 Predicción de las propiedades físico-químicas

La estructura primaria de la proteina establece, entre otros aspectos, las


propiedades físico-quí mi cas de la misma. Para su estudio, utilizaremos la herramienta
ProtParam de ExPASy (http://expasy.orgl toofslprotparam.html).
240 BI OINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA

ProtParam de ExPASy permite calcular varios parámetros físicos y químicos


de una secuencia proteica dada, entre los que se encuentran el peso molecular, e l pi
teó rico, la composición de aminoácidos, la composición atómica, el coeficiente de
extinción, etc.

En la pantalla principal de ProtParam copiaremos la secuencia de


aminoácidos, aunque tamb ién es posible introducir e l accession de la proteína (por
ejemplo, P05 130) o e l identificador de la secuencia (por eje mplo, KPC 1_ DROME).

MCGGEVIPADMPAAPFTPRHGDGETWVDRKRRNKKKRKRGADEEWEAAFQEFMAADDDDDGGGLV
LSSKSLVLRSPGENDAGRGAAATMSMPLDPVTEEAEPAVAEKPRRRRPRRSYEYHGIRQRPWGRW
SSEIRDPVKGVRLWLGTFDTAVEAALAYDAEARRIHGWKARTNFPPADLSSPPPPPQPLCFLLND
NGLITIGEAPTDDAASTSTSTTEASGDARIQLECCSDDVMDSLLAGYDVASGDDIWTWTSGASST
SVNQEIKTPSIHQNISYAGARPMTCHFKNHKNTFVQMECSTMLNLLKGHKQ

Figura 11.57. Secuencia de aminoácidos de la prote fna P05130 de la mosca de la fruta

En el caso de indicar un accession, se muestra una pantalla intermedia previa


a la pantalla de resultados (ver Figura 11.58), en donde es posible seleccionar para el
análisis o bien la secuencia completa o b ien los dom inios funcionales que se hayan
encontrado.

ProtParam
'
ProtPuam
Stl~ of tndipQwltl on lllt Mq~~+n<;•
KI'Ct_OROME {J'OSt30)

P•Oiei11tniS".e C. tw~ l$0lYITle(EC H 11 13HPXC)(c.PKC$3f:(6R))


Ol'os,oplllil ~nogd,~et !Fflllll'f.l

Plc-o.:sc: ~1:-d ene oC :-.e f(ll(w.11'Q tcaNe:; u, dltl:llQ on o o.u of C'f'ICIOOIIt"... w tfle cCfl'p!,.(Qiwl MI be cameo oc.t 1or lile corre59QOO!no ~ucncc fra~rt. 6y óef~utlk
torrC~Iete ~ •:~ ~
N040: Of'tlle fe<aUI?SCOI~)()ndflOIO ~ Of*llee$11 Sres~ are~I'I(J'U!O

"" .....
-~
~:"1
......
:o-~4, .

.)S0·f0f
,...,""
,...),
... ,..,_c. .........
h:<ad&IU~ •
•o<Mt-·

""n o::t'~l 4-~ :r-H)


= n.M.H
'
H :w!.fllll ,

"'" ....
:x_r:.:u r:o= ::e¡ . ... :..:1
;.:
•:.-~04 ~~ ~"!>"'

~
tr(ft.''13
!1·-~~"
~~·S<.4
litlo~~l -·· , ·d~'~'t-
A-"tf tiSY .lY>ll.fUYI • '·
Or 11ycu wi~ 10 1:íll!)('t a O:~o)fl ~ 11 ~m (M IOIQ(:I 5 arn no aac~ lOng) )OU ean 01\!olf 1n1t ~f'ld ~m~ M tr.- ~~ 111)('9 (!)y' O(ol'aul N- O)f'l'lpl.f:er.;otho, • El'>
C.ll'l'•od 01.1! tot mo cool)loto ~).

N !CtflliMI
~0111

Ths~ K.PCl_OROtAE ~m of619 twnno eo<l:~

' RESE 1 1! suom 1

Figura 11.58. Pantalla intermedia

Pinchando en Submit se muestra la página de resultados (ver Figura 11.59).


En la parte superior de la misma, ex iste un enlace con el texto de l identificador de
la proteína que lleva a la información sobre la misma almacenada en Un iprot (ver
Figura 11.60).
©RA-MA Capítulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 241

,_..ti:N,.C.tqo~I'IO.'"!"'' (EC:11 tl l ~fii(CI~f\.U


~~11'1\11"1
lhe c~~~C*'llt<I(IOJotltle~e~{m Wtn)kidl.)

... .. -·- .... ·-


··-···...·-._.......
.....-..... --·--
...........
- -..u
..,. -····~
-•~o-.uu-•
.__
-Ue•u-.

8 ··04-......... -··...._...... ... '""'---_...........


~·- · •-'~ ...
- -...,.,_,u-., · {;tN- 1
~ "" a
..... ... " ' ·" . ....
.
~ '" l•
"""" oC' 11 ' ' .....
~!~ ~:
),
< .l o

Figura 11.59. Parámetros ca lculados por ProtParam

Además del peso molecular o la composición atóm ica, los parámetros más
importantes son:
,.. Coefi c iente de extinción: muestra cuánta luz absorbe una proteína a una
cierta longitud de onda y resulta muy útil en los estudios de espectrometría.
ProtParam ofrece una estimación que, en todo caso, debe confirmarse
expe rimenta lmente.
,.. Inestabilidad: se trata de una estimación de la estab ilidad de la proteína.
Cuando el valor es de 40, la proteína suele ser estable. Cuanto mayor sea
e l valor, más inestable será.
,.. Vida media: es una predicción del tiempo que tarda la proteína completa
en desaparecer después de su sín tesis en la célula.

-·-
"""'·--~
---- .
P(KI)OQ(PCt_~.
...,.-.,Jotyt ltW
- · ...,
H9''

ft--.lnPic:oo:A.S.nPtol
.,.._._ O ""'"'Y
- IDiollf!PI'\ '

t•.,. l(--...s •·1 a-

:: ow-••• '*'-tr~ ~ -, 1 OK-• 1~ 1_.-....,.::u

l't.!l......_
·$-
--·-
aw.
p,_."·-
4
e. ............_

--.............
:.o--llof!t
- .....
Wft !IO)

~-­
.,_,_ ""'
~-~
~--- ·· _
.... ..,.. ~ __,
"'""'"
t..._ ........ ~ •...._~ ........~ •..._ · t~·Oolo"• • li'o(IOI'I... •Iolfoc...... t....-..
~.o...... ~.

Figura 11.60. Información sobre la proteína en Uniprot


242 BI OINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA

11.7 PREDICCIÓN DE LA ESTRUCTURA SECUNDARIA

La estructura secundaria hace referenc ia al plegamiento de la cadena de


aminoác idos en el espacio y está formada por una estructura central y cadenas laterales
que se extienden en tres tipos de disposiciones diferentes: por fuera de la hélice (hélice
a lfa), en hoja plegada (p legam iento beta) o en giros beta (secuencias cortas que
imponen un grupo de 180 grados a la cadena principal). Inicialmente, se utilizaron
métodos totalmente empíricos que se basaban en el anális is de las estructuras conocidas
de algunas proteínas y a partir de los cuales se elaboraron unas tablas que indicaba n la
frecuencia re lativa con la que un cierto residuo de am inoácido se traduce en una hélice
a lfa, un p legam iento beta o un g iro beta (en la Bibliografía pueden encontrarse).

Si la proteína bajo estudio tiene un número suficientemente elevado


de homólogos, la predicción de la estructura secundaria tendrá una
fiabil idad estimada a lrededor de l 80%. Sin emba rgo, no hay que
L-~~J perder de vista que se trata de una predicción que habrá que
confinnar experimentalmente.

Una de las herramientas más exactas para predecir la estructura secundaria


de proteínas es PSTPRED (http://bioinj.'cs.ucl.ac. uklpsipredl).

La primera sección de configu ración de la búsqueda es el programa que se


desea ejecutar. Se dispone de una gran variedad de herramientas de las que hay que
e legir obligatoriamente una, siendo PSIPRED la seleccionada por defecto.

·-
·--
$it•~v~on

.-----·---·
--.
. . .__ -..•"\Otl-.·."---.
-""---ol----·--ot " " ""-·
- . .-,_.,__.
·--
The PSlPREO Protein Sequence Analysis Workbench

....-..-...
-
_,~ ~-· -·- -· -
ouno_. _ _ _ ,.IÑ_.,..,,_
,-__
.,. -~
..OIII..•.... -•-•...,--...,~Iil,._.., .....
o.~ ~ ,

..
~ ~-~
I M iiaHID 1 -
C,o..-~ ~f -.~-..ct.>f\ r._.._,_.,._ .. ~-··­
,-~~ -~ 1011~-· ~-l-
__ _..."'-"'·•-Ocoo.d..o<.-

-....-
~
~-D•'U _ _ _)
r _ ...u«, (Jrooolio- •'"""-~
L .-f•U _ _ _.._,
r ..._ .._.~--·
c~01-·"---
.
--.
-.n.-·--··· -~"'-1
-~...
~--(-· -"-"""

-L ...........t,..-t~:.,.,_,._..,.. _..)
! ~4· ~--"0 ... _ ) "'-'--·-·-~-.--~

Figura 11.61. Página pri ncipal de PSI-PRED


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 243

En esta práctica trabajaremos con PSIPRED pero recomendamos


que se rep ita este análisis con otras herramientas distintas y se
comparen los resultados.

El paso siguiente es especificar la secuencia bajo estudio. Trabajaremos con


la siguiente secuencia proteica (ver Figura 11.62):

MEYGFKAAGLVFVVLLLQQA~VLIRATDAD~LQDFCVADLNSEVTVNGHACK~ASAAGDEFLFSS

KIATGGDVNAN~NGSNVTELDVAEW~GVN TLGVSMNRVDFA~GGTN~PHVHPRATEVG IVLRGEL

LVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTLFG
SN~P I ~TPVLVKALRVDAGVVELLKSKFTGGY

Figura 11.62. Secuencia bajo estudio

Una vez introducida la secuencia en el área de tex to Input Sequ ence y,


opcionalmente, completados los datos de correo electrónico para recibir los
res ultados en el buzón de entrada, estamos en condiciones de lanzar la predicción
pulsando el botón Predict.

2.1 PSI.Pfl! tl v.S..S t ~ ~!'Y s:t...a....-t) Zl o!se;~os a. o1se-:o~l CO-"'O'~r ?:-~>


..:J ~.,..u,:.cu <Profili &.a* '<'Id ~t«<IMJJR) .dNtJotSAT3 l. <>t! NS..'IT·SVH (Jtiorol)r~ • (; ~;., ~n)

.:J l!oo Setf v2 .O (~uto.oNo!d 1-lor~ Ho6d:l "'9) ~ Dcr•nl'o ed (Po-ole~" Oc...._. l'<e llo« - )
. ,ffiJI-ed v2,0 ( flol<,.<v«oc: f uno;bon ~n) ~ G.,onTHitfi.Of.'t ( R• PCt fcld ~~~ocn)
'D NtMf>ACI({SVM l'l'edlaon el lM T~ or<l noef;:.: F~) tJ itOoml"~Cil ( tQfd oo.r...c11 RecogMon)
D o.omsetf Vl.O ( '"*-...te:! Oon...... ~e-'-'51 by ~0.07)
!!("··
I nput Sequenc:e (Smqle !l.equconc:e or Mulbpltt Sttqucnc:e ohqnmt!nts; a!l u1w !l.equence or la'l>tn lorm.:~t}

MCV'Gtl<MGtVI'\I'JI.U~~AArc.:.oi'LqOfCVADV."Gt'ITVNGt1AO<PI&AAGOtru':l.:lKI
o\TGGCNN.:.,t~f<V"IUOYAi'IIPCv~t:tV'Of»>GT~9AA.TE\ICIVlRGtu.VG
! !CTlDT:;,.lt~M"R~\I'GICT~T~IWS •kSQ'IPC;~Tti'GStfU'I Irt
f'VlVK.At.i.VOI<GW t t.l.l($f(tTGGY

"'"'"
:! 'f(N wii!l tO ~t !Na Ct f'lieot fOil~· N iirC t0 r«r~t~ i tM fiSU '~r<oil.
subml<o.,lon Uet.:~tl.,

l'c o••

Sllor: ~U.or br ~.;~:0...


IPo-cu.Ww~ t ..;o~
l' t~...

Figura 11.63. Configuración de los parámetros de búsqueda


244 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Aparecerá una pantalla intermedia (ver F igura 11.64) mientras se está


realizando el procesado de la información.

-
Srte N~vigot!on
Your PSIPRED server job has been submitted
V.. 101>•• n tho! Cl<lt!"' .....:Ho 1M...,......: Pr«~~--",P,'Idio> wM! tilol!r»IO- t42.a6n 4.0to(.a· l l!!.&..t'biH)016:ht105H

. .'.
F to,«lt
...-.......
...........
w.b ........

.........
(01'(~1

Gr-lntl~

Server Navlgatlon lli»fC:IP(~ t¡.loe acte.!61 30 t'!W'\ooC.~ ~~r~ u~~~,~.._ tlctl~~<t no t~e ¡ff~6~ OleM"e~
D$!OitfO,........- Y- •ri-'b..,. b., ro:t~ to 1M '"'W'I(k.l"' QO">t" 11>$ )OCJ 1¡¡;, ~~ JI tOU doM t:tl" ~ fl' d>QOo.., ~ ~iot., -~ •ov <.,... dlo:6: tt•"
~~~Ohell>
Sto'"o'(<' OvtNI~
,........,
P!O')"-• M hlt(>J/btf,J¡Id c.c..ucl~oo<~¡'f-.A¡7d3oi061:M·Oooói•ii-.1A7t&<OOI6,_ 1 10S'-l. Y'our ••••111• wtl b- ..,._o.csto ,ou~ lh-):t>luoo

Figura 11.64. Procesado del envío

Una vez ha final izado el análisis, se muestra la página de resultados (ver


Figura 11 .65), en la que se distinguen tres pestañas.

,_...
Slte N.evlg.etlon
..._ Sequence analysis results for job: Proteína_bajo_estudio

--·
Poo,ect,.
ID:7d 3a6724-0e64-11e4-97bb-00163e110593

V_. .
....~ $o:!rl.~~
DOoo.roloid$

e~

Gfouo IIO".n.:t

Server Navlgation

............
OSZPIII:EO Safv~ ... ....
.,,.., . , .. , , , ••• , .. . ,o• • •• • 9t .o.•" "
,, .. ~


-.o.-
s......
s...-.... c.ul4tl

H.~Off
lloll.·....... Oooo;. . ..od
'" -• - ---
- -·
ID

a-............................................. 0 ""'
»>

Figura 11.65. Págína pri ncipal de resultados

En la primera pestaña, encontramos el resumen de l aná lisis de la secuencia


en donde se inclu ye n datos relativos a l envío del trabajo al servidor. Sin emba rgo,
la parte más interesante es la correspo ndien te a la estructura sec und aria (ver Figura
11.66).
©RA-MA Capítulo I L PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 245

Sec:ondary Structu re M ~tp

~~~ro prcd ct}~ ~rQ ((liQur <odOó cnto thc :cqu.;rco ~(lQOI"CCu'9 to ~1\o ;cq~.ro"'CQ ftN.turc koy al\own ~I:IW.

~ .,,.

:o1 .,

11 11

Figura 11.66. Mapa de la estructu ra secundaria de la proteína

El mapa de estructu ra secu ndaria consiste en la secuencia de am inoácidos


introducida y formateada en disposición tabu lar, con un aminoácido en cada
elemento siguie ndo un código de colores que indica cuál es la posición que adopta
en el espacio.

En la segunda pesta ña, PSlPRED representa el mapa anterio r de una manera


más gráfica, aportando info rmación sob re la fia bilidad de la predicción realizada (ver
F igura 11.67):

.::~~. ...
... ... ...
___
----
: : .- ---
-
--- ·-·-----
-* -·':-·1! ___ .. _

Figura 11.67. Gráfico de resu ltados

Pinchando en la imagen reducida se m uestra la imagen completa (ver Figura


11.68). La línea de pred icción (Pred) co nsiste en una sucesión de H (hélices), E
(p legamiento beta) oC (giro beta) que indica n la d isposición espacial del residuo. Por
otra parte, la línea de fiab ilidad (Conf) indica el nive l de fiabilidad de la pred icción
para cada posición.
246 BIOINFORMÁTICA: El AON AUN SO LOCLIC © RA-MA

Conf : llllmmmlllllllllllllllllm~llllllllallllllf
Pred :
Pred : CCCCCHHHHHHHHHHHHHH HHHHHHCCCCCCCCEEEECCC
AA : l~EYGFKJU!.GLVFVVLLLQQAPVLIRATDADPLQDFCVAD L
1 1 1 1

10 20 30 40

Conf : Jlllllllllllllllllllll~~~llllllllllllllllf
Pred :
P red : ce ce ccccccc.c.cc cecee cccccccccc cccccccccc e
AA : NSEVTVNGHACKPASAAGDEFLFSSKIA7GGDVNANPNGS
1 1 1 1

so 60 iD 80

Conf : llllllallllllllllll ~•llllalllllllllllllllf


Pred :
Pred : EEEEEC.CCCCC.CCCCCCCEEEEEEECCCCCCCCCC.CCCCC
AA : NV7ELDVAEWPGVN TLGVSHNRVDF AP GG TNP PHVHPRA T
1 1 ' 1

90 lOO 110 120

Conf : ll lllllllllllllllml llllllllllllllllllllllf


Pre d :
~ >
Pred: EEEEEEEEEEEEEEEEECCC.CCEEEEECCCCCCEEEECCC
>
AA : EVGlVLRGELLVGII GTLDTGNRYYSKVVRAGETFVlPRG
1 1 1 1

130 140 150 160

Conf : ll l mecaalllllllllllm•IIIIIIIID•Imaallllll[
Pred :
Pred : CCCCCCCCCCCCEEEEEECCCCCCCCEECCCCCCCCCCCC
AA : IJ~HFQFNVG KTEATMIIVSFNSQNPGIVFVPLTLFGSNPP I
' • ' 1

no 180 190 200

Conf : Jllllllllllllllllllllllmllllf
Pr:ed :.f'-")_ _---'HEJ)====)- ) --
Pred : CHHHHHHHKCCCHH HHHHH HHHCCCCC
AA : PTPVLVK.~.LRVO ~.GVVELLKSKFTGGY
' '
210 220
Leqe-nd.1

u\.l_ ___,) - h e l .... Conf 1 L ~ 11 ( -


:J c:.onEid:nee of pr:e d i d:: i on
+
Pred1 predLc:.ted seeondory ~trueture

- coi l

Figura 11.68. Gráfico de resu ltados ampliado


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 247

Finalmente, es posible descargarse el informe completo en distintos formatos


a través de los enlaces que aparecen en la te rcera pestaña (ver Figura 11.69):

Sequence analysis results for job: Protefna_ bajo_ estudio


ID: 7d3a6724-0e64- 11e4-97bb-00163e110593

llnwnlo;u1 PVPryttun9

PSIPII.ED re;ultt: In pl;drt h t:xl (on~to.t


PSIPiltD r<lw <KOI'<K 111 pl.<llrl tUl r.;.nn<tt
P OIOlj;(rii)C v•r~>I01t o f !Jo~ PfiPII:fO dUig r <tm
POF ven;lon o f th• PSI"-EO dh1gr:o.m

Figura 11.69. Resumen de los resultados

11.8 PREDICCION DE LA ESTRUCTURA TERCIARIA

La estructura terc iaria es la estructura tridimensiona l de la cadena de


aminoácidos.

La herramienta Swiss Model es un software de mode lado auto mático de


estructuras homólogas de proteínas accesible en http://swissmodel.expasy.org/. En
la página principal de la herramienta (ver Figura 11.70), pulsamos el botón Start
Modelling:

li1! ~~ -
. -~--·- SWISS-MOOEL 11 , ., w' l><of"lllno 0<(> .,.., . n U t;l C • • ,., "'

Weleome to SWISS-MOOEL
$'\l$$.uoot'.t IJ • ..,l)~jii«MW''fiMII.tt~~~ ttens~~ ~~~~Y oott.~- Ot ten tht~t~t~Ot«f.•..,..
( $loi§.l PcD.~ lile pu"PQM! 01 ~ Mf'MIS 10 11W..t PfoWI Wllri!l.... -~ t!-SCIIe tQ .V OIOC~ W t'ltiii!C.UJ/1 ta::lgQS ~~

..,.,~ _,..~ 1)<01i!IW•Iu-'Mrv o~!\1~'-•I'Wr> .~.:. \11111':") W'o -~ f feo....-( ~~..,,~ OOfMJIII. ki.»AiotWI~II"O
~,.,.,~..u, "!\\J'-,. O<'Ori"""tr-. Kllolio:l Wlret' CI K!f'

"'- " $CNoe;eo.r• ~~ o~


(~f'ni'~~

SII.IMtnUMCI or&on !Ot!!'lolttl ' BIOZENTRUH


~ llWwMo'?J d. f!.WI
~m,_. sono l.k!l'<• \lt'l8- l
lb~ C....ltt ••• HllhMw l.n• SO-ent"
Ol..ct.e•w t h~~
~t."J$<11

Figura 11.70. Página principal de Swiss-Model


248 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

Aparece entonces una pantalla en la que es posible introducir la secuencia


correspondiente a la proteína bajo estudio. Trabajaremos con la siguiente (ver Figura
11.71):

MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEFLF$$
KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVGIVLRGEL
LVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTLFG
SNPPIPTPVLVKALRVDAGVVE LLKSKFTGGY

Figura 11.71. Proteína bajo estudio

En cuanto se pega la secuencia, la herramienta la valida y ya se está en


condiciones para construir el modelo pinchando en el botón Build Model.

Start a New Modelllng Project o


Tll:rget5eqvence- r ratqet;..•••••lillilillüilal~¡;¡¡j¡¡¡¡¡¡¡;¡;¡m¡¡¡¡;¡~~w¡¡¡;¡jj¡¡¡,¡¡¡¡¡¡¡¡¡¡¡¡¡¡g:¡r,a eo •
lR.'i l~IJ.A.MtAl 'Sl.Sll~lAKCetr! I:!ACVAA!'l" :r•''Jf'.. W.~':'AX ;..esL:O.:. M '..'\'\I'UPC2QSI..LC:::CI :'.!,.·;e¡( l(.O ~
t a!9 et. !lr.Q..-:.AAUI.ltm: I t rr-..AD'I nt':'~-~~ GGll!'PS'/"!:.1..';H 5$'11..5!'~~ ~CNTLLnrAGG !Q."VAS~t.T M 't~At-..13'itQ 2•o

Re-set Fonn

Pro;cc-t lllto vntl~<l ¡ ro.ect

Emall:

Search For Templates Build Model

Figura 11.72. Validación de la secuencia

Los resu ltados (ver Figu ra 11.73) muestran la predicción de la estructura


tridimensio nal de la proteína bajo estudio. Aparecen una lista de coincidencias
entre la proteína bajo estud io y las referencias guardadas en la base de datos Swiss-
Prot. Para cada coincidencia, se proporciona el modelo empleado en el cálculo, el
porcentaje de s imilitud con la proteína bajo estudio, los ligandos y una representación
30 de la estructura de la proteína que puede g irarse en e l espacio utilizando e l ratón.
©RA-MA Capitulo IL PRÁCTICA4: ANÁliSIS DE PROTEIHAS 249

e n· - P o a • • ,, .e • =
E! ~·~
. _::~- ·- SWISS-MOOEL

Model Results o

~ Sofol~l)e(-

~·A Zi41~ t;lilt'IQC:IIEUIII)Plo\IC(f!E_¡I:tPI,ASf.IICI:J;~I'Q01611 .,

--·
t.i'& on () ...

-
~"""......,_.,....

.ntiA 100~ l'VI((JIIICIIS"'~,.._~RI~~ >'

.
--
""""'-"' --
09$ 019 ~ ...
• ~ 1't1tllll .
X

Figura 11.73. Página de resultados

Recientemente, se ha desarrollado un intento de abordar el problema


fraccionando e l proceso en pasos razonables. El ejemplo más representativo es
el programa LINUS (Local lndependently Nucleated Unils of Structure). Se trata
de encontrar las regiones con mayor probabilidad de presentar una es tructura
secuendaria determ inada y, a partir de ahí, averiguar cómo pueden plegarse juntas
para alcanzar una configuración de mínima energía.

11.9 PREDICCIÓN DE GENES CON GENSCAN

Como ya se ha visto a lo largo del libro, los avances tecno lógicos han
incrementado dramáticamente la ve locidad a la que se generan secuencias de ADN.
Sin emba rgo, la caracterización de dichas secuencias continúa siendo un proceso lento
e intensivo en recursos. A fottu nadamente existen herram ientas que faci litan el anális is.

En esta práctica uti lizaremos GENSCAN para predecir la localización de


genes en secuencias de ADN, si bien no hay que perder de vista que los resultados
arrojados por GENSCAN deben ser confirmados experimentalmente.

Siguiendo los ejemplos de las prácticas anteriores, encontraremos la secuencia


correspondiente al ADN del c loroplasto del maíz, cuyo accession es NC_ 001666.2.
Para ello, abra la página de l NCBT (sección Nucl eotides) y descargamos la secuencia
en formato FASTA (ver Figura 11 .74):
250 BIOINFORMÁTICA: El AONAUNSOLOCLIC © RA-MA

mm
'"''
Su«-~

e~• ,.,., " t!IOWn


Zea mays chloro plast., complete genome
NC& lt*tt:nle ~~= NC-_00100(;?
..,... """"'
)fU HOQ.<OUJr•tUIC W.,U,:J ka ....\' > . .tn~e>lnt. -~•:• OOII.-
cvs-vlew

t;.MJ..!MY::/:M':/4.":~rA.~4.llt«lXt ••ttli\Xl,~=.\f
.lo.l3:n.:ou~ .lo.ttt;,.t'll..l.Gfr.~nc:;ac.uewtJ.OOter;.,..,.,..·.,.,.ro

•~rr.t.e~Clml0orr.\O:tca.l~n~;.1t,.,.ru~A.nu
l'~C'T«Ga"A.l~~f~"*TTGIOM.~~$,oi,A,l«<!M'I:J.ef
.......,
&6JIYU lllh 'KQ~

........
;.;.z:.cn;.,u~~~:.a~==I)OC'( ~~c o..,.. ¡.,~;o¡or~~

n.r.'l'GII.UO~TAnCG.U7A.nu.~•· ·r~Gl.~ea uunr~n


~l~GA~mr.~a.~c:MTn~eoct!alll~
· .. .......... ~·""""""
F. . llil lh~s.o-·
c;t;r;a.c;·~tu.a.r~ua;c,.,a,ca:a::o:.v.r~~WJ.n;¡~

;..;.: :U:YJ.!l.:.•) = ,::-:.r. l :-':O::O:•:!>,:;\,"Z.lo.<:U:c.z-=:-:~¡;,,:..:;·· ' "'' :: .:•::1.


U~KtAl~«Tf~lt.Qir,lw..\.TW$')' '-'«'I.~XMC!~
.\OCiliJCU,I,.U.U~~ ~ • lteiiUO l"'Oftllltton
u.~o.:~~~.u:u-.~~t<:o:I.:X!f"'..J.':U~eJ.tt!r:".t.t.uee.t.n
"""'
r-..,"""""...
....
(.1.~~.\l~....a::Tt~t'f':lllor.Uol.UJOC:.UCO:t.lot~~n:»UtUT<I.-:)C ~
~1AA~.\Tllfm~a.u.r,,.,.,.~~~:a.~tt',t.I.U2CU...'"'r
~r~MLMI.r~rliQOO'~MOn~tt:~~r..M.~
~KU,I.TQT~:Tl't«Cllrt~':Tl.~T~~~!rt
lr.:':~~ ~ttr.:.r.<.l.t~..:.:AtCttaol'tt"..:.!':O:.:.tt~~
........
~· be.ll~---r(ool

-- .....
c~.:.:~.:.a.~~~ttN.::.;.:,~o~t-.n:~.uMG:.:MtCflU':.t
~~~~....u.ec¡.~~~U~...Io.'M'I'J.ee.UT~'M'tQ C.WI!I~ Gc~- s.-n
~:.lM:.:.o:~~-::-:e~:t~e:-:-r:~•r:::o::.::.:>l>:r.wc~
:co·•oooooM::r;l<JrcooJ.~.a.?.u.u.nttrcerTI)n.a.cur~«o:AA.:.

reG.~n~~.a.t~t.:.=a:.r.net"~
.v.mcarc.Mn~r.-cnMrr~~n~...._,.A.T~~
r~~:ct~nn,~on:nu.:.a.t~tc:r.rerU'l"n.a.t:.v.rrnctCtAAUo"n-""-n.a.
;.-:.~:~:u.::c.:-a:.na:'!'>~:J.t>'s..r;.l..a:•:>::..:.:.:~-, ·~,...
..c.:.=-::=~
""""
PW"'-d (1\'u:tC"'I
c;.r-~n=~re•• ,.,,., .._l('Tr~~:n.:.li,.I,U,lo.rre
"""'
Figura 11.74. Obte nción de la secuencia que se desea analizar

A continuación, abrimos la página principal de GEN SCAN (hup./lgenes.


mit.edu/GENSCA N. htmf) y pega mos la secuencia obte nida en e l área de texto
aco ndic ionada para e llo . También puede desca rgarse la secuencia en el paso anterior
y adj unta r el fichero a GENSCAN .

Figura 11 .75. Página pri ncipal de GENSCAN


©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 251

En el campo organismo (orga nism) seleccionamos M aize. Por otra parte, en


las opciones de impresión indicamos Predicted P eptides Only (visualiza solamente
las secuencias predecirlas que codifican péptidos) en luga r de Predicted C DS a nd
Pep tides (muestra tanto los péptidos como las secuencias codificantes) y pulsamos
el botón Run GENSCAN.

Figura 11 .76. Pegado de la secuencia bajo estudio

El resultado es una tabla con información muy detallada de cada gen. En


la secuencia bajo estudio existen 12 genes, corno se deduce de la columna Gn. Es
posible averiguar el número de exones de cada gen estudiando la columna Ex. Por
ejemplo, el primer gen tiene 3 exones.

Las columnas más importantes de la tabla de resultados, sin embargo, son


Typ e y P . La columna Type dice si la predicción es un exón inicial (Init), interno
(In tr ), terminal (Term), un gen de un único exón (Sn gl), una regió n promotora
(Prom) o una señal PolyA (Pi yA). Por su parte, la columna P indica la probabilidad
de que la predicción sea correcta.

View gene model output : PS 1 PDF


GENSCAN 1 . 0 Date run : 3- Jun - 114 Time : 13 : 05 : 06

Sequence /tmp/06_ 03_1 4-1 3 : 05 : 04 . fasta : 140423 bp : 38 . 46% C+G


Isochore 1 ( O - 100 C+G%)
Parameter matrix : Maize . smat
252 BIOINFORMÁTICA: El AONAUNSOLO CLIC © RA-MA

Predicted genes/e xons :


Gn . Ex Type S . Begin ... End . Len Fr Ph I/Ac Do/T CodRg P .... Tscr ..

1 . 01 Init + 1032 1070 39 2 o 110 97 -20 0 . 601 3 . 83


1 . 02 Terrn + 7389 7412 24 2 o 84 35 21 0 . 091 - 2 . 96
1 . 03 PlyA + 7562 7567 6 2 . 27
2 . 00 Prorn + 13956 13995 40 3 . 62
2 . 01 Init + 14148 14153 6 2 o 68 52 10 0 . 727 -2 . 01
2 . 02 Terrn + 14443 14448 6 o o 112 45 o 0 . 690 -1 . 72
2 . 03 PlyA + 14971 14976 6 2 . 27
3 . 03 PlyA - 15641 15636 6 2 . 27
3 . 02 Terrn - 17123 17111 13 1 1 79 45 18 0 . 275 - 3 . 37
3 . 01 Init - 20228 20218 11 2 2 126 79 21 0 . 942 6 . 41
3 . 00 Prorn - 21496 2 1 457 40 2 . 72
4 . 03 PlyA- 22600 22595 6 2 . 27
4 . 02 Terrn- 22893 22883 1 1 1 2 107 35 1 0 . 175 -2 . 60
4 . 01 Init - 28158 28152 7 o 1 86 87 7 0 . 941 3 . 36
4 . 00 Prorn- 31602 31563 40 4 . 52
5 . 00 Prom + 33254 33293 40 3 . 82
5 . 01 Init + 34420 34558 139 o 1 27 93 90 0 . 854 6 . 30
5 . 02 Terrn + 38378 38385 8 o 2 95 35 o 0 . 098 -4 . 25
5 . 03 PlyA + 39066 3907 1 6 2 . 27
6 . 00 Prorn + 39204 39243 40 3 . 42
6 . 01 Init + 43422 4348 1 60 2 o 8 1 52 10 0 . 349 - 1 . 04
6 . 02 Terrn + 44628 44642 15 2 o 101 46 17 0 . 266 -0 . 60
6 . 03 PlyA + 45483 45488 6 2 . 27
7 . 00 Prorn + 51967 52006 40 2 . 82
7 . 01 Init + 52961 52976 16 1 1 48 110 -11 0 . 255 -0 . 01
7 . 02 Terrn + 61179 61 189 1 1 1 2 89 45 7 0 . 046 - 2 . 80
7 . 03 PlyA + 61950 61955 6 2 . 27
8 . 00 Prorn + 67861 67900 40 3 . 32
8 . 01 Init + 71022 71036 15 2 o 35 85 11 0 . 187 - 1 . 89
8 . 02 Terrn + 81950 81979 30 1 o 79 45 86 0 . 833 3 . 71
8 . 03 PlyA + 82024 82029 6 2 . 27
9 . 00 Prorn + 85902 85941 40 2 . 22
9 . 01 Init + 96350 96417 68 1 2 57 84 58 0 . 053 3 . 70
9 . 02 I n tr + 98503 98533 3 1 1 1 91 72 41 0 . 140 3 . 26
9 . 03 Intr + 101029 101141 113 O 2 4 114 130 0 . 821 9 . 20
9 . 04 Terrn + 102018 1 02087 70 O 1 - 2 46 98 0 . 274 - 3 . 29
9 . 05 PlyA + 104506 104511 6 2 . 27
10 . 00 Prorn + 106533 1 06572 40 l . 42
10 . 01 Init + 111219 111228 10 2 1 68 106 - 5 0 . 549 2 . 33
10 . 02 Terrn + 116631 116668 38 1 2 71 35 27 0 . 294 -4 . 30
10 . 03 PlyA + 117050 1 17055 6 2 . 27
11 . 05 PlyA- 117698 117693 6 2 . 27
©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 253

11 . 04 Ter m- 120797 120728 70 1 1 -2 46 98 0 . 287 -3 . 29


11 . 03 Intr - 121786 121674 113 1 2 4 114 130 0 . 821 9 . 20
11.02 Intr - 124312 124282 31 o 1 91 72 41 o. 140 3 . 26
11.01 Init: - 126465 126398 68 o 2 57 84 58 0 . 053 3 . 70
11.00 Pro m - 132010 131971 40 o. 62
12 . 00 Pro m + 135899 135938 40 3 . 92
12 . 01 Init + 138648 138650 3 2 o 80 81 o 0 . 148 0 . 76
Suboptimal exons with probability > 1 . 000
Exnum Type S . Begin ... End . Len Fr Ph B/Ac Do/T CodRg p .... Tscr ..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
NO EXONS FOUND AT GIVEN PROBABILITY CUTOFF
Predicted peptide sequence(s) :
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_l120_aa
MKAIINTEVAVNKRLFGKLL
>/tmp/06_03_14-l3 : 05 : 04 . fasta1GENSCAN_predicted_peptide_213_aa
MAN
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_317_aa
MAKWAVL
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_415_aa
MTDIS
>/tmp/06_03_14-l3 : 05 : 04 . fasta1GENSCAN_predicted_peptide_5148_aa
MNPLIAAASVIAAGLAVGLASIGPGVGQGTAAGQAVEGIARQPEAEEK
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_6124_aa
MSTKDFSGDLLQITGMTIEIKNEA
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_718_aa
MKFKSVFL
>/tmp/06_03_14-13 : 05 : 04 . fastaiGENSCAN_predicted_peptide_8114_aa
MKVWQNNYVLELEV
>/tmp/06_03_14-l3 : 05 : 04 . fasta1GENSCAN_predicted_peptide_9193_aa
MPLMPWATHVLQWAGQRVAISRGNYEITPRTPSCRKVKEVGELMTGKPATEAPVNGGRNY
NGPKVAKFLVGRDSDGFSTHTGMERQKYGNRIR
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_l0115_aa
MDKREKTIISYQIN$
>/tmp/06_03_14-l3 : 05 : 04 . fasta1GENSCAN_predicted_peptide_l1193_aa
MPLMPWATHVLQWAGQRVAISRGNYEITPRTPSCRKVKEVGELMTGKPATEAPVNGGRNY
NGPKVAKFLVGRDSDGFSTHTGMERQKYGNRIR
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_121l_aa
M

Figura 11.77. Resultados de GENSCAN


BIBLIOGRAFÍA

ALTSCHUL, S . F.; MADDEN, T. L.; SCHÁFFER, A . A .; ZHANG, J.; ZHANG,


Z .; MILLER, W. y LIPMAN, D. J.; Gapped BLAST and PSI-BLAST: a new
generation of protein database search programs, Nucleic Acids Res. 25 :3389-
3402, 1997.

BAILE Y, T. L.; BODÉN , M.; BUSKE, F.A.;FRITH, M.; GRANT, C. E.; C L EMENTI,
L. ; REN, J.; Ll, W. W. y NOBLE, W. S.; MEME SUITE: toolsfor mot({discovety
and searching, Nucle ic Acids Research, 37 :W202-W208, 2009.

BATLEY, T. L. y ELKAN, C .; Fitting a mixture model by expectation maximiza/ion


to discover motifs in biopolymers, Proceedings of the Second Jnternationa l
Conference on Intelligent Systems for Molecular Biology Menlo Park, California,
AAAI Press, pp. 28-36, 1994.

BAILE Y, T. L. y GRIBSKOY, M .; "Comb ining evidence using p-val ues: application


to sequence homo logy sea rches", Bíoinformatics, 14( 1):48-54, 1998.

BATNS, W.; Ingeniería Genética para todos, Ed. A lianza Ed itorial, 1994.

BAXEVANIS, A. D. y OUELLETTE, B. F. F.; Bioit!{ormatics. A Practica/ Guide to


the Analysis ojGenes and Proteins, Ed. W iley & Sons, 200 l.

BESEMER, J.; LOMSADZE, A . y BORODOVSKY, M .; GeneMarkS: a se(f-


training methodfor prediction ofgene starts in microbial genomes. lmplications
for jinding sequen ce motif~ in regulatoty regions, Nucleic Ac ids Research 29:
2607-2618, 200 l.

BIRNEY, E. y CLAMP, M.; Biological database design and implem.entation, (En)


Briefings in Bioinformatics, vol. 5, n.• 1, pp. 31-38, 2004.
256 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

BURGE, C. y KARLTN, S.; Prediction of complete gene structures in human


genomic DNA, J. Mol. Biol. 268, 78-94, 1997.

CELMA GIMÉNEZ, M.; CASAMAYOR RÓDENAS, J. C. y MOTA HERRANZ,


L. ; Bases de datos relacionales, Pearson, Prentice Hall, 2003.

CLAMP, M.; CUFF, J.; SEARLE, S. M. y BARTON, G. J.; "The Jalview Java
alignment editor", Bioinformcuics, 20:426-427, 2004.

CLAYERIE, J. M. y NOTREDAME, C.; Bioinformatics for Dummies, Ed. Wiley


Publishing, 2007.

CONNOLLY, T. y BEGG, C.; Database Systems. A Praclical Approach to Design,


Jmplementation, and Management, 3 ."Edición, Addison-Wesley, 2002.

COORAY, M. P. N. S.; "Molecular biological databases: evolutionaty history, data


modeling, implementatio n and ethical background", Sri Lanka Journal of Bio-
Medical informatics , 20 12;3(1 ):2- 11.

DATE, C. J.; Introducción a los sistemas de bases de datos, 7." Edición, Prentice
Hall, 200 l .

FINN, R. D.; BATEMAN, A.; CLEMENTS, J.; COGGILL, P.; EBERHARDT, R.


Y.; EDDY, S. R. ; HEGER, A.; HETHERINGTON, K.; HOLM, L.; MISTRY, J.;
SONNHAMMER, E. L. L.; TATE, J.; PUNTA, M.; The Pfam proteinfamilies
data base, Nucleic Acids Research, Data base Issue 42: D222-D230, 2014.

GASTEIGER, E.; HOOGLAND, C.; GATTTKER, A.; DUVAUD, S.; WTLKTNS, M.


R.; APPEL, R. D. y BAIROCH, A.; "Protein Identification and Analysis Tools
on the ExPASy Server", (In) John M. Walker (ed): The Proteomics Protoco/s
Handbook, Humana Press, pp. 57 1-607, 2005.

LEE, M. M.; CHAN, M. y BUNDSCHUH, R.; "Simple is beautiful: a stra ightforwa rd


approach to improve the delineation of true and false positives in PST-BLAST
searches", Bioil!formalics, n.• 24, pp. 1339-1 343, 2008.

LUSCOMBE, N. M.; GREEBAUM, D. y GERSTETN, M.; "What is bioinformatics?


And introduction and overview", Yearbook ofMedical lnformatics, 200 l.

MATHEWS, C. K., VAN HOLDE, K. E y AHERN, K.G."Bioquímica". Ed.Addisson-


Wesley, 2005.

MORGULIS, A.; COULOURIS, G.; RAYTSELIS, Y.; MADDEN, T. L.;


AGARWALA, R. y SCHÁ.FFER, A. A.; "Database Jndexing for Production
MegaBLAST Searches", Bioinformatics, 24: 1757-1764, 2008.
©RA-MA BIBLIOGRAFIA 257

NAKAT, K. y HORTON, P.; PSORT: a program for detecting the sorting signals
of proteins and predicting their subce/lular localization, Trends Biochem. Sci,
24(1) 34-35, 1999.

NELSON, M. R.; REISING ER, S. J. y HENRY, S. G.; "Designing databases to store


biological information", Biolsilico, vol. 1, n.0 4, pp. 134-142, 2003 .

PABINGET et al.; "A su rvey of tools for variant ana lys is of next-generation geno me
sequencing data", Briefings in Bioinjormatics, vol. 15, 11.0 2, pp. 256-278,20 13.

PAVLOPOULOS et al.; Unraveling genomic variation .from text genera/ion


sequencing data, BioData M ining, 20 13 .

PRIMROSE, S. B. y TWYMAN, R. M.; Principies of Genome Analysis and


Genomics, Ed. B lackwell Science, 2003 .

ROBINSON, T. R.; Geneticsfor Dummies, Ed. Wi ley Publishing, 201 O.

ROLDÁN MARTÍNEZ, D .; PASTOR LÓPEZ, O. y VALDERAS ARANDA, P. J.;


Aplicaciones web. Un e1!(oque aplicado, Ed. RA -MA, 2009.

ROLDÁN MARTÍNEZ, D. y VALDERAS A RANDA, P. J.; Domine O rae/e 11 g, Ed.


RA-MA, 20 13.

ROLDÁN MARTÍNEZ, D.; VALDERAS ARANDA, P. J. y MARTÍNEZ GÓMEZ,


E. J.; Introducción a Oracle, Ed. StarBook, 201 O.

SCHATTNER, P.; Genomes, Browsers and Dawbases, Ed. Cambridge University


Press, 2008.

THOMPSON, J. D.; MULLER, A.; WATERHOUSE, A.; PROCTER J.; BARTON ,


G. J. et al.; "MACSIMS : multiple alignment of complete seque nces information
management system", BMC Bioi,~formatics, 7 :3 18, 2006.

TROSHIN, P. V.; PROCTER, J. B . y BARTON, G . J.; "Java bioinformat ics analysis


web services for multip le sequence alignment--JABAWS :MSA", Bioinformatics,
27:2001 -2002, 20 11.

WATERHOUSE, A. M.; PROCTER, J. B.; MARTIN, D . M. A.; CLAMP, M. y


BARTON, G. J.; Jalview "Vers ion 2-a multiple sequence alignment editor and
analys is wo rkbench", Bioinjormatics, 25 :11 89-1 19 1, 2009.

ZHANG, Z.; SCHWARTZ, S.; WAGNER, L. y M ILLER, W.; A greedy algorithm


.for aligning DNA sequences, J Comput Biol, 7( 1-2):203- 14, 2000
ÍNDICE ALFABÉTICO
A 82, 84, 87, 89, 9 1, 93, 94, 95,96,
Ácido nucl eico, 25 97, 102, 109, 118, 11 9, 120, 129,
Adenina, 24 139, 150, 156, 160, 16 1, 163, 164,
ADN, 22, 23, 24, 25, 26, 27, 28, 29, 165, 166, 18 1, 201 , 202, 203 , 204,
54, 73, 75,79, 82,90,9 1,92,95, 205,206, 21 1,2 17,2 18, 219, 220,
97, 98, 101 , 102, 103, 11 3, 11 4, 221 ,235, 237,248
115, 116, 117, 119, 132, 135, 137, Bases de datos genómicas, 16, 5 1,
139, 140, 160, 185, 195, 196, 197, 54, 55, 57,58,73,90,125
2 15, 231, 237,249 BED,3 1,48,49
A lineamiento de pares, 11 7, 118, Bioinformática, 15, 16, 17, 32, 97,
119' 160, 185 167
A lineamiento global, 116, 185 Biología molecular, 16, 27, 113, 215
A lineamiento local, 11 6 Biosín tesis, 2 1
Alineamiento múltiple, 94, 117, 119, Biotecnología, 16
120, 166, 174, 185, 190, 193 BLAST, 94, 11 8, 119, 160, 16 1, 162,
Aminoácidos, 26 163, 164, 179, 180, 18 1, 182, 198,
Aná lisis de secuencias, 82, 11 3, 122 201,202,203,217, 255,256
Anotac ión, 11 , 31 , 35, 63, 83, 126,
127, 205 e
ARN, 19, 20, 2 1, 24, 25, 26, 27, 28, Citosina, 32 ,185, 186, 187, 188
56, 73, 74, 82, 92, 116, 132, 144, Clustal, 120
169' 177' 196 Códi go genético, 25, 26, 102
Codón, 26, 42, 102, 114, 124, 150,
B 154,239
BAM, 3 1, 36, 38, 40 Co nsenso, 94, 117, 178
Base de datos, 53, 54, 56, 57, 58, 59, Cromosoma, 22, 23, 43, 44, 45,
60, 61 , 62, 65, 67,74 , 75, 78, 79, 48,54, 11 o, 122, 123, 124
260 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA

D J
Datos biológicos, 15, 53, 57, 126 Ja lview, 11, 167, 168, 174, 176, 177,
178, 191,255, 257
E
EMBL, 41 , 42, 55, 75, 9 1, 94 M
En trez, 53, 55, 98, 106,108, 109 Matriz de sustitución, 12 1, 193
Estructura primaria, 197, 209, 237, Modelado,56,57,59, 113,1 15, 119,
239 123, 197' 198, 216, 247
Estructura secundaria, 89, 197, 221, Motivos funci onales, 185, 20 1
242, 244, 245
Estructura te rc iaria, 197, 212, 247 N
Eucariotas, 20, 22, 23, 27, 29, 51 , 82, NCBI, 44, 51 , 53, 74, 75, 80, 82, 83,
103, 113 9 1, 92, 95, 98, 99, 103, 11 0 129,
150, 159, 16 1,202, 249
F
FASTA, 31 , 34, 35, 82, 99, 100, 130,
157, 16 1, 167, 180, 186, 187, 192,
o
ORF, 114, 11 9, 150, 151 , 152, 153,
2 17,228, 249
154, 159
FASTAQ, 3 1, 35
Fenotipo, 22, 95, 96, 122 p
Fi1ogenia, 185, 189
PDB, 55, 76, 82, 84, 85, 86, 87, 88,
89, 104, 2 17, 2 19
G
Procari otas, 20, 22, 27, 29, 51 , 97,
GenBank, 51 , 52, 55, 60,73,74, 75,
102, 114, 2 14
78, 80, 8 1, 82, 83, 9 1, 92, 93, 97,
Promotor, 102
99, 100, 101, 102, 103, 106, 107,
109, 150, 153, 154, 156, 157, 182 Proteoma, 214
Genética, 19, 90, 255
Ge noti po, 44 R
GFF, 31 , 4 1 Replicación, 28
GFF3, 3 1, 41 , 42, 43
Gráfico de puntos, 117, 118, 139, S
141 , 142, 143, 144 SAM, 3 1, 36, 37, 38, 39
Guani na, 32 Secuenciación, 31 , 35, 36, 37, 51, 55,
GVF, 31 , 43, 44, 45 96, 11 3, 114, 11 5, 11 6, 126, 129
Secuencia de bases, 24, 82, 152
1 Secuencia de nu cleótidos, 28, 32, 75,
Informació n biológica, 15, 53, 56, 80, 97, 101, 109, 11 9, 140, 155,
59, 75, 79, 8 1, 126 158, 160, 186
Ingeniería biomédica, 16 Secuencia proteica, 113, 119, 166,
Integración, 11, 60, 61 , 62 208, 2 16, 228, 237, 240, 243
©RA-MA [NO ICE ALFABÉTICO 261

T V
Traducción, 33, 75, 107, 124, 15 1, Variación, 43, 44, 45, 46, 48, 65, 96,
237, 238 106, 107, 122, 124, 125
VCF, 31, 45, 46, 47
u
UniProt, 55, 84, 2 15 X
Urac ilo, 24 XML, 59, 67, 68, 70

También podría gustarte