Bioinformatica PDF

Bioinformática
El ADN a un solo clic

Bioinformática
El ADN a un solo clic
David Roldán Martínez

la ley prohibe
Copiar o Imprim ir este libro
Bioin formát ica El ADN a un solo cl ic

© David Roldán Martinez
© De la Edición Original en papel publ icada por Editoria l RA-MA

ISBN de Edición en Papel: 978-84-9964-528 -5
Todos los derechos reservados © RA-MA, S.A. Editorial y Publ icac iones, Madrid, España.
MARCAS COMERCIALES. las designaciones uti lizadas por las empresas para distinguir sus productos
(hardware, software, sistemas operativos, etc.) suelen ser marcas registradas. RA-MA ha intentado a lo largo de
este libro d istinguir las marcas comerciales de los ténninos descript ivos, s iguiendo e l estilo que utiliza el
fabricante, s in intención de infringir la marca y solo en beneficio del propietario de la misma. los datos de los
ejemplos y pantallas son ficticios a no ser que se especifique lo contrario.
RA-MA es una marca comercial registrada.
Se ha puesto e l máximo empeño en ofrecer al lector una información completa y precisa. Sin embargo, RA-MA
Editorial no asume ninguna responsabilidad derivada de su uso ni tampoco de cualquier violación de patentes ni
otros derechos de terceras partes que pudieran ocurrir. Esta publicación tiene por objeto proporcionar unos
conocimientos precisos y acreditados sobre el tema tratado. Su venta no supone para e l editor ninguna forma de
asistencia legal. administrat iva o de ningíon otro tipo. En caso de precisarse asesoría legal u otra fom1a de ayuda
experta, deben buscarse los servic ios de un profesional competente.
Reservados todos los derechos de publicación en cualquier idioma.
Según lo dispuesto en el Código Penal vigente ninguna parte de este libro puede ser reproducida, grabada en
sistem~l de almacenamiento o transmitida en fonna alguna ni por cualquier procedimiento, ya sea electrónico,
mecán ico, reprográlico, magnético o cualquier otro s in autorización previa y por escrito de RA-MA ; su contenido
está protegido por la ley vigente que establece penas de prisión y/o multas a quienes, intencionadamente,
reprodujeren o plagiaren, en todo o en parte, una obra literaria, artíst ica o científica.
Editado por:
RA-MA, S.A. Editoria l y Publicaciones
Ca lle Jarama, 33, Polígono lndustria!IGARSA
28860 PARACUELLOS DE JARAMA, Madrid
Teléfono: 9 1 658 42 80
Fax: 91 662 81 39
Correo e lectrónico: editorial@ra-ma.com
Internet: www.ra·ma.es y www.ra·ma.com
Maquetación y diseño portada: Antonio Garcia Tomé
ISBN: 978-84-9964-575-9
E-Book desarrollado en España en Octubre de 20 15

A todos aquellos que se empetiaron en hacerme
caer una y otra vez, porque el levantarme
me ha hecho ser más fuerte.
A todos aquellos que intentaron acobardarme, porque
el temple que adquirí me ha hecho perder el miedo.
A todos aquellos que me infundieron desánimo,
porque superarlo ha hecho crecer mi autoestima.
A todos aquellos que me crearon problemas, porque
solucionarlos me ha hecho más inteligente y a todos
aquellos que amaron y me aman, que me ayudaron y
me ayudan porque sin ellos no sería nada.
ÍNDICE
AUTO R ... ... ....... ... ... .... ... ....... .... ... ... .... .............. ... ... ....... ....... .... ... ... ....... ....... ... .... ... ....... ...... l t
PRÓ LOGO ....... ... ..................... ... ..................... ... ... .............. .... ... ... .............. ... .... ... ....... ...... 13
'
CAPITULO '
l . INTROD UCC ION .................................................................................... 15
l.l A QU IÉN VA DESTINADO ESTE LI BRO . ..................................................... 16
1.2 ESTR UCTU RA DE ESTE LIBR0 ...................................................................... 16
1.3 LEYENDAS ....................................................................................... 17
CAPÍTULO 2. F UN DAMENTOS BIO LÓG ICOS .......................................................... 19

2. 1 FISIOLOGÍA CELULA R .................................................................................... 20
2 .2 MOR FOLOG ÍA DEL C RO MOSOMA ............................................................. 22
2.3 ÁC IDOS NUCLEICOS ....................................................................................... 24
2.3.1 ADN ....................................................................................................... 24
2.3.2 A RN ........................ ............................................................................... 25
2.3.3 Cód igo genético ...................................................................................... 26
2.4
.
DOG MA CENTRAL DE LA B IOLOG IA MOLECULA R ................................. 27
.
2.5 REGU LAC IÓN GÉNI CA .................................................................................... 29
'
CAPITULO 3. FO R MAT OS D E FICH EROS ................................................................. 3 1
3 .1 DATOS EN B RUTO ........................................................................................ 32
3.2 FASTA.................................................................................................................. 34
3 .3 FASTAQ ............................................................................................................... 35
3.4 SAM/B AM ........................................................................................................... 36
3.5 GFF/GFF3 ............................................................................................................ 41
3.6 GVF...................................................................................................................... 43
8 BIOINFORMATICA: El AON AUN SOLO CliC © RA-MA
3.7 VCF ...................................................................................................................... 45

3.8 BED............... ....................................................................................................... 4 8
CAPITULO 4. BASES DE DATOS GENÓMICAS ......................................................... SI

• •
4. 1 ¿QUE ES UNA BASE DE DATOS GENOM ICA? ............................................. 54
4 .2 CLAS IFI CAC IÓN DE LAS BASES DE DATOS GENÓMICAS .................... 54
4.3 CA RACTERÍSTICAS DE LA INFORMA CIÓN GENÓM ICA ...... .................. 56
4.4 CONSTRUCC IÓN DE UNA BAS E DE DATOS GENÓMICA ......................... 58
4 .5 MODELADO DE INFO RMA CIÓN GENÓM ICA .............. ....................... 59
4.6 INTEG RACIÓN DE BAS ES DE DATOS BIOLÓGICAS ................................. 60
, , -
CAPITULO S. PRA CTI CA 1: DISENO DE BASES DE DATOS BIOLOG ICAS ....... 63
;
5.1 DISEÑO RELACIONAL .................................................................................... 63

5.2 DISEÑO XML ..................................................................................................... 67
• •
CAP ITULO 6. PRI NC IPALES BAS ES DE DATOS GENOM ICAS ............................. 73
6. 1 GENBAN K .................................................................... ...................................... 73
6.1.1 Formato del registro ............................................................................... 75
6.1.2 Cabecera ................................................................................................ 78
6.1.3 Sección de características ....................................................................... 8 1
6.1.4 Sección ORIGIN .................................................................................... 82
6.2 REFSEQ ............................................................................................................... 82
6.3 UNIPROT ............................................................................................................ 84
6.4 PDB ...................................................................................................................... 84
6.4.1 Formato de l registro ............................................................................... 85
6.4.2 Tipos de registros ................................................................................... 85
6.4.3 Estructura del fichero ............................................................................. 88
6.5 OTRAS BASES DE DATOS GENÓM ICAS ................................................. .... 90
6.5. 1 Bases de datos de secuencias de A DN ................................................... 90
6.5.2 Bases de datos de secuencias de ARN ................................................... 92
6.5.3 Bases de datos de secuencias de proteínas ............................................. 93
6.5.4 Bases de datos de patrones y perfi les ..................................................... 94
6.5.5 Bases de datos clínico-genéticas ............................................................ 95
6.5.6 Bases de datos de mutaciones y SNP ..................................................... 96
6.5.7 Bases de datos de genóm ica funcional.. ................................................. 96
• • •
CAP ITULO 7. PRA CT ICA 2: BUSQUEDA DE S ECUENC IA S ................................... 97
7. I SECUENCIAS DE O RGANISMOS PRO CA RIOTAS ....................................... 97
7.2 SECUENCIAS DE ORGANISMOS EUCA RIOTAS ....................................... 103
•
7.3 BUSQUEDA DE VARIACIONES .................................................................... 106
7.4 EJ EM PLO DE ESTU DIO DE UNA PROTEÍNA ............................................. 108
©RA-MA IND ICE 9
' '
CAPITULO 8. ANALIS IS DE SECUENCIAS --------------·····----··--··--··--·--···------·------·-------113
8.1 DETECCIÓN DE ORF ................................................................................... 114
8.2 ANÁLIS IS DE CALI DA D . .............................................................................. 115
8.3 AUN EAM 1ENTO ..... _. .. _.._. ........ _. ..... _. .. _.._. ..... _.._.,._. ._. ..... _. ........ _. ... ,_. .............. 115
8.3.1 Gráficos de puntos ......-. ...... _. ................................ -. ............ -. ................ 117
8.3.2 A lineamiento de pares .......................................................................... 118
8.3.3 A lineamiento múltiple_. ....................................... -. ............................... 119
8.3.4 Puntuac ión del a linea miento ................................................................ 120
8.4 IDENTIFICACIÓN DE VARIACIONES _. ................... _.._. ............ -.-. ...... _. ....... 122
8.5 ANOTACIÓN ................ _.._. ................... _. .......................................................... 126
8 .6 VISUALIZACIÓN ............................................................................................ 126
8.7 PIPELINES ANALÍTI COS Y SISTEMAS DE FLUJO DE TRABAJO ........... 127
• • •
CAPITU LO 9. PRACTI CA 3: ANA LISIS DE SECUENCIAS --·-- --·---- ---- ·------·----· --·---- 129
9. 1 ANÁLISIS DE LA CALIDAD CON VECSCREEN ......._. ..... _. ..... _. ........ _. ..... _. 129
9 .2 ANÁLISIS DE LA COMPOS IC IÓN DELADN ........................................... 135
9.2.1 Búsqueda de palabras ·--···················--···············--··--·--·----···--·····--········-- 135
9.2.2 Estadísticas de la secuencia con Genomatix ........................................ 137
9.2.3 Búsqueda de repeticiones ......................................................... _........... 139
9.2.4 Búsqueda de ORF...._. ............ _. ......................... _. .......... _._. ._._. ............... 150
9.3 ALINEAMIENTO DE SECUENCIAS CON BLASTN ......... _. ..... _. ................. 160
9.4 EDIC IÓN DE ALINEAMIENTOS .. .............. ......................................... 166
9.4.1 Creación de grupos ............................................................................... 175
9.4.2 Reordenación del a lineamiento ............................................................ 177
9.4.3 Adición y borrado de huecos ................................................................ 178
9.5 BÚSQUEDA D E SECUENCIAS HOMÓLOGAS CON SIB-BLAST ............. 179
9.6 ALINEAMIENTO MÚLTIPLE ......................................................................... 183
9.6. 1 Alineamiento múltiple con Clustal Omega .......................................... 185
9.6.2 A líneamicnto mú lti ple con MUSCL E .................................................. 192
9.6.3 A lineamiento mú lti ple con T-Coffee .................................................... 193
CAP ÍTULO 10. PROTEÓM ICA ... ....... ... .... .... ...... ... .... ... .... ... ....... ... .... ... .... .......... ... .... ... l 95
10.1 GENERALIDADES .......................................................................................... 195
102 ESTRUCTU RA DE LAS PROTEÍNAS .........•..... _. ........................................... 196
10.3 MÉTODOS DE PREDICCIÓN ......................................................................... 197
10.4 MODELADO POR HOMOLOGÍA .................................................................. 198
10.5 RECONOCIMIENTO DE PLIEGUES .............. ...................................... 199
# . , ! •
CA PITULO 11. PRACTI CA 4: ANA LIS IS D E PRO T E INA$ ..................................... 201

11 .1 ANÁLISIS BLAST ............................................................................................ 201
•
11.2 BUSQUEDA DE DOMINIOS FUNCIONALES .............................................. 207
10 BIO INFORMATICA: El AON AUN SOLO CLIC ©RA-MA
11 .2.1 Búsqueda de dominios con EB I-Intcrpro ............................................. 208

11.2.2 Búsqueda de domin ios con PFAM ..... ................................•................. 21 1
11.3 PREDICCIÓN DE LA UBICACIÓN SUBCELULAR ..................................... 2l4
11 .4 BÚSQUEDA DE EST RUCTU RAS DE REFERENC IA .................................. 216
11.5 BÚSQUEDA DE MOTIVOS ............................................................................ 22 1
•
11.6 ANALISIS DE LA ESTRUCTU RA PRIMARIA DE UNA PROT EI• NA ......... 237
11.6.1 Traducción del A DN en secuenc ia proteica ......................................... 23 7
11 .6.2 Predicción de las propiedades físico-químicas ..................................... 239
11 .7 PREDICCIÓN DE LA ESTRUCTU RA SECUNDARIA. ............................. 242
11.8 PREDICCIÓN DE LA ESTRUCTU RA TERCIARIA ...................................... 247
11 .9 PREDICCIÓN DE GENES CON GENSCAN .................................................. 249
•
BIBL IOGRA FIA ............................................................................................................... 255
, ,
IN DICE ALFA BETICO .......... ... ....... ................. ........................ ....... ... ........... ... .......... .... 259
AUTOR
David Roldán Martínez es doctor ingeniero de Telecomunicación y máster
en Redes Corporativas e Integración de Sistemas por la Universidad Politécnica de
Valencia (UPV). Ha trabajado en empresas de co nsultoría y desarrollo de proyectos y
productos relacionados con las tecnologías de la información y hoy en día es analista
de aplicaciones de l ASIC de la UPV.
Ha contri buido activamente en comunidades open source co mo Sakai

(software e-learning en donde desempeñó diversos cargos de respo nsabilidad
mundial y que le otorgó en 20 11 el Sakai Fe/low Award por su participación activa
en e l desa rrollo y puesta en marcha de Sakai alrededor del mundo). Actualmente,
es desarrollador y responsable de i 18n de Jalview, una de las herram ientas para la
gestión y anotac ión de secuencias genómicas más utilizadas a nivel mundial.
Además, ha sido profesor del Departamento de Comunicaciones de la

Universidad Politécnica de Valencia y ha im partido formac ión de posgrado en
distintas uni versidades e instituciones. Es miembro de ACTA (Asociació n de
Autores C ientíficos y Técnicos) y, siempre preocupado por la divulgación c ientífico-
tecnológica, dispone en su haber de numerosos libros y artículos relacionados con
diversos aspectos de las TIC.
AG RAD ECIMIENTOS
Este libro es especial para mí por muchas razones. Supone haber cu mplido
una ilus ión que tenía desde hace mucho tiempo: transmitir mi pasión por la B iología.
Por este motivo qu isiera agradecer, en primer lugar, a RA-MA el haber confiado en
mí y aceptado m i propuesta de proyecto.
Y, cómo no, muchas gracias a mi mujer y a mis hijos por el tiempo que les he
robado, que no tiene precio. Espero que el sacrific io haya merecido la pena.
No me olvida ré tampoco de Óscar Pastor, Ana Cidad y Mercedes Fernández

que, co nscientemente a veces e inconscientemente otras, me han animado a alcanzar
esta meta.
También me gustaría una mención especial a Luis Ruano, mi profesor de

B iología en 3.0 BUP en el Instituto José Conde Ga rcía de Almansa (A ibacete) y que,
en su día, supo sembrar en mí la pasión por este mundo que, aunque ha tardado en
germinar, finalmente lo ha hecho.
No me dejaré a Diana, Mar, Richard, María José, Jacobo, Juan Vicente,

Pepe, Manolo, Javier, Esteban, Sebastián, Aurora, David, Sergio, Tanja y Benjamín
por su ayuda y sus opiniones.
PRÓLOGO
Durante e l siglo pasado y a principios de este, asistimos a la revolución de

las Tecnologías de la Información y las Telecomunicaciones. En apenas una década
pasamos de buscar información en enormes tomos de papel que debían consultarse
por tu rnos con otros usuarios, en bibliotecas en donde, con suerte tras varias horas
la búsqueda tenía éxito, a disponer de amplios catálogos bibliográficos en línea,
ubicados en cualquier parte del planeta y cuyas consultas pueden efectuarse sentado
cómodamente en una hamaca de la playa desde el teléfono móvi l o la tableta .
El gran reto de estas dos próximas décadas será, sin duda alguna, la
revoluc ión biológica, en cuanto prácticamente cualquier tipo de experimento se
plantea en un contexto genómico. En efecto, el hecho de que los ava nces en las
tec nologías de secuenciación permitan el análisis no solo de la secuencia de ADN
de un indi vid uo sino también de su metaboloma con un nivel de detalle suficiente
como para predecir la evolución de una enfermedad o una terapia, va a suponer una
profunda transfo rmación co nceptual, técn ica y tecno lógica de la Biología en general
y de la Medicina en particular, que se nta rá las bases de la Medicina Predictiva,
Personalizada, Preventiva y Particípativa.
Por otra parte, e l creciente vol umen de información heterogénea en origen y

s ignificado, a lo que se suma su complejidad y la neces idad de analizarla en distintos
contextos ha convertido a la Bioínformática en una p ieza clave en el futuro cercano
de la humanidad.
A través de esta obra el au tor, David Roldán, intenta darnos una vis ión
eminentemente práctica de los principios básicos de la Bioinformática, ex plicando
con detal le los aspectos fundamenta les de esta ra ma híbrida entre Co mputac ión y
B iología.
Desde estas líneas aprovecho la oportunidad pa ra da rle mi más sincera

enhorabuena por un trabajo ta n conseguido, así como para fe licitarle porque,
sinceramente, p ienso que e l esfuerzo y la ilus ión que ha invertido han merecido la
pena.
Óscar Pastor López

Caredrático de universidad
Director d el grupo de investigación PROS
INTRODUCCIÓN
La información biológica se produce a un ritmo fenomenal , hasta tal pun to

que se estima que cada 15 meses se duplica su tamaño. El resultado, además de una
eno rme montaña de datos biológicos, es que se hace imprescindible la utilización
de ordenadores que asista n a los c ientíficos en la gesti ón de dicha información. Y
es en este contexto en donde se enmarca la B ioinformática. Au nque son muchas las
definiciones que se han dado de la Bioinfo rmática a lo largo de los últimos años,
todas coinc iden en señalar dos aspectos básicos.
En prim er lugar, la Bioinfo rmática se encarga de la orga ni zación de la

información biológica de manera que se simplifique y optimice el acceso a la misma
por parte de los usuarios (investigadores, científicos y otras aplicaciones) así como de
la actualización consta nte de dicha información a medida que se vaya produciendo.
El segundo objetivo es proporcionar a los usuarios las herram ientas y

recursos necesar ios para analizar los datos bio lógicos. Efectivamen te, no solamente
se requ iere poder acceder a la información s ino también herramientas que permitan
realizar búsquedas en grandes volúmenes de datos de manera sencilla, o cruzar
información de distintas fuentes bien para contrastarla o bien incl uso para generar
información derivada. Este campo de la minería de datos ofrece una proyección de
futuro realmente espec tacular.
Este libro aborda el estudio de la Bioinformática centrándose, precisamente,

en estos dos enfoques. En los primeros capítulos se estudian las características de
la información biológica y qué principios es necesario tener en cuenta a la hora de
diseña r un s istema de info rmac ión biológico. Por otro lado, en su segunda pa11e, la
obra se centra en prese nta r herramientas y métodos de anális is de dicha información
biológica. Es im portante subrayar que se ha hecho especial hincap ié en seleccionar
16 BIOINFORMATICA: El AON AUN SOLO CLIC ©RA-MA
herram ientas de fuentes abiertas (open source), ya que de esta manera estarán al
a lcance de cualqu ier lector, sin tener que depender de onerosos costes de licencias.
Además, para reforza r esta vis ión, se presenta un conj unto de ejercicios
y cuestiones prácticas, donde se proponen y resuelven diferentes eje rc iCIOS que
permiten profundizar en los conceptos teóricos in troducidos.
1.1 AQUIÉN VA DESTINADO ESTE LIBRO
El libro está orientado tanto a informáticos, como a biólogos y estudiantes

de los primeros cu rsos de Biotec nología, Ingeniería Biomédica y ca rreras afines
pues aborda la temáti ca desde un punto de vista prác ti co planteando , cuando la
temática lo perm ite, ejercicios y cuestiones resueltas, co n una extensión amplia en
los comentarios de las soluciones.
Si e l lector es un usuario con amplia experiencia en Bioinfonnática, se verá

tentado a saltarse parte del contenido de este libro. La experiencia demuestra que
muchos de los conceptos básicos han s ido pasados po r alto incluso po r usuarios
experimentados. Pa ra evita r esto, en cada capítulo del libro se resa ltan con leyendas
gráficas (presen tadas en la sección 1.3) aspectos importa ntes que hay que tener en
cuenta, así como co nsejos práct icos.
1.2 ESTRUCTURA DE ESTE LIBRO
A lo largo del libro, y sobre todo en la segu nda pa rte del mismo, se hará uso
del sigui ente esquema para las prácti cas y para los ejem plos presentados.
El uso de la Bioin formática en la Biología Mo lecular se ha visto ace lerado

por la capacidad de l software para anal izar datos de secuencias así como po r la
posibilidad de almacenar conocimiento sobre las mismas en bases de datos de tal
manera que, cuando un biólogo se enfrenta al problema de identifi ca r una determinada
secuencia con el fin de ave riguar, por ejemplo, qué función o qué estructu ra tendrá,
se realiza una comparac ión de d icha secuencia con las guardadas en disti ntas bases
de datos. En esta co mparac ión y posterior procesado se identifica una serie de pasos
bien difere nciados (ver Figu ra 1.1 ). En primer lugar, se realiza una búsqueda en
bases de datos genómicas para determi nar si existe algún conocimiento anter ior de
dicha secuencia (paso 1), de secuencias simi lares (paso 2) o ciertas regiones de la
secuencia (motivo) con s ignificado fu nciona l o estructural (paso 3). Los resultados de
©RA-MA Capítulo !. INTRODUCCIÓN 17
la búsqueda (paso 4) se a linean con la secuencia bajo estudio (paso 5) para obtener,
por una parte, el árbol filogenético (paso 6) y, por otra, zonas conservadas (paso 7). A
pa rtir de las zonas conservadas es posible definir motivos (paso 8) e iniciar el proceso
de nuevo. Sobre este proceso básico, es posible construir otros más complejos como
la predicción de genes o la predicción de la estructura de secuencias de proteínas.
BASES DE DATOS
MOLECULARES
INFORMACIÓ N
.,.
~
.. - -· ....
RESULTADO DE
LA BÚSQUEDA ------·--
... -
____ -·-~-
------ ..
_..... __ _
,._.. .. _
__
_,..
·--..--
___--.....,
.-..
---·---·
,.
.---... ~-·
:=..-::-.=:-
- -
---
. .........
ALINEAMIENTO
SECUE NCIA
BASES DE DATOS DE
M OTIVOS MOTIVOS
Los 11 capítulos de este libro pretenden que el lector adquiera los

conocimientos básicos de Bioinformática que le permitan desenvolverse con cierta
soltura cuando se le plantee resolver e l problema de averigua r la mayor cantidad de
información posible sobre una determinada secuencia.
1.3 LEYENDAS
Co mo ya se ha comentado, en cada capítulo de este libro se destacan algunos

aspectos importantes que hay que tener en cuenta y se dan también determ inadas
recomendaciones prácticas. Para destacar estos puntos se u ti !izan las leyendas
gráficas que se presentan a continuación.
18 BIOINFORMATICA: El AON AUN SOLO CLIC © RA-MA
Aspecto que hay que tener en cuenta
Recomendación práctica
r .-.
00
.......... Prueba tú mismo
Ejemplo o punto teórico desarrollado en prácticas
~
~
~~ Recuerda
FUNDAMENTOS BIOLÓGICOS
La Genética, en su más amplio sentido, es la rama de la c iencia encargada

de estudiar el funcionamie nto y la transmisión de los genes, responsables últimos de
la herenc ia.
Sus bases fueron establecidas por el monje austriaco Gregor Mendel en 1866
con su trabajo sobre la hibridación de los guisantes. Tradicional mente, se ha basado en
los procesos de mutación y selección. Los experimentos de M en del concluyeron que la
herencia reside en unas unidades disc retas que pasan de generación en generación de
manera independ iente. Estas unidades, a las que se acuñó con el nombre de elemente, en
1909 tomarían el nombre de genes. La rama de la Genét ica encargada de la transm isión
de los ca racteres hered itarios de una generación a otra es la Genética C lásica, y está
relacionada con la Genética Poblac ional que, basándose en la genética de familias
individuales, trata de extrapolar las conclusiones a grupos de individuos más grandes.
Ya en la época moderna se estableció la Genética Molecular, encargada del

estudio físico-q uímico del ADN, e l ARN y las proteínas. También se conoce con el
nombre de Genómica y es en la que nos centra remos en este libro.
Finalmente, encontramos la Genética Cuantitativa. Se trata de un campo

extremadamente matemático cuyo objetivo es el aná lis is de relac iones estadísticas
entre los genes y los rasgos que imprimen.
Este capítulo introduce, muy brevemente, los fundamentos

elementales de Biología para comprender el contexto en que se
enmarca todo el desarrollo posterior.
~....:.:_.:.........c::CJ Algunos conceptos se han s implificado con el fin de facilitar su
comprensión por parte del lector no iniciado, aun a ri esgo de ser poco estrictos.
Rogamos a los expe rtos que sepan disculpar esta aparente fa lta de rigu rosidad.
2.1 FISIOLOGÍA CELULAR
Una célula puede defin irse como la unidad mínima capaz de realizar todas
las funciones asociadas a un organismo vivo (nutrición, re lac ión y reproducci ón).
A la hora de c lasificar las células, existen orga nismos unicelulares y

organismos pluricel ulares.
Desde el punto de vista un icelular, podemos distinguir entre:
,.. Células procariotas: carecen de núcleo y otros orgánulos (vacuolas y

mitocondrias). En este caso, e l material genético está disperso en una o
más regiones nucleoides si n la protección de una membrana nuclear. A
este grupo pertenecen las bacterias y algunas algas.
,.. Células eucariotas: se caracterizan porque tienen un núcleo en e l que

se localiza el ADN y que almacena el material genético de la célula.
Además, en el c itoplasma existente entre el núcleo y la membrana celular
que marca los límites de la célula, encontra mos numerosos orgánu los con
func iones muy definidas.
La mayoría de los eucariotas son organismos pluricelulares, aunque
también los hay uni celulares como las levaduras.
,.. Virus y orga nismos subvirásicos: estrictamente hablando, no son seres

celulares, ya que no son capaces de sobrevivir de manera independiente
y necesitan de otra célula a la que infectan. Tienen una estructura muy
s imple formada por un filamento de ADN o ARN (nunca los dos en el
mismo virus), envuelto por una cápsu la proteica especial.
No obstante, en la naturaleza resulta muy común encontrar agrupaciones de

células especializadas denominadas tejidos y que son distintos en los ani males y en
las plan tas.
La célula tiene un alto nivel de organización sorprendentemente complejo.

En la Tabla 2. 1 se recogen los componentes que forman parte de la estructura cel ular
de organismos eucariotas y procariotas.
©RA-MA Capitulo 2. FUNDAMENTOS BIOLÓGICOS 21
Estructura Descripción Función

Núcleo Nucleoplasma Rodeado por una doble Control de la célula
eelalar membl'ana, contiene
el nucléolo y los
crornosomas
Nucléolo Contiene ARN y Biosíntesis de ribosomas
proteínas
r-eromatma
. 11 ADN nuclear lr Contiene los genes
Sistema de Membrana Contiene el ci toplasma Establece los lí mites de la
membraaas plasmática célula viva con e l entorno que
la rodea, regula e l intercambio
de sustancias con dicho entorno,
mantiene la estructura celular y
comunica la célula con otras
Retículo Red de membranas Biosíntesis de lípidos
endoplasmático internas
1 (RE) liso
Retículo Biosíntesis de proteínas

e ndoplasmático
(RE) rugoso
Citoplasma Ribosomas Gránulos unidos al Biosíntesis de proteínas
RE o libres por e l
Aparato de
- citoplasma
Conjunto de sáculos
.....
Mod ifica, empaqueta y distribuye
Golgi membranosos proteínas a los orgánulos de la
célula
Lisosomns Sáculos me mbranosos Contienen enzimas que participan
(en animales) en los procesos de nutrición
celular 1
Vacuolas Sáculos membranosos Participan en la nutrición celular
(plantas. hongos y a lgas)
M icrocuerpos Sáculos me mbranosos Contiene enzimas para e l
metabolismo celular
-
M itocondrias Sáculos membranosos Se encarga de la respiración
celular y de la biosintesis de
energía
Plastos Sistemas membranosos Respiración celular
(plantas y hongos)
Cltoesqueleto Microtúbulos Túbulos huecos Funciones esh·uctura les
M icrofilamentos Estructuras sólidas y Funciones estructura les y
c ilíndricas movimiento celular
Ccntrio los Ci lindros huecos Participan en la división celular
r-cr
t tOS 11 Túbulos lr Movimiento celular 1
Flagelos M icrotúbulos Movimiento celular
Tabla 2.1. Estructura de la célula eucariota

22 BIOINFORMATICA: El AON A UN SOLO CLIC ©RA-MA
2.2 MORFOLOG(A DEL CROMOSOMA
Los cromosomas son pequeños bastones en que organiza la cromatina del

núcleo durante la división celular y que están compuestos de ADN. La transmisión
del fenotipo exige que se copie el material genético de una generación a otra. Este
proceso puede ser relativamente simple, como en algunas células procariotas que
tienen un único cromosoma circular que se transm ite de padres a hijos durante la
mitosis, o mucho más complejo, como ocu rre en las cél ulas euca riotas en la mitosis
y la meios is.
El ADN que contiene los genes de la célula se encuentra en los

cromosomas.
El número de cromosomas es ca racterístico de cada especie (ver Tabla 2.2).

Por ejemplo, en e l ser humano (Homo sapiens) el ca ri otipo está formado por 46
cromosomas. Los cromosomas se dividen en sexuales (determinan el sexo de l sujeto) y
autosómicos (no sexuales). En el caso del ser humano, existen 2 cromosomas sexuales
y 44 autosómicos. Se denomina genoma al conjunto de genes de un orga nismo.
Especie Número cromosómico

Ser humano 46 (23 pares)
Bovinos 60 (30 pares) 1
1 Oveja 11 54 (27 pares)
1
Maíz 20 (lO pares)
1 Tabaco 11 48 (24 pares)
1 Tomate 24 ( 12 pares) 1
Tabla 2.2. Número de cromosomas de algunas especies
Los cromosomas suelen representarse como una X (ver Figura 2.1 ), aunque
únicamente adoptan esta forma durante la división celular. La parte central del
cromosoma, donde se cruzan sus brazos, recibe el nombre de centrómero, mientras
que los extremos son los telómeros. Es, precisamente, en los telómeros en donde se
enc uen tra una mayo r densidad de ADN.
Telómeros
/
Brazo corto
Alelo
Brazo largo
V
Cromátidas
Figura 2.1. Morfología básica de un cromosoma eucariota
Los cromosomas son los portadores de los genes y cada cromosoma

puede albergar más de un gen. Cada par de genes homólogos transporta la misma
información genética, es decir, los mismos genes, aunque sus copias (también
llamadas a lelas) no necesariamente tienen que ser idénticas. La posición que ocupa
un gen en un cromosoma dado recibe el nombre de locus.
A más bajo nivel, un gen es una secuencia de A DN que dicta las instrucciones
para la síntesis de proteínas. Sin embargo, no todos los genes codifican proteínas.
Algunos controlan el proceso de transcripción, tal y como veremos más adelante.
Por otra parte, en el cromosoma, además de ADN existen e lementos

reguladores transcripcionales y regiones conservadas (co mo la caja TATA de las
eucariotas).
En el ADN de un cromosoma podemos encontrar genes, reguladores

y regiones conservadas.
2.3 ÁCIDOS NUCLEICOS
Los ácidos nucleicos deben su importancia a que intervienen en el manejo

de la info rmac ión genética. En los seres vivos es posible encontrar dos tipos de
ác idos nucleicos: e l desoxirribonucleico (ADN) y el ribon ucleico (ARN). Se trata de
polímeros lineales compuestos por sucesiones de nucleótidos o bases nitrogenadas.
Las ci nco bases se agru pan en bases púricas (si ti enen una estructura en doble
an illo) o bases pirimidínicas (si el anillo es simple). Las primeras son la adenina (A)
y la guanina (G), mientras que las segundas son la timina (T), la c itosi na (C) y el
uracilo (U). No todas las bases fo rman parte de los dos ác idos nucleicos. En el ADN
encontramos adenina, guanina, timina y citosina, m ientras que en el ARN solamente
existen adenina, guani na, citosina y uracilo. La secuencia de bases nitrogenadas y
la longitud de la cadena de nucléotidos es característica para cada especie v iva. Sin
embargo, los trabajos de Chargaff ( 1951) concluyeron que en todo ser vivo existe
s iemp re la misma cantidad de adenina que de timina así como de c itosi na y guanina.
2.3.1 ADN
El ácido desoxirribonucleico o ADN es e l portador de la informac ión

genética que pasará de generació n en generación entre las células del organismo y
que, co mo hemos visto anteriormente, se encuentra concentrado en los cromosomas.
La molécula de ADN tiene una forma de dob le hélice en la que dos cadenas
de bases complementarias se enrollan a lo largo de su eje central. Las bases y la
longitud de la cadena de nucleótidos son característicos del organismo y se copian
con exactitud durante la reproducción celular. Este tema será tratado detalladamente
más adelante.
Todos los tipos de ADN están compuestos por las mismas cuatro bases y
tienen estructura de doble hélice, si bien llevan a cabo fu nciones diferentes, que son:
11'" ADN nuclear: es el que se encuentra en el núcleo de la célula y responsable

de la mayoría de funciones celulares. El A DN nuc lear es el portador de
los genes.
11'" ADN mitocondrial: los anima les, las plantas y los hongos incorporan ADN
en las mitocondrias (ADNmt) cuya misión es regular el metabolismo
cel ular. Una curiosidad acerca del ADN mt es que, a diferencia de lo
que ocurre con e l ADN nuclear en donde la mitad del material genético
procede de l padre y la otra m itad de la madre, todo e l ADNmt se hereda

de la madre.
11"' ADN de los cloroplastos: además de los dos anteriores, las plantas tienen
unos orgánulos encargados de la fotosíntesis llamados cloroplastos que
también contienen moléc ul as de ADN (ADNcp).
2_3.2 ARN
El ácido ribonucleico o ARN está comp uesto por una sola cadena lineal de
nucleótidos en la que el g lúcido es la ribosa. La mayo r parte de las células contienen
de 2 a 8 veces más ARN que ADN.
Existen tres tipos de ARN, cuya síntesis se ca tal iza por tres tipos distintos de
enzimas (ARN polimerasas), que son:
11"' ARN mensajero (ARNm): es una copia complementaria del fragmento

del código genético del ADN. Su síntesis está catalizada por la ARN
polimerasa li y suele tratarse de largas cadenas de nucleótidos.
11"' ARN de transferencia (A RNt): su síntesis está cata lizada por la ARN
polimerasa III. Es e l más pequeño de los tres y se ha lla disperso por todo
e l citoplasma. Se conocen unos 50 tipos de ARNt, todos ellos tienen una
configuración similar, con un brazo aceptor, en el que apa rece siemp re la
secuencia CCA; y un anticodón, que es un triplete de bases nitrogenadas
que determ ina el aminoácido que se va a unir a esa molécu la de ARNt .
11"' ARN ribosómico (ARN r) : está formado por moléculas muy largas y
p legadas y su síntesis está cata lizada por la ARN polimerasa
Hay experimentos que parecen confirmar que el ARN es la

molécula a partir de la cual su rgió la vida, pese a que actualmente
sea e l otro ácido nucleico (ADN) e l portador de la información
'-----':...;;._--"-' genética. Una de las propiedades más características del ARN es la
autocatálisis, es decir, la capacidad de acelerar su propia formación.
2.3.3 Código genético
Cada aminoácido se corresponde con un co nj unto de tres bases denominado

codón y las secuencias de ADN y ARN se constituyen co mo tiras de estos tripletes
o codones. Puesto que las bases que se combinan en el ADN son solamente 4 (A, G,
C y T) y el número de nucléotidos por codón es tres, el número de codones teórico
es de 4 3 = 64. Dado que únicamente hay 20 aminoácidos posibles, se trata de un
código degene rado, es dec ir, tiene múlt iples símbolos para todos los am inoác idos,
con excepción del Trp y la Met. La degeneración res ide, generalmente, en la tercera
posición de su codón (extremo 3 '): e l nucleótido de esta posición es mucho menos
específico que e l pri mero y que el segundo. Tres de las 64 secuencias no codifican
ningún am inoácido sino que determinan el final de la cadena polipeptidica, por lo
que se les co noce co n el nombre de codones de terminación.
El conjunto de códigos posibles recibe el nombre de código genético y es

universal. En la Tabla 2.3 se indica la codificación de bases de cada uno de los
aminoácidos.
Ala (A) GCU, GCC, GCA. GCG Lys (K) AAA. AAG
Arg (R) CGU. CGC, CGA, CGG, AGA, Mct (M) AUG
AGG
Asn (N) AAU, AAC Phe (F) uuu, uuc
Asp (D) J lGAU,GAC Pro (P) JLCCU, CCC, CCA . CCG
Cys (C) UGU, UGC Sec (U) UGA
Gln (Q) CAA, CAG Ser (S) UCU, UCC, UCA, UCG, AGU,
AGC
Glu (E) GAA, GAG Thr (T) ACU, ACC, ACA, ACG
Gly (G) JLGGU,GGC,GGA,GGG Trp (W) JLUGG
His (H) CAU, CAC Tyr (Y) UAU,UAC
Ilc (1) 11 AUU,AUC,AUA Val (V) GUU. GUC, GUA, GUG
Leu (L) UUA, UUG, CUU , CUC, CUA,
CUG
Comienzo 11 A UG 11 Parada 11 UAG, UGA, UAA 1
Tabla 2.3. Código genético
2.4 DOGMA CENTRAL DE LA BIOLOGIA MOLECULAR
La base química de la herencia es la molécula de ADN. En 1953 James

Watson y Francis Crick postularon que la molécula de ADN está formada por largas
cadenas de nucleótidos enrollados en espiral formando una doble hélice. Trabajos
posteriores de Crack, Brenner, Niremberg y Ochoa co ncluyeron la existencia de un
mecanismo de transmisión de la herencia: la transcripción del mensaje genético del
ADN a l ARN y la síntesis de proteínas (ver Figura 2.2). Esto es lo que se conoce
como Dogma central de la Biología Molecu lar.
Replicación Replicación
Transcripción Traducción
ADN ARN Proteína
Transcripción
inversa
Figura 2.2. Dogma central de la Biología Molecular
Aunque el proceso es esencialmente e l mismo en células eucariotas y en

procariotas, existen algunas diferencias pero quedan fuera del ámbito de este libro.
La Figura 2.3 esq uematiza cómo se lleva a cabo el proceso completo:
CADENA QUE SE TRANSCRIBE
l TRANSCRIPCIÓN
u u
., ., 1 \
y (
COOÓN DE INICIO
l TRADUCCIÓN
CODÓN DE TERMINACIÓN
Met Lys
Figura 2.3. Procesos de transcripción y traducción

Durante la replicación de una cadena de ADN se obtendrán dos cadenas

idénticas, una de las cuales irá a la célula madre y la otra a la hija. Comienza cuando
se encuentra en la cadena original la secuencia de inicio, que marca e l punto por el
que debe abrirse la doble hélice y comenzar la replicación. Una vez ab ietta, se van
ensamblando nucleótidos por complementariedad (transcripción), de manera que la
hebra origi nal se lee en sentido 3 '--+ 5' y la nueva se sintetiza en se ntido 5'--+ 3 ' . La
duplicación acaba cuando se encuentra una secuencia de nucleótidos denominada
secuencia de terminación.
Aunque este es el procedimiento habitual, en algunos casos el

ADN se sintetiza mediante un proceso denominado transcripción
inversa, en la que se patte de ARN y se obtiene ADN gracias a la
e=;;._""--'-' ADN-polimerasa-ARN-dirigida (transcriptasa inversa). Suele
ocurrir en virus de ARN cancerígenos.
La transcripción consiste en copiar la secuencia de ADN en ARNm.

A diferencia de lo que ocurre en la replicación, en donde se dup lica la mo lécula
de ADN completa, en la transcripción únicamente se copia un conjunto de genes
determinado.
La copia que se realiza durante la transcripción se efectúa por

complementariedad de bases y la unión de las mismas se rea liza en unas zonas
denominadas promotores. Se trata de secuencias com unes compuestas de 1O
nucleótidos (secuencia -1 0 o caja TATA) o de 35 nucleótidos (secuencia - 35 o caja
de entrada). La síntesis del ARNm finaliza cuando se encuentra una secuencia de
term inación. En este momento, el ARNm se separará y el ADN recupe rará su forma
de doble hélice original.
Finalizada la transcripción, e l paso siguiente es la traducc ión o biosíntesis de

proteínas. D ura nte este p roceso, hay que tener en cuenta que no todas las secuencias
de bases codifican proteínas, sino que hay segmentos que no tienen fu nción aparente.
Los primeros se denom inan exones, mientras que los segundos son los intrones.
En la sín tesis de proteínas, se eliminan los intrones y en el ARNm se ensamblan
únicamente los exones.
INTRONES
AO' ~-"'~" _J
EXONES
ARNm
l Se elim inan los intrones y
se e nsamblan los exon es
Figura 2.4. Síntesis de proteínas
2.5 REGULACIÓN GÉNICA
No todos los genes están activos en todo momento. Al contrario, de todos los
genes que posee un organismo, solo unos pocos se expresan en cada instante. Este
nivel de expresión se encuentra regulado debido a l alto coste energético que supone
la síntesis de proteínas. La regulación puede actuar durante la transcripción o du rante
la traducción.
En general, la regulación puede ser positiva o negativa. En la regulación

positiva se aumenta la expresión de los genes, mientras que en la regulación negativa
se disminuye. Los dos tipos de regulac ión, positiva y negativa, pueden darse
s imultáneamente en el mismo sistema celular. En ambos casos, los reguladores son
proteínas que reconocen secuencias específicas de ADN.
Los mecanismos de regulación son diferentes en células procariotas y en

células eucariotas. En el primer caso, e l ARNm suele ser policistrón ico (contiene
varios genes), mientras que en e l segundo cada secuencia de ARNrn contiene la
información de un solo gen (monocistrónico).
FORMATOS DE FICHEROS
Las plataformas de secuenciación genera n grandes cantidades de información

que exigen ser guardadas, parseadas y analizadas de manera eficiente. Una
secuenciación típica producirá ficheros que ocuparán desde unos pocos megabytes
a lera bytes y contend rán miles o mi llones de lecturas, junto con información como
identificadores de lectu ra, descripciones, anotaciones, metadatos, etc.
La Figura 3.1 muestra los principales formatos de ficheros en función de la etapa

de l aná lisis de la secuencia en que nos encontramos. Las plataformas de secuenciación,
a partir de una muestra biológica, generan información en formato FASTA/FASTAQ,
principalmente. Estas secuencias biológicas (de nuc leótidos o de aminoácidos) son
susceptibles de sufrir un proceso de al ineamiento (formatos SAM/ BAM), anális is de
variac iones (fo rmato VCF) y anotación (formatos GFF/GFF3, GVF y BED).
PLATAFORMAS DE
SECUENCIACIÓN
FASTA. FASTAQ
'
( AliNEAMIENTO )
SAM{BAM
ANÁliSIS DE
VARIACIONES
VCF
ANOTACIÓN
1
!
GFF/ GFFJ, GVf, BED
V
Figura 3.1. Formatos de ficheros en el análisis de datos genómicos

La lista de formatos que se estudiarán a lo largo de este libro no es

exhaustiva, ni mucho menos. Si algo caracteriza la Bioinformática
es la falta de un estándar g lobal para representar la información,
=;;....:..::..¡;;,-=::..~ cualquiera que sea el estado de la misma. En su lugar, encontramos
toda una miríada de formatos de ficheros. No obstante, hemos recogido aquí los
más hab ituales.
3.1 DATOS EN BRUTO
El hec ho de que una secuencia se pueda representar como una cadena de texto
permite que, en real idad, todos estos ficheros con secuencias de nucleótidos y proteínas
sean ficheros de texto plano. Estos ficheros únicamente pueden contener caracteres
lUPAC (ver Tablas 3.1 y 3.2) y espacios y si rven para almacena r solo la secuencia:
ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCC
CTGCCCCTGGAGGGTACGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATA
AGGAAAAGCAGCCTCCTGACTTTCCTCGCTTGGTAGTGGACCTCCCAGGCCAGTGCCGGGCCCCT
CATAGGAGAGGAAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCATCCGCGCGCCGGG
ACAGAATGCCCTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAA
Figura 3.2. Ejemplo de secuencia de nucleótidos
Este formato tiene algunas limitaciones obvias: no p ueden incluirse ni el

nombre de la secuencia (ca racteres alfan uméricos) ni más de una secuencia por
fichero. Po r este motivo, y por algunos otros, se han ido incorporando otros formatos
de fi chero más complejos que permiten referir más información.
Código de la base Significado

A 11 Aden ina 1
e eitosina
G 11 Guanina
T Timina
u 11 Uracilo 1
R G o A (purina)
y 11 T o e (pirimidina)
-
M
K
"
11
G o T (cetona)
A o e (am ino) -,
©RA-MA Capítulo 3. FORMATOS OE FICHEROS 33
S G o e (interacción fuerte)
w 11 A o T (interacción débil)
B G, Toe (no A)
D 11 G,AoT(noe) 1
H A, e o T (no G) 1
V 11 G. e o A (no T ni lJ.).
N A, G, C, T (cualqu iera)
X 11 Máscara 1
Hueco _j
Tabla 3.1. Código IUB/IUPAC para nucleótidos
Código de aminoácido Significado
~ A 11 Alanina
B Asparagina
...,
e 11 eisteína
D Ácido aspártico
E 11 Ácido glutámíco
F Fenilalanina
G 11 Glicina
H Hístídína
1 11 lsoleucina 1
K Lisina
L 11 Leucina
M Metionina
N 11 Asparagina
o Pirrolisina
p 11 Prolina
Q Glutamina
"
R 11 Arginina 1
S S erina
T 11 Treonina
~
u Selenocisteína
---,
V 11 Valina
w Triptófano
y 11 Tírosína 1
z Glutamina
X 11 Cualquiera
• Parada de traducc ión
- 11 Hueco
Tabla 3.2. Código IUBIIUPAC para aminoácidos

3.2 FASTA
Un fichero en formato FASTA es un fichero de texto que contiene largas

cadenas de caracteres correspondientes a secuencias de nucleótidos o péptidos.
Además, incluye una línea de definición en la que se enc uentra e l nombre de las
secuencias y comentarios ac larativos sobre las mismas.
La línea de definición del formato FASTA se caracteriza por comenzar por el

símbolo '> 'seguido de un nombre y una descripción. A conti nuac ión, se encuentra
la secuencia escrita en texto plano:
>Human
ATGGCACATGCAGCGCAAGTAGGTCTACAAGACGCTACTTCCCCTATCATAGAAGAGCTTATCAC
CTTTCATGATCACGCCCTCATAATCATTTTCCTTATCTGCTTCCTAGTCCTGTATGCCCTTTTCC
TAACACTCACAACAAAACTAACTAATACTAACATCTCAGACGCTCAGGAAATAGAAACCGTCTGA
ACTATCCTGCCCGCCATCATCCTAGTCCTCATCGCCCTCCCATCCCTACGCATCCTTTACATAAC
AGACGAGGTCAACGATCCCTCCCTTACCATCAAATCAATTGGCCACCAATGGTACTGAACCTACG
AGTACACCGACTACGGCGGACTAATCTTCAACTCCTACATACTTCCCCCATTATTCCTAGAACCA
GGCGACCTGCGACTCCTTGACGTTGACAATCGAGTAGTACTCCCGATTGAAGCCCCCATTCGTAT
AATAATTACATCACAAGACGTCTTGCACTCATGAGCTGTCCCCACATTAGGCTTAAAAACAGATG
CAATTCCCGGACGTCTAAACCAAACCACTTTCACCGCTACACGACCGGGGGTATACTACGGTCAA
TGCTCTGAAATCTGTGGAGCAAACCACAGTTTCATGCCCATCGTCCTAGAATTAATTCCCCTAA
Figura 3.3. Secuencia en formato FASTA
Se recomienda que todas las líneas de texto tengan menos de 80 ca racteres

para fac ili tar la visualización y la edición. Por otra parte, las secuencias deben estar
escritas en el estánda r TUB/TUPAC, co n las siguientes excepciones:
,.. Se aceptan letras m inúsculas, aunque luego se conviertan a mayúsculas.
,.. Empleo de un paréntesis o un guió n para representar un hueco de longitud

indeterminada.
,.. Se aceptan la U y el carácter ' *'en secuencias de am inoácidos.
Con es te formato, es posible incluir va rias secuencias en un mismo fichero,

siempre y cuando tengan líneas de definición disti ntas.
3.3 FASTAQ
Se utiliza, sobre todo, para guardar las lecturas de las plataformas de

secuenciación y se trata de una extensión del FASTA que incorpora, junto a la
secuencia, una indicación de la calidad o PHRED de cada nucleótido de la secuencia.
Tanto la letra de la secuencia como su calidad se codifican, por "simplic idad" y no
"simplificidad", en un carácter ASCII.
En un fichero FASTAQ, existen cuatro secciones, tal y como se muestra

en el ejemplo (ver Figura 3.4). En la primera línea, se encuentra una arroba ('@')
seguido de un identificador de la secuencia sin ningún límite de longitud, por lo
que es posible incluir alguna anotación arbitraria o comentarios. A continuación,
aparecen las líneas de la secuencia en formato FASTA y, para señalizar el fin de las
líneas de secuencia y el comienzo de los indicadores de calidad, la tercera sección
empieza por un ' +', opcionalmente, seguido del identificador de la secuencia y la
descripción que ya se indicaron en la primera línea. Finalmente, vienen las líneas de
calidad, que son tiras de caracteres ASCII imprimibles, en donde el carácter ' !'es la
calidad más baja, el '-'la más alta y el resto son los va lores de calidad ordenados de
izquierda a derecha por calidad creciente.
@secuencia 1
-
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
! ' ' * ( ( ( ( ***+ )) %%%++ ) (%%%% ) .1 ***- +* ' ' ) ) **55CCF>>>>>>CCCCCCC65
@secuencia 2
ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCATGGCTATGTGTG
+
208DA83 0 8A0 8SF83FHOSD8F08APFIDJFN34JW830UDS8UFDSADPFIJ3 N8DAA
Figura 3.4. Secuencia en formato FASTAQ
Es importante remarca r que e l símbolo '@ ' podría aparecer en cualquier

posición de la línea de calidad. En estos casos, no debe trata rse como marcado r de
una nueva secuencia y debe comprobarse que la longitud de la línea de calidad es
idéntica a la long itud de la secuencia.
La longitud de la secuencia y la de la línea de calidad deben ser

idénticas. En caso contrario, el fichero se puede considerar corrupto
e inservible.
El indicador PHRED está relacionado, loga rítm icamente, con la probabilidad

de error en la secuenciación P:
De esta manera, a partir de la lí nea de calidad es posible ca lcular la

probabi lidad de un erro r en la secuenciación. Por ejemplo, s i escogemos los valores
de calidad correspondientes a las tres primeras bases de la secuencia secuencia_ ! :
! ' ' * ( ( ( (*** +) ) %%%++ ) (%%%% ) . 1***-+*' ' )) **55CCF>>>»>CCCCCCC65
Figura 3.5. Ejemplo de linea de calidad
Sus valores ASCII so n, respectivamente, 33, 39 y 39. Teniendo en cuenta la

re lación anterior, las probabilidades de error en la secuenciación será n de 0,0501 %,
0,0 125% y 0,0125%.
Existen varias versiones de este formato, según el fabricante de la plataforma

de secuenciación, pero la más utilizada es la Sanger, que acepta PARED en el rango
[0, 93] y caracteres ASCII en tre e l 33 y el 126. Po r otro lado, lllu mina 1.0 codifica el
PHRED entre [-5, 62] y caracteres ASCTT entre el 59 y el 126 mientras que lllumina
1.3+ codifica PARED entre [0, 62) y caracteres ASCII entre 64 y 126.
3.4 SAM/BAM
El formato SAM (Sequence Alignment/MAP) es un formato genérico
utilizado para guardar alineamientos de secuencias de nucleótidos. Se trata de un
formato cuyo parseo consume gran cantidad de recursos y es lento, por lo que se
defin ió una versión binaria de l mismo, e l formato BAM.
Las principales ventajas de estos formatos son las siguientes:
11"' Flexibles, ya que permiten almacena r información de a li neamiento

generada po r varios programas.
11"' Simples, lo que posibilita que gran cantidad del software existente los
soporten.
11"' E l tamaño de l fichero es razonablemente reduc ido.
11"' No es necesa rio cargar todo el fichero para empezar a procesa r la
información que co ntiene.
11"' Es posible indexar e l contenido por la posición genómica.
Un fichero SAM es un fichero delimitado por tabuladores que co ntiene una

cabecera (opcional) y una sección con los datos del alineamiento propiamente dichos.
Si está presente, la cabecera es la primera de las secciones. Las líneas de la

cabecera van todas precedidas por una arroba '@'y un código de dos letras. Todas
las líneas de cabecera, excepto las que empiecen por @ CO, deben esta r tabuladas. A
continuac ión, se encuentran pares Etiqueta: Va lor.
Campo de la cabcce r·a Contenido Significado

[ @HD 1 VN* Versión
so Ordenación de los alineamientos
Valores aceptados: tmkown (por defecto), wtsorted,
queryname y coordinare
Diccionario de referencia de secuencias. El orden de
las líneas c. S determina el orden del alineamiento
Nombre de referencia de la secuencia
Rl de la secuencia
@ RG Grupo de lecturas
ID * Identificador del grupo de lecturas. Debe ser único a
nivel de todos los grupos de lecturas
CN Nombre de la secuencia central que produce la lectura
Descripción
Fecha de ejecución
usado para procesar el conjunto de lecturas
Plataforma de sccuenciación
Unidad usada en la plataforma
ldent ificador del programa de registro
Línea de comandos
Anterior PG-ID. Debe coincidir con el ID de alguna
cti ucta de e ncabezado PG
Versión del programa
--===;¡,¡¡:;== VN
@_CO Comentario
Tabla 3.3. Estructura de la cabecera

Tras la cabecera, se encuentran la sección de a lineamientos, en donde cada

línea tiene once campos obligatorios (ver Tabla 3.4) y un número variab le de campos
opcionales. Los campos obligatorios deben aparecer s iempre en e l mismo orden.
Orden 'iomhre Descri pciím
1 QNAME Nombre de la consulta

2 FLAG
= Bandera de opciones
r 3 11 RNAME Nombre de la secuencia
4 POS Posición de la base más a la izquierda
5
JL MAPQ ......Ca lidad del mapeo 1
6 CIGAR Cadena CIGAR

7 RNEXT Referencia al siguiente fragmento de la secuenc ia
8 PNEXT Posición del siguiente fragmento
9 TLEN Longitud de la plantilla
10 SEQ Fragmento de la secuencia
11 QUAL Ca lidad de la secuencia
Tabla 3.4. Campos obligatorios
La especificación completa del formato SAM/BAM está accesible

en http://samtools.source.forge.net/SAM l.pdf
En e l ejemplo de la Figu ra 3.6 vemos que se trata de un fichero de la vers ión

1.0 (@ HD VN: 1.0) donde los alineamientos se han ordenado por el campo RNAME
(SO:coordinate). Por otra parte, existen dos secuencias (@ SQ SN:seql y @ SQ
SN:seq2) y se ha añad ido el comentario " Ejemplo de fichero SAM".
@HD VN : l . O SO : coordinate
@SQ SN : seql LN : 5000
@SQ SN : seq 2 LN : 5000
@CO Ejemplo d e fic hero SAM
87 591 : 4 : 96 : 693 : 509 73 seql l 99 36M * o
O CACTAGTGGCTCATTGTAAATGTGTGGTTTAACTCG <<<<<<<<<<<<<<< ; <<<<
<<<<5<<<<< ;: <; 7 MF : i : 18 Aq : i : 73 NM : i : 0 UQ : i : 0 H0 : i : 1
Hl : i : O
EAS54 65 : 7 : 152 : 368 : 113 73 seq1 3 99 35M * o
O CTAGTGGCTCATTGTAAATGTGTGGTTTAACTCGT <<<<<<<<<<0<<<<655<<
<<< : 9<<3/ : <6) : MF : i : l S Aq : i : 66 NM : i : O UQ : i : O H O : i : 1
Hl : i : O
Figura 3.6. Fragmento de un fichero en formato SAM
En cuanto a la sección de alineamientos, podemos deduc ir la informac ión

res umida en la Tabla 3.5:
Campo Alineam iento 1 Alineamiento 2
QNA ME 1[ 87 _59 1:4:96:693:509 11 EAS54_ 65 :7: 152:368:11 3

FLAG 73 73
..
RNAME
•
scq 1 Scq l
POS 1 3
r-
MAPQ
-... 99
r-
99
CIGAR 36M 35M
MRNM/ RNEXT Jl• n·
MPOS/PNEXT o o
f lSIZErrLEN Jlo ~Lo
SEQ CACTAGTGGCTCATTGTA CTAGTGGCTCATTGTAAA
AATGTGTGG TTTAACTCG TGTGTGGTTTAACTCGT
QUAL <<<<<<<<<<<<<<<;<<<<<<<<< <<<<<<<<<<0<<<<655<<7<<<
,. ,
5<<<<<··<·7 :9«3/ :<6):
TAGs MF:i :l 8 Aq:i:73 MF:i :l 8 Aq: i:66
-
NM: i:O UQ:i:O NM :i:O UQ:i :O
HO: i: 1 H 1:i:O HO:i: 1 Hl: i:O
Tabla 3.5. Contenido de la sección de alineamientos
Uno de los pun tos en los que merece la pena detenerse, po r su complejidad,
es en la obtención de la cade na CIGAR (Compact ldiosyncratic Gapped Alignment
Report), que describe cómo se mapea una secuencia respecto a un genoma de
referencia.
La especificación establece que para calcular la cadena CTGAR de un

alineamiento hay que utilizar la Tabla 3.6:
Operador BAi\1 Descripción
M 11 o 11 Coincidencia en e l a lineamiento
L D
1 1
2
Inserción
JLBorrado
e-
~
N -"' 3 Salto de una región que está presente en la referencia pero no en la
secuencia que se a linea
S 4 11 Soji clipping 1
H 5 Hard clipping
~
p
~ e-
6 JLRelleno de la referencia -
- 7 Coincidencia entre la referencia y la secuencia que se alinea
X 11 8 11 No coincidencia entre la referencia y la secuenc ia que se alinea
Tabla 3.6. Operadores de cálculo de la cadena CIGAR
Supongamos que un secuenciado r nos proporciona la siguiente lectura:
ACTAGAATGGCT
Figura 3.7. Ejemplo de muestra de un secuenciador
Y que queremos alinearla con la siguiente secuencia de referencia:
CCATACTGAACTGACTAAC
Figura 3.8. Secuencia con la que se quiere alinear la salida del secuenciador
Para calcular la cadena CTGAR correspondiente a este a lineamiento, resulta

útil representarla en forma de tabla. En la fila superior se muestran las posiciones
(P); en la segunda fila, las bases de la secuencia de referencia y, en la tercera, la
secuencia que se alinea.
Figura 3.9. Cálculo de la cadena CIGAR

Tomando como referencia la posición O, la cadena CIGAR serí a

1X 1=8X2=7D, es decir, que hay una base que no coincide en las dos secuencias, otra
base que sí coincide, seguida de 8 bases que no coinciden, 2 bases que sí coinciden
y 7 borrados (bases que están en la referencia pero no en la secuencia que se alinea).
3_5 GFF/GFF3
Un fichero en formato GFF (General Fea tu re Formal) está formado por líneas
con nueve campos cada una, todos ellos obl igatorios. Se trata de un formato muy
restrictivo puesto que si, por ejemplo, los campos se separan por espacios en lugar de
por tabuladores, algunas herramientas no podrán procesarlo adecuadamente.
La Figura 3. 1O muestra un ejemplo de fichero en formato GFF:
SEQ1 EMBL atg 103 105 . + 0

SEQ1 EMBL exon 103 172 . + O
SEQ1 EMBL splice5 172 173 . +
SEQ1 ne t gene sp l ice5 172 173 0 . 94 + .
SEQl ge n ie sp5-20 163 182 2 . 3 +
SEQ1 ge n ie sp5- 10 168 177 2 . 1 + .
SEQ2 grail ATG 17 19 2 . 1 - O
Figura 3.1 O. Fichero en formato GFF
El principal problema de l formato GFF es que, a pesar de encontrarse

muy extendido, existen a lgunas va riantes incompatibles entre sí. Para resolver este
inconveniente se creó un nuevo formato, el GFF3, caracterizado principalmente por:
1"' Proporciona un mecanismo para representar más de un nivel de

agrupamiento jerárquico de características y características de
características.
1"' Separa las ideas de miembro de un grupo y de nombre de característica.
1"' Restringe e l tipo de características a un vocabula ri o controlado.
1"' Permite que una característica dada, como un exón, pertenezca a más de
un grupo a la vez.
1"' Proporciona una convención explícita para los alineam ientos de pares.
1"' Proporciona una convención explícita para características que ocupan
regiones disjuntas.
La Tabla 3.7 resume brevemente el significado de estos campos:
:'llombrc d el ca mpo Descripción
l Seqname JlNombre de la secuencia

Source Programa que ha generado la secuencia
Featu re Tipo de secuencia (gen, CDS, etc.)
~
Start Posición de inicio de la secuencia
r-
End Posición final de la secuencia
Score Calificación de la secuencia. Cuando no existe ninguna calificación, se
especifica un '.'o un O
Strand Dirección de la secuencia. Los valores válidos son'+', ·.•, o·: (si no l
se sabe o no importa).
Frame Toma Jos valores 'O' , ' 1', '2' o ' .'
'0': indica que la primera base de la región especificada se corresponde
con la primera base de un codón
' 1·: significa que hay una base adicional, es decir, que la segunda base
de la región especificada se corresponde con la primera base de un
codón
'2': quiere decir que la tercera base de la región especificada es el
primera base de un codón
Attributcs Opcional. Otros atributos definidos por el usuario
!::
Comments Opcional. Cualquie r comentario acerca de la secuencia
Tabla 3.7. Campos de un fichero en formato GFF3
Teniendo en cuenta la Tabla 3.7, la primera línea del fichero de ejemplo

representa una secuencia llamada SEQ 1 obtenida de la base de datos de secuencias
de EMBL cuya característica atg, comprendida entre los nucleótidos 103 y 105, sin
calificación, pertenece a la dirección '+' . Al tener el campo fi·ame el valor cero, se
trata de un exón.
Utilizando la información de la Tabla 3.7, interpreta el resto de

·' líneas del fichero . Si tienes alguna duda, puedes consultar
~,!:~~~ directamente la especificación oficial del formato en https:l!www.
~-----~ sanget:ac.uk/ resources/software/gj]7spec. htm/.
3.6 GVF
GVF es un tipo de formato GFF3 que incluye pragmas y atrib utos

adic ionales (ver Tabla 3.8). De hecho, un fichero GVF tiene la misma es tructu ra de
líneas delimitadas por tabu ladores con nueve campos y todas las restricc iones que se
ap lica n a un fichero GFF3, también lo hacen a un fic hero GVF.
La cabecera de un fichero GVF está compuesta de pragmas precedidas por

una doble almohadilla. Conti enen metadatos y la única obligatoria es ##gvf-version
1.07, que indica la versión de la especificación del formato del fic hero que se ha
util izado.
Es muy importante remarcar el hecho de que la almohadilla debe

ser doble o, de lo contrario, la línea será ignorada, incluso si
contiene una única almohadi lla.
A la cabecera le s1guen las líneas de características que contienen la

información sobre las variaciones:
11"' Seqid: cromosoma o contig en el que se ha encontrado la vari ación.
11"' Source: fuente de la que procede la variac ión.
11"' Type : tipo de va ri ación.
11"' Start: comienzo de la variación.
11"' End: fin de la variación.
11"' Score : probabilidad de error en la va riación, calculada en escala PHRED.
11"' Atributos: conjunto de pares etiqueta=valor según las directrices

recogidas en la Tabla 3.8 (los campos obligatorios están marcados con
un aster isco):
Etiqueta Descripción
ID* Identificador único a nivel de fichero
Variant_seq Secuencia de la variación. Si tiene más de 50 bases, se puede resumir
con un ··•. Por otra parte, si se trata de un borrado respecto de la
secuencia de referencia el campo torna el valor' ·
"' ' ' -
f Reference seq 11 Secuencia de referencia
Variant reads Núrnero de lecturas que soporta cada variación
[rotal r~ads 11 Número total de lecturas
Genotypc Genotipo de la variación
~ariant_freq 11 Frecuencia de la variación en una población de indiv iduos
. . .. . .
Vanant_effect Consecuenctas de la vanac10n en la secuencta de referencta
~..-,-,-;-~-
Variant_copy_nurnber Para las regiones en las que existen varias copias de la variación del
_ _. 1..!i!:l norna, este cameoJnd i~p.el número de co ia
e::.:.:
Reference_copy_number Para las regiones en las que existen varias copias de la variación del
genoma, este campo indica el número de copia en forma de identilicador
Nomcnclaturc Indica la denominación HGVS de la variación
Tabla 3.8. Atributos de una variación
,_,¿
La especificación completa del formato GVF está accesible en
.-. hup:/lwww.sequenceontology.OI·glresourceslgvfhtml.
~
La Figura 3. 11 muestra un ejemplo de variac iones descritas en formato GVF,

según la especificación 1.07 del formato del fichero. Si ana lizamos la primera línea
de características, obtendremos que se trata de una variación en el cromosoma 16,
generada con samtools, de tipo SNV, que comienza en la posición 4929 1141 y acaba
en la 4929114 1, con un indicador PHRED ' +' (probabilidad de error del 0,005%),
ca racterizada porque se encuentran dos bases (A y G) en lugar de una G.
Nigvf-version 1 . 07
Nigenome- build NCBI B36 . 3
Nisequence-region chr16 1 88827254
chr16 samtoo l s SNV 4929114 1 49291141 + ID=ID l ; Variant
seq=A , G; Reference_seq=G ;
chr16 samtoo l s SNV 49291360 49291360 + ID:ID_2 ; Variant
seq=G;Reference_ seq=C ;
chr16 samtools SNV 49302125 49302125 + ID=ID_3 ; Variant
seq=T , C; Reference_ seq=C;
chr16 samtools SNV 49302365 49302365 + ID=ID 4 ; Variant

seq=G , C; Reference_ seq=C;
chr16 samtools SNV 49302700 49302700 + ID=ID 5 ; Variant
seq=T; Reference_ seq=C ;
chr16 samtools SNV 49303084 49303084 + ID= ID 6 ; Variant
seq=G , T ; Reference_seq=T ;
chr16 samtools SNV 493031 56 49303156 + ID=ID 7 ; Variant
seq=T , C; Reference_seq=C ;
chr16 samtoo l s SNV 49303427 49303427 + ID=ID S ; Variant
seq=T , C; Reference_seq=C ;
chr16 samtools SNV 49303596 49303596 + ID~ ID 9 ; Variant
seq=T , C; Reference_ seq=C;
-
Figura 3.11. Ejemplo de fichero GVF
HGVS es una especificación de variaciones muy compleja cuya

descripción queda fuera del ámbito de este libro. Remitimos al
lector al sitio web http://www.hgvs.org/mutnomen/.
3J VCF
El formato VCF (Variant Cal/ Formal) se emplea para recoger información
de variaciones. Como en los casos anteriores, se trata de un fichero de texto dividido
en líneas cuyos campos se separan por tabuladores.
Los campos empleados por el formato VCF se resumen en la Tabla 3.9:
Columna Campo Descripción
1 CIIROM Nombre del cromosoma

2 POS Posición, más a la izquierda, de la variación
3 ID Identificador de la variación
4 REF A le lo de referencia
5 ALT A le los a lternativos SCQarados QOr comas
6 QUAL Indicador de la ca lidad de la variación
7 FILTER Fi ltrj>s_ap..!j¡;ados
8 !NFO Información sobre la variación
9 FORMAT
10 SAMPLE
Tabla 3.9. Campos de un fichero VCF

Por otra parte, las etiquetas empleadas en el campo INFO son las de la Tabla
3.10:
Etiqueta l>escripciiÍn
~ AA Alelo ancestral
AC Número de a lelos en el genotipo
AF lf Frecuencia del alelo
AN Número total de alelas en e l genotipo
BQ i['"Calidad RMS de esta ~osición
CIGAR Cadena CIGAR que describe cómo a linear e l a lelo con e l a lelo de referencia
DB Entrada dbSN P
END Posición final de la variación
H2 ll ldentificador HPMAP2
~
li3 l ndenti ficador li PM A P3
MQ Calidad RMS
MQO Número MAPQ
- NS
SB
SOMATIC
ILNúmero de muestras con datos
liebra en esta posición
Indica que el registro es una mutación somática para los estudios relacionados
con el cáncer
VAUDATED Variación contrastada experimentalmente
IOOOG Miembro de 1000 Geno mes
Tabla 3.1 O. Formato del campo INFO
El proyecto HapMap (hup://hapmap.ncbi.nlm.nih.govl) es una

iniciativa internacional cuyo objetivo es recop ilar información
sob re genes y enfermedades humanas.
La Figu ra 3.1 2 muestra un ejemplo de fichero VCF sencillo.
#ilfileformat=VCFv4 . O
NllfileDa te=200 9080 S
##source=myimputationProgramV3 .1
Nllreference=l000GenomesPilot-NCBI36
Niphasing=partia l
NtiNFO=<ID=NS , Number=1 , Type=Integer, Description=" Number of

Samples Wit h Da t a " >
NtiNFO=<ID=DP , Number=1 , Type=Integer, Description=" Total Depth" >
UINFO=<ID=AF , Number= ., Type=Float , Description=" Allele Frequency" >
NiiNFO=<ID=AA , Number=1 , Type=String , Description=" Ancestral
Allele " >
#iiNFO=<ID=DB , Number=O , Type=Flag , Description="dbSNP membership ,
build 129" >
NiiNFO=<ID=H2 , Number=O , Type=Flag , Description=" HapMap2
membership " >
NiFILTER•<ID=q10 , Description•" Quality below 10 " >
#iFILTER=<ID=sSO , Description=" Less than 50 % of samples have
data " >
#iFORMAT=<ID=GT , Number=1 , Type=String , Description=" Genotype " >
Nl!FORMAT=<ID=GQ , Number=l , Type=Integer , Description=" Genotype
Quality" >
#i!FORMAT=<ID=DP , Number=1, Type=Integer, Description=" Read Dept h " >
Nl!FORMAT=<ID=HQ , Number=2 , Type=Integer, Description="Haplotype
Quality">
NCHROM POS ID REF ALT QUAL FILTER INFO FORMAT
NA00001 NA00002 NA00003
20 14370 rs6054257 G A 29 PASS NS=3 ; DP=14 ; AF=0 . 5 ; DB ; H2
GT : GQ : DP : HQ 010 : 48 : 1 : 51 , 51 1 10 : 48 : 8 : 51 , 511/1 : 43 : 5 : . , .
20 17330 T A 3 q 1 0 NS=3 ; DP=11 ; AF=0 . 017
GT : GQ : DP : HQ 010 : 49 : 3 : 58 , 50 0 11 : 3 : 5 : 65 , 3 0/0 : 41 : 3
20 1110696 rs6040355 A G, T 67 PASS NS=2 ; DP=10 ; AF=0 . 333 , 0
667 ; AA=T ; DB GT : GQ : DP : HQ 112 : 21 : 6 : 23 , 27 211 : 2 : 0 : 18 , 2 2/2 : 35 : 4
20 1230237 . T 47 PASS NS=3 ; DP=13 ; AA=T
GT : GQ : DP : HQ 010 : 54 : 7 : 56, 60 0 10 : 48 : 4 : 51 , 51 0/0 : 61 : 2
20 1234567 microsat1 GTCT G, GTACT 50 PASS NS=3 ; DP=9 ; AA=G
GT : GQ : DP 0/1 : 35 : 4 0/2 : 17 : 2 1/1 : 40 : 3
Figura 3.12. Ejemplo de fichero VCF
Los ficheros VCF suelen comprimirse e ir acompai'lados de un fichero de

índices en tabix, lo que permite que un navegador genómico pueda interp retar
únicamente los fragme ntos de la información que se están viendo en ese momento.
La especificación completa del formato VCF está accesible en

hllp:llwww. 1OOOgenomes.org.
3.8 BED
El formato BED proporciona una manera flexible de describir las anotac iones
sobre variaciones.
Cada línea de un fichero BED tiene tres campos obligatorios y nueve campos
opcionales y están resum idos en la Tabla 3. 11, donde los campos obligatorios están
ma rcados con un asterisco.
Campo Descripción
Chrom• 11 Nombre del cromosoma o esqueleto
chromStart* Inicio de la variación dentro del cromosoma o esqueleto
(JhromEnd*J~Fin de la variación dentro del cromosoma o esqueleto
Name Nombre de la linea del fichero
Score 11 Puntuación entre O y 100. Se utiliza en la representación gráfica del fichero
Strand Orientación de la hebra('+' o'-')
thickS tan JI Inicio en que se com ienza a d ibujar la lectura
thickEnd Final del dibujo de la lectura
itemRgb Color que tendrá la lectura cuando se visualice (solo si se ha indicado que
itemRbg=''On" en la cabecera)
blockCount Número de exones presentes en la línea del fichero
blockSizes Lista, separada por comas, de los tamaños de los exones. El número de elementos
de la lista debe ser blockCormt
blockStarts Lista, separada por comas, de las posiciones de inicio de cada exón, relativas a
clrromStart. El número de elementos de la lista debe ser blockCowrt
Tabla 3.11. Campos de un fichero BED
La especificación completa de l formato BED está accesible en

http://genome. ucsc.edu/FA QIFA Qformat.html#formatl .
La Figura 3.1 3 muestra un ejemplo de fi chero BED:
browser position chr7 : 127471196-127495720

browser hide all
track name=" ItemRGBDemo" description= " Item RGB demonstration"
visibility=2 itemRgb=" On "
chr7 127471196 127472363 Pos1 o + 127471196 127472363 255 , 0 , 0
chr7 127472363 127473530 Pos2 o + 127472363 127473530 255 , 0 , 0
chr7 1 27473530 1 27474697 Pos3 o + 1 27473530 127474697 255 , 0 , 0
chr7 127474697 127475864 Pos4 o + 127474697 127475864 255 , 0 , 0
chr7 1 27475864 1 274 77031 Neg1 o 1 27475864 127477031 - 0 , 0 , 255
chr7 127477031 127478198 Neg2 o - 127477031 127478198 0 , 0 , 255
chr7 127478198 127479365 Neg3 o 127478198 127479365 - 0 , 0 , 255
chr7 1 27479365 1 27480532 Pos5 o + 1 27479365 127480532 255 , 0 , 0
chr7 127480532 127481699 Neg4 o 127480532 127481699 - 0 , 0 , 255
Figura 3.13. Ejemplo de fichero BEO
La representación gráfica de este fichero en el UCSC Genome Browser es

la de la Figura 3.1 4. Como puede observarse, los colores se corresponden con los
indicados en las diferentes líneas del fichero.
nn:u • ..,....,. • '• • • nnn- • • · - - ..-- >or>"""'"'-•,.,...--
Figura 3.14. Representación gráfica del fichero BED anterior

BASES DE DATOS GENÓMICAS
El primer genoma se secuenció en 1995 en el Institute ofGenomic Research y

correspondía a la bacteria Haemophilus influenzae. Solo unos pocos meses más ta rde,
se completó el genoma de la levadura Saccharomyces cerevisiae. Desde entonces la
cantidad de genomas secuenciados ha crecido a pasos ag igantados, incluyendo la
secuenciación completa de l genoma humano en diciembre de 2013. Tanto es así
que en apenas 20 años se ha producido una verdadera explosión de la información
genómica gracias, entre otras cosas, a l menor coste de la tecnología necesaria.
Merece la pena detenernos en observar algunos ejemplos que nos darán idea
de la magnitud de la informac ión a que nos referi mos así como del crecimiento
vertigi noso a que está sometido dicho vo lumen de información.
Una de las bases de datos genómicas más importantes, y que estudiaremos

con detalle en un capítulo posterior, es la NCBI-GenBank. En la Figura 4.1 se
observa que tanto el número de bases como el nú mero de secuencias almacenadas
ha evolucionado exponencialmente desde la versión 3 liberada en 1982. Junto con
GenBank, se muestra también la evolución de los registros del proyecto WGS, en
donde se maneja información de genomas procariotas y eucariotas y que comenzó
en abril de 2002.
52 BIOINFORMATICA: El AON A UN SOLO CLIC © RA-MA
Bases
1.000.000.000 .... • GenBank

. WGS
100.000.000.0...
10.000.000.000
1.000 000.000
100.000.000
10.000.000
1.000.000
1985 1990 1995 2000 2005 2010
Sequences
• GenBank
100.000.000 . WGS
10.000.000
1.000.000
100.000
10.000
1.000
1985 1990 1995 2000 2005 2010
Figura 4.1. Evolución de la información almacenada en GenBank y WGS

©RA-MA Capítulo 4. BASES DE DATOS GENOMICAS 53
Por otra parte, la Figu ra 4.2 resume los genomas registrados en la base de
datos Entrez y el sistema de búsqueda de secuencias por excelencia, que también
está alojado en el NCB!:
·~
l,.,
115.1
- ,,., - •
""'' ""
Figura 4.2. Estadísticas de la base de datos de genomas del NBCI
Esta exposición de información que, en cierta manera, podría verse como una
oportu nid ad para desarrollar un conocimiento más profundo de distintos organismos,
también constituye un riesgo de encontrarse información dispersa, desactualizada y
compleja de procesa r.
A medida que la cantidad de los datos aumenta, la tarea de identificar las

re lac iones criticas entre ellos se vuelve compleja. Organiza r la informac ión biológica
en bases de datos dedicadas en las que se a lmacena informac ión relacionada ha s ido
muy útiL Sin embargo, el número de estas bases de datos ha alcanzado una c ifra
considerable (del orden de mi les de ellas a l año), lo que plantea otros retos como la
extracción de información útil o la minería de datos eficiente.
En gran medida, las dificultades actua les de l anál isis de datos biológicos
surgen, simplemente, de la neces idad de cruzar la información presen te en distintas
bases de datos que, por si fuera poco, se encuen tran dispersas y, además, con más
frecuencia de la necesaria ofrecen dato s incoherentes e inc luso con tradictorios.
La solució n a estos problemas de dispersión de recu rsos y variedad de

formatos de la información son las bases de datos genómicas, cuyas características,
variedad y principios básicos de d iseño abordaremos a lo largo de este capítulo.
4.1 ¿QUÉ ES UNA BASE DE DATOS GENÓMICA?
Una base de datos genómica es un repositorio de informac ión que incluye

todos o pa rte de los datos de una secuencia de ADN de uno o más organismos.
Ge nera lmente, en una base de datos genómica también puede encontrarse informac ión
ad ic ional (anotaciones) que o bien describen características de la propia secuencia
de ADN o bien propiedades biológicas de los organismos a los que pertenece dicha
secuencia. Las anotaciones genómicas pueden clasificarse en dos grandes gru pos:
,. A notaciones cromosó m icas locales, que está n asoc iadas a una determ inada
regió n de un cromosoma. La ubicación de los genes o anotaciones sobre
la estructura del ge n que indiquen las fronteras exón/ intrón const.ituyen
a lgunos ejemplos de este tipo de anotaciones.
,. Anotaciones no d irectamente asociadas con una región genómica como

datos sobre la estructura de la proteína o sob re vías metabólicas.
A lgunas bases de datos genómicas proporcionan una interfaz de usuario

que perm ite realizar consultas, v isualizar las anotaciones, etc. Esta interfaz recibe el
nombre de navegador genó mico.
Una base de datos genómica es un reposito rio de información que

incluye todos o parte de los datos de una secuencia de ADN de uno
o más organismos.
4.2 CLASIFICACIÓN DE LAS BASES DE DATOS GENÓMICAS
Las primeras bases de datos genómicas que aparecieron se centraban en

la integración de los datos de una úni ca especie. Ejem plos represe ntati vos son
WormBase (dedicada al gusano Caenorhabditis elegans) o F lyBase (especializada en
la mosca de la fruta, la Drosophi/a melanogaster). Sin embargo, la apa rición de otras
bases de datos y la evidencia de la re lac ión entre los genomas de distintas especies
han puesto de manifiesto que para la comprensión del genoma de una especie es vital
compararlo con la evol uci ón de sus parientes cercanos. Así, podemos encontrar bases
de datos genómicas globales, que contienen datos de varios organismos y diferentes
tipos de secuencia y, bases de datos genómicas especializadas en determinados
organismos, categorías o funciones específicas de secuencias o datos generados por
tecnologías de secuenciación concretas. La Tabla 4.1 recoge algunos de los ejemplos
más representativos.
Globales Nucleótidos GenBank

EMBL: European Molecular Biology
Laboratory
DDBJ: DNA Data Bank of Japan
Proteínas Entrez Protein
Swiss-Prot
PIR -lnternational
UniProt
Estructura de proteínas MMDB: Molecular Modeling Database -
(basada en PDB)
PDB: Protein Data Bank
Gcnomas y mapas Entrez Genome
Bibliografia j l,PUBMED
Rutas metabólicas KEGG
Enfermedades genét icas OMIM
humanas
Especializadas Organismos Human Gcnomc Sequencing
GDB: Genome Database (human mapping
information)
MGD: Mouse Genome Database
SGD: Saccharomyces Genome Database
Categorías o funciones de TRANSFAC: Transcription Factors
secuencias Vector Database 1
Datos generados por EST: Expressed Scquence Tags
tecnologías de secuenciación GSS: Genome Survey Sequences
concretas STS: Sequence Tagged Sites
HTG: High Throughput Sequcncc
Tabla 4.1. Ejemplos de bases de datos genómicas
Finalmente, otra manera muy extendida de c lasificar las bases de datos

genómicas es atendiendo al origen de los datos que almacenan. Según este criterio
distinguimos entre bases de datos primarias y bases de datos secundarias.
Las bases primarias a lmacenan datos en bruto procedentes de experimentos

en laboratorios y se dividen en bases de datos de secuencias (como Swiss-Prot) y
bases de datos estructurales (como Protein Databank para la estructura de proteínas).
Genera lmente, contienen enormes cantidades de info rmación y se actua liza n co n una
e levada frecuencia .
Por su parte, las bases de datos secunda rias contienen información derivada de
una o más bases de datos primarias que se obtiene como resultado del procesamiento
de estas últ imas. A diferencia de las bases de datos primarias, su frecuencia de
actualización es más reducida. Su mayo r ventaja es que, al contener información
tratada, ahorran a los c ientíficos tiempo y esfuerzo en el aná lisis de los datos.
4.3 CARACTERfSTICAS DE LA INFORMACIÓN GENÓMICA
En teoría, la construcción de una base de datos biológica no debería ser

muy distinta de la construcción de una base de datos para cualquier otro dominio de
ap licación como un sistema de info rmac ión ba ncario o el de una agencia de segu ros.
Desgraciadamente, nada más lejos de la realidad, ya que la información biológica
presenta unas características ún icas que dificultan, y mucho, la implementación de
este tipo de sistemas de información.
Uno de los aspectos que más merece la pena destacar es el grado de

incertidu mbre en las reglas de negocio, a diferencia de lo que ocurre en otros entornos.
Las reglas de negocio son las restricciones que hay que aplicar sobre los datos y que
se deducen de las entidades del mundo real que representan dichos datos, así como
las debidas a las necesidades específicas de la organización que explotará la base de
datos. En un contexto biológico, las reg las de negocio que marcan las restricciones
sobre los datos presentan cierto nive l de incertidumbre, debido, fundamentalmente,
a las siguientes razones:
11"' La interp retación de la información almacenada puede cambiar con el

tiempo gracias a un descubrimiento científi co que altera las relac iones
entre los datos. Por ejemplo, algunos genes estructurales de ARN no se
a lmacenaba n en las bases de datos hasta hace relativamente poco tiempo,
cuando se descubrieron otros genes de ARN con funciones muy d iversas.
Esta amp liación de l co nocimiento tiene un c laro impacto en el modelado
del sistema.
11"' La informac ión a lmacenada se considera in varia ble basándose en unos

c iertos resultados experimentales, ya que hay medidas más fiab les
que otras. Sobre esta información tamb ién se genera otro resultado de
la interpretación de la primera. Si un experimento demostrara que la
supuesta invariabilidad era errónea, la interpretación de la m isma exigiría
una revisión que podría tener un impacto considerable en e l mode lo.
Una manera de reducir la incertidumbre es almacenarlos j unto a

info rmación de manera desestructu rada en forma de co menta ri os
de texto. Pa ra evitar que esta desestructurac ión afecte a las
L-~~J consultas comp lejas, es preferi ble categorizarla de alguna manera.
En la Práctica l se mostrará cómo.
Por otra pa11e, el elevado nive l de complej idad de los datos b iológicos
co mparado con otros do mini os de apl icación de las bases de datos supone un reto
pa ra el modelado de las estru cturas de datos y sus relaciones que ha sido abordado
desde diferentes perspectivas (ficheros planos, bases de datos relaciona les, bases
de datos orientadas a objetos, etc .). Un mode lado poco preciso puede llevar a una
pérdida de información que desemboque en un fallo total de l diseño.
En general, distintas bases de datos emplean diferentes formatos para

a lmacenar y represe nta r la info rmac ión (este punto lo trataremos en un capítulo
pos terior). Por tanto, los tipos de datos escogidos en el d iseño de la base de datos
deben ser suficientemente flexibles. De hec ho, en ocasiones es necesario utilizar
distintos tipos de datos para la misma informació n dependiendo de l co ntexto de uso,
por lo que resulta hab itual construi r va rios esq uemas conceptuales de un mismo
esq uema fís ico.
Otro obstáculo es que los usuarios de las bases de datos genómicas tienen,
normalmente, un conocimiento red ucido del d iseño del esquema, lo que obliga a
que la interfaz de acceso a la base de datos (generalmente, a través de la web) sea
flexible, intuitiva y maneje una gran variedad de consultas potencialmente co mplejas
así como que permita realizar comparaciones con los resul tados obtenidos de otras
bases de datos.
Finalmente, resulta basta nte común real izar cambios en el esquema y

someterlo a un proceso conti nuo y recursivo de rediseño. La pri ncipal consecuencia
es que es recomendable, por no decir obligatorio, seguir una polí tica de control de
vers iones con publicación de las actualizaciones respecto de versiones anterio res.
Las principales características de la info rmación almacenada en las

bases de datos genómicas son las siguientes:
~ Muy compleja y, en ocasiones, redundante.

~ Variabilidad de la información genómica.
~ Elevada tasa de cambio que puede implicar cambios en el esquema de la
base de datos.
~ Conocimiento limi tado del esquema por parte de los usuarios de la base de
datos.
~ Importancia de consultas complejas.
4.4 CONSTRUCCIÓN DE UNA BASE DE DATOS GENÓMICA
La construcción de una base de datos genómica es una tarea compleja en la

que pueden distinguirse algunas subtareas comunes a la gra n mayoría de bases de
datos genómicas, y que son:
~ Diseño e implementación de la arquitectura de almacenamiento que
albergará los datos.
~ Mantenimiento y actualización de la base de datos a medida que se
publique información adic ional.
En muchos casos, la responsabilidad de estas tareas recae en equipos de
proyectos distintos. Esta complejidad de tareas y dispersión de responsabilidades tiene
como principal consecuencia que no todas las bases de datos genómicas sean igual de
fiables. De hecho, cabe distingu ir entre archivos genómicos y bases de datos maduras.
Los arch ivos genómicos son bases de datos genómicas que constituyen un
repositorio de información en ocasiones redundante (por eje mpl o, porque contenga
va ri as secuencias de l mismo gen, una de un laboratorio diferente), no se mantiene
ningún control sobre los reg istros que se guardan, no existe un vocabulario co ntro lado,
etc. No se trata, ni mucho menos, de bases de datos con información errónea, pero sí
conviene tener en cuenta estos aspectos.
Por su parte, las bases de datos maduras están sometidas a procedimientos
de contro l rigurosos que consiguen el im inar la redundancia de la información
y garant.izar la coherencia de los datos guardados. Además, dicha información es
revisada por equipos de expertos.
4.5 MODELADO DE INFORMACIÓN GENÓMICA
Un modelo adecuado es crítico para la construcción y mantenimiento de

la base de datos genó mica. Obviamente, para realiza r un buen modelado resulta
imprescindib le un mínimo conocimiento del dom inio del problema, es dec ir, del
contexto biológico en que se enmarca la información genómica. Por ello, remitimos
al lector a la primera parte de este libro, en la que encontrará una explicación detallada
de los co nceptos biológicos básicos.
A la hora de elegir la técnica de modelado, co nviene centrarse en los aspectos

de los datos o de l anál isis de los mismos re levantes para la aplicac ión y enlazar a
otras bases de datos biológicas para el resto. Sin embargo, esta limitación del enfoque
no debe confundirse con un d iseño de la base de datos que cubra los req uisitos más
inmediatos de la aplicac ión. A l contrari o, e l d iseño de la base de datos puede ig norar
o simplificar la informac ión que quede fuera del ámbito del proyecto, pero debe
establecer una representac ión completa de la parte de información biológica que
representa, incl uso au nque dicha apl icación no vaya a uti liza r parte de la info rmac ión
a lmacenada. La consecuencia princ ipal es que e l diseño es mucho más robusto y
flexible.
En cuanto a las técnicas de mode lado, destaca remos las siguientes:
,. Modelado Entidad-Relació n: es una de las técnicas de modelado más

extendidas en la Ingeniería del Software. Resu lta muy adecuada cuando
existen entidades bien definidas con relaciones re lat ivamente sim ples
entre ellas. Como hemos v isto en el punto anterior, este no es e l caso,
por lo que es necesario extender el mode lo Entidad-Relación. De hec ho,
en la Práctica 1 uti lizaremos el mode lo Entidad-Relación Extendido,
amp liamente documentado en la Bibliografía.
,. Modelado UML: UML (Unified Mode/ling Language) es un lenguaje

de modelado que captura información de un sistema bajo estudio desde
d iversas perspect.ivas y con distintos niveles de detalle. Por otra pa rte,
ofrece una represen tación ideal para perspectivas ori entadas a objetos.
,. Modelado XML (eXtensible Markup Language): XML es un lenguaje de

marcado que se emplea para representar la estructura de la información
que maneja el sistema bajo estudio y para establecer las reg las básicas
del intercamb io de la misma entre entidades relacionadas con el mismo.
4.6 INTEGRACIÓN DE BASES DE DATOS BIOLÓGICAS
Según algu nos estudios, el vo lumen de la información genómica se dobla

cada 18 meses y, además, e l número de bases de datos crece a una tasa anual de en
torn o al 5%. Todo ello tiene como resultado una dispersión enorm e del conocimiento
biológico que hace que el principal problema pa ra el investigador sea la búsqueda
de dicha información y para al bioinformático el diseño de un sistema capaz de
proporcionarla.
Co n e l fin de dar respuesta a estos interrogantes se han desarrollado varias

estrateg ias de integració n que parten del hecho de que, aunque las bases de datos
biológicas difieren en su estructu ra interna, implementación y ámb ito bio lógico, la
mayo ría tienen una arquitectura de tres capas.
La estrategia de integración más sencilla es la basada en referencias. En

este caso, pa ra las entradas de una base de datos se proporciona una referencia a la
información contenida sob re dicha en trada en otra base de datos di ferente, de tal
manera que, al presentar la información a l usuari o fina l esta referencia se co nvierte en
un enlace a la otra base de datos. La princ ipal ventaja de este enfoque es su senci llez
de implementación aunq ue a costa de la actua lización, fiab ilidad y va lidez de la
fuente externa. Por ejemplo, si buscamos en GenBank el registro correspondiente a
la hemoglobina humana (ve r Figu ra 4 .3), ve remos que aparecen una serie de enlaces
y que al segu irlos nos lleva n, en este caso, a la info rmac ión recuperada de la base de
datos taxonómica.
Homo aaptens NilW>GIOC* (H88) g.ne, promo..,r ftgiOn, txons 1, 2 and p¡rllll cds
~O,OQ\WTOII1
~110 Jaoag
~ . . ... .. ~.. 0:. - ¡,...... ... .........•«•

~
..""... ...,.
'"'m'"'"' ...
- ._._.:¡,..._ ,_,,.,.. ·-· - ·· ..._,.,, ..,.,..., u.~~o t . •.,.
- ---·---
....
·- ..... __.....
~
'tli<U:OO )I>~H 1 X•~$~n10
..,.,_
.......... -
.......,, ,.
, .,_,..., _.........
..
- ;.., ,.., ,
.-·-··_ ........ .............. ......... ................
P <'N!',.OI ···-·(ti,(~ o ~ ·"oto \>60"~.-ro f".>• Of'l""ll
~
... , ... '"''..... ,_.
.......... ...,.. -·- ..... ,............ _
.....,.. .. . . - _.. .,__. -
-~
~
lUlo« ,_....,.,..,.n "'n~ ..w..u. -........., •:
·~
;
u..~...,. n~•• "' "'" .... p
~_l
...rua:: : - · ; .. ....
M;tJI,;t.,t
nn.:
.-..:. a..- ""-··-
•oiWolor., f.e•d•f>l•o IO;.J.UC..o r.,
_ , ... o:~.:»co
~$-fo
- - - , , ..:, eo:.o ~·•· _ ...,

... ,..,.,,,,
·:.::::::;~:::;~.::'" ~ ~
.u..-.. . . .. . . , _ , ........., • 1,
-- ~b---!1It:
~¿.=:?.:="E~~~~~:sl
-..
..... d ......
• ~~lc. Qon;o~tCM~oo---"""-
' U.....;.. .........._ ~
• "-m· m•'e'""·~~
Figura 4.3. Integración basada en referencias

Un enfoque basado en serv1c1os web soluciona estos inconvenientes a la

vez que mantiene una simplicidad de implementación. En este caso, la integración
con la base de datos externa se lleva a cabo por medio de la comunicación con un
proceso remoto que expone los datos de la base de datos deseada. Manteni endo la
interfaz de co mun icación entre las bases de datos, cualquier cambio que se produzca
en ambas será transparente para el otro extremo. Un ejemplo es la base de datos de
dom inios funcionales en proteínas PRODOM (http://prodom.prabi.fr), que ofrece
una in terfaz basada en servicios web para la consulta de información y la realización
de operaciones básicas. La Figura 4.4 muestra el fichero de descripc ión de uno de
sus servicios web:
<">-J..._... ,,o. ~1ft ... '>

• .:.-.;dl;ckft~otOM n- - 'b&.ostpt0<1Son.4ol' IO'I'ft• 'OOIII>:'In.,.://~"'-·)(mko"f>·.../-.ell/-p/" o)'l'jN •- ='tllltp:j/pr...,..,, pr..bUr, ...,,.,~·
,...,.....W$dl -'llng://S(II~~.XMI,..p..oro(w~ ' ""*"'' '-IOJMfp://-.wJ~/:tVO I /liiMlS(flt-' tlii"'t~-...a»«..'llrt'IJI!//Pf'OOOo'in.()f~..lr/lll~l(iW'OdoOm' >
<W"...dl:docuncntAbon..0....1<0Cl: O..nid . ....... k..t.n&IH"""....,"'·"...... ty... t .fdtefet.,.c:e: !krv•nt r , l'lru C,. C.ni...... $, c:-,_,n., r , Coou.y J, P>o:yt~KO, IC.h10 f) ()00,)
PWODom: .,...,..,,.,tod du'<l...t.g ot~.. dom..,,., lldall..g'< lnllkointMn.A"Ik;o., Yol ~.no ~;)116• J:U </..,.d:• ..........,t~_, >
• <wS<I:~ ¡,.
"-"'C':~ ~tf"OO'I't!Oer....,t -'tj-liroo:d' t4f9etl'~ce-.,,Us>://~ooo.,.....bO.I•/b&.~lllf'OCkleto' ,.... tl'd-'t>UP'.//pfodo>oM.po•bi.lt/....,-.lvt~•·
-*'-m ..,Up:/ /- w.w'l .Of'J/)00 1/ XIoUllldoum" '"
- c:nc:l:~........ .._ ..........t ........ >
- 011<1 ~~~ ) f
- (I!Sd:$~>
en<~ ~ "-•""Pf<l!J'••'"' t'JS)c 'x..cb.~ 1>
~:~ nno,..qvery' ~ """X,;.d:!stltng' 1>
QI'Od:..~Ñ _ . .....,....... typn *'•'Od:~tti'"!J'/>
</'O!'d ~n(O)o
<IJj<l:(~. .,.>
<JJ;ll(!·.t.... .....b
..,,..,,dem<nl ......... ·w...............pooo...,' >
<l(ld ·~oTypo >
• «$d!HQUéf\Ot}o
c»>ll ~ n~:"'..&&os~a · t')'I~ -·~:Shlo.,' />
~:~ n)l'lle llf"ll&oo,.tptOdlm"9e' tvoe "''nd:.«<l"ft9" 1>
4 c.d .......,....,., ..
-rlnd:~ypo,.
</Gd:tiotfiii'Pn
<IXS~ Kf~ ,.
q,.$11:1~~,.
..,...d:eoo::o:~ ouma .,..,.,.,pt<>d~~:ooq-.,tMo.g' ,.
<o'l~:p;~rt nr•,..II\I*M'I'&~ dti'loent -'tM.:biM1JtrOCI ' ¡:,.
q ..1dl ~>
· ~:r.t9SOtCM ,.._....~o<llteSpqonS~~~,.
._.,,¡t;p.o•l ele~net~L::"tn"':!I~J""'dOlle.,.-...,' - - 'oiO'If"'4W•.......,.... />
~~..,,_~...,. ,.
..w~:C>OI'tt\'ll4 nr,._.l*!o;tp«>doMI>or1lYJM)'>
- ( ftWI C(I,..»>ñ ~='tii~IP*">
Figura 4.4. Integración a través de servicios web
Otra posibilidad es la llamada integración po r vistas. Una vista, co mo su

nombre indica, es una panorámica de la información que conti ene una base de datos
que está limitada por una serie de factores y que se consulta como si de información
propia se tratara. Genera lmente, las vistas se generan a partir de información de
distintas tab las, de manera que el usuari o que consulta la vista no necesita conocer
la estructura de las tablas imp licadas en la definición de la vista. En la Figura 4 .5 se
ve como la Vista A está formada a parti r de l subco nj unto de las tab las de la base de
datos, mientras que la Vista B permite e l acceso a datos a otro subconjunto distinto.
VISTA A VISTAS
ll ll íi ltl
- 1 1 1 1 1 1
·-
TABLAS DE LA BASE DE DATOS
Figura 4.5. Integración por vistas
Finalmente, encontram os los almacenes de datos (data warehouse) , cuyo

objetivo es aglutinar, en una sola base de datos, un modelo de datos unificado
que contenga la información de todas las fuentes de datos externas. El principal
obstáculo que se enc uentra es la naturaleza dinám ica de la info rmac ión y la dificultad
de mantenimiento de la misma.
PRÁCTICA 1: DISEÑO DE BASES
,
DE
DATOS BIOLOGICAS
En esta práctica sobre diseño de bases de datos biológicas propondremos un

eje mplo simplificado de este tipo de bases de datos y abordaremos, con cierto nivel
de detal le, e l diseño de las mismas utilizando varias aprox imacio nes.
El ejemplo base será un s istema de información que almacena rá datos sobre

proteínas y las especies en que se encuentran, así como de las secuencias que las
componen. Adicionalmente, se rá posib le adjuntar, j unto a las proteínas, anotac iones
sobre las mismas.
5.1 DISEÑO RELACIONAL
La elaboración de un esquema Entidad-Relación es un proceso a ltamente

creativo, por lo que resulta complejo establecer un procedimiento s istemático que
garantice la resolución de cualquier ti po de problema. No obsta nte, la práctica
demuestra que hay ciertas recomendaciones que simplifican el proceso de diseño.
En un diagrama Entidad-Relación encontramos, en la versión más sencilla,

tres elementos :
,.. En ti dades: so n los objetos principales del modelo y recogen los co nceptos
del dominio bajo estudio. En este ejemplo, serían proteína, especie,
secuencia y anotación.
11"' Atr ibutos: representan características de las entidades del modelo y los
hay de dos tipos: los identificadores (aquellos que permiten d istinguir
ocu rrencias disti ntas de un ejempla r de la entidad) y los descriptores (el
resto).
11"' Relaciones: so n asociaciones entre una o más entidades, de l mismo o de

d istinto tipo. Se caracterizan por la cardinalidad o número de entidades
que se relacionan.
El diagrama Entidad-Relació n' correspondiente al ejemplo que nos ocupa

es el que se muestra en la Figura 5.1. En él, podemos encontrar seis entidades
(PROTEIN, PROTEIN_S YNONYM, SPECIE, SEQUENCE, PROTEIN_INFO y
PROTETN_ TNFO _TYPE_ CODE).
PROTtiN_INFO
PROTtiN_INFO_TYPE_COOE ·PROTEIN_INfO_ID: tnt
· PROTEIN_INF-O_TYPE_CODE_ID: int ·PROTEIN_INFO: ~tring
· CODE,..OESC : suin¡: ·REFERENCE_URl: strin¡:
·COOE VERBOSE DESC : sttin&
- •DAlt..CREATEO : int
<REATED_BY: strtlg
1
-
1
S{QUEHCE
PROTEIN
·SEQUENCE_IO: lnt
-PROTEIN..IO : lnt
•S{QOENCE_ANNOTATION : $lting
·PROTEIN..ClASS_NAME : S.lting
·Sl·QUENCE_LENGTH : lnt
·DATE,.CREATEO : lnt
·ACCESSION..NUMBER : strfl¡
·S!O.UENCE_LOAD_OATE : lnt
- • .CREATED_BY: String
-
PAOTEIN_SVNOMYM SPECIE
.PROTEIN..SYNONYM_ID: int ·S:PECtE..IO: lnt
·SYNO.NYM : h t ·SCIENnFIC_NAME: string
o()ATE_CREATEO: int
h .COMMON..NAME: string
.CREATEO..BY: strlng • 1 ·DATE_CAEATtO: lnt
.CREATED..BY: strin¡
Figura 5.1. Diagrama Entidad-Relación
La notación específica empleada para la construcción de este tipo de diagramas puede encontrarse en Ja Biblio-
gralia.
©RA-MA Capftulo 5. PRACTICA 1: DISENO DE BASES DE DATOS BIOlÓGICAS 65
Aunque no es el caso, podría ocurrir que aparecie ran algunas restricc iones
semánticas que escapan a la capacidad de representación del modelo Entidad-Relación.
Po r este motivo, se extendió el modelo para dar lugar al modelo Entidad-Relac ión
Ex tendido que, j unto a lo an teriormente comentado incluye la generalización.
La generalización propo rciona un mecanismo de abstracción que permite

especializa r una entidad, es decir, generar sub tipos de un supe rtipo. Por ejemplo,
una variac ión puede ser de tres ti pos: inserción, delec ión o indel. En un diagrama
En tidad-Relación estas relaciones quedarían representadas como:
VARIATION
~
·VARIATION_ID: int
....
V
"
~
INSERTION DELETION INDEL
Figura 5.2. Ejemplo de generalización
Junto con esta relació n de generalización aparecen las de tota lidad/

parcialidad y las de exclusividad/solapamiento. Una relación de generalizació n es
total cuando no existe ninguna entidad del supertipo y no pertenece a a lguno de los
subtipos; en caso contrario, se d ice que la general ización es pa rc ial. Por otra parte, la
generalización será exclusiva si una entidad perienece única mente a un subtipo. En
e l caso de las vari ac iones, se trata de una generalización total y exclus iva: todas las
variaciones son una inserción, o una deleción o un indel.
Una vez que se dispone del diagrama Entidad-Re lación, el paso siguiente
es transformar este modelo conceptual a un mode lo relaciona l, es decir, obtener las
tablas de la base de datos que co nte ndrán la info rmac ión que queremos almacena r.
Las tres reglas básicas que debemos seguir son:
r Una entidad se transforma en una tabla cuya clave primaria es el

identificador de la entidad.
r La relaciones N :M se transforman en una tabla con una clave primaria

fo rmada por los identificadores de las entidades que relacionan.
r Las relac iones 1:N dan lugar o bien a una propagación de la clave o bien
a una tabla.
A la hora de decidir si se propaga o no la clave, conviene hacer un

esfuerzo en prever qué es lo que ocurrirá con la relación en el
futuro . Si se cree posible que evolucione a una relación N:M,
resulta recomendable transformar la relación 1:N en una tabla.
Si aplicamos estas reglas, obtenemos e l esquema de tablas de la Figura 5.3:
SEQUENCE PROTEIN
PK SEQ.UENCE ID PK PROTEI N ID
PROTEIN_ CLASS_NAME
SEQU ENCE_ANNOTATION
SEQUENCE_LENGTH
~ OATE_CREATEO
ACCESSION_NUMBER CREATEO_BY
SEQU ENCE_LOAO_OATE
PROTEIN_INFO
PROTEIN_SEQUENCE PK,FKl PROTWI ID

PK PROTEIN INFO ID
PK PROTEIN ID
K SEQ.UENCE ID PROTEIN_INFO_ TYPE_ COOE_IO
PROTEIN_INFO
OATE_CREATEO REFERENCE_URL
CREATEO_BY OATE_CREATEO
COMMENT CREA TE O_ BY
SPECIE
PK SPECIE ID PROTEIN_INFO_TYPE _CODE
SCIENTIFIC _NAME PK PROTEIN INFO TYPE CODE ID

COMMON _NAME
DATE_CREATEO
CREATEO_BY
.
~
PK,FKl
PROTEIN_SYNOMYM
FKl
CODE_OESC
COOE_ VERBOSE_OESC
PROTEIN_INFO_IO
PROTEIN ID
PK PROTEIN SYNONYM ID FKl PROTEIN_ID
SYNONYM
FK2 SPECIE_ ID
DATE_CREATED
CREATED_BY
Figura 5.3. Ejemplo de esquema de tablas

5_2 DISEÑO XML
Un documento XML(eXtended Markup Lcmguage) es un documento de texto

plano en el que pueden encontrarse etiquetas delimitadas por los signos de meno r y
mayor y que pueden anidarse entre sí. Algunas de estas etiquetas (o, más propiamente
dicho, elementos) tienen atributos con va lores especificados entrecom illas.
La Figu ra 5.4 muestra un ejemplo de documento XML que sería vá lido para
el modelo de datos de la base de datos biológica del ejemplo.
<proteins>
<protein created=" OS/09/2014 " createdBy=" darolmar " >
<specie value= " Homo sapiens" />
<sequences>
<sequence load_ date= " 27/ll/2003" >
<annotation>Anotación de ejemplo</annotation>
<length>S</length>
<accession>P . 150308 . 1</accession>
</sequence>
<sequence load_date= " Ol/12/2003" >
<annotation> notación de ejemplo 2</annotation>
< l ength>S</length>
<accession>P . 150308 . 5</accession>
</sequence>
</sequences>
<infos>
<info created=" l3/04/1976 " author= " darolmar" >
<type>2</type>
<value>Información sobre la proteína</value>
<url>http : //mi . host . es/protein?id=l50508
</info>
<infos>
</protein>
</proteins>
Figura 5.4. Estructura de un documento XML
Si, durante el diseño XML, se duda entre incluir una determinada

información como un elemento o como un atributo, generalmente
se prefiere uti lizar los atributos cuando la información es breve y
L-~~J sencilla, mientras que cuando la estructura de la información es
más compleja, resulta recomendable recurrir a un elemento.
Un documento XML debe estar siempre bien formado, pa ra lo que es

requisito imprescindible que cumpla los siguientes requisitos:
r Estructura jerárquica de elementos: los documentos XML deben seguir

una estructura estrictamente jerárquica respecto a las etiquetas que
delimitan sus elementos:
• Una etiqueta debe esta r co rrectamente incluida en otra.
• Los elementos con contenido deben esta r correctamente cerrados. A
diferenc ia de lo que ocurre en HTML, en XML a cada etiqueta se le
asocia otra etiqueta de cierre.
r Etiquetas vacías: los elementos sin co ntenido se especifican de la forma

<elemento sin contenido/> .
r Un solo elemento raíz: en un documento XML únicamente debe existir
un elemento inicial.
r Delimitación de los valo res de atributos: los valores de los atrib utos
s iempre van encerrados entre comillas.
r Tipo de letras: XML es sensible a las mayúsculas y las minúsculas.
Además, para una determinada aplicación, el documento será válido

si es posible comprobar que cump le con las reglas semánticas recogidas en otro
documento: un OTO o un XMLSchema.
Un OTO (Document Type Definilion) es un documento con una sintaxis

especial que se emplea para va lidar e interpretar el contenido de un documento
XML. En la Figura 5.5 podemos ver un posible OTO para el ejemplo que nos ocupa:
< ! DOCTYPE proteins [

<!ELEMENT (proteins)*>
<!ELEMENT protein (specie , sequences , infos)>
<!ATTLIST protein created CDATA>
<!ATTLIST protein createdBy CDATA>
<!ELEMENT specie EMPTY>
<!ATTLIST specie load_data CDATA>
<!ELEMENT sequences (sequence)*>
<!ELEMENT sequence (annotation , length , accession)>
<!ATTLIST sequence load_date CDATA>
<!ELEMENT annotation (#PCDATA)>
<!ELEMENT length (#PCDATA)>
<!ELEMENT accession (§PCDATA)>
<!ELEMENT infos (info)*>
<!ELEMENT info (type , value , url)>
<!ATTLIST info created CDATA>
<!ATTLIST info author CDATA>

<!ELEMENT type (#PCDATA)>
<!ELEMENT value ( IPCDATA ) >
<!ELEMENT url (iPCDATA)>
1>
Figura 5.5. OTO de ejemplo
En la defi nición del elemento, los valores entre paréntesis significa n Jo

s iguiente (ve r Tabla 5.1):
Pro te in Exactamente un elemento protein

Protein? Ninguno o un elemento protein
Protein+ Uno o más elementos protcin
Protein• Ninguno, uno o más e lementos protein
Tabla 5.1. Indicadores de card inalidad
Además, entre paréntesis se indica e l contenido posible de un elemento :
spec1e, seque nces Tiene un elemento specie y a continuación un elemento sequences

sequences 1infos Tiene un elemento sequences o un elemento infos
Tabla 5.2. Contenido de un elemento
Y, finalmente, se especifican los atributos para cada uno de los e lementos,

para Jo que se utiliza la expres ión:
< !ATTLIST elemento atributo tipo modo>
donde:
Elemento Es el nombre del e lemento al que pertenece e l atributo
Atributo Es el nombre del atributo
Tipo Es el tipo del atributo, que puede ser:
CDATA: cadena de caracteres
(vall J .. . ) val N): tipo enumerado
Modo Modos de actuar:
# REQU lR ED: obligatorio
# lMPLIED: opcional
"valor"': valor por defecto (opcional)
# FlXED "valor": si el atributo aparece, tendrá obl igatoriamente el valor ·'va lor"
Tabla 5.3. Definición de un atributo

El DTD es opcional y solo se debe utilizar si la aplicación exige la

validación del documento. Si únicamente es necesario que esté
formado, puede ser recomendable no utilizar DTD, por ejemplo,
L-~~J porque se esté trabajando con un conjunto pequeño de documentos
XML.
Como hemos visto, un DTD tiene una sintaxis muy farragosa, sobre todo
cua ndo la estructura del documento XML se complica. Además, ti ene e l inconveniente
de que es necesario aprender un idioma distinto de l XML.
Para resolver estos inconvenientes se pensó en definir la estructura de la

información de un documento XML y sus reglas de validación en otro documento
XML, el XMLSchema.
La Figura 5.6 muestra el XMLSchema equi va lente al DTD anterior. En

la Bibliografia se encontrará un estudio detallado de cómo definir documentos
XMLSchema, aquí únicamente nos interesa llamar la atención sobre la senci llez de
compresión de esta alternativa, si se la compara con el DTD.
<?xml version= " l . O" ?>

<xs : schema xmlns : xs= " http : //www . w3 . org/2001/XMLSchema"
targetNamespace= " http : //www . mibiosoftware . es "
xmlns ='' www . mibiosoftware . es ''
elementFormDefault=" qualified " >
<xs : element name= " proteins " type= " TipoListaProteinas" />
<xs : complexType name= " TipoListaProteinas " >
<xs : sequence>
<x s :element nameo '' protein'' typec ''TipoProteina''
ma xOccurs=" unbounded " />
</xs : sequence>
</xs : complexType>
<xs : complexType name= " TipoProteina" >
<xs : sequence>
<x s : element name= " specie" type= " TipoSpecie" maxOccurs= " l " />
<xs : element name= " sequences" type= " TipoListaSecuencias"
maxOccurs= " l " />
<xs : element name= " infos " type="TipoListainfo"
ma xOccurs="l "/>
</xs : sequence>
<xs : attribute name= " created" type= "xs : date " />
<xs : attribute name= " createdBy" type• " xs : string" />

</ x s : complexType>
<xs : complexType name= "x s : string" >
<xs : attribute name= " va l ue • type= " x s : string" />
</xs : complexType>
<x s : comple xType name= " TipoListaSecuencias " >
<xs : seque nce>
<xs : element name= " sequence • type= " TipoSecuencia"
maxOccurs=" unbounded " />
</xs : sequence>
</ xs : comple x Type>
<x s : complexType name= " TipoSecuencia" >
<xs : sequence>
<xs : element name= " annotat i on • type= " xs : string• maxOccurs= " l " />
<xs : element name= " length " type= " xs : positiveinteger•
max Occurs="l " />
<xs : element name= " access i on • type="xs : string • maxOccurs="l " />
</ x s : sequence>
<xs : attribute name= " load_ date " type= " xs : date " />
</xs : complexType>
<x s : comple x Type name= " TipoL i stainfo" >
<xs : seque nce>
<xs :element name= '' info '' type= "Tipo!nfo"
maxOccurs="unbounded " />
</xs : sequence>
</ xs : comple x Type>
<xs : complexType name= " Tipoinfo " >
<xs : seque nce>
<xs : element name= " type • type= " xs : postiveinteger•
maxOccurs=" l "/>
<xs :element name=''va l ue " type=''xs : string'' maxOccurs='' l '' />
<xs : element name= " url " type= " xs : string• maxOccurs= " l " />
</ x s : sequence>
<xs : a ttrib ute name= " created" type= " xs : date " />
<xs :attribute name="author" type= "xs :date"/>
</ x s : comple x Type>
</ xs : schema>
Figura 5.6. Ejemplo anterior con XMLSchema

PRINCIPALES BASES DE, DATOS
GENOMICAS
Como ya se dijo al princ1p10 de este capítulo, existe una gran variedad

de bases de datos genóm icas. Queda fuera de l ámbito de este libro ofrecer una
descripción detallada de todas y cada una de las mismas, por lo que nos centraremos
únicamente en aquellas que vayan a emplearse en los casos prácticos propuestos a lo
largo de esta obra que, por otra parte, son las de uso más común.
6.1 GENBANK
GenBank es una colección pública de secuencias de nucleót idos anotadas

que incluye secuencias de ARNm con regiones codificantes, ADN genómico
correspondientes a uno o varios genes y ARN ribosómico.
La información contenida en GenBank se organiza en dos d ivisiones

o categorías cuyo objetivo es simplificar la búsqueda: en la primera división
(orgasnimal) se inc luyen bases de datos de secuencias derivadas de organismos
específicos; por su parte, bajo la categoría func ional (functional) se engloban bases
de datos de secuencias de distintos tipos. Cada registro de GenBank pertenece a una
única división. La Tabla 6. 1 y la Tabla 6.2 muestran la situación actual de las bases
de datos de secuencias, clasificadas por div isiones:
74 BIOINFORMATICA: El AONA UNSOLO CLIC ©RA-MA
Base de datos Di\'isión
BCT Secuencias de bacterias

PRI Secuencias de primates
ROO Secuencias de roedores
1 MAM Secuencias de otros mamíferos 1
1 VRT lf Secuencias de otros vertebrados 1

INV Secuencias de invertebrados d
PLN lf Secuencias de plantas y hongos ==¡
VRL Secuencias de vin•s
PHG 11 Secuencias de lagos
RNA Secuencias de ARN estructural
SYN 11 Secuencias sintéticas y quiméricas
UNA Secuencias sin anotar
Tabla 6.1. Bases de datos de la división de organismos
Base de datos Di\'isión
EST
STS Sitios STS
GSS Secuencias de encuestas de genomas
HTG Secuencias de alto rendimiento
Tabla 6.2. Bases de datos de la división funcional
Esta base de datos está orientada a almacenar datos primarios de secuencias.

Cuando se envía una nueva secuencia para su incorporación a GenBank, el NCBI
lleva a cabo un control de calidad básico y lo not ifica al remitente pero en ningún
caso se revisa y se contrasta la información: el responsable de la misma es el propio
remitente. De hecho, a pesar de que se insiste a los autores para que actua licen sus
regi stros con nuevos datos sobre las secuencias o sus anotaciones, lo cierto es que en
la práctica es habitual encontra r regi stros sin actualizar.
Al ser GenBank un archivo genómico e incluir todos los datos de secuenc ias
que se envían, es frecuente encontrar varias entradas distintas para un mismo loci.
Las diferencias en los envíos reflejan va riaciones genéticas entre individuos u
organismos y anal izar estas diferencias es una manera de identificar poli morfismos
de un solo nuc leótido.
©RA-MA Capitulo 6. PRINCIPALES BASES DE DATOS GENOMICAS 75
GenBank intercambia diariamente información con dos partners del TNSDC

(International N ucleotide Sequence Data base Collaboration): el EBI (European
Bioinformatics lnstitute) de EMBL (European Molecular Biology Laboratory) y el
banco de ADN del DDBJ (Data Bank of Japan). La mayoría de datos de secuencias
depositados en las bases de datos del TNSDC procede de laboratorios de generación
de secuencias, en parte porque muchas publicaciones exigen e l depósito previo con
el fin de que el accession se inc luya en e l artículo.
Si parte de una secuencia de nucleótidos de GenBank codifica una proteína,

se anota una traducción conceptual llamada secuencia o región de codificación
(CDS) y se le asigna un identificador o accession que caracterizará al registro que
se añade y se encuentra enlazado con un registro en la base de datos de proteínas del
NCBT o en la sección TrEMBL de la base de datos Uniprot.
6.1.1 Formato del registro
El formato de los registros de GenBank es uno de los más comú nmente

utilizados para describir información biológica, por lo que lo estudiaremos con cierto
nivel de detalle.
Un registro en GenBank contiene un fichero plano (GBFF, GenBank Flat

File) cuyo contenido se d ivide en tres par1es: cabecera, que contiene desc riptores
que se apl ican a todo el registro; características o anotaciones sobre e l registro; y, la
secuencia propiamente dicha. Al final de cada registro, encontra mos dos barras ' //'
que indica n e l final del fichero.
Para explicar cómo se estructura la información en un registro de GenBank,

utilizaremos e l siguiente ejemplo (ver F igura 6.1):
LOCUS va osos 1976 bp DNA linear PRI 14-NOV-2006

DEFINITION Human gene for delta-globin .
ACCESSION VOOSOS
VERSION VOOSOS . l GI : 30510
KEYWORDS delta globin ; germ line ; globin .
SOURCE Horno sapiens (human)
ORGANISM Horno sapiens
Eukaryota ; Metazoa ; Chordata ; Craniata ; vertebrata ;
Euteleostomi ;
Mammalia ; Eutheria ; Euarchontoglires; Primates ;
Haplorrhini ;
Catarrhini ; Hominidae; Horno .
76 BIOINFORMATICA: El AON AUN SOLO CLIC © RA-MA
REFERENCE 1 (bases 1 to 1976)

AUTHORS Spritz , R . A . , DeRiel , J . K. , Forget , B. G. and Weissman , S . M.
TITLE Complete nucleotide sequence of the human delta-globin
gene
JOURNAL Cell 21 (3) , 639-646 (1980)
PUBMED 7438204
COMMENT KST HSA . DELGLOBIN .
FEATURES Location/Qualifiers
so urce 1. . 1976
/organism= "Homo sapiens "
/mol_type= " genomic DNA"
/db xref= " taxon : 9606 "
prim_transcript 123 .. 1763
exon 123 . . 265
/number=l
CDS join(173 . . 265 , 394 .. 615 , 1505 . . 1633)
/codon start=1
/product= " delta globin "
/protein_id= " CAA23763 . 1 "
/db xref= " GI : 30511 "
/db xref="GDB : 119298"
/db xref= " GOA : P02042 "
/db xref="HGNC : 4829"
/db xref= " InterPro : IPR000971 "
/db xref="InterPro : IPR009050 "
/db xref="PDB : 1SHR"
/db xref= " PDB : 1SI4"
/db xref= " Unil'rotKB/Swiss-Prot : P02042 "
/ t r an s la t ion= " MVHLT l'EEKTAVNALWGKVNVDAVGGEALGRLLVVY l'~ITQRFFE
SFGOLSSl'DAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFSQLSELHCDKLHVDl'E
NFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH "
intron 266 .. 393
/number=1
exon 394 . . 615
/number=2
intron 616 .. 1504
/number=3
exon 1505 .. 1763
/number=3
ORIGIN
1 aatgaaggtt catttttcat tctcacaaac taatgaaacc ctgcttatct
taaaccaacc
61 tgctcactgg agcagggagg acaggaccag cataaaaggc agggcagagt

cgactgt t gc
121 ttacactttc ttctgacata acagtgttca ctagcaacct caaacagaca
ccatggtgca
181 tctgactcct gaggagaaga ctgctgtcaa tgccctgtgg ggcaaagtga
acgtggatgc
241 agttggtggt gaggccctgg gcaggttggt atcaaggtta taagagaggc
tcaaggaggc
301 aaatggaaac tgggcatgtg tagacagaga agactcttgg gtttctgata
ggcactgact
361 ctctgtccct tgggctgttt tcctaccctc agattactgg tggtctaccc
ttggacccag
421 aggttctttg agtcctttgg ggatctgtcc tctcctgatg ctgttatggg
caaccctaag
481 gtgaaggctc atggcaagaa ggtgctaggt gcctttagtg atggcctggc
tcacctggac
541 aacc t caagg gcactttttc tcagctgagt gagctgcact gtgacaagct
gcacgtggat
601 cctgagaact tcagggtgag tccaggagat gcttcacttt tctcttttta
ctttctaatc
661 ttacattttg gttcttttac ctacctgctc ttctcccaca tttttgtcat
tttactatat
721 tttatcattt aatgcttcta aaattttgtt atttttttat ttaaaaattc
tgcatttttt
781 ccttcctcac aatcttgcta ctctaaatta tttaatatcc tgtctttctc
tcccaacccc
841 ctcccttcat ttttccttct ctaacaacaa ctcaaattat gcataccagc
tctcacctgc
901 taatttcgca cttagaataa tccttttgtc tctccacatg ggtatgggag
aggctccaac
961 tcaaagatga gaggcataga atactgtttt agaggctata aatcatttta
caataaggaa
1021 taattggaat tttataaatt ctgtagtaaa tggaatggaa aggaaagtga
atatttgatt
1081 atgaaagact aggcagttac actggaggtg gggcagaagt cgttgctagg
agacagccca
1141 tca t cacact gatttatcaa ttcaatttgt atctattaat ctgt tta t ag
taattaattt
1201 gtatatgcta tatacacata caaaattaaa actaatttgg aattaatttg
tatatagtat
1261 tatacagcat atatgtacat atatagacta catgctagtt aagtacatag
aggatgtgtg
1321 tgtatagata tatgttatat gtatgcattc atatatgtac ttatttatgc
tgatgggaat
1381 aacctgggga tcagttttgt ctaagatttg ggcagaaaaa aatgggtgtt
ggctcagttc
14 41 tcagaagcca gtctttattt ctctgttaac catatgcatg tatctgccta
cctcttctcc
1501 gcagctcttg ggcaatgtgc tggtgtgtgt gctggcccgc aactttggca
aggaattcac
1561 cccacaaatg caggctgcct atcagaaggt ggtggctggt gtggctaatg
c c t t ggc t ca
1621 caagtaccat tgagatcctg gactgtttcc tgataaccat aagaagaccc
tatttcccta
1681 gat t ctattt tctgaacttg ggaacacaat gcctacttca agggtatggc
ttctgcctaa
1741 taaagaa t gt t cagctcaac ttcctgatta atttcactta tttcat tt tt
ttgtccaggt
1801 gtgtaagaag gttcctgagg ctctacagat agggagcact tctttatttt
acaaagagta
1861 catgggaaaa gagaaaagca agggaaccgt acaaggcatt aatgggtgac
act t ctacct
1921 ccaaagagca gaaattatca agaactcttg atacaaagat aatactggca
ctgcag
1/
Figura 6.1. Ejemplo de registro GenBank
6.1.2 Cabecera
Esta parte del registro es específica de la base de datos. Las diferentes bases
de datos existentes en GenBank no están obligadas a incluir la misma informac ión
en este segmento de l registro , sino que ex isten algu nas peq ueñas variac iones a pesar
de que se procura que todas ellas co ntengan la misma informació n.
La primera línea de la cabecera es el LOCUS:
LOCUS V00505 1 976 bp DNA l inear PRI 14 - NOV - 2006
En primer luga r, encontra mos e l nombre del locus, que es único en toda la
base de datos y que identifica al registro dentro de la misma. El nombre de l locus
recibe el nombre de identificador de acceso o accessionid y se trata de un campo
a lfanumérico con todas las letras mayúsculas. En este caso, se trata de la secuencia
V00505.
En muchas de las herram ientas que vere mos a lo largo de l libro,

podremos trabajardirectamentecon la secuencia o bien referenc iarla
por su accession.
El segundo elemento es la longitud de la secuencia, que está comprendida

entre l y 350000 bp (pa res de bases) po r registro. La secuencia VOOSOS está
compuesta por 1976 bases.
A continuación, encontramos e l tipo de molécu la que podrá ser DNA, RNA,

tRNA, rRNA, mRNA o uRNA.
El cuarto elemento de la línea de LOCUS indica la estructura de la mo lécula

{linear o circular) mientras que el quinto es un campo de tres letras que establece el
tipo de división (ver Tabla 1.2 y Tabla 1.3). F ina lmente, se encuentra la fecha en que
publicó la últ ima actua lizació n de la secuencia.
Resumiendo, según el contenido de la línea LOCUS podemos afirmar que la

secuencia VOOSOS pertenece a un primate, que se trata de una secuencia de ADN de
estructura lineal actua lizada por últ ima vez el 14 de noviemb re de 2006.
La sigu iente línea de la cabecera es la de defin ició n, cuyo propósito es

resumir la información biológica que contiene el regi stro.
DEFINITION Human gene for delta-globin .
El accession , en la tercera línea de la cabecera, constituye la clave primaria

por la que se referencia al reg istro en la base de datos. Todos los reg istros tienen una
única lí nea accession:
ACCESSION V00505
No obstante, es cierto que en algunos es posible encontrar más de un

accession. Si este es el caso, habrá un accession primario y e l resto serán secundarios.
El significado de estos ú ltimos ha ido cambiando a lo largo de los años.
80 BIOINFORMATICA: El AONAUNSOLO CLIC ©RA-MA
Tras e l accession, aparece la línea de vers ión que, como su nombre indica,
ofrece información sobre la versión de la secuencia junto con un identificador del
gen (gi, geninfo identifier). Estos identificadores se asocian a una secuencia de
nucleótidos única. Si cambia la secuencia, se incrementa el número de versión en
una unidad y e l gi también se mod ifica rá.
Es posible añadir palabras clave al registro. Sin embargo, puesto que

tradicionalmente ha sido un campo de texto libre sobre el que no se ha llevado
ningún tipo de control, el NCBI desaconseja su utilización, a pesar de que la incluye
si aparece en la petición de creación de un nuevo registro.
KEYWORDS delta globin ; germ line ; globin .
La línea de fuente contiene el nomb re común o científico del organismo al

que pertenece la secuencia. En la actualidad, el NCBI está hac iendo un esfuerzo
para obtener esta info rmac ión taxonómica directamente desde las bases de datos
correspondientes.
SOURCE Homo sapiens (human)

ORGANISM Homo sapiens
Eukaryota ; Metazoa ; Chordata ; Craniata ; Vertebrata ;
Euteleostomi ;
Mammalia ; Eutheria ; Euarchontoglires; Primates ;
Haplorrhini ;
Catarrhini ; Hominidae ; Homo .
Por otra parte, cada reg istro de GenBank puede tener una o más referenc ias
o citas:
REFERENCE 1 (bases 1 to 1976)

AUTHORS Spritz , R . A ., DeRie l, J . K., Forget, B. G . and weissman , S . M.
TITLE Complete nucleotide sequence of the human delta - globin
gene
JOURNAL Cell 2 1 (3) , 639- 646 (1980)
PUBMED 7438204
Finalmente, la última línea de la cabecera es la línea de comentarios en la

que se incluye info rmación variada (descriptores).

6.1.3 Sección de características
La tab la de características es la representac ión de la info rmac ión biológica

más im portante contenida en el registro de GenBank y hace referencia a anotac iones
sobre una parte de la secuencia, mientras que las anotaciones sobre la secuencia
completa reciben e l nombre de descriptores.
Se puede obtener una lista completa de las características íncluídas

en un registro de GenBank, así como de la información asociada a
las mismas en jip:/lfip.ncbi.nih.gov/genbank/gbrel. txt.
La característica SO URCE es la única que está presente en todos los registros

de GenBank. Todas las características tienen una serie de calificadores permitidos,
a lgunos de los cuales son obligatorios (como l organism para SO URCE).
so urce l . . 1976
/organism= "Homo sapiens "
/mol_type= " genomic DNA"
/db xref= • taxon : 9606 •
prim_tra n script 123 .. 1763
exon 123 .. 265
/number=1
Otra de las características significativas es la ca racterística CDS, que

contiene las instrucciones de obtención de una secuencia siguiendo las coordenadas
que se indican en el rango. Es posible que haya que unir varias secuencias, en cuyo
caso, se utiliza la palabra clavejoin.
CDS join(173 .. 265 , 39 4 . . 615 , 1505 .. 1633)

/codon start=1
/product= • ctelta globin "
/db xref= " GI : 30511"
/db xref= " GDB : ll9298 "
/db xref= " GOA : P02042 "
/db xref= " HGNC : 4829"
/db x ref= " InterPro : IPR000971 "
/db xref= · rnterPro : IPR002337 •
/db x ref• " InterPro : IPR012292 "

/db xref= " PDB : lSHR"
/db xref• " PDB : l$!4 "
/db xref= " UniProtKB/Swiss - Prot : P02042 "
/translation= " MVHLTPEEKTAVNALWGKVNVDAVGGEALGRLL
VVYPWTQRFFESFGDLSSPDAVMGNPKVKAHGKKVLGAFSDGLAHLD
NLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQM
QAAYQKVVAGVANALAHKYH "
Este ejemplo tamb ién muestra el uso de referencias cruzadas con otras bases
de datos (calificador ldb_xrej). El contenido de este calificador se divide en dos partes:
la primera se refiere a la base de datos con la que se cruza la referencia mientras que
la segunda, que está separada de la primera por dos puntos, es el identificador de la
secuencia en dicha base de datos.
6.1.4 Sección ORIGIN
La sección ORIGIN contiene la secuencia de bases en filas de 60 bases

agrupadas en columnas de 1O nucleótidos y precedidas de un número que ind ica
la posición, dentro de l tota l de nucleótidos, que ocupa la prim era base de la línea
correspondiente . De esta manera, resulta más sencillo local izar un fragmento de la
secuencia para, por ejemplo, averiguar la secuencia de una CDS.
El contenido de esta sección incluye números y letras y no puede

utilizarse directamente en las herramientas de análisis de
secuencias. En su lugar, hay que obtener la secuencia en cuestión
.___.;...,;....::'-' en formato FASTA, lo que puede conseguirse fác ilmente
seleccionando esta opción del menú desplegable.
6.2 REFSEQ
La base de datos RefSeq (Reference Sequence) es una base de datos

secundaria y revisada de secuenc ias de ADN, ARN y proteínas construida por el
NCBI. A diferencia de GenBank, RefSeq contiene un único registro por cada
molécula biológica para los organismos más importantes, desde los virus hasta
bacterias y eucariotas, de los que se tiene suficiente información.
Para cada modelo de organismo, RefSeq intenta proporcionar una serie de

registros sepa rados y enlazados en tre sí. El forma to de un registro de RefSeq es
s imi lar al del GenBank excepto porque en RefSeq el accessíon inc lu ye un subrayado
y en el ca mpo COMMENT se especifica e l estado de l reg istro de RefSeq (ver Tabla
6.3).
Código Descripción
M O DEL El registro ha sido proporcionado por el pipeline de anotación de gcnomas del

NCBI y no es una revisión entre ejecuciones
INFERRED El registro es una predicción obtenida del análisis del gcnoma, pero no hay
ni nguna evidencia empírica
PREDICTED El registro todavía no se ha revisado, aunque algunos aspectos se han pred ic ho
PROV ISIONAL El registro todavía no se ha revisado
REV IEWED El registro ha sido revisado por el persona l del NCBI o a lgún colaborador.
Algunos registros pueden incluir anotaciones
VALIDATED El registro ha pasado con éxito la revisión inicial pero está pendiente de una
revisión fina l en la que es posible incluir inlormación funcional
WG S El registro representa un genoma comp leto y está pendiente de una revisión
individual o de revisiones e ntre actualizaciones del genoma.
Tabla 6.3. Códigos de estado de un registro de RefSeQ
La Tabla 6.4 resume las princ ipales diferencias entre ReqSeq y GenBan k:
GcnBank RcfScq
No es curada Curada
El autor envla las secuencias Es el NCBI quien genera los registros a partir
de datos existentes
Sola mente el autor puede revisar las secuenc ias El NCBI revisa la infom1ación a medida que se
que envía va generando
Es posible e ncontrar varios registros para el Un único registro para cada molécula de Jos
. .
mismo Joci organ1 smos supenores
Probabilidad d e encontra r regis tros con
información contradictoria
No hay lím ite e n las especies incluidas Limitado a organismos modelo
Datos intercambiados con los m ie mbros del Información obtenida únicamente de las bases 1
INSDC de d atos del NCB 1 1
En laces a las proteí nas identificadas Enlaces a las proteínas y a los tránscritos
identificados
Tabla 6.4. Comparación entre RefSeq y GenBank

6.3 UNIPROT
UniProt (Universal Protein Resource) es una base de datos de secuencias de

proteínas que se formó como resultado de la un ificación de otras tres bases de datos:
Swiss-prot (proteínas mejor anotadas por expertos), TrEMBL (p roteínas que no
están en Swiss-Prot encontradas auto máticamente) y PIR-PSD (p roteínas anotadas
por expertos).
6.4 PDB
Protein Data Bank (PDB, http://www.rcsb.org/pdblhome/home.do) es

un repositorio de información sobre proteínas y otras macromoléculas biológicas
importantes. Contiene información sobre su estructura 30 obtenida por cristalografía
de rayos X y RMN .
" •Ut•~" "*' ,.. t:PDB

An lrol(lfi!OO!tion ~ol io 0~0(.,. M.cromolcw&$r Structu~.,_
I L' IO.UB.l
"'d T~J•I 01.1014 411 Sf'Hf>OT IJ~e.)tt l013'91 ~~ ro.Swchtlu ~ 11 0 llill
·-·-·-
...~ ....
Biological Macromolecular Resource
fllll~.r.tlooo Latest release:
April 2014
1 Q_
1
---·
AHt>~ 00 ~ Ol'l
~ l.oogk P·''i MOIIoc:lll•of t... MO....
; ~· 101
~,,.......,¡v ... J~
.......
..lero(uboiCS
Nouablbo.h!l *'•'""
d'>e<'ot*'""· _........., ~ .-d ~ l.l«b IOilt'oe --ol
t!ltht~tn J thot ,,., lhtv ~e htol!. ....-<1~· ~ l:t>."ff nt<'t>d tt..GUGt>
h•OtiP•UdOI«~
.-en. booc-.on .ond dmem. The,.. m<lllon I>UI m...., !we• ol ...,.ao lh<ou;h thoe cel. t..._.,g
ft~,....,. ~lO .............~. fheVai'WIIIM 11 ~ ock .,the: "'«oe» d <d
1
-·--
tt.:l_.. ..
~ ·c•o.c.o
~ Jolooo6,
t.e~10,... lile ~o<•.-...:c:
6.~>oon. xo..t.otO!I,I tl\e <!t.ok.otel cht-~, do I'Ooo cbuohl'<~' celo.
·-tYQ<•IIIt
.......
.... l
---
q.lct¡ , _.. SW~tlt
Pl'(lll.,;" S.rv<t• r• 111111.\ot~ r~t..., $/J'-t-

ONA.IAl ;an d P;tnu~tk C<Jn<er
NtOIC.lll'ftt~ 11$ ~ Oft ;,ti tN:e....-. IV'( N)t lle"" UI'OtU tot ~ vt~~ llle
d'oaf~ e l9fr4etot(n~tNIC ~ó'lcn!"CC'tn~('r «1,_ IJOth«thcv~b~ WOC'tt4-
wcn ~ttoruos .,..,.... a~~o ~ e~ Jn co~•cMoo<n ~'O"oottt ~ l'3f'lta)
$11'\c:f'l• ~~·'tt'lilv ( 1 ~$),.), PSI t~tn. Nu,.c.; ~Jt b«n ~ ,a orott-ro,
OHAJ',t. C'l:ll ~ b CI MI é«tJoe W!)(lf 101' .. ~1'1\' ~ tOfl!l 01 <.:r~Ctt ~;w'(l'(l3!:<
Figura 6.2. Página principal de POB

A través del portal web de PDB, podemos encontrar la siguiente información:
11"' Ficheros en formato PDB: básicamente, un fichero PDB es una serie de

coordenadas de mo léculas bio lógicas que, en conjunto, representan la
estructu ra de las mismas. Este formato de fichero se describirá co n mayor
nivel de detalle en epígrafes posteriores.
11"' Visualización de estructuras: además de los ficheros en fo rmato PDB,

también es posible encontrar herramientas que perm itan la navegación y
la visua li zación de la info rmación contenida en dichos ficheros.
Cualquier herramienta software que lea ficheros PDB debe ser

capaz de reconstruir los enlaces químicos basándose en una serie
de reglas (por ejemplo, que un enlace está formado por dos puntos
.___:....;__..:..J separados en e l espacio real por 1,S A). Sin embargo, se trata de
convenciones de cum plimiento no obligatorio, por lo que el programador tiene

libertad para elegir y, por tanto, la misma molécula puede presentar un aspecto
diferente en herramientas distintas.
6-4.1 Formato del registro
Todos los ficheros PDB son ficheros de texto, de extensión variable, cuyas
líneas constan de 80 caracteres, de los cuales los 6 primeros co rresponden a l nombre
del registro. Cada línea puede contener un tipo de regis tro diferente y cada tipo de
registro se caracteriza por un descriptor de la información contenida en el mismo y
se divide en los campos Overview, Record Formal, Details, Veri.ficmion/ Va/idation/
Vahte Authority Control, Re/ationship lo other record typ es, Examples y Known
Problems. Las columnas que no se utilicen, se dejan en blanco.
6-4.2 Tipos de registros
Los registros se agrupan en categorías basándose en la frecuencia de

aparición de l tipo de registro en una entrada PDB dada.
La primera de las categorías es la de aparición única en una sola línea (OTSL,

One Time, Single Line). Las líneas correspond ientes a estos registros solamente
apa recen una vez en todo el fic hero y son las de la Tabla 6.5.
Registro Descrip ción

CRYSTI Parámetros de celda-unidad, z
END Último registro del fichero
HEADER Primera línea del fichero que contiene el código del identificador PDB ID, la
clasificación y la fecha de depósito 1
NUMMDL Número de modelos
MASTER Registro de control para la búsqueda automática y funciones de biblioteca -
-
ORIGXn Transformación de coordenadas ortogona les a las coordenadas actuales
(n= 1,2,or3)
SCALEn Transformación de coordenadas ortogonales a las coordenadas cristalográficas
(n=l,2,or3)
Tabla 6.5. Tipos de registro OTSL
Otra de las categorías es la de los registros que apa recen una vez en todo el
fichero pero que, a diferenc ia de los registros OTSL, ocupan varias líneas del fichero.
Son los registros OTML (One Time, Multiple Lines).
Tipo de r egistro Descri pción

AUTHOR Lista de personas que han contribuido a su edición
CAVEAT Indicador de error severo
COMPND
EX PDTA Técnicas experimenta les empleadas para la determinación de la estructura
MDLTYP Anotaciones adicionales correspondientes a las coordenadas indicadas en
el re istro
KEYWDS Lista de palabras clave que describen la macromolécula
OBSLTE El registro ha sido elim inado porque se ha reemplazado otro cuyo ID se
indica aquí
SOURCE Fuente biológica de la macromolécula
SPLJT Lista de las entradas PDB que componen una molécula compleja
SPRSDE Lista de identilícadores de versiones anteriores y la últ ima (aparece en
primer lugar) con su fecha
TITLE Descripción del experimen to representado en esta entrada
Tabla 6.6. Registros de tipo OTML

La tercera de las categorías son los registros MTOL (Mulliple Tim es , One
Line). Se trata de registros que aparecen va ri as veces en el fichero, a menudo en
grupos donde la información no está relacionada desde el punto de vista lógico pero
que, por alguna razón, se presenta junta.
Tipo de registro Descripción
AN ISO U ll_Factores de temperatura anisotrópica

ATOM Coordenadas atómicas de grupos estándar
CISPEP UIdentificación de residuos de J.>éQtidos en conformación CIS
CONECT Registros de conectiv idad
1 DBREF lf Referencia de la entrada en la base de datos de secuencias
HELIX Identificación de la subestructu.r a hel icoidal
LHET lLIdentificación de grupos o restos no estándar
HETATM Coorde nadas atómicas de grupos heterogéneos
LINK Identificación de enlaces entre residuos
M ODRES Identificación de modificaciones en residuos estándar
MTRIXn Transformaciones que expresan simetría no cristalográfica (n = 1, 2, or 3)
Fecha de la revisión e información relacionada
Identificación de conflictos entre PDB y la base de datos de secuencias
SHEET Identificac ión de subestructura lámina b
SS BOND Identificación de uentes disulfuro
Tabla 6.7. Registros de tipo MTSL
Por otra parte, encontramos los registros con múltiples ocurrencias y que
ocupan va rias líneas de l fichero (MTML, Multiple Time, Multiple Line).

FORMUL ILJórmula química de grupos no estándar
HETNAM Coordenadas atómicas de grupos heterogéneos
HETSYN lb,Sinónimos de grupos heterogéneos
SEQRES Secuencia primaria de los residuos que forma n la macromolécu la
[ SITE 11 Identificación de grupos que forman sitios importantes
Tabla 6.8. Registros de tipo MTML

Así mismo, es posible encontrar tamb ién grupos de registros (ver Tabla 6.9).
Los registros ENDMDL y MODEL agrupan registros de tipo ATOM, HETATM,
ANlSOU y TER.
Tipo de reg is tro DescripciiÍn
ENDMDL Registro de fin de modelo para estructuras múltiples en una única

coordenada de registro
M O DEL Especificación del número de modelo para estructuras múltiples en una

ion ica coordenada de registro
TER Terminador de cadena
Tabla 6.9. Registros de tipo agrupación
Finalmente, encontramos otros tipos de registros que no pueden clasificarse

en ninguno de los grupos anteriores y que presenta n una estructura muy particular
(ver Tabla 6.10).
JRNL Cita que define el conjunto de coordenadas
REMAR K Apuntes generales, estructurados en formato libre
Tabla 6.1 O. Otros tipos de registros
6.4.3 Estructura del fichero
En un fichero PDB es muy importante e l orden en que aparecen los registros

y la sección en que aparecen . La Tabla 6. 11 resu me esta información:
Sección Descrip ciiÍ n T ipos de registro
Tille Resumen y apuntes descriptivos IIEADER, OBSLTE,

TITLE, SPLIT, CAVEAT,
COMPND, SOURCE,
KEYWDS,EXPDTA,
NUMMDL, MDLTYP,
AUTHOR, REVDAT,
SPRSDE, JRNL
Remark Comentarios sobre las REMARKs 0-999

anotaciones de la entrada que
se ha considerado importante
indicar con mayor nivel de
detalle que en un registro
estándar
Primary s tructure Secuencia de péptidos o DBREF, SEQADV, SEQRES

nuclcótidos y su relación MODRES
con la secuencia PDB y la
encontrada en la base de datos
de secuencias
Heterogen
- Descripción de grupos no HET, HETNAM, HETSYN,
estándar FORMUL
Secondary structure Descripción de la estructura IIELIX, SHEET

secundaria
Connectivity Anotación de la conectividad SSBOND, LINK, CISPEP

química
M iscellaneous Características dentro de las de SI TE
Crysta llographíc
la macromolécula
Descripción de la celda
. .
cnstalografíca
--
CRYSTI
1
Coordinate transformation Operadores de transformación ORIGXn, SCALEn, MTR!Xn 1

de coordenadas
Coordinate Datos de coordenadas atómicas MODEL, ATOM , AN ISOU,
TER, HETATM, ENDMDL
Connectivity Resumen de conectividad CONECT
química
Bookkeeping Información de resumen MASTER, END
Tabla 6.11. Estructura de un fichero POB

6.5 OTRAS BASES DEDATOS GENÓMICAS
Son muchas y muy d iversas las bases de datos genómicas existentes. No

pretendemos, ni mucho menos, ofrecer un aná lisis ex haustivo pero sí dar al lector
una guía de las principales.
6.5.1 Bases de datos de secuencias de ADN
Estas bases de datos almacenan información sobre secuencias de ADN que se

han ido acumulando a lo largo de los años. Con el fin de garantizar la disponibilidad
pública de secuencias, hay revistas que exigen como requis ito previo a la publicación
de un artícu lo el haber depositado la secuencia en a lguna de las bases de datos que
c itaremos a contin uac ión.
Existen tres grandes proyectos a nivel mundial:
11"" DDBJ (http://www.ddbj.nig.acJp/): el DDBJ (DNA Data Bank ofJapan)

depende del Instituto Nacional de Genética (NIG, Nat ional lnstitute of
Genomics) y comenzó su andadura en 1986. Aunque el DDBJ rec ibe
datos, principalmente, de investigadores japoneses, acepta contribuciones
de otras nacionalidades.
t 0081Hlt01> o.ua......u. x -~-----------

<; D· T~'
."
:\\ A.SS 1 OOBJ S-ervicc
- 008 1 TWitl"
o-. ........
t Nl-' 07 ::u
..........................................................········ ..............................................................................................
' tQ\4 0 1 17 000).)Jol•o)1· ¡~~'AI
• 701-4 01 !<1 ~,0!4_.07,..~
• 7014.41 ! 4) POG10l4·0 l'411 ....,......,
Figura 6.3. Página principal de DDBJ

11"' NCBT-GenBank (http://www.ncbi.nlm.nih.govlgenbank/): es la base de

datos de secuencias de ADN anotadas y públicas de l NCBI. Se creó en
1982 por diversas organizaciones estadounidenses. Desde ento nces ha
ido creciendo a un ritmo vertiginoso, de hecho, se estima que su tamaño
se dupl ica cada 18 meses.
,~
+• •
·
-
...... •
........ ,..·-' • 11 ·
(WIIhoo • .._ • - o.- • W01 • 111(111 • (tl.()ll • -- • - • ~ • IIOIOt •
- · G - o•U
~ •. ... 11!1,..,.... 0011-.- ..- -..._ ".. ""'""--c.. .
• • p l'!U-HOI!~ ~ ........... ._d...,....$$
... Dii\~lfl ....... ~ ... (-~-........ t_.....,~
-"C'· 0)p!K
...W'>. .t ( d $u....-........
~ - I.QIII
' - - ·( -
-
""'*
)ofl!!Pt• !l !W)
00(_ ..., .. . _ _
....oc ".
"""~ ,..,..-llo ... c;M•--•o..fl"" "'" ___..'"'*...... ·--·--·"""- ·.~(ic:dltW,.,.I(lll
~ """'t.ltlll.l ....... _..~-·-"" •'<GS-... ~ .... -~
""'..,..,...~.~~-·-··~---
- n _...,..,. ,.,..,....,,_ uuo-c...e-
--e-, ....._. ____._,_...,._. - · - - - -
'*,.,,.,.
__ ....,.._ .................
,_..,.o.,.o..._ ats!........
~"'
- ..... . .) .., ~ '""' tiiClS! ~......,.._
. ~ .....,.-..
c . - dlf.$f ••IC:S8ww=091c<"'ll)
_...,~,..._. .,..,
- 1116n.dtw -~...
....
~ -t- ~- *'t tv<)l -
-""-llt.o\S'I-
__--
GH4M. DIIU \IU9o>
_.,_, __ ___
lht (lo<O_ _ , . . _ , . ... _ _ _ ..;..... .,o!O~ . . . . .- • .........,.. ... _ .. . ..... -
1'_,.... .,....
..
. . . ... .,... . .......,....._
-
_
-~
" ' '_ oO'At~~
" ' ...,""7 ~~.-..,
_ _ ...,.,..,_
~
_ _ _ _ .. -
..,..,
...._........ c.-e...
.,.._..,....... JI _.~_,~
.,.,110"'..,.,,...,,
(_ ·- -~· -·
IG••
~ -·-
...
._._
. -
_. ( _ N . . _WO:•-'-....l • O....~I- IOpoM>:_.t_ll...., .... ~.~.
Figura 6.4. Página principal de GenBank
11"' EMBL-EBT (http:llwww.ebi.ac.uk/emb//index.html): es un centro

europeo de investigación y servicios bioinfo rmáticos. Se constitu yó en
1974, aunq ue se desarro lló dura nte la década de los 80.
·- . .. ___ ......
·~--
............
··~
.._... ..
-··
--
_ ___..... __
.,_,
.._,..
_____
_ _ _ _...._,,_ ,_,_,_ _, _ _ _ _ _ _ ......,,_$ ••• · - - -
....... . .....- ..""" ~
----
, , ,.
- ·-
...., ""'""'.,.:y. ::e ..__:., -»U
.·__- .... t.:.u
,_ ...
·--
___
__ -
................ ............. _,_,.____..._,
"-'<'<''-'t. _
.._..... _
:~• ,
_.....,. .....
~-
Figura 6.5. Página pri ncipal de EMBL-EBI

Estas tres instituciones comparten información, de manera que integran los

datos de las investigaciones que tengan registradas y se s incronizan cada 24 horas.
6.5.2 Bases de datos de secuencias de ARN
Encontramos aquí dos bases de datos del NCBI. La prim era de ellas, Unigen
(http://www.ncbi.nlm.nih.gov/unigene), agrupa las secuencias almacenadas en
Ge nBank de manera que cada grupo (también llamado cluster) contenga únicamente
secuencias de un solo gen o gen putativo e información relacionada con el mismo.
Un gen putativo es un gen que origina lmente no se enco ntraba en

la secuencia de ADN sino que, debido a su ut il idad práctica, se ha
introduc ido por algún método artificial.
Los datos de U ni gen se generan computacionalmente a partir de la informac ión

almacenada en otras bases de datos del NCBI, identificando los tránscritos para el
mismo locus y analizando su expresión cuando sea posible.
e ID··-
Utlno UniGene
~
w.y.,....
'Rsn Ru!l Al<lwl! $<1
- .,. - ..c:... e.... .. ...._ .....~
Figura 6.6. Página principal de NCBI-UniGene

La otra base de datos es dbEST (hllp:l/www.ncbi.nlm.nih.gov/dbEST/index.

htmf). Se trata de una base de datos de EST (Expressed Sequence Tags) obtenida a
partir de la información almacenada en GenBank.
Exprcsscd Sequen ce Tags
• lnfonnttlon on""' cu"'"" '*'"
Figura 6.7. Página principal de dbEST
6.5.3 Bases de datos de secuencias de proteínas
Swiss-Prot (hllp://www.expasy.ch/cgi-bin/sprot-search-jitf) es una base de

datos curada manual mente que incluye referencias cruzadas en la que, a d iferencia
de otras, no existen reg istros dup licados.
El EBI d ispone de TrEMBL (hup://www.ebi.ac.uk/trembl/), que contiene

secuencias de proteínas que todavía no se ha n incluido en Swiss-Prot, con la que
mantiene un inte rca mbio de informació n constante.
Finalmente, encontramos la base de datos PIR (http://pil:georgetown.edu/),

manten ida en tre el MIPS (M unich lnfo rmat ion Centers fo r Protein Sequences) y el
JIP ID (Japanese International Protein Sequence Database). Almacena info rmac ión
sobre secuencias, anotaciones y alinea mientos.
6.5.4 Bases de datos de patrones y perfiles
Estas bases de datos a lmacenan información sobre estructuras secu ndarias

o dom inios.
r Pfam (http://p fam.xfam.org/) es un proyecto de EMBL-EBI. Se trata de

una base de datos de fami lias de proteínas con sus a li neamientos mú ltip les
de secuencia y sus modelos HMM (Hiden Markov Model.~) .
En general, las proteínas están co mpuestas de una o más regiones

funcio nales denom inadas dominios, de tal manera, que la
combinación de domin ios da luga r al amplio abanico de proteínas
L.......:'--'-"'-.....:...J presen tes en la naturaleza. La ident ificación de estos dominios
dentro de la estructu ra de la proteína constituye un indicio de la fu nció n de la
m1sma.
Dentro de PFAM existen dos componentes: PFAM-A, que son entradas

cu radas de alta calidad y que cubren un amp lio rango de la base de
datos de secuencias; y, PFAM-B, entradas generadas automáticamente
a partir de l procesado de la información contenida en la base de datos
ADDA (Automatic Domain Decomposition Algorithm), accesible en
http:1/ekh idna. biocen te1: helsinkijilsqgraph/pairsdblindex_html. Aunque
de menor calidad que la anterior, las fami lias PFAM-8 son úti les para
identificar regiones co nservadas func ionalmente que no se encuentran en
PFAM-A.
En la Práctica 3 se estudiará más en detalle la util ización de PFAM

para encontra r dom inios func ionales.
r PRODOM (hllp:llp rodom.prabiji·l) es una base de datos de dom inios de

proteínas generados automáticamente mediante técn icas de agrupamiento
de domin ios de homó logos basándose en PSI-BLAST. Las secuencias de
las proteínas origen se derivan de UnitProtKB (Swiss-Prot y TrEMBL).
Cada entrada de PRO DOM proporciona un a lineamiento múlt iple con los
dom inios de homólogos y una secuencia de consenso de la fam ilia.
11"' PRTNTS (http://www.bioinfmancheslel:ac. uk/dbbrowser/PRTNTS/index.

php) es un archivo genómico de huellas digitales de proteínas. La huella
d igital de una proteína es un grupo de motivos conservados empleado
para ca racteri za r dicha proteína.
11"' BLOCKS (hap:llblocks.jhcrc.orgl) es una base de datos de reg iones

conservadas de grupos de proteínas doc umentados en InterPro (hup:/1
www.ebi.ac.uk/inte1¡Jrol). La información contenida en BLOCK se
gene ra automáticamente.
11"' La base de datos PROSITE (hup.l/prosite.expasy.orgl) es una base de

datos de fa mi lias de proteínas y domi nios. Se basa en la existencia de un
gran número de proteínas que pueden agruparse siguiendo criterios como
la similitud de sus secuencias, en un número limitado de fam ilias, de tal
manera, que las proteínas o dominios de proteínas pertenecientes a una
misma fami lia suelen tener atributos func ionales comunes y proceden de
un ancestro común.
6.5.5 Bases de datos clínico-genéticas
11"' OMTM (http://omim.org/) es un catálogo de información sobre e l ser

humano que desc ribe informaciones genéticas y relaciones genotipo-
fenotipo .
11"' HGMD (http://www.hgmd.org/) es una recopilación de mutac iones

genéticas co nocidas y publicadas del ser humano.
11"' GeneCards (hllp://www.genecards.org/) es una base de datos secundaria

que extrae e integra información genómica, transcriptómica, proteómica,
genética, c línica y fu ncional de diversas fuentes de datos sobre genes
humanos. Entre la información que se incluye se enc uentra relación con
enfermedades, mutac iones, SNP, expresión y función génica, etc.
11"' NCB T-P heGenl (http://www.ncbi.nlm.nih.govlgap/phegenil) ofrece

relaciones entre las variaciones de las secuencias de ADN y diferencias
entre genes y la expresión de los mismos pa ra un fenotipo dado, como el
as ma o la diabetes. Los resultados se enlazan a las fuentes origina les en
donde los investigado res pueden encontra r mayor información.
6.5.6 Bases de datos de mutaciones y SNP
Un aspecto crítico en e l análisis genético es la relación entre genotipo y

fenotipo y cómo una variación en el genotipo ti ene una manifestación apreciab le en
un rasgo hereditario (fenotipo).
,.. Los SNP (Single Nucleotide Polymorphism) son las van ac10nes más
comunes y constituyen un cambio en un único nucleótido.
,.- dbSNP (http://www.ncbi.nlm.nih.gov/snp) es una base de datos pública

de polimorfismos, ya sean sustituciones de un solo nucleótído o pequeñas
inserciones o borrados de varias bases.
,.. GWAS Central (hllp :llwww.gwascentral.org/) es el repositorio central

de mutaciones de la Human Genome Va ri ation Socíety (HGVS). Es una
base de datos curada.
6.5.7 Bases de datos de genómica funcional
La Ge nómica Funcional es la rama de la Genó mica que se encarga del

estudio de las relaciones genotipo-fenotipo, es decir, de cómo los genes determinan
las características de los individuos a los que pertenecen.
,.- ArrayExpress (http://www.ebi.ac.uk/arrayexpressl) es un repositorio

público de expe rimentos de genómíca funciona l de l que es posible
consultar y descargar información. Incluye información de expresión
génica procedente de estudios realizados con microarrays y técn icas de
secuenciación de alto rendimiento.
,.- GEO (http://www.ncbi.n/m.nih.govlgeol) es un repositorio de datos

público que a lmacena y distribuye gratuitamente información sobre
mícroarrays y otros datos genómicos.
,.- SMD (hllp:l/smd.princeton.edul) almacena los datos experimenta les de

microarrays sin procesar y normal izados, así como sus correspondientes
archivos de ímagen. Además, proporciona interfaces para la recuperación
de datos, aná lisis y visual ización. Los datos son hechos públicos según
criterio del investigador o en el momento de su publicación.
PRÁCTICA 2: BÚSQUEDA DE
SECUENCIAS
La búsqueda y recuperación de secuencias de interés de distintas bases de

datos es una de las tareas más comunes en Bioinformática. Básicamente, se trata
de recuperar una secuencia de nucleót idos o de aminoác idos de una base de datos
biológica. Sin embargo, pese a la aparente sencillez de esta tarea, realizarla de una
manera eficiente y eficaz requiere cierta práctica.
En esta práctica se estudiarán co n cierto nivel de detalle varios ejemplos de

búsqueda de secuencias en distintas bases de datos biológicas. No se pretende, por
razones de extensión, cubrir absolutamente todas las bases de datos biológicas ni
tampoco todas las posibilidades de aná lisis existentes pero sí hacer hincapié en los
aspectos más importantes a tener en cuenta y en la interpretación de los resultados.
Por esta razón, para una explicación más amplia sobre la configuración de las
búsquedas avanzadas, remitimos al lector a la Bibliografia y a la documentación
existe nte sob re cada base de datos.
7.1 SECUENCIASDE ORGANISMOS PROCARIOTAS
En los orga nismos procariotas, el tamaño limitado de sus genes, así como el
hecho de que la relación entre la sec uencia deADN y el ARNm sea lineal, tiene como
principal consecuencia que la información almacenada en las bases de datos sea fácil
de entender y de anotar. En esta primera práctica, estudiaremos la información que
ofrece GenBank sobre el gen dUTPase de la Escherichia Coli.
NCBI-Entrez perm ite consultar múltiples bases de datos

simultáneamente. Sin embargo, las búsquedas están restringidas
siempre a las d iferentes bases de datos del NCB I.
Para acceder a Entrez, abriremos una ventana de l navegador y tec learemos

la direcc ión de su pági na principal (http:// www.ncbi.nlm.nih.gov/entrezl). Puesto que
vamos a buscar secuencias de ADN, seleccionare mos, en el menú desplegab le de la
parte superi or izquierda, la opció n Nucleotide (ver F igura 7.1).
H!WIW · "-'Wtof· HCII K "-------- - - - -- - - - -- - - - - - - - - - - -1

~1 11·· -==
-.....
Publl:)ed ..-
....... ,._
"'~"'"' ~-===============~ cm
PubMed CO,NONS
e~
Fea~Uf"f'CI COflllllotM . .11111 $t
""'-
BHt~ SI'EJ.tl ~"-"'"? Al.lcb0181*'601'1rnlt_
lm~.JI.o'l5, & tnn Cflll'~ • $J'JO rrwloetOitl
Pub~Tools Moro A:..ou1u1

fl¡ll.ltd.M:il:tt -.\.);ll1..Q;UCjai'
A.,,.., tél'h t'Jn~~ tro
A:bl.!td , ........,~ E.uíloW.. 00!

Nr- ..,¡ Nc!l,....,..by o
.........
Gl1UIG STAAIW
--""""''
Figura 7.1. Página principal de búsqueda del NCBI
Por supuesto, es posible escoger cualquiera de las otras opciones y la

búsqueda se efectuaría sobre otras bases de datos del NCBI. De la misma manera,
s i se selecciona la opción All Databases, se obtendrá una perspectiva general de
toda la información almacenada en el NCBI acerca de la sec uencia introducida (ver
F igura 7 .2).
©RA-MA Capftulo 7. PRACTICA 2: BÚSQUEDA DE SECUENCIAS 99
(g} EntrezJ The Lite Sclences Search Englne.
SOtTl ~ Pri.eted: e.on(ICI(ilol I~CG':~;;an;¡ ~':l.-' XI$ m ... llJ ~Of"'r!Cbtcie$
, )51. e ... Y4ood c:. ......., ..........cel ;.u.....! tri....... 1!1 nc t!:) ()I'!IM: onl>'e )(..,,,..,. Wlo•~..,. ..., M"'' (f)
4~ 1j '!el SNftlltt.:talfo'(fl~f~IPro'S =
m ""' ~ 01'\W Of'l'flt.Wf:~ IV!lfi:Wt 1'1 ~~ l!l
1 I U10
unn ~ """'*~~'~t '.to.Hf(('oSau~w m •

(fi)" G t - : t9d"'f"'t...,q •.r.¡;""
S litlf>1 Q) 212<1 ~ JO Oom•tn J: wr-'I'"~II'Oml<'trttS:Nr.Vt::
UO Q) );ti'\IRII" ll'lfU4m(1l$0N!tr.ilCV-ICittUW WllOitU f!l UO o UftlfTS:f1'".ll'llf~ollllmtpjh'IQ~

1 e Ta-.oy.O"if.......,.inC:••••..t lll ttU Q¡ ~t:ror-A~!411o:t1 .str...,.~
7742 ~ $MP: :.~r~;ltnoc:!et~UCirt!'t.,., :11'1 (!1 SSU ( ; GfO PNfll._.:~re$101«1 ,....el ~\1 01 •f:lo'.o'ICI""'~<'OI' .,;. l!l
lG-U ® G•-·'.l~...,,~ ..,_,,.,..ako!> f!l 13 ~ GEOo.t.ScU!t•~<~'"l#~t•GEOcb'll !!)
en € ""'""'lltC4Ml eJ~t'ft<:KI'IO-l'~O::"'I)!. l!l

7 e P'\oll(:ho:"' (-~ Ul'o!JI>t V..tllroolf(\h (1\fl!'nklll !111\oC:Iu-~ tiJ
m
126
'
tlJl ,_,\Chtm llo.\uwr: bi•~t ~~W>Ufc~r~ wt"lrnc:~ 1!1
t JJ ® f'll.c:JitM $'111Wbi'IU' Cl(~' •.M (7'l<f!'IUI '..0~'-Cf IOKU.:I'. C!l - 8 GfHSAT: o.-.~ .Cllo,Off't~<tfO'll netYO"'~.-n l!l
1 ® G t - P..;.(t:~·-·•l"CCI"'"t Jtler.,.._ 1%1 Xt e"'""' . . ...,..~11>< ou9r,.,...,.
.,
l'loMot .-;¡¡ _JNt. .!t:<:kC¡It(S "ll'c.'m;r.QIIUW(I7lt101~41M"* 1t A.ltfii'J~u•KJ t!l lti M Mf:loll:ll,...)f:{ "!''!-<litiO-U•~~ fllN.,(OI'In'l('d"rtoC«<u'II'Y
Y/ tltlet Í~'M G-Y.liHI~U ~1!1
'lJJ ~ IU.Hcat. ...;u"'09cfi>MI().IO<IIT"aoldM•)'WI'I.>J/II)!OI!tCI4lf;' 1%1
" ' tolkl:r-~
Figura 7.2. Selección de bases de datos de búsqueda
r- , "
Vuelve a la página principal de búsqueda y selecciona alguna de
las opciones que no sea Nucleotide y comprueba la información
~ ...... que te ofrece e l NCBI sobre la secuencia bajo estudio desde
distintas perspectivas.
En la caja de texto de búsqueda, teclee el identificador del gen que buscamos,

X01714 y haga clic en Go.
La Figura 7.3 muestra la entrada de GenBank XO 1714. Aunque por defecto

la información se muestra en formato GenBank, el menú desplegable de la parte
superior izquierda permite indicar tam bién otros formatos de salida, el más común
de los cuales es el FA STA.
100 BIOINFORMÁTICA: El AON AUN SOLO CLIC ©RA-MA
:.: l .('doftil-f('lcli!'P~~ JI . .. ._ _ _ _ _ _ _ __ _. . ._ _ __ _ __
+ " ·- .'...... ""'00'"' ..

'
' ~ 1l'
Nudtodde
'
E. coll dut gene for dUTPase (EC 3.6.1.23) (deoxyuridlne 5'-triphosphate
nucleotidohydrolase)
C"'tomlr. lltt'W
oene.w. JCOH1 .; 1
8otk fo:ot11r.,.
¡.:¡¡; ~
.. Ot! "'1'1: "" "
c.... A:'i> - cos ,.., ...... C<'ly
toCUt liOHU
~ • 4 : :!p.:;;-~::e ::~:!e: • ~4-:l:~--:.:: ~==<>•

xc:':'
lii>I, U.l ~: :~U~
•
--·
" " - ~ bJ NCIJI
.! J ~~· _ . . , . .
7t»-,.,..--
" ~
..
++
c¡_,:::
JiX:::•"•"'•"'
~.,I
.l!l.ll'fl• tflft ••q_-•

... sv.s.
;.~
t !'ftt:
:...O.<IIH>:,;r,:..o ••
lÑc:}n.'.;.~dc Hq'M::.O.C
n.>.•o~_...::,II .O. , lt.u!~<-•Ga,O.ll.
o! tbc U .....C:\7o.-.l ';o<:.C
*'"':;.,.......,P.O.
!o• diJ'Ttuc o!
,,,.,_.
l:~l>o:tUC:l'>U cqh J:-l2 ~~f.._.u
.~ CiliO:. ~ ,,,, " , •.,. t~tth
f~n ... ~
~ C.au l<1.r;:lly ...., _ (J~·IK'V• H•UI I>'J t. :.0:.-..Z.r'\J•

m~ t.o...t.=-...l~h!a:a
-~ 1 •• uot Rttai.H ''"'~on
/ C>t•:U1:111"'t :eM n el\U C':>U ' R•hl<d $o.pct"Co<
I•~ .~J'PO'-"C:cMBJ.~ tt~J. •
,~_
~
..... :-- - ........,lE.
--··· ....
..._
holllt..,..•PUC
Figura 7.3. Resultados de la búsqueda
Ahora cambiamos la vista de GenBank a S ummary y en la página de

resultados (ver Figura 7.4) aparecerá una defin ición breve de la sencuencia de
entrada, precedida de su identificador.
-
+ -..-~ .l ~tn •ilvfC'I' ...-~ti'UJ'o c¡o«! W...<....&.....p 1<_., ,..
Rebt.6 •nlonnlllo"+
C COII ~ 9"fW' 'Cf' dJTP - tEC 3 6 1 Zl) IO!O!)Unor. 5'·lrf"'9!P.'\a"A I'IUC~ Rtbrld~
1 60909 llfle<ll' I)I:A
~fi~IUh.l l Cl U~
...
c~ u, t;!l.. o:..~... ltrl.:.:to,!tOJ.r .u ......
~~rJIMC
Figura 7.4. Registro GenBank X01714
Para guardar la secuencia en un fichero de texto en formato FASTA,

selecciona la opción de fo rmato texto (Tex t) y Send To en e l menú desplegable pa ra
generar el fichero de la entrada y guárdalo utilizando las opciones de l navegado r.
©RA-MA Capftulo 7. PRACTICA 2: BOSQUEOA DE SECUENCIAS 101
~ Lcok dut~forciJTP.n.~ X 'lo..;..-------- -------------------1
Figura 7.5. Registro GenBank XOI714 en formato texto
A continuación, aprenderemos a interpretar el contenido del fichero, aunque

para una descripción más deta llada y formal remitimos al lector a l capítu lo anterior,
en donde se trató e l formato de fichero de GenBank.
La Tabla 7. 1 resume la información que se extrae de la cabecera:
:-.lombre del campo Inte rpretación
LOCUS Nombre del locus (ECDUT). tamaño de la secuencia de nucleótidos

1 (bp), naturaleza de la molecula (ADN) y topología (lineal)
DEFINITION Descripción corta del gen al que corresponde la secuencia de esta

entrada. En este caso, el gen DUTPase de la E. Coli
lf.CCESSION JL,!dentificador de la secuencia (XO 1714)
VERSION Versión de la secuencia
KEYWORDS 11 Lista de términos que caracterizan la entrada
SOURCE Nombre común del organismo a l que pertenece la secuencia
ORGANISM 11 Información taxonómica 1
R EFERENCE Información b ibliográfica de toda la secuencia o solamente de partes de
la misma
COMMENT Texto en formato libre que proporciona información adicional al resto
_ , ._d;;.e;..campos
Tabla 7.1.1nformación de la cabecera del fichero
Después de la cabecera, encontramos la sección de características

(FEATURES) que describe las regiones del gen y las propiedades biológicas que
se han identificado en la sec uencia de nucleótidos. Llegados a este punto, conviene
hacer hincapié en la simplicidad de la transmis ión de la información ge nética en este
tipo de organismos (ver Figura 7.6). Como puede verse, la secuencia de ARN m que
se traduce en proteína es aquella que está señalizada con una subsecuencia especial
llamada RBS (Ribosome Binding Site).
GEN
ATG STOP
ARNm
ORF
l PROTEÍNA
Figura 7.6. Relación entre gen, ARNm y secuencia de proteínas en las células procariotas
De acuerdo con lo anterior, la información registrada en la base de datos

debe contener, al menos, las coordenadas de algún promotor, las coordenadas del
RBS y las coordenadas de los límites de la región ORF. El resumen de la información
de la entrada obtenida está recogido en la Tabla 7.2:
Campo Signiticado
1
/so urce Origen de la zonas específicas de la secuencia. Es muy útil cuando se necesita
distinguir vectores de clonación de secuencias huésped.
En el caso del XO 1714, la secuencia completa corresponde al ADN genómico de
la E. Coli
/promotor Coordenadas del promotor. En este caso, hay dos promotores: uno en la región
-35 (posiciones 286 a 291) y otro en la región -1 O(posiciones 31 Oa 316)
/misc_feature Ubicación putativa del comienzo de la transcripción (síntesis del ARNm). En este
caso, es la secuencia comprendida entre las posiciones 322 a 324
RBS Localización del último elemento de subida, que se encuentra en las posiciones
330 a 333
CDS ORF del gen. La primera linea son las coordenadas de la ORF, desde su codón
inicial hasta el fina l, esto es, posiciones 343 a 798.
El resto de líneas indican el código genético que hay que aplicar (ltra!lsi_lable),
el identificador de la proteína (/proleill_itf) y referencias en otras bases de datos(/
db_xrej).
Finalmente, ltranslation es la secuencia de aminoácidos del segmento CDS
Tabla 7.2. Sección FEATURES de la entrada de GenBank

Las entradas con más de un gen so n muy frecuentes en los registros

de GenBank.
7.2 SECUENCIAS DE ORGANISMOS EUCARIOTAS
En los orga nismos eucariotas las regiones codifica ntes de ADN se d ividen
en un número variable de exones (fragmentos del gen que contribuyen a la proteína
final) entrelazados con intrones (fragmentos del gen que no codifican).
A continuación, se analizará la entrada de GenBank V00505, que contiene

el gen que codifica la delta-g lobina humana. Para ello, abrimos un navegador web y
tecleamos la d irecció n de la pági na principal del NCBI: http://www.ncbi.nlm.nih.gov/
entrez/ y, al igual que hemos hecho en e l epígrafe anterior, en e l menú desplegable de
la parte superior izquierda, seleccionamos la opción Nucleotide.
En la caja de texto de búsqueda, tecleamos e l identificador del gen que

buscamos, VOOS05, hacemos clic en Go y obtenemos el s iguiente registro:
LOCUS V00505 1976 bp DNA linear PRI 14 - NOV - 2006

DEFINITION Huma n gene for delta - globin .
ACCESSION V00505
VERSION V00505 . 1 GI : 30510
KEYWORDS de l ta globi n ; gerrn line ; g l obi n .
SOURCE Horno sapiens (human)
ORGANISM Horno sapiens
Eukaryota; Metazoa; Chordata ; Craniata ; Vertebrata;
Eute l eostorni ;
Marnrnalia ; Eu t he r ia ; Euarchontoglires ; Primates ;
Haplorrhini ;
Catarrhini ; Horninidae; Horno .
REFERENCE 1 (bases 1 to 1976 )
AUTHORS Spri t z , R. A. , DeRiel, J . K. , Forget, B. G. and Weissrna n, S . M.
TITLE Complete nucleotide sequence of the human d elta- globin
gene
JOURNAL Cell 2 1 ( 3) , 639-6 46 (1 980 )
PUBMED 7438204
FEATU RES Location/Qualifiers
source 1. . 1976
/organism= " Homo sapiens "
/mol_ type= " genomic DNA"
/db xref= " taxon : 9606"
prim_transcript 123 .. 1763
exon 123 .. 265
/number=1
CDS join(173 .. 265 , 394 .. 615 , 1505 .. 1633)
/codon start=l
/product= " de l ta g l obin "
/db xref= " GI : 30511"
/db xref= " GDB : 119298"
/db xref= " GOA : P02042 "
/db xref= " HGNC : 4829"
/db_ x ref= " InterPro : I PR012292 •
/db xref= " PDB : 1SHR"
/db xref= " PDB : lS I 4"
/db xref= " UniProtKB/Swiss - Prot : P02042 "
/translation= " MVHLTPEEKTAVNALriGKVNVOAVGGEALGRLLVVYPWTQ
RFFESFGDLSASPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFSQLSELHCDKLHVDPENF
RLLGNVLVCVLRNFGKEFTPQMQAAYQKVVAGVANALAHKYH "
intron 266 .. 393
/number=1
e xon 394 .. 615
/number=2
intron 616 .. 1504
/number=3
exon 1505 .. 1763
/number=3
ORIGIN
1 aatgaaggtt catttttcat tctcacaaac taatgaaacc ctgcttatct
taaaccaacc
61 tgctcactgg agcagggagg acaggaccag cataaaaggc agggcagagt
cgactgttgc
121 ttacactttc ttctgacata acagtgttca ctagcaacct caaacagaca
ccatggtgca
181 tctgactcct gaggagaaga ctgctgtcaa tgccctgtgg ggcaaagtga
acgtggatgc
241 agttggtggt gaggccctgg gcaggttggt atcaaggtta taagagaggc
tcaaggaggc
301 aaatggaaac tgggcatgtg tagacagaga agactcttgg gtttctgata
ggcactgact
361 ctctgtccct tgggctgttt tcctaccctc agattactgg tggtctaccc
ttggacccag
421 aggttctttg agtcctttgg ggatctgtcc tctcctgatg ctgttatggg
caaccctaag
481 gtgaaggctc atggcaagaa ggtgctaggt gcctttagtg atggcctggc
tcacctggac
541 aacctcaagg gcactttttc tcagctgagt gagctgcact gtgacaagct
gcacgtggat
601 cctgagaact tcagggtgag tccaggagat gcttcacttt tctcttttta
ctttctaatc
661 ttacattttg gttcttttac ctacctgctc ttctcccaca tttttgtcat
tttactatat
721 tttatcattt aatgcttcta aaattttgtt atttttttat ttaaaaattc
tgcatttttt
781 ccttcctcac aatcttgcta ctctaaatta tttaatatcc tgtctttctc
tcccaacccc
841 ctcccttcat ttttccttct ctaacaacaa ctcaaattat gcataccagc
tctcacctgc
901 taatttcgca cttagaataa tccttttgtc tctccacatg ggtatgggag
aggctccaac
961 tcaaagatga gaggcataga atactgtttt agaggctata aatcatttta
caataaggaa
1021 taattggaat tttataaatt ctgtagtaaa tggaatggaa aggaaagtga
atatttgatt
1081 atgaaagact aggcagttac actggaggtg gggcagaagt cgttgctagg
agacagccca
1141 tcatcacact gatttatcaa ttcaatttgt atctattaat ctgtttatag
taattaattt
1201 gtatatgcta tatacacata caaaattaaa actaatttgg aattaatttg
tatatagtat
1261 tatacagcat atatgtacat atatagacta catgctagtt aagtacatag
aggatgtgtg
1321 tgtatagata tatgttatat gtatgcattc atatatgtac ttatttatgc
tgatgggaat
1381 aacctgggga tcagttttgt ctaagatttg ggcagaaaaa aatgggtgtt
ggctcagttc
1441 tcagaagcca gtctttattt ctctgttaac catatgcatg tatctgccta
cctcttctcc
1501 gcagctcttg ggcaatgtgc tggtgtgtgt gctggcccgc aactttggca
aggaattcac
1561 cccacaaatg caggctgcct atcagaaggt ggtggctggt gtggctaatg
ccttggctca
1621 caagtaccat tgagatcctg gactgtttcc tgataaccat aagaagaccc
tatttcccta
1681 gattctattt tctgaacttg ggaacacaat gcctacttca agggtatggc
ttctgcctaa
1741 taaagaatgt tcagctcaac ttcctgatta atttcactta tttcattttt
ttgtccaggt
106 BIOINFORMÁTICA: El AONAUNSOLO CLIC ©RA-MA
1801 gtgtaagaag gttcctgagg ctctacagat agggagcact tctttatttt

acaaagagta
1861 catgggaaaa gagaaaagca agggaaccgt acaaggcatt aatgggtgac
acttctacct
1921 ccaaagagca gaaattatca agaactcttg atacaaagat aatactggca
ctgcag
11
Figura 7.7. Registro GenBank correspondiente a la entrada VOOSOS
Este gen tiene dos in trones (el primero entre las posiciones 266 y 293 y el
segundo entre la 6 16 y la 1504) y dos exo nes (el primero entre las posiciones 394 y
6 15 y el segundo entre la 1505 y la 1763), co mo marca n los campos /exon y / intron.
7.3 BÚSQUEDA DE VARIACIONES
Encuentre el efecto de una variación en la región 3713 del gen

h umano q ue d etermina la dist r ofia muscular d e Duchen ne (DMD ANO
Homo sapiens) .
Para resolver este anál isis, ab rimos un navegador web y tecleamos la

dirección de la página principal de Entrez. De nue vo, en e l menú desplegable de la
parte superior izquierda, seleccionamos la opción Nuc leotide. En la caja de texto de
búsqueda, escri bi rn os "DMD ANO Ho rno sapiens" y hacemos clic en Go.
- .•· p o o
-
OloriMo 'k*=r<€-- :t,. _ _ ., ~·
=~. 11!1111
o'-·"'- ·- · ·--C"MM urQ2) .cce(IJ

S..DW!IMI'Xfl'! . . . c..-... ICQ.. f $ )mil
--e-~ frcrcQ!) BliWI..Illl
,.. tt"!QQ .......... traN""C~!;J!ID!*I6.UC~

"'.. ' ... -· .....
' 2,110 ""k-f!A1ót<
..,,,q.
_ o.p. m:,t!t.!.'d
_....
c_ . , . , _r!Q
--·--·""'~
~..., f~l">
IP.IIli A•·ot1.•W!.,.."'
e : -.....· - ·
r t»
"l
l
)
ll:l _ _ _........ OliiO o;at.~·.,t~
WJCMI.Ifi!A
-..,.,_
C..-
~17t1
IA:I~
GIJH,J.
t....,...._ flt..Ja ;..¡~
He«)fP!e!...... eAz.eo,,.,.,.,.,!! DyQ r"t lfiUO: Q..lltW" ..................."(1
'*WI'-~
«<··-IC'I>-'1> ,..,. .....,._ _
----
~-
·~ -"
~-(' '
..... ~¡
.... -
!A$ Ct-..
..
~
P" · p ot!IIOIU:~IIWOJ"-Id ·•. . lk!oc.'llld;;!l(o

• l)?'ntlpl~-
-·-·M,.-'00'*-
'4dlr:i! ~ ~ ••lit« :.....,, ~l
~-$
" '-:.u ¡
_.., .., •(Of9oU•I
* ,.,._
~·-
· -· ... 111'-' • U o <u)l
Figura 7.8. Búsqueda del registro en GenBank

En la parte superior derecha, seleccionamos RefSeq y el tránscrito Dp427m

(accession NM_ 004006).
.....
Nudao'l!de
'
Horno sapiens dysltophln (DMD), transerlpt variant Dp427m, mRNA

1-<:EI Atref~ ~e ~-I)0.4(l(l(; 2
f:l.'<l:. ('1""'t~
G.!o e
~· tftlt tt~~ct
Dl:tlli!1 1C.
ltOCt"lctll
- . .,,..,.
IIK. O<ItOO'
~<M_ oo•oo• . J
J.u;o.,:¡ ,
I!Oil<> • • PlUe
o¡-.~"flo.ln ~DilO), t.,..,...... l~
01 : n.u~ee-o •
1~1
...nut ~;.Ta,
r..:.:-.:o.:·,-.: 01 Y.u~::-s: 0:.<:¿:.:~; C::o.=.>-~~~• ~·~::u:o::. ¡ ro=::! <::.::=:

.ax.:..
--·
'"'IUST
lltffiStl $..:11.'1\Y>et ,~~'

r...,.,t.s~•
W..•Hol t .a.tr, o: t-n,;lw:intoolaut fTIN tUl K.l.r>lontoi&IT A.nltles ' OOV11tlt ONO Qtne
ColoU)tlll.fl.l : ~~~~u•: IIOftO. ~Wfd.•• JlloJI~ 0,.:~
RU't:~ l (h.ou 1 w 1:1,.,.)1 ris-'"..,. s)"d!o;•u . _ , :l'li;,("'='-•'Y :'01)1
:.1.1t:ll:i'lU .:.. e.:e....~t .;.~. lllo.to..·:..H ' ' • ''• :1>•o.: t tt , o.all<"': u , M~l t ...
Tl:.:=o 1!1l, JI :.:=J~·lk: .JX, 'kc:.u.ol< J:, 4 : 'h >.c:. :11, "=
r ::c<=; ! , Ostlo10<141Wdor< (1 !.ho -"'Oqk ~
:><<OOMcd¡nt.... C*IIfloot'"' 1"'<>'10... :latíJ
Qotll lf, llil M. Q.t!!;> :, dtn ~oli>MII :t. ltlh~htOU '.')!, l.al'\-·IIUt
""'- a.-1 .e. =::uoe,
- loe_ . l l 11 a..o IUHUt~¡ t. .:. J.oi.. ,... (l.loo'<lf\ e''''-'''
Jóol• OLIO
¡;::..t
.JOOIIIU1.
ro~
;, 3·N.:.c ~!:'
lAattoccc:>&! 41ül>~l!: •t
l~r. J, """'· eo..~. ))
>~·'~'"~'
e.tnt-"l':.~ .
"~~""'"~
t••· ~ fO· •U PO"~~ ~
!:1. ::lll)
...:•=: ..... .tr~ u~v
=::.::lu ~ oo.ob 0. 0..~«w>l4o(t-.J......,~ ;.)U)
... ~
~rx~ 1 (~"u 1 to l,n,.

PJ!IW4:ft ror tllt' Dt.tO o•ne
......,_ECU •.._,
nru. •• " -0.."'7"'
.. .•..,..... . ·- '
~
,. ,...
Figura 7.9. Registro de GenBank
Si exami namos, como se nos p ide, la sección del fichero correspondiente a

la variación 3713 , encontramos:
variation 3713
/gene= " DMD"
/gene_ synonym= " BMD; CMD3B ; DXS142 ; DXS164 ; DXS206;
DXS230 ;
DXS239 ; DXS268 ; DXS269 ; DXS270 ; DXS272 ; MRX85 "
/note= " point mutation causing translational stop;
Glu1157X
(543366)"
/phenotype= " Duchenne Muscular Dystrophy (DMD)"
/replace= " t "
Figura 7.10. Sección del fichero correspondiente a la va riación 3713
Es decir, se trata de una variación que termina el proceso de traducción del

gen.
108 BIOINFORMÁTICA: El AON AUN SO LOCLIC ©RA-MA
7.4 EJEMPLO DE ESTUDIO DE UNA PROTE[NA
Se trata de rea l izar un estudio práctico de la proteina humana

hemoglob ina subunid ad gamma -1 codificada en el HBGl , resp ond iend o
a las siguientes preguntas :
l . ¿Cuáles son l as coordenadas del gen HBG l ?
2 . ¿En qué hebra se encuentra el gen HBGl?
3 . ¿Cuántos tránscr i tos cod i fica el gen HBG l ?
Como viene s iendo habitual, abrimos un navegador web y tecleamos la

dirección de Entrez (hltp:/lwww.ncbi.nlm.nih.gov/entrezl) . En el menú desplegable de
la pa rte superior izquierda, seleccionamos la opción N ucleotide y en la caja de texto
de búsqueda, tecleamos e l identificador del ge n que buscamos, HBG 1 y hacemos
clic en Go. En los resultados de la búsqueda (ver Figura 7.1 1), seleccionamos la
séptima entrada por ser la que contiene toda la región codificante.
~ ::; Uac.t AND I ~ MflltM·tt. \+

+
._. • \J._.,.,.. "<;hnltr ~n.,.;c~oc.h•"' ti~!-,\IIC•H...._:..p,;,
"
m =~,.-
ll<iSo<
Resulta: 1 to 20 of 33 ;-. 1- ~f!
""' . ...
:.-.
rl HM!O llRit Q• g,ac;;:¡a,AIJemogiQQ::Q ltlllGl )ge;Qt, pmrt'ºt.tt ~20 aQQ ~!Jlal 'Oi
"' T., O
1 602 tlP ~ne.v or~
tbmo~
Aot;c~:.ion. #F487523.1 C' 1334~2'56
~""""" 5\m C•A!!!:i'..;¡ 8f.ttdSo~o:.. ,.,...,

S)fthtf
[] Hof!IO QQ!tDS A.(l.l!!T!Jil gtob n jHBCll !JMG HBCJ{i iff!r m imo? (:':ID$ M!d OM11'!1 f!'S
• MOOph<wOf~
.o.cotulon AYS344ilat CA Utla76 17

~ ~ ~ Rl"»'~~'!~'~'~'-...'
-·""'""""""
.......
tJ Horno I!R'!" ! fleta 910011' r~M (HA.nf!ll) aM netnoc»obh, bela (HBB) and llet~bk'l , deM rueo~. ano~ ~1100 1 Fl nd ~la
• íti!!SJl aniJ l\f!f!C!l~PD.!!!.Jii!I!W!!3..I\.~

81.70G Dp tnear Ot~
ar'ld llern~J:!O!:*J...gaiMI3...C': ~~R~~tl'lfOiflO'i.(llrlll.11
Dill~~-
"«tUl~' NG.000001 J G 2ll&OG36

f;foiii'IM!t IA.'IJ5 ro·~~ l(fi",Jtl(l ~/ll-..... ~
1 ~I.R.I.fJll ~oog:~ ga¡:;.;)Al;.(lj El~ l).lllB:t.i5 Suret'ld

• f.U bp b:tt mtlf.t4
ACC8~$1011. NU oooe6t.2 Cl 23302130
:!54!:(:.!.'
"nr~e""
Ct!IS..n.~t e·~:.. Rt' .L~ SO!l!Xr"..ttt
'"""
[1 Homg lillii:IIQI Ilt~kD'I 01111 ~ 'i18 U::UHi llSI!::IIll
.;I(IJ)ol<!.n~
..,..
HEISCHil:·f -..m..w 11: ;llll'tl!! «mn 3 illll Ril!llil1 ~SI:i
S 320 bp line-ar ow.
A«:t'$1011 FJ~~7$00.1 (;.lli7G-4t0:S
~ et "':1Sr:?"em;z
e
ft>.lO
""""*"
Horno H21• ns ~WOCAoQai"T'r'MQ'Wn 'HBG1 )~ne, OQrtill eos
Rtct nt a
•• 31 $ bp lr'le.lr OW\
A«:U ~Ion:CU00)4..1 1.1 Gt 1:291-ti':'i
G•!IO~nlt ro'\'.>'A G·api'W~ n•·•..o ~tqVotr.;:-u ~ ttlG1
.J HOI'I'IQ llRII Ql De:QOgiQQIJ. g,a.c.ma El.ittBGl) geae: , m o:ek' 'as ~

7 l !i,4~l) bp linear OtlA
Acc;c~:;• tm. CU324m , Ct. 30231lH2
""'"
Q. HAa
Figura 7.11. Resultados de la búsqueda en Entrez

Si visua lizamos el fichero en formato GenBank, veremos que la información

correspondiente al gen HBG 1 es:
gene 2006 .. 3591

/gene= " HBG1 "
Y que el ARNm que cod ifica la proteína es:
mRNA join(2006 .. 2150 , 2273 .. 2495 , 3376 . . 3591)

/gene= " HBG1 "
/product= " hemoglobin , gamma A"
La notación jo in hace referencia a los rangos, dentro de la secuencia, que

forman parte del ARNm, esto es, que la cadena de nucleótidos de l ARNm se rá la
concatenación de las tres subcadenas indicadas. Por otra parte, la región codificante
del gen es:
CDS join(2059 . . 2150 , 2273 . . 2495 , 3376 . . 3504)

/gene= " HBG1 "
/codon start= l
/product= " hemoglobin , gamma A"
/protein_id= " ADL14496 . 1"
/db xref= " GI : 302313143"
/translation= " MGHFTEEDKATITSLWGKVNVEDAGGETLGRLL
VVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDATKHLDDLKGTFAQLSELHCDKLH
VDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH"
Finalmente, se conocen hasta 44 va ri aciones del HGB 1, cada una co n una

frecuencia de apar ición.
Ahora abordaremos el análisis desde una perspectiva centrada en el gen en

lugar de en la secuencia de nucleótidos que lo constituye. La principal ventaja es
que la info rmación obte nida está más resumida. Para ello, volvemos a Entrez pero,
en lugar de se leccionar la base de datos de nucleótidos, especificamos la base de
datos de genes (opción Gene) y en la caja de texto de búsqueda escribiremos el
identificador del gen HBG 1 y hacemos clic en Go.
+• ...~ .......- ~ •.. -·- - ....- e g .g..,.,
"'"'
!hta~l'tla ~ ... ,;:¡ - l \lófttOt lbls
---- -· ----
<.o.. _ ..
-- "'"'"""
--· ... -
--
ReM.ttl t
·~-
•N:*_,,. ,.
~
--~
oa.w.. -
... .... ---

r...,
--- . .·1"'0- -
.,_...., ...... "*' ..,.,.SI'
1'11102'"' ~n
"""
_
--
ISU&l'l't
"
-
M 1 t.IJ.l ndMI IIIIID t " ib'lf
·--- - ....
"""
C> ·~·
......._._
,.~ o .... ti
h1C.(IOCC.:1.
~XIItUI, eno..- C.VIf'
0-t,SHCI"(~u.l-.) ~ .....
• . ,. . . . 1~1 . . .. ....11
-·- ·-· -- -
..... l'fO-
-..;....
ooa ~""'·~ 011 ...... ti (1)11)1.(
......
-· -
IC000011tf
~-
... ~
---- ·-·- ---·

IP~Wl'JU ~-
---
"......
:•u
c. ..
..,etilo l ...... _
............
NC.to00fl11
11M11-..t
•
lt'.ol»*~
C:O•IIll!:.ow-•
""" .... -~
Q; teGI.ood - ......... 11')
-- ..... -· """ el _,
11!(i.HlltCf
............... """""_..........-l
lil*l " ·
~.toOtnll
l~ltiWrt,
1401~ .,.._ ... ,....
-
ro._ 01 ....... t
Q; leGINI0_1_1'1
--
101""' 0111~ I ¡¡MI- ~
••• COII!O . . . . .
VI,.U""''~~~~"~~
..-.e ~~e_~ u
,,.~,..,~"' ~
o. - ..
Q; leGIH0 - • - 1 ' 1
--
"""
Figura 7.1 2. 1nformación contenida en la base de datos Gene
En la parte superior de los resultados (ver F igura 7 . 13) aparece una descripción
general del ge n, las funciones que rea liza y un conjunto de enlaces a otras bases de
datos o ficheros del NCBI.
r~"~--~·-·
.. • "'·'' ........ ,~ 'N' •• •·~-· p
"" • ft .. • •
. ~-
""" ..... :~~ .JCD ...,

~~~-~ ,.~ ....... --e-ni~
.
.........
_(_.,.
-- --·-
H8G1 tlernoglobfn, ~ A ( Homo Ap#MS (hU!Mtlt J
<"oeo.O lOI,,...,.....,zw~
o-..,c.t. · - - ~
• .oJ ..~.....,
te3, _ _
--
..........
-_....- ...
O
S
d
o
l
l
~
O.lol,..._ ~ ..... ~.
__
,__,_ ~
l-
............~... Nll».m - _..,._
... ~ ....0.00.
, - Mt11Df!NII
* -.. . . ._ ..
~-~o
o..- ,...._.
......... ~ ""-o-.r.. o....r. v.-.... e..,...,........_,_.__~&....:...,......~....." "-'""·- ..
_...,
..-..-c.r-..
¡;.......... " ' _ , . - -
iloloO · - . "*" NIOft ,..,:t ltSOCa~ f'II:OIIIl1
~ flw--~-f.eGe"~"_...,..,l"n,.,..,""'-'"""· ,......,.,.--;,._...
.
cto.,• ..,..,... _ _ _"""c--.'-'-~f!tl')-"--,...,_".,_"'......,~
•-•-~--·--w-....-<-~<•---Tho-~11
__ .,. ........
A~-11«>11
,,._'l'f'..... -·
flo....,._.,,,._ ...8o~o,..,_......-.n~-·-~-·
f'!oo_ .... _ ..,... .......,_....,.., se...,......
.. 1101•110· ~-
,_,
o-.erto.~
-.e ~ Ol--' ~- ~ _ _, ....,._~~ .lA*'I -~
Figura 7.13. Información en Gene sobre el registro buscado
A co ntinuación, las secciones Genomic context y Genomic r egions,

transcripts a nd products muestran una vista esquemática de la estructura del gen y
su localización en el cromosoma 11.
--
'"
•1'1
-
..,.,.
_ _...,
...._.....
<l'tOM .q:q ...... )lo
Oilb"'"'uxrrtub!!!\t<J
c. ···-
"
"
<.GIU•IO~ 'liOWI _ , _ _,
C:J)IU• t tueoii!G' <;Ihlll - -
-..._.··- ..
.. _ _
~;.o
.,.,;.-
co--..... ~...... ~-- " "' ·--"-... ~-..._.,.

o. .. -- ~~-.._
-
,...._
... ..._..__ ...... -·--...

.._ --
.. . ..... .
............
n ...- .•- .. ,.,., ' "
.-..- ,...
,, _ ..., _ .,,,__ , . ...... ,.., .,._ ... ,, ,..._ .....
- . ....
--·
• .., ' " a ... ..,._.,._,,. .,,_ :.ooo "'' - .. .w-..,........
..
m -"""""...
. --··
- - w-c..-
E
Figura 7.14. Visi ón genómica del registro
Haciendo clic en e l Map Viewer se mostrará una ventana con la estructura

detallada de l gen. Como su nombre indica, MapViewer está diseñado para simplificar
la construcción de mapas genómicos.
r
Ho(lvl ~MR :J~ G-.u..~- 1.1"':' ~
"'' '"u•i
~··~·l
~····
..
.:<J:•O:»O
~J:•Oo»j
.. $~0»01
.. .
·~'"·l
,. . .....1
. .: •i $ h• ...
. ~~--LJ:z----1-
l iHH
H<I'H Oo1
..
. v..'•'i2')01
i
·~-)'1001
:::::¡
.. ;.:t•,0401
. -~:~:m~ '-: .O.O»oj

. . .......
1
1-;-~·---~·,.:,,u;:.>.,
.....,.~~
~""l
,.t4• ...,...
.1 = .... j
Figura 7.15. MapViewer (1)
[= "'""!
...<iM,'
....,.,....
.......,.,..
. ..... LNr\d
~GJ;C«~(
..
~ U.U.OtiN6lZtdJ
Figura 7.16. Map Viewer (y 11)

ANÁLISIS DE SECUENCIAS
El caso más habitual en Biología Molecular consiste en estudiar fragmentos

desconocidos de ADN obtenidos como resultado de un experimento de laborato rio.
A partir de la secuencia, se trata de identificar qué genes están presentes en la misma.
En organismos procariotas la dens idad de genes es muy alta, por lo que la tarea
es relativamente sencilla. Sin embargo, en organismos eucariot.as, en donde las
regiones codificantes se encuentran d ispersas e imbricadas con exones e intrones,
esta tarea es mucho más compleja. Además, ex isten dificu ltades añad idas como los
genes de ARNm o la dens idad de genes de la secuencia anteriormente comentada
(por ejemplo, el80% en bacterias y entre e l 3% y el S% en ser humano). Una vez que
se ha identificado e l gen, la secuencia de ADN se convierte en secuencia proteica y
e l problema, entonces, se tras lada a l mode lado de la proteína que tiene por objetivo
determ inar su estructu ra y fu nciones.
En este capítulo centraremos la atención en el análisis de secuencias y

dejaremos el mode lado de proteínas y la identificación de genes para más adelante.
Nuestro punto de pa rtida, por tanto, será rea lizar el trabajo en e l laborato ri o y enviar
la muestra a la plataforma de secuenciación; el investigador se enfrenta a una tarea
de procesamiento de una cantidad eno rme de datos. La Figura 8.1 muestra el flujo de
trabajo básico de un proyecto de secuenciación genérico. Después de la preparación
de las muestras, estas se secuencian en una determinada plataforma. U na vez
obtenida la secuencia, se realiza un análisis de ca lidad y se alinea con una secuencia
de referencia con el fin de identificar las variaciones de la secuencia bajo estudio, de
tal manera que las mutaciones encontradas se anotarán, se filtrarán y se priorizanín
y los resu ltados se mostra rán en herramientas de visualización. Fina lmente, dichos
resu ltados se va lidarán en e l labo ratorio.
114 BIOINFORMÁTICA: El AONA UNSOLO CLIC ©RA-MA
LABORATORIO
(ptepataGión de la libre6a)
SECUENCIACIÓN
¡
ANÁLISIS DE LA CALIDAD
DE LAS SECUENCIAS
,¡,
ALINEAMENTO
IDENTIFICACIÓN DE
VARIACIONES
!
ANOTACIÓN
VISUALIZACIÓN
,¡,
¡/' LABORATORIO
" ' -·- -"
(va
_:;l;.:c
ida:..:.
ci"-'
ó n'-'•""
xpe
..:.;r.c.:
•m:.:c
<n.:.:;
t•"'l)_ _.-
Figura 8.1. Flujo de trabajo de un proyecto de secuenciación genérico
8.1 DETECCIÓN DE ORF
El primer paso en la identificación de un gen a partir de una secuencia de

ADN es determinar la trama de lectura correcta. Puesto que cada aminoácido es un
triplete de bases, existen tres posibles tramas de lectura en cada hebra de la mo lécula
de ADN. La trama de lectura co rrecta u ORF (Open Reading Frame) es la trama más
larga ininterrumpida por un codón de fi n (TGA, TAA o TAG). Cua nto mayor sea la
longitud de la ORF, más probabil idad hay de que se trate de un gen.
ORF de entorno a 300 nucleótidos ( 100 aminoácidos) suelen ser

suficientes para la identificación de la mayoría de los genes
procariotas.
©RA-MA Capftulo 8. ANALISIS DE SECUENCIAS 115
8.2 ANÁLISIS DE CALIDAD
Una vez que ya se ha obtenido la secuencia correspondiente a la muestra

preparada en el laboratorio, el siguiente paso es eval uar la calidad de los datos en
bruto y eliminar, recortar o co rregir las lecturas que no cumplan con los estándares
de calidad adecuados. En efecto, la secuenciación de un fragmento de ADN impl ica
su purificación, clonación utilizando un determinado vector (por ejemplo, un
plásmido), amp lificación en organismo huésped (genera lmente, una bacteria o un
virus) y, finalmente, la preparación de la muestra como paso previo a su envío a
la plataforma de secuenciación. Durante este proceso, es posible que fragmentos
accesorios de ADN se enlacen deliberadamente con la muestra objetivo, todo ello sin
olvidar los errores que pudieran ocurrir durante el proceso.
En definitiva, el resultado final es que los datos en bruto ge nerados por

la plataforma de secuenciación hay que filtrarlos y recortarlos para prevenir
conclusiones biológicas erróneas.
Una de las herram ientas más extendidas para determinar y combatir los
efectos de la contaminación de secue ncias es VecScreen, accesib le desde la web del
NCBI y que explo raremos en la Práctica 3.
8.3 ALINEAMIENTO
Una vez que se d ispo ne de una secuencia que cumple con los estándares
de calidad, el paso siguiente es e l al ineam iento o comparación de secuencias. La
comparación de secuencias es una de las tareas más complicadas, hasta ta l punto
que incluso hoy en día está pendiente de resolver. Probablemente sea este el motivo
que explique la falta de un único método de comparación de secuencias. En general,
los algoritmos de alineamiento ana lizan secuencias de caracteres conside rando,
especialmente, algunas características de las secuencias biológicas:
a) Las sec uencias biológicas tienen un juego de caracteres definidos

(cód igos TUPAC-TUB).
b) Existen caracteres que representan el va lor de dos nucleótidos

s imultáneamente.
La Tabla 8.1 resume los métodos más utilizados y que serán estudiados más
adelante en este capítulo.
Herramienta Situaciones en qUt.• se utiliza

Gráfico de puntos • Exploración general de la secuencia
• Búsqueda de repeticiones
• Búsqueda de variaciones largas
• Extracción de fragmentos para alineamientos múltiples
-
Alineamiento local • Comparación de secuencias parcialmente homólogas
• Alineamientos de alta calidad
• Análisis residuo por residuo • 1
Alineamiento global • Comparación de dos secuencias en toda su longitud

• ldcntilicación de variaciones
• Comprobación de la calidad de los datos
Tabla 8.1. Herramientas de comparación de secuencias
El a li neamiento de secuencias es una manera de comparar dos secuencias

primarias de ADN, ARN o proteína para identificar regiones similares que tengan su
justificación en una relación func ional, estructural o evolutiva.
En general, existen dos escenarios diferentes: el alineamiento de la secuencia

con una de referencia o bien el a li neamiento de una secuencia para la que no existe
refere ncia.
En e l primer caso, la secuenciación para una posterior comparación con un

genoma de referenc ia, se siguen tres pasos. Primeramente, las moléculas de ADN se
rompen, por posiciones a leatorias, en fragmentos más pequeños y se secuencia cada
uno de estos fragmentos utilizando enzimas de restricción o métodos mecán icos. A
co ntinuación, se crea una lib rería que contiene esos fragmentos de tamaño conocido
y, finalmente, los fragmentos se mapean siguiendo las instrucciones de una secuencia
de referencia conocida. Este proceso queda resumido en la F igura 8.2.
ADN GENÓM ICO
SECUENCIACIÓN DE
FRAGMENTOS DE ADN
!
MAPEO A UNA SECUENCIA
DE REFERENCIA
Figura 8.2. Alineamiento con una secuencia de referencia

En e l caso del genoma humano, po r eje mplo, ex isten en la actualidad dos

grandes librerías de referencia: e l proyecto ENCODE de la UCSC (University of
Santa Cruz) y la base de datos de l GRC (Genome Reference Co nsorti um). Ambos
recursos proporcionan vari as versiones del genoma humano (hgl8 y hl 9 y GRC36 y
GRC37, respectivamente). Realmente, ambas versiones son idé nticas y la diferencia
estriba en la nomenclatura empleada.
Por otra parte, cuando se tra ta de una nueva secuencia para la que no
existe referencia, los fragmentos de secuencia se ensamblan en grupos solapados
llamados contigs y la secuencia final (co nsenso) se obtiene a partir de estos contigs
sin necesidad de disponer de información so bre la secuencia original (ver Figura
8.3). La precisión de este método aumenta cuando se comparan secuencias largas de
moléculas de ADN de baja tasa de repetición.
SECUENCIACIÓN DE
FRAGMENTOS DE ADN
! ·:
CGGTAAAGGTTCTTCTTGj'IGGGATT ¡ TATC~TGATA!TIAA BÚSQU EDA DE
~GGGATTkTTACCTACTAACGGGtGATA! SOLAPAMIENTOS
¡'···................i ¡..............!
1
CGGTAAAGGTTCTTCTTGAGGGATT ATTACCTACTAACGGGTGATAmAA ENSAMBLADO DELADN
Figura 8.3. Ensamblado de una secuencia de ADN
En cualquiera de los casos, e l res ultado de la comparación de secuencias es

un índice de similitud. Depe ndiendo del número de secuencias que se comparen,
encontramos alineamiento de pares (cua ndo se comparan dos secuencias) o
alineamiento múltip le (más de dos sec uencias).
8.3.1 Gráficos de puntos
Una de las maneras más sencillas de comparar dos secuencias es con un método
visual llamado gráfico de puntos. Se dispone una secuencia en sentido horizontal y
la otra en sentido vertical (ver Figura 8.4) forma ndo una matri z. Cuando exista una
coincidencia de nucleótidos, se marca la casilla correspondiente de la matriz.
Cuando se vayan a comparar dos secuencias, es recomendable

empezar realizando un gráfico de puntos comparando cada una de
ellas consigo misma ya que de esta manera se simplifica la
L-~~J identificación de regiones repetidas dentro de la propia secuencia.
llOii!ool:l!: SI!(;Ut!mt~l
nrtit'!l'l: Secu "n ~iér1
m~tri<: l !fel'l'lit¡
stid r,g \vindou. 1 S
zoom 1. 1
sco:e t~r,ge: O tt~ 1 S
!Jr~1 $UIQ 0%-100~
Figura 8.4. Ejemplo de gráfico de puntos
Aunque el gráfico de puntos es sencillo, para secuencias largas se vue lve

inmanejable desde el punto de vista práctico. Pa ra solventar estos inconvenientes se
em plean los al inea mientos. Básicamente, ex isten dos tipos de al inea miento. En el
alineamiento g lobal, ambas secuencias se a linean en toda su longitud y se encuentra
así el mejor a lineamiento posible. Sin embargo, en e l alineamiento local, se busca el
mejor alineamiento entre las regiones más s imilares y se ignora el resto.
8.3.2 Alineamiento de pares

El alineamiento de pares de secuencias (PSA, Pairwise SequenceA/ignmnent)
consiste en comparar dos secuencias biológicas (ácidos nucleicos o pro teí nas) con el
fin de obtener la s imilitud u homología de ambas, determ inando en qué se parecen y
en qué se diferencian.
La herramienta de alineamie nto de secuencias más utilizada es BLAST

(Basic Local A/ignment Search Too/). BLAST comprueba si la secuencia de entrada
tiene alguna similitud con una librería de secuencias, comparando dicha entrada
con las secuencias de una base de datos y calculando el grado de re levancia de las
coincidencias entre las secuencias. En la Práctica 2 estudiaremos este programa con
más detalle.
Probablemente, la versión más popular de BLAST es la implementación del

NBCI, accesible desde http://www.ncbi.nlm.nih.gov/ BLASTI. Sin emba rgo, existen
otras muc has que pueden encontrarse fácilmente lanzando una búsqueda sencilla en
cualquier buscador.
Existen va rias vers iones de BLAST en e l NCBI, cada una de las cuales
orientada a un fin específico:
,.. BLASTN : se emplea pa ra comparar una secuencia de nucleótidos bajo
estudio con la información guardada en una base de datos de secuenc ias
de nucleó ti dos.
,.. BLASTP: compara una secuencia de aminoácidos con una base de
datos de proteínas, es decir, resu lta útil cuando, teniendo una secuencia
proteica, se desea encontrar secuencias proteicas similares en una base de
datos de secuencias.
,.. BLASTX: traduce una secuencia deADN bajo estudio en sus 6 proteínas
d iferentes (cada una con una ORF) y compara cada una de esta proteínas
con las guardadas en una base de datos de secuencias de proteínas.
,.. TBLASTN: compara la secuencia de am inoácidos bajo estudio con una
base de datos de nucleótidos traducida en sus 6 posi bles ORF.
,.. TBLASTX: compara las seis traducc iones en sus marcos de lectura de la
secuencia de nucleótidos bajo estudio, contra las seis traduccio nes en sus
marcos de lectura de toda la base de datos de nucleótidos.
8.3.3 Alineamiento múltiple

El al inea miento de pa res es útil a la hora de buscar secuencias similares en
una base de datos. Sin embargo, cuando se requiere comparar un número mayor
de secuencias simultáneamente, e l PSA se vuelve inabordable. En estos casos, se
emplea el a li nea mi ento múltiple (MSA, Multiple Sequence Alignmelll) que permite
que, de una sola tacada, se puedan comparar varias secuencias. Por otra parte, el
a li nea miento múltip le, en lugar de consultar una base de datos y generar un ranking
de secuencias por orden de similitud, compara y ali nea las sec uencias de entrada.
E l al inea miento mú ltiple consiste en reescribir las secuencias de entrada de manera
que los fragmentos similares se encuentren en la misma col umna. De esta manera,
es posible detectar características com unes en conjuntos de secuencias y predecir la
estructura y la función de las mismas.
Incluso aunque se esté interesado en la sim ilitud entre dos

secuencias, resulta conveniente realizar un alineamiento mú ltiple
con todas las secuencias disponibles (o un número razonable de
L-~~J ellas). La utilización de estas secuencias adic ionales mejora la
exactitud de los alineamientos entre pares de secuencias.
En gene ral, e l proceso de alineamiento múltiple se basa en la repetición

s istemática de los siguientes pasos:
,.. Obtención de las secuencias a través de una búsqueda en base de datos u

otro medio.
,.. Localización de las regiones que interesa alinear.
,.. Ejecutar el programa de alineamiento. Existe gran cantidad de software

de a lineamiento múltiple (TCoffee, MUSCLE, MAFFT, PROBCONS,
etc.). Sin embargo, el más amp liamente utilizado, y que será desarrollado
en la Práctica 3, es Clustal Omega.
,.. Revisar manualmente los resultados del alineam iento, prestando especial
atención a las regiones con huecos.
,.. Eliminar las secuencias que parezcan distorsionar los resultados y volver
a alinear.
,.. Una vez identificados los residuos clave en las secuencias que han pasado
e l fi ltro del punto ante rior, añadir el resto de secuencias intentando
preservar las características clave de la fami lia.
8.3.4 Puntuación del alineamiento
Para poder comparar alineamientos es necesario establecer algún sistema

de puntuación que cuantifique la s imilitud entre la secuencia bajo estudio y una
secuencia de referencia. De esta manera, e l mejor alineam iento será el que presente
una mayor puntuación.
En el caso de secuencias de nuc leótidos, el sistema de puntuación resulta

relativamente sencillo puesto que únicamente hay que tener en cuenta tres
s ituaciones simples: coincidencia (match), no coincidencia (mismatch) y hueco
(gap). Supongamos que queremos obtener la puntuación del alineamiento entre las
dos siguientes secuencias:
gg-a - tcgga -- tc
ggaaatcggaaatc
Y que el sistema de puntuación e legido es ta l que la coincidencia puntúa 1,

la no coincidencia puntúa O y el hueco puntúa - l . La puntuación del alineamiento
seria, por tanto:
Puntuación = 10 coincidencias * 1+ O no coincidencias * O + 4

huecos *(-1)= 6
Existen otros sistemas de puntuación de alineamiento más complejos que

incluyen penalizaciones, no solo para los huecos, sino también para las situaciones
de apertura o extensión de los mismos.
En e l caso de cadenas de aminoácidos la situación se vuelve más compleja

puesto que la compa ración no es binaria sino que dos aminoácidos pueden ser
iguales, di sti ntos o tener cierto parecido. La soluc ión consiste en ut ilizar matrices
de sustitución. Las matrices de sustitución contienen valores proporcionales a la
probabilidad de que un aminoácido X sea sustituido por un aminoácido Z, y se
calcula la matriz para todos los pa res de aminoácidos posibles.
No existe una matri z de sustitución única que pueda emplearse siempre s ino
que se utiliza una u otra en función de la familia de proteínas y del grado de similitud
u homología esperado. Sin embargo, las más extendidas son las matrices PAM y las
matrices BLOSUM.
Las matrices PAM (Percent Accepted Mutation Matrix) se derivan de

alineamientos glo bales de secuencias. Una matriz PAM es una matriz cuadrada de
orden 20, puesto que 20 so n los aminoácidos esenciales. El valor de cada elemento de
la matriz está re lacionado con la probabilidad de que el am inoácido correspondiente
a la columna antes de la mutación se al inee con el aminoácido correspondiente a la
fila. De esta manera, es posible caracterizar la distancia evolutiva entre las secuencias,
de manera que cuanto mayor sea este número, mayor será dicha d istancia. Es decir,
la matriz PAM250 se ut iliza rá para secuencias de proteínas cuyo grado de homología
esperado sea bajo, mientras que emplearemos la matriz PAM60 cua ndo se espera un
parecido de en torno al 60% entre las secuencias.
Por su parte, las matrices BLOSUM se construyen a partir de alineam ientos

locales. Al igual que las matrices PAM, las matrices BLOSUM se caracteri zan por
122 BIOINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA
un número. Si e l número es alto es porque la matriz se ha diseñado para comparar

secuencias cercanas evolutivamente mientras que, por e l contrario, s i el número es
bajo, la matriz está orientada a secuencias lejanas.
Como vemos, ambos tipos de matrices tienen el mismo objeti vo pero utilizan
metodologías distintas. Mientras que PAM deduce información evolutiva a partir
de la proximidad entre secuencias, BLOSUM se centra en anal izar las mutaciones
entre secuencias relacionadas. No obstante, es posible establecer cierta equi valencia,
como muestra la Tabla 8.2:
PAM BLOSUM
PAM 100 BLOSUM90
PAMI20 BLOSUM80
PAMI60 BLOSUM60
PAM200 BLOSUM52
PAM 250 BLOSUM45
Tabla 8.2. Equivalencia entre las matrices PAM y las matrices BLOSUM
El cálculo de las matrices de sustitución PAM y BLOSOM para la

.-. comparación de secuencias queda fuera del ámbito de este libro.
"' -~
~ v
Rem itimos a la Bibliografia, en donde se encontrarán referencias
que detallan e l proceso con gran exactitud.
8.4 IDENTIFICACIÓN DE VARIACIONES
Una parte crucial del análisis de secuencias es la identificación de variaciones.

Una variación ge nética es una diferencia entre la secuencia bajo estudio y la secuencia
de referencia. Pueden deberse o bien a la herencia de uno de los progenitores o bien a
una mu tación que introduce un cambio en el cromosoma heredado. Estas variaciones
afecta n a la fabricación de proteínas y pueden tener efecto sobre e l fenotipo o no.
La forma de variación más sencilla es aquella en la que las secuencias

difieren en un único nucleótido. Este tipo de variación estructural recibe el nombre
de SN P (Single Nucleotide Polymorphism) o SNY (Single Nucleolide Variation) . Los
SNP son sustituciones de un ún ico nucleótido y se divide n en dos tipos: transiciones
(intercambio de dos purinas o dos pirim idinas) y transversiones (intercambios entre

purinas o pirimidinas). La Figura 8.5 muestra un ejemplo de transición:
Alelol .--- -.
SNP
Alelo2
'- - __ .,
Figura 8.5. Ejemplo de SNP
Existen bases de datos públicas sobre SNP. Dos de las más utilizadas son el
dbSNP del NCBT, que ofrece información sobre variaciones de distintas especies;
y, el HGMD (Human Gene Muwtion Database), especializada en mutaciones del
genoma humano asociadas a enfermedades y SNP funcionales.
Sin embargo, las variaciones estructurales no tienen porqué ser de un único

nucleótido. De hecho, en la actualidad existe una tendencia al estudio de variaciones
polinucleótidas, también llamadas variomas estructurales y que pueden ser:
,.. Sustituciones de una base por otra: también se llaman mutaciones

puntuales o indels (insertion and deletion). Generalmente, son de un
único nucleótido.
,.. Inserciones: se introducen bases ad icionales en la secuencia.
,.. Borrados: se eliminan una o más bases de la secuencia original.
,.. Inversio nes: parte de la secuencia aparece invertida cambiando la

estructura del cromosoma.
,.. Translocaciones: ocurre cuando un segmento del cromosoma se desplaza

a un nuevo lugar del genoma.
Ade más, las va ri aciones pueden clasificarse atendiendo a su ámbito en

cromosómicas, cuando se producen a nivel de un cromosoma; y, génicas, si tienen lugar
a nivel de gen. Si la variación ocu rre dentro de un gen un posible efecto es una variación
en la pauta de lectu ra durante la fase de traducción, sobre todo si la mutación afecta a
una o dos bases, ya que esto tiene un impacto directo en la detección de l codón de inicio
o de fin. Si, por el co ntrario, la mutación afectara a tres bases, el codón quedaría intacto
y el resultado sería la ad ición o eliminación de un aminoácido.
Otro tipo de va riac iones son los polimorfismos. Se trata de variac iones
en la secuencia entre los individuos de una población, algu nos de ellos no tienen
manifestaciones fenotípicas pero otros sí, por ejemplo, como e l gen que codifica
el color de l pelo o de los ojos. Es lo que se conoce co mo CNP (Copy Number
Polymorphism). Si e l polimorfismo es de un solo nucleótido, recibe e l nombre SNP.
Por otra parte, los variomas estructu rales se dividen en dos grandes categorías
(ver F igura 8.6): balanceados, cuando hacen referencia a reordenaciones que no
modifican la longitud total de la secuencia (inversiones o translocaciones intra o
intercromosómicas); y, no balanceados, cuando los variomas sí que modifi can la
longitud tota l de la secuencia (inserciones y de leciones). Los va riomas estructurales
no balanceados también se llaman CNV (Copy Number Variations).
C@9~mlf;J--l'FiAsi:ac
Altlo 1
TA AAT -i
Alelo 1 TACTfCAAAATC lTRI\SLOCACIÓN
Alelo 2
AAAACD T
INVERSIÓN
Alelo 2 ~'1 TACTféAAAAfC
~ 1
INTRACROMOSÓMICA
Ualanc€'adas
Aleleloo
~A~l~J~TA~CTT
Al ~o A2
~ CAAAA
~~JC~I_ _ _ __ Cromosoma A
l RASLOC::ACIÓN
Alelo Bl INTERCROMOSÓMICI\
••~•1~•B~,;-~~r~•~iiAA~A~AT¡2j___ cromosomas
No
Alelo 1 balanceadas
1 TACTICAAAATC 1
~
BORRADO
Ale!o2
Figura 8.6. Variaciones estructurales

Uno de los problemas de las bases de datos genómicas actuales es, precisamente,
la caracterización de variaciones. A grandes rasgos, una variación queda descrita por la
posición en que se ha localizado, el valor original que tenía la secuencia de referencia
y el va lor de la variación. Desgraciadamente, estos pa rámetros dependen del algoritmo
de ali neamiento utilizado y, como consecuencia, científicos diferentes podrían llega r a
conclusiones distintas sobre el mismo hecho. La Figura 8.7 ilustra este hecho:
Referencia AATTGTTA
<-- Secuencia bajo estudio

Algorit mo 1 AAI 1IGiTA
AATTG l i lA
secuencia bajo estudio

Algoritmo 2
AATTTGTTA .t----
AA-TTGTTA
Figura 8.7. Problemas de los algoritmos de alineamiento
En e l caso del primer algoritmo de al ineam iento, se detecta una sustitución

de dos bases, mientras que según el segundo, existe una inserción en una posición.
S in embargo, se trata del mismo cam bio en la secuencia.
Una posible soluc ión a este tipo de problemas es la caracterización de las

variaciones mediante region es adyacentes (jfanking sequences), en lugar de basarse
únicamente en la posició n del nucleótido. De esta manera, una región adyacente
estará formada por un número suficiente de bases que permiten la identificación
de una secuencia dada. Con esta nueva aprox imación (ver Figura 8.8), no existe
amb igüedad posible y se detecta la sustitución en cualquier caso.
Referencia AATTGTTA
Algorit mo 1
AAI IIGJTA ..--- Secuenciabajoestudio
AATTGTTTA
Su stitución GT
Adyacente izda . AATT
Adyacente drcha. TTA
Figura 8.8. Alineamiento mediante regiones adyacentes

Sin embargo, la util ización de regiones adyacentes plantea un p roblema y es

determinar el tamaño óptimo tal que se garantice la identificac ión de la secuencia.
8.5 ANOTACIÓN
El término anotación hace referencia a la obtención de información

biológica de datos de secuencias sin procesar. Una anotación es estructural cuando
está relacionada con la identificación de genes y otros elementos; mientras que una
anotació n es func ional, si está orientada a averiguar su fu nción en el organismo. Las
anotaciones se co nsiguen gracias a la ap licación de las tecnologías de la informac ión
a la gestión y análisis de datos biológicos.
La mayoría de herramientas de anotación de variaciones se centran en la

anotació n de SNP, puesto que es este tipo de va ri aciones el más fác il de identificar
y ana lizar. No obstante, algunas herramientas de última generación son capaces
de anotar CNY. La anotació n más co mún es proporc ionar enlaces a bases de datos
de variaciones como dbSNP. El número de va riac iones depende del genoma. Por
eje mplo, para el genoma humano actua lmente existe n entre 3 y 5 millones de
. .
vanac10nes.
Hay que subrayar que la mayoría de estudios actua les se centran en el exoma
y no en el genoma completo, en parte, porque la secuenciac ión del exorna tiene un
coste asociado menor. Por otro lado, se cree que las variaciones del exoma pueden
tener un mayor impacto funciona l en las enfermedades humanas. Sin embargo,
estudios recientes han demostrado que tam bién las regiones no codificantes influyen
en las enfermedades.
8.6 VISUALIZACIÓN
Las herramientas de visua lización de datos genómicos se c las ifican en:
11"' Herramientas con sopo rte para tratam iento de secuencias nuevas o
experi mentos de secuenciación.
11"' Navegadores genómicos: muestran los datos de secuenciación j untos con

las anotaciones que se hayan realizado sob re los mismos en una interfaz
gráfica unificada.
11"' Visores comparativos que facil itan la comparación de secuencias de

múltip les organismos o individuos.
8J PIPELINESANALÍTICOSYSISTEMASDE FLUJO DE TRABAJO
La combinación de estos métodos de aná lisis para la obtención de resultados

con significado biológico es todavía un reto, incluso para usuarios avanzados.
Una a lternativa viable es la utilizació n de pipelines capaces de ana lizar todos

los pasos y que abarcan desde e l procesamiento de las secuencias en bruto hasta
la anotación de variaciones. Generalmente, establecen un orden predefinido de las
etapas de anál isis e incorporan algoritmos que se pueden modifica r o reemplazar
para adaptarlos a unas necesidades concretas.
PRÁCTICA 3: ANÁLISIS DE SECUENCIAS
9.1 ANÁLISIS DE LA CALIDAD CON VECSCREEN
VecScreen es un programa del NCBT que sirve para determ inar si una
muestra está con taminada uti lizando un algoritmo de similitud de secuencias co n las
almacenadas en la base de datos Un iVec.
~ Cua ndo se rec ibe una secuencia procedente de una plataforma de

~ secuenciación hay que recordar que existen dos potenciales fuentes
.... _ , de error: las inherentes a las limitaciones tecnológicas de las
" - - - --' máquinas secuenciadoras y las debidas a la contaminación de la
secuencia en el laboratorio, previamente a su envío a l secuenciador.
En primer lugar, abrimos un navegadorweb y tecleamos la dirección de la página

principal de VecScreen: http://www.ncbi.nlm.nih.gov/tools/vecscreen/. Seguidamente,
copia mos y pegamos las siguientes secuencias en el área de texto de la pantalla.
>Secuencial Libro Bi oin f ormatica

GTTGCCCCGGCCGCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACC CCTGCTT
CCGTCTGGCTGCCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGG
GAAGGAGGTGCTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTC
GTCCCCCAGGCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCA
TCAACGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTT
TGATCGTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAG
AGGGATCACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGT
CCATCGTCACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGA
TTGGCCTTGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAA
GGTGCAATGATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGC
CATCAAGAAGATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGG
CACTTTGATCAGAAGCTGCTTGAGGAAGAAGCT
> Secuencia2 Libro Bioinformatica
CCGTACCTTGNGGCGATTGGGCCCTCTAGATGCATGCTCGAGCGGCCGCCAGTGTGATGGATA
TCTGCAGAATTCGCCCTTTGCTGCAGCCTTTCCGCCATGCTTCCTCCTAGGGTTGCCCCGGCC
GCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACCCCTGCTTCCGTCTGGCTG
CCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGAAGGAGGTG
CTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTCCCCCAG
GCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAACGAG
CAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATCGT
GACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGAT
CACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATC
GTCACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTG
GCCTTGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGG
TGCAATGATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCC
ATCAAGAAGATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGC
ACTTTGATCAGAAGCTGCTTGAGGAAGAAGCT
Figura 9.1 . Secuencias bajo estudio
Los formatos perm itidos son FASTA o bien un accession o un GI (ver Figura
9.2).
- - - - - - - - - - -· ......,. __ P Ro• • ... ... a
VeeScteen ,.~ •
Vocs.er..n: Sero~ •
~ ..
Soquet~ fOf voc.ot Contatnlnauon
·~- ÑI ....,"'- '~J "' · ~~ .......~, -- .. ., -~.. 'he!•-""""'-

.....
_...,_ -..,..,.......e-*-'"..,.. ~ "'-1 ........ .· - ........... !:!!!:!_. - ~~
• "WWaMH«tto,.a•
( _ , _ . . . , . ........... " ' -... . A«........ (). .. ~ • Crmnc=m
»-~u ;.~CIPO auut•""" ¡q• o Jbtl.bWd)l!. .
v. j i)X(~c«tO«..o:::oc«x:l~;.J'~~ o C...•C!.~S!Mc<•••
~Q;~.;T=;o;T;'l':=;~:;;: . ,,,_.,;;r~
o t".g:• 'f l bY=<!"':::r!; •=1
«>::XOOO.J•~~~~t.\.."'f~
~n..::~=~~
~~~t~~"O'lOQ,I,!)Oau.l.f
o;;Jt.fW;J~-~~~Ct,.,
'"TTT;;I.TQC:T~.m;
~~"1'~~~TOiiOOJ0''"' ' lt;MC;'W'
~~ICQiüO.~~~~~<:Q.!~;:t
lOO:'nT"~!G.I.C"-'-
'=•c•• •~~u··~c~
trV.X.::TT.»Ct~~~OTW1\11n.\11i~UC.:T~Ir.J
~~~"<!S.t..""'="=C!Sn'S' ''"'U'"': ~~ U4
~t~K'l'~a.t~~
O$f' ' 1f51~l'$-~~U.'Mf ''''~
~ :~a: ~= to:o.;.:;PA • o~a
~~r.*«Cr::".NMOCO\t~
:oca.r•t~M~t~ttCOCU~:Io.:XI
fr.l~c«t«<~~:.J~
«'loe'f'f«<C'tC~:OC:t=o:t:~ooo:t'CCt~~
..... --o.'"""'--,..-~ -
...... ...-~
- .. ..r..
Figura 9.2. Página principal de VecScreen

©RA-MA Capitulo 9. PRACTICA 3: ANALISIS DE SECUENCIAS 131
Finalmente, hacemos clic en el botón run VecScr een para obtener la página
de resu ltados, en donde indicamos los parámetros del aná lisis que se va a rea liza r y
pulsa mos en el botón View Report (ver Figura 9 .3).
~ ~...1 lltoo~-..aUl81$to,.
'" '_,. _
~ " '"oroVtoV..c:
Job~ Sto.-ll t Ut~ 5-0fl'o!Wo:lt<:l (TUI.U.MJJ
~QIIOJI II) $\~U>21mR
·- ~..._ ~-
...... g~~~~~~-~-~~c~
~GJ ,.¡~
tiJ
[. <N........ .... =,x·o-:klw
~ ..
•
~,..,. 17~.,o-..-.... r101o -cu~
......._, O....~tt!:I~.Mtc...
_, .......
•
,.,._ -.
1..1 c:tv l ~ f.J
' .. ·~ . . . ........• .
b e.~
•
....
....
Figura 9.3. Informe de resultados
En la ventana de informe, seleccionamos la primera secuencia (ver Figura

9 .4).
ltuds tor: 'l~<ntnt~l ~~lll:~l .. .¡
IUO S't'l!l>2U01JI!. I&~f Qn O& OJCO:U ;..•

~ J1) lttl19116 o.•~~w~~
Oob<r!PI* S«!..<.-no.ll UDtO i:toflfot~•.c.u ~ VfW«~fO)
.........,.,.., ' '"""' nudnc IK>d t~..,.._ lll..t&T'H? ?_,.. .. QI,¡Q¡o
Q-v-l• lt(llto ?3&
....., ...,. . ...,__ ...-,...... -~roo
Figura 9.4. Detalles del informe para la pri mera secuencia

Co mo puede verse, para esta secuencia VecScreen determina que no ha

encontrado ningún resultado, lo que quiere decir que la secuencia no está contaminada
y podemos proseguir e l aná lisis de la m isma.
Ahora, seleccionamos la segunda secuencia. En este caso, la secuencia sí está

contam inada y VecScreen proporciona información útil sobre dicha contaminación.
En la parte superior de l informe se mu estra la d istribución de las secuencias

contam inantes con un código de colores similar al de la Figura 9.5:
SOC:uencta1li:Jro BIOinformatica (738 iOCIIors)
.__,.,. loo: ?t::11i1lf~ Leooblotoo s •'W . IJ

•
liJO S'fXI'j2I10 11 \COIWdCW>OO..,SCO !)..-)
~JO ICIII9111 f>Mio¡s. " <l. . WttnWio}(
Ooe..c;rlpl;.. ~l.bt$~<.. l)u(riplloft thNK (buld 8.0)
.......,.... ,.,.. tlldoie _,. """"•m ~ 1.::1.~" • ct~"'!!!
Q""V uno~ •~
OChoel teoot"U: · ~~·..wlro.II.J [l.aQf ~~ l ..:fJJC'M:: tl~;.:,..ruJ
8 (l!•phis Sznrn•rx
O.ll:::::':"::::::::~::::::::::::::::j~
S.OI'MI'IIf ~W~KIIino ....aon

Slm; tr#Cfl t6-1:2
Sr-mSJ!s¡Or. 1. 15
Figura 9.5. Informe de contaminación de la segunda secuencia
Tal y co mo indica la leye nda, e l rojo se corresponde con un alto nivel de

contaminación; el púrpura, con un ni ve l moderado; y, el verde, co n un nivel bajo. Un
nivel alto o mode rado indica que el segmento orig inal de ADN foráneo se adj untó
a l ADN/ARN origen durante el proceso de clonación. Por el contrario, un nivel de
contamin ación déb il significa que los segmentos de la secuencia son potencialmente
idénticos a los de la secuencia origen.
En la sección de alineamientos (Aiignm ents) enco ntra mos los vectores que
han co nta minado la secuencia bajo estudio (ver Figura 9.6).
..
,
9 Allqn"*lts
~I::U729126 1 156-SEW Clonng ~lor c$-WtT<X: BU:-

... . -'
. . _ _ .. l - - . 2.-o ...._ .......... 1
O;.ett l t ¡,rf~~I"50.1'~515.C6aD~ ''

111111 11 '111111' 11 11 111111 1 11 1111 11111!1•11 1111111
Jibl~~ : ol l!t~:.n=!:.coc:~~2f:.l:.t::r.n:C'I.~n<: t~l
'!>;-=.n ,, o ~,
.!lr>Jc~ ae e ' :.o
-~· (;,:~
--·............... ._·-· ...-...

GritJY,IiG8CXI08S I'I ·Sf ¡:G:R2 I ·TOPO
~~ w-.~ •-tetYdUou! l
t03bft~S4)_ ~·H S4/Sool{lOO'lll)

~" =• ~.U:tO~~tr.t.U\\9.:~te~te:.etttt
.u t:
,_,,« ~
ll ll lll. ll l'l ll ll l ! l l
~G~UocaZ~O.UOOA1lte':tO.GMfTCOOC:::'tt
11111111 11 1111 11111111!1 1
1
'
-·
~~~··· - n- .~
100 1>1'.!($0)
._...
~ 19
, .._.
50(!0(1~)
0:-t:r » e.t~·~.n.~
11111' 111 1' ll l lf . ... . ... 11 1111111111 111 1111 111111
u
!to~ et :H C.:~~:lf:~"IY..:.I~:t':~~ 1t~
Figura 9.6. Vectores contam inantes
Los segmentos extraños ub icados cerca de l final de la secuencia deben

eliminarse, excepto las colas PolyA porque suponen una marca fác il de identi ficar.
Una cola PolyA es una cadena de adeninas que se añade al ARNm durante su
procesamiento para au mentar la estabilidad de la molécula. Por ta nto, eliminaremos
cualquier fragmento de secuencia a partir de la posición de la cola PolyA.
Un fragmento de secuencia extraña en medio de la secuencia bajo análisis

suele indicar que dos fragmentos de la secuencia nativa se han unido, ya sea durante
la clonación o durante el ensamblado de la secuencia. En la mayoría de los casos, el
fragmento de secuencia extraña debe eliminarse y dividir la secuencia bajo análisis
en dos secuencias separadas.
Basándonos en los resultados de la sección de Alineamientos, se observa

que existen secuencias de tres vectores: pSMARTGC Blue, pCR2.1 -TOPO y pCR-
XL-TOPO mulliple c/oning si te. Suponga mos que uti lizamos e l primero durante la
clonación.
a ~~~
V .....lliU1'9721$ 1 1 5~ ~YI(:'IOI ~RlGC&l.lt

~"" U"''~· ta _.,Ufl ol...
oel
.__ .......... ~. '
c.,.. -
! 4 :s
$o:- .,._. · -
12:: ~t:>!'lJ 61f"l{1~) 0}6! Ct*} t.~
~"' '' :.n ~tt:.:.:.:=c.:oc-:~:~~~

11111 11 1 1111 111 111 111 1 11.111.11 11 H
~c
11 lll 11 11 11
.,
:t>):t J (') r.n»XlX''ttiolii!U~~~c...ro:'-C~~~~oan~TK :•t
Or¡e_ry ' (. ' ,..
Ro); t U •) ;; u e'
Figura 9.7. Primer vector de clonación
En este caso, se ve que el alineamiento se corresponde con las bases 17-75

de la secuencia bajo estudio y que, por tanto, las bases 1-75 deben e liminarse. Si
procedemos así, la secuencia origen, una vez recortada quedará:
> Secuencia2 Libro Bioinformatica

GCCCTTTGCTGCAGCCTTTCCGCCATGCTTCCTCCTAGGGTTGCCCCGGCCGCCGCCGCCGCCGC
GCCTACCTATCTCGCCGCCGCGGCCTCGACCCTGCTTCCGTCTGGCTGCCTGTGCCGCGTGGTGC
CGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGAAGGAGGTGCTCAGCGGCGTGGTCTTCC
AGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTCCCCCAGGCCAAGGACCAGTCTCTCGCT
AGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAACGAGCAGATCAATGTGGAGTACAATGC
ATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATCGTGACAACGTTGCTCTCAAGGGATTCG
CCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGATCACGCAGAGAAACTCATCAAGTACCAG
AACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCGTCACACCTTTGACAGAGTTCGACCATCC
TGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCCTTGGCTCTCGAAAAGCTTGTAAATGAGA
AGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAATGATCCACAGCTGACCGACTTCGTTGAG
AGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGAAGATCTCTGAGTATGTCGCCCAGCTGAG
AAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGATCAGAAGCTGCTTGAGGAAGAAGCT
Figura 9.8. Segunda secuencia recortada
Si ahora se vuelve a ejecutar el análisis de la secuencia (pasos 1 al 5), se

obtiene que no se han encontrado similitudes y que, por tanto, la secuencia está
" limpia" y podemos proseguir con el análisis.
-- -
•rtoc .. ,;..., <iYH'k"WM "' ·
..,.... __... ,,,...

IJ6 ;.»Ul,;; !Ou...,......,.-OO.e.MIO)
--·-'"""
Qoon-r•O lol'l'O'~ - . . ..- w ...............
~ -~..\..lilf....... cu ~ """''""~'-" ~
o-"<l~ t•o
Figura 9.9. Resultado de analizar la secuencia recortada

En general, si la co ntaminació n se halla en los extremos de la

secuencia y se corresponde con el vector empleado, la secuencia se
puede limpiar fáci lmente y e l proceso acaba aquí. Si, por el
L-~~J contrario, la contaminación está dispersa, la mejor opción es
desechar la secuencia.
9.2 ANÁLISIS DE LA COMPOSICIÓN DEL ADN
Una vez que estamos seguros de que la secuencia es correcta, ya se está en

condiciones de comenzar a obtener información sobre la misma.
9.2.1 Búsqueda de palabras
El Instituto Pasteur proporciona la herramienta WordCount (http://mobyle.

pastewjdcgi-bin/portal.py?#forms::wordcount) para la búsqueda de palabras, con
sentido bio lógico, en una secuencia dada.
En primer lugar, copiamos la secuencia bajo estudio en el área de texto

dest inada al efecto (ver Figura 9.10 y Figura 9.1 1):
>Secuencial Libro Bioinformatica

GTTGCCCCGGCCGCCGCCGCCGCCGCGCCTACCTATCTCGCCGCCGCGGCCTCGACCCCTGCTTC
CGTCTGGCTGCCTGTGCCGCGTGGTGCCGGACCCGGGGCAGTGTGCAGGGCCGCCGGGAAAGGGA
AGGAGGTGCTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTC
CCCCAGGCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAA
CGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATC
GTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGAT
CACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCGT
CACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCCT
TGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAAT
GATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGAA
GATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGATC
AGAAGCTGCTTGAGGAAGAAGCT
Figura 9.1 O. Secuencia bajo estudio

Mobyle @Pasteur
__.......... ..........
- ..-....
,_,
...........
•
EMBOSS 6.3.1: wordcount
Count ¡¡nd extrilc:t unique words in m ol ec:ul oar
se.quen ce(.s)
. . .............. ~o,..~·~
r.'l!ft~"">~~(IW>~.Mf{HIQG)~. t~r• .,._..,_,, A ,......."~ td.(~t~C<,"'4-ll7
Figura 9.11. WordCount de EMBOSS
Si hacemos clic en Run obtenemos la página de resultados (ver F igura 9.12):
l f:iull-s
o Outptk •~on
'-"IUil~ out otJtios• (\t\'lrdcoun(R<'OO!t)
g wor<k~. e-~ 1i SAVI!
o u~
e zn
1. 165,
¡ li7
p ..~f!f«:C
~e 1~~~------------------------------------------------------------------
~u~~ opdon
Figura 9.12. Página de resultados

Como vemos, la secuenci a bajo estudio está compuesta por 224 guaninas,
202 citosinas, 165 adeninas y 147 timinas. Si ahora, en lugar de contar palabras de
1 nucleótido, se especifica n palabras de 3 nucleótidos, los resultados son los de la
Figura 9 .13. De esta manera, es posible comprobar los ami noácidos que componen
la secuencia.
Wclcomc 1 forrns
'" OutJ!'A sed;on

outfiJc_out
a
CV.G ZS
«< ,
~OG 2:
.U.G 20
GTG l8
C« U
TGC l8
oc ~$
or
s.QuQnC:Iil opUon (Siqt.MI~)

o •-~•qu~.d~ (FM;U ) li u v •
GriGCCCCGGCoCGCCGCCGCCGCCGCGCC7ACCi.:.iCTCGCCGOCGCGGCC!CG;.;;;t; CC!CMTCCw<OTGGCT<;cCTGNCx:GCGlG<ITGCCOOi;cccOOG<j
Figura 9.13. Página de resultados con palabras de 3 nucleótidos
9.2.2 Estadísticas de la secuencia con Genomatix
La empresa Genomatix ofrece una herram ienta web que permite ex traer
estadísticas básicas de una secuencia de A DN.
En primer lugar, indicamos la secuencia en la página principal de Genomatix

(http://www.genomatix.de/cgi-binltools/tools.pl) y pinchamos en el botón Load
Sequence:
138 BIOINFORMÁTICA: El AONA UNSOLOCLIC © RA-MA
+• ~ 9""!·.....·~ ••.t ... ·~· ·~ 1'1J_l~ , _,~_lb_'q~21f:'lhiU1<''>.1MI: .,.,..,..,., <i ;IEJ· - · p (1

" • • .
Y genomatix software suile ••
((M. . . &'WOo» > ..
"-'* HQiM<ICit -~
'-oto«>•!
.....__,.
•mua !tmC:U o
~- o;con W: - U.st9.~~- G.nn•.ü
:IAA.Ttec'n~
~~r:1Ut.:>:t;;.J<:~n-:e-:~:;.,:'):o:"CSX'a.tt
et~\CM'ro
oc•••rccwr"""~'~"rrc.u:.
.
tllo\. . . - . ¡o) ~:..:.oc:T

-.J
-.r~ot,... _ ... ..S~I..lh~
[ fm-rwnv 1N:io)O u Jolotcr.'llldo"I'IG""'•~~~~

01- ·-- ~.:J
,., __ I"'alotl lli•
~·-to:~t--'te t ' e - .
- ·••looo ..-1•1 ~-~ ~~ ..
l.t.oN~•J IJiu«FfliJ
,. .
lt!Qit.l'" ll«o fM ~Iro o C.IWN'WI.IIb: ttbl UtO.UI'II!
~~- ~-·--·---..-lrojlj; ·--·~-·~;,·· .. "o''.._ L~:311 ~
Figura 9.14. Página principal de Genomatix
Una vez cargada la secuencia, pinchamos en el botón St ar t Task pa ra inic iar

e l procesado de la secuencia. Fina lmente, obtendremos unos resultados como los de
la Figura 9.1 5:
+ it ~..... g.no.,....tb.<l'~ '<t·bOIOI".toc~r'tool~-~"••m3i• .:~1b~"tU7H~lSJüS ? C 11- &.o•

~J!!l'EA~ ,..
C rMCe ~IIIU !ot.!IU)k!l
Stao~ t<)r . . •nc-t ~es (738 M8eCilltr3 ~ t ~s):
&t+-Contt M:
..... n .211'1r. .....
T""' .-t.....,..,.~¡.,,. .._,.. ~sl.Jn ce..,..,.. O.ot'5
w:liiO-IIIICIOOCidOS: I)I.H•Ide<l'*::l:
•oeono n.cttoDClO
-
r- .,
•
M ...
"" """' A
A
•• " ..
• '
..
"
e
e
•
T
"'
"'
'"
:V.~"
;.;,;.~"
""""
-""
e
e
T
.." .." ,." .,
" " " "
IIUIK~ S:.
M AC ..
""
' • " ..• ..>
AT CA C<
Jlo«<n~ nlldeotiCio
CT .. oc
..,. "",, co ... TC re n
A
" >
,," ••
.. " ..•• " ,
"' " " •' " ,," •
-· .... ..' "' ' •" •• "•
e
·~· "
•
G
' ' • "

' • " " ..
"
"
:~
"
" " • ' " " •
'
Figura 9.15. Esta dísticas básicas de la secuencia bajo estudio

9.2.3 Búsqueda de repeticiones
Una repetición es un segmento de secuencia que ocurre más de una vez en

la secuencia bajo estudio y que es suficientemente larga como para que la repetición
no sea aleatoria. El interés en las repeticiones se debe a que suelen estar implicadas
en mecanismos de regulación de la expresión de l gen.
La principal diferencia entre el conteo de palabras y el análisis de repetic iones

es que no es necesa rio que las repetic iones sean idénticas. De hecho, se distingue
entre repet iciones en tándem (fragmentos de secuencia similares en la misma heb ra
de ADN) y repet iciones invertidas (fragmentos de secuencia simi lares que ocurren
en la heb ra directa y la inversa).
A la ho ra de anal izar las repetiCiones, el punto crítico es el umbral de

repetición, que es el número de nucleótidos iguales a partir de los cuales se puede
considerar que dos fragmentos de una secuencia constituyen una repetición.
Los algoritmos de búsqueda de repeticiOnes dependen de gran

cantidad de parámetros, por lo que se recomienda contrastar los
valores con d istintas herramientas y, sob re todo, no da r po r
L-~~J defi nitiva una búsqueda de repeticiones infructuosa.
No hay que confundir la ident ificación de una repetic ión en la secuencia bajo
estudio con la identificación de una repetic ión registrada en una lista de repeticiones
predefinidas. En el primer caso, el descubrimiento está relac ionado con la estructura
interna de la secuencia bajo estudio, mientras que en el segundo hace referencia al
reconoc imiento de c ierta similitud entre la secuencia bajo estudio y un conjunto
predefinido de repeticiones almacenadas en una base de datos como RepBase del
Genetic lnformation Research Institute (http://www.girinst.org).
Una manera de contrastar los resultados ofrecidos por distintas herramientas

es uti liza r un gráfico de puntos, sobre todo, cuando estamos trabaja ndo con secuencias
de ADN de una longitud considerable. Para aprender cómo utilizar los gráficos de
puntos, emplearemos la siguiente secuencia:

AGGAGGTGCTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAGCTCAAGGGGGAGCTCTCCCTCGTC
CCCCAGGCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCAA
140 BIOINFORMÁTICA: El AON AUN SOLO CLIC © RA-MA
CGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGATC
GTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGAT
CACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCGT
CACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCCT
TGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAAT
GATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGAA
GATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGATC
AGAAGCTGCTTGAGGAAGAAGCT
Una de las herramientas más uti lizadas para dibujar gráficos de puntos es
e l Dotlet del SIB (http:/lmyhits.isb-sib.ch/cgi-binldotlet). Este sitio web es muy útil
para e l procesamiento simple de secuencias de ADN.
En la página principal de SIB-Dotlet (ve r Figura 9 .1 6), introd uc ire mos la

secuencia en la ventana que se ab re al p inchar e l botón input, tras lo cual haremos
clic en el botón O k de dicha ventana. Una vez que se ha introducido la secuencia, ya
no es posible realizar ninguna mod ificación en la misma.
Dotlet
P~tern
... 54:1<treh
6lASTP/P51•8lASl
Pf'SEAACW (pt'o0e)
I MK:IU {ptofile- ~) t.lll"\t 10C110!1~1: ~,
Motif Sean
Q<wry •.• Plus• t~n 'I'Cr.f n QUt.~a e.IC\Iftmm~
l:ry l'>rot W\
by MOI)f
o\lgtt...,
r."!AI'f'T
1 COf'fLL
PfOflltl Allgn
Obs~>~fy ...
JA<CO
'''""""
"Took ••.
•
Hub
.....
Rt~o~t M5A
PAtoriNt seo
•
Re5111tS
MI'!><
Figura 9.16. Introducción de una secuencia en Dotlet
Al pegar la secuencia en la ventana, no hay que incluir el nombre

de la misma, si no la secuencia de nucleótidos en texto plano.
En este caso, puesto que lo que se desea es la búsqueda de repeticiones,

compararemos la secuencia bajo estudio con ella misma; por ello en los dos
desp legables seleccio naremos el nombre de la secuencia bajo estudio.
Pinchando en e l botón com pute, obtenemos el gráfico de puntos (ver Figura

9.17) resultado de generar una matriz con la secuencia bajo estudio, tanto en el eje
horizontal como en el eje vertical.
e Fl · ~:.r
Dotl et
...
P~tt~m ~Mc:h
Ot.ll$1l'/~· OlAStT
PFSEMOI (pteflt) IIOti:OIU 't : .t\lltf'>: •1
~(pt~·HMM) ~JUI ~KIII.'ntlt l
MObf~ m.tb ot -~
Qu«Y .•.
tl•!m\1..,...,. IS
:oom:1:t
.,..,..
by Pf'OtM $(!rft~I'~KO ~
OfH S.C~tt· Ot.
1$
· 10"
-·""'"·
TCOff:EE
Pfoftto l.llgn
~fy _ ..
""'""
t>lkQom2
T<*S . . .
Hob
....,
Rdorm.;H MSA
~f«m.n SEQ
Re:sutts
"'"'
....... - . . .
' " r o n - •• "' ., o
·'
>"•r•" • ro o o•
........,.,,
,.ro• o• ·~o ••-.
Figura 9.17. Gráfico de puntos
Podemos ve r que el gráfico de puntos contiene una diagona l de lado a lado,

algo lógico si pensamos có mo se construye y que estamos comparando una secuencia
consigo misma. Además, puede observarse una simetría respecto de la diagonal.
En la sección del histograma se represe nta la frecuencia de cada puntuación.

Cada pixel se corresponde con una base en la secuenc ia horizo ntal y otra en la
secuencia vertica l y su color depende de la simi litud de estas dos secuencias en la
posición correspondiente al pixe l, de manera, que cua nto más oscuro es el pixel,
menor es la similitud. Es decir, que el pixel represen ta una medida o puntuación
de la s im ilitud de las secuencias que se co mpara n. En ge neral, existe un elevado
número de pixels co rrespo ndientes a un bajo nivel de similitud que tienden a
confundi r la interpretación del gráfico. Es posible eliminar su efecto moviendo la
barra de desplazamiento bajo la ventana del histograma hasta una posición en la que
las simili tudes bajas (las más abundantes) se fi ltren, esto es, hasta frecuencias del
histograma relativamente pequeñas. Llegados a este punto, el gráfico se ocurecerá,
ta l y como muestra la Figura 9. 18.
h~ri!ontal: Se:<ue:nci:rl Ltoro Gl~ :nfo :m~l ~ ~

Yertic:tl: Se:tue:nd:tllitJ;o Sioirlolm:tll.a
m~tri:t: ld,!ii!v
s i dlogw.ndO'W 1S
%OOm: 1:Z
St OII~ r<IM!j@'' 0 to 1 5
ur..,y $t .,le 51~· l (Xfl)
1 \
St:t:ut~nc;kl1 lbo Bioinfurm&:icill 8

TT«« I CO<m <CIICe««<<i<IDC7.iiiC71oi'~C71CiilcccT
Tt '!"t "tl'.I.1.Wetu'l.AA(,1'TCG-'Jt G-J.t (;A.t-~!;;l.~CA'lt.U (;(J.(;J..' fi.Un;"rt;. (>l 'A.QAAT«A'Jiebd¡;.t:GI,.t.t llJn;lat·l-rrJCCIJVm t;J.
S~ttut:n~i.:l1lbo BioiufUim4tit:.o 270
S~l(!i<l l UbnJ 6ioic•fonnotie<t (•tM:omp'tJ) 8
C)I1CICS.O~""""l'<CCCCCCC,...>.j¡~CCCCCC~j:IICl<CCCCCCAAq
'T'If!'Cit:f'~A.AA.lll'nCC'!CCJ.CIJ:C\I('CUII»X'ATC'.U.C'~'!'CllTC:TC.qlCT1CüTCC/tTCCTlCCCc.TJ.CC1t'f'CC'·!:'TTTTCCCC'T!CTri'Cl
SllCuencta1 LllfO BIO!flrc~rn2ltlcal 2111
Figura 9.18. Filtrado del ruido de fondo
Una vez fi ltrado el ruido de fondo, podemos identifica r las repeticiones como
las líneas que aparezcan a ambos lados de la diagonal. Si las líneas son perpendiculares,
están asociadas a secuencias palindrómicas o repeticiones invertidas.
Una secuencia palindrómica es aquella que se lee igual hacia

de lante que hacia atrás. Por ejemplo, AGGA.
Si ca mbiamos el tamaño de la ventana a 11 y redibujamos el gráfico de

puntos, aparecen áreas con una elevada densidad de pun tos, como los rectángulos de
la parte superior de la Figura 9. 19. Estas áreas son secuencias repetidas con pocos
aminoácidos, como se puede comprobar en la sección de alineamiento, de la que
hablaremos más adelante.
ll(llizOflt¡t Stcv inli ~ l U)!O Ekli r-lnitK~

vti'IC41:~t'.l~Mf ) l L_,nl '116111to)l'mY. Il4
f(~'t( :do:'ltlli
CIUin(J ~t"~ 11
i GCm: 1 1
S«~re rllno; e: O to 11
IJI-SC&If: )2':~· 1 00 ~
-,,
"""" ••ooroo•• '" ••••
............. , ...... '"''l'"
¡1, 1 •••• o•orro
·• ....... ..... .
~
•r ""'
socuon~1 Libro 8iotr:urm~ 1•

Sot,cucnc:ill1 lbo Oiainfor-t1lllllic.a (lfNConiP'oe 6
~1Cc.&G~~~~CQXQ!i.UAIÑ"7liGG!Oiit(;4/CINCG~
Jr!ICO."f~'OCCCO:«'CCC CCCO:CT.I.CCTA'tl!'l'tCCOOCCC:CCVCc."rro>\tcC
Sl.leuon~t l.IH'O 8iOII(Ofmatiea Id;
Figura 9.19. Recálculo del gráfico de puntos
El alineamiento de la secuencia bajo estudio consigo misma puede verse

en la parte inferior de la pa ntalla (ver Figura 9.20). Los residuos que están en azu l
indican que son idénticos y la ventana de compa ración está marcada en vio leta.
Mov iendo las barras de desp lazam iento, la venta na se va desplazando a lo largo de
las secuencias.
Si!C:UI!tiCM 1 li11 u
•
Figura 9.20. Sección de alineamiento

Veamos ahora qué ocurre cuando comparamos do s secuencias diferentes y

como e l gráfico de puntos puede ayudar en la identificación de secuencias. Para ello,
trabajaremos con las siguientes dos secuencias, correspondientes al ARN mensajero
de Cftr de ratón (accession NM _ 02 1050.2) y su equivalente humano (NM _ 000492.3 ).
>gi 11160081791 ref 1NM_021050 . 21 Mus musculus cystic fibrosis

transmemb rane conductance regulator (Cftr) , mRNA
AATTGGAAGCAAATGACATCACCTCAGGTCTGAGTAAAAGGGACGAGCCAAAAGCATTGACCTGG
TCCTGGATATCCAGATGTCGAGTCCAACCTGAATTTAGCCGAACACAGACCTCATTGCCTCACGG
AGACATCATGCAGAAGTCGCCTTTGGAGAAAGCCAGCTTTATCTCCAAACTCTTCTTCAGCTGGA
CCACACCAATTTTGAGGAAAGGGTACAGACACCACTTGGAGTTGTCAGACATATACCAAGCCCCT
TCTGCTGATTCAGCTGACCACTTGTCTGAAAAACTAGAAAGAGAATGGGACAGAGAACAAGCTTC
AAAAAAGAATCCCCAGCTTATCCACGCCCTTCGGCGATGCTTTTTCTGGAGATTCCTCTTCTATG
GAATTTTGCTATACCTAGGGGAAGTCACCAAGGCTGTCCAGCCTGTCTTGCTAGGAAGAATCATA
GCATCCTATGATCCAGAAAACAAGGTGGAACGTTCCATTGCCATTTACCTTGGCATAGGCTTATG
CCTTCTCTTCATTGTCAGGACACTGCTTCTTCACCCAGCTATTTTTGGCCTTCATCGCATTGGAA
TGCAGATGAGAACAGCTATGTTTAGCTTGATTTATAAGAAGACTTTAAAGTTGTCAAGCCGCGTT
CTTGATAAAATAAGTATTGGACAACTTGTTAGTCTTCTTTCCAACAACCTGAACAAATTTGATGA
AGGACTTGCCTTGGCACATTTTATATGGATTGCTCCTTTACAAGTGACTCTTCTGATGGGGCTTC
TCTGGGACTTGTTACAGTTCTCAGCCTTCTGTGGCCTTGGTTTACTGATAATCCTGGTTATTTTT
CAAGCTATCCTAGGGAAGATGATGGTGAAGTACAGAGATCAGAGAGCTGCAAAGATCAATGAAAG
ACTCGTGATCACATCAGAAATTATTGATAATATCTATTCTGTTAAGGCATATTGTTGGGAATCAG
CGATGGAGAAAATGATTGAAAACTTGAGAGAGGTGGAGCTGAAAATGACCCGGAAGGCGGCCTAT
ATGAGGTTCTTCACTAGCTCTGCCTTCTTCTTTTCAGGGTTCTTTGTAGTCTTTCTATCTGTGCT
TCCCTACACAGTCATCAACGGAATCGTCCTACGAAAAATATTCACAACCATTTCATTCTGCATTG
TCCTACGTATGTCAGTCACACGGCAGTTCCCCACTGCCGTACAGATATGGTATGATTCTTTTGGA
ATGATAAGAAAAATACAGGATTTCCTGCAGAAACAAGAGTATAAAGTACTGGAGTATAACTTAAT
GACCACAGGCATAATCATGGAAAATGTAACAGCATTTTGGGAGGAGGGATTTGGGGAATTACTGG
AGAAAGTACAACAAAGCAATGGTGACAGAAAACATTCCAGTGATGAGAACAATGTCAGTTTCAGT
CATCTCTGCCTTGTGGGAAATCCTGTGCTGAAAAACATCAATTTGAATATAGAGAAAGGAGAGAT
GTTGGCTATTACTGGATCTACTGGATCAGGAAAGACATCACTCCTGATGTTGATTTTGGGAGAAC
TGGAAGCTTCAGAGGGAATTATTAAGCACAGTGGAAGAGTTTCATTCTGCTCTCAATTTTCTTGG
ATTATGCCGGGTACTATCAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAGTACAGATATAA
GAGTGTTGTCAAAGCTTGCCAACTACAGCAGGACATCACCAAGTTTGCAGAACAAGACAACACAG
TTCTTGGAGAAGGTGGAGTCACACTGAGTGGAGGTCAGCGTGCAAGGATTTCTTTAGCAAGAGCA
GTATATAAAGATGCTGATTTGTACCTATTAGATTCCCCTTTTGGATATCTAGATGTTTTTACTGA
AGAACAAGTATTTGAAAGCTGTGTTTGTAAATTGATGGCCAACAAAACTAGGATTTTGGTTACAT
CTAAAATGGAACACTTAAGGAAAGCTGACAAAATACTAATTTTGCATCAGGGCAGTAGCTATTTT
TATGGGACATTTTCTGAGCTACAAAGTCTACGTCCAGACTTCAGTTCGAAACTCATGGGGTATGA
TACTTTTGACCAGTTTACTGAGGAAAGAAGAAGTTCAATTCTAACTGAGACCTTACGCAGGTTCT
CAGTAGACGATTCCTCTGCCCCGTGGAGCAAACCCAAACAGTCGTTTAGACAGACTGGAGAGGTG
GGAGAAAAAAGGAAGAACTCTATTCTAAATTCATTCAGCTCTGTAAGGAAAATTTCCATTGTGCA
AAAGACTCCATTATGTATCGATGGAGAGTCTGATGATCTCCAAGAAAAGAGACTGTCCCTAGTTC
CGGATTCTGAACAGGGGGAGGCTGCTCTGCCGCGCAGCAACATGATCGCCACCGGCCCCACATTT
CCAGGCAGAAGAAGACAGTCTGTTTTGGATCTGATGACGTTCACACCCAACTCAGGCTCCAGCAA
TCTTCAGAGGACCAGAACTTCTATTCGAAAAATCTCCTTAGTCCCTCAGATAAGCTTAAATGAAG
TGGATGTATATTCAAGGAGATTATCGCAAGATAGCACACTGAACATCACTGAAGAAATTAACGAA
GAAGATTTAAAGGAGTGTTTTCTTGATGATGTGATCAAGATACCCCCGGTGACAACATGGAACAC
ATACCTACGATATTTTACTCTCCATAAAGGCTTACTGCTAGTGCTGATTTGGTGCGTACTGGTTT
TTCTGGTTGAGGTGGCTGCTTCTTTATTTGTGTTATGGTTGCTTAAAAACAACCCTGTTAACAGT
GGAAACAATGGTACTAAAATTTCCAATAGCTCCTATGTTGTGATCATCACCAGTACCAGTTTCTA
TTATATTTTTTACATTTACGTGGGAGTGGCTGACACTTTGCTTGCCCTGAGCCTCTTCAGAGGTT
TGCCGCTGGTGCATACGTTAATCACAGCATCAAAAATTTTGCACAGGAAAATGTTACACTCCATT
CTTCACGCCCCTATGTCGACCATCAGCAAGCTGAAAGCAGGTGGGATTCTTAACAGATTCTCCAA
AGATATAGCAATTTTGGATGACTTTCTGCCTCTTACCATTTTTGACTTCATTCAGTTGGTGTTCA
TTGTGATTGGAGCTATAATAGTCGTCTCGGCATTACAACCCTACATCTTCCTAGCAACGGTGCCA
GGGCTAGTAGTCTTTATTTTACTGAGGGCCTACTTCCTTCATACAGCACAGCAGCTCAAACAACT
GGAATCTGAAGGCAGGAGTCCAATTTTCACCCACCTTGTGACAAGCTTAAAAGGACTCTGGACAC
TTCGAGCCTTCCGACGCCAGACTTACTTTGAAACTCTGTTCCACAAAGCTCTGAATTTGCACACT
GCCAACTGGTTTATGTATCTGGCAACCTTGCGCTGGTTCCAAATGAGAATAGACATGATATTTGT
CCTCTTCTTCATTGTTGTTACCTTCATCTCCATTTTAACAACAGGTGAAGGAGAAGGAACAGCTG
GTATTATTCTAACTTTAGCTATGAATATCATGAGTACTTTGCAGTGGGCTGTGAACTCAAGCATT
GATACAGATAGCTTGATGCGATCTGTGAGCAGAGTGTTTAAGTTTATTGATATACAAACAGAAGA
AAGTATGTACACACAGATAATTAAAGAACTACCTAGAGAAGGATCATCTGACGTTTTAGTCATTA
AGAATGAGCATGTGAAGAAAAGTGATATCTGGCCCTCTGGAGGCGAAATGGTTGTCAAAGACCTT
ACTGTGAAATACATGGATGATGGAAATGCCGTATTAGAGAACATTTCTTTTTCAATAAGTCCTGG
ACAGAGGGTGGGGCTCTTAGGAAGAACTGGATCAGGAAAAAGTACTTTGCTTTCAGCATTTTTAC
GAATGTTGAACATTAAAGGTGATATAGAGATTGATGGTGTCTCATGGAATTCAGTGACCTTACAA
GAATGGAGGAAAGCTTTCGGAGTGATAACACAGAAAGTATTTATCTTTTCTGGAACATTCAGACA
AAACCTGGATCCCAATGGAAAATGGAAAGATGAAGAAATATGGAAAGTTGCAGATGAGGTTGGAC
TCAAGTCTGTAATAGAGCAGTTTCCTGGACAGCTCAACTTTACCCTTGTGGATGGGGGTTATGTG
CTAAGCCATGGCCATAAGCAATTAATGTGCTTGGCCCGATCAGTTCTCAGTAAGGCCAAGATCAT
ACTGCTTGATGAGCCCAGTGCCCATCTAGACCCCATAACATACCAAGTCATTCGACGAGTTCTAA
AACAAGCCTTCGCTGGTTGCACAGTCATCCTCTGTGAACACAGGATAGAAGCGATGTTGGATTGC
CAGCGATTTTTGGTCATAGAAGAGAGCAATGTCTGGCAGTACGACTCCCTTCAGGCACTTCTGAG
TGAGAAGAGTATCTTCCAGCAGGCCATTAGCTCCTCGGAAAAGATGAGGTTCTTCCAGGGCCGCC
ACTCCAGCAAGCACAAGCCTCGGACGCAAATTACTGCTCTGAAAGAGGAGACAGAAGAAGAAGTT
CAAGAAACCCGTCTCTAGTGCTGGGATGCTGAGGAAGCAACTCAGTGCACTGAGTCCATTCCCAG
AACCCATGCAGAATGAAAAAAGCCAGGCATTTCCCATGCTTCTAACCCCAGTGCTGGGGACACAG
AGACAGGTGGATCCCTGGGGCTCTGTGGCAAGTGATCCTAGCCCACAAAGAGAGTTCCAGGCTGG
GCACCTGAGGGACAATACCTGTGGATATACTCTTGCTTCCACATGCAAGTACATATACACATGCA
TGCACATTAGTGGACATACACACAGAAAAGCAAAGAAGAAGGAAAGAGGGAAGAAAATAGTGCAA
ATAATTGCAAAACGATCATGTATGGAGTCTGCTCATGGACTTAGAGGAGGTGAACTCTACTACCT
GTGCCTTTGAAAGAAGGGTGAAGCCTGCGACTTGCTCTTTAAGAGACTGTTTTGGAAGAGAGTTC
AAAAACGTTCATATGGGTATGGGTAACTGACTTTCCAGCAGTAGTCAAATTGTTTGAACTTCAGA
TAGTTGATAATGACCACTTGTGTATTGCAAGGCAGATTTTTCTGAAAACATTTGCCCCCTAATAG
TAGCTGAAAAAGCAGCTATAAATGCCAACCAGGTTAGTCATTCGGCTTATTGTTCAGTACAGCTG
GTTAATTTGCATTATTGAAGAACTGAAATTATAGTGCTTAGATATAGGACAAAGTAAAGAGAACT
AAAAACAGTGTCTTATATAACTCAAAGCCCAACTTACTTTCCTCTAAGATATGTATTGCCTTCTA
TACATTGTCTGCCCCATTCCAAGCAAATGTTAGAATATTATACAAAATACTGGGTGGTATTGATT
GA.AAGATGCCCGACATCTGGTGATCTAGTAACCCATCAGGATT AAGGATA TCCAGGTCTTGGAAA
TTAAGGTTAAGACCATCTAGCCTTACTACCGTACAGCTAAACATTCTTATTACCAGAATAAGACC
TAGGAAAAGAACTGTTTCAGTCCCATAAAGTGGCCTGGATAATTTCCTTGATATGGAAATCGACA
CACTTATGTTCCCAGAAAGCAACAGATCTTTAAGACTTCTGAAGTGAAGGAAGGTTGTGTTAGTG
CAAACTAGTGCAGCCCAGTGCCAGGTCCAGGAGTTAACATGTAGACAGGCCATGGACTGTGTGGG
TAGATGCTCATGGAAATGTGCAGTAGTATGTTCATGTGCTCTCAGCTAGCTGTGTGTACTTCAAA
CTGTCTCCACAGAGTTGTTGGGGAGACACTCTGAAAAAGAATTAATTGTGAATTAGTTTTATATA
CTTTGTTTTATAATTTGTGATGCAAATGAAAATTTCTCTGGGAAATATTTATTTTAGTAATAATG
TTTCAAACTCATATATAACAATGCTGTATTTTAAGAATGATTACATAATGACTTATATTTGTATA
AAATAATTTTTATATTTGAAATGTTAACTTTTTATAGCACTAGCTATTTTAAAACAGGGGAGTGA
GGAGGACAGGGATGATAAGGATCATTCAACTTCATGTTGTGAAGACGAGCTGATGTAAATCTTGT
ACCCATCTGTGTGGTTCTCAGACAACACATGCTCTCTTTTAATGCAGCTTTGAAGAAGATGGTAC
CAAAGGTTAAGACGGCCCCCTGATGGGCACATCAACTTCTGAACTGCAAACTAAGCTTTAGAGGA
ATGTATTATATTTATTACTGTAATAGAATATCATGTGTCAATAAAATCCTTTTATTTGTGTGAAA
>gil904213121refiNM_000492 . 31 Homo sapiens cystic fibrosis
transmembrane conductance regulator (ATP-binding cassette
sub-family C, member 7) (CFTR) , mRNA
AATTGGAAGCAAATGACATCACAGCAGGTCAGAGAAAAAGGGTTGAGCGGCAGGCACCCAGAGTA
GTAGGTCTTTGGCATTAGGAGCTTGAGCCCAGACGGCCCTAGCAGGGACCCCAGCGCCCGAGAGA
CCATGCAGAGGTCGCCTCTGGAAAAGGCCAGCGTTGTCTCCAAACTTTTTTTCAGCTGGACCAGA
CCAATTTTGAGGAAAGGATACAGACAGCGCCTGGAATTGTCAGACATATACCAAATCCCTTCTGT
TGATTCTGCTGACAATCTATCTGAAAAATTGGAAAGAGAATGGGATAGAGAGCTGGCTTCAAAGA
AAAATCCTAAACTCATTAATGCCCTTCGGCGATGTTTTTTCTGGAGATTTATGTTCTATGGAATC
TTTTTATATTTAGGGGAAGTCACCAAAGCAGTACAGCCTCTCTTACTGGGAAGAATCATAGCTTC
CTATGACCCGGATAACAAGGAGGAACGCTCTATCGCGATTTATCTAGGCATAGGCTTATGCCTTC
TCTTTATTGTGAGGACACTGCTCCTACACCCAGCCATTTTTGGCCTTCATCACATTGGAATGCAG
ATGAGAATAGCTATGTTTAGTTTGATTTATAAGAAGACTTTAAAGCTGTCAAGCCGTGTTCTAGA
TAAAATAAGTATTGGACAACTTGTTAGTCTCCTTTCCAACAACCTGAACAAATTTGATGAAGGAC
TTGCATTGGCACATTTCGTGTGGATCGCTCCTTTGCAAGTGGCACTCCTCATGGGGCTAATCTGG
GAGTTGTTACAGGCGTCTGCCTTCTGTGGACTTGGTTTCCTGATAGTCCTTGCCCTTTTTCAGGC
TGGGCTAGGGAGAATGATGATGAAGTACAGAGATCAGAGAGCTGGGAAGATCAGTGAAAGACTTG
TGATTACCTCAGAAATGATTGAAAATATCCAATCTGTTAAGGCATACTGCTGGGAAGAAGCAATG
GAAAAAATGATTGAAAACTTAAGACAAACAGAACTGAAACTGACTCGGAAGGCAGCCTATGTGAG
ATACTTCAATAGCTCAGCCTTCTTCTTCTCAGGGTTCTTTGTGGTGTTTTTATCTGTGCTTCCCT
ATGCACTAATCAAAGGAATCATCCTCCGGAAAATATTCACCACCATCTCATTCTGCATTGTTCTG
CGCATGGCGGTCACTCGGCAATTTCCCTGGGCTGTACAAACATGGTATGACTCTCTTGGAGCAAT
AAACAAAATACAGGATTTCTTACAAAAGCAAGAATATAAGACATTGGAATATAACTTAACGACTA
CAGAAGTAGTGATGGAGAATGTAACAGCCTTCTGGGAGGAGGGATTTGGGGAATTATTTGAGAAA
GCAAAACAAAACAATAACAATAGAAAAACTTCTAATGGTGATGACAGCCTCTTCTTCAGTAATTT
CTCACTTCTTGGTACTCCTGTCCTGAAAGATATTAATTTCAAGATAGAAAGAGGACAGTTGTTGG
CGGTTGCTGGATCCACTGGAGCAGGCAAGACTTCACTTCTAATGGTGATTATGGGAGAACTGGAG
CCTTCAGAGGGTAAAATTAAGCACAGTGGAAGAATTTCATTCTGTTCTCAGTTTTCCTGGATTAT
GCCTGGCACCATTAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAATATAGATACAGAAGCG
TCATCAAAGCATGCCAACTAGAAGAGGACATCTCCAAGTTTGCAGAGAAAGACAATATAGTTCTT
GGAGAAGGTGGAATCACACTGAGTGGAGGTCAACGAGCAAGAATTTCTTTAGCAAGAGCAGTATA
CAAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATACCTAGATGTTTTAACAGAAAAAG
AAATATTTGAAAGCTGTGTCTGTAAACTGATGGCTAACAAAACTAGGATTTTGGTCACTTCTAAA
ATGGAACATTTAAAGAAAGCTGACAAAATATTAATTTTGCATGAAGGTAGCAGCTATTTTTATGG
GACATTTTCAGAACTCCAAAATCTACAGCCAGACTTTAGCTCAAAACTCATGGGATGTGATTCTT
TCGACCAATTTAGTGCAGAAAGAAGAAATTCAATCCTAACTGAGACCTTACACCGTTTCTCATTA
GAAGGAGATGCTCCTGTCTCCTGGACAGAAACAAAAAAACAATCTTTTAAACAGACTGGAGAGTT
TGGGGAAAAAAGGAAGAATTCTATTCTCAATCCAATCAACTCTATACGAAAATTTTCCATTGTGC
AAAAGACTCCCTTACAAATGAATGGCATCGAAGAGGATTCTGATGAGCCTTTAGAGAGAAGGCTG
TCCTTAGTACCAGATTCTGAGCAGGGAGAGGCGATACTGCCTCGCATCAGCGTGATCAGCACTGG
CCCCACGCTTCAGGCACGAAGGAGGCAGTCTGTCCTGAACCTGATGACACACTCAGTTAACCAAG
GTCAGAACATTCACCGAAAGACAACAGCATCCACACGAAAAGTGTCACTGGCCCCTCAGGCAAAC
TTGACTGAACTGGATATATATTCAAGAAGGTTATCTCAAGAAACTGGCTTGGAAATAAGTGAAGA
AATTAACGAAGAAGACTTAAAGGAGTGCTTTTTTGATGATATGGAGAGCATACCAGCAGTGACTA
CATGGAACACATACCTTCGATATATTACTGTCCACAAGAGCTTAATTTTTGTGCTAATTTGGTGC
TTAGTAATTTTTCTGGCAGAGGTGGCTGCTTCTTTGGTTGTGCTGTGGCTCCTTGGAAACACTCC
TCTTCAAGACAAAGGGAATAGTACTCATAGTAGAAATAACAGCTATGCAGTGATTATCACCAGCA
CCAGTTCGTATTATGTGTTTTACATTTACGTGGGAGTAGCCGACACTTTGCTTGCTATGGGATTC
TTCAGAGGTCTACCACTGGTGCATACTCTAATCACAGTGTCGAAAATTTTACACCACAAAATGTT
ACATTCTGTTCTTCAAGCACCTATGTCAACCCTCAACACGTTGAAAGCAGGTGGGATTCTTAATA
GATTCTCCAAAGATATAGCAATTTTGGATGACCTTCTGCCTCTTACCATATTTGACTTCATCCAG
TTGTTATTAATTGTGATTGGAGCTATAGCAGTTGTCGCAGTTTTACAACCCTACATCTTTGTTGC
AACAGTGCCAGTGATAGTGGCTTTTATTATGTTGAGAGCATATTTCCTCCAAACCTCACAGCAAC
TCAAACAACTGGAATCTGAAGGCAGGAGTCCAATTTTCACTCATCTTGTTACAAGCTTAAAAGGA
CTATGGACACTTCGTGCCTTCGGACGGCAGCCTTACTTTGAAACTCTGTTCCACAAAGCTCTGAA
TTTACATACTGCCAACTGGTTCTTGTACCTGTCAACACTGCGCTGGTTCCAAATGAGAATAGAAA
TGATTTTTGTCATCTTCTTCATTGCTGTTACCTTCATTTCCATTTTAACAACAGGAGAAGGAGAA
GGAAGAGTTGGTATTATCCTGACTTTAGCCATGAATATCATGAGTACATTGCAGTGGGCTGTAAA
CTCCAGCATAGATGTGGATAGCTTGATGCGATCTGTGAGCCGAGTCTTTAAGTTCATTGACATGC
CAACAGAAGGTAAACCTACCAAGTCAACCAAACCATACAAGAATGGCCAACTCTCGAAAGTTATG
ATTATTGAGAATTCACACGTGAAGAAAGATGACATCTGGCCCTCAGGGGGCCAAATGACTGTCAA
AGATCTCACAGCAAAATACACAGAAGGTGGAAATGCCATATTAGAGAACATTTCCTTCTCAATAA
GTCCTGGCCAGAGGGTGGGCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCT
TTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATAAC
TTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACAT
TTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAAATATGGAAAGTTGCAGATGAG
GTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGG
CTGTGTCCTAAGCCATGGCCACAAGCAGTTGATGTGCTTGGCTAGATCTGTTCTCAGTAAGGCGA
AGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGA
ACTCTAAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCT
GGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACGATTCCATCCAGAAAC
TGCTGAACGAGAGGAGCCTCTTCCGGCAAGCCATCAGCCCCTCCGACAGGGTGAAGCTCTTTCCC
CACCGGAACTCAAGCAAGTGCAAGTCTAAGCCCCAGATTGCTGCTCTGAAAGAGGAGACAGAAGA
AGAGGTGCAAGATACAAGGCTTTAGAGAGCAGCATAAATGTTGACATGGGACATTTGCTCATGGA
ATTGGAGCTCGTGGGACAGTCACCTCATGGAATTGGAGCTCGTGGAACAGTTACCTCTGCCTCAG
AAAACAAGGATGAATTAAGTTTTTTTTTAAAAAAGAAACATTTGGTAAGGGGAATTGAGGACACT
GATATGGGTCTTGATAAATGGCTTCCTGGCAATAGTCAAATTGTGTGAAAGGTACTTCAAATCCT
TGAAGATTTACCACTTGTGTTTTGCAAGCCAGATTTTCCTGAAAACCCTTGCCATGTGCTAGTAA
TTGGAAAGGCAGCTCTAAATGTCAATCAGCCTAGTTGATCAGCTTATTGTCTAGTGAAACTCGTT
AATTTGTAGTGTTGGAGAAGAACTGAAATCATACTTCTTAGGGTTATGATTAAGTAATGATAACT
GGAAACTTCAGCGGTTTATATAAGCTTGTATTCCTTTTTCTCTCCTCTCCCCATGATGTTTAGAA
ACACAACTATATTGTTTGCTAAGCATTCCAACTATCTCATTTCCAAGCAAGTATTAGAATACCAC
AGGAACCACAAGACTGCACATCAAAATATGCCCCATTCAACATCTAGTGAGCAGTCAGGAAAGAG
AACTTCCAGATCCTGGAAATCAGGGTTAGTATTGTCCAGGTCTACCAAAAATCTCAATATTTCAG
ATAATCACAATACATCCCTTACCTGGGAAAGGGCTGTTATAATCTTTCACAGGGGACAGGATGGT
TCCCTTGATGAAGAAGTTGATATGCCTTTTCCCAACTCCAGAAAGTGACAAGCTCACAGACCTTT
GAACTAGAGTTTAGCTGGAAAAGTATGTTAGTGCAAATTGTCACAGGACAGCCCTTCTTTCCACA
GAAGCTCCAGGTAGAGGGTGTGTAAGTAGATAGGCCATGGGCACTGTGGGTAGACACACATGAAG
TCCAAGCATTTAGATGTATAGGTTGATGGTGGTATGTTTTCAGGCTAGATGTATGTACTTCATGC
TGTCTACACTAAGAGAGAATGAGAGACACACTGAAGAAGCACCAATCATGAATTAGTTTTATATG
CTTCTGTTTTATAATTTTGTGAAGCAAAATTTTTTCTCTAGGAAATATTTATTTTAATAATGTTT
CAAACATATATAACAATGCTGTATTTTAAAAGAATGATTATGAATTACATTTGTATAAAATAATT
TTTATATTTGAAATATTGACTTTTTATGGCACTAGTATTTCTATGAAATATTATGTTAAAACTGG
GACAGGGGAGAACCTAGGGTGATATTAACCAGGGGCCATGAATCACCTTTTGGTCTGGAGGGAAG
CCTTGGGGCTGATGCAGTTGTTGCCCACAGCTGTATGATTCCCAGCCAGCACAGCCTCTTAGATG
CAGTTCTGAAGAAGATGGTACCACCAGTCTGACTGTTTCCATCAAGGGTACACTGCCTTCTCAAC
TCCAAACTGACTCTTAAGAAGACTGCATTATATTTATTACTGTAAGAAAATATCACTTGTCAATA
AAATCCATACATTTGTGTGAAA
Figura 9.21 . Secuencias bajo estudio
Una vez introducidas las secuencias y, puesto que son relativamente largas,
ajusta remos los parámetros del gráfico como los de la Figura 9.22 con un zoom de
1: 1O y un tamaño de ventana de 59:
+
+M \tlh'!t" ~ qo!Nf\"(1 1(1 ... e .:JI ·v~·.Xf
Ul«: cur!rr ...ICit~t &oo ~ 1 n«d ~In! 1 II'Jm bV f ?!MftdC 1 O!r!t f.e~t!M"tt t t vg1!CI!! 1 .5
["•" ' ¡.....,. ¡
no • ~r
tool<i
!O~Cfl . ..
... ) .... ¡....., -- - - • $Q •
P.num SeJt<tt
8t.ASTP/PSI •8t.AST
PFSEAA(H (~f-)
W,IMEfll (~~ · ·lt·'M)
--.. ...
MOó"f sea::~
by PiO(~
-·.......· ...,
by MOlll
w.FF"J
OCOFFEE
.
O!J:..:.:ty ...
, .....,
>Aro<>
T odt; •••
R4fom'lilt MSA
llub
.....,
- f-Colmdtuq
Results
Mise
QeOre<-a1ed
M4!6n l l0
Figura 9.22 Gráfico de puntos de dos secuencias diferentes

La ruptura de la diagonal indica la ubicac ión de diferencias entre las

secuencias. Como vemos, ambas secuencias son muy s imilares y apenas se observan
discontinuidades en la diagonal. Sin em bargo, alrededor de las bases 1500 y 2500 la
s imili tud disminuye.
horaonMt Ratón
\t:tlt<~~ Hu m~no
mllrilc: ldertcy
S[(llr.Q wfniiOW: 59
¡oorn; 1:10
scor·e rat~Jíl : oto~
gQt~c;IQ; 6S%-100%
'
Figura 9.23. Regiones con grado de similitud bajo
Por otra parte, alrededor de la posición 4500 hay una inserción en la

secuencia del ratón (o una deleción en la secuencia humana), como indica el hecho
de que exista una región que aparece en el genoma del ratón y no en el humano (ver
Figura 9.24).
Figura 9.24. Detección de una inserción

!50 BIOINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA
9.2.4 Búsqueda de ORF
Una ORF (Open Reading Frame) es la secuencia de ADN

comprendida entre un codón de inicio (generalmente, ATG) y un
codón de parada (TAA, TAG o TGA).
9.2.4.1 NCBI-ORFFINDER
La herram ienta básica más utilizada para predecir la presencia de secuenc ias
codificantes en proteínas es el ORF Finder del NCBI. Se trata de una herramienta
gráfica de análisis para la búsqueda de ORF de tamaño seleccionable en una secuencia,
ya sea introducida por e l usuario (y, potencialmente desconocida) o recuperada de
una base de datos de secuencias.
En este primer ejemplo, utilizaremos la siguiente secuenci a:

AGGAGGTGCTCAGCGGCGTGGTCTTCCAGCCATTCGAGGAG CTCAAGGGGGAGCTCTCCCTCGT
CCCCCAGGCCAAGGACCAGTCTCTCGCTAGGCAAAAGTTCGTCGACGAGTGCGAGGCCGCCATCA
ACGAGCAGATCAATGTGGAGTACAATGCATCGTACGCGTACCACTCCCTTTTCGCCTACTTTGAT
CGTGACAACGTTGCTCTCAAGGGATTCGCCAAATTCTTCAAAGAATCCAGCGATGAGGAGAGGGA
TCACGCAGAGAAACTCATCAAGTACCAGAACATGCGTGGAGGCAGGGTGCGGCTCCAGTCCATCG
TCACACCTTTGACAGAGTTCGACCATCCTGAGAAAGGGGATGCCTTGTATGCTATGGAGTTGGCC
TTGGCTCTCGAAAAGCTTGTAAATGAGAAGTTGCACAACCTGCACAGTGTGGCATCAAGGTGCAA
TGATCCACAGCTGACCGACTTCGTTGAGAGCGAATTCCTTGAGGAGCAGGTTGAAGCCATCAAGA
AGATCTCTGAGTATGTCGCCCAGCTGAGAAGAGTGGGAAAGGGGCATGGGGTGTGGCACTTTGAT
CAGAAGCTGCTTGAGGAAGAAGCT
Figura 9.25. Secuencia bajo estudio
Abrimos un navegador e introduc imos la página principal del ORF Finder:

http://www.ncbi.nlm.nih.govlgorflgOJjhtml. Una vez allí, pegue la secuencia anterior
en el área de texto destinada para ello (ver Figura 9.26) o, s i se trata de una secuencia
obtenida de a lguna base de datos (GenBank, por ejemplo), se puede introducir el GI
o el accession.
e •· ~
Flnder (Open Readlng Frame Finder)
sequence In FASTA format

C71~c»:CCOCO::.:OX=«:t~J.tel.~tQ
OCCI:fOQ'ftOCO'l'U'lOC'TOQ:l1o:'40CII)(I010l~~.C~r.;, •
QOO;~AA'"MA~~
~=~c:-eeron~=c;
c:~r:-:~~.J.!t)•oc>•tO.Q).:~
'*':.:.c=.:.r.a.:ot~:.~o«acrwc,., ¡('lt(("l~:m~
~->.no:.~~~~~~ ....
OOG.l.f~~a..rOJ.'l~AA~OCO
·-
TO:
Figura 9.26. Página principal del ORF Finder
Junto al en lace Genetic codes hay un menú desplegable que permite

seleccionar e l diccionario genético de codones. Por defecto, se emplea el estándar
aunque en el menú se dispone de hasta 22 opciones.
En el enlace hay una descripción detallada del diccionario de

traducción.
http://www.ncbi.nlm.nih.gov!Taxonomy/Utilslwprintgc.cgi?mode=c
Pulsamos el botón OrfFind y aparecerá la ventana de resultados (ver Figura

9 .27).
+
ORF Flnder (Open Readlng Frame

~ NCBI Flnder)
Secuencia1 Ubro Bioinformatica
y.-, 1~ .. ( Rod1rw 1 100 .. f SIKf17114S f ftanf S'c a Co> Lftltilll

-¡ o 7} ;j1 666
.¡ o 1..4$() 4-SO
·'l 8 390 644 lSS
.1 o 1L 2S1 J:lS
• J • 3 2:N 221
- ! D l 71 466 19>
· 1 OSN..696 lll
Figura 9.27. Ventana de resultados del ORF Finder

!52 BIOINFORMÁTICA: El AON A UN SOLO CLIC ©RA-MA
Las regiones sombreadas de verde se correspo nden con las ORF de la

secuencia. Por otra parte, la tab la de la derecha muestra las coordenadas y la longitud,
en número de bases, de cada una de las ORF encontradas. El símbo lo ' +' indica que
la secuencia se ha enviado em pezando desde el extremo 5' mientras que el '-'se
refiere a la posició n co mplementa ria.
Si se hace clic en una ORF, su zo na en la imagen cambiará a violeta, indicando

que se ha seleccionado, y aparecerán las secuencias de bases y de am inoácidos. Por
ejemplo, si pinchamos en la primera ORF, obtendremos la imagen de la Figura 9.28.
t-'uDf'lleo t:ntrez t:l..A~ ' U\111\'1 Jaxooom ~t'ucture
Secue ncia1 Libro Bioinformatica
• 1 BIASTJ EJ with par=el= 1 Cugni tor_l
!~Vi~, .~,~~~l~G~en~B~a~nk~·~ÍI~~R~ed~raw~~~~l~O~O ·~IS~i~x~fr~a~s~

oo l +1 • 73 .. i37 666
Frame from 10 Ltngth
· 1 D l. .480 480
-2 IJ 390..644 255
-2 o 33..257 225
+3 D 3..224 222
+2 IJ 272..466 195
-1 o 574..696 123
Len&1f>; 221 aa
1 Accepl 11 Alternalive lniiafon Codon:s 1
'l':J ~~cc:-...<pgc::gcor~<r-9<==9'i"'C :cwg'fC ~~~g-;~9'9'9<:<:
:. :> v :> r, e A e :> e o.
v e Q .1.
1!! qc"qna:aq~q:;aq~a~e~ca~wcqtwtctt.c:ca<re:a
A C K C ! ~ V ~ $ ~ V V ~ Q P
1(2 t~9~9~'JCtc:aonggo¡a ;tctct:cctc¡tcc:ccca¡vc:a...,.g
~ e e :. x G e :. ~ • ~ • Q A «
:e• .,• •• .,..•••••.,.•••.,. . . ..~•• .,.. , ........... .,...
O 0 S ~ A - 0 ~ r V O t C t A
2$a gcca~a.~cgagcagatcaat9'9'J~~ac~.a ~a tc~¡c;~g
A : N t ~ % N V t Y W A S Y A
2~0 ~;t(0:~1;iCCC~1;i1;1;i<::f(:(:1;;101;i'-~;t~(~;a~;ae~~
Y K 8 ~ t ~ Y r 0 ~ ~ ~ V A ~
a4a ;~.;ae:~~~1;e:o;e:~;a;a~"c:""o;a~o•;a~Q10Qa;I\O~~~.o~~
& O t A & t t K t : $ D t t R
a!& ~;a~;a:~c;a~aq~;ae~;;c:;a~;;e;a;~1(:(;191;1(:;t~C~;a99C
O n A C k ~ 1 ~ Y Q • • k G G
c:2 ·~•t9•••c•y.•••••~••• •••••..- • •9•r-••,.•
l V R ~ O S l V t i t t t t O
418 ea~e:t-q¡q;augqqJ;a1;9e:e~;;~&~'t-&V~a~~eti~
ll i' t K (; i> A l. Y A • t: ~ A l.
~,3 fCU:~fi;l;llfl:'t-~'t-Uf,t.919Uf't't-91:;1ei.;ICCt9C:¡Cf,~
l. ~ Cit :t V IO'f:lt:t•:t:t.XS
~f8 01;;eOe;t~;a;a~otoe&;a~;a~e•e&Oe't-01CC~;11:1;ite~~;tC
V A S a C ' D i' Q l ! D F V t:
...,.,
~
t
...•..•....,
~ V A O ~
..,.,..,.,..,...,,...
6!3 I'JC'JU.-t-~-cc~~"-9J•9C-aJ9't ~·•flCC11;ie.;l;a,;aa;¡:;a ~te-t.
e r t. t t Q v e ~ : ~ ~ :. ~
a a V G 1 S M
~.
S Y
?C·3 ~ea:<:.~':>'JI':>C.&'JU9C-'t>1e~ ~~9~•!••9c~ ns
* M r O ~ 1 l. l. t: t t A
Figura 9.28. Detalle de una ORF
Si ahora se pincha en el botón Accept, la región seleccionada se vue lve

verde claro indicando que hemos aceptado la ORF y que estamos interesados en
obtener más información acerca de la misma.
.- ORF Finder (Open Reading Frame

~ NCBI Finder)
~Jt:lrJlM t:rtrez OlAS! JIIAI\1 l<uoncrny Sfrtrtur~
Secuencia1 Libro Bioi nformatica
¡r jí;
:-:-,ew
--,J ""'¡"ee
=-na"a',.,-n'k""- - - ( Redraw J 100 - J SlxFra•es J Frame from <o Leni(b
+i o 73..737 666
-1 o 1..480 480
-2 o 390..644 255
-2 o 33 .257 225
+3 o 3..224 222
+2 0 272..466 195
-1 0 Si4..696 113
Figura 9.29. Información sobre la región seleccionada
Por ejemplo, podríamos ver la información de la ORF en formato GenBank

pulsando el botón View con la opción de GenBank seleccionada:
• <::
LOCUS See'Uen-:ia1 '73S tp

OEfi~! TI09 L~bro Slo~nforttac le~ .
ACCE3SI~~ 3c cucnci4 1
\~~rON
l'..t"YWORD!S
SCtm<:E Onhc::·..-n .
ORGANISH Un~e~~ .
on.c!as!t1!1ed .
TEAIURES Loeation/Qu&l1!1ers
$CUree 1 . • ?38
cos 73 .. 1~8
/not••"?~•dict•d codi r~ ~•qion~
/t.rAn$1-! ~ l on•" .1.. f'VPRGAGPSA'\'CRAAC:!(G!(.tVl.SSY'\' ~Q:P !'tt L.>c;Gt LSI..'1 PQA
i<DQSL'\RQ?. FVCECtJ..AI~l!:"OINV'EYNhSYJ,.YHSLFA'i:'DJU:NVA!.KGFAF.Ff'":<tSSD
E~RD~Kl!KYO~~GG~VRtOS:V7PL!ifO~PEKG01l~~LALAl~~VNIKL
HNLMSVASRCNDPQLlCF~ S EF~tE~AIKK.[SEYVAQLRRVGKGH~IWH.FDQKLL
Ett.!l."
Bll.S!: COUNT 165 a 202 e 2H g li7 t.
01\IGIN
1 ot.wcceeoo ceaccceeoc COCC(jCIJCCt aectetctco ccooeocooc cteoacccet
61 qct.CCCQCCt. QQCt-qoccqt gceqcgt.gQt QCC:(Ilgaeccg g·Qgcagt(llcg cag:ggec:<,¡oc
121 9'9'Q'!lU9990. 09go.c¡qt-;c~ C49C~9C9~9 Qectt:e-::o.qc co.tee;o.c¡9o gcecao.991J;
181 aaOC'tCCOCC CCOtCCOCU ooc:caaooac C ! Q'tCt.Ct CO ctaaocaaaa ott.ctrtc-cac
Zil t;o Qt:9C90.99 C:e:QCC-o~oc:. C9~9COQ "-IO C o.~\.9t.99 0.9t o.CCeo.t:gCQt:C: c¡t.oc;cc¡~::
201 cActcccttt:: tcgcct.A:::'l:t. tQilt.cgtgAc AAC9ttgct.c ~CA"'-9't]tJAtt cgccAAAttc
S61 ttea.ae.caa;. CCAQ'CCAtoe. OOAQ'tOOQ'a.t ee.coca~aca ucece.tcaa ouceao~ac
121 Ct-g'~9~99'- 9 9=99'9t-íJC9 qc~cc-cg~cc- O~c-q tC.3 CCC etttqo.c-cqa qttc;cc-c-ae
481 CCCf.1llO&~Hl0 ooaaeaec:tt Ot~tCCt!tO oaottoo-cct eaoccetcoa ~~~aetto·~
Sil aac-;¡ageao;c c.gco.ceacct QC!leagc.gtq c;;cucaaqqc. gceat.Qatcc o.cogctgaoc

601 qact-:c<ortt.9 ~ll(.raqc;aan cca;a9;rag caqc¡t.t.9&a9 ccac.caac¡aa 9&tCtCt(JaQ"
661 tecotccccc aoct aeasao aotacoaaaa aaocae::aco cataacacee taeecaaeaa
721 c~9;n9o;q co; o.cqc'-
11
Figura 9.30. Registro en GenBank

!54 BIOINFORMÁTICA: El AONA UNSOLOCLIC ©RA-MA
9.2.4.2 GENEMARK
Los algoritmos de búsqueda de ORF convencionales identifican alrededor

de l 85% de las regiones codificantes de interés. Sin embargo, existen situaciones en
las que es necesa rio una aprox imación más compleja. Tal es el caso de la búsq ueda
de proteínas cortas, la resoluc ión de ambigüedades o la identificación de l codón de
íncio exacto. Una de las herramientas que util iza n estos algo ritmos más complejos
es GeneMark (http://exon.gatech.edu/GeneMarkl) .
Aprenderemos a utilizar GeneMark con la secuencia del gen UTPase de

la Escherichia coli, cuyo accession es el XO 1714. Podernos obtener su secuencia
directamente desde Ge nBank :
>gi l 412961emb iX01714 . 1 1 E . co l i dut gene for dUTPase (EC 3 . 6 . 1 . 23)

(deox yuridi ne 5 ' -triphosphate nucleotidohydrolase)
CAGAGAAAATCAAAAAGCAGGCCACGCAGGGTGATGAATTAACAATAAAAATGGTTAAAAACCCC
GATATCGTCGCAGGCGTTGCCGCACTAAAAGACCATCGACCCTACGTCGTTGGATTTGCCGCCGA
AACAAATAATGTGGAAGAATACGCCCGGCAAAAACGTATCCGTAAAAACCTTGATCTGATCTGCG
CGAACGATGTTTCCCAGCCAACTCAAGGATTTAACAGCGACAACAACGCATTACACCTTTTCTGG
CAGGACGGAGATAAAGTCTTACCGCTTGAGCGCAAAGAGCTCCTTGGCCAATTATTACTCGACGA
GATCGTGACCCGTTATGATGAAAAAAATCGACGTTAAGATTCTGGACCCGCGCGTTGGGAAGGAA
TTTCCGCTCCCGACTTATGCCACCTCTGGCTCTGCCGGACTTGACCTGCGTGCCTGTCTCAACGA
CGCCGTAGAACTGGCTCCGGGTGACACTACGCTGGTTCCGACCGGGCTGGCGATTCATATTGCCG
ATCCTTCACTGGCGGCAATGATGCTGCCGCGCTCCGGATTGGGACATAAGCACGGTATCGTGCTT
GGTAACCTGGTAGGATTGATCGATTCTGACTATCAGGGCCAGTTGATGATTTCCGTGTGGAACCG
TGGTCAGGACAGCTTCACCATTCAACCTGGCGAACGCATCGCCCAGATGATTTTTGTTCCGGTAG
TACAGGCTGAATTTAATCTGGTGGAAGATTTCGACGCCACCGACCGCGGTGAAGGCGGCTTTGGT
CACTCTGGTCGTCAGTAACACATACGCATCCGAATAACGTCATAACATAGCCGCAAACATTTCGT
TTGCGGTCATAGCGTGGGTGCCGCCTGGCAAGTGCTTATTTTCAGGGGTATTTTGTAACATGGCA
GAAAAACAAACTGCGAAAAGGAACCGTCGCGAGGAAATACTTCAGTCTCTGGCGCTGATGCTGGA
ATCCAGCGATGGAAGCCAACGTATCACGACGGCAAAACTGGCCGCCTCTGTCGGCGTTTCCGAAG
CGGCACTGTATCGCCACTTCCCCAGTAAGACCCGCATGTTCGATAGCCTGATTGAGTTTATCGAA
GATAGCCTGATTACTCGCATCAACCTGATTCTGAAAGATGAGAAAGACACCACAGCGCGCCTGCG
TCTGATTGTGTTGCTGCTTCTCGGTTTTGGTGAGCGTAATCCTGGCCTGACCCGCATCCTCACTG
GTCATGCGCTAATGTTTGAACAGGATCGCCTGCAAGGGCGCATCAACCAGCTGTTCGAGCGTATT
GA.AGCGCAGCTGCGCCAGGTATTGCGTGAAAAGAGAATGCGTGAGGGTGAAGGTTACACCACCGA
TGAAACCCTGCTGGCAAGCCAGATCCTGGCCTTCTGTGAAGGTATGCTGTCACGTTTTGTCCGCA
GCGAATTTAAATACCGCCCGACGGATGATTTTGACGCCCGCTGGCCGCTAATTGCGGCCAGTTGC
AGTAATATGACGCCGGATGACTTTTCATCCGGCGAGTTTCTTTAAACGCCAAACTCTTCGCGATA
GGCCTTAACCGCCGCCAGATGTTCCGCCATTTCCGGCTTCTCTTCCAGG
El primer paso será abrir la página principal de GeneMark (ver Figura 9.32) y
seleccionar el tipo de anális is que se desea hacer. Existen varias vers iones especializadas
de l progarn a, cada una de las cuales se corresponde con un modelo distinto de gen.
+ oct .. ..,...._ .....

-- -- .... ·--·.- ·- < •·
G- P'reodlc.Cion k! SK..r~ AfC.hoM4. Mela~H •ncl MttlloCnl~omes

AI'IMI~C~«t! tlt"lf*_..b,'flt~ki'IMI .....
"" Heu!ltlk: ftiOIWt UDyh: ~~ C.~S - fle'~~ IS
.• b\)li'Nol$0UI) r«ii'Nn)'~--~~~~. N)'I).I
-
-T (;11~-IN> o.Nib~ ~ l'laiN-...-•~011 • Cfo'lfM. ~
• _ ¡/>- W.l'nii'I-P"...-.J~ISIU'\ 1' 'I~OIIK~Utlbe - ~~trtro
"' . ~ ~ b9' ~ Q010. t P0\71m""" ho;1'1111«nq..,., SPMC1 (Me
Ott'!t ,rt<lletiOt'l tn i Vkt"YOI"

... _...
• Gcn<-M1'1S
• tt ~ n..w
. ... • ..HC81
Folt 'JQ>'t!Ofli"'IOI"''...~It·. . . •~~~t~toc.tr--- tti'·!Uon"O~
--
.. -"""""
_- c..n.M.ti...ES'(2005) . -ciOW'**H. ""*'*~ES'r.tt ~
..tii:.:3L ~r«~e ICt' ~vow~ Q(JOe) r.totntawo.t.,......., """'-'
IIIOI:HI~~-~~~tlt~.... ~-""toJ'
~oi WI'IIMI.E" •nclo-~·
.,..,
.""""
lj .
'::t, AIIJ$lll:l not'lf'O~f""l)lll'l$~ ~·~c~OI~ o...b~Meof~""'"
Ollbe'~i1.,1<Neo:lbyl~~d~S A~\eniOitd • f'loUr,ck
4 ~- ..... ...~~ CWI~.-Ib'l~.-~ • V /PfQ fii'Ollll
OtM Prf'dlcOOtl tn V'Nt... Phlgtt ~ PIUtnlclt
_
- ~-- IC+ro
A I!MIOW.IJ,.fÑ'JO 01 plwtlldQI'I bt ti\M'Uid"""" t't' .... ~ fTW.....,
"'""'•lklll0deftlr#lt~K$h:rltrftii~Wictt'fh:~no • U.'IOl"\ • PI~
• pooo¡nme.~$' Bolh~ . .IWi f Polf41C11t~d

~ ......-~ ._....,_...,.
Otrlotl' ' " ' · -
. n.......o.~··.,.
Figura 9.32. Página principal de GeneMark
Supondremos que se desea predecir un gen en una bacteria, por lo que

se seleccionará e l enlace Gen e P redicti on in Bact eria, Ar ch aa ea and Meta-
tr anscriptomes y pi ncha mos en el enlace GeneMarkS (ver F igura 9.33). Además de la
secuencia podemos especifi car algu nas opciones de búsqueda como el tipo de secuencia
(en nuestro caso, procariota) o el fo rmato de salida. Seleccionaremos todas las opciones
de salida (secuencia de proteínas, secuencia de nucleótidos de los genes y PDF).
+ + .:t: ........~m _.~,~.. ' ~- . • ·)
lhl; ~ ptOO.'des A('OeHU .,._...;,.,. J 1 ! l¡j cetoe flf~ ~- Gefte.\tM!$ n..s \~ C~ fle
~ 1'«11 fl:~ ~\f.to:S v.1)liiii!J 4f\~v.t.:t~ tOttAM e,~ot~,w~ ~~
Q\'la.~ ...J(~.~---~a.dD-rtcDNA~
u.-..Cc..lbrkS~
:ox:c-1GO.'-~t~VoMCn.\f1\""~0CGIXAnft•!'1~ •
~~J.~f.W~$CJ'OOQ~$C:CMIJ.m:tflk:C'r.("''
r.-::.1:.r.::.:;.::.r.o.c-:r.:ne-:.:x·::.o=.--:-:~.;.:L~ ~:.:=>=c:.:-n:·~.-.::.:c~
et~.u.~n~u.~l.~tOJ.:f~t'ltttn;v. l
ll "l<M• ('(!<):e • • Ir~ 11(( • • S~.q~ ~~

P s..id!rifHadlf(.r[l;tl'(,....t~MrJ~,>
Figura 9.33. Página principal de GeneMarkS

Si pinchamos en e l botón Start Ge neMarkS obtenemos una página de

resultados como la de la Figura 9.34:
J>
GeneMarkS
.lolilll lk>so•rr, Al"-lMre ~Aasallu ... ~brk ~-sk:r
<i<mMI'tS.· f Kf'm.=rWJ!»df««cda!oo q(f!tOC !4;1m it.aotroNJ~ l!pr+t.yiwfi:tfiodnr t«atK(
tud~ .. ·~,q¡s..
Ntdlli< And' bJMPf"lt0001) l9 :60?·'MIS
cx.&lut(l(~¡ox· '~
tpor ~~-""''
~Ot."i! ~'ti km•&-I.W
r.-ud«(idc: ~ k·'-'·'-
C9!1&'1 lk 1~
En primer lugar, examinaremos la sección de predicción de genes navegando

por el gms.out (ver Figura 9.35). En la cabecera del info rme de resultados se encuentran
datos básicos del mismo entre los que se encuentran la fecha, el a lgoritmo uti lizado
para hacer la predicción, etc. Por otra parte, bajo la definición de la secuencia que
hemos in troducido, se encuentran las coordenadas de los genes, indicando la hebra,
las posiciones de inicio y final.
Go:odllilt, •.._ ~l'OTIC '' 'u-noa ~ -t&l

Ooo:o : - .:-.-~ ~' Ol: • ,:n ,_,~•
- ::t• ,..,.., ...q . !"""
!I'!Q'Il-....
-at nh - : ___.u<.tUUt'. -
~IIAJQtt
IUI!It ::..:.: :
&>ele } , ..,, .,,.,., , .,,., llc-11: ...,~..,.,_,.,,.. l _ !o:_qc:nU•>c_ o:.:O._ t t _o::d_ 0<:_S.t
. 9"'-·
~U <lo:U AIUCil U ll<: l Oll tllU . , . !Xl:lt'l' H ,ll t . <Oll Oll't <;e M te: 4-7-'h.• ~ !te ;),O,l<U) I ~C.lJI'Ill' IOJ.M ) '•\ U~o:ll<>te IIOitleOUO~Oton)
.......
h•~>.O~
" u.t $·u~ :.e ;U&.~ f.~q'MCro>i <;e~ t :.a u
: d u ;- HO
t ,., 1n n•
.o ~· IUO u•
Figura 9.35. Descripción de los resultados
Si comparamos la predicción con la información contenida en el registro de

GenBank, veremos que en esta base de datos se indica que esta secuencia contiene
dos regiones CDS, una alrededo r de la posición 340 y otra alrededor de la 900.
LOCUS X0171 4 1 609 bp DNA l inear BCT 23-0CT-2008

DEFINITION E . co l i dut gene for dUTPase (EC 3 . 6 . 1 . 23)
(deoxyuridine
5 ' -triphosphate nucleotidohydrolase ) .
ACCESSION X017 1 4
VERS I ON X01714 . 1 GI : 41296

KEYWORDS dUTPas e ; unidentified reading frame .
SOURCE Escherichia ce l i
ORGANISM Escherichia ce l i
Bacteria ; Proteobacter i a ; Gammaproteobacteria ;
Enterobac t eriales ;
Enterebacteriaceae ; Escherichia .
REFERENCE 1 (bases 1 te 1609)
AUTHORS Lundberg , L . G., Thoressen , H. O ., Karlstrom, O . H. and
Nyman , P . O .
TITLE Nuc l eo t ide sequence of the structural gene for dUTPase
of Escherichia col i K-1 2
JOURNAL EMBO J . 2 (6 ), 967 - 971 ( 1983)
PUBMED 6139280
COMMENT Data kindly reviewed ( 25- NOV - 1985) by L . Lund berg .
FEATURES Locat i on/Qualifiers
seurce l .. 1609
/erganism= " Escher i ch i a coli "
/mol_ type= " genem i c DNA"
/db xref= " taxon : 562"
prometer 286 .. 29 1
/note= ''-35 reg i on ''
prometer 31 0 .. 316
/note= " -10 regien "
mise feature 322 . . 324
/note= " put . transcription start regien •
RBS 330 . . 333
/note• " pu t . rRNA binding si t e "
CDS 343 . . 798
[ ... ]
CDS 905 . . 1540
[ ... ]
Figura 9.36. Registro GenBank
En los resultados sobre las secuencias de proteínas (enlace gms.out. faa) , se

muestra la secuencia de aminoácidos correspo ndiente a cada uno de los genes que se
han predicho en formato FASTA (ver Figura 9.37):
)'Otl>t 110t~t\" .~-l!:t MI•UU.C )OJf!~ UU !.- I~! U ~.!I l . ~o.H OUC ~:,e t c.t <IO'f hft (te ¡ , ,,!, ) U ldotGl<~U d ll>t · · ·lfO~ll>t.Ut r••1t•a#<W:,•, ,uoh .Ul
lKI ~..U«?t<:.'r: IOfi'IQifO'lvisY~F'r'NQ'~li'Yt:OAA~D)II.
C"-J<"A>qr.'tJOmo-~~t.~l'lo!am.lOI:r"...U.ctl M'ltYDl;JOlll;.a
...,,... ) 10t~t\' ,t"-!!U . . l•l)i ~J * t.l )0ii~ UU! .... I1::t!,!i, ! l l , c-o.1 1 lto:C 9f:.t t ot 40T h n ~ l, C, ! , ) Jj ldot4"'~'<Ui dl .... '' •< H~,Jj)t:. .t t.""l t<>;I.-,}'<UO! Oo.Ul
IOV"JJMti.#Pf~ftnl'Aj,.¡¡~~VIU..:;;ont.YPfi;l,.l:l"'t.t.
tho~:.n~~I'JlQ.'1.\'Gt l l>f.:~1JUS'IIr.l~lliiM I ~:,I,Q'I(
tr\'Wo~n=:!.~n>~:..=z~re~~~
"'J~l'I'!:'.SI~·~_t ~ .t.n:oUH.,.. I • IIo0$1!$40 >?li • Ut~l- 11t·)~11. 4 .!1 t. ~o)• chrt ?-~ (or .::1111'~ ''~' (f,C ,.4.:.111 IO.; ay•;o.n<h!l!l S• ·tU~-Js* 4 ~'1! r:oc;l e~u-.;t'lhOI 4.f'l! l
to.t:~u.r~: t~~u~oc~: rr.u:u...u·."'WilAA.l.Yll.lln>Jn-.ro
=.:.:rr=~t-:Y;::r..;~:.JU.JU.l'~~:.tiU:.tou.=r.a
!()Cll~tPU!t.AOt~ltA!I!~~ttrt!'tOtTlUSO!t.Attt~l!"'.~n:'t
..
anno~r :~t:~:nsnr:.
Figura 9.37. Secuencias de proteínas de los genes

De la misma manera, podemos obtener la secuencia de nucleótidos de cada

gen pinchando en el enlace gms.out.fnn (ver Figura 9.38):
.P ¡ 1) Q • ft '"' A • 5
"9"'n•_I J~.<"·"-JUO.... .q• l ' !t.J "'JII'!l. . j -)liOlltt.t¡ l. o:oH 0..~ ,.nO !~u <Stnr.o.M l iC: J., . I . H ) 1_ .1'\o.<-101::• ···~U,.,_Fio.l~· n ....t.O<.IO&,..UoU.. . j
~7~~XJ.<l~Q.fQ...t!'r.u.a;.~:~~
<::ee"..A'lA~~~~ttt;)J;(lCt~COTTQG.\m
...
ooc~•• ;.c-•• •r- :.::~: ~~r-.:.:.:or.~-cr:
o:.:~:~.u,rnooe~~~~
ct).H~rncr~·--CJCXX;~!WI:tttr~c
cr::;xa.:.:-:;.:t.\C'1Cll.A..~!Il.~ t:;..r:);.::'l ~· • • a• • -:t :<~.<:OttAA
~~~; !j;~~~~~~=~~~~;;~:h~~~¿·'' !. eo!•
0 d.·•,. oc::« !<or dU'!Po:c l EC ,,6.1 . ts ~
~IJ.I«C'Aea'CTGtSer~~~T~~~
~r~~r~~"M"T~':"fttQ,(:~~t~rA-nc.o:
~::rr:a.~""~t""~~«~"-U:~:~.u:
OT<;C't'1QGT~TTGA«:GATT~A.~Go\~tTTQ::
...
cotGlo:.J..t-'"et~tca.ca.nC'.UoCC'T""~,~.uaoc:c~rJ:;
C':'r:-:~:««r~!~~-:-:.u.rc-:~~:..t~a=~:.cc=
~«ll<íQC:''ITGO'l'at~M
;:-~·~
·~"~'~=~~~<>~-~-~"~'~'-§'~"~·~
> N~>o~
: ue >-otltH"'Ieai>IXO: nt.:¡ '· co.:.t ot...t QOOM !ór .st::r~ ltC ).l. l . U ) ro:~l-..tt.U.t.e )'•ut-.o.¡:a...tc fl""t eou-.;r4<ot u~l
:: ~n.cnc-mtc:TCTOIJQ
('f<a,~~t~.ueu:c~····c-r~
e:re:;-xrr.~cca.cT~~~tceet.::~:~"'X'le.:.ro:t:ta..r
~!fCM!TtUco.w.nAfA~'t'tA.etCOCAtCMoOCte.\tTCTCMMU
(114Ul.~O.:OCCt~~oT.O':'TOCTGCnCT~OOT~:)
~AAT«''~te~*irO.tGe«:'!M~o\IJGUCGe
C'1G")0,.r.c<"''< 0 t~tC'l·tmtl.TT~~:'U't<: 111
o::~··~·'"''"'l.U~~~~m~nn:on~
(.M;I,~~~-~~ce~rnMAm
.:x-:~:u.:c.:.rrtt~.l:~~;.;.rr~~:r.:~;.;.r;.r ~
~t~G\.Tce;)~CJTtU
Figura 9.38. Secuencia de nucleótidos de los genes
Finalmente, GeneMark proporciona una visión gráfica de la predicción de

genes (ver Figura 9.39) en donde es posible visua lizar la ubicación de los genes
detectados.
• 1 •
!UJ
l .· ~ ~ ~·¡ fl. ""

,. .. ,, . . .dr·IWJ.,
1
...
• 1
1J L.. ·~ .:. "" ....

• 1 •
:n•
jnU1
'l 11
'1'0
'- 1 '
«<
J.. 1
llU
1 "' 1
1111
1 1
!JIJ
•
,A ~A
J.... 1\L\..............
... . . ,), .
4.. .... .... ....
1 1
""
1
Figura 9.39. Gráficas con los genes predichos

De esta gráfica, poderno s obtener informac ión muy interesante, ta l y corn o

muestra la Figura 9.40:
l.
J .n
M . l . ~ ... . ..
Ir'
,.l. '""
/"Y
-~ "" '""
i M '' .
' ....,~ ..__ ...... •
r
e
•O
,.
"'-1
N
•:o
..
.,
..
""'
Regiones de int erés
·-uu M
'{V
~
-~
Q)
~
·- o .., A Posición de los nucl eótidos
o 1
l lOO
"" ""' ~
'-'
,.
. .. ~
- JI
ORF
l•
"' '" l lOO
'"' ""'
•
~
~ o.s
' " . ~
• .---
! ,.l.
'"
., •
""' '"'
1
""'
1\ • -
\ft. '
M ~
}.
•• ... "'
<A
~~rostbrl ""' "" ""'
Figura 9.40. Análisis de la gráfica
Como acabamos de ver, con GeneMark es posible encontrar ORF.

r- ' ·' Compara los resultados con los obtenidos con el NCBI-ORF
te1 - ..., Finder.
9.3 ALINEAMIENTO DE SECUENCIAS CON BLASTN
Dos sec uencias homólogas, es decir, con un ancestro común, suelen tener la
misma estructura 3D y funciones relacionadas. La mejor manera de encontra r una
secuencia homóloga a la secuencia bajo estudi o es buscarl a en una base de datos a
través de BLAST. Una vez encontrada, para decidir s i son homólogas o no, conviene
tener en cuenta los siguientes dos criterios:
Secuencia de ADN: al menos el70% de similitud en más de 100 bases entre

la referencia y la secuencia bajo estudio o un valor E menor de 10·4 •
,.. Secuencia proteica: más del 25% de similitud en más de 100 aminoácidos
entre la referencia y la secuencia bajo estud io o un valor E menor de 10·4 •
,.. S in embargo, estos umbrales son orientati vos: si una referencia se

encuentra cerca del umbral, podría ser homóloga o no serlo. Es aquí
cuando las técnicas de al ineamiento de pares ayudan a decid ir la
relevancia de la referencia.
BLASTN se emplea para comparar una secuencia de nucleótidos bajo estudio

con la información guardada en una base de datos de secuencias de nucleótidos. La
s ituación más habitual es aque lla en la que llega al laborato rio una secuencia (la
secuencia bajo estudio) y se desea identificarla, comparándola con otras secuencias
conocidas.
Se trata de identificar la siguiente sec uenc ia:
>Anonimal
CAGGCAGCCCCACACCCTCCGCCTCCTGCACCGAGAGACATGGAATAAAGCCCCTGAACCAGCCC
TGCTGTGCCGTCTGTGTGTCTTGGGGGCCCTGGGCCAAGCCCCACTTCCCGGCACTGTTGTGAGC
CCCTCCCAGCTCTCTCCATGCTCTCTGGGTGCCCACAGGTGCCAACGCCAGCCAGGCCCAGCATG
CAGTGGCTCTCCCCAAAGCGGCCATGCCTGTCGGCTGCCTGCTACCCCCACCCTGTGGCTCAGGG
TCCAGTATGGGAGCTGCGGGGGTCTCTGAGGGGCCAGGGGTGGTGGGGCCACTGAGAAATGACTT
CTTGTTCAGTAGCTCTGGACTCTTGGAGTCCCCAGAGACCTTGTTCAGGAAAGGGAATGAGAACA
TTCCAGCAATTTTCCCCCCACCTAGCCCTCCCAGGTTCTATTTTTAGATTTATTTCTGATGGAGT
CCCTGTGGAGGGAGGAGGCTGGGCTGAGGGAGGGGGTCCTGCAGGGCGGGGGGCTGGGAAGGTGG
GGAGAGGCTGCTGAGAGCCACCCGCTATCCCCAGCTCTGGGCAGCCCTGGGACAGTCACACACCC
TGGCCTCGCGGCCCAAGCTGGCAGCCGTCTGCAGCCACAGCTTATGCCAGCCCAGGTCCAGCCAG
ACACCTGAGGGACCCACTGGTGCCTTGGAGGAAGCAGGAGAGGTCAGATGGCACCATGAGCTGGG
GCAGGTGCAGGGACCGTGGCAGCACCGGG

En primer lugar, abrimos un navegador e introduci mos la página principal

de NCBI-BLAST: hup:/lblast.ncbi.nlm.nih.gov/Biast.cgi y aparecerá la pantalla de
la Figura 9.42 :
• llt(Jtlt.A$1 MCiml
i!USll"'dt ¡.,..._.ofol..,il61ily..,._ ~ol ,.q_.. =:...
BLASTAssembledRetseqGeoomes
-
..• """"'
""""
..,.""'
a..
.""
·~
•· Gu!!tto!o
~
. ,_
·-.........
o y_,.
"' /"""'*"""" ,,..,.
-
a-...~- !V$"--
110\. ,_,..»''IOI~Ottfl'
e u.oa ru.u onn..
8aslc iLAST
~~ S.....ct~opo~•~~>~•·--.•pvc•lot......,.
~ bl:l!Pp "'~~~-- ~~- <Wiil "'-'
l;oltll! ~ potoln ~~· -"9 • trMII~ IWIICloolldo ...,.Y
tidB ~~6MI41'.M41K~OoiUOIMflot'OtiPIIOIOin....V
Figura 9.42. Página principal de BLAST
Seleccionamos BLASTN pinchando en el enlace n ucleotide blast y

aparecerá la ventana de introducción de los parámetros búsqueda. Una vez allí, el
paso siguiente es especificar los datos de la secuencia bajo estudio. Aunque aquí
pegaremos la secuencia en el área de texto, en general, existen tres métodos para
indicar la secuencia de anál isis:
,.. Escribi r el identificador GI, si la secuencia ya se encuentra en una base

de datos.
,.. S i la secuencia no está registrada en una base de datos (o se trata de una

se ncuencia en bruto), podemos subir el fichero FASTA de la rmsma o
pegarla en el área de texto, tal y como se hará en esta práctica.
,.. Introducir el accession de la secuencia.

kAJl• ... -· .... - .,., ... ~...-- • ...,. _......,. • ...,. _._
~ntw «<-ooo. ~•N. f1N,Of f-ASTA wq,;•nc:oo(ot fl
..- - -
·~! •
~~~~to;Jo~or~c...
C«N:T~~Ilr~..cn~=
~~~~
~01:.\T.~~~~l=~~~.
:::r~"'n:~.~:tl"e.~~
OJ,IIPfO'(IniO '~~~~»1\.ll~~t'tf').f!~ y
Jobl.. _...,at
Cf11Mao,:.;:.~1.. il»f6Cr.•t(II.A!;l :•>~m t~t
E AIIOn fWO 01 IIIOf. .ttiii(IIIOtl ti

•
--·
"'
,_.
E•~
CN!fet l.A.oc'UOI'IW«<IJI""t ~''U OUaiO.Otlt• ~U)CU<J ~·1
t! M:ált l)':l.t)p)CU'IC".t....e.~ ••111•'•~-·
~ttr.<IN!l ~
o ~.:atlOb ....etiU~~>I)
Mollteltilll'llilr ~,Cd~ II"'IJbli;M;I
J CowO
-·-· ..·-- •
Figura 9.43. Identificación de secuencias con BLASTN
Además de la secuencia o un rango de la misma, ta mbién es posible

especificar otros parámetros. En la sección C hoose Search Set, se puede restringi r la
búsqueda a un conjunto de datos concreto, como el geno m a humano o EST. Por otra
pa rte, la sección Progr am Selection permite escoger el a lgoritmo BLAST concreto
que se empleará para calcular e l alineamiento entre tres opciones:
,.- Megablast: está optimizado para secuencias con un a lto grado de similitud
(el 95% o más). Es la opción por defecto.
,.- Megablast d iscontin uo: u tiliza una semilla inicia l que ignora a lgunas
bases (permite no coinc idenc ias) y está pensado para co mparaciones de
secuencias pertenecientes a especies d istintas.
,.- BLASTN : es e l más lento y el que maneja grados de simi litud más bajos.
Dejaremos la opción por defecto (Megablast) y al fina l de la práctica

repetiremos e l aná lisis pa ra observar los resu ltados. Completados todos los
pa rámetros de búsqueda, pulsamos e l botón BLAST N para obtener los resultados.
La Figura 9.44 muestra los resultados que obtiene BLASTN y que se dividen
en tres grandes partes: cabecera, gráficos, lista de coincidencias y alineamientos.
~ f«mUooi:...!C SnrSr-n,Sb*7·u . , ....,.lr'lladtcm

A-1
liJO JOl5!1l •V0!5(lJOr~' on 06·06 1 4 ~» 0111

q_.¡ l O ld~ l
·- o..~ . ....._ "'
~Ion ~· l>ewtMion "'U<i«~ <or.tcDon l ...l
..-a... ,..,,. rw.,doo;c ~ PI'OI)r - tltASTN ¡ 110• loo ~
q ...,.l....p;h , ....
oo.. . ,~ •s•· rt-s. . .,1 r •.., w~ • !f ·;~ •P·• .. .. " .... " ''"··lh
®<;r.phlc Summ:uy
@ OJtSdQt!OO!
® AI!somtnJt
. , .....
Figura 9.44. Informe de resultados de BLASTN
En la cabecera de l informe de salida (ver Figura 9.45) encontramos

información específica del program a (versión, compi lac ión, fecha , etc.) y una lista
de referencias científicas que deben incluirse si se publica a lguna investigación que
utilice BLAST. Sin embargo, la información de la cabecera más importante pa ra
la identificación de la secuencia son los nombres de la secuencia y el de la base de
datos.
• IICIWIIl.ASII . . . . ~,~~ · IIJSil.IVOU

'
EAu..~ SM..St«U!-SI.:.•r<liU " ~~"-'~~».. •O.&od
Anoniom1
lliO [AlShil1'o0l~(&IW'e' CIA 06-<16 t.i 32 - )

~10 k'tS'>PSI ()M¡~~ l U . . flf
o-;rlpt. . . .!.JlOtVIt;> l OoMo'lptllon K.od_.. <IOCoor.'Don (rt)
~le-"'" ~IOIS ""01- IRASI"' l .2.29+ Yl..QII9J)
()uoetv leooollo 1.;4
.,.""".... . """•""·QMo'
.._
l" t1Sl · ~
........... OI()).o-.,...
··- ~
~-. ,......_. . ~ . (_...........m.~o.~r...-d••""Siho"~ ~·· ........_ •...,........... ~ ~ :;,...,..· ........ QI
Figura 9.45. Cabecera BLASTN
La segunda parte de la página de resultados propo rc iona una vista gráfica

(ver Figura 9 .46) de las coincidenc ias encontradas en la base de datos y del grado
de similitud con cada una de ellas. La secuencia bajo estudio se representa como un
conju nto de líneas gruesas e n la parte supe ri or de la figura, justo bajo la clave del
código de co lores, mientras q ue las coincidencias encontradas en la base de datos
apa recen justo debajo, de tal ma nera q ue la más parecida oc upa la posición superior.
'"'
QII@I'Y u) 'tl!m.)t ~Sf,N"- f'r
~f'\J~Jor! AI'IOr'W!IIl l)ll:S(rfi=(O. r.'UCJeol;~ c»>t<tion (ni)
~ 1.,-pt tu:ldt aod Pfoogtoi• a.ASrn 1.1.»• · ~
QlwtV • .-.,!h , ,...
e c,..ehic; Summary
Q~· ··v
1~0
1
' '
ooo '
·100
Figura 9.46. Resumen gráfico de las coincidencias con la base de datos
Si se mueve el ratón por la g ráfica, se va mostrando la secuencia con la que

existe co incidencia en ese fragme nto de la secuencia bajo estudi o. La interp retación
de la gráfica es senci lla. El color roj o significa un alto g rado de co inc idenc ia entre
la secuencia registrada en la base de datos y la secuencia bajo estudio; si el color es
rosa, la coincidencia es moderadamente alta, mientras que un color verde indica que
es una coincidencia poco significativa. Los valores más bajos so n e l azul y el negro.
Fina lmente, si se pi ncha e n la barra d el gráfico, BLASTN muestra e l a lineamiento
correspo nd iente a la secuencia asociada al área en que se hizo clic.
La siguiente secció n del informe de resultados es la q ue contiene la

informaci ó n detallada de las coincide ncias con las secuencias registradas en la base
de datos de nucleótidos o hit lis/ (ver Figura 9.47). BLAST o rde na las co incidenc ias
calc ulando una medida estadística de similitud llamada E-value (va lor esperado).
Cuanto más bajo es e l valor de E , menos significativa es la coincidencia. De la misma
mane ra, un alto valor de E indica que las secuencias han evolucio nado de un ancestro
co mún (secuencias ho mólogas).
(t)Qppl!!t Su!Wf!.!!Y
€ O.•u1ftlon• '
--~~~
Selttt ~ &::1: Selocto4 o
-.... o
¡jo~.~.,.._
urs m~ 1COI4 oo ,, ..,.,.

ft
a
a
~lilh"s.Mé..t tlL!t~l .t.· '-ll'!'~~~ ll
tlU\11 ••w ll!!::mwct n ..,.vn,ar;u: ut'""""'W'*

'»" .~. . ,,.7919'!-
1!1 ...., ........,lQ•• •@MI 2 l
u. """tlt+)m" <P"U"' .. :l!. . .
_...,..CM tp<li!!..W.I!tf•!I!II!Uoal!thf2iqot<t tif!l

13~
U">~
t»t
:m
Ul4 , . .
Ul.t Wfo
'*
tn~
~
,., u
00
00
00 --....
t~ ?nilC..I
..::m::o:u H
liiOut•a
'"' """""
..,_.....,
O f'Mit?Jbltle•JW.II!_m!ln)l.lh!.«"r,<o-w.= !:M~ IU t ~ 00
"' '"' "'-'
,;,.
ID tir.III!Jft~ Ul'ttm) •.ll.bl'n.at~~.1. . . .)11<!liC"'· •III~Ct"' IW'ft.t'!h¡.»12!~ IZ~) 9'7'\
'311 1201 1«114 fO
11tt ntJ tn. oo
9R
... r.;~('.;J
~mt!a1
1'1 p..w,.....,..... .,... _ r t ( ¡ ! ...... G!Q!Hilo<!'!t 11r? nl't 1:o1o u

"" """"
'"
....
~_!~
,.. .,.,.,
tCII !NI 11" 00 1' . ........ '
Ott••••..,~ ... ~64'00
l'l~~~ lU ZU lt'lt. )tU "'"" U'IUt 1

1M 1~ 1~ lt.SS. t1S 14UUU
us ~~ ,. So.2f; ..... 1M~'
us '" ~ ~ *"' '"'~'~-·
Figura 9.47. Coincidencias en la base de datos
A co ntinuación, se encuentra la secció n de alineamientos, verdadero corazón

de l informe (ver Figu ra 9.48).
~~~ .. GROd" O'~
~ gcc~ ..~ precur~ (tiS) ~· tomoktt cñ
....
~eOgMYJll'SfO !6YIH4'") l~ ll tl -loo•OI""'Io....~ 1
-·
!l7S bU(1 .:.:01
Oa:y t
a.tet tns
~· --toe~--
eny., ..• ._,.,.....,...._ -~ E
~•Y 41 ~~~:-::~cr.o~~~-:~
1 1!1 HUI! 111 1111111111111111 111 1 11 1 1 1111111111
$l!Jr. n.as ~(.Cf.:r~:cr::.:rer=:.=cr.:e:.co.l :u.o:ct~ ..
o._,n' ll:. N:'l~~~in":''O~G«'"~~(;l;t'A l:O
11 1111 1111!1 llllllllllllllllllllllllll 1111 111111111111
=1~=n=-:a.t=t'le::::-~~:=:a=
l'~'
~~~~ ..~~:~.;-:~~«::.: :so
l. 11111111111 11111111111111111111 1 111 1
11111111111 111111
S&H't ltH ~.MC'J.I 3041~tocrtGICDCICI:II:t'TGCr:.t u::
(l-JJO:y tH
"'.Ir;~. U~$
~c::M!~~lOXJC
11111111111111 11 11 ; 1111111111 UIIIHIII 1
~~"~"l'OCIX>OQq.~te~"'»C
111111; 11 ll lfl ll l
"'
lt'4
OatY
~,~.
n~
!»)
lWI~~'l'<Tl'l'MCL~~~
1 111111!1111 11 11 11111111111111111111 1
~1~~-=lol.=..-=t=)!'lCUu.r.Jt'l~»:.ner=:e=
11111111111111111 "'
O..tty IH JA.~:c~··w~·A.~!l.r:eo.:o.:.ttt:"~..xeett
n " " " " " 1111 1111111111111111 " " 111 '11111 1 111111
A>J""- au ~rror-···~--l~~rrr: ~..:.:o:Te
O.lottY 1t1 <:Oo:X;Ttt1.\tmt.loC.\TtiAl'T!('tC,l,f~t<XX:IC-!Q) , }.o.»':t')O)~t

11 I I U l l l l l l l l l l l l l l i l l l l l l l l l l l l l l l l l l 111 1 <1 111 11 111 11 1
~'"" ltt& ~Amrt'.ltoMt'IATT;Q!;;I,.~-r«<:J~~
Q-..e:y u~ pq:;v.or.n-~..,.,~ ......~,.. =o... =-:o<:~:~;'~~

sweo; nu ~"'" ~~~~ ..
....... 111111 111111111111111 1111111111 1 111 11111111111111
~ry u~ «Cr.l.::e«J.r.~~Co:leet~
,.,, <"t 111111111111 11 11 11 •111111111111111 1 111 1 111 111111 11 111 11 1

'"
OJ~O' u~
21-J't
na
:rn
«:er.T,\~~~~
A«"'liQC'~.Utct19CQ:IOQtctl.@'i-'CID:f~
1 1111 111111 111 1111111111111111111111
.-:l~:~...:.e.:.Y.IT~:o:-~t(í.Uo)
11111111111 111 11 1
...
~~:-r u~ Q.~~~~~·sr;c;:rtmJ~~
~)el. UM ~~~~~~
~:y )tl
~~'"'
1< 111 111111.111111111
'"'' r;~. Ut6 ~.,,,e
Figura 9.48. Alineamientos con las coincidencias en la base de datos

Cada alineamiento va precedido po r el identificador de la secuencia, la línea

de definición completa y la longitud del fragmento de la secuencia que coincide
en número de aminoácidos (ver Figura 9.49). Es la linea de definición en la que
apa recen algunos datos básicos como el identificador, el va lor E y la hebra.
8 AI!qnn!ents
0 0o.oeobod .. GcaDid ~
Gorla vorta n:;IAín PI'«~~""..« (INS) ~. ecrup~ eeh:
....
~o:>g'II,.WUH•.!e 114Y•l7d61:1 ·- ~1-16 -0110-.._ t
._ ........... ~·• •e- ...._ ~

lltlllt\'4 l idOn'lll>ltoa
- ' -' ............ c.- $1.- Glg¡. . ··--~ OC"C «U*'

II; ?IOc!(cr ~!o;.....t - - <·: r.to"'
1)1Sb~-t!U1 00 14<Vf& l j l~} (l{J.U(~) ~~
-.,...~ : • J• c~..x-~~~~~tü.:X: •'••

~.:U'I 'l ~GC"Ml~::;-:~;1~~~..::~ ~:>:
111111111 11111 111 l lll 111 111111111111111.1!1 111!111 ! 11
.,.:.. ti-» ~~~~"TttC::IOCCIC ··~
~ry U'l TmGTGIOOXX:l~!~;~:~~~~ l tO
'"" "' " f " 1 " """"' " "" " .. 1 • '
Figura 9.49. Línea de definición para cada coincidencia
A continuación, se encuentra la puntuación, el valor-E, los residuos idénticos

del alineamiento (Identities) y el número de espacios en e l alineamiento (Gaps).
Finalmente, encontramos la secuencia bajo estudio en la patte supe ri or de cada
a linea miento y la secuencia de referencia enco ntrada en la base de datos debajo y
etiquetada como Sbjct. Los números a la derecha y a la izquierda indican la posición
de l nucleótido (o e l am inoácido, si fuera una secuencia proteica) en la secuencia.
Uno o más guiones (-) representan inserciones o borrados.
Existen regiones en las que la coincidencia parece conservarse, lo que

indica que los residuos correspondientes desempeñan un papel crítico para mantener
la estru ctura y/o función de la proteí na en cuestión. No obstante, una similitud
e levada en una región no permite concluir nada y toda hipótesis debe ser va lidada
experimenta !mente.
9.4 EDICIÓN DE ALINEAMIENTOS
Una vez que se ha generado el alineamiento múltiple, indenpendientemente

de la herramienta que se haya uti lizado para ello, lo más probable es que haya que
editar el fichero manualmente antes de poder reutiliza rlo. Esto no es, ni mucho
menos, una tarea trivial, ya que supone la inserción de huecos en un su bgrup o de
secuencias, el desplazamiento de var ias secuencias si multáneamente, etc.
Un aspecto importante en la edición de un a lineamiento es e l formato del

mismo. Desgraciadamente, la no existencia de un formato único es una ca racterística
consta nte de la Bioinformática por lo que, una vez más, nos encontramos ante la
disyuntiva de qué formato elegir. Aunque existen más, los formatos de alineamiento
más com unes so n el FASTA, el ALN , e l MSF y el PIR (si milar al FASTA pero con
una línea adicional para inc luir anotaciones).
Para la edición y publicación de alineamien tos utilizaremos Jalview (hup:/1

wwwJalview.org). Se trata de una de las herram ientas más potentes que existen por
la gran cantidad de funcionalidades que soporta y por su faci lidad de uso. Desde la
página web podemos elegir entre lan za r la ap licación completa (Jalview Desktop, que
es la misma que nos podernos instalar) o una versión ejecutable desde el navegador
web (Jalview Applet). En esta práctica, emplearemos la versión completa.
§ Jalview
Jt~<o-., •'"""~~..-.b.....,.,• ''"41"""• .."T""'-.,

~ ,....,"""....., _..,,.,.r,...
u.. tt,_""" oót ·~· ~~ .-~ "'""'
"'oth ~otc: lrtori MdjWIC.., (OI"',otl-tt~ ~ ~,, ~ fil«t Md . . . . fTO'"'(uW ,I!Ua..... ~ ...--.<-'1
""
-- .......
Figura 9.50. Página principal de Jalview
Aunque Jalview se utiliza on-line directamente desde la página

web de l proyecto, también es posible instalarlo en modo local. Las
instrucc iones están disponib les en http://wwwJalview.org
A l pinchar en el botón Launch J alview Desktop , aparece una ventana que

pregunta si desea mos descarga r (y ejecuta r) la aplicación.
+ •- ;..;...., P Oé·· ~~ · ii
~ Jalview
~-
~-
---......-
...
...o llll lllrC).IJt
~--- ...-~
..... -- ----·-·-
.... ..
'"
.,
"-
•
Clm(ol-
1
t·
Figura 9.51. Ejecución de Jalview
Co nfirmamos afirmativamente y aparecerá la ventana principal de Jalview.

Inic ialmente, se carga un fichero con un alinea miento de ejemplo, aunque en esta
práctica, por cuestiones de coherencia y continuidad, nos centraremos en el manejo
de los a lineamientos que hemos manejado hasta el momento.
Figura 9.52. Pantalla principal de Jalview

En pnmer lugar, obtendremos el fichero de ali neamiento ge nerado por

C lustaiO para dos secuencias que, en este caso, serán las que ya utili zamos en
la práctica de Dotlet y que se correspondían al ARN mensajero de Cftr de ratón
(accession NM _021 050.2) y su equi valente humano (NM_ 000492.3).
>gi 11160081791 ref 1NM_021050 . 21 Mus musculus cystic fibrosis

transmembrane conductance regulator (Cftr) , mRNA
AATTGGAAGCAAATGACATCACCTCAGGTCTGAGTAAAAGGGACGAGCCAAAAGCATTGACCTGG
TCCTGGATATCCAGATGTCGAGTCCAACCTGAATTTAGCCGAACACAGACCTCATTGCCTCACGG
AGACATCATGCAGAAGTCGCCTTTGGAGAAAGCCAGCTTTATCTCCAAACTCTTCTTCAGCTGGA
CCACACCAATTTTGAGGAAAGGGTACAGACACCACTTGGAGTTGTCAGACATATACCAAGCCCCT
TCTGCTGATTCAGCTGACCACTTGTCTGAAAAACTAGAAAGAGAATGGGACAGAGAACAAGCTTC
AAAAAAGAATCCCCAGCTTATCCACGCCCTTCGGCGATGCTTTTTCTGGAGATTCCTCTTCTATG
GAATTTTGCTATACCTAGGGGAAGTCACCAAGGCTGTCCAGCCTGTCTTGCTAGGAAGAATCATA
GCATCCTATGATCCAGAAAACAAGGTGGAACGTTCCATTGCCATTTACCTTGGCATAGGCTTATG
CCTTCTCTTCATTGTCAGGACACTGCTTCTTCACCCAGCTATTTTTGGCCTTCATCGCATTGGAA
TGCAGATGAGAACAGCTATGTTTAGCTTGATTTATAAGAAGACTTTAAAGTTGTCAAGCCGCGTT
CTTGATAAAATAAGTATTGGACAACTTGTTAGTCTTCTTTCCAACAACCTGAACAAATTTGATGA
AGGACTTGCCTTGGCACATTTTATATGGATTGCTCCTTTACAAGTGACTCTTCTGATGGGGCTTC
TCTGGGACTTGTTACAGTTCTCAGCCTTCTGTGGCCTTGGTTTACTGATAATCCTGGTTATTTTT
CAAGCTATCCTAGGGAAGATGATGGTGAAGTACAGAGATCAGAGAGCTGCAAAGATCAATGAAAG
ACTCGTGATCACATCAGAAATTATTGATAATATCTATTCTGTTAAGGCATATTGTTGGGAATCAG
CGATGGAGAAAATGATTGAAAACTTGAGAGAGGTGGAGCTGAAAATGACCCGGAAGGCGGCCTAT
ATGAGGTTCTTCACTAGCTCTGCCTTCTTCTTTTCAGGGTTCTTTGTAGTCTTTCTATCTGTGCT
TCCCTACACAGTCATCAACGGAATCGTCCTACGAAAAATATTCACAACCATTTCATTCTGCATTG
TCCTACGTATGTCAGTCACACGGCAGTTCCCCACTGCCGTACAGATATGGTATGATTCTTTTGGA
ATGATAAGAAAAATACAGGATTTCCTGCAGAAACAAGAGTATAAAGTACTGGAGTATAACTTAAT
GACCACAGGCATAATCATGGAAAATGTAACAGCATTTTGGGAGGAGGGATTTGGGGAATTACTGG
AGAAAGTACAACAAAGCAATGGTGACAGAAAACATTCCAGTGATGAGAACAATGTCAGTTTCAGT
CATCTCTGCCTTGTGGGAAATCCTGTGCTGAAAAACATCAATTTGAATATAGAGAAAGGAGAGAT
GTTGGCTATTACTGGATCTACTGGATCAGGAAAGACATCACTCCTGATGTTGATTTTGGGAGAAC
TGGAAGCTTCAGAGGGAATTATTAAGCACAGTGGAAGAGTTTCATTCTGCTCTCAATTTTCTTGG
ATTATGCCGGGTACTATCAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAGTACAGATATAA
GAGTGTTGTCAAAGCTTGCCAACTACAGCAGGACATCACCAAGTTTGCAGAACAAGACAACACAG
TTCTTGGAGAAGGTGGAGTCACACTGAGTGGAGGTCAGCGTGCAAGGATTTCTTTAGCAAGAGCA
GTATATAAAGATGCTGATTTGTACCTATTAGATTCCCCTTTTGGATATCTAGATGTTTTTACTGA
AGAACAAGTATTTGAAAGCTGTGTTTGTAAATTGATGGCCAACAAAACTAGGATTTTGGTTACAT
CTAAAATGGAACACTTAAGGAAAGCTGACAAAATACTAATTTTGCATCAGGGCAGTAGCTATTTT
TATGGGACATTTTCTGAGCTACAAAGTCTACGTCCAGACTTCAGTTCGAAACTCATGGGGTATGA
TACTTTTGACCAGTTTACTGAGGAAAGAAGAAGTTCAATTCTAACTGAGACCTTACGCAGGTTCT
CAGTAGACGATTCCTCTGCCCCGTGGAGCAAACCCAAACAGTCGTTTAGACAGACTGGAGAGGTG
GGAGAAAAAAGGAAGAACTCTATTCTAAATTCATTCAGCTCTGTAAGGAAAATTTCCATTGTGCA
AAAGACTCCATTATGTATCGATGGAGAGTCTGATGATCTCCAAGAAAAGAGACTGTCCCTAGTTC
CGGATTCTGAACAGGGGGAGGCTGCTCTGCCGCGCAGCAACATGATCGCCACCGGCCCCACATTT
CCAGGCAGAAGAAGACAGTCTGTTTTGGATCTGATGACGTTCACACCCAACTCAGGCTCCAGCAA
TCTTCAGAGGACCAGAACTTCTATTCGAAAAATCTCCTTAGTCCCTCAGATAAGCTTAAATGAAG
TGGATGTATATTCAAGGAGATTATCGCAAGATAGCACACTGAACATCACTGAAGAAATTAACGAA
GAAGATTTAAAGGAGTGTTTTCTTGATGATGTGATCAAGATACCCCCGGTGACAACATGGAACAC
ATACCTACGATATTTTACTCTCCATAAAGGCTTACTGCTAGTGCTGATTTGGTGCGTACTGGTTT
TTCTGGTTGAGGTGGCTGCTTCTTTATTTGTGTTATGGTTGCTTAAAAACAACCCTGTTAACAGT
GGAAACAATGGTACTAAAATTTCCAATAGCTCCTATGTTGTGATCATCACCAGTACCAGTTTCTA
TTATATTTTTTACATTTACGTGGGAGTGGCTGACACTTTGCTTGCCCTGAGCCTCTTCAGAGGTT
TGCCGCTGGTGCATACGTTAATCACAGCATCAAAAATTTTGCACAGGAAAATGTTACACTCCATT
CTTCACGCCCCTATGTCGACCATCAGCAAGCTGAAAGCAGGTGGGATTCTTAACAGATTCTCCAA
AGATATAGCAATTTTGGATGACTTTCTGCCTCTTACCATTTTTGACTTCATTCAGTTGGTGTTCA
TTGTGATTGGAGCTATAATAGTCGTCTCGGCATTACAACCCTACATCTTCCTAGCAACGGTGCCA
GGGCTAGTAGTCTTTATTTTACTGAGGGCCTACTTCCTTCATACAGCACAGCAGCTCAAACAACT
GGAATCTGAAGGCAGGAGTCCAATTTTCACCCACCTTGTGACAAGCTTAAAAGGACTCTGGACAC
TTCGAGCCTTCCGACGCCAGACTTACTTTGAAACTCTGTTCCACAAAGCTCTGAATTTGCACACT
GCCAACTGGTTTATGTATCTGGCAACCTTGCGCTGGTTCCAAATGAGAATAGACATGATATTTGT
CCTCTTCTTCATTGTTGTTACCTTCATCTCCATTTTAACAACAGGTGAAGGAGAAGGAACAGCTG
GTATTATTCTAACTTTAGCTATGAATATCATGAGTACTTTGCAGTGGGCTGTGAACTCAAGCATT
GATACAGATAGCTTGATGCGATCTGTGAGCAGAGTGTTTAAGTTTATTGATATACAAACAGAAGA
AAGTATGTACACACAGATAATTAAAGAACTACCTAGAGAAGGATCATCTGACGTTTTAGTCATTA
AGAATGAGCATGTGAAGAAAAGTGATATCTGGCCCTCTGGAGGCGAAATGGTTGTCAAAGACCTT
ACTGTGAAATACATGGATGATGGAAATGCCGTATTAGAGAACATTTCTTTTTCAATAAGTCCTGG
ACAGAGGGTGGGGCTCTTAGGAAGAACTGGATCAGGAAAAAGTACTTTGCTTTCAGCATTTTTAC
GAATGTTGAACATTAAAGGTGATATAGAGATTGATGGTGTCTCATGGAATTCAGTGACCTTACAA
GAATGGAGGAAAGCTTTCGGAGTGATAACACAGAAAGTATTTATCTTTTCTGGAACATTCAGACA
AAACCTGGATCCCAATGGAAAATGGAAAGATGAAGAAATATGGAAAGTTGCAGATGAGGTTGGAC
TCAAGTCTGTAATAGAGCAGTTTCCTGGACAGCTCAACTTTACCCTTGTGGATGGGGGTTATGTG
CTAAGCCATGGCCATAAGCAATTAATGTGCTTGGCCCGATCAGTTCTCAGTAAGGCCAAGATCAT
ACTGCTTGATGAGCCCAGTGCCCATCTAGACCCCATAACATACCAAGTCATTCGACGAGTTCTAA
AACAAGCCTTCGCTGGTTGCACAGTCATCCTCTGTGAACACAGGATAGAAGCGATGTTGGATTGC
CAGCGATTTTTGGTCATAGAAGAGAGCAATGTCTGGCAGTACGACTCCCTTCAGGCACTTCTGAG
TGAGAAGAGTATCTTCCAGCAGGCCATTAGCTCCTCGGAAAAGATGAGGTTCTTCCAGGGCCGCC
ACTCCAGCAAGCACAAGCCTCGGACGCAAATTACTGCTCTGAAAGAGGAGACAGAAGAAGAAGTT
CAAGAAACCCGTCTCTAGTGCTGGGATGCTGAGGAAGCAACTCAGTGCACTGAGTCCATTCCCAG
AACCCATGCAGAATGAAAAAAGCCAGGCATTTCCCATGCTTCTAACCCCAGTGCTGGGGACACAG
AGACAGGTGGATCCCTGGGGCTCTGTGGCAAGTGATCCTAGCCCACAAAGAGAGTTCCAGGCTGG
GCACCTGAGGGACAATACCTGTGGATATACTCTTGCTTCCACATGCAAGTACATATACACATGCA
TGCACATTAGTGGACATACACACAGAAAAGCAAAGAAGAAGGAAAGAGGGAAGAAAATAGTGCAA
ATAATTGCAAAACGATCATGTATGGAGTCTGCTCATGGACTTAGAGGAGGTGAACTCTACTACCT
GTGCCTTTGAAAGAAGGGTGAAGCCTGCGACTTGCTCTTTAAGAGACTGTTTTGGAAGAGAGTTC
AAAAACGTTCATATGGGTATGGGTAACTGACTTTCCAGCAGTAGTCAAATTGTTTGAACTTCAGA
TAGTTGATAATGACCACTTGTGTATTGCAAGGCAGATTTTTCTGAAAACATTTGCCCCCTAATAG
TAGCTGAAAAAGCAGCTATAAATGCCAACCAGGTTAGTCATTCGGCTTATTGTTCAGTACAGCTG
GTTAATTTGCATTATTGAAGAACTGAAATTATAGTGCTTAGATATAGGACAAAGTAAAGAGAACT
AAAAACAGTGTCTTATATAACTCAAAGCCCAACTTACTTTCCTCTAAGATATGTATTGCCTTCTA
TACATTGTCTGCCCCATTCCAAGCAAATGTTAGAATATTATACAAAATACTGGGTGGTATTGATT
GA.AAGATGCCCGACATCTGGTGATCTAGTAACCCATCAGGATT AAGGATA TCCAGGTCTTGGAAA
TTAAGGTTAAGACCATCTAGCCTTACTACCGTACAGCTAAACATTCTTATTACCAGAATAAGACC
TAGGAAAAGAACTGTTTCAGTCCCATAAAGTGGCCTGGATAATTTCCTTGATATGGAAATCGACA
CACTTATGTTCCCAGAAAGCAACAGATCTTTAAGACTTCTGAAGTGAAGGAAGGTTGTGTTAGTG
CAAACTAGTGCAGCCCAGTGCCAGGTCCAGGAGTTAACATGTAGACAGGCCATGGACTGTGTGGG
TAGATGCTCATGGAAATGTGCAGTAGTATGTTCATGTGCTCTCAGCTAGCTGTGTGTACTTCAAA
CTGTCTCCACAGAGTTGTTGGGGAGACACTCTGAAAAAGAATTAATTGTGAATTAGTTTTATATA
CTTTGTTTTATAATTTGTGATGCAAATGAAAATTTCTCTGGGAAATATTTATTTTAGTAATAATG
TTTCAAACTCATATATAACAATGCTGTATTTTAAGAATGATTACATAATGACTTATATTTGTATA
AAATAATTTTTATATTTGAAATGTTAACTTTTTATAGCACTAGCTATTTTAAAACAGGGGAGTGA
GGAGGACAGGGATGATAAGGATCATTCAACTTCATGTTGTGAAGACGAGCTGATGTAAATCTTGT
ACCCATCTGTGTGGTTCTCAGACAACACATGCTCTCTTTTAATGCAGCTTTGAAGAAGATGGTAC
CAAAGGTTAAGACGGCCCCCTGATGGGCACATCAACTTCTGAACTGCAAACTAAGCTTTAGAGGA
ATGTATTATATTTATTACTGTAATAGAATATCATGTGTCAATAAAATCCTTTTATTTGTGTGAAA
>gil904213121refiNM_ 000492 . 3 1 Homo sapiens cystic fibrosis
transmembrane conductance regulator (ATP- binding casset t e
sub-family C, member 7 ) (CFTR) , mRNA
AATTGGAAGCAAATGACATCACAGCAGGTCAGAGAAAAAGGGTTGAGCGGCAGGCACCCAGAGTA
GTAGGTCTTTGGCATTAGGAGCTTGAGCCCAGACGGCCCTAGCAGGGACCCCAGCGCCCGAGAGA
CCATGCAGAGGTCGCCTCTGGAAAAGGCCAGCGTTGTCTCCAAACTTTTTTTCAGCTGGACCAGA
CCAATTTTGAGGAAAGGATACAGACAGCGCCTGGAATTGTCAGACATATACCAAATCCCTTCTGT
TGATTCTGCTGACAATCTATCTGAAAAATTGGAAAGAGAATGGGATAGAGAGCTGGCTTCAAAGA
AAAATCCTAAACTCATTAATGCCCTTCGGCGATGTTTTTTCTGGAGATTTATGTTCTATGGAATC
TTTTTATATTTAGGGGAAGTCACCAAAGCAGTACAGCCTCTCTTACTGGGAAGAATCATAGCTTC
CTATGACCCGGATAACAAGGAGGAACGCTCTATCGCGATTTATCTAGGCATAGGCTTATGCCTTC
TCTTTATTGTGAGGACACTGCTCCTACACCCAGCCATTTTTGGCCTTCATCACATTGGAATGCAG
ATGAGAATAGCTATGTTTAGTTTGATTTATAAGAAGACTTTAAAGCTGTCAAGCCGTGTTCTAGA
TAAAATAAGTATTGGACAACTTGTTAGTCTCCTTTCCAACAACCTGAACAAATTTGATGAAGGAC
TTGCATTGGCACATTTCGTGTGGATCGCTCCTTTGCAAGTGGCACTCCTCATGGGGCTAATCTGG
GAGTTGTTACAGGCGTCTGCCTTCTGTGGACTTGGTTTCCTGATAGTCCTTGCCCTTTTTCAGGC
TGGGCTAGGGAGAATGATGATGAAGTACAGAGATCAGAGAGCTGGGAAGATCAGTGAAAGACTTG
TGATTACCTCAGAAATGATTGAAAATATCCAATCTGTTAAGGCATACTGCTGGGAAGAAGCAATG
GAAAAAATGATTGAAAACTTAAGACAAACAGAACTGAAACTGACTCGGAAGGCAGCCTATGTGAG
ATACTTCAATAGCTCAGCCTTCTTCTTCTCAGGGTTCTTTGTGGTGTTTTTATCTGTGCTTCCCT
ATGCACTAATCAAAGGAATCATCCTCCGGAAAATATTCACCACCATCTCATTCTGCATTGTTCTG
CGCATGGCGGTCACTCGGCAATTTCCCTGGGCTGTACAAACATGGTATGACTCTCTTGGAGCAAT
AAACAAAATACAGGATTTCTTACAAAAGCAAGAATATAAGACATTGGAATATAACTTAACGACTA
CAGAAGTAGTGATGGAGAATGTAACAGCCTTCTGGGAGGAGGGATTTGGGGAATTATTTGAGAAA
GCAAAACAAAACAATAACAATAGAAAAACTTCTAATGGTGATGACAGCCTCTTCTTCAGTAATTT
CTCACTTCTTGGTACTCCTGTCCTGAAAGATATTAATTTCAAGATAGAAAGAGGACAGTTGTTGG
CGGTTGCTGGATCCACTGGAGCAGGCAAGACTTCACTTCTAATGGTGATTATGGGAGAACTGGAG
CCTTCAGAGGGTAAAATTAAGCACAGTGGAAGAATTTCATTCTGTTCTCAGTTTTCCTGGATTAT
GCCTGGCACCATTAAAGAAAATATCATCTTTGGTGTTTCCTATGATGAATATAGATACAGAAGCG
TCATCAAAGCATGCCAACTAGAAGAGGACATCTCCAAGTTTGCAGAGAAAGACAATATAGTTCTT
GGAGAAGGTGGAATCACACTGAGTGGAGGTCAACGAGCAAGAATTTCTTTAGCAAGAGCAGTATA
CAAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATACCTAGATGTTTTAACAGAAAAAG
AAATATTTGAAAGCTGTGTCTGTAAACTGATGGCTAACAAAACTAGGATTTTGGTCACTTCTAAA
ATGGAACATTTAAAGAAAGCTGACAAAATATTAATTTTGCATGAAGGTAGCAGCTATTTTTATGG
GACATTTTCAGAACTCCAAAATCTACAGCCAGACTTTAGCTCAAAACTCATGGGATGTGATTCTT
TCGACCAATTTAGTGCAGAAAGAAGAAATTCAATCCTAACTGAGACCTTACACCGTTTCTCATTA
GAAGGAGATGCTCCTGTCTCCTGGACAGAAACAAAAAAACAATCTTTTAAACAGACTGGAGAGTT
TGGGGAAAAAAGGAAGAATTCTATTCTCAATCCAATCAACTCTATACGAAAATTTTCCATTGTGC
AAAAGACTCCCTTACAAATGAATGGCATCGAAGAGGATTCTGATGAGCCTTTAGAGAGAAGGCTG
TCCTTAGTACCAGATTCTGAGCAGGGAGAGGCGATACTGCCTCGCATCAGCGTGATCAGCACTGG
CCCCACGCTTCAGGCACGAAGGAGGCAGTCTGTCCTGAACCTGATGACACACTCAGTTAACCAAG
GTCAGAACATTCACCGAAAGACAACAGCATCCACACGAAAAGTGTCACTGGCCCCTCAGGCAAAC
TTGACTGAACTGGATATATATTCAAGAAGGTTATCTCAAGAAACTGGCTTGGAAATAAGTGAAGA
AATTAACGAAGAAGACTTAAAGGAGTGCTTTTTTGATGATATGGAGAGCATACCAGCAGTGACTA
CATGGAACACATACCTTCGATATATTACTGTCCACAAGAGCTTAATTTTTGTGCTAATTTGGTGC
TTAGTAATTTTTCTGGCAGAGGTGGCTGCTTCTTTGGTTGTGCTGTGGCTCCTTGGAAACACTCC
TCTTCAAGACAAAGGGAATAGTACTCATAGTAGAAATAACAGCTATGCAGTGATTATCACCAGCA
CCAGTTCGTATTATGTGTTTTACATTTACGTGGGAGTAGCCGACACTTTGCTTGCTATGGGATTC
TTCAGAGGTCTACCACTGGTGCATACTCTAATCACAGTGTCGAAAATTTTACACCACAAAATGTT
ACATTCTGTTCTTCAAGCACCTATGTCAACCCTCAACACGTTGAAAGCAGGTGGGATTCTTAATA
GATTCTCCAAAGATATAGCAATTTTGGATGACCTTCTGCCTCTTACCATATTTGACTTCATCCAG
TTGTTATTAATTGTGATTGGAGCTATAGCAGTTGTCGCAGTTTTACAACCCTACATCTTTGTTGC
AACAGTGCCAGTGATAGTGGCTTTTATTATGTTGAGAGCATATTTCCTCCAAACCTCACAGCAAC
TCAAACAACTGGAATCTGAAGGCAGGAGTCCAATTTTCACTCATCTTGTTACAAGCTTAAAAGGA
CTATGGACACTTCGTGCCTTCGGACGGCAGCCTTACTTTGAAACTCTGTTCCACAAAGCTCTGAA
TTTACATACTGCCAACTGGTTCTTGTACCTGTCAACACTGCGCTGGTTCCAAATGAGAATAGAAA
TGATTTTTGTCATCTTCTTCATTGCTGTTACCTTCATTTCCATTTTAACAACAGGAGAAGGAGAA
GGAAGAGTTGGTATTATCCTGACTTTAGCCATGAATATCATGAGTACATTGCAGTGGGCTGTAAA
CTCCAGCATAGATGTGGATAGCTTGATGCGATCTGTGAGCCGAGTCTTTAAGTTCATTGACATGC
CAACAGAAGGTAAACCTACCAAGTCAACCAAACCATACAAGAATGGCCAACTCTCGAAAGTTATG
ATTATTGAGAATTCACACGTGAAGAAAGATGACATCTGGCCCTCAGGGGGCCAAATGACTGTCAA
AGATCTCACAGCAAAATACACAGAAGGTGGAAATGCCATATTAGAGAACATTTCCTTCTCAATAA
GTCCTGGCCAGAGGGTGGGCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCT
TTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATAAC
TTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACAT
TTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAAATATGGAAAGTTGCAGATGAG
GTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGG
CTGTGTCCTAAGCCATGGCCACAAGCAGTTGATGTGCTTGGCTAGATCTGTTCTCAGTAAGGCGA
AGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGA
ACTCTAAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCT
GGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACGATTCCATCCAGAAAC
TGCTGAACGAGAGGAGCCTCTTCCGGCAAGCCATCAGCCCCTCCGACAGGGTGAAGCTCTTTCCC
CACCGGAACTCAAGCAAGTGCAAGTCTAAGCCCCAGATTGCTGCTCTGAAAGAGGAGACAGAAGA
AGAGGTGCAAGATACAAGGCTTTAGAGAGCAGCATAAATGTTGACATGGGACATTTGCTCATGGA
ATTGGAGCTCGTGGGACAGTCACCTCATGGAATTGGAGCTCGTGGAACAGTTACCTCTGCCTCAG
AAAACAAGGATGAATTAAGTTTTTTTTTAAAAAAGAAACATTTGGTAAGGGGAATTGAGGACACT
GATATGGGTCTTGATAAATGGCTTCCTGGCAATAGTCAAATTGTGTGAAAGGTACTTCAAATCCT
TGAAGATTTACCACTTGTGTTTTGCAAGCCAGATTTTCCTGAAAACCCTTGCCATGTGCTAGTAA
TTGGAAAGGCAGCTCTAAATGTCAATCAGCCTAGTTGATCAGCTTATTGTCTAGTGAAACTCGTT
AATTTGTAGTGTTGGAGAAGAACTGAAATCATACTTCTTAGGGTTATGATTAAGTAATGATAACT
GGAAACTTCAGCGGTTTATATAAGCTTGTATTCCTTTTTCTCTCCTCTCCCCATGATGTTTAGAA
ACACAACTATATTGTTTGCTAAGCATTCCAACTATCTCATTTCCAAGCAAGTATTAGAATACCAC
AGGAACCACAAGACTGCACATCAAAATATGCCCCATTCAACATCTAGTGAGCAGTCAGGAAAGAG
AACTTCCAGATCCTGGAAATCAGGGTTAGTATTGTCCAGGTCTACCAAAAATCTCAATATTTCAG
ATAATCACAATACATCCCTTACCTGGGAAAGGGCTGTTATAATCTTTCACAGGGGACAGGATGGT
TCCCTTGATGAAGAAGTTGATATGCCTTTTCCCAACTCCAGAAAGTGACAAGCTCACAGACCTTT
GAACTAGAGTTTAGCTGGAAAAGTATGTTAGTGCAAATTGTCACAGGACAGCCCTTCTTTCCACA
GAAGCTCCAGGTAGAGGGTGTGTAAGTAGATAGGCCATGGGCACTGTGGGTAGACACACATGAAG
TCCAAGCATTTAGATGTATAGGTTGATGGTGGTATGTTTTCAGGCTAGATGTATGTACTTCATGC
TGTCTACACTAAGAGAGAATGAGAGACACACTGAAGAAGCACCAATCATGAATTAGTTTTATATG
CTTCTGTTTTATAATTTTGTGAAGCAAAATTTTTTCTCTAGGAAATATTTATTTTAATAATGTTT
CAAACATATATAACAATGCTGTATTTTAAAAGAATGATTATGAATTACATTTGTATAAAATAATT
TTTATATTTGAAATATTGACTTTTTATGGCACTAGTATTTCTATGAAATATTATGTTAAAACTGG
GACAGGGGAGAACCTAGGGTGATATTAACCAGGGGCCATGAATCACCTTTTGGTCTGGAGGGAAG
CCTTGGGGCTGATGCAGTTGTTGCCCACAGCTGTATGATTCCCAGCCAGCACAGCCTCTTAGATG
CAGTTCTGAAGAAGATGGTACCACCAGTCTGACTGTTTCCATCAAGGGTACACTGCCTTCTCAAC
TCCAAACTGACTCTTAAGAAGACTGCATTATATTTATTACTGTAAGAAAATATCACTTGTCAATA
AAATCCATACATTTGTGTGAAA
Figura 9.53. Secuencias bajo estudio
Una vez generado e l fichero de alineamiento, lo descargaremos y lo

guardaremos en local.
<: D ·" "" P oé •* ~ · - =

-
Jnpo.¡' ro·tl' W~·~ ~-(""Ao: ~ 11dp &. D1XU11"1('1ot.fu:m -; 5/"l'J:" : . . ·~~!ii)(k
Toob , r.lo.dl~ ~ """r-='•t :. 0...~.. ~

~ l o; 1CY tOO Cl~.o~I.JIO·I201•1 CfiOSHJ.35-135-()43
k·· :SGI ._-.J, SVW~~&IV l'fl..tooel'ltóe T~e ~~OIU14
-4~11-P'J
..
,1 .u.o-.u•t¡ror
91
~cao-~.J,
,;unuu., ~t ll'l.o:~;u: .~•
AA.rl'"'''t..,lrc.t.:l~ftT"~:-~r
~~~~=)d')' ••· •~~C»r .
r. ~uocn•tuu ,.,_~::.;u.: ·--~~.a..'"W--.17.~'"':~"1": • •

9' tlO}lJUIH ~!I)I.O:f-tt:.J =~rl.tl:te:r:G:.O.r:~~-····.ec::~
<l lti i"X~t'Jlrt! I~..Jtl(<$0.l• G'lWl'~~OCT.M~G~

r. •:e:: ~~: t:t :1SII_o:c at: . ¡ .t:w.~utz.«l.U.::v.:-:::rn:l.~01..
'"C7
...u.u..t."i
~~~~»:1t..t..~
OQ.Uélel.l~~~'X''l"''''' :'«TW('TO~!Oe«:
<J! l t•«ll" , . . .: ~-c:~o-•o. >1 reo:.c-.;~,rt.err:nnGQQ,t:.x'le-.:c·u,r~:nr.ca~.l!CO~t

11 •:Hl,I U •• fl lk.O!tt•:. l• !~!!¡! : :::?.~~==-"!•::?.~:~~:~:~~
Figura 9.54. Descarga del fichero de alineamiento
A continuación, en e l menú Archivo de Jalview, seleccionamos la opción de

cargar el fichero desde un fichero local (el que acabamos de guardar):
'!J w-..UI I
ie>eh y_ , n..rp, \'hlo6ew
•• "f
........,-c...... ,,
Figura 9.55. Carga de un fich ero local en Jalview
Una vez seleccionado e l fichero, Jalview mostrará una representación gráfica

del alineam iento múltiple (ver Figura 9.56):
.
C:\V:e:~\darelrnar.IJPVNH\Oe~bcp\clu~:lo·f2J140SOO·OSS43S .C).IrJ.-45098~11· pg.du~~
t11 ~ E<*t SeiKt V1ew fotmn Colo~r Clltt.riUe Web Sevl<e

~ ~ ~ ~
~1 1160031731~1\ffi(.Ol1()$1.).<"1t~ :u. 1 , ¿ 6 A, AG
9'11~ Z1 $12'f'Jt•.w_
e ~. mf~Act.AGdc;~
"l\A" A. CA. t f ACÓT! .A(•(; 1
OOll'$~.31''~-e131 8A.Idi~.aai ~aa&W:ecAJ,.eJ::t~&ia~ü~A~l r~eSl:!C:~sui
A
Figura 9.56. Representación gráfica del alineamiento

En la opción Colour, de todos los modelos cromáticos soportados,

seleccionamos la opción Clustalx, ya que colorear el alineamiento simplifica la
inspección visual del mismo (ver Figura 9.57).
""''
.
Ct.OSUM62 Score-
, .,..
P(rto•ru~ !dcn:ay
r,,to<
1-t¡o"rophllt.icCy
Ht:f" P"ro~re01y
111 11
r 4 A (; , (' ('lo\ . e <> ··,.
11
cc .A
Str~l'ld Pnopcr.~tty
Turn 9f'op.tuity
euncd ln:la
HIKitotide:
F'vrind'F'ytimtdin t
l ·<:otf« S<om
u(.. oai~~o?ll~
9yCcm-ben
Mcd1fyún~cnr~11Cn rh•d-.o d.. 1-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;i¡
~baY.. Id .n~Cy Thf~hcld F
M«<lfy ldcr:tity Thrcsheld ...
~· M nctatWn_
bJPN~ ldic:o
Figura 9.57. Cambio del modelo cromático
r- , "
Cambia los valores del modelo cromático y comprueba cómo varía
la representación gráfica de la secuencia.
~ """
9A.1 Creación de grupos
Un grupo es una región etiquetada de un alineamiento que puede manejarse

de manera autónoma para, por ejemplo, seleccionar d icha reg ión directamente sin
tener que volver a buscar los fragmentos de las secuencias implicadas.
Para ello, se seleccionan las secuencias mientras se mantiene pulsada la tecla

C trl. En este caso, vamos a crear un grupo con los nucleótidos comprend idos entre la
posición 68 y la 129 (ver Figura 9.58). Una vez seleccionadas las secuencias, pulsamos
e l botón derecho de l ratón y en el menú desplegable, indicamos Select • Create
Groups. Cuando se ha creado un grupo, las secuencias aparecen recuadradas en rojo

con trazo discontinuo en la parte superior (ver Figma 9.58). A partir de ese momento, el
grupo se compo rtará, a efecto de la edición del alineamiento, como una unidad.
. .-1_._.,._
... -- - ~ .. .
,,( ~..-
Wl~-- ~
iiiiiiifllil ,...
.......~... _.....1~~.,..~...- ..
(oiO:'>IM
(I,¡.J
_,..>=<.
.._ ,..,...... Qol•"
~··
lo .... ~- '""•
Otol·l
.....,..u.,..,.s.r...- <M•Ht•l
<-""- 011•0
' -• - , .
-c.....,.. __ Ooi·U.,..._G
- ... ~ Qoi•U
."
Figura 9.58. Creación de un grupo con Jalview
Es posible edita r el grupo para darle un nombre descriptivo, pincha ndo, sobre
la selección del grupo, e l botón derecho del ratón. Aparecerá un menú desplegable
con las opciones descritas en la Figu ra 9.59:
-
~~~ ·
-·-
- · o..o,.. .. t - .
..... s.-01 ""*s.-· ~
la!C...p
_,., ...
, ....._ .... ~.t·-~
--·
•111 111111
"~ " • c. u ~· · • ""'" u• e e
111•11 •1
u""".,., .. <• u.:; u.u •
1
,..
Figura 9.59. Edición de un grupo

Si seleccionamos la opción Edit name and description of current

group, aparecerá una caja de diá logo en donde podremos introducir el nombre y la
descripción de l grupo que hemos seleccionado (ver Figura 9.60).
8 ___.,..,"
-- ~~~- -·-·'""••lo l.
..
Figura 9.60. Nombre y descripción de un grupo
9.4.2 Reordenación del alineamiento

La reordenación del alineamiento con Jalview es muy sencilla: ún icamente
hay que seleccionar las secuencias que se desea reordenar y pulsar las flechas del
cursor a derecha o izquierda tantas posiciones como se desee. Automáticamente, los
nucleótidos (o aminoácidos) de las secuencias seleccionadas se desplazarán en la
dirección indicada.
Si seleccionamos la secuencia del ARN del ratón (accession NM _ 021 050.2) y

la desplazamos 6 posiciones a la derecha, obtendremos la situación de la Figura 9.6 1:
Situación inicial
-
1 •u• 111111
. . ~. . • . • . . . • • l ( . ! . . . . . . . . . . . . . . . . . .
111
cu .. c .•. . ... . . u . • . c..
,.
__
.• . = _
·- .... .......;;a¡·
. "·,:...!l·a
~' ·•!ili¡''¡¡¡..!!u•li!ll!liii
~~
"" · "~~·~
' : · ·.... . . ·"- •.' ' "..·•
'• ( '
.."t.l!lii!P.!iilit.
.. . . ' '
"' ...
' • .. ,.. --.··•w' (.w'· .
· '. ·l!!'i!·"'
.•:lli! !( • ,~l'M'
. -
·- U
.... .. ll
•··. = !. U.~WW!JU !J. U . ..1
=..=. ..,.J' 1•
Figura 9.61. Alineamiento modificado por desplazamiento de la primera secuencia

Si se quiere desplazar una secuenci a respecto de otras varias, suele

ser más sencillo crear un grupo con estas últimas y desplazar el
grupo en lugar de la primera secuencia.
9.4.3 Adición y borrado de huecos
Para añadi r huecos, únicamente hay que mantener pulsado el botón Ctrl y
mover el puntero del ratón a vo luntad. Inmediatamente, el alineamiento y el consenso se
actuali zan para refleja r los cambios. Si co mparamos la Figura 9.61 co n la Figu ra 9.62,
se observan claramente los efectos de l desplazamiento de las secuencias agrupadas.
Figura 9.62. Inserción de huecos en el alineamiento
Otra operación habitual en la edición de alineamientos es el borrado de

huecos. En Ja lview estas operaciones se encuen tran agrupadas en el menú Edición
de la ventana del alinea miento. Por ejemplo, para borrar todos los huecos, dentro de
este menú, pinchamos en R em ove All Gaps:
,..,. <o'-V
,..,
"' '''"'
..
....
~ "'""
......... k'!
~--·· -
-~
~·ll
~~twf'l)'c.--. (M.t
Figura 9.63. Borrado de huecos

Con lo que obtendremos el a lineamiento de la Figura 9.64:
Figura 9.64. Alineamiento tras el borrado de huecos
En estos casos también es buena idea utilizar los grupos, si se desea

introducir huecos en las mismas posiciones de secuencias distintas.
9.5 BÚSQUEDA DE SECUENCIAS HOMÓLOGAS CON SIB-BLAST
SIB-BLAST es una herramienta que, dada una secuencia, proporciona un

conjunto de secuencias potencialmente homólogas a la secuencia bajo estudio.
En primer lugar, abriremos un navegador e introduciremos la URL de la

página princ ipal de SIB-BLAST: http://bioserv.mps.ohio-state.edu/sib-blastl.
Aparecerá entonces la pantalla de la Figura 9.65:
·---·--···.... e •· ~ P O G • * "' "'•S
~h&o.~ ;.~-.c ..+

··c ~...,,'"......,""'~"'~"·-«W=~ftnc.PSt.lll.AST :M~,.,...., t\i:~ • .. m""',wut..e.-.do"W.a...ot..... ...
~<-lk~M·Nv~WJ- ---- Ifl•*----.too~nlk~•ttM~...W io,.:.-llw-~olaP$t..ai.A$T~"'-"t.•
....,-.¡Rpoo otW!o~(F~f)io l........_,lllj ...... E·~diao. . l .... ~d-&olli1111'._ &f0.\1. . . ~ .. -...w:..m.t aiii • ...... .....JIIl:.
h!.. ,.. ......
Figura 9.65. Página principal de SIB-BLAST

STB-BLAST requ iere tres parámetros de entrada. En primer lugar, la

secuencia bajo estudio, que puede proporcionarse pegándola en formato FASTA en
el área de texto acondicionada para ello o b ien subiendo el fichero FASTA con la
. .
propia secuencia.
>Anonimal
CAGGCAGCCCCACACCCTCCGCCTCCTGCACCGAGAGACATGGAATAAAGCCCCTGAACCAGCCC
TGCTGTGCCGTCTGTGTGTCTTGGGGGCCCTGGGCCAAGCCCCACTTCCCGGCACTGTTGTGAGC
CCCTCCCAGCTCTCTCCATGCTCTCTGGGTGCCCACAGGTGCCAACGCCAGCCAGGCCCAGCATG
CAGTGGCTCTCCCCAAAGCGGCCATGCCTGTCGGCTGCCTGCTACCCCCACCCTGTGGCTCAGGG
TCCAGTATGGGAGCTGCGGGGGTCTCTGAGGGGCCAGGGGTGGTGGGGCCACTGAGAAATGACTT
CTTGTTCAGTAGCTCTGGACTCTTGGAGTCCCCAGAGACCTTGTTCAGGAAAGGGAATGAGAACA
TTCCAGCAATTTTCCCCCCACCTAGCCCTCCCAGGTTCTATTTTTAGATTTATTTCTGATGGAGT
CCCTGTGGAGGGAGGAGGCTGGGCTGAGGGAGGGGGTCCTGCAGGGCGGGGGGCTGGGAAGGTGG
GGAGAGGCTGCTGAGAGCCACCCGCTATCCCCAGCTCTGGGCAGCCCTGGGACAGTCACACACCC
TGGCCTCGCGGCCCAAGCTGGCAGCCGTCTGCAGCCACAGCTTATGCCAGCCCAGGTCCAGCCAG
ACACCTGAGGGACCCACTGGTGCCTTGGAGGAAGCAGGAGAGGTCAGATGGCACCATGAGCTGGG
GCAGGTGCAGGGACCGTGGCAGCACCGGG
Adic ionalmente, es necesario proporcionar el número de iteracio nes del

a lgoritmo de búsqueda que se desea que STB-BLAST efectúe.
(1 ·
~·v~~ No se recomiendan más de 5o 6 iteraciones.
Para finalizar, se establece el número máximo de resultados. Hecho esto,

pulsando el botón de Submit se obtienen los res ultados (ver Figura 9.67):
p '(r Q
Status oC your Simple l.s Beautiful job

.u ci 1 S· t ~:20 Jm 20, 2014 EDT·
Jl:ahll rh~ ~pl~rM

1
j;,
l " '"""
, r..,.,.,., "' r, . ·ro. __1 _ _1 L01
IPSl.Jlt.\ST !omd ljpoclmie¡( ll"-)
IPSJ·BLASl •-21""""*<~
IPSI·BLAST """"' >1~
IPSI·BLAST """" ·1- r
I PSI.DLAST "'"""si"""""
[Fil"eof""" 1""""*<~
<Moe )'c-.1 job fri~ )W will.J.e &We 10 &ld your r~t nl fle fokv.in¡ lJR.L
I!!WJ,~v.JZ!P?.olw ~cdl'~'~b t:Wt'wioi!dS!DJUlYO? tkfte~SUM.ltml
Pk<U~: noto: tb;,ttb: lt~S.n 'l>.lJ\1(: d:kttd.--:: «r. ~
lf)·ou prO\idtd aa Enl..'li add--tss '4ih )-ouf origi\11 ~

che IJ'"R.L ,... be k1ll: to }W OIIC't' flc. ;ob &i!hes
m, '~~"~' tuse ·d i be rcloll&d e\U)' m~ S«Of'.lk
~ tis W plo!:m 1do.d tht ~ ~·.
Figura 9.67. Resultados de SIB-BLAST
Si se especifica la dirección de correo electrónico, no es necesario esperar a

que acabe el procesamiento del trabajo, sino que cuando este esté listo, llegará una
notificación al respecto (Figura 9.68):
SimpielsBeautiful result
sib.blast@bioserv.mps.ohio.state.edu 20 de jun. (hace 2 dias)

pa1a mi ..
> español ... Traducir mensaje
The results fo1YO'-'' iob are no·, ava lable at the folowill9 link·
httcrh'biqsm mos dlio-state edufsib-blast!udoad/SIBsUzYOP <lir/tesuhSUM html

Please note that the res-ult fles wll be deleted after one week..
Figura 9.68. Notificación de disponibilidad de resultados
Los resu ltados se orde nan en una tabla de secuencias putativas homó logas
de la secuencia bajo estudio encontradas en la base de datos de proteínas (ver Figura
9.69). Junto con los identificadores de las secuencias, encontramos los va lores E en
la segunda y la ú ltima interación y la figura de mérito, qu e se emplea para ordenar la
coincidencia de las coincidencias en la base de datos.
ft -· .....- ..... ··---- ,_...........- .
Figura 9.69. Resultados de SIB-BLAST
Se trata de una proteína del orangután de Sumatra (Pongo Abelii). Si

pinchamos en los enlaces de la columna GI nu mb er & Descrip tion, se abre el
registro en GenBank correspondiente.
Si hacemos clic en la columna correspondiente al valor E, obtenemos el

fichero de alinea miento (ver Figura 9 .70):
..._....,.~_.. ..., · ~
+- e D b-'osHV.~o-s~at~.e<~~ t-~.JI!.J.,uplc).td.l!!.t8V'1l)"-.<li•/.l; qun·,.,t:..IXP.ooJslb!)vJrn.lll..
)'~ "! J:~...~~$1~ '$$, ;t fit0 1C7t!l! i.OII <l:t.lAll'l"t f~!Z!lt t'tl\U(~II•lC• hlu: (iot!O:~ •td H!
t.o..¡;i> • i ? U
S<e-!t-e • U .1 blt: IUt) , U"~et • l~ ·lC , Y-'-t/:(01 ('~O H : 1Cl\ •Nv.: l : a ::,
l4r.o~>Hu • t tf./$46 fl$t~. Pc:<~ •t.~,.u • ! ' O/$U" t2U) , O.~.o • tW"E UUI
0:.~1'1' : 1 0."""30e:::t.tO.:«t:OOCX":"~C::::).IG.:I· • • • •• · .:..e:..HIG.I,; .':'l;.A··:iC

. $1
c:o~: -e c:oeOt: Aol ..C 6 • "
"';~~>• ZO:S e~"::;:~:PC!IC~iiCkt\'OC"~NO~CPfl_o,:,<;I\Cfltua~t 2(:
~;H'f• » «:--- -~O"" ...J.:lOC:O:O::O: ~:::~~:n~:e: ~~:::---····<n'l<l n

e~ :o e e: .::• ?<: e e: o , t: e. o
~;ct.: 16! C\'~D~~Ux.501t:OSIC----!~.'C!I""''t'l'~IX:C'n.!C~ !~ ~
~·· n- · :'X' o:;.;.=··J<:"::Cle'::l'~:l'='!.l.:):=c:t::: •••·:..G.."'l>:Itltc:..I"T. ·• ~ ~¡

ccec 1 e:: o<: e::e ce c e. e e
,_JCt• J~t =-::1-~~~~UC»'OCX:.I :<l::ltVCC;~OC.il!OCO(!n"l'CUtle~C 11t
Q-acy : ~ :.~ •••••••ic:T:70>~Gt:n)"l'r~··•··•·•~;.,e::-,.,.,_-ec.;..x;a.roc :•~

cec -e e ce eec e e e
lbJCt: S"t ~:tD::EC:::~UC:I~.'":~:o:~~CI:.C:t:"."dl:;n~lAAtM.!i< Ut
Q-;oocy : ~.- Mt~r.Te:';::lt~JT...::;.:nn3!C,~XTU••••••••C«~C ~·~

~~e eeA ~e e~e~ e -~ e e 1IC
~l~t; 1 :lt "'-3'-!.U:t."!"."O:<)Y!.~~·"lstr.)XJUCL.."%.\l~,~»r.")CeOr~t-(1 1 '-l
<!'"'•no: Ht ~~~~~;;~n.~m'l --~e«r-.4- ---:netm~ 'eo

e e: e~; ece:c: ce:e: .-e:.
::b'~t, 1n ::a.lMl.:-;-:x~~.=n,m.t::c,,AA:f4:X=l~:Ct=·.:-:cu.:.~~;~:::x r.J.Je ~a
o.~ "'' »: w;r;G-----ac>:;o.cr~t~'7TCtfmCAQTMet~~~c 'S$

G~Ci CCC C: •G ee;ce~C
~; H ' 1>~) ~:O:Iii""...J.:>Or-~~:";'CtlNl'YV.:Z:l>e:'\~l':l=::!ll••••','!~r.!~!Y'r.l~ ( ~ 1
Oo1rt: ~· «CJ.~~:;WMN:.MJ::;.w.v.wte~;-Af.ieM.~~ •1•

e •: e~ r oa.r e ;. c e
~:·~-. . (:1 c.:;: r.-:r:::l~liC.z:t;li'::.c:s-;n• ..,.,:c:cwxr~Rl:li.•·-----·<·~ tu
~-••y• •:• ~~•=~>:n-ru..:.~<.rnJ..n:.etur ~---··M:: ~C'l'········'i ~ · ~
o: 33C o o:03 ~e.:
:t.: ~~ ~ '-" GV:~a.-:or:;:;to:--···-- -«!UUUJ.:I':ü:;JU~~.:v&C;n:<fD:;\! ,!¡
~-•"Y• u.~ ~"Y~..C:'l=Ha.=~ u ?

~ G:;C G : G ;.:;
~:~· 'a ~c~~Jt;oz:a::JGj;YCY.:JGY:.:; ' "t
Figura 9.70. Fichero de alineamiento

9.6 ALINEAMIENTO MÚLTIPLE
En esta práctica trabajaremos con las secuencias de la dehidroascorbato

reductasa de varias especies de plantas:
>gil1453581131refiNM_ 121676 . 31 Arabidopsis thaliana DHAR3

(DEHYDROASCORBATE REDUCTASE 1) ; glutathione dehydrogenase
(ascorbate) (DHAR3 ) mRNA, complete cds
GGAAATTAAACCACTGCGAAAAATATGATAAGCCTTAGGTTTCAACCAAGCACCACCGCCGGTGT
TTTATCGGCGTCAGTGAGCCGCGCCGGTTTTATCAAGCGGTGCGGTTCGACTAAACCGGGAAGGG
TTGGCCGGTTTGTTACAATGGCGACGGCGGCGAGTCCTCTTGAAATCTGCGTTAAAGCTTCTATC
ACCACTCCCAACAAGCTCGGAGACTGCCCTTTTTGCCAAAAGGTGTTACTGACAATGGAGGAGAA
GAATGTTCCTTATGACATGAAAATGGTGGATTTGAGTAACAAACCAGAATGGTTCTTGAAGATTA
GTCCAGAAGGTAAAGTCCCAGTTGTGAAGTTTGATGAGAAATGGGTTCCGGATTCAGATGTTATA
ACACAGGCTTTAGAAGAGAAGTATCCTGAGCCTCCTCTTGCTACCCCACCTGAAAAGGCTTCAGT
TGGATCGAAGATCTTTTCCACATTTGTCGGTTTTCTGAAGAGCAAAGATTCAGGAGATGGAACTG
AGCAAGTTTTGTTGGATGAGCTTACTACATTCAACGATTATATCAAGGACAATGGCCCTTTCATA
AATGGAGAGAAGATCTCGGCAGCAGATTTGTCCTTGGCACCAAAGTTATACCACATGAAGATTGC
ATTGGGACATTACAAGAACTGGTCTGTTCCAGATTCACTTCCTTTCGTCAAATCCTACATGGAGA
ATGTTTTCTCGAGGGAATCATTCACGAACACACGGGCGGAAACAGAGGATGTAATTGCTGGTTGG
AGACCAAAGGTTATGGGTTAAGAGATTTTGATGTTGACCTCAAGCTTCCTTGTCTTCTACTAAAT
GTAAAAAACATAATAATCAAATCTTCTTCAACTGTTACCAATGATATATACCTTGAATCCTTGAT
TGCTTATATGATGAAAACTATATTGTGTCATAGTGGGGAAGCTTGC
>gill453359071refiNM_l01814 . 31 Arabidopsis thaliana DHARl
(DEHYDROASCORBATE REDUCTASE) ; g l utathione dehydrogenase
(ascorbate) (DHARl ) mRNA, complete cds
AAAAATGGCCCACTGGTGGGTGGAGAATGGTAATAATTCAGTTTAAAAGCTAAGCCTTCTCACTG
ATTAACTCAATCATTCATCCGTCTCTGCAAACAAAGGAAGAAGAATCAAGATGGCTCTGGAAATC
TGTGTGAAAGCTGCTGTTGGTGCTCCTGATCATCTCGGCGACTGTCCGTTCAGCCAACGGGCTCT
TCTCACACTCGAGGAGAAGAGTCTTACCTACAAAATCCATCTGATTAACCTCTCTGACAAACCCC
AGTGGTTCTTGGACATTAGTCCTCAAGGGAAAGTACCAGTGCTTAAGATCGACGACAAGTGGGTG
ACTGATTCCGACGTCATCGTTGGTATACTCGAGGAGAAGTATCCTGATCCACCACTCAAGACTCC
TGCTGAATTTGCCTCTGTTGGATCCAACATTTTTGGTACTTTTGGGACATTCTTGAAGAGCAAAG
ACTCCAATGACGGATCTGAACATGCCTTGCTTGTTGAGCTAGAAGCTTTGGAAAACCATCTTAAG
AGTCACGATGGCCCTTTTATCGCCGGAGAAAGAGTTTCCGCAGTGGATCTAAGCTTAGCACCAAA
GCTTTACCACCTTCAAGTTGCTCTTGGCCATTTCAAAAGCTGGTCTGTCCCTGAGAGCTTTCCCC
ATGTCCATAACTACATGAAGACTCTGTTCTCGCTCGACTCTTTTGAGAAAACTAAGACCGAGGAA
AAGTATGTGATCTCTGGATGGGCTCCCAAGGTTAACCCTTGAAACTATGCACCGTTATGAGATCG
TTGGTGTGGTAATGTTGTTCAAGGTCTCTCTCTTATATCAGTCAAATAATGTACTTGGACCTTTT
TATGTAATGTACTGTATCAATCAAATAAGAAGCCTATTTTGAAATAAGATTTGCCTCCATATC
>gil1231870861gbiEF195334 . l l Solanum tuberosum d ehydroascorbate
reductase (DHAR2) mRNA , complete cds
AACATGTCGACCGCAAAGATAACACCATCAGCTGCTTCATTTGCGACTTCTATCAAACACCTTGC
GGGCATTCAACTACCTCGACTCCAAAACACCATTTATACCTCCAATTCCACTAAGTTTAGAGCAC
CCAGAAGAGCTTTTACTGTATCAATGGCGGCTTCACTCGACACCCCTCTTGAAGTTTGCGTCAAA
CAATCAATTACAACTCCTAACAAGCTCGGCGACTGCCCATTCACTCAGAGGGTTTTGCTTACGTT
GGAGGAAAAGCACCTTCCATATGACATGAAGTTTGTTGATTTAAGTAACAAGCCTGACTGGTTTT
TGAAGATAAGCCCCGAAGGTAAAGTTCCACTTATTAAGCTTGACGAGAAATGGGTTCCAGATTCA
GATGTCATCACACAGGCACTGGAGGAGAAGTTCCCTGAACCTCCGCTGACAACTCCTCCTGAGAA
GGCTTCCATTGGATCAAAGATCTTCCCGAAGTTTGTTGCTTTTCTGAAAAGCAAAGACCCCACTG
ATGGAACAGAGCAGGCTTTACTTGATGAGCTGACAGCTTTCAATGATTACCTTAAAGAAAATGGT
CCATTTATCAACGGAAATGAGGTATCTGCTGCTGATTTGTCGCTTGGACCAAAGCTATATCATTT
AGAAATATCTTTGGGGCACTATAAGAATTGGTCTATTCCAGATTCACTTTCCTACGTGAAATCAT
ACATGGAGAGTACATTCTCCAGGGAATCATTCATCAACACGCGGGCACTAAAAGAGGACGTCATT
GAAGGTTGGCGACCAAAAGTCATGGGTTAGACAAACTATATCATCTTTTGCATTTCTGAGGATTA
GATTTTTGTCACAAGGTATAGTAAGCTAGCATTTGGAAGGCTGTATGACAGTTCTTTGCCATGTA
TATTGTTATTAAAACATATACTCATCCTTGTTTGACTGAATGATAGCCTGA
>gil664750371gbiAY971874 . 11 Lycopersicon esculentum
dehydroascorbate reductase (0HAR2) mRNA , complete cds
CAGGCAACATGTCGACCGCAAAGATAACACCGTCAGCTGCTTCATTTGCGACTTCTATCAAACAC
CTTGCGGGCATTCAACTACCTCGACGCCAAAGCACCATTTTTACCTCCAATTCCACGAAGTTCAG
AGCACCCAGAAGAGGTTTTACTGTATCAATGGCGGCTTCAATCGAAACCCCTCTTGAAGTATGCG
TCAAACAATCAATTACAACTCCTAACAAGCTCGGTGACTGCCCATTCACCCAGAGGGTTTTGCTT
ACGTTGGAGGAGAAACACCTTCCATATGACATGAAGTTTGTTGACTTGAGTAACAAGCCTGACTG
GTTTTTGAAGATAAGCCCTGAAGGTAAAGTTCCTCTTATTAAGCTTGACGAGAAATGGGTGCCAG
ATTCAGATGTCATCTCACAGGCACTGGAGGAGAAGTTCCCCAAACCTCCGCTGACAACTCCTCCT
GAGAAGGCTTCCGTCGGATCAAAGATTTTCCCCAAGTTTGTTGCTTTCCTGAAAAGCAAAGACTC
CGGTGATGGAACAGAGCAGGCTTTACTTGATGAGCTGACAGCTTTCAATGATTACCTTAAAGAAA
ATGGTCCATTTATCAACGGAAATGAGGTATCTGCTGCTGATTTGTCGCTTGGACCAAAGCTATAT
CATTTAGAAATAGCTTTGGGGAACTATAAGAATTGGTCTATTCCAGATTCACTTTCCTACATGAA
ATCATACATGAAGAGTATATTCTCCAGGGAATCATTCATTCACACGCGGGCACTAAAAGAGGATG
TCATTGAGGGTTGGCGACCAAAAGTCATGGGTTAGACAAACTATATCATCTTTTGCATTTCTGAG
GATTAGGTTTTTGTCGCAAGGTATAGTAAGCTAGCATTTGGAAGGCTGTAAGACAGTTCTTTGCC
CTGTATATTGTTATTAAAACACATACTCATCCTTGTTAGACTGAATGATAGCCTGAGTTATATAT
GTAATACATACTTCCTAAGGCTTGTGCATAAAAAAAAAAAAAAAAAAAA
>gil281924261gb1AY074787 . 11 Nicotiana tabacum dehydroascorbate
reductase (OHAR) mRNA , complete cds
CGTTGCTGTCGGTTCCAAAAGAAAGACACTATATTCACCCAGAGTAGAATTCTCTAGTCCTTACC
ACACTACAAAGCGAAAAAGCTGTAGATCAATGGCTGTTGAAATCTGTGTCAAGGCTGCTGTGGGT
GCCCCTAATGTCCTCGGAGACTGTCCATTTAGCCAAAGGGCACTTCTGACATTGGAGGAAAAGAA
AGTGCCTTACAAGATGCACTTGATCAATGTTAGTGACAAGCCCAAATGGTTCTTGGAAGTGAACC
CAGAAGGAAAAGTTCCAGTGATCAAGTTTGATGAAAAATGGATCCCTGATTCTGATGTTATTGTT
GGGCTTCTTGAAGAGAAATACCCAAATCCCTCTCTCTCTAGTCCCCCTGAATTTGCTTCTGTGGG
CTCGAA.AATATTTCCTTCCTTTGTCTCATTTCGGAAGAGCAAGGATGCTAGTGACGGTACTGAGC
AGGCTCTGCTCGACGAGTTAAAGGCTTTGGAAGAGCATCTCAAGGCTCACGGACCATATGTCAAT
GGGGCGAATATTTGTTCAGTCGATTTGAGTTTGGCTCCGAAACTGTACCATCTTGAGGTGGCTCT
TGGCCATTTCAAGAAGTGGAGTGTACCTGAAAGCTTGAGTCATGTGCGTAAATACATGAAGTTGC
TCTTCGAGCGAGAGTCTTTCCAGAAAACCAAGGCTGCAAAAGAGTATGTCATTGCAGGATGGGCT
CCAAAGGTCAATCCATGAACCGATTCATAATTATAATCCCGTTGTTTCGCAGGAAGTTAGCAGTT
GAGGATACAGCATTTTGAAATATGAATGTATCTCGTAAGATCTAAAAATTGTTAAATGTTGGATC
ATGCTTGTACTGCTCTTTATGTTCTAATAAATAAGTCATGTTCTAAAAAAAAAAAAAAAAAAAAA
AA
Figura 9.71. Secuencias ba jo estudio
Gracias al alineamiento múltiple es posible realizar diversos

análisis: fi logenia, búsqueda de motivos funciona les, etc. De ahí la
importancia de dominar el manejo de estas herramientas.
9.6.1 Alineamiento múltiple con Clustal Omega
Clt1stal Omega es un programa de al inea miento múltiple de secuenc ias de

ADN o de proteínas. Para realizar los al ineamientos, Clusta iO sigue una estrategia
progresiva en tres pasos:
1" Ali neamiento global de pares: lanza un alineam iento de pares entre cada
una de las secuencias y el resto. Es decir, para N secuencias, se efectuarán:
71 !
Na.!in•amitmtos =
2
(n _ 2)!
1" Construcción de l árbol guía: a partir de la pun tació n de cada a lineamiento

de pares, se constru ye un árbol que describe la relación entre las
.
secuencias.
1" Alineamiento mú ltiple : siguiendo el árbo l guía, se com1enzan los

a lineamientos múlt iples.
Para utilizar Clustal Omega, en primer lugar, accederemos a su página

principal (http://ww w.ebi.ac.uk/ Tools/msalclustalol). Aparecerá la pantalla principal
de Clustal Omega (ver Figura 9.72), en la que se indican los pasos que hay que seguir
pa ra util izar la herramienta.
. . ........<-.... , -- e D· -
Mult _..ie St:qu!""'"~Ce Algnmen·

OWIUI~" ¡......., -.-s~· óll~ jiO~ tNI- _....,. _,_ __ ,_.0_.,.... t~ t6fM"'l'~ ~'-
~ l · [fttt'lWII>II'I~·1
1:-~· ~ ... u~ . '~""'.,_,.~ .. -
,.,. W~HIJI!tt w.a ._..,_.,... ~~--- - - - - - Ho)IO

IMMte~~~ 1 l(:ltut,._ ·~--••...,Ottll~r•<Y...,.~J
Figura 9.72. Página principal de Clustal Omega
A continuación, pegamos las secuencias que vamos a alinear y seleccionamos

la opción DNA en lugar de P r otein (opción por defecto). Los datos necesarios
para realizar un análisis con Clustal Omega se agrupan en cuatro secciones de la
página principal: datos de las secuencias, opciones del a lineamiento, parámetros del
a lgoritmo y co nfi guración del envío.
En la sección de secuencias, como viene s iendo habitual, es posible pegar

las secuencias en el área de texto o bien adjuntarlas en un fichero en formato FA STA
e indicar si se trata de una secuencia de nuc leótidos o de aminoácidos, aunque la
propia ap licación nos advierte de l erro r, s i rea lizamos la selección incorrectamente.
Multple $eqUI;t'V;e Aligflnlodl'll

~ ~ 1$ • IW"IO .,_;.~ ~~ . , . , _ flllloV..,.. ""'' ..e'! ~«":t fU'(Ie t'en ...-o- INO~CWflfe tei:MQ.IC'J 10 ~otc 4t,_u.
Figura 9.73. Sección de secuencias

En la sección de opciones de l alineamiento (ve r Figura 9.74), podemos

seleccionar las características del alineamiento.
Q!J!M!~! Ctn-..IWO,.,.,..,.rJ -
~!?!~'~~~ ·~!~~~~~~~ ~~-t;l_U.'J!~ ~~ ~~-c! ~.:lfll?!l!'~-

• .,., • Y"" • H".WI(C.
Figura 9.74. Parámetros de configuración del alineamiento
En primer lugar, indicamos si queremos desalinear las secuencias de entrada

(Dealign input sequ ences) eliminando de las mismas los huecos.
A continuación, escogemos el formato del fichero de alineamiento entre

a lguno de los valo res recogidos en la Tabla 9.1:
Formato Descripciím Selección

Clustal sin números Fom1ato Clustal sin la numeración de las bases/residuos Clustal
incluida
Clustal con números Fom1ato Clustal con la numeración de las bases/residuos clustal num
incluida
Pearson/FASTA IL Formato Pearson o FASTA fa

1
MSF Formato MSF (Mulliple Sequence File) Msf
PHYLIP Formato de a lineamiento enlrelazado PHYLIP Phylip
SELEX
. .
Fom1ato de a lmea1mento SELEX Selex
STOCKIIOLM Formato de a lineamiento Stockholm Stockholm ,

V IENNA Formato de a lineamiento Vienna Vienna
Tabla 9.1. Formatos del fichero de alineamiento soportados por ClustaiO
Especialmente cuando el número de sec uen cias es elevado, res ulta adecuad o
habilitar la generación rápida del árbol guía, mediante el muestreo de las sec uenc ias
de entrada y su representación como vectores. Esta opción se controla con e l
parámetro mBed-like C lustering Cuide Tree. S i, además, se desea que se util ice la
misma filosofía en las sucesivas iteraciones, hay que establecer el pa rámetro mBed-
like Clustering Iteration al valor true.
188 BIOINFORMÁTICA: El AONA UNSOLO CLIC ©RA-MA
Finalmente, se especifican los parámetros relacionados con las iteraciones

del algoritmo, que son:
11"' Número de iteraciones com binadas (N umb er of Combined Iter ations):

número de iteraciones del algoritmo de a li nea miento, entre las realizadas
sobre el árbo l guía y las HMM (Hidden Markov Model).
11"' Número máximo de iteraciones del árbol guía (Max G uid e Tree
Jter atio ns): una vez establecido el número de iteraciones combinadas,
este parámetro se puede cambiar para limitar el número de iteraciones
del árbol guía, dentro de los limites de las ite raciones combinadas árbol
guía/HMM.
11"' Nú mero máximo de iteraciones HMM: similar al anterior, pero

controlando las iteraciones del modelo de Markov.
Por último, se especifica si el orden de las secuencias en el a lineamiento

(order) será el mismo en e l que se proporcionaron las secuencias de entrada (in pu t) o
si, por el contrario, será el propio alineam iento el que determine el orden (alignmenl).
Finalmente, se puede introducir una dirección de correo e lectrónico para que

C lustal Omega le noti fique que el aná lisis ha concluido . Una vez que ClustalO ha
recibido los datos de su análisis, se le mostrará una pantalla simi lar a la de la Figura
9.75:
Your job is currently running ... please be patient
P'ease note :11e fo IO'.·.ing

O YOU 11'1:1\' ~k lht " ' • to "'CM yc..r ft~t1: bt~ 11 'fW wrdl.
o fte-.:llts •e n«ed rOl' 1 cl.:.yt.
Figura 9.75. Trabajo procesándose
Si se ha escogido la notificación por correo electrónico, cuando el informe

esté listo llegará una notificación (ver Figura 9.76):
..
~A .-.gl•-" -
0.. r•stth Sor th• pb "E,.mplo d• <lf'lih.t~ CIIA-tal Omtp" (10 cbo~tt;alo-E201t~C8!l9.09'l028-02S7.J8)982l¡..pg) c-an bt
... "'~"'·
..... ..
Job Oota.ls
-....
pogrom eli..~~Jo
'>9!~n. 12.1
gutttetruovt f<Jf"
cbmllto\.1' f* •
dco'9'1: fa'.$!
mbed. trv!J
m~!{.tttilboll.ltUii'
rl~ei:O'IS" O
g¡it etS~iO!\S ·1
h!M\:I~tioM, .1
c utflft clus;llll
Ofder~
ctype: dn~
Figura 9.76. Correo informativo con los resultados del trabajo
A l pinchar en e l enlace, se abre una venta na del navegador (ver Figura 9.77)
con los resultados del anális is.
En la primera pestaña, Alignments, podemos descargar el fichero de

alineamiento, colorear los resultados para fac ilita r su análisis visua l o enviarlo a una
herram ienta de filogenia.
10<» >1'1•11.(>~ ~·~> O.Ct.l~
~.• _I(;YIIJtlCI.- t E2f'1'1~ 09302'8~ J83'9621JOC!

••!Ff - s - - y ...,..-.e T<'" w-o)t'l Oot*
Orl..ni)KI~,.. ~toO...~~
.~ ..u... •..wnt:lr~
····......:0.."11~.u.tMo.:::o.xnc:r=:·t~o.:::o.
~~··~U(I«$:~~"T~O
·-- ·-····-·-·-··--·--·--·-··-·--·~
~·u•••n•• ,.t,._JI'I.-"'·"
91 llllt'?U ,., UUUJI. ti
" ..."tU1•JO!.U01liU,1t
~~ IU.\IIN1• ...1--ItlllO,t!
~ 1:\0:U( r.U...'"'l1'1'!"'.:1
"' IOJ~IH) ......_tn.,o.ll

•' l:UI-1 ... tr.OU., ,'f
tl ""''"',.'mtt•·•·''
tl<llllJIIQhtd !ll!l,.ttllll,l!
.IIIMU1f~lUI:t~~(&.u«
:~"f.Uit1QIJQ.l1Cl.:COIX':tr~;:u.a.ut
~ :t!1o:U~>~U7' 1'1'.10
.
(OI,Uouo.ut!'e'f~~~t»..'f
.
Figura 9.77. Sección de alineamientos

Si examinamos más detenidamente uno de los alineamientos (ver Figura 9. 78),

veremos que se utilizan algunos símbolos justo debajo de las lí neas correspondientes a
los fragmentos de las secuencias. El carácter ' .' indica que hay una coincidencia en las
secuencias que se ali nean. Si, por el contrario, el carácter empleado es el ':',entonces la
coincidencia es alta. Finalmente, si encontramos el carácter '*', la coi ncidencia es exacta.
CLüSTAL O(l . Z-lt ~ulciple s equence eliqnmeD&
g 1114S3Se ll31 re ! INM_l21676 . 31 --GGAAAITAAACCACTGCG---AA-------AAAIAJGATAAC-cClTAC~TiTCAACCA

Oii12318708610b1 Efl95334. 11 -----AACAIGTCGACCGCAAAGATAACACCAICAGCIGCIICAI TIGCGACITCIAICA
g i l 664150371qbi AY971874 . 11 CAGGCAACAIGTGGACCGCAAAGATAACACCGICAGCIGCIICATTIGCGACITCIATCA
gi l l 453359071re! INM 101814 . 31 ------------------------------------------------------~·~--1
oi l 281924261qb1AY074787 . ll
gii14S3581131re f iNM_ 121676 . 31 A~CCACCGCCGGTGTTTTATCGGCGTCAGTGAGCCGCGCCGGTTTTAlCAAGCGGIGC

gi l l 231870861gb1 Ef19S334.11 AACACCIT-GCGGGCAITCAACIACCICGACICCAAAACACCA11IAI ACCTCCAAIICC
g i l 664150371qbiAY971874 . 11 AACACCIT-GCGGGCA!TCAACIACCTCGACGCCAAAGCACCAITTITACCTCCAATTCC
g i 114 53 35907 1ref 1~lM_l0 1814 . 3 1 C~CCACTGGTGC~TGGAGAATGGTAA!AA!ICAGT!!AAAAGCIAAG-------CCI!C
g i l 28192426 1gbiAY074787 . 1 1 --------CGIIGCIGICGGT!-------cCAAAAGAAAC~CACIAIA------- T ICAC
• • •
Figura 9.78. Interpretación de un alineamiento múltiple
La segunda pestaña (ver Figura 9.79) resume los resultados ofreciendo

información general sobre el alineamiento:
Results for ¡ob clusta o-::20 ' 1!0809-093028-025 7-383982 13-pg

Nignmcnts Rc~t SLrnm:ar¡ Phylogonotic Treo Subnisston Ootaüs
ln¡:¡ut SeQuences
sJ.~;?"talg:,~.?..O.J.~..:.~.~.Q~§.:.Q~.~1~:.~.~}.!l~.!l:1!9:.i.f.I.P.M~
Tool Ouiput
s~~?~"k?.~.~~~.,.~~~3~26;:9.2SJ~.~~J?~~.P-p.9.·.~'-:lt~t
1\fgnment in CLUSTAl tormat

~l.':!~-~~:§.~01~~-.!:12.~.~2~.~.~~~.?_:~.~!!!~.~. ?.:e9:.~!~=~~~.
Ph;(ogenelic -roo
~!~.?-~~.:§~l~.:~~~~=g~!?..:.?.~2!!!.~-~J..:.P..9.:P.;~.
Percerll tdemi:y Malrlx
Figura 9.79. Resumen de los resultados

Desde esta misma pestaña, es posible visualizar el fichero de a lineamiento

en Jalview (ver Figura 9.80):
~ .~.. • - ·-- .1
• • 0 0 • ....... 0: .. HH' < O .I. t t O t "-A. ;t, O.. ;.t:; ;t, ( .o t t •
T t : '!ti.
Figura 9.80. Visualización del alineamiento en Jalview
Las otras dos pestañas restantes proporcionan información para la

construcción del árbo l filogenético de las secuencias (G uid e Tree) y el propio árb ol
(Phylogenetic Tree).
Sub!l'ilslon Ottals l
Phylogenet•c Tree
Tllif is • ~)gi';!xlclr-jolni';g ·t r'H ~ ~ «;rr«OOM.
1
1
~~ t!dUetnla ! t:ou: :.'"'· '' ::.~'~"·
1
<:l l l2Ut,~UI ')b1 Ut~.I II O.:lV4,
~1 1 6i.l ?$CrtLqG tl V9~1e1'4 ,~ 1 : O,OHot)
:C>.l$). 21
:~ .Of1 U,
ii 1 1 ~ UIUOYi ttri :I'I_U:ta: • . )l!t,;t«U.
~l l lti'H~f 'Jbi1\.Y0'f~~'· 11 : O.~ :~.SI;
Phylograrn
9tandlif!tl0t"': (6 OWI:>Sirdm e R.ea~
gol l4S3S8l 131f.ll...,_1 ~ 147<1.3 1 0.17$63;
tp l l ~3 1 8?08() 1 gb1 Ef! t9 533A .11 O.OUi'.t
rj l ~ 7$0)7! 9bi AY97~$7 • . 1 1 0.024!18
~ l l 4¡;3)$907 ( tllf(,..I_ I OIOI" ,) I 0,,00?>
!)ll2t10l 4 l&lgbiAY07470 7. 11 0 , 1 7lo4l
Figura 9.81. Arbol filogenético correspondiente a las secuencias bajo estudio
Finalmente, ex iste una pestaña ad iciona l en la que se recoge información del

envío (Sub m ission d ctails).
9.6.2 Alineamiento múltiple con MUSCLE
En primer lugar, abrimos la página principal de MUSCLE (hllp :llwww.ebi.

ac.uk! Toolslmsalmusclel) y establecemos la configurac ión de l alineam iento (ver
Figura 9.82):
Mul~o!e Seqll€1\Ce A191101ent

II«..I'CU 1t.onck (or ii'IILlipo s.quctn<:o c:....,..mon by i.o9' -..poct.uion. MUSC:e.. io d-.., to .K..._.. boltl bctt• 0\1'01"9" Knr«y .,.¡ ...tiOt 1pOM ,,_ 0..0.1~ oc
T•COffo<l, cl<liptoodng «>.,. ct>outn oplioow.
tl'tMOI_p;;t :t~ 1 Mtdt•~" rl W'fo/f>.4'1'CtlHI:lrli'Ol.

eC1'1GC"'GlÓOOn~AV.ll~IC1CJ.A(j!CCt~lloGA.tCAAIQQCt(;1TG-\MtC1GIGr('...VOQCTOCfGl(i(;GtG(; •
COCl.v.JG10C.TCOO..O:.C::T(If(CA~f(3.lC:.TT~t~OC,..C.ITOATC.V.TGTT~T~TTcnOOAA~
A'IQG••4~(fTTCC/..G:TGJ.TC,.U4TTTCJifa.v.t.AA~TTCf(O.\'l'GT!IJTCl'T'GGOCT'TC1TGAW'!AG>•ttr..VXCAAATCCCTCTCT~TCCCC~GC1TCTGU~oo.r..v..
MNTIO:ITCC'Tnf;'!Cft.Arn~~R;AC~~rc'I(;C"~~m~~~~ti'IA:'I;'I~
fAlTfGTTCIGTOOI>mGAGmGGCTOCGAAN:fGTACC.Ucn~TGGCTCTTGGC~GoG.IoGTGt.oCCTGA.AA.GCrTGAGTCAIGTGCG1MATACA1GoV.GTTGCtenCGAGCG.\
GAGTC~CCAAMCN:iWCTCAfl'CCIICGirllGGCClc:c.t.MCGT~lMTCCCGTJCJTfOC."'..ACGNIC~ .J
mGAAAWGMIGVJCTOGIAAGATClMMATIG~TGCTI'GfACTGC'I cm.SGfftrMTNNAJ.c;rCAfGTTCI~""""""' •
$reP 2. $4<1~ "-'""~'~""·

9JlMJ':.QRUAt CM:UIW
~!~'-'~ ~t~~
DlOot • -1»'1
Sn:P 1 · $1/llt!"'t )'0.1 PI

V S.IY.to."" llyofNII rr« u - . tfll<J"""IIJH~-tL.., Df.-nM~r.ttr:J.t:t-••·lblfJ
Figura 9.82. Configuración del alineamiento con MUSCLE
En la primera sección, pegarnos las secuencias que se qu1eren alinear o

subimos un fichero en formato FASTA con las m ismas.
En la segunda sección, in troduc imos los parámetros de entrad a, que son:
,.. Fo rmato de salida: formato que se dará al alineamiento de salida. Se suele

emplear la opción por defecto, Clusta lW.
,.. Árbol de salida: hace referencia al árbol guía que se tomará co mo base
para genera r los al inea mientos múltiples. El valor por defec to es ninguno
(none), aunque puede indica rse que se utilice uno para la primera
iteración (treel ) o para la segunda (tree2).
,.. Orden de salida en que se mostrarán las secuencias en el a lineamiento

final. Actua lmente, únicamente es pos ible el valor aligned, que significa
que se mostrarán según el árbo l guía.
Si pinchamos en el botón Submi t, se lanza rá e l al ineamiento múltiple y,

a l cabo de unos instantes, se mostrará una pantalla de resultados similar a la del
epígrafe anterior.
e ·tZ ~ >34300; os
~kA~ ~be "Tt - S\b'Mit;H(IO'I O.taok
<;1 1 1 1 H~U)Ild *¡:u•(..)l

'(11 1ltllt"4UJCO!IP1.'t$»~ ,1 1
--· -·······---· ·· ···-- ~~~"-:~u.-··-··
----···-·---·-···-····u.:l.~:uoco::
<Q.UI~l~,..l;t>I J.lt"'t{T; 11 -····-···-----· -···"('~:0~~~
OH :I UJS~tHd JK_a : t: c.) , l.I.U.l.~~~:~:U.fU:1Q.'r.:11W«'!~
'l!ll~ ~ jqtl~171>1A'tV' t "U,t 1 -···-···-···-··········-al::l'«:·~~.A . .. .
?~ l l l ~»ttHI1tfi ....U i tlC>.l l
o: Hlllt0.XCI;b!U !tUU .ll
o~ ' '"' ~l"' 171>1A~1"}Utt.tl
;; :;!;:~:~:;;~¡~:;¡~:;~ ;~ ·' . .. .
rur~"'"""r:oca~---·-···-·-·--·-···-··
~" l t I.»SfU)I :di *..ttU't: ,$ , ~·X>'X!J!Jl.~roc:::mttO.Irt.'"t - -AA.~

('¡ l l lUt,Oihft!mtHJI,ll O\,l,l,liC'.lt."C.::.:'".J.LI.t!:-·-·I(Q.Ul:%.J:':-·:.I.Im'~
, , ''"' t1oetli<Jb! l.'n?1tl1.1 1 ~rrn:lu.: .... ••
- .ra:..u!~ ,ucr:~
?11: o})J) l0\'1 tet 1lOS..; ncu . , '
.. .
--· -···-·---·-·tcont"!~t'C"AA·-··
?~l::l•l4U!-;t>ll'W' 1" ,.1 1
--·-···-·---·- -·~~~'(r!Uoo-··
~>I! I H\IUJIJU I ~!:Ul-,,) ::;r:.-G~.:.:~··-··~-o.t.r.m::~e~::~

9' l!l"Jlt101 e,..,!lf't '111•.) 1 err:IC:':.~:a.xu:~ra:-:~~rr.oct~t
1•11<-CI:.C,I>;IIIlf,..,telt 11 mr:~l.."C.\."'GICIMI:'TrCM~'t'I$AA6~"~
1 ..
ot ': !»1 !"'1•~ ~ ~-~ •;.t: '·
J -·-· -·--- .a.~---·--·-·---·<'!:1~:c:;n:,~ ~
Figura 9.83. Resultados del alineamiento con MUSCLE
Si nos detenemos a observar el residuo que con CLUSTALW detectamos

que estaba mal alineado, veremos que MUSCLE lo ha alineado correctamente (ver
Figura 9.84):
CLOSIAL mul tiple !Jecruenc.e •liqrunent by MOSCLE (3 . 8)
g1114535811 31 re!H!M_lZ1676 . 31 ----------------------------GGAAATTAAACCAC!GC~ ' 'TA-------

Q11123 1 870861gb1 Ef1 ~5 334 . 1 1 -------------------------------AACATGTCGACC TAACACCJIIC
gii66Q75037 1 Qb i JIY ~71874 . ll --------------------------cAGGCAACATGTCGACC I AACACCGIC
gi 11453359071 refH!M_101814 . 31 1\AAAA!GGCCCAC!GGTGGGTGGAGAA.TGGTAATAA!TCJ>.G!TI • .1AAGCCTTCT
gil28192426 1qbi AY074787 . 11 --------------------------- -CGTTGC-TGTCGGTIC • SACACI~
• • •
Figura 9.84. Alineam iento con MUSCLE
9.6.3 Alineamiento múltiple con T-Coffee
La herramienta T-Coffee está disponible en hllp:l/www.ebi.ac.uk/ Tools/

msaltcojfee/. La configuración del alineamiento, en este caso, cons iste en establecer
la matriz de susti tución que se desea emplear al ge nerar e l a lineamiento múl tiple,
escogiendo entre ningu na (non e), BLO SUM o PAM (se trata de una PAM 350).
También se indica si se desea que las secuencias se ordenen según el alineamiento
(align) o que se mantenga e l orden de entrada (input). Una vez establecida la
configuración, pulsando e l botón Su bmit se obtienen los resultados:
lt~"""- ~ GuQ Tftot D!vt~OC.,......, ~$001'1 0.1"
'00...~ MOt'lltin( Fft: $tne to O..t.»~
•••......ua,m~-AA\"Jiti:Ara.«tOI:TlCA.r.tcoe
-·.t..u.u:~¡¡o:w;r.VO»)Ulq.na.ur.-..a.na.. ---·
·-«.l.Ur.;~.AA!Ue~···AAt.\!4:.:AAX·~·;._·····
••c.c"ll'Ot1t:r.om::e- .u.>J.;).>M~Ct. ••• .cr.u-.••.
.
~;r~"(~·~ ~~~I(".U:l iX ...
.
o~ •:ult'~"-"r: nu~ .1' ~l:OJJO..~·~t*l.loC't·~~
o• ltl$i:U~?I1dl Ml)tttU ,3 ' ..;rttM··-··1-NJC'fA·o\···~·•·m~····
~o !: I H$1UJI:t: lk_:.!UI'C,J· '*-"t~~'r:-:-:a.:~";t"-~..13J:
9l l!l l tN;·I~I.Utl" I 'U.t J ··lt'tU·· •• •••~-<;. •• ~U.~.Uftl:·I·C::1-<;tt••••
?: l t~l)4J'!I'li>IU•~telt. \1
.. .
~·:~ -~IK·l.D('t-~
. .
Figura 9.85. Alineamiento con T-Coffee

PROTEÓMICA
La Proteómica, en su acepción más simple, es el estudio del conjunto de

proteínas de un organismo y consiste en el análisis sistemático de dichas proteínas,
su estructura, función y regu lac ión del organismo en cuestión.
Por lo general, el estud io de las proteínas es mucho más complejo que el

del ADN ya que no se dispone de técnicas de amp lificac ión con la PCR sino que e l
estudio de las proteínas debe realizarse in vivo . Además, no existe una ap roximación
estándar para el estudio de las proteínas.
10.1 GENERALIDADES
Las proteínas representa n e l 50% del peso seco de los seres vivos de la
bioesfera (ver Tabla 10.1 ). Se trata de compuestos químicos de gran peso molecular
formados por una secuencia determinada de elementos más simples denom inados
aminoácidos y que desempeñan funciones estructura les (colágeno del tejido
conjuntivo), transportadoras (hemoglobina de la sangre), nutrit ivas, inmuno lógicas,
hormonales y catalíticas. En ellas reside la información funcional de la célula.
Componente /c, del peso total

0
Agua 69
Iones inorgán icos
Metabolitos pequeños 3
Proteínas 18
ARN 1. 1
0,25
idos 3
Otros lípidos 2
Polisacáridos 2
Tabla 10.1. Composición aproximada de una célula trpica de mamífero
10.2 ESTRUCTURA DE LASPROTE(NAS
Conocer la estructura de una proteína perm ite, no solo conocer su influencia

en el comportamiento fisico-químico del organismo, sino que sienta las bases para
averiguar cómo interferir en ellas e inc luso, diseñar proteínas "a medida".
En esencia, todas las proteínas so n polímeros de aminoácidos, caracterizados

por presentar simultáneamente un grupo ca rboxilo (- COOH) y un grupo am ino
(-N H 2),junto con un radical lateral (R) que es el que d iferencia unas de otras.
Grupo ácido terminal
Grupo amino terminal

o
a
Figura 10.1. Estructura de un aminoácido

©RA-MA Capitulo JO. PROTEÓMICA 197
En la natu raleza viva, 20 son los aminoácidos más comunes. Los aminoácidos
se combinan formando compuestos denominados polipéptidos mediante un iones
llamadas enlaces peptídicos. El enlace peptídico se prod uce cuando el grupo ca rboxilo
(CH 2 ) de un aminoácido reacciona con e l grupo amino de l s iguiente desprendiendo
una molécula de agua.
A l orden en que los am inoácidos se ordenan para forma r proteínas se le

denomina estructu ra primaria. Es altamente específica de cada proteína y un cambio
de orden o sustitución de un único aminoácido supone la a lteración de la mo lécula.
Esta cadena polipeptídica adopta una disposición espacial denominada

estructura secundaría. En esta estructura espacial la cadena princ ipal forma la
estructura central y cadenas laterales que se extienden po r fuera de la hélice (hélice
a lfa) o en hoja plegada (plegamiento beta).
La estructura terciaria es la estructura tridimensional de la cadena

polipeptídica. Cuando hay más de una cadena polipeptídica, la rep resentación de
cómo se interconectan entre sí y de su organización es la estructura cuaternaria.
La información necesaria para la síntesis de proteínas está contenida

en e l ácido desoxirribonucleico (ADN) que se forma en el material genético del
. .
microorgan ismo.
10.3 MÉTODOS DE PREDICCIÓN
La pri mera familia de métodos de predicción so n los llamados métodos ab

initio , que parten de la suposició n de que, para conocer la estructura de la proteína,
toda la informac ión necesa ri a se encuentra en su secuencia de am inoácidos. Su
principal ventaja es que permite modelar proteínas tomando como dato de partida su
secuencia, aunque son computacionalmente muy costosos. Todo ello hace que en la
práctica se ut ilicen como apoyo a otras técnicas más potentes.
El segu ndo conjunto de métodos de predicción es e l mode lado por homología.

En este caso, se trata de buscar proteínas cuyas secuencias tenga n cierto grado de
s imi li tud (por encima del30%) y, apoyándose en el mismo, suponer que la estructura
de la proteína bajo estudio y la de la proteína encon trada también serán simi lares.
Sin embargo, cuando la similitud entre la proteína bajo estudio y la referencia

es baja, no es posible aplicar el modelado por homología. En estos casos, se utiliza e l
reconocimiento de pliegues o threading, que consiste en someter la secuencia de la
proteína bajo estudio a diferentes p liegues conocidos y evalua r cómo coincide dicha
proteína en cada uno de ellos.
10.4 MODELADO POR HOMOLOGrA
El modelado por homo logía es un proceso iterativo que consiste en repetir

las siguie ntes etapas hasta conseguir una calidad razonable en los resultados (ver
F igura 10.2):
,.. Identificación de estructu ras conocidas o referencias relacionadas con la
secuencia bajo estudio ut ilizando métodos BLAST.
,.. A lineamiento de la secuencia bajo estud io con las referencias (por
ejemplo, con CLUSTAL).
,.. Construcción de l modelo de la secuencta bajo estudio partiendo del
a lineamiento realizado.
,.. Evaluación del modelo. Si se supera el control de calidad, el modelo

se considera bueno. En caso contrario, se efectúa una nueva iteración
revisando las desv iac iones enco ntradas.
START
V
f IDENTIFICACIÓN DE
ESTRUCTURAS DE
RE FE RE NCIA CONOCIDAS
>
ALINEAMIENTO DE LA
SECUENCIA BAJO ESTUDIO
CON LAS REFERENCIAS
---·---·----------·--;,
CONSTRUCCIÓN DE UN
MODELO DE LA SECUENCIA
BAJO ESTUDIO
AJUSTE
CORRECTO
y
( END )
Figura 10.2. Proceso de modelado por homología

©RA-MA Capitulo JO. PROTEÓMICA 199
10.5 RECONOCIMIENTO DE PLIEGUES
Los métodos de reconocimiento de p liegues, en lugar de a linear secuencias,

a li nean estructuras. Colocan la secuencia de la proteína bajo estudio según la forma
de la proteína de referencia . Por su complej idad, quedan fuera del ámb ito de esta
obra aunque, por completitud, hemos creído necesario reseñar su existencia.
Afortunadamente, existen herramientas informáticas que nos

j" - :1,
$ ,··· as isten en la predicción de la estructura 3D de proteínas utilizando
\_~
\:- métodos basados en el reconocimiento de pliegues. Una de ellas es
- Libellula, basada en redes neuronales y de la que puede ha llarse
más información en http://www.bioin.formalics.orgl wiki/LIBELLULA.
PRÁCTICA 4: ANÁLISIS DE PROTEÍNAS
A la hora de modelar una proteína bajo estudio, conviene llevar a cabo

un análisis básico de su secuencia y estudiar el grado de deso rden, los motivos
funcio nales o la ubicación subcelular, entre otros aspectos.
La calidad de la predicción aumenta si se consideran las secuencias

de proteínas homólogas.
11 .1 ANÁLISIS BLAST
El análisis BLAST de una proteína permite encontrar otra proteína s imilar

en una base de datos de secuencias.
ObjetiYo Herrr-amicnta BLAST

Información sobre la función de la proteína bajo estudio BLASTP
Búsqueda de nuevos genes que codifiquen proteínas simples TBLASTN
Tabla 11.1. Herramientas BLAST

El objetivo es encontrar proteínas similares a la siguiente:
>gil1087105321gbiABF98327 . 1 1 Oxa l ate o x idase 2 precursor ,

putative , expressed [Oryza sativa (japonica cultivar-group))
MEHSFKTIAAGVVIVVLLLQQAPVLIRATDADPLQDFCVADLDSKVTVNGHACKPASAAGDEFLF
SSKIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVGIVLRG
ELLVGIIGTLDTGNRYYSKVVRAGETFVI PRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTL
FGSNPPIPTPVLVKALRVDAGVVELLKSKFTGGY
En primer lugar, abrimos la página principal de NCBT-BLAST (hllp:llblast.

ncbi.nlm.nih.gov!Biast.cgi) y escogemos la herramienta BLASTP (ver Figura 11.1 ):
8 81..<Sll *'<k'--'•"lotll•"•- .,;·; ...._ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _._ ... =•¡
+ . .. .. .,... ...
~-~,..-. •,
• IIC,.et.A$1*"""
...A$Tfl~~ottiml~tory~~ICOI -.q_... U.::..
lez~ OELTA·8LAST. a tnOre S8tiSllltt'C pror.elr\--pcotOl'l SOftfdl .!ia~ l
-
.......
....."""" ....
."""" º"'
• 8&0 .""""'
.""""'
o Hoo.:y b:::
·- Z't<HCtl 1'1:.. ~.,..
kA!.""..,...,._ - M...._..
..
.... ...w-n!O'IW
·-
~,....-
...
• C.. o c. ..... ·~
~ CI...tba
f~ :II: J.., ;j;1t
1! »40 IL61111QCM
lrffOUP
"""" BlAST
_ -
-_... __
.. .....
J
,.,._~..,_,
,...IIIIIU'.......
I -·""'"-.
_
_,_...,.,.,.,.,.,_ '11;0
- -~-(
Figura 11.1. Página BLAST del NCBI
A con tinuación, pegamos la secuencia de la proteína en la ventana de

búsqueda (ver Figura 11 .2) y en Database escogemos la base de datos SwissProt.
©RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 203
8 ~llMI'IIt.lf(lo l"'lloll, ., .,;•;...._ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _, •"'==l
,.;.uu.,.., • ..,.,;,..,.. t(lryu ,_.._,... 1; •- • u _ , ; , .,., .._,..;.)

....-:ro:r~...:.&«;.~.~'tu~~ar.:r.g:~.~~.u.u.c;::c
n.ouo:~.o."""".........,_~,uv.-:r.~.,..,,w.
• .....
o:-;u:r..t?r.WT...M'01nu~rn "r~·~····'~
~:·.Tmn~W~::nr.l"r.\'IOJ...'v.I.I.~:.1:U.ICUr.=r •
Oo,<lplcwt. . J ~- ) Mott lsntlt«IOftMO ~i"9:ttlltfli<O ..
Jollflh ,.,i)Jt t~~ II Oq#<llt O!k!Ut
Allgn f""') or _.,. ~· V
()loo:Ke S,.:1tCh &1
-
:::: -~~~~~~~~;;;;~~ ...
1"" '"' -
~
..
..
Progrtm 5e~l(ft
A.lforil'- • d~~~~ ,,.· ·~-EII.J.SI)
PS!a.AST~~l<tto'lllodev..m')
Figura 11.2. Página de análisis de la secuencia
Pinchando en e l botón BLAST, obtenemos los resultados del aná lisis, que se
dividen en cuatro secciones:
11"' Información gráfica: mu estra en qué partes de la secuencia, la secuenci a

bajo estudio es similar a secuencias de referencia encontradas en la base
de datos.
11"' Refe rencias: lista los nombres de las secuencias si mila res a la secuencia
bajo estudio.
11"' Ali neamientos entre la secuenc ta bajo estudio y todas las referencias
encontradas.
11"' Parámetros de la búsqueda.

• 11(:-IIU.Itl -··- ._..., ~ '1Mt\C1JU:DU

&r: rQJlt ll.~ ~M~ .. i:tl''Y!..il!t':"~
gll10871 tm2fgb¡ABF98327.11Oxal3!e oxidase...
AJt) u ggctJJrou (D'por" on e>¡ -o; n n e-o)

Q.tfv 10 ldfMIOI D.IIUM"W KM10 nr
Oori(rll)l- -:o IOO'l0$32 '0biA(!~3r. 11 o..~~OO:diltf ~ ~W. CVI.ilOI~ ~rfte- Al fiOO'WtclvA<Ifr( ~1.: C05 ti~pte..,., O§.~:>tot-DIJ:-:OW
bP<hi ed ;Oc'!u ')11.' o..~ ~lr ·ooown e.ocl..4no tnkOI"r'oentJI ~trom ·.YGS oro)«tl
~le twoo .:,mno :¡(Id flroo,.,. lllAS1'P 2 .2.29'* .. ~
Cl- v b ll(lltlo J~O
c::tl>o.o....,ortl: .. , .. ~..,~ ,..... _...J.(!~~ ,. <:"P '"'-Ji'"'lt"C tl g of, h'~P ? 1111

1lil:l CEl.TA·BLAST. a moro SOr'ISillv6P«*litl·~SOOf& ..i~JI
® Gup!!!s lkllnrn.ary
Ci.lDt.etfpOOM
Figura 11 .3. Secciones de la página de resu ltados de BLASTP
La sección de información gráfica ofrece un resumen visua l de los resultados

(ver F igura 11.4). La secuencia bajo estudio se encuentra en la parte superior y cada
ba rra representa el fragmento de una referencia encontrada en la base de datos
que coi ncide con la secuencia bajo es tudio. Los colores ind ican la relevancia de la
coi ncidencia.
e !:l ·r~
~ c-<Wd dom• ¡,qa.,...., ...... ~. clc'l ooo 1"-lm..,O~ b doi.>IIH ,......._

_ , _... ' ··· · j' ,, .r .. 1 . . . '& ····+,. , .,. . . .. 1 .. ,. ¡ . 1 1 1
""
'
-..c lH~ U \.1 ~b\,.1

,.._r...su~ 0....10'\al .alfl"'l,.f -1 1\1
Figura 11 .4. Sección de información gráfica

Por otra parte, la lista de referencias encontradas en la base de datos (ver

F igura 11.5) proporciona, para cada referencia, la siguiente información:
11"' Nombre y accession de la sec uencia: con un hiperenlace a la entrada de

la base de datos que contiene esta secuencia.
11"' Descripción: procede de la anotac ión de la secuencia y permite saber,

de un vistazo ráp ido, si la referencia es re levante para los fines de la
investigación.
11"' Relevancia estadísti ca (bit score) del al ineamiento. Cuanto mayor sea
este valor, más similares serán las secuencias.
11"' Valor E: es otra medida de relevanc ia estadística. Cuanto más similares

sean las secuencias, más próximo a cero estará el valor E.
,1 ~ NCal&.o~t>tii.OPI')Sl.'t~ ...
. . ._ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __
+ & tt " _ _.._ ,"' ·•

WQup!'!!s Syremtty
S oucriptloO!!•
...... ... -.. - --

'"' ...
ser~-~<.-
'
...A
o •
¡r. O<t~'Orl'J'~ 1QO'tio ~"' IM l f' (>) 1';:;-&..t .,)

.., ....
t!:l ~----P1·~·1.!!9'1P•-'~~•~--c,~
~·.k)!!)e)Q.,{)r~.)I.'Q.J.U'OQO Q:id
'" "'
'" ..... ...
1CO'IO
100%
!: ...l'li!ll'
,,. ""J!"Y!<<Y-1-1
ll'J Oit~t~I!U.nta.Hf~Jn~
..,. '"
•o~J
,_.., ""
100"' )t-1;4
,,.. zz:IE;•m<'m-:U
~ PII'Kir:IJ'I'> ~·.A~*"'". ... .....~ -~
'" 100~ .._...;!!;!~· 1
~'~ :..~~~
e:; ... u • • , .•• , . -. . ..... . .,....,.,..... "

..."' .,."''" ...
100'1io lt-Uf
2..
""
)t.t))'"' ,,..11'~)U
~•v.oor-' '
1P" (D~~'f! Ql.$1 W))..:..u~~ "' Jll "" r,.rn ""

,oo,. "" >r """'"'"'
t)i 6CC·· ~,- ~
"'
\Oit;l:.;l(kt_.·;__c~ LOC 1'. .'<!~J2$Tt-lot. :111Zt t:u.tl
...'" "'"' ,_, ....

100'10 h-IU
"' l
1#> Mil•"'"·
,.,. ...,, "" Ci".CU'..zaJ

.. ,..
U': !Xl,4JIWI~ 1
t~t'•t li'1 1UJ.~

""
""'
fl.ta:Njt,tn~-.:.u~.1~1t~ "'
"' '"
'" ,,. ., ;~ J., o.4 1HI1
..."" "'
'"'
..
1- lll
••ll*
~ ~1:23J
-
Jí ' etcl..~~~t.l.0.0:1rotJW:Sif~l!)t1J;•C~II"\'!U"1,.C"
"~ ~l..l
1!: Qo,,,,. ,...!Ji*(i•.lfl~ ,.. "' .,, ""

... ,. ""
~~ Clall'll l
"' t7'tio
'" ""' """""'

Figura 11.5. Referencias encontradas en la base de datos del NCBI
La Figura 11.6 muestra la información proporcionada para cada alineamiento:
lltllo"""* • ~
~IQ!Yl<l~ll~ Gtov!ll
...._.a~'~~
·ttu~~JI'«.U
W;bo
'"...,..m..._, .. ...,....,
... .
Adot.,.. ltdo..-1;.,
·--
C ~·t • IIIK«>~I·; Oll't -NI'
"<- ~·····" ~~-..o~ñ•ad,-..
~IHI~I lW) 0.·16-1 - .__,t>K
7nll'lo(l-) - -
170/)?Q(IOOII\} ~
Or
(nvo;O'IIo) . . . _.... (Wi~f. . ~-
0:.:'1 ! XCCriD!.U{VJ:'A~.J,.:Ir-!~::L
lCU..-n::ltu:O
~.Q:t:n:l..
~•":'"~~
-.".":'",·,~~~u::;.:;~r:-,....:~.~=
c:- -~-
"tltl Y-o:"ttt• "'O"e4-W-"
llb)n 1 .u.r.aiN,t;V/l'A~lAA:~ttn.:::uu·.or~~ •O tX%.(~=;,)3;. " " ' - - lOe-~.,
~:y •1 otl'U".J:IIXA:fi)I>'~Jll'l":t~n:t#.':!liiiCD:It~n'<o~Jo. \JO ~-.. ~
~'" ., &Hi::H~~~~~~.iiif.:i~~:t.-1 ta
~:T ::~ lt"~!"'.'l.Je~\...!::-r:.=-:~I!'A~I".':~~n.,or.r.u:l«,"'! ~ 10
;.n·r..:-.':AO.U.:.'"Ol :~r:v.- ;suy:r;.~r,-: ~r~:ll:',.,,
..O)n Ul ...
•u:..;:vlJrt';;U.:.W;~¡:-rur:;nn~.:: ~M~riQ"~lCII('I'lJ loO
~,., le~ ¡¡¡j¡"I">Ttr..n.n!lln:rr.,..1.1.T.U..r·~'-:.uar.r.~l1'
lel'"o'n'R.!¡fUWa!P!;>.1)..."1:'>.U'.~I'.~G.""Y
::•
~~" lt1 i'Wr•T\7..UN."lri'tJó'f7>V·1?J..I".tooS7...~~-y 2N
1
Figura 11.6. Información de un alineamiento
En primer lugar, encon tramos el nombre de la referencia enco ntrada con la

que se efectúa el alineamiento. Además, tenemos información sobre el porcentaje de
similitud (un va lor de 25% puede considerarse aceptable), el valor E, los positivos
(porcentaje de aminoácidos que son idénticos o similares), los huecos (am inoácidos
que no están a li neados) y la longitud de l alineamiento.
Os03g0694000 [Oryza sativa Japonica Group]

Scque ncc 10: reflNP 001050968 11 Length: 229 11umt>cr of Motch e$: 1
r>See 6 more trtle(S)
Range 1: 1 to 229 Gll!n P1=p t Graph k:s

Scoro E-"!p Qct Mo thod l d o-ntrti<H
"
Pas:ltivos
' "
c... "
463 bits( ll92) 9 e -l64 compositional matrix adjust. 229/ 229(100o/o) 229/ 229( lO O%) 0/ 229(0%)
Figura 11.7.1nlormación sobre el alineamiento
Sin embargo, la parte más interesante es que se corresponde con e l

alineamiento propiamente dicho (ver Figura 11.8). En la parte superior, se encuentra
la secuencia bajo estudio mientras que en la parte inferior está la secuencia referencia
recuperada de la base de datos. En tre ambas, aparece la línea de alineamiento, que
muestra un símbolo '+' para indicar que los aminoác idos son similares; una letra,
para residuos idénticos; y, un espacio para las no coincidencias. Finalmente, los
números de la derecha indican las coordenadas en las que la secuencia bajo estud io
y la referencia coinciden.
© RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 20 7
Q\1<:::-y 1 Y.t:iSFKTIAA<;WIVVI.l.!.QQAPV'L l AAT~ADI:-LO.DFc;\I';ULDS":rCVT\l~Ciii.Ci<P.\SJW; E.Q

Y.E.HSfKIIAAGVVJ1NLu..QQI¡PVL!RAT::>ADFI..QDfCV"ADLDSXVTI1iG!U.CK?.tSAA!i
SbJct. 1 MEHSMi llGWI'WLUQOlP'IJLjPJo.TOADH.0DFC\t'}J)LDS:<V'T\¡1.ffiiilCKPl.SllG €0
Query 61 DEtLFSSKil7C-GITitilliPNGS!M!Lnvl.::.""WPGVN'ILGVSMNR.:.rDnPC-G!NPPHVHPít 120

OE nFSSKil:C-GD'Jtllii?NGS!MtLO'IIlEW?GVN'!LGVSMNRVD~-G!NP?3VHP':t
Sl>]e< El DEEl.FSSKil:C-GITilWi?NGSMELO'I/AZW?GVNlJ..GVSMNR:¡[IFAPGG!NP?W.>iP':t 120
Query 121 ATLVG!V"!.RGtLLV&IIG!LMGliR)'YSK'~ ttfVIP~L'Ci!QF!NGY.TEli.7MVVS 180

ATt'VCIV"WtCt:I.I.vtliCTLMC)mYYSI<'JVAAttTFVli»>.CI-'!:-I!'QFh"VC;at.A:'XWS
Sb]ct. 121 Ut'VG!V!.RGE.L!..Vl;l!G!LMGllR~'YSK'~ETMP~L.'C:i!QnNG:r!EA:-MVVS 180
Quecy !81 !'!IS:¡NPGIVFVP!.ttFGS~PPlPTPVLVIG.LR.VOAG\vt.L!.KSK:TGGY 229

F!ISJ,N?GrvFV?LTtFG~PPl?TPYLVKU.RVO}.GVV"E.!..!.:<SK:TGGY
Sb]ct 1e1 !:fiS:2,N?GlYf'VPLTt.fGS~PPl?TPVLVKU.RWAG\<'VE.LL'<SK:"!GGY 229
Figura 11.8. Alineam iento de secuencias
Si, por ejemplo, se hub iera escogido otra secuenc ia con un grado de similitud
mucho más bajo, e l alineamiento habría tenido el aspecto de la Figura 11.9.
!ilDownload v GenPeot Graphics

hy¡>othetical protein EUGRSUZ_H04166, partial [Eucalyptus grandis)
Se41enee ID: gb!KCW61436 11 Length: 216 Humber of r.t.alehes: 1
R.ange 1: Oto 216 GenPtpt Gr¡oht;s
Scote Exped Method Identities Positives Caps
Query
Sbjce
..
195 bits(495) 2e-58
6
I +L+L A
compos~ional matrix adjust. 103/213(48%) 132/213(6 1%) 3/213(1%)
~PVLIRATOADPLQDFCV1DLDSKVTVPGHACK- PASAAG,t FLfSSKIATG
A O PLQDFCVA O KV V»G CK P
ISLLILALATATTFAYDPSPLQDFCVAlliDP~GKrCKDPKQVTADDFLFKGFRYPG
D+FLF G
?2
65
Query ?3 GDV1WlPNG~WTEWJAEWPG\11I'LGVSlo'JlRVOF"..PGGTNPPHVHPRUE:VttiVLRGEL 132
AliP GS VI V +t GiNTLG+SH: R DF"...PGG NPPfl HPR TE+ tY G L
Sbjct 66 li-- :JU1PLGSKVT PAfVDQfAGUITLG l Sl'.AIU OnPGGLNPPBI BPRGIE 1 LVVIEGTL 12 3
Que:y 133 LVG: IGlLDIGNR'iYS?CVVRAGEl f"VI PR:iLMfi FQ:NVGKIEAlMWSfliSQNPG IVfVP 19 2
LVG + + N +++i<V+ Gi 'fV P GL+f.:Q N+GKI A + +SQ!i?G++ +
Sl>]Ct 121 LVGiV"''SNQUiNTfiT?M.I:<GDV:vrPIGLIF.:Ql.NIGKIPAIAfAALSSQNPGLIIIA 1e3
Query 193 LILTGSNPPIP'IP\t"'i,.V:QJ.RVDJ.·GVVC:LLKSKf 225
Sb) CC ,., +fGS PPI V"'i. i<A +VD W+ i.+++f
~iA.V!'GS~?!SAGVLTiG:QVD~l<WDY!.QAQF 216
Figura 11.9. Alineam iento de secuencias
11 .2 BÚSQUEDA DE DOMINIOSFUNCIONALES
Una proteína es una unidad muy compleja con gran cantidad de funciones .
Para simplificar el análisis de estas funciones, se definen los llamados domin ios
funcio nales encargados, cada uno de ellos, de una fu nción molecular concreta.
En esta parte de la práctica estudiaremos cómo buscar dominios

¡- ~ .·.
funcio nales en las bases de datos más empleadas (EBI-Interpro y
~ - PFAM), pero hay más. Sugerimos al lector que repita los ejemplos
con HHPred (http://hhpred.tuebingen.mpg.de/hhpred) o DomPred
(http://bioinfcs.uc/.ac.uk/dompred) y compare los resultados.
208 BIOINFORMÁTICA: El AON A UN SOLO CLIC ©RA-MA
11 .2.1 Búsqueda de dominios con EBI-Interpro
Supongamos que debemos encontrar el dom inio fu ncional y la fami lia de

una secuencia proteica desconocida.
>Proteina bajo estudio

MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEFLFSS
KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVG I VLRGEL
LVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTLFG
SNPPIPTPVLVKALRVDAGVVELLKSKFTGGY
Un dominio es un fragmento de la secuencia que tiene una

estructura estable y muestra un nivel de co nservación a lo largo de
la evoluc ión de la proteína.
Este problema puede resolverse auxiliándonos con la herramienta EBI-

InterPro (hltp://www.ebi.ac.uk/inlelprol).
Una vez abierta la página principal de InterPro, se copia la secuencia de

proteínas bajo estud io en el área de texto acon dicionada para ello (ver Figura 11. 10):
lnterPro: protein sequence analysis & classification lll{('f~O 47.0

ltC~O l)r'Ovo;)t. flll'ltliOr'l» ~ 01 ~ Oy ~lyo'\9 ~ 11'1~ t,li'Mtt ~ ¡)(~ OCI!t.IOI'lt ~ tfiCIOIUI'IC .. :M.W. •
Xll h ....,?014
'~ l)ft>l- ~- frctl't ¡ ~ of ~ &l~Mf oOto ¡ ~ ~I'MOIII'U. Ufo~ on IMf" M~ tt.eo:- Ael"'"'
<trcn¡thc 10 ~ ~ ,_~ ......., r.od obl;br.o :nd ~ti.; toeillto~ ._... :bout tnl«,_., • ....,~llo tM~tll ('.~).
· ··--· · 1'1_.....,..._~
~~lO.,l..'l"ld I'IV<o.~
- !l.KI\I';.fi~Y<hl.o-
..
~~~t"'YGfi(.Vo()l'>fVVUJ.QQN"Ylft.:.ll)<O"\CXlf"(Y~~~~FlfS
1.,,:;, CCOI.t~lOI.'A-"Vo1'CO,.,S!\.C~IrPOO~E'.ICI'tt.AC
tl~lCIG!~Ir~QtloNQ;:It"l~ 11$<)1~\'k,.rtf
f'IIIPTPVI.~~..ll($olfl00'tj
Docul'l'lefltQiion Pro:oo tocos Pubhcations

'-l>o.lt ~r>t.-: .-.. cono:FU, upd~' _,.~· ~tc--·
l'roc•·•••..:v. h:w to c:o'.<:, ~,.,.. .,..,. o'loloh)* *"'rd!og<:,._, , . . - : crb: -t-:>n
((li"8(JfbJn~ l~~-~
00 'f'O<I f\¡IYO ,..,._ ~
~~ .r~a<.J'!o:_-i'!!'
... -netr ~ p,.,., "'""
rAQ,. ..~>.;~ .,..,. ,.,iG"r
t~' 0"4 ....,. c:.-ot ·~ -=~ 4t l"fi.1? Juo.t <l....c.bttg ....... 4Yt~l.o
.,,,. lfl<iv noottitlt. ..,~,.llftO •e.Vtt.,. tlJf ¡ tor'IC Of~ _, <o t~-. kh q4 o.<h ~ ""'* ...~.. ;t!tet~
Figura 11.10. Página principal de lnterPro
Tras p incharen el botón Search, TnterPro muestra la pantalla de procesamiento

del trabajo (ver Figura 11. 11).
t.OA.OIHC.••
Your job is currently running ... please be patient

Tho fC~It or y<>uf JOb wlll ap~a.f In thls bt'OWSC!I wlfKiow . Thl$ pa9Q rcfroSh<!o!o automatrcally CY'«)' 20 soconm;.
voo moy book.mt~rl< t111s paoe to vtew your resvlls bner lf you wtSII. ReSult!O are stOted r01 7 d&Y'$.
Job ID: il)fs<¡tn$oS20140611·09480()-0S94-60660737•oy
Figura 11.11. Procesamiento del trabajo
Una vez que el procesamiento de l trabajo ha finalizado, aparece la página

de resultados. Esta página dispone de un a sección de fi ltrado en donde es posible
especificar el tipo de resultados que se desean ver según una serie de criterios. El más
importante de ellos es el tipo de entrada. A cada entrada de InterPro se le as igna uno de
los siguientes tipos, que permiten inferir cuándo una proteína coincide con una entrada:
,.. Familia (Family ): una fam ilia de proteínas en un grupo de proteínas

que comparten una evolución común, lo que queda reflejado en que
desempeña n funciones relacionadas o tienen una estructura primaria,
secundaria o terciaria similar.
,.- Domi nio (Domain) : los domi nios pueden existir en una amp lia variedad
de contextos biológicos y se caracterizan por una estructura, función o
fragmento de secuencia.
,.- Repetic ión ( Repeat): una coincidencia con una entrada de este tipo ind ica
que la secuencia bajo estudio presenta fragmentos que se repiten en la
proteína con la que coincide.
,.. S itio (Site): so n secuencias cortas que contienen una o más regiones
conservadas.
Teniendo en cuenta lo anterior, el resultado obtenido es que la secuencia

pertenece a la fam ilia GERMIN (IPR001929), que se han encontrado coincidencias
en los dominios IPRO 147 1O, IPRO11 05 1 e IPR006045 as í como un site IPRO 19780.
hWI - - ·
Submtted
.........
.JI U ~...,..,
"lf 8 ~~oc-
CI ~~oFu..
~ O Sit•
1
·-·--
._ .. ===
- =============== ... xc.o. oco.a
Figura 11 .12. Resultado del análisis de la secuencia
Además, también nos predice las funciones que tendrá la proteína

correspondiente a la secuencia bajo estudio:
e- -···· tD Jn«<U110 IIWIC•'I.e.,... rt11 kU
• ~UOSI Rl'lfe·'"'=c.- ~
·- """'
~
======"'=========""== .,..=•u: •--<-•
...~c.o ~ -:o
.....
-
IIJ S'ROI~l<O
,~-
O M I'< U'II'C.,.,~ . .......
-
- ... ...,.." -.., '
:=~===============•'"')fii,.CVI~
. ..........oo.: ..-..
.
..................... "' • -
~. ,.
• ·~·11110
"'
.HI'Ile>' T... t
.. )
• · ~""'11• "
.,_o-.......
'
1\t;:lo..o;>Jtr F\II"Cbon
lf(()"'OI»>'.•~ - <>" t>-
lt~~'Z.l!-- .......
-·-
Figura 11.13. Predicción de las funciones de la proteina
©RA-MA Capítulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 211
Por otro lado, es posible exportar los resultados en varios formatos y

consultar las bases de datos biológicas de las que se ha obtenido la información.
Si pinchamos, por ejemplo, en el nombre de la fam ilia, en otra ventana

apa recerá información re lat iva a la misma (ver F igura 11 .1 4):
-- ..
--~ ~
II Fcmlty
Gem1rl <IPFID I929J ~~ .....,.
,....,.. n_.......-o_
l .:(>!-:.:<o: ~, '"~ '~ "'"""'-'<~~
., l
..............
• •••11)1"1$
' N.OOm fe.'!UU!I)
o.e.lrin~onc~ .,........,.lke pt"Gte~n• (1'JOM:Il': •t"Hl:;),.., • ,....,... or~ ~too.» p&ont

~-· Tr>ev ~•~t r•tro:tod to ~~ v--» ~ toelt.4>t a-J ~ <..eod
•o¡;oe:rin•'• but lhev e:>i•1 in.., •9-• <nd deo...._,t,. ~1.090• · ,........, .r. k=t pOifttw" ...,.,oc>.tcd -.itfl
t1le &tr~ ...,tr\1•
A .,.o>a '""""" or lvxb:n "M tloeoen OJ"'QQVeteo.l kf ~ ord ~n<lltt ~t..-. , 101nt ..::t •
o.<d.ot= ~= !• tC:l.2.3.-.)oc -:oo :W<~to.oodc -......- (# EC'.~.IS. : l ), """"o!Mt~ .,....,. to ~
~'!V111f I)I'Ott"' O>' ttUIIC«t fOI' *Roii'WJ tf I""'tc.r'IS•
~-~· 111<>t~-·-~lroi.>•to.,_._.,,,........... u......,u,.......,.._

crot(liM tmt aC'CI.QIJIJ tt !~.lll f Q.llng spll6!11Jti00, 1 croe~ n:l.ICtd by vs.:>Us f:ffi of
-•III'II!IIW~ l~U '"l'wbMMll to """Y' !..,.,!-~·
_,- •. 1
Figura 11.14.1nformación sobre la fa milia de proteínas
11 .2.2 Búsqueda de dominios con PFAM
PFAM (http://pjam.xfam.org/) se basa en alineamientos múltip les para

definir familias de secuencias o dominios y fac ili ta su localización en otras proteínas.
Dentro de PFAM existen dos niveles de cal idad:
,.. PFAM-A, que son entradas curadas de a lta cal idad y que cubren un
amp lio rango de la base de datos de secuencias.
,.. PFAM-B, se trata de entradas generadas automáticamente a partir del

procesado de la información contenida en la base de datos ADDA
(Automatic Domain Decomposition Algorithm), acces ib le en hllp:/1
ekhidna. biocentet:helsinki.fi!sqgraph/pairsdb/index _html. Au nque de
menor calidad que la anterior, las fami lias PFAM-B son útiles para
identificar regiones conservadas funciona lmente que no se encuentran
en PFAM-A.
Una entrada PFAM se clasifica en una de cuatro maneras: familia (colección

de regiones de proteínas relacionadas), dominio (unidad estructural), repetición
(unidad co rta que es inestable de manera aislada pero forma una estructura estable
cua ndo está presente más de una copia) y motivo (u nidad corta que se puede encontrar
fuera de dominios globulares). Por otra parte, algunas fam ilias PFAM se agrupan en
c lanes o colecciones de fami lias que han evolucionado de un origen co mún y que se
caracterizan po r presentar una estructura terciaria similar o, cuando las estructuras
no están d isponibles, motivos co munes en sus respectivas secuencias.
A l igual que en el caso anterior, trabajaremos sob re la siguiente secuencia:
>Proteina bajo estudio

MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEFLFSS
KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVGIVLRGEL
SNPPIPTPVLVKALRVDAGVVELLKSKFTGGY
Figura 11 .15. Secuencia de la proteína bajo estudio
En la página principal de PFAM (ver Figura 11. 16), seleccionamos la opción

Sequ ence Search. Aparecerá una caja de texto en donde pegaremos la secuencia bajo
estudio (ver Figura 11.1 7) y pincharemos en el botón G o para proceder a la búsqueda.
\•
II ON- r 1 Sf Ait CII 1 btOwSr 1 rTfl 1 ti HP 1 •tOUT Pfam

Vtam 11.0 (Narch 10 13, H831 tan'A!s)
~~-- -
TI~ "-"'"d.~.. ,. • t.rp. collooc'oon ~f PIGt..., f...Mon, -el'! ~.,,.,.tood tJt n" .oltlplo: ~.....n<:"'
~lio.,._U. ~ hiclokl't M.(ltiiOY ~(UN-M$). ~
•
()ulOe U JeiiS YOU CAH rutO o ..u, IH fof A.M IH \IAIUOUS WAY!L.
SIQ!IIf!f!'f VAftOI Mil',.,_ yov ~~..., i..qu.'IC• f« Of0111 -tu-
YU,W A""'""' I'AJIII. IlY V- p ( - ,......, M>I!Ot;I,!I(Joll arld ~U
VIXW A S(QU[MC( l . d ot t:h<: ~ CI'IJ"'"'"'-' ol • J"oteofO ~e

VI,W A li"UII.ICTUII• ..ind th<t dom- on ~- •lruclulo
<»"- """~ - - · 0<.-. 1_..... ..

• ..,_ . .... . . ... of ... . . ..__ :o ... l"_ ... .... ....., . - · .._ ............
o-,.. '"'"~~~~ ro. .... .,,~_.
Aec-ent Pfa m t!k!!Jd' oosts

tto~•m.oa~ 3' t-lll-v!:OI41
~k l'l ~ ~l: ... :.t~~~ u~t u...xr~ c.:.m

ltltnt UK .. ,. mo"no n""
trot ~"Ita:~
Tt~t ~ 2tls-bQ;t~ to) ~ ('~,~t(ll)toOh ~(1(, i""itc\ltol («:Nl'l·((JII), IVM l'lfiot dOof Oll ~
weac- Tn,.,t c:er- ~· Or\ l w"*Y .... e:~~,,_,,_ b)' ~olt tne ,__Md
~ 10tbt•~~ rdl'1"' SJII!!« ~ ff!Cille«<I'IO ;II IUI'tlC ¡._¡
Figura 11.16. Página principal de PFAM

©RA-MA Capitulo I L PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 213
... f!<. ... _ , ..,.
_;..:•.,1•·-·
M--
T ... 1< ~ 1>19" """"'-' of p<OI .... t-_ -"~-·"".., .,.....,.... ~·
.,....._[;, .to0 hilld(!n M<N'lov _,..-ej.. (HMM:1o) MO(c...,
~III(;W IIICJ
~' IICt .1101NICN

\II{WI. K ...M J'A,M._Y
V.LW A
VI(W A (Vr.lf
vrrw .. M:(IVrtt<7
on-..cn..._
'"ª'§''"'~""~
~ .
---
___..~-.
.............
--~~
·- - -
, §~~·~'"~""§.......
- ....---- § ., .,. ........
..,.........,
...
l'f-QMI<H
.í'fw<MIO~AIIoOtt .
,•....- -.,..,.-,,.._...,.,-& - - · · • - - • · -
--.-~··-"'"-""' .._-~
,_
Re<:t>nt P1~111r J!kWii" OO.SU

~ASMJ.!M'fl'fl- 1 "h 2'0's.&l
... ~-
h(.t ,..._.........,. Klt "'• -~!NI ... ~·-·-" ... uo; • ..,~AI)oo t~ooo:ow.-c-
TMt~ WCkutt U ll'lt f~ (lo(JOO.....IIQ n.w.tt ~-Eel), ).ot( 1'<00 00<0' O&<ht
~ ....... co.--~- Oo ,........., .... ~·" .,.,. _ . , . ,...;~.,w,.,.l'f_..,.¡
.,.......{.. .....,. * - ~ ~ Mllf¡t'll( t .•)
... .... .. .
Figura 11.17. Análisis de secuencias con PFAM
Si queremos inclu ir las famil ias PFAM-B en la búsqueda, hay que pinchar
en el enlace K eywor d s search y se abri rá la siguiente pantalla (ver Figu ra 11.1 8) :
.... • • .. . - "
.•
e O··- p
rrQNr 1 sr.~o•o• 1 ••owsr 1 111• 1 " ' ' " 1 At Out Pfam
.......,_
Search Pfam ..,_ .1 - <:: -~
• • • ~·
• Sequence searc.h
~ )lr<IUl&& ...:0. O.Jll;ot.O

Mt'n,..l.lo:):I.Vr.~:...-.r~~~·vr;·.•)IQ(U.u.tr.~oOOJn.
:»111~1GGl"o'::lU~t.:'o'~~~,..,_n::vfl
V'...iCilllt,-~: laT~...,.,._Y'I'SirO\w.cr.TV:f-l":~ntM~
VJYt:.~fl! l'1f'Y¡;~'I~'t
Jump to.• . -"
,...__ m
c . . - ..._ _ ... - - · ...... _. ....._ - . - . . .....

l o•••• • • Ohl . . olo t ••oloo• ~·•••.toH
Figura 11.18. Opciones de búsqueda
Aparecerá, ento nces, la pági na de resultados (ver Figu ra 11.19), en donde

encon tramos, coincidiendo con los obtenidos en el epígrafe anterior, que la proteína
bajo estudio pertenece al dominio funciona l C upin_ l .
--
----·-14>-.
s.q~ - d t
__ .____
" ""'Uo
!M ...... _ ••"'t<<''••--••
. . . . _ .,_._-..... . .... ___ ..._,___ . ___ _
- : W N W . M .. ON.,_ _ _ _ , _ _ _... . . . _ ,. . . . . .,..._(IOat:O-G'O- ....
_____
........... 'P......_ .......... ... ..,_
,..,, ___
_...,_,.lloo ...
_____ ~
Jf_ .., _ ,... -
..._...- ,... ... .,. ...
.... ......... - -........
~
'II'>J...._I>'I.,_ A-O(lo"C"'l"' · -
.. .,., _ , _ _ .. _ _ _loof--...-- ~
..
~·-·· · - ~""'----
....___ --...._._.., __ __ .. _.........

_ ,...,.. _ _ . , . . _ . , . . _ _.. ,,.... , _ . , . _ _( ......
. . . ____ _ __ ..__
t'o~
-·"'-----·
.......... ""'.--.. . . . ....._________
....,._...., .._.......
.... ~ . . ""-. . ------
~-·-'"""-...""'"'..,._x•
~·~--'"'-•-...,..,.---•l>-• -~·-~to~~-••;oo...,.floloJ(I<.<f-.,_"1~ . -.,..,,.._.,.__..,;..,.
.. --_..,--......,.,,_,_d....,..<_ti>•W..OO""'""""-
... ....._
_.. _
~~ _1>"~- l'le:K"i~~
_. _____ _
.~
_
""""' ..,.., u.,..c.-_ ~ _
, -"'~-(
.,..,_ .. u-C>O••· -...,¡t;--.
............. ...__ .... ..........
.._.. ..
-·-
- •raoo _-...-..- -. .- - - - - · - -......
- · ·...· _,.~,.. · ---~ ..... ..__ . , . , _ ,_ _.,._
- U'~ . . . . ._ . ,_ _ ~ ~ -.~ ..._ ..... .............. _ ... . . . . . . . . "" . . ._ _..,......, . - _ . , . . , . , _
.._~,
-
-0" _., _ _ ............. -
.....,, _ _ . . . _
- - ' rf- Jo -"Oo- · -..._¡•

......_
- -
... - _ . . _ ..... _
.... . _..... ,.._ _ _ ..._ • • • y ...._ ,...... _

....... - . _....... - _ . . . .. l ... _ _ _
..,."--}. v.,...., ......- .... _,,..,. •f-e_,_,

................... _ . _ _........ . _ .. _ , _ _ _ _,..... _,..,.o~~o,. _
...
..., _.,._..............,......_.... _.....-
lilll'!ll't _ _ _ .,..._. _ _ ._,....
"'""'
SIQ~ ........... ..... ~
v.-. .. ,.'1 .. ..,._...
.....
o....
--
-.. .....h_,.
.......
~ ~
.,.,......_ ...... _, ...
• .... - .... ·- .. ·-.u -
u.. 1
..... 1 • ..... ....,......
,¡-
-
t«e..l.
........
oJI
................ _......_,.. ........" ,.. ... . ......
..... ,..._....
.......... ,,_ ......... -.............
~
.,..., ............... ...........................................

lll ... 1 • .....
•• •••···· .. ..•...........
••-.t •......t ,.,....... ~
,.. "01 .... ,..
t . . .. . . .
•• ,, ••• •• .-.................- .............. .......- . . . . . . . . . ..... , ..

·~
Figura 11.19. Resultados del análisis
Una de las posibi lidades que ofrece PFAM es co nsultar directamente las
características de los dominios funcionales obtenidos en e l análisis. Si pinchamos en
e l enlace de la columna Familiy, PFAM mostra rá en el navegador las anotac iones
dispo ni bles sob re el dominio fu nciona l en cuestión (ver Figura 11.20).
... ~- · ·
__ ··-
- • .... . -
-·-
.. -tt 6 . . . . . .. . .
.: . - --"·--.. . . . . . . ., • "
_
F~mily: Cupl n_ l i PF00190)
~
-- '
.. --
-----·- .. __..._.__..........._..____
__ ·~-
..._,.
. -·. . . - . . .--
_-~--·- · ·--··!too
---
-·----
_;;~-
. -......... ..-
Cooo!n ~MIIIy ~ili
_, ___~;;·;· -
____ . __...
11 1 1! . ps
--· ._ .......... ........ . ,

. _..
.. . .
·-·---..--·------
.....----- ---·~·- ·
,. ......
= • .-_
_, ~
- ll«ot-• 1(••=·1)
._...... ----Oh-·---.
_,.._,.
·-~ ~-'-
_..._____
____ .,. •·lll-otf)loi;l•
,.. . . .
..-__. .
~ ..__. .,.¡.,~'....
__
..
._.,"'·-~-·----·
_ _ IUOO"...._,!_,,.._._,.
-----------··
• l' ._.lO_ot
""--
- -- ----·-- .. ....---~........
..
.......... ...... .... ---
----·
,-· ~
.,,.
........ ,
............
·~
---~- :..t
Fígura 11.20. Anotaciones sobre el dominio funcional de la proteína bajo estudio
11.3 PREDICCIÓN DE LA UBICACIÓN SUBCELULAR
El análisis subcelular del proteoma es un proceso que incluye, entre otros

aspectos, la predicción de l destino de la proteína bajo estud io en la célula a partir de
la secuencia de aminoácidos de la misma, lo que co nstituye un paso importante para
determinar su función bioquím ica.
Según el dogma central de la B iología Molecu lar, la copia orig inal del
mensaje que porta la proteína se encuentra en e l ADN y se transcribe en el ARNm
pa ra ser transportado y, posteriormente, traducido con el fin de sintetizar la proteína.
A pa rtir de ese momento, ocurren ciertos procesos postraduccionales previos a la
utilización de la proteína por parte de la cél ula, ya que debe ser transportada desde
los riboso mas (donde se sintetiza) hasta e l desti no final.
Afortunada mente, es posible predeci r la ubicación fi nal de una proteína con
la uti lización de herramientas informáticas. Una de estas herramientas es PSORT
(http://psort.hgcjpl).
En esta práctica predeciremos la ubicación su bcelular de la hemoglobina
hum ana subu nidad gamma- !, cuyo accession en Uni Prot es P69891 y cuya secuencia
de aminoác idos es la de la Figu ra 11.21.
>gii567498601SPIP69891 . 21HBG1 HUMAN RecName : Full=Hemoglobin

subunit gamma-1 ; AltName : Full=Gamma-1-globin ; AltName : Full=Hb
F Agamma ; AltName : Full=Hemoglobin gamma-1 chain ; AltName :
Full=Hemoglobin gamma - A chain
MGHFTEEDKATITSLWGKVNVEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHG
KKVLTSLGDAIKHLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQAS
WQKMVTAVASALSSRYH
Figura 11 .21. Proteína bajo estudio
En la página principal de PSORT, introducimos la secuencta anterior y

pulsamos el botón Su bmit:
PSORT Il Pt·ediction
... \\'a.flliDI . u
1l:il ,~sioo olPSORT is r~ SLOW. Pte.::s{' be~-
.Sourt'~ oflnpnl St_qnf'llt'f>:
Ea tt:1· J(III CA'TlNO~CTD SF.Ql[f.NCE

or !ht M·cr.ssloe '-'umbrr orSWISS. NtOT;
:o::IKnt.r:cr.:or 1:-.s=r:v:ror:o.:.~r:.ou:.·.'Vrl"llT'2J.T1'DSrtl!I:..S!l;..s.;.l~ rr.•..:

._'!Gitli.'.J1.~th!lol!la!!.OD:Y.31':.\Q:.!!::.!C'!:;.:t.!!'."t'?!S!Y"--!M.'Vlii!'~U!!!!'Gite!':
rt<:w;;.:;.~.-.¡,:r~s¡¡!M
,.,...lr•ll•""'f•Pfflt6St._•• ( &bnt 1
LM1 J41dar~· .\'.o\-.bw :!4, 1999

~,~_.~ct.t>t.,Jp
Figura 11.22. Introducción de datos de la búsqueda

Una vez que el trabajo se ha procesado, aparece la página de resultados (ver

F igura 11.23).
Input S equence
IC>if: U;;:G. :nn ...a:r!ll t'tUOI::L~ s:.:.~·nn~ a,:,.,~-,;,
!Ma:IBIW ~':.: t ll»o\JIQ!l,O tU$PJC'.,., t:.r.t~~:.r~

1= : . w; ~··Tlt.o\:1':..
~ r.:r.rr~ ~~~·~ ,c,~~~n
Results ofSubp rograms

..... e -u· ........... _,_
- • • •• •
M· reH~l :~ :-ti>. t: -·'*~ tt ~.cae~ t

ll• :t<:)t~~• :~~:-u:'' pul! 'I'Ct;t ~·"
U < • .,.,., · •· • •
. ,,. •• •• tu.....••~• • -:.uo -~·• •

PO.Ull>.l~ ClM-'..4 t fH~Il ht10etn h Uolll n
j\:tl(o tldn t• e t •t ••'»1 t~• DI ,.,.,, ti'N"' IZ~

,. ., ,...u ooa ...,, co:~u-•-• :
:t~'""" ~~• C: '!)CilfJ t ~< : J:,e :~J:.Ol4 O, S; 1
,:~r •t
:ldh~ Nr ~li«AO\o ~ •• , ~
...., •..,._... u.,.,.,, _ - a.u • •• : n ¡
J.:b( ..:.re: -O.Jl " · - • or oc»: 01
l<l.D;f~· " ' ""UO''""''U~V''"CM-o ol •~<'1.·<~1

a o:n:•~:: , 11,' 0 - ."< 1' 11 • ' ·"
'/lt1'0 ~nUlo • I~.:J O 0$01'"~'' l
t!<! OC!r.'""'llll : JH <!Ce~:!IH 1
mru .,,so
Figura 11.23. Página de resultados de PSORT
PSORT ejecuta, para la misma secuencia proteica, una va ri edad de programas

orientados cada uno de ellos a determinar diferentes propiedades de dicha secuencia.
Entrar en una descripc ión deta llada de dichas propiedades queda fuera del ámb ito de
esta publicac ión, aunqu e puede encontrarse en el manua l de ayuda de la herramienta.
11 .4 BÚSQUEDA DE ESTRUCTURAS DE REFERENCIA
En e l capítulo 1O introdujimos los principios fu ndamentales del modelado

de proteínas. Para pone r en práctica los conceptos ex plicados a llí, trabaj aremos con
la siguiente secuencia:
>gil1087105321gb 1ABF98327 . 1 1 Ox a l ate o x idase 2 precursor ,

p utative , expressed [Oryza sativa (japonica cul t ivar - group ) ]
MEHSFKTIAAGVVIVVLLLQQAPVLIRATDADPLQDFCVADLDSKVTVNGHACKPASAAGDEFLF
SS KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGT NPPHVHPRATEVGIVLRG
ELLVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQNPGIVFVPLTL
FGS NPPIPTPVLVKALRVDAGVVELLKSKFTGGY
Fígura 11.24. Proteína bajo estudio

A la hora de modelar y predecir la estructura y funciones de una proteína, la

mejor fuente de información es el PDB. En la página principal de PDB, seleccionamos
la opción de búsqueda avanzada. Aparecerá un desplegable con una amplia variedad
de opciones que determinan e l método de búsqueda. Puesto que disponemos de la
secuenc ia en fo rmato FASTA, seleccionaremos la opción Sequence (BLAST/FASTA/
PSI-BLAST) y pegamos la secuencia bajo estudio en el área de texto disponible (ver
Figura 11 .25). Además de la secuencia podemos especificar la herramienta de búsqueda
(BLAST, FASTA o PS!-BLAST), el valor E de umbral por encima del cual no se
considerará representativa la coincidencia encontrada en la base de datos o el porcentaje
de similitud que marca el límite de significado de la coincidencia en la base de datos.
• ..._,u••
o---•- ~.PDB l tuo..a.L
~ PDB ~
tlOT U,.- OA TJ. 'ANl M O: l~ J.-O l. 7014« S
~rt,a to (lfolook"" M.xn.JoniOiotuiM Structun•'
All lnfon11$ioa
PM JOf mcturc 1 0139 1 ~ PQIIStMI*' ,.; 0 0 al
_,.,_.__
; POli 101 t lldoo
~ .1-.0c-- ~~
---
...............
'-""'t>"F'l''"-~ ~~
~-·· "'""' ,._.. ~
$~ ·~ l
---
lOC:to·-·~
~·-
,....,.,;ow__
..--
. . _ p J• . • ,.,_,..~
O<~~.....
-$tQJtt'U
··
St.-d'> Tool
>OC IC$~ 10SJ.C~A(Irn»1. 1 1 0..~oo>441M lCOot<UftOr. ~t..ot~ [OI'!l~ ...,_,
(l. . . . . . (<Jti<¡rr"70UU)o):
~...t~t:W:!=::z.~YI'M:;ti.\C'-"~SWJGGW"'~
....... .
J
...•
....~.
'"'tiMe 'A<0 .!!L.!.
o.-...... ,'4 C...V~ty
c.-... c-v~t ~
-~
<.• • .,•• J
"'""'"'"'.......
- l'>...o«.c k.tv....
~q.l..nt<>
lOOtiQC:, o,wr
(~)
Figura 11.25. Búsqueda por secuencia en PDB
En cualquier momento es posible conocer e l número de resultados de la

búsqueda pulsando en el botón Result Count (ver Figura 11.26):
~l#n ~ (S I.AST Qf F.ASTA)
Stn~tnr•td
70 POft
EnlitiQs
~~;:>! 1\ 1 ._-.,y YIYYI.U..\,1\lN"VI.I OV.IVNJf't.\,lVI'-I,..V""-"-.V~V OVtll'l,.>f....\,.1\t'~l. 1 U'-~:>1\._.. 1\A1VV .._'t'O\,>
SNVTELOVJ',E\VPGVNTL.GVSIMit\'OFN>GGn.t~~I-M-IPAATE\'GM.RC~l.lVGJ!GTLOTGNR'WSK\1'\o'MGETM.,RGl. " (unique
.,..:Qf;NVGKTOTHWSt:N~PGIVfVPt.TLrGSNPPlPl PVL'IíK.lLRVO.lGwa.tK9iFTGGY - l:haln) )
Figura 11.26. Recuento de resulta dos

Es posible añadir más criterios de búsqueda y relacionarlos entre sí pu lsando

en el en lace Ad d Search Criteria de la parte derecha de la pantalla (ver Figura
11.27):
l
A.tkl StulrW CrlhUid 0
Figura 11.27. Adición de criterios de búsqueda
Finalmente, si pulsamos en el botón Submit Query, obtenemos la página

de resultados (ver Figura 11.28) en la que encontramos tres secciones: entradas en la
base de datos de estructuras, c itas académ icas y c ientíficas y entradas en la base de
datos de ligandos. Explicaremos cada una de estas secciones por separado.
En la primera pestaña encontramos los resultados de la consulta rea lizada

en la base de datos de estructuras, con una sección en la que es posible refinar los
resultados de dicha búsqueda, inc luso de manera gráfica. Debajo de estas opciones
de búsqueda avanzada, se encuentra la lista de coincidencias.
.. e
: POe 101 llide ,, ~•-«oc.~~ ~ .-, i!i@JI.iijj@l,jj

..ll~··"'·""'~
~...,._"9,COO.O-"
lfd-'t ..... _..
tM.t~ll
,_.~.,
>-;Ul.?f~ I Q UU U·J.ItM U".l OíiW,;.!'t ~ti r)l('.'>;l1 :'J:"A:1', '1. t...~I!U ¡Q;_yu, t.U':\'4 (;~:::, C":l.l::·JU·CXI'.'~• l
1 I'WI'DO """" ~~t~umt:.~o:o.-..n-.'UU>"
.J.;..~~.u ~=t«!~~.,.:u:-r.~•tn.-:=:J.~
lof»,C._A(_<o; "·"tt~..s::r»'.r.u·."n#)".~tl'.~:ll~.nv.:t'.";)t":"...l:~:.:.~-,1:.r.:...""!QI)'r'fa"."·~·m·t:r)'
a~~--
,..,..~,.....,•-c· .-r.~ ,..or:u......
.... -."t"""';ltM:\'"...~:.r-..-.., .....................
-:o.~·ta..:.n>'r.?C'f
C)..c<)'llto..h(l?i E~~V•I.J• • 10.0, s.q.,'"""' 1~1 • 0 141> S.._..dl Tool • bl..t, ...,.~ Lo• Ctnop~J!KV-,fl)
·-
C)o..oj~I'.-..U)
I'Oto<>• ........l+ l ! -
t.<•~~·~t;~ ~~,..
~loC<oiOt>l....
.....w .. ,AQ
o-ot>t-t:.(l • ..oc&U'!t .utQ.Ke (41
c.
• k:~~lNin 1.5Á(l)
J
X ·t i'V ll.tiOkilll<*
• bci'Oit'.:OOO(.t
c-a~ • ~~"'"".. U't ·' '-' l.o.«.m
2.0 2.~.«. '))
•'~* .~oo,c.: .
.,_,
:.- t'-'t • Ftl~sect.l$ ~ Ul
• <;t.~Otl\'l'«f r"'"""',cto:uc: O • .!-' ).(1/.. .!)
200 ) 2010(12}
• ~0!0-todlt(ll
0"...... . !J-1,. · 1.0~1'1\8tCÁ\l) • f'IICfo:~,..•.
11eoo fl'-.. r,.,. t~;
• FtutlUb.uti~Ul
• ~~!!l).PCC:Etl:'l(ll • moce~.e1: ..
• ~""'~ 17\01~ O$H- (l'
• «n« a~
• Potv~Mr tvpe ( . seo~·~ • en~ e»ss~~~u~ ...., se~ (I¡Sillkii!Joll

• t:rl~-n U]) • 100 :00<•• • ~:,.).4-()~00>IO~t( l} • ~( ...... ·;~t)~ ... JI)
• 200 300(4) • ~-ó .torJoe7Sorol~f"-'PPI,"))
.*
• !lOO 500(•d
•
1~(1~
m<:o'e~fw
Figura 11.28. Resultados de la consulta en la base de datos de estructuras

Si p inchamos en el enlace correspondiente a una de las coinc idenc ias en la

base de datos, PDB muestra toda la información almacenada correspondiente a dicha
coincidencia (ver Figura 11.29 y Figura 11.30):
¡fl)
Gtnllllt b ~__,.,..eMICIOIIIOiniiiO ~- wfl:tl~e~e ~114 SUM:~~~~~

-dyfl....
W'.O,{J, ,._, O..wen,J.M. , idetl' l ~P.w.,, ~.A.C. , lltclcc.I'S(IIILILW.
~
>o.ttWII: (:t(W);))l'fltt Slltu:tbol 7! 1036-1~0
PubHM: l l061SS'J \'

~-~--""'~.,.,. 001; 10.103*/100><1(1)
..........""'
~:,;n~l<>c:
Seoofd~ ~ Ntik' -ioo ~ jjJ
.....
Qooooovt""' 'toQ
""""~
~
e~.,.,
fiiiCIMft MSIIOKt:
Go<Twl"' a~ pooorolO<Joo> ~Oit.JIM., o»o»~,.ct'l · cr- ~ ~; ~;"' ....ol,-<111'1
h 4(tenM ..,.....t CIODt ~ .Jblotc .SCf fW n(ll~ fllt Rructutt, O<=Utw.n«< a'l 1.6 Art~.
o·-··••·
.,,..,.n~to'~'""
_......,._. bol~~-.camot'IOO'I<>rc Aodcod n1o a~- f;a.. .
[...,..... *'"'• ~~~ ,_....~r<KU 1
•ro-s..._ S'mi'T'«r•·: OJ vtew

5tW--'I· - 116 o.,_,.
__
'~"<'--=(~ o)w. ...............
""'*
~ ·~ 1 ......_p. Wtl(llot.: al9'l2C 0 ~ .. ,~~u~ bv IIUI::hoos
q.'(ly_
,....,.,.,_,..,..u. ){'4011MfXMOr~~ (-"')(t)
n...'l'!,..
;; .w«lll001> TY!M': l omotb: ,.,
• ,
~
1.)_'\A ~ ~
e.;.-.--~• - - ._.... vfoa... />1 -·<.~~-,; 1_,_:10 ~
-
~·o.~ -~~~""
-
·~
lliC 100'1"1'0~
lblVlUCI~-
1 -~ HIM
_ 11l
Figura 11 .29. Información de un registro POB (1)
f-
LoniMod~
UI:I:VOo\1 ) :
MWM CIJ!jfl ttlll t;r otY11t

20 J 1·0 1 · 13
~M.Je-ot.
' 20 1 1•0 1· 13
• v.trtoen rCI'I'lM <tf'"fllo)nc~
1
'"' He!JIOd:: J:.fi.A.t O!ftAACTIOI'I
··-----·--- .
()»,.~u.:
.S. ..·uct-~
'""
._..*1-'l: ill ..,.
---
L lt•V•"-: O lOO(...oA)
t:-r •'ri
1,11111 ~:
L_~
""
~
»*0))0 o • oo.oo
tJ e 9)J9 6 • 9000
<• l07.H '1' . l lO.OO
..._,
--·
••
...
-
(lrtflllolt o-.irt - - - - - ,
• SCoP CI&Uik-ft vl.1S; 1 .,.._.. • flot.o ,._ -l$1
Figura 11.30. Información sobre un registro POB (y 11)

En la sección 3D, podemos ver una representación tridimensional de la

estructura de la proteína construida con la herramienta JMol, tal y como muestra la
Figura 11.31:
·~·- ··
1FI2 a.!c.-u,-
_
--,_.
$tl\¡(1~· Otulls. o
.. _....._
.......,..,..........
-
S=noou-o ~..~..,..., 1
"',o(lf-.... S_,.,_ Ool>tf ~
__
~·-(11)
~--m
---
... _.
$~ «)
--
- ...-o
-·
-·~
-~~
....... 11
~-·....,_
~
............
.....
____
.. o-o- .........
.....
~-
_.,,_.,"... .....
~··-··· -
~ ---
_
.,,._
-
-·-·-·-·.... _
.........
.... ....
Figura 11.31. Estructura tridimensional de la proteína
La segu nda pestaña de los resultados de la búsqueda son las citas académicas
(ver Figura 11.32), donde obtenemos una lista de refe rencias que tratan sob re el
res ultado encontrado.
.. e
........ ··--· "'bi
_-
,,..__
~-~· - ,.¡.:.
.............
..-~"'to.(o
... ih
t~-·"·.......
__
..,--
• ....o.
.........
....,..
--··')
...- ........
~14-- .
~'"
...
'""
Qooft'l'
__ ·...
~~ ·~1111~
-l&o>Mior.
-- -
>OII•,.,W' 1
>llllnl'l'!~-~~!U.~
.--
~
• .c.-..oo .t.-."'-""'"~~
•:M.tl t ~llr:ii!NCI. IV'llt.TM.
.....:·~~~....~~tn.ffii":.U~
..
UIMNJ~ ~~
:r=:..~r.,...,.......r.:,....,.,..,.,.- u,....,,........,,.,...,.,,..,....,_....~....,,
' ':.*~7·• ..,lllt'óloQ:~'I.f*li:M'JII;'Jn!Pr..-.~>,"J!.tnrr.on"

E-1t1~ • tOO. ~- ~· O'I.. 'kft'(l>l«Joo • IIIM(.. Mo-~1 tt•(~~·
...
&o.ll'l?l IJJ(oi!CI> ~lfi'M-tfQI:'t•)
_...
..,.,,,,&1\Lk_,
.....
......;.,'il •'-'~ ~ ..
~""
....~."4
~
""'-
00
-
(U"f_,...VO
-~
~·~
r..-~ , ...,.
........ ... ~
lle4ao~·uMA.,~~T~ """"""'C..;.,.a~to:.,. ~-•C..t:.,..a J.., Illat>l,.MII.-t .,. ~t:..,"--•N
_,..,.~~lOI,M t•N!1) , UU·-11

-.,; :HI21-'0)ol ....... .....00(1 ~
----··-
... o..---.-
· -·""'-*"
>{ . . . . , _
•>~-=- ......
M$..-.c OH"'I_.,to;>,,.
..... . , ¡ f -
-.....__ .. ..... t. ~11'1 S,.K,,c:;..... ,.,.-~0 '- " ' f J..,I\Ofh.wt Kl'l. Z~!OQ "(_,:.
~~ , "V"C ,._ e""" ~w n. ~u •r toa) ·'t
C•'"'~•• •ll&
"---~
"""""' ,_.. _ .,. t~ uo ~~ ~"
Figura 11.32. Resultados de la consulta en la base de datos de citas

Finalmente, la última pestaña es la de li gandos (ver Figura 11.33):
-
~ X ,_, 'WWOW t«b.ofg.lpc!b,>t~~,;,•Kult..tk> 'ut>!C4h<'•w t..g.¡,·>d.O.Qt'od 01S(!J...:l1
.. .. ,.,. o,•...,: POB l t."\11).,"-"-

~ ~
An htiOflllolltiOn P<lrtill l (>llk*l<lk~ M~rOmoiKoubr Sttu( l u rü
~ert~J•IOl, 10 1 "111 ~ -P111~fUt~ I O I :.t"lt~e& voe~'tMIStki ~ 0 0 ...
S.'tt~\·~·-~
1.1-.io,..........,.v •co oov Thlt'- _.... ~ IOVI!CIIn 011t Of - . Of tl!t
lf(loc.lo: 111 tt-c ~
r............ ~.........,"'
~l roo(l..,h!S t.. ~~~ Hlts r-.
~ otJoi:ll~·iu
oo on ~~~'~~a~ to tlo'~ótYol' OI!Nt ~
1 ~Da H....
<::10< Of'l ~ 1;) tJO t,f'IO-N lO\I((Vft$ ~' ~ ~.
I.<.J"NoC<.I'"<-
•·~..
Il.-• • -~
lt'I"'.::IU>Ic'l-~0:
~~li.oo..ro(U)
qo..., , ,.¡,,., (l)
"'-
~,JI_
~:.u JON
1\... . . . .,~r--
~·~dO'~O<.O' N(_~ l O: ACf ,IP~ ~11\fd>or.... Cottl.olnlio9 M:T {1IHIC:, 1-"'M, t.M;N,,,)
o..,.o.,..Q,)Io. r~ c,11,o,
wtt$<• fAO
~·-....q
••
c-..,VJ
_ft_l_. . . .
·~~
c.-
t>e..-~:..·1::
~
t ()¡
CA.I.O\.N)QU
CA 7$$9 $1""""'~ (011~ U. (J~O. 19(.0, IAO.) )
·- <>
Figura 11.33. Resultados de la búsqueda en la base de datos de ligandos
Cua ndo la proteína bajo estudio no tenga estructuras homólogas obvias, ha y

que recurrir a los a lgoritmos de predicción por reconocimiento de pl iegues. Estos
a lgoritmos tratan de alinear la estructura secundaria de la proteína bajo estudio con
las almacenadas en una base de datos de estructuras
Modela la proteína bajo estudio lanzando una búsqueda con

... _ -.; .-. HHPred (http://hhpred.tuebingen.mpg.de/hhpred).
~
11.5 BÚSQUEDA DE MOTIVOS
Para encontrar motivos, utilizaremos las herrami entas MEME y MAST,

ambas disponibles en http://meme.nbcJ:net/memel.
j M LltMI.So;;ic · ~ x l...
.•...__ _ _ _ _ _ _ _ _ _ _ __
+"ll-·"'"--·
W:M[Sullll ~
The MEME Suite

' $o.f)-..A.Jee
..........
~ Ooe...,.,.tu:.«>
Motif-based sequence anatysls tools
·-
u-8..f01)4
l. ...., _ _ Sot_
: ~.
'
The MEME Sulte ano•,.•s you to:

. Ot$CMt,...,
U$100 ~'{_~ ()flfU{ <l:X"~ (ln"J) OJ Q...I..IAl QOO'OIJPSol t CGtCG ~ Of P'OIC'.ft$1t:0Utt'Ce:f
• te:m:li~~~...CI'IIXIlftUq liiiSt FNO. M:A.Sl « OI..AM2SCA."t
• ~ •n:~~•IIO .. motf., 111 ll~~ 01 m;)IAJ.
• ~)O(l.ole mQ&tseii\Gél:'oiOnl*9¡~\'<i llr:"~~~ atlll
• ~w~ec:n:~t w119 s~uo or ccn:1~
To submi1 .. query, cfick on one of the I09Q$ below or Hlect "Submit A Job'" from
l:he menu at the left.
Figura 11.34. Página principal de MEME
Un motivo es un conjunto de bases conservadas que son importantes

funcionalmente y que están localizadas próximas las unas de las
otras.
Trabajaremos con las proteínas de ejemplo que pueden obtenerse pinchando

en Sam ple Protein In pu t Sequ ences:
>Atlg01140 . 1_4-2-4_SnRK3 . 12 SNFl-related Protein Kinase, subfamily 3

MSGSRRKATPASRTRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIKILDREKVFRHKM
VEQLKREISTMKLIKHPNVVEIIEVMASKTK I YIVLELVNGGELFDKIAQQGRLKEDEAR
RYFQQLINAVDYCHSRGVY HRDLKPENLILDANGVLKVSDFGLSAFSRQVREDGLLHTAC
GTPNYVAPEVLSDKGYDGAAADVWSCGVI LFVLMAGYLPFDEPNLMTLYKRICKAEFSCP
PWFSQGAKRVIKRILEPNPITRISIAELLEDEWFKKGYKPPSFDQDDEDITIDDVDAAFS
NS KECLVTEKKEKPVSMNAFELISSSSEFSLENLFEKQAQLVKKETRFTSQRSASEI MSK
MEETAKPLGFNVRKDNYKIKMKGDKSGRKGQLSVATEVFEVAPSLHVVELRKTGGDTLEF
HKFYKNFSSGLKDVVWNTDAAAEEQKQ
>Atlg01140 . 2_ SnRK3 . 12 SNFl- related Protein Kinase, subfamily 3
© RA-MA Capitulo I L PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 223
VEQLKREISTMKLIKHPNVVEIIEVMASKTKIYIVLELVNGGELFDKIAQQGRLKEDEAR
RYFQQLINAVDYCHSRGVYHRDLKPENLILDANGVLKVSDFGLSAFSRQVREDGLLHTAC
GTPNYVAPEVLSDKGYDGAAADVWSCGVILFVLMAGYLPFDEPNLMTLYKRVRICKAEFS
CPPWFSQGAKRVIKRILEPNPITRISIAELLEDEWFKKGYKPPSFDQDDEDITIDDVDAA
FSNSKECLVTEKKEKPVSMNAFELISSSSEFSLENLFEKQAQLVKKETRFTSQRSASEIM
SKMEETAKPLGFNVRKDNYKIKMKGDKSGRKGQLSVATEVFEVAPSLHVVELRKTGGDTL
EFHKFYKNFSSGLKDVVWNTDAAAEEQKQ
>Atlg01140 . 3_SnRK3 . 12 SNFl-related Protein Kinase , subfamily 3
VEQLKREISTMKLIKHPNVVEIIEVMASKTKIYIVLELVNGGELFDKIAQQGRLKEDEAR
RYFQQLINAVDYCHSRGVYHRDLKPENLILDANGVLKVSDFGLSAFSRQVREDGLLHTAC
GTPNYVAPEVLSDKGYDGAAADVWSCGVILFVLMAGYLPFDEPNLMTLYKRICKAEFSCP
PWFSQGAKRVIKRILEPNPITRISIAELLEDEWFKKGYKPPSFDQDDEDITIDDVDAAFS
NSKECLVTEKKEKPVSMNAFELISSSSEFSLENLFEKQAQLVKKETRFTSQRSASEIMSK
MEETAKPLGFNVRKDNYKIKMKGDKSGRKGQLSVATEVFEVAPSLHVVELRKTGGDTLEF
HKVCDSFYKNFSSGLKDVVWNTDAAAEEQKQ
>Atlg01450 . 1_ 2 - 1 - 1 putative protein kinase
MADFLLKHLGDGNESPKLFPSSLLDNTKDYQVKKRLGNGSQYKEITWLGESFALRHFFGD
IDALLPQITPLLSLSHPNIVYYLCGFTDEEKKECFLVMELMRKTLGMHIKEVCGPRKKNT
LSLPVAVDLMLQIALGMEYLHSKRIYHGELNPSNILVKPRSNQSGDGYLLGKIFGFGLNS
VKGFSSKSASLTSQNENFPFIWYSPEVLEEQEQSGTAGSLKYSDKSDVYSFGMVSFELLT
GKVPFEDSHLQGDKMSRNIRAGERPLFPFNSPKFITNLTKRCWHADPNQRPTFSSISRIL
RYIKRFLALNPECYSSSQQOPSIAPTVDYCEIETKLLQKLSWESTELTKVSQVPFQMFAY
RVVERAKTCEKDNLREPSESGSEWASCSEDEGGAGSDEQLSYAKERRLSCSSNDVGMSKK
QVSNLLKRASSLKPIQKPGEIIISQYIYIYIGSLTNMNLVTCTNFFVLCH
>Atlg01540 . 1_1-6-3 Putative protein kinase
MSVYDAAFLNTELSKPTSIFGLRLWVVIGILLGSLIVIALFLLSLCLTSRRKNRKPRADF
ASAAIATPPISKEIKEIVPAQNQSVPAEIQVDIGKIEHRVVFSDRVSSGESRGTASASET
ASYSGSGNCGPEVSHLGWGRWYTLRELEAATNGLCEENVIGEGGYGIVYRGILTDGTKVA
VKNLLNNRGQAEKEFKVEVEVIGRVRHKNLVRLLGYCVEGAYRMLVYDFVDNGNLEQWIH
GDVGDVSPLTWDIRMNIILGMAKGLAYLHEGLEPKVVHRDIKSSNILLDRQWNAKVSDFG
LAKLLGSESSYVTTRVMGTFGYVAPEYACTGMLNEKSDIYSFGILIMEIITGRNPVDYSR
PQGEVFDKHIQSSLCFCKWSYYVSWL
>Atlg01540 . 2_ Putative protein kinase
MSVYDAAFLNTELSKPTSIFGLRLWVVIGILLGSLIVIALFLLSLCLTSRRKNRKPRADF
ASAAIATPPISKEIKEIVPAQNQSVPAEIQVDIGKIEHRVVFSDRVSSGESRGTASASET
ASYSGSGNCGPEVSHLGWGRWYTLRELEAATNGLCEENVIGEGGYGIVYRGILTDGTKVA
VKNLLNNRGQAEKEFKVEVEVIGRVRHKNLVRLLGYCVEGAYRMLVYOFVDNGNLEQWIH
GDVGDVSPLTWDIRMNIILGMAKGLAYLHEGLEPKVVHRDIKSSNILLDRQWNAKVSDFG
LAKLLGSESSYVTTRVMGTFGYVAPEYACTGMLNEKSDIYSFGILIMEIITGRNPVDYSR
PQGETNLVDWLKSMVGNRRSEEVVDPKIPEPPSSKALKRVLLVALRCVDPDANKRPKMGH
IIHMLEAEDLLYRDERRTTRDHGSRERQETAVVAAGSESGESGSRHHQQKQR
>Atlg01560 . 1_4-5-l_MPK11 MAP kinase 11
MSIEKPFFGDDSNRGVSINGGRYVQYNVYGNLFEVSKKYVPPLRPIGRGASGIVCAAWNS
ETGEEVAIKKIGNAFGNIIDAKRTLREIKLLKHMDHDNVIAIIDIIRPPQPDNFNDVHIV
YELMDTDLHHIIRSNQPLTDDHSRfFLYQLLRGLKYVHSANVLHRDLKPSNLLLNANCDL
KIGDfGLARTKSETDfMTEYVVTRWYRAPELLLNCSEYTAAIDIWSVGCILGEIMTREPL
fPGRDYVQQLRLITEVNfSLfHLTILFRfNLKKEH
>Atlg01740 . 1_1-16-1 putative protein kinase
MGGQSSKIGTCCSHKTTALEAPDVENKENGEVNGVHSFREYSLEQLKIATSCfALENVVS
EHGETAPNVVYQGKLENHMKIAIKRFSGTAWPDPRQFLEEARLVGQLRSKRMANLLGYCC
EGGERLLVAEFMPNETLAKHLfHWDTEPMKWAMRLRVALYISEALEYCSNNGHTLYHDLN
AYRVLFDEECNPRLSTfGLMKNSRDGKSYSTNLAFTPPEYLRTGRITAESVIYSFGTLLL
DLLTGKHIPPSHALDLIRDRNLQTLTDSCLEGQFSDSDGTELVRLTSCCLQYEARERPNI
KSLVTALISLQKDTEVLSHVLMGLPQSGTFASPPSPfAEACSGKDLTSMVEILEKIGYKD
DEDLSFMWTEQMQEAINSKKKGDIAFRRKDFSEAIEFYTQFLDLGMISATVLVRRSQSYL
MSNMAKEALDDAMKAQGISPVWYVALYLQSAALSVLGMEKESQIALTEGSILEARKISAS
TQN
MFEKNGRTLLAKRKTQGTIKTRASKKIRKMEGTLERHSLLQfGQLSKISFENRPSSNVAS
SAFQGLLDSDSSELRNQLGSADSDANCGEKDFILSQDFFCTPDYITPDNQNLMSGLDISK
DHSPCPRSPVKLNTVKSKRCRQESfTGNHSNSTWSSKHRVDEQENDDIDTDEVMGDKLQA
NQTERTGYVSQAAVALRCRAMPPPCLKNPYVLNQSETATDPFGHQRSKCASFLPVSTSGD
GLSRYLTDFHEIRQIGAGHFSRVFKVLKRMDGCLYAVKHSTRKLYLDSERRKAMMEVQAL
AALGfHENIVGYYSSWFENEQLYIQLELCDHSLSALPKKSSLKVSEREILVIMHQIAKAL
HFVHEKGIAHLDVKPDNIYIKNGVCKLGDFGCATRLDKSLPVEEGDARYMPQEILNEDYE
HLDKVDIFSLGVTVYELIKGSPLTESRNQSLNIKEGKLPLLPGHSLQLQQLLKTMMDRDP
KRRPSARELLDHPMFDRIRG
MGCVNSRHRPFRRKSTTLKESSEEKRSSRIDSSRRIDDWIQPEDGfDRLSNSGDAKVRLI
ESEMFSTSRCHDHQIGKILENPATVAHMDRVVHDQELRRASSAVVDSDLDIDPKVVKAKL
DRWNSKDSKVRLIESEKLSSSMFSEHHQIEKGVEKPEVEASVRVVHRELKRGSSIVSPKD
AERKQVAAGWPSWLVSVAGESLVDWAPRRANTFEKLEKIGQGTYSSVYRARDLLHNKIVA
LKKVRFDLNDMESVKFMAREIIVMRRLDHPNVLKLEGLITAPVSSSLYLVFEYMDHDLLG
LSSLPGVKfTEPQVKCYMRQLLSGLEHCHSRGVLHRDIKGSNLLIDSKGVLKIADFGLAT
FFDPAKSVSLTSHVVTLWYRPPELLLGASHYGVGVDLWSTGCILGELYAGKPILPGKTEV
EQLHKIFKLCGSPTENYWRKQKLPSSAGFKTAIPYRRKVSEMFKDfPASVLSLLETLLSI
DPDHRSSADRALESEYfKTKPfACDPSNLPKYPPSKEIDAKMRDEAKRQQPMRAEKQEDK
TL
>Atlg03920 . l 4-2-6 putative protein kinase
MDSARSWFHKFQPRDKPRKKDMFSGSTYGGGVTETTVPDGGNDTETATKLPPLGGDGEAL
SNSTKQKVAAAKQYIENHYKEQMKNLNERKERRTTLEKKLADADVCEEDQTNLMKFLEKK
ETEYMRLQRHKMGADDfELLTMIGKGAfGEVRVVREINTGHVFAMKKLKKSEMLRRGQVE
HVRAERNLLAEVDSNCIVKLYCSFQDNEYLYLIMEYLPGGDMMTLLMRKDTLSEDEAKFY
IAESVLAIESIHNRNYIHRDIKPDNLLLDRYGHLRLSDFGLCKPLDCSVIDGEDfTVGNA
GSGGGSESVSTTPKRSQQEQLEHWQKNRRMLAYSTVGTPDYIAPEVLLKKGYGMECDWWS
LGAIMYEMLVGYPPFYADDPMSTCRKIVNWKTHLKFPEESRLSRGARDLIGKLLCSVNQR
LGSTGASQIKAHPWFEGVQWEKIYQMEAAFIPEVNDDLDTQNFEKfDEEDNQTQAPSRTG
PWRKMLSSKDINFVGYTYKNFEIVNDYQVPGIAELKKKESKSKRPSVKSLFESESDSSSS
GSEQQTINRSYSNPTPRGMEPNLRRLDSE
© RA-MA Capitulo IL PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 225
>Atlg03930 . 1_3-1-1-1_ADK1 protein kinase ADKl

MDLVIGGKFKLGRKIGSGSFGELYLGINVQTGEEVAVKLESVKTKHPQLHYESKLYMLLQ
GGTGVPNLKWYGVEGDYNVMVIDLLGPSLEDLFNYCNRKLSLKTVLMLADQLINRVEFMH
TRGFLHRDIKPDNFLMGLGRKANQVYIIDFGLGKKYRDLQTHRHIPYRENKNLTGTARYA
SVNTHLGVEQSRRDDLEALGYVLMYFLKGSLPWQGLKAGTKKQKYDRISEKKVATPIEVL
CKNQPSEFVSYFRYCRSLRFDDKPDYSYLKRLFRDLFIREGYQFDYVFDWTVLKYPQIGS
SSGSSSRTRNHTTANPGLTAGASLEKQERIAGKETRENRFSGAVEAFSRRHPATSTTRDR
SASRNSVDGPLSKHPPGDSERPRSSSRYGSSSRRAIPSSSRPSSAGGPSDSRSSSRLVTS
TGGVGTVSNRASTSQRIQAGNESRTSSFSRAARNTREDPLRRSLELLTLRK
>Atlg04210 . l_protein kinase ADKl
MDSKIKKPANLIEDADIDGGSESDSTISSVLSLEDDSVVDVSGQNLEFSLLDNVDDSVKG
LYFFRNVFNLIPKSIGGLGRLRKLKFFSNEIDLFPPELGNLVNLEYLQVKISSPGFGDGL
SWDKLKGLKELELTKVPKRSSALTLLSEISGLKCLTRLSVCHFSIRYLPPEIGCLKSLEY
LDLSFNKIKSLPNEIGYLSSLTFLKVAHNRLMELSPVLALLQNLESLDVSNNRLTTLHPL
DLNLMPRLQILNLRYNKLPSYCWIPTWIQCNFEGNYEEMGVDTCSSSMVEMDVFETPYEN
NVITVPHKGSHRNPLNMSTGISSISRCFSARKSSKRWKRRQYYFQQRARQERLNNSRKWK
GEVPPEGLSLKMEVEETGKQGMKVPQNTDRGSVDNSCSDENDKLFEEASVITSEEEESSL
KADVVSDNSQCVETQLTSERDNYESCEIKTSSPSSGDAPGTVDYNSSSERKKPNNKSKRC
SEKYLDNPKGSKCHKLSTDITNLSRKYSSNSFCSTEDSLPDGFFDAGRDRPFMTLSKYEK
VLPLDSREVILLDRAKDEVLDAITLSARALVARLKKLNCLTPDVDQVSIDNLQVASFLAL
FVSDHFGGSDRTAIIERTRKAVSGTNYQKPFICTCLTGNQDDLAALNKQVSTTAEDAILS
DVCEKSLRSIKSKRNSIVVPLGKLQFGICRHRALLMKYLCDRMEPPVPCELVRGYLDFMP
HAWNIVPVKQGSSWVRMVVDACRPHDIREDTDQEYFCRYIPLNRLNESIRIKEKLEPGCS
VSSLSTGKGVERANSSLIRCKLGSTEAVVKMRTLEVSGASLDDIRTFEYTCLGEVRILGA
LKHDCIVELYGHEISSKWITSENGNEHRVLQSSILMEHIKGGSLKGHIEKLSEAGKHHVP
MDLALSIARDISGALMELHSKDIIHRDIKSENVLIDLDNQSANGEPIVKLCDFDRAVPLR
SHLHGCCIAHVGIPPPNICVGTPRWMSPEVFRAMHEQNFYGLEVDIWSFGCLIFELLTLQ
NPYFDLSELQIHESLQNGKRPKLPKKLETLISETEEEESTNKLSEVFDLTESDLDTMRFL
IDVFHQCTEESPSDRLNAGDLHEMILSRKKRE
>At1g04440 . 1 3-1-1 - 1 putative casein kinase I
MDRVVGGKFKLGRKLGSGSFGEIFLGVNVQTGEEVAVKLEPLRARHPQLHYESKLYMLLQ
GGTGIPHLKWFGVEGEFNCMVIDLLGPSMEEFFNYCSRSFSLKTVLMLADQMINRVEYMH
VKGFLHRDIKPDNFLMGLGRKANQVYIIDYGLAKKYRDLQTHKHIPYRENKNLTGTARYA
SVNTHLGIEQSRRDDLESLGYLLMYFLRGSLPWQGLRAGTKKQKYDKISEKKRLTPVEVL
CKNFPPEFTSYFLYVRSLRFEDKPDYSYLKRLFRDLFIREGYQFDYVFDWTILRYPQFGS
SSSSNSKPRPTLRPAMNIPVPSADKAEKPPIGQDSRERFSGVFEAYTRRNGSGTGVQADQ
SSRPRTSENVLASKDTQNQERPNSLSRNLSSSRKAIAGSSVRATSSADFTENRLSRLIPN
NDRSSTTLRTQFAPSSSSVATKAAPTRAARDITLQSLELLSIGNSKRK
>Atlg04700 . 1_ 2 - 1-4 - 1_ Raf 1 6 MAP kinase kinase kinase Raf16
MRMEFPGSSNQHLGRDRFNGEVGCGNNCSQTGEEFSNEFLRDFGAQRRLQHGGVNRNVEG
NYNNRHLVYEDFNRILGLQRVDSNMSEGINSSNGYFAESNVADSPRKMFQTAISDVYLPE
VLKLLCSFGGRILQRPGDGKLRYIGGETRIISIRKHVGLNELMHKTYALCNHPHTIKYQL
PGEDLDALISVCSDEDLLHMIEEYQEAETKAGSQRIRVFLVPSTESSESPKIFHERNMNI
NRNTNQQTDIDHYQYVSALNGIVDVSPQKSSSGQSGTSQTTQFGNASEFSPTFHLRDSPT
SVHTWEHKDSNSPTFMKPYGNTNAVHFMPKMQIPRNSFGQQSPPTSPFSVHKRANTDVPY
FADQNGFFDPYLAAPNFPQQNRFFFETTTQKQKHPEVNLHDRRPSDDIYPHGQAYIGAEK
MTLKKNALSDPQLHDESQINNGLEAFTKQPWKILRKNLRVVATSKWEDSDDIYFNNPEGK
RCKELELTKEVPNSWINRONNPDSFDQATKKQDGSNSNSSFSPNYFSPNHQPAAQITSSD
SQDSGSSVFSLSVNTNENYLDCSREKFNGFQHDMSLDILIRSHTSATDQLCSTTKSSDKA
DYSSPNTNFPVVFLRQEPMIPRHDLETNSDDSDTQKSLPREESIHYSGLPLRKVGSRETT
FMHTQGSDDFFKSKLLGPQLIVEDVTNEVISDNLLSATIVPQVNRESDDDHKSYTREKEI
TNADHESEMEEKYKKSRNTDDSFSEAAMVEIEAGIYGLQIIKNTDLEDLHELGSGTFGTV
YYGKWRGTDVAIKRIKNSCFSGGSSEQARQTKDFWREARILANLHHPNVVAFYGVVPDGP
GGTMATVTEYMVNGSLRHVLQRKDRLLDRRKKLMITLDSAFGMEYLHMKNIVHFDLKCDN
LLVNLROPQRPICKVGDFGLSRIKRNTLVSGGVRGTLPWMAPELLNGSSNRVSEKVDVFS
FGIVMWEILTGEEPYANLHCGAIIGGIVNNTLRPPVPERCEAEWRKLMEQCWSFDPGVRP
SFTEIVERLRSMTVALQPKRRT
>Atlg05100 . 1_4-4-l_MAPKKK18 MAP kinase kinase kinase 18
MNWTRGKTLGRGSTATVSAATCHESGETLAVKSAEFHRSEFLQREAKILSSLNSPYVIGY
RGCEITREPFHNNGEATTYSLLMEYAPYGTLTOVATKNGGFIDEARVVKYTRQILLGLEY
IHNSKGIAHCDIKGSNVLVGENGEAKIADFGCAKWVEPEITEPVRGTPAFMAPEAARGER
QGKESDIWAVGCTVIEMVTGSQPWIGADFTDPVSVLYRVGYLGELPELPCSLTEQAKDFL
GKCLKKEATERWTASQLLNHPFLVNKEPELVTGLVTNSPTSVTOQMFWRSVEEEVSEDRS
SWWECHEDERIGVLSWIGHVVVESTWDLDGEDWITVRRN
>Atlg05700 . l_l-8-l putative light repressible receptor protein
MEEFRFLYLIYSAAFALCLVVSVLAQDQSGFISIDCGIPSGSSYKDDTTGINYVSDSSFV
ETGVSKSIPFTAQRQLQNLRSFPEGSRNCYTLIPIQGKGKKYLIRASFMYGNYDGENGSP
EFDLFLGGNIWDTVLLSNGSSIVSKEVVYLSQSENIFVCLGNKGKGTPFISTLELRFLGN
DNTTYDSPNGALFFSRRWDLRSLMGSPVRYDDDVYDRIWIPRNFGYCREINTSLPVTSDN
NSYSLSSLVMSTAMTPINTTRPITMTLENSDPNVRYFVYMHFAEVEDLSLKPNQTREFDI
SINGVTVAAGFSPKYLQTNTFFLNPESQSKIAFSLVRTPKSTLPPIVNALEIYVANSFSQ
SLTNQEDGDAVTSLKTSYKVKKNWHGDPCLPNDYIWEGLNCSYDSLTPPRITSLNLSSSG
LTGHISSSFSNLTMIQELDLSNNGLTGDIPEFLSKLKFLRVLNLENNTLTGSVPSELLER
SNTGSFSLRLGENPGLCTEISCRKSNSKKLVIPLVASFAALFILLLLSGVFWRIRNRRNN
PMAKSENKLLFTFADVIKMTNNFGQVLGKGGFGTVYHGFYDNLQVAVKLLSETSAQGFKE
FRSEVEVLVRVHHVNLTALIGYFHEGDQMGLIYEFMANGNMADHLAGKYQHTLSWRQRLQ
IALDAAQGLEYLHCGCKPPIVHRDVKTSNILLNEKNRAKLADFGLSRSFHTESRSHVSTL
VAGTPGYLDPLCFETNGLNEKSDIYSFGVVLLEMITGKTVIKESQTKRVHVSDWVISILR
STNDVNNVIDSKMAKDFDVNSVWKVVELALSSVSQNVSDRPNMPHIVRGLNECLQREESN
KNY
>Atlg06390 . 1_4-5-4_ASK-iota GSK3/shaggy-like protein kinase iota
MASLPLGPQPHALAPPLQLHDGDALKRRPELDSDKEMSAAVIEGNDAVTGHIISTTIGGK
NGEPKQTISYMAERVVGTGSFGIVFQAKCLETGESVAIKKVLQORRYKNRELQLMRPMOH
PNVISLKHCFFSTTSRDELFLNLVMEYVPETLYRVLRHYTSSNQRMPIFYVKLYTYQIFR
GLAYIHTVPGVCHRDVKPQNLLVDPLTHQVKLCDFGSAKVLVKGEPNISYICSRYYRAPE
LIFGATEYTASIDIWSAGCVLAELLLGQPLFPGENSVDQLVEIIKVLGTPTREEIRCMNP
NYTDFRFPQIKAHPWHKVFHKRMPPEAIDLASRLLQYSPSLRCTALEACAHPFFNELREP
NARLPNGRPLPPLFNFKQELGGASMELINRLIPEHVRRQMSTGLQN$
>Atlg06390 . 2_ASK-iota GSK3/shaggy-like protein kinase iota
MASLPLGPQPHALAPPLQLHDGDALKRRPELDSDKEMSAAVIEGNDAVTGHIISTTIGGK
NGEPKQTISYMAERVVGTGS~GIV~QAKCLETGESVAIKKVLQDRRYKNRELQLMRPMDH
PNVISLKHC~FSTTSRDELFLNLVMEYVPETLYRVLRHYTSSNQRMPIFYVKLYTYQIFR
GLAYIHTVPGVCHRDVKPQNLLVOPLTHQVKLCDFGSAKVLVKGEPNISYICSRYYRAPE
LIFGATEYTASIOIWSAGCVLAELLLGQPLFPGENSVOQLVEIIKVLGTPTREEIRCMNP
NYT DFRFPQ I KAH PI'IHKVFHKRMP PEA I DLASRLLQY S PSLRCTALEACAH P~FNELRE P
NARLPNGRPLPPL~N~KQELGGASMELINRLIPEHVRRQMSTGLQNS
Figura 11 .35. Proteínas bajo estudio
U na vez en la pág ina princ ipa l de la suite de herramientas MEME, pinchamos

en el icono co rrespondiente a MEME s ituado e n la parte izq uierda d e la pantall a y
se mostrará e l formu lario d e in troducción de datos de búsq ued a (ver Figura 11 .36):
111 MEME. Submiuio" form X +

~~================~~~
~ rA - '
MEME Suite Menu

e S.bmit A Job
®~ Oocumentation
1!1-0ownlo>ds
lil User Support
MEME
Multlple Em for Motif Ellcltatlon
Use this fonn to submj DNA or protein
sequences to MEME. WEME wil ana:yze your
sequences tor slmilartties among them and
- - - - - - ' - - - - - - - - - - - - produce a descñplion (motif) for each
$ -.A!temate Ser.~ers VeBion 4.9 .1 pa«em ~ discovers
Authors
· Oting Dau Submi ssion Form
Required
Your e-mailaMress: How do ycu t-,tnk th~ occurrenc!s ot J
;ingl e motif ; re dit>tributod 3mon9 th~
Sé(J.I~n ~?
e Ono por coquenco

@ Zero or one per .:s"quence
Please enter tfle sec¡uencu whith rou belie..-e sha-e one or O Any oomoer 01 repeUions
moré
motifs. lhe seQutnces may containno more tha'l60000
MEllE will flnd ttlo optim1.m wMfth of o::adl
cl'laractei'S
motif withh lhe limls )OU sp.1cify her~·
totar totalln art¡ 01 a 1arge OUniOEf 01 rormats.
~ Uini'ntJm w;dth (>= 2)
Entorthe ntmo ot a filooontainin tno &ocuonCA~s ho~ : ~ Uaximum width (~- 300)
Exam ner_ No se na Sélecconaao nng¡in arcniV<I, crear
1~ j1.1'lldmum number or mot1f!S to find
or
lhe ;,c tuot se(l.lences here (SC!mple Ptotein Input Sequences)
Opllons
Oescriptiofl ofyour seguences: P'rto1m di$CrlmiutivG mc;tif di~C'OV'iry- tnt$r t:lH~ na mo of ~
file cont~in in 'neoativeseouences ·
No se ha selece!onado nlngUn 3rdllvo
MEME w.n rnd the optimum number of sites for
éach motif wittlin !he limi1s yo u spedt)' !\era:
Figura 11.36. Parámetros de búsqueda de MEME

En prim er lugar, arriba a la izq ui erda, se pide la información necesaria para

enviar los resultados a una dirección de correo electrónico. Tam bién arriba, pero a la
derecha, se establece el número de motivos que se espera enco ntrar en la secuencia,
así como la longitud estimada de dichos motivos.
Por otra parte, la opción S huffl e sequ ence letter s indica si deseamos barajar
las letras de la secuencia de entrada. Esto resulta bastante útil para determinar s i los
motivos encontrados con la sin barajar son estadísticamente significativos o no. Para
ello, se co mpara el valor E de l mejor motivo/alineamiento de la sec uencia original
con el correspondiente calculado con la opción Shuffle sequence letters marcada.
Si son iguales, probablemente el motivo sea poco significativo. También es posi ble
indicar si queremos rea lizar la búsqueda ún icamente en la hebra proporcionada
(Search given strand only) y/o si se desea buscar secuencias pal indrómicas (Look
for palindromes only).
Finalmente, disponemos de un área en la que introducir la secuenc1a

proteica o bien su núm ero de accession. En nuestro caso, pegaremos la secuencia
de aminoácidos en formato FASTA y pulsaremos el botón Start search para lanzar
la búsqueda y obtendremos una pantalla intermedia co mo la de la Figura 11.37,
en donde se nos proporciona el enlace a los resultados del proceso junto co n un
res umen de la información de configu ración de la búsqueda que hemos introduc ido
anteriormente.
+ -~·~ .... c.c.- . ....._....._..,,

~ .,.__.,~ e 11 · ~ol.:o:t~ p o .
" "
~
* --
Ycw )(lb dio: ...)lll.\fE_.a,!l.lt •08006-'9~SU-1 ~S~
ca,._,_ jgob ttdJ • t!!e!'*'"·~n ""'..t"""--- .. 9 1'~12bd!J!!:!nl*ft "t''.t•l -;\lf"~ 4 O 1140S00619~n1.J641'~&--.\.iF-v.'ll
--...... ...
Yo.
Yo.caa.__ _...,_.-,. ~
hnu.:••
._
~" eno:\\lo
Dillr~ « fllltlil 0(~($
:Siabft' d ci!G"iloiiiiQéB
_..
l:n-o «
¡
Olle pU K<J)('«C
~ oa:ob«: ÚÚ!o'~
~1..,.~c/.s '
"!ib.a~ il~
M.w.. -*'•it:io ,.•"
-·
T,-ped~
Cow.cd~<!S
~~t(o.......)
""'"'
1
Zl9
iA:qc'it Se~(' Ct~) m
A•n·l.A-~(1...-.,) ~29~
TotiJI~(1~) U1
y.,.. d ..Joo<K""'• a~-uv a '1""'8' taW. *""••• ..,•.....,.,~~L-
Figura 11.37. Página de resu ltados de MEME

©RA-MA Capitulo I L PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 229
Pinchand o en el enlace You can view your job results at, se muestra una
página en la que podemos consultar el estado del trabajo. Cuando este esté listo,
apa recerá una pantalla como la de la Figura 11.38:
MEME Job- Done
• MrMF ... S!lf!l

• MIME ,.,. 5!11*
• ~alewp!!
• MASUtii&0!4'!M
• MASlA!Al~
• MAS.l.\1.1...~
· ~~~
Srnu ¡\ltuagu
......,_
. p...,~..,~~
• Ao,......ek
- t~olo/100» ·JIOOt•1• -ce . · IIOHi t"d . u .. UQOO ...... u .. ~~ - - tOC.,.:O ·IIIOOUU 1 _ ..... 10 -lnt iO
. _,_JOII:"(OS~~~ ~ ~S)~
• Sl~-
au ; -.IOtol ••...,....•• •.,.. , .noo~u10•
• .-u •~ ....,.,..,.~;, 0.1) -~
Figura 11.38. Resultado final de MEME
Pulsando, por ejemplo, en MEME htm l output, obtenemos los resu ltados
en formato HTML (ver Figura 11.39). Esta página, de extensión considerab le, se
divide en varias secciones.
•e n - ~.,,
e.'~
MEME EM for Motif (lklbollofl
l
•
ter (\,¡othe• rolot,_on._to rCeoprl!l ~J41 oQOIIi;s oo to of!l• eopvo/tt..., tGC -..,., p¡,..,.,. - tc*v'tcmed>und·
11 t01.1 viot MO< "' rov te~. ~<''f cu tht ~f'IO o~
1.....e.,.~ ~.,...SCW....::l~'TIItltlf • -llo.~ a'*'l~<!o~(O>-...._..,(Iolltoo!l-.-eo..-ouo~~·.~<f~~:-...~c.+-..••~ol~~~-~~.,
A.VJ !'o<>:, lo$.-=l<o :l'd , eu..~.,...,. tnl.
;o,.""
• l .to. lOO
• 14 totn
• 6 2..1:?1
"""' • 19 :M.U
• ; ,So:·OH
• 9 KU
1 .,. r ,-,., .
Figura 11.39. Página de resultados de MEME en formato HTML

En la sección de motivos encontrados, obtenemos información sobre los

motivos hallados, en este caso, tres. Para cada motivo se ofrece su presentación
en forma de logo y un enlace que nos lleva a una descripció n detallada de dicho
motivo. Si pinchamos, por ejemplo, e l correspondiente al primer motivo, Motif/,
encon tramos la informac ión organizada en varias partes.
En primer lugar, encontramos un resumen de la in formación sobre el motivo

y el logo de su secuenc ia (ver Figura 11 .40). En el resumen se ofrece la siguiente
información:
11"' Valor E (E-value): importancia estadística del motivo. MEME muestra

los motivos con mayor imp01tancia estadística (menor valor E) los
primeros en la lista. E l cálculo del valor E de un motivo se basa en su
ratio de probabi lidad, amp li tud, sitios, frecuencias de las letras de fondo
y e l tamaño del conju nto de entrenam iento y co nsti tuye una estimac ión
del número de motivos esperado dado un ratio de probabilidad y con la
misma amp li tud y número de sitios que uno encontraría de un conj un to
de secuencias a leatorias de tamaño parecido.
11"' Amplitud (Wídth): am plitud del motivo. Cada motivo desc ri be un patrón
de una amplitud fija, puesto que MEME no permite huecos.
11"' Sitios (Sites): número de sitios implicados en la construcc ión del motivo.
11"' Ratio de probabi lidad (Log Likelihood Ratio): ratio de probabilidad del
motivo, en unidades logarítmicas. Mide la probabilidad de ocurrencias
del motivo, dado un modelo del motivo fren te a la probabilidad de
ocurrencia del motivo si n disponer de modelo del mismo.
11"' Contenido de la información (!nformation Content) : es e l motivo en bits.
11"' En tropía relativa (Relative Entropy) : es la en tropía relativa de l motivo en

bits y se calcula como el ratio de probabilidad dividido entre el número
de sil es.
Monr 1 !!!:!'!~
s.q......... l..Qso
.......
Sunom:uy
l.t... IOO
·~~t~~~.
v.id!n
"
""'
lOO~ ~
19
lnkl~ C«<l.tr.t -
~·
<11.9~S)
t:ntroor
-
~,..e
<~M(t><a)
·~
d!t!w'-~
()oct,niOacJ LOGO Orlett~ ~IIICI - SSC: o& • ~:~~iJ) - \ "''4fv. 17 ~:1.! ~ 1 OC'Irr.mad 1
Figura 11.40. Resumen y logo del motivo Motif!

A co ntinuación, encontramos una expresión regular que describe el motivo,

si queremos efec tuar un análisis más profundo del motivo en cuestión (entra remos en
deta lle más adelante en este epígrafe) y de los formatos de salida (ver Figura 11.4 1) :
H$()$PJG~Wl]t\.W~ILY»"i~MJ).!~V)
l~r AIRJ)'Stflli
Sut>u cr.' "-'C>>f to ~
n..u J".......,h (!'

~w1homot:f~n PSPNr~ fr t ~r......... :!J IIU')()(S:r~
Figura 11.4l. lnformación adicional del motivo
Seguidamente, se muestra la información sob re los sitios (ver Figu ra 11.42).

MEME muestra los sitios (ocurrencias) de l motivo en el conjunto de entrenamiento.
Estos si ti os se alinean entre sí y las diez posiciones anteriores y posteriores a cada
s itio tamb ién se visua lizan. Cada sitio se identifica por el nombre de la secuencia
en que ocurre, la habrá si se emplean las dos hebras de la secuencia de ADN y la
posición en la secuencia en la que el sitio co mienza.
SitMI!J
Cki.M"" ~ to~« '-~., ¡_1, . 4

.,_
··-
.U I <J(IIl.t0.,J_5no:O U ...... .,..,...._ s:11~ 1T
;J...~7•'l VA~SDKG '!l) r"Alll)VWSC~IL!'VlM'A'lYt.J POE tN LWLYlCRIOC
.u 19(1 ll~.l-Sloltt:S.t:l
&t t.,01 1.0.1_....2·•-~ , , ... U7 ...l ) VAPEVLSDKG 'mQM.lDW~C'QV1l.F'VU!:l9 YL" rDE Jll IMTLYKRVRI
),41•·)$ V~SDKCJ YDLAMlJWSCGVIL~3Yl.l !'tiEfN t.tt!'l'l.Y~ICK
l.(J6e.1~ AAnLirGAT !:t 'fASll)IttSA'...CVLA!Ll.II.>Q L!' "(;!N SYDQLVZII.K
~·tuC16J9(1.l_I.SK·O!lt.<l
"' 1 CIM-)' RAl'ZI.llGA'l E':"l'A Sl DI WSl/"CVJAELWIQ Lf'"'(:eN SVDQl.VZUK

&t to06*.1_.¡·$4..,.I.SI(·I$C·
U .l o01S60.t_ • · S•l.../I'A(ll '"
ll 1 2..1le-2) ~:tLlJ..K<:S rtTAAIDIWSVQCl iA!DCTJU: Lf'llGN) YVOO_UU.Itt
4U00 1$a.O.~t m ) ~~•21 YVUZYACTG IICUo"%KSll n'SN il.IM!llTGPJI VDYSR i'QG!Th"'LVDW
4U.,OIS41U _ I+) HM-21 'i'W.PEYAC1'0 NU."EKSD I Yf>FOI LI NEIItt,RN I"VO\'SR PQG!VI'DKBI
4-t i/,1039-:0. J...•· M "' 3o ~20 YIA.PEVI,.Ll(K CJYC'WECD'. r"'5 IIlAINYENI.VGY • F"'AOO Pk$1'CRi<l"VN
~IO!Il4SO.t _l•l•l '"
"' S.M.e.l'O QT.OSG'IAGSL JO'SDKSDVYS rGCVSF'ZLL'fGKVi rED S LQGDKW.SIUfi
M: 1004liO. IJWOI:tn m J.G2t· l '1 ~-Qtf rYCLEYD l W5 f'GCL 1F!:Ll.TLQN U rDL6 l:LQIKESLQN
Ati OOSlOO,l_...... J~IS tao 1 7~ 1 9 J'WA.PZAAAGE RQ<;~!;D IWA~&Oiliflca.D r:DP\'SVX.YR
.........
.U I \f0)100.1.._1·.._l m 1.11 ... 1• YLDPLC'F!.!N (IU;%.K$D l YSNYVLl.DCIN h'TV'tla!.SQ TKRVINSDW
4C 1\10)7'*0.1_....J..l IAl'""' ' R.PP%LLI.OJ..$ IYGVQVD 'I.MSl\Xl liDL VA? KUlhOI<T ~Q.t.m<If'K
.u t~700.1 _').J ... t _ fUI ¡ 6 t.sa.. ta A.P!:I.LMGSSH RVS!:KVDVPSNIVWtmll.'l '\iU ~A.NL CGAUGGlVN
.1.( 1 ~UO.l..3+H
.U t iJ(ll9'l0.1_:l•l •l IJJ)(l
A( l 0029i'O,l_•·>t
... ?41e-1' )!ACVNTHWl EIQ SRJWDIZS.I/'!~·LJM~ rl.R"SLt1fCYJLR AOTIOCOXYDK
6.tk> t7 YASV'NTilLOV I:IQS!UIDD ILAL.JWJM~ Pl.XOSL' 'lii~LK AGTIOCQ.XYOR
~ M•ao KPQ!:ll,N"'-DY E l.DKVD irSL':iVTVYZLIK~S L TESRN QSI.NlKZQJO.
U l o01740.1_1• ! 6•t '"'

n~ M1t> t6 !TPHYlJI.!G R.ITAtSVIYSfG'H.LLDLI.'r\.~ l:Jt S A LDLliWlWLO
Figura 11.42. Informa ción sobre los sitios
Finalmente, para cada motivo se muestran los diagramas de bloques del

motivo en el conj unto de secuencias de entrenamiento. Cada diagrama se corresponde
con una secuencia y se muestran todos los sitios que han sido implicados en ese
motivo y en esa secuencia, y se muestran tam bién estas en el mismo orden en que se
introdujeron en la configuración de la búsqueda.
A:lQOH 40..~-"
IUIIIM!:
2••Jdt0.1l ) ..111~<!5
--
- ----
1.::1001lcl0.2~) 1? 3A1H$
AoC lgDII~o..3-Jni!Xc• • l2 , ..., ••;t)
41100t 4.)0.1_l+H .)$~·JO
-- -
""1<;)01 :J-10.1...1-6-) ) l6t--l1
Hl(IOU40.2Jut;AA• l.lo.ll
M lo0tS60.I_.;.S·lJ.tPI<"t 1 , , ,...,~
-
J.:!c017 40.~.1 · 16·1 M 1e· :!
.O.::loOl-910..1_4.3•) l »e· l6
-
,1Ug0ll'4G.l_4-S-2 l A;k. ¡ jl
-------------- -------
-
.t.ao0»20.t_+2·o ).1~·20
ol.t ICI))9)0.l..,)-1·l · IJI,ll(l .l)t-17
-
... 19'1>1) l l).l_prOI<IIn 1.0)4>.1~
--
&IIOO.U.tO.I_> H·I )óJe·l'
-
.w t'))-1 100.1_~. . .... ¡_.M' 16 ~~~e
MlOOliOO.l_.._.. lJW'IQQ( I3l.7C..· I9
-
,l,lld)S100.t_141•1 1.11••18
N.!Q06.3.;G..1...4<So4J,SK-ot.o !.(1~·2 ~
A:IOOtJ'90.2JtiSI"~ll l.oM·2 ~
o' ... ' ,,..

'
Figura 11.43. Diagramas de bloques de un motivo
A l final de la página de resultados encontramos un diagrama combinado de

bloques, en el que se observan las ocurrencias de todos los motivos (ver F igura 11.44).
NM-+.~ §t:et W(h ·~~ btc"lf!f1'*'0 0001

Tho l'>coc:H el ti'Mo ..e.f 'bbck""., ~oon.ol to •log(p-.;ÜteJ, tnrcoted :tt the he.aht b " _ ,, ..eh " lt"W"ñfe ol ~e" l O.
Qlct on ~~tWro" tol!tontoM MO.Itf'IOt ltl .-II'JCotll..
lllt -.onr tilodel .,.,.,.. tool~"'lth II'IO(tlf'll~.
Cl tt Id
--
--
-- - -
ueO: l.0.2Jn':O : 2 1 9Go·6 1
.I.H.,OII~.J_fin'XJ..Il
!.IIQ(IUSO t j -1•1
t .Wo·01
94-1••2'3
'"o'
1!
----
:.ttgl) 1S.a0. 1_ 1•6-3 ~ .01c•2S
Mt001)40 .~·e 2·00t·ZS o

I.U oO U OO, 1_ 4· Sol.J'I'I(J 1 l.Jet·~J
;.n9')~~~.t.. l ·I0.1
'·""·'· "'
:.uQ0:9ro 1...+.)-J f1H· N
- - ------- B
Gl_-
-
- -
:!.t t 0037.t0. t_• ·.\-2 4 .• ·)1 =
MI00)9:0.t_4.:-6 :.9U·« n
1.1100)9)0 1..)-I.J. U<()I'I ) 1)~6 1:1
&tloO• no t...P~ • 29e:·2S _ _ _¡¡__ _ o =- •
-
-.uoo.. te~.t_l·l·l·l •.SJ•·•9
'-1:oQ.I,OO.U·1-'· ~~ tó t.4h·~
--- - -
'o
_.
lil
,..
'
-
""
'
""
'
o -
'
""
'
"""
Figura 11.44. Diagrama de bloques combina do
Puede ocurrir que el diagrama de bloques combinado no se

corresponda exactamente con la combinación de los diagramas de
bloques de cada motivo, puesto que solo se muestra n los motivos
con un valo r p de 0,000 1 que no se solapan con otros
Una vez que se han identificado los posibles motivos en nuestras secuencias,
debemos comprobar si está n presentes en otras secuencias. Esto se consigue gracias
a la herramienta de la suite MEME llamada MAST, y que está accesib le desde la
sección F urth er Analysis (ver Figura 11 .45):
1\lrtho.r An.Al'' 'b

lklt>ril.JI-a.e.l ,v.,sr 1 , FI\'0 ... a oc::iCS] --•b<..e-f«-•We......,..
Figura 11.45. Sección Further Ana lysis
Esto nos lleva rá a la página principal de MAST (ver Figura 11.46), en la que
deberemos volver a introduci r la dirección de correo e lectrónico en donde queremos
recibir los res ultados y una descripción de los motivos, junto co n información
ad ic ional cuyo significado explicamos en los s iguientes párrafos.
l.tAST ~lle.teh utlf'\9 your

-
~· ~lllt>l1t b stll~·~etect -
1 j .!
ofh
previoutly provided motift•l: IAEUE

motift trom ..queneu In "le
•
r¡;;_;: .... ,_~·~oo~~~
' U~I\COUI ' . YI:IIWIASIA~, (~ ('OQOOOO~d'-.~J
~OW.c.l~..
Optlonal
a St;M....,.--.,.,.,.•
..,.eot~~ ~..,...
~Mqvo nc•: 1i4JI E-valle OOIOW ....

a s~.a~l'l nuei+OU<I• ci.II.OIM'~ prob!rl
!QIIOrt MOtlfs 11 f•Wll.JC abO'fe

~~~~~s
"'' VM~....,_.~
In c. 111\d ~ (')1::\ll)f)tl
Figura 11.46. Página principal de MAST

Inicialmente, tenernos dos filtros relac ionados con e l va lor E. El primero de

los fi ltros es el filtro de visib ilidad de secuencias (Display sequ ences with E -value
below) que elimina de los resultados todas las secuencias cuyo valor E se encuentre
por debajo del va lor umbral que indicamos en este filtro (ver Figura 11.47).
with E-value below:
E.vatue at>ovel
Figura 11.47. Filtro de visibilidad de secuencias
El otro filtro de valor E es el filtro de motivos, que indica si deseamos ignorar

los motivos co n un va lor E mayor que el umbral seleccionado (ver Figura 11.48).
Es recomendable establecer un va lor en este fi ltro, puesto que los

motivos con va lores E e levados es probable que resulten
biológicamente poco significativos.
L__:~~ E l umbral por defecto hará que MAST utilice todos los motivos
(use all motifs), independientemente del valor E de cada motivo.
se ha selecdonado
1
0.5
0.2 E
0.1
005
0.02
0.01
0.005
0.002
0.001 hc<.s with E-value beiOw:
l e-5
l e-10
@:1 use IM Mdllal sequence cornposltlon

in E- andp-value catculalion
Figura 11.48. Filtro de valor E para los motivos

Si marcamos la casilla use individual sequ e nce compositio n in E-and

p -valu e calculation, mejoraremos la búsqueda selectiva cuando se produzcan
coi ncidencias erróneas debidas a la composición de las secuencias. Gene ralmente,
MAST calcula el va lor E y el va lor p uti lizando un modelo de secuencia aleatorio
basado en to das las letras de la base de datos sobre la que se realiza la búsqueda. Con
esta opción, se uti li zará un modelo a leatorio diferente y basado en la co mposición de
la secuencia objetivo para cada una de estas secuencias, en lugar de la composición
de toda la base de datos.
Ma rca r esta opción puede incrementar, considerablemente, el

tiempo de búsqueda debido a la mayor carga de proceso que
supone.
Además, debemos indicar la base de datos en la que se buscará el motivo.

Para e llo, ex isten do s desplega bles (su pported database category y database).
En nuestro caso, seleccionaremos Non-redundant and Sp ecial Oatabases e n la
primera lista y swissprot en la segunda.
Required
SeQuen ce cfata!)ase to snrch-select one oflhe

followlng:
A3upported dotobose:
categcwy:
L·
rcniVO.I F.====:=::=:=====1
Non·redundantand Special Databases
Olhe.t Genomes
ENSEMBL Ge.omes
ENSEMBL Ab t'litio Pred1aed Prote1ns e
OENBANK Fungi Oenomes
GENBANK Bacteria Genomes
U tr~am S ~H:Ju•neu ún annivO.I
Clear
Sampte ONA database.
Figura 11.49. Bases de datos de búsqueda
La lista disponible en h!tp://meme.nbet:net/meme/cgi-bin/get_db_

list.cgi?db _na mes fasta_db.csv&mode=doc&short_only= 1
describe todas las bases de datos en las que busca MAST.
Es posible escalar el umbra l de visualización de motivos por la longitud de

la secuencia (scale m otif d isplay ther eshold by sequ ence lenght). Por defecto,
MAST muestra los motivos cuya puntuación se encuentra por encima de un cierto
umbral y calcula el umbral basá ndose en la probabilidad de los moti vos, teniendo
en cuenta la longitud media de las secuencias de proteínas, sin tener en cuenta la
longitud de la secuencia . Seleccionando esta opció n, e l umb ral de visualización se
calcula considerando la longitud media de las secuencias, con lo que se reducen el
número de motivos mostrados y el tamaño de l fichero de salida.
Finalmente, es posi ble lanzar las búsquedas de la vers ión, en secuencias de

bases, de la secuencia de aminoácidos de la proteí na.
Una vez establecidos los parámetros de la búsqueda, pinchando en el botón

Start sea r ch , obtendremos, al igual que en el caso de MEME, las páginas intermedias
de resu ltados hasta que, una vez concluido el procesamiento, se muestra el resultado
final (ver Figura 11.50), en donde seleccionaremos la versión html.
;\l.\ST Job • Oou

y~-~~~-_..
~UIIb
....
.........,
StJt•, Mnt.a¡n
• hl.-a•-
..• .sur;,-
. .-~
-...
--~
...
··· ·- · - --·~......... .... -·~···· .._. ·Oof·~· - ..................~. ........._ ,,u.,·-.••.~~ ·- u-,...........
-.,.,.~,.~
Fígura 11.50. Página de resultados
Los resultados de MAST son más sencillos de inte rpretar que los de
MEME. Tras el resumen de la información de entrada a MAST (ver Figura 11.5 1),
encon tramos los resultados de la búsqueda.
._ _...
•to~~eo>-ll><"<!..,...t.,_o,no.lbe<.,.oot•-tl~-,.._...-c~'o•oe4'l«oo"N'M""r"'....,.NS
.....
... _ --.--~·-
a-,t. __._. _ ._....._...,.,._ ...---~-. ....,...._¡¿,.-....
INP\."''S
-s-• ,..__..e-
~
.....,...e- ••u"'''m..:.o;ou
11H~
l ............
t.W ~ ~·~J-
Figura 11.51. Resumen de la información de entrada a MAST

Las secuencias encontradas (ver Figura 11.52) se ordenan por el va lor E de la

secuencia, de menor a mayor. Tras el nombre de la secuencia y su va lor E, aparece una
flecha cuya pulsación muestra información adicional de la secuencia en un panel que
se abrirá con dicha pulsación. A continuación, podemos ver el diagrama de bloques de
los motivos que se han encontrado en las secuencias de la base de datos. En cua nto a la
información adicional, se muestra la descripción de la secuencia, el va lor p combinado
y la secuencia anotada, indicando la posición del motivo dentro de la misma.
SllqUO!IIQD: f'•V8111e
~!Q1lUW~ICII't(l..,<l'O'SJ :J.:Jt·l l 1
_ , _ _ 6.10e·18
""'1
••~u
_, ..._,.._
a~:!IC
.............J.:UC
V
-.~'' J.:DC ~ "A;I=~t-: ;1.uvuc,;. . . r,:\.l~
ll'I~YQSIOPKl..Jt,AATH ) .4t•12
'
to!Q....O(Cü't.7_OIIVSJ ' ,... u
•.,..u ' ..._
1
_,¡...11i.)XI)Cfl't(j- OllVSI 1
_._
.. .
~!QX)'t'j)ICIPI<W_OA:VSI
,. , ~ f.
8.3e·ll 1
'b • •
._
Figura 11.52. Resultados de la búsqueda en MAST
11 .6 ANÁLISIS DE LA ESTRUCTURA PRIMARIA DE UNA PROTEÍNA
La estructura primaria de una proteína se considera caracterizada por

la secuencia de am inoácidos que la constituyen y el orden en que se disponen para
formar la molécula. Conocer la estru ctura de una proteína permite, no solo conocer su
influenc ia en el comportamiento fis ico-químico del organismo, sino que sienta las bases
para averiguar cómo interferir en ellas e incluso, diseñar proteínas "a medida" .
11 .6.1 Traducción del ADN en secuencia proteica
Una vez que se ha obtenido la secuencia de ADN del gen, y una vez
garantizada la calidad de dicha secuencia tras haber estudiado la contaminación, el
paso siguiente es la traducción del ADN en una secuencia de aminoácidos.
238 BIOINFORMÁTICA: El AON A UN SOLO CLIC © RA-MA
En este primer ejemplo, uti liza mos la herrami enta de traducc ión de Ex PASy
(hup://www.expasy.org/tools/dna.html) y trabaj aremos con la secuencia :
>IR64 Oxox 2
gcctctacggggtct t gactgctgactaatcttcctataagttaattgcaaattt t ctca
cgtgtgccacg t acgcatgaaacatgatcagttatgcacggaaggcacgatcgatgcatg
ggtgctcccctata t aaagggctccaaagctaactagatcatcagcaaagcaaagt agca
aacaaagccagccagctcgtcactgctactgtcttgcctgattgaagaagtaattagtta
ctagtagt tga t tagcaatggagtacggcttcaaagcagctgggttggtgtt cgtcgtgc
tgc t cctgcagcaggcgcccgtgttaatccgagccaccgacgc ggaccctc t gcaggat t
tctgcgtcgctgacctcaacagcgaggtgacggtgaacgggcacgcgtgcaagccggcgt
cggccgccggcgacgagttcctcttctcctccaagattgccacgggcggcgacgtgaacg
ccaacccgaacggctccaacgtcacggagctcgacgtcgccgagtggcccggcgtcaaca
cgctcggcgtgtccatgaaccgcgtcgacttcgcgcccggtggcaccaacccgccgcacg
tccacccgcgcgccaccgaggtcggcatcgtgctccgcggcgagctcctcgtcggcatca
tcggcaccctcgacaccgggaacaggtactactccaaggtggtccgtgccggcgagacgt
tcgtcatcccgagggggctcatgcacttccagttcaacgttggcaagacggaggccacca
tggtggtgtccttcaacagccagaaccccggcatcgtcttcgtcccgctcacattgttcg
gctccaacccgcccatcccgacgccggtgcttgtcaaggcactccgcgtggatgctggtg
tagttgagctgctcaagtccaaattcaccggcgggtactaattaatctgggagtattttc
gtaccgttcttcgctacgagcagcgtac
Una vez copiada en e l área de texto, pulsamos e l botón Run y obtendremos

la página de resultados (ver Figu ras 11.54 y 11.55):
Translate
.. ..
~~n co;Qqt~c~t;~"'~c ct•ucucc:...~-:""''0<:-"""ut~ct"
~-:<~:<;<:e~ 01<• er-~t : _, • -"-" • t-: • : e<~; : t • t ~:-;-;• ·~>:e• <r.• <c >,¡A <<;.>:.. te
t'Jlf*'~~ut;~;~eoec;ntctueu,.ate.~ot~io!Ua-,caUfU'J'!>I
U <: :..u ! C !~ ! C: '~t!~-!4! t! ! ~ :~t!!C !t :IOH!4 t t'H4-~ uet ~ :t !f.:'t !4
c.t•;<wo;'Y.-'10~ w .,.,...~r.o~r.c' ~o.u~~t.;-7,1! Y.~'~Wt.O;t<;o
t<I'«OI:tO.::MC400.:~~~<ntUtQCO•O~~~O~OQtCt~:O..tt
t<:"t.;-Q':tC~Ct1•Ce-t~o.~>e~t&~O~O&~O; e>;M,..-'!':'!V.OC1~C~~ 't:--"'0:0:0:~

~C"'i9'"9""f'"~t ~t.Ct tCtC<:t<><U a;atti~.&OO)f9"'fl"9aOO)t<JU ·t9
cc.a.a;.; :n ~ : ;c ~-:c:aa·: ro-: v. ;n 7~-:c; t : :-:;.;:e :~ ;-;q;.;,;;q;~-:o"·:•
~'lll>lW~~t?l~fO::C~C>:QO;<;;cn>:v.-,.;.o~;"~()t.?f
u:.;oo<>:c<:~>:q<:Qc:CK=;t<N"~c•:c:q~oc<;c~:.;~.t4c~cc~cq:CIQ~&tc•
te-;: :...eec""''"c ·~:-:-;•" a~>:-<•c~ •c~oe.t.;-:-t<;: ~CC'J<?CC9>:<r.' ...,.1'0:~

te,ot$ot~a·~~oeecatf$ett~a9ttene.ttU¡to: a~q~9aM~~
t~r.~r.c: :te ~: ::::-:~:u : e : :-::e :: ::: -n : e n e :e-:e:~• = ~= :c' tcc
Oltpl.tkKI'M! \f..t:.o: e ~ -s..,• "P"~bol:-• •••i:!.-) •1
~I(((IÓC ~
Figura 11 .54. Página pri ncipal de ExPASy Translate Tool

En este caso, los resultados son 6 tramas (tanto directas como inversas) de la
secuencia traducida que muestran Met (metonina), el codón de inicio y e l de parada
en negrita.
S')' Fi$tre 1
X XAS TGS 6top l l TNl PI S S.top LO! f SRV PRT HE T S.b:lp SV Stop l OHOOS KVANKASOt V 1 ATV LP
O $top A SN $topl l VVO S1op0WS TA$ KQ l GWCS SCC SCSR RP C $top S 1-- P Ft TR rl, CR ISA$ 1 1ST A R Stop R StiCip TG 1 RA $ RRR PPA T S
SSSPPRIPRAAT ~ lPTRrAPT$RSSTSPSGPASTRSACP ~p lASTSRPVAPTRR I STRAPPRSASCSAASSSSASSAPSlP
GTG Tl PRVISV PARRSSSR G G SC 1 S SSTLARR RPPWW CPS 1 ARTPASS S SRSHCSAPTRP SR R RCL SRH SA \V Stop lSC S
SPtl SPAG t N Stop SGSI FVP F F 1\ TSSV
S'3' FWI"$ 2
XX PlR O LOC $ top ll f l S4o¡>VHCK F S HVCHVR StopiiSKAK St(l90 TKPA SSSL l l SCliE E
VI S Y Stop Stopl l SNOVRlOSSWVGVR R A A.PAAG A RVN PSH RRO PSA O F l RR SCop PQQ I~GD O E RARVQAGVGR R RR VPLL t O OC
HGRRR•ROPtRLOI~HGARRRRVARROHARRVHEPRR I RARWHQP A ARPPARHRORHRAPRRAPRRHHRHPRHR•OVILOOG
PCAROVRHPfGAHALPVORWOOGGHHGGVLOOPEPRHRLRPAHIVRlOPAHPDAGACOGTPRGCWCS SlopAAOVOIHRRVLI
tiLO V¡: S Y RSS LAAA Y
S'l' Fta.rfl9 3
XX LYGVL lCA._D: :.-·"
ftJVLRYEQR
a·5· ~l'lltro '
VRCS S-top A.R TVR K YSOIN StopYPPVNl O L SS S TT PAS TRSALT S T GV G
. stoJ) YlF PVSRVP
Sto.pO StopRAOYIL Cl LL Cf AO O l VS r OAL YIQ E ll PCI DRAfRA Stop l l

Sto.p C O S-t op SAVKT P S-top R XX
3'5' Ftll.l'OO 2
YAAA S EE RYE ftT PA LIS TAA $top iWT StopAAOt HOHP RC VP ~op QAPA SCWAG WSAT liiStopAGR AA C R C SCC Stop AT PPWVIP
PSeOR S:opTC SA $topAPSC $topATSA RHCP PWS S Te SR e ll Ce ll Stop e ARCAR ACARC RPR WR AG CAAACWC HRAR SR RCSVJ
e
TRR AC $topRRAT ARA AA P S-top R'.V S ASGYIRS RR A PWQ S W R RRG lAR ARPTPACTRAR SPS PR StopGQRR RN PAE G P AA VIl Cl
TRAPAAGAARRTPTOll Stop$ RT PlliNY Stop Stop LI TSSIROOSSSOE lA GFVCYF All- Siop l Al E P Fl S.top GSTHASIVPSV H
lf Stop SCF Stop E Nl Ol TYA Kl SOO SR PR RG XX
l'S'F~'l
fll VAKfl 0 1 Kll PO Stot>l VPAG 1: r GLtOLNYT SIHAE:.Cl OKHR IHtOGRVGAt: OCf ROE 0 OAOVlAVE G H HHGG l RlANVEl E VH
EPPR00€ALAGT0HLGVYPVPGVEGA00ADE€LAAEH0A0LCCARY0YRRV0AfCREV0AVHCHA€RV0A0PLG0VELR0V
GAVR VG VH VAARGN LGGEE El VA GGR R RlARVPV HRHlAVE YSOA ¡;: ll ORV n VGGS O Stc.pHGR Ll O ~OHDE HOPSC F EAV L H
C Stop S T TSU Stopl L lOSGK TVAVTSWL AL fA f Ll C Stop S1op SS Stc.p l VIS Pl YRGAP Stc.p L
tGRl VSSOOPVEXXX
Figura 11 .55. Página de resultados de ExPASy Translate Tool
Generalmente, la región mejor traducida es el fragmento más largo. En este

caso, se corresponde con la siguiente secuencia escrita en sentido 5 '3' de la tercera
trama.
MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEF
LFSSKIATGGDVNANPNGSNVTELOVAEWPGVNTLGVSMNRVOFAPGGTNPPHVHPRATEV
GIVLRGELLVGIIGTLDTGNRYYSKVVRAGETFVIPRGLMHFQFNVGKTEATMVVSFNSQN
PGIVFVPLTLFGSNPPIPTPVLVKALRVDAGVVELLKSKFTGGY
Figura 11.56. Fragmento más largo
11 .6_2 Predicción de las propiedades físico-químicas
La estructura primaria de la proteina establece, entre otros aspectos, las

propiedades físico-quí mi cas de la misma. Para su estudio, utilizaremos la herramienta
ProtParam de ExPASy (http://expasy.orgl toofslprotparam.html).
240 BI OINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA
ProtParam de ExPASy permite calcular varios parámetros físicos y químicos

de una secuencia proteica dada, entre los que se encuentran el peso molecular, e l pi
teó rico, la composición de aminoácidos, la composición atómica, el coeficiente de
extinción, etc.
En la pantalla principal de ProtParam copiaremos la secuencia de

aminoácidos, aunque tamb ién es posible introducir e l accession de la proteína (por
ejemplo, P05 130) o e l identificador de la secuencia (por eje mplo, KPC 1_ DROME).
MCGGEVIPADMPAAPFTPRHGDGETWVDRKRRNKKKRKRGADEEWEAAFQEFMAADDDDDGGGLV
LSSKSLVLRSPGENDAGRGAAATMSMPLDPVTEEAEPAVAEKPRRRRPRRSYEYHGIRQRPWGRW
SSEIRDPVKGVRLWLGTFDTAVEAALAYDAEARRIHGWKARTNFPPADLSSPPPPPQPLCFLLND
NGLITIGEAPTDDAASTSTSTTEASGDARIQLECCSDDVMDSLLAGYDVASGDDIWTWTSGASST
SVNQEIKTPSIHQNISYAGARPMTCHFKNHKNTFVQMECSTMLNLLKGHKQ
Figura 11.57. Secuencia de aminoácidos de la prote fna P05130 de la mosca de la fruta
En el caso de indicar un accession, se muestra una pantalla intermedia previa

a la pantalla de resultados (ver Figura 11.58), en donde es posible seleccionar para el
análisis o bien la secuencia completa o b ien los dom inios funcionales que se hayan
encontrado.
ProtParam
'
ProtPuam
Stl~ of tndipQwltl on lllt Mq~~+n<;•
KI'Ct_OROME {J'OSt30)
P•Oiei11tniS".e C. tw~ l$0lYITle(EC H 11 13HPXC)(c.PKC$3f:(6R))

Ol'os,oplllil ~nogd,~et !Fflllll'f.l
Plc-o.:sc: ~1:-d ene oC :-.e f(ll(w.11'Q tcaNe:; u, dltl:llQ on o o.u of C'f'ICIOOIIt"... w tfle cCfl'p!,.(Qiwl MI be cameo oc.t 1or lile corre59QOO!no ~ucncc fra~rt. 6y óef~utlk
torrC~Iete ~ •:~ ~
N040: Of'tlle fe<aUI?SCOI~)()ndflOIO ~ Of*llee$11 Sres~ are~I'I(J'U!O
"" .....
-~
~:"1
......
:o-~4, .
.)S0·f0f
,...,""
,...),
... ,..,_c. .........
h:<ad&IU~ •
•o<Mt-·
""n o::t'~l 4-~ :r-H)

= n.M.H
'
H :w!.fllll ,
"'" ....
:x_r:.:u r:o= ::e¡ . ... :..:1
;.:
•:.-~04 ~~ ~"!>"'
'·
~
tr(ft.''13
!1·-~~"
~~·S<.4
litlo~~l -·· , ·d~'~'t-
A-"tf tiSY .lY>ll.fUYI • '·
Or 11ycu wi~ 10 1:íll!)('t a O:~o)fl ~ 11 ~m (M IOIQ(:I 5 arn no aac~ lOng) )OU ean 01\!olf 1n1t ~f'ld ~m~ M tr.- ~~ 111)('9 (!)y' O(ol'aul N- O)f'l'lpl.f:er.;otho, • El'>
C.ll'l'•od 01.1! tot mo cool)loto ~).
N !CtflliMI
~0111
Ths~ K.PCl_OROtAE ~m of619 twnno eo<l:~
' RESE 1 1! suom 1
Figura 11.58. Pantalla intermedia
Pinchando en Submit se muestra la página de resultados (ver Figura 11.59).

En la parte superior de la misma, ex iste un enlace con el texto de l identificador de
la proteína que lleva a la información sobre la misma almacenada en Un iprot (ver
Figura 11.60).
,_..ti:N,.C.tqo~I'IO.'"!"'' (EC:11 tl l ~fii(CI~f\.U

~~11'1\11"1
lhe c~~~C*'llt<I(IOJotltle~e~{m Wtn)kidl.)
... .. -·- .... ·-

··-···...·-._.......
.....-..... --·--
...........
- -..u
..,. -····~
-•~o-.uu-•
.__
-Ue•u-.
8 ··04-......... -··...._...... ... '""'---_...........

~·- · •-'~ ...
- -...,.,_,u-., · {;tN- 1
~ "" a
..... ... " ' ·" . ....
.
~ '" l•
"""" oC' 11 ' ' .....
~!~ ~:
),
< .l o
Figura 11.59. Parámetros ca lculados por ProtParam
Además del peso molecular o la composición atóm ica, los parámetros más
importantes son:
,.. Coefi c iente de extinción: muestra cuánta luz absorbe una proteína a una
cierta longitud de onda y resulta muy útil en los estudios de espectrometría.
ProtParam ofrece una estimación que, en todo caso, debe confirmarse
expe rimenta lmente.
,.. Inestabilidad: se trata de una estimación de la estab ilidad de la proteína.
Cuando el valor es de 40, la proteína suele ser estable. Cuanto mayor sea
e l valor, más inestable será.
,.. Vida media: es una predicción del tiempo que tarda la proteína completa
en desaparecer después de su sín tesis en la célula.
-·-
"""'·--~
---- .
P(KI)OQ(PCt_~.
...,.-.,Jotyt ltW
- · ...,
H9''
ft--.lnPic:oo:A.S.nPtol
.,.._._ O ""'"'Y
- IDiollf!PI'\ '
t•.,. l(--...s •·1 a-
:: ow-••• '*'-tr~ ~ -, 1 OK-• 1~ 1_.-....,.::u
l't.!l......_
·$-
--·-
aw.
p,_."·-
4
e. ............_
--.............
:.o--llof!t
- .....
Wft !IO)
~-
.,_,_ ""'
~-~
~--- ·· _
.... ..,.. ~ __,
"'""'"
t..._ ........ ~ •...._~ ........~ •..._ · t~·Oolo"• • li'o(IOI'I... •Iolfoc...... t....-..
~.o...... ~.
Figura 11.60. Información sobre la proteína en Uniprot

242 BI OINFORMÁTICA: El AONAUNSOLOCLIC ©RA-MA
11.7 PREDICCIÓN DE LA ESTRUCTURA SECUNDARIA
La estructura secundaria hace referenc ia al plegamiento de la cadena de

aminoác idos en el espacio y está formada por una estructura central y cadenas laterales
que se extienden en tres tipos de disposiciones diferentes: por fuera de la hélice (hélice
a lfa), en hoja plegada (p legam iento beta) o en giros beta (secuencias cortas que
imponen un grupo de 180 grados a la cadena principal). Inicialmente, se utilizaron
métodos totalmente empíricos que se basaban en el anális is de las estructuras conocidas
de algunas proteínas y a partir de los cuales se elaboraron unas tablas que indicaba n la
frecuencia re lativa con la que un cierto residuo de am inoácido se traduce en una hélice
a lfa, un p legam iento beta o un g iro beta (en la Bibliografía pueden encontrarse).
Si la proteína bajo estudio tiene un número suficientemente elevado

de homólogos, la predicción de la estructura secundaria tendrá una
fiabil idad estimada a lrededor de l 80%. Sin emba rgo, no hay que
L-~~J perder de vista que se trata de una predicción que habrá que
confinnar experimentalmente.
Una de las herramientas más exactas para predecir la estructura secundaria

de proteínas es PSTPRED (http://bioinj.'cs.ucl.ac. uklpsipredl).
La primera sección de configu ración de la búsqueda es el programa que se

desea ejecutar. Se dispone de una gran variedad de herramientas de las que hay que
e legir obligatoriamente una, siendo PSIPRED la seleccionada por defecto.
·-
·--
$it•~v~on
.-----·---·
--.
. . .__ -..•"\Otl-.·."---.
-""---ol----·--ot " " ""-·
- . .-,_.,__.
·--
The PSlPREO Protein Sequence Analysis Workbench
....-..-...
-
_,~ ~-· -·- -· -
ouno_. _ _ _ ,.IÑ_.,..,,_
,-__
.,. -~
..OIII..•.... -•-•...,--...,~Iil,._.., .....
o.~ ~ ,
..
~ ~-~
I M iiaHID 1 -
C,o..-~ ~f -.~-..ct.>f\ r._.._,_.,._ .. ~-··
,-~~ -~ 1011~-· ~-l-
__ _..."'-"'·•-Ocoo.d..o<.-
-....-
~
~-D•'U _ _ _)
r _ ...u«, (Jrooolio- •'"""-~
L .-f•U _ _ _.._,
r ..._ .._.~--·
c~01-·"---
.
--.
-.n.-·--··· -~"'-1
-~...
~--(-· -"-"""
-L ...........t,..-t~:.,.,_,._..,.. _..)
! ~4· ~--"0 ... _ ) "'-'--·-·-~-.--~
Figura 11.61. Página pri ncipal de PSI-PRED

En esta práctica trabajaremos con PSIPRED pero recomendamos

que se rep ita este análisis con otras herramientas distintas y se
comparen los resultados.
El paso siguiente es especificar la secuencia bajo estudio. Trabajaremos con

la siguiente secuencia proteica (ver Figura 11.62):
MEYGFKAAGLVFVVLLLQQA~VLIRATDAD~LQDFCVADLNSEVTVNGHACK~ASAAGDEFLFSS
KIATGGDVNAN~NGSNVTELDVAEW~GVN TLGVSMNRVDFA~GGTN~PHVHPRATEVG IVLRGEL
SN~P I ~TPVLVKALRVDAGVVELLKSKFTGGY
Una vez introducida la secuencia en el área de tex to Input Sequ ence y,

opcionalmente, completados los datos de correo electrónico para recibir los
res ultados en el buzón de entrada, estamos en condiciones de lanzar la predicción
pulsando el botón Predict.
2.1 PSI.Pfl! tl v.S..S t ~ ~!'Y s:t...a....-t) Zl o!se;~os a. o1se-:o~l CO-"'O'~r ?:-~>

..:J ~.,..u,:.cu <Profili &.a* '<'Id ~t«<IMJJR) .dNtJotSAT3 l. <>t! NS..'IT·SVH (Jtiorol)r~ • (; ~;., ~n)
.:J l!oo Setf v2 .O (~uto.oNo!d 1-lor~ Ho6d:l "'9) ~ Dcr•nl'o ed (Po-ole~" Oc...._. l'<e llo« - )
. ,ffiJI-ed v2,0 ( flol<,.<v«oc: f uno;bon ~n) ~ G.,onTHitfi.Of.'t ( R• PCt fcld ~~~ocn)
'D NtMf>ACI({SVM l'l'edlaon el lM T~ or<l noef;:.: F~) tJ itOoml"~Cil ( tQfd oo.r...c11 RecogMon)
D o.omsetf Vl.O ( '"*-...te:! Oon...... ~e-'-'51 by ~0.07)
!!("··
I nput Sequenc:e (Smqle !l.equconc:e or Mulbpltt Sttqucnc:e ohqnmt!nts; a!l u1w !l.equence or la'l>tn lorm.:~t}
MCV'Gtl<MGtVI'\I'JI.U~~AArc.:.oi'LqOfCVADV."Gt'ITVNGt1AO<PI&AAGOtru':l.:lKI
o\TGGCNN.:.,t~f<V"IUOYAi'IIPCv~t:tV'Of»>GT~9AA.TE\ICIVlRGtu.VG
! !CTlDT:;,.lt~M"R~\I'GICT~T~IWS •kSQ'IPC;~Tti'GStfU'I Irt
f'VlVK.At.i.VOI<GW t t.l.l($f(tTGGY
"'"'"
:! 'f(N wii!l tO ~t !Na Ct f'lieot fOil~· N iirC t0 r«r~t~ i tM fiSU '~r<oil.
subml<o.,lon Uet.:~tl.,
l'c o••
Sllor: ~U.or br ~.;~:0...

IPo-cu.Ww~ t ..;o~
l' t~...
Figura 11.63. Configuración de los parámetros de búsqueda

Aparecerá una pantalla intermedia (ver F igura 11.64) mientras se está

realizando el procesado de la información.
-
Srte N~vigot!on
Your PSIPRED server job has been submitted
V.. 101>•• n tho! Cl<lt!"' .....:Ho 1M...,......: Pr«~~--",P,'Idio> wM! tilol!r»IO- t42.a6n 4.0to(.a· l l!!.&..t'biH)016:ht105H
. .'.
F to,«lt
...-.......
...........
w.b ........
.........
(01'(~1
Gr-lntl~
Server Navlgatlon lli»fC:IP(~ t¡.loe acte.!61 30 t'!W'\ooC.~ ~~r~ u~~~,~.._ tlctl~~<t no t~e ¡ff~6~ OleM"e~
D$!OitfO,........- Y- •ri-'b..,. b., ro:t~ to 1M '"'W'I(k.l"' QO">t" 11>$ )OCJ 1¡¡;, ~~ JI tOU doM t:tl" ~ fl' d>QOo.., ~ ~iot., -~ •ov <.,... dlo:6: tt•"
~~~Ohell>
Sto'"o'(<' OvtNI~
,........,
P!O')"-• M hlt(>J/btf,J¡Id c.c..ucl~oo<~¡'f-.A¡7d3oi061:M·Oooói•ii-.1A7t&<OOI6,_ 1 10S'-l. Y'our ••••111• wtl b- ..,._o.csto ,ou~ lh-):t>luoo
Figura 11.64. Procesado del envío
Una vez ha final izado el análisis, se muestra la página de resultados (ver

Figura 11 .65), en la que se distinguen tres pestañas.
,_...
Slte N.evlg.etlon
..._ Sequence analysis results for job: Proteína_bajo_estudio
--·
Poo,ect,.
ID:7d 3a6724-0e64-11e4-97bb-00163e110593
V_. .
....~ $o:!rl.~~
DOoo.roloid$
e~
Gfouo IIO".n.:t
Server Navlgation
............
OSZPIII:EO Safv~ ... ....
.,,.., . , .. , , , ••• , .. . ,o• • •• • 9t .o.•" "
,, .. ~
-·
-.o.-
s......
s...-.... c.ul4tl
H.~Off
lloll.·....... Oooo;. . ..od
'" -• - ---
- -·
ID
a-............................................. 0 ""'
»>
Figura 11.65. Págína pri ncipal de resultados
En la primera pestaña, encontramos el resumen de l aná lisis de la secuencia

en donde se inclu ye n datos relativos a l envío del trabajo al servidor. Sin emba rgo,
la parte más interesante es la correspo ndien te a la estructura sec und aria (ver Figura
11.66).
©RA-MA Capítulo I L PRÁCTICA 4: ANÁliSIS DE PROTEIHAS 245
Sec:ondary Structu re M ~tp
~~~ro prcd ct}~ ~rQ ((liQur <odOó cnto thc :cqu.;rco ~(lQOI"CCu'9 to ~1\o ;cq~.ro"'CQ ftN.turc koy al\own ~I:IW.
~ .,,.
:o1 .,
11 11
Figura 11.66. Mapa de la estructu ra secundaria de la proteína
El mapa de estructu ra secu ndaria consiste en la secuencia de am inoácidos

introducida y formateada en disposición tabu lar, con un aminoácido en cada
elemento siguie ndo un código de colores que indica cuál es la posición que adopta
en el espacio.
En la segunda pesta ña, PSlPRED representa el mapa anterio r de una manera

más gráfica, aportando info rmación sob re la fia bilidad de la predicción realizada (ver
F igura 11.67):
.::~~. ...
... ... ...
___
----
: : .- ---
-
--- ·-·-----
-* -·':-·1! ___ .. _
Figura 11.67. Gráfico de resu ltados
Pinchando en la imagen reducida se m uestra la imagen completa (ver Figura

11.68). La línea de pred icción (Pred) co nsiste en una sucesión de H (hélices), E
(p legamiento beta) oC (giro beta) que indica n la d isposición espacial del residuo. Por
otra parte, la línea de fiab ilidad (Conf) indica el nive l de fiabilidad de la pred icción
para cada posición.
246 BIOINFORMÁTICA: El AON AUN SO LOCLIC © RA-MA
Conf : llllmmmlllllllllllllllllm~llllllllallllllf
Pred :
Pred : CCCCCHHHHHHHHHHHHHH HHHHHHCCCCCCCCEEEECCC
AA : l~EYGFKJU!.GLVFVVLLLQQAPVLIRATDADPLQDFCVAD L
1 1 1 1
10 20 30 40
Conf : Jlllllllllllllllllllll~~~llllllllllllllllf
Pred :
P red : ce ce ccccccc.c.cc cecee cccccccccc cccccccccc e
AA : NSEVTVNGHACKPASAAGDEFLFSSKIA7GGDVNANPNGS
1 1 1 1
so 60 iD 80
Conf : llllllallllllllllll ~•llllalllllllllllllllf

Pred :
Pred : EEEEEC.CCCCC.CCCCCCCEEEEEEECCCCCCCCCC.CCCCC
AA : NV7ELDVAEWPGVN TLGVSHNRVDF AP GG TNP PHVHPRA T
1 1 ' 1
90 lOO 110 120
Conf : ll lllllllllllllllml llllllllllllllllllllllf

Pre d :
~ >
Pred: EEEEEEEEEEEEEEEEECCC.CCEEEEECCCCCCEEEECCC
>
AA : EVGlVLRGELLVGII GTLDTGNRYYSKVVRAGETFVlPRG
1 1 1 1
130 140 150 160
Conf : ll l mecaalllllllllllm•IIIIIIIID•Imaallllll[
Pred :
Pred : CCCCCCCCCCCCEEEEEECCCCCCCCEECCCCCCCCCCCC
AA : IJ~HFQFNVG KTEATMIIVSFNSQNPGIVFVPLTLFGSNPP I
' • ' 1
no 180 190 200
Conf : Jllllllllllllllllllllllmllllf
Pr:ed :.f'-")_ _---'HEJ)====)- ) --
Pred : CHHHHHHHKCCCHH HHHHH HHHCCCCC
AA : PTPVLVK.~.LRVO ~.GVVELLKSKFTGGY
' '
210 220
Leqe-nd.1
u\.l_ ___,) - h e l .... Conf 1 L ~ 11 ( -

:J c:.onEid:nee of pr:e d i d:: i on
+
Pred1 predLc:.ted seeondory ~trueture
- coi l
Figura 11.68. Gráfico de resu ltados ampliado

Finalmente, es posible descargarse el informe completo en distintos formatos

a través de los enlaces que aparecen en la te rcera pestaña (ver Figura 11.69):
Sequence analysis results for job: Protefna_ bajo_ estudio

ID: 7d3a6724-0e64- 11e4-97bb-00163e110593
llnwnlo;u1 PVPryttun9
PSIPII.ED re;ultt: In pl;drt h t:xl (on~to.t

PSIPiltD r<lw <KOI'<K 111 pl.<llrl tUl r.;.nn<tt
P OIOlj;(rii)C v•r~>I01t o f !Jo~ PfiPII:fO dUig r <tm
POF ven;lon o f th• PSI"-EO dh1gr:o.m
Figura 11.69. Resumen de los resultados
11.8 PREDICCION DE LA ESTRUCTURA TERCIARIA
La estructura terc iaria es la estructura tridimensiona l de la cadena de

aminoácidos.
La herramienta Swiss Model es un software de mode lado auto mático de

estructuras homólogas de proteínas accesible en http://swissmodel.expasy.org/. En
la página principal de la herramienta (ver Figura 11.70), pulsamos el botón Start
Modelling:
li1! ~~ -
. -~--·- SWISS-MOOEL 11 , ., w' l><of"lllno 0<(> .,.., . n U t;l C • • ,., "'
Weleome to SWISS-MOOEL
$'\l$$.uoot'.t IJ • ..,l)~jii«MW''fiMII.tt~~~ ttens~~ ~~~~Y oott.~- Ot ten tht~t~t~Ot«f.•..,..
( $loi§.l PcD.~ lile pu"PQM! 01 ~ Mf'MIS 10 11W..t PfoWI Wllri!l.... -~ t!-SCIIe tQ .V OIOC~ W t'ltiii!C.UJ/1 ta::lgQS ~~
..,.,~ _,..~ 1)<01i!IW•Iu-'Mrv o~!\1~'-•I'Wr> .~.:. \11111':") W'o -~ f feo....-( ~~..,,~ OOfMJIII. ki.»AiotWI~II"O
~,.,.,~..u, "!\\J'-,. O<'Ori"""tr-. Kllolio:l Wlret' CI K!f'
"'- " $CNoe;eo.r• ~~ o~

(~f'ni'~~
SII.IMtnUMCI or&on !Ot!!'lolttl ' BIOZENTRUH

~ llWwMo'?J d. f!.WI
~m,_. sono l.k!l'<• \lt'l8- l
lb~ C....ltt ••• HllhMw l.n• SO-ent"
Ol..ct.e•w t h~~
~t."J$<11
Figura 11.70. Página principal de Swiss-Model

Aparece entonces una pantalla en la que es posible introducir la secuencia

correspondiente a la proteína bajo estudio. Trabajaremos con la siguiente (ver Figura
11.71):
MEYGFKAAGLVFVVLLLQQAPVLIRATDADPLQDFCVADLNSEVTVNGHACKPASAAGDEFLF$$
KIATGGDVNANPNGSNVTELDVAEWPGVNTLGVSMNRVDFAPGGTNPPHVHPRATEVGIVLRGEL
SNPPIPTPVLVKALRVDAGVVE LLKSKFTGGY
Figura 11.71. Proteína bajo estudio
En cuanto se pega la secuencia, la herramienta la valida y ya se está en

condiciones para construir el modelo pinchando en el botón Build Model.
Start a New Modelllng Project o

Tll:rget5eqvence- r ratqet;..•••••lillilillüilal~¡;¡¡j¡¡¡¡¡¡¡;¡;¡m¡¡¡¡;¡~~w¡¡¡;¡jj¡¡¡,¡¡¡¡¡¡¡¡¡¡¡¡¡¡g:¡r,a eo •
lR.'i l~IJ.A.MtAl 'Sl.Sll~lAKCetr! I:!ACVAA!'l" :r•''Jf'.. W.~':'AX ;..esL:O.:. M '..'\'\I'UPC2QSI..LC:::CI :'.!,.·;e¡( l(.O ~
t a!9 et. !lr.Q..-:.AAUI.ltm: I t rr-..AD'I nt':'~-~~ GGll!'PS'/"!:.1..';H 5$'11..5!'~~ ~CNTLLnrAGG !Q."VAS~t.T M 't~At-..13'itQ 2•o
Re-set Fonn
Pro;cc-t lllto vntl~<l ¡ ro.ect
Emall:
Search For Templates Build Model
Figura 11.72. Validación de la secuencia
Los resu ltados (ver Figu ra 11.73) muestran la predicción de la estructura

tridimensio nal de la proteína bajo estudio. Aparecen una lista de coincidencias
entre la proteína bajo estud io y las referencias guardadas en la base de datos Swiss-
Prot. Para cada coincidencia, se proporciona el modelo empleado en el cálculo, el
porcentaje de s imilitud con la proteína bajo estudio, los ligandos y una representación
30 de la estructura de la proteína que puede g irarse en e l espacio utilizando e l ratón.
©RA-MA Capitulo IL PRÁCTICA4: ANÁliSIS DE PROTEIHAS 249
e n· - P o a • • ,, .e • =
E! ~·~
. _::~- ·- SWISS-MOOEL
Model Results o
~ Sofol~l)e(-
~·A Zi41~ t;lilt'IQC:IIEUIII)Plo\IC(f!E_¡I:tPI,ASf.IICI:J;~I'Q01611 .,
--·
t.i'& on () ...
-
~"""......,_.,....
.ntiA 100~ l'VI((JIIICIIS"'~,.._~RI~~ >'
.
--
""""'-"' --
09$ 019 ~ ...
• ~ 1't1tllll .
X
Recientemente, se ha desarrollado un intento de abordar el problema

fraccionando e l proceso en pasos razonables. El ejemplo más representativo es
el programa LINUS (Local lndependently Nucleated Unils of Structure). Se trata
de encontrar las regiones con mayor probabilidad de presentar una es tructura
secuendaria determ inada y, a partir de ahí, averiguar cómo pueden plegarse juntas
para alcanzar una configuración de mínima energía.
11.9 PREDICCIÓN DE GENES CON GENSCAN
Como ya se ha visto a lo largo del libro, los avances tecno lógicos han
incrementado dramáticamente la ve locidad a la que se generan secuencias de ADN.
Sin emba rgo, la caracterización de dichas secuencias continúa siendo un proceso lento
e intensivo en recursos. A fottu nadamente existen herram ientas que faci litan el anális is.
En esta práctica uti lizaremos GENSCAN para predecir la localización de

genes en secuencias de ADN, si bien no hay que perder de vista que los resultados
arrojados por GENSCAN deben ser confirmados experimentalmente.
Siguiendo los ejemplos de las prácticas anteriores, encontraremos la secuencia

correspondiente al ADN del c loroplasto del maíz, cuyo accession es NC_ 001666.2.
Para ello, abra la página de l NCBT (sección Nucl eotides) y descargamos la secuencia
en formato FASTA (ver Figura 11 .74):
250 BIOINFORMÁTICA: El AONAUNSOLOCLIC © RA-MA
mm
'"''
Su«-~
e~• ,.,., " t!IOWn

Zea mays chloro plast., complete genome
NC& lt*tt:nle ~~= NC-_00100(;?
..,... """"'
)fU HOQ.<OUJr•tUIC W.,U,:J ka ....\' > . .tn~e>lnt. -~•:• OOII.-
cvs-vlew
t;.MJ..!MY::/:M':/4.":~rA.~4.llt«lXt ••ttli\Xl,~=.\f
.lo.l3:n.:ou~ .lo.ttt;,.t'll..l.Gfr.~nc:;ac.uewtJ.OOter;.,..,.,..·.,.,.ro
•~rr.t.e~Clml0orr.\O:tca.l~n~;.1t,.,.ru~A.nu
l'~C'T«Ga"A.l~~f~"*TTGIOM.~~$,oi,A,l«<!M'I:J.ef
.......,
&6JIYU lllh 'KQ~
........
;.;.z:.cn;.,u~~~:.a~==I)OC'( ~~c o..,.. ¡.,~;o¡or~~
n.r.'l'GII.UO~TAnCG.U7A.nu.~•· ·r~Gl.~ea uunr~n

~l~GA~mr.~a.~c:MTn~eoct!alll~
· .. .......... ~·""""""
F. . llil lh~s.o-·
c;t;r;a.c;·~tu.a.r~ua;c,.,a,ca:a::o:.v.r~~WJ.n;¡~
;..;.: :U:YJ.!l.:.•) = ,::-:.r. l :-':O::O:•:!>,:;\,"Z.lo.<:U:c.z-=:-:~¡;,,:..:;·· ' "'' :: .:•::1.

U~KtAl~«Tf~lt.Qir,lw..\.TW$')' '-'«'I.~XMC!~
.\OCiliJCU,I,.U.U~~ ~ • lteiiUO l"'Oftllltton
u.~o.:~~~.u:u-.~~t<:o:I.:X!f"'..J.':U~eJ.tt!r:".t.t.uee.t.n
"""'
r-..,"""""...
....
(.1.~~.\l~....a::Tt~t'f':lllor.Uol.UJOC:.UCO:t.lot~~n:»UtUT<I.-:)C ~
~1AA~.\Tllfm~a.u.r,,.,.,.~~~:a.~tt',t.I.U2CU...'"'r
~r~MLMI.r~rliQOO'~MOn~tt:~~r..M.~
~KU,I.TQT~:Tl't«Cllrt~':Tl.~T~~~!rt
lr.:':~~ ~ttr.:.r.<.l.t~..:.:AtCttaol'tt"..:.!':O:.:.tt~~
........
~· be.ll~---r(ool
-- .....
c~.:.:~.:.a.~~~ttN.::.;.:,~o~t-.n:~.uMG:.:MtCflU':.t
~~~~....u.ec¡.~~~U~...Io.'M'I'J.ee.UT~'M'tQ C.WI!I~ Gc~- s.-n
~:.lM:.:.o:~~-::-:e~:t~e:-:-r:~•r:::o::.::.:>l>:r.wc~
:co·•oooooM::r;l<JrcooJ.~.a.?.u.u.nttrcerTI)n.a.cur~«o:AA.:.
reG.~n~~.a.t~t.:.=a:.r.net"~
.v.mcarc.Mn~r.-cnMrr~~n~...._,.A.T~~
r~~:ct~nn,~on:nu.:.a.t~tc:r.rerU'l"n.a.t:.v.rrnctCtAAUo"n-""-n.a.
;.-:.~:~:u.::c.:-a:.na:'!'>~:J.t>'s..r;.l..a:•:>::..:.:.:~-, ·~,...
..c.:.=-::=~
""""
PW"'-d (1\'u:tC"'I
c;.r-~n=~re•• ,.,,., .._l('Tr~~:n.:.li,.I,U,lo.rre
"""'
Figura 11.74. Obte nción de la secuencia que se desea analizar
A continuación, abrimos la página principal de GEN SCAN (hup./lgenes.

mit.edu/GENSCA N. htmf) y pega mos la secuencia obte nida en e l área de texto
aco ndic ionada para e llo . También puede desca rgarse la secuencia en el paso anterior
y adj unta r el fichero a GENSCAN .
Figura 11 .75. Página pri ncipal de GENSCAN

En el campo organismo (orga nism) seleccionamos M aize. Por otra parte, en

las opciones de impresión indicamos Predicted P eptides Only (visualiza solamente
las secuencias predecirlas que codifican péptidos) en luga r de Predicted C DS a nd
Pep tides (muestra tanto los péptidos como las secuencias codificantes) y pulsamos
el botón Run GENSCAN.
Figura 11 .76. Pegado de la secuencia bajo estudio
El resultado es una tabla con información muy detallada de cada gen. En

la secuencia bajo estudio existen 12 genes, corno se deduce de la columna Gn. Es
posible averiguar el número de exones de cada gen estudiando la columna Ex. Por
ejemplo, el primer gen tiene 3 exones.
Las columnas más importantes de la tabla de resultados, sin embargo, son

Typ e y P . La columna Type dice si la predicción es un exón inicial (Init), interno
(In tr ), terminal (Term), un gen de un único exón (Sn gl), una regió n promotora
(Prom) o una señal PolyA (Pi yA). Por su parte, la columna P indica la probabilidad
de que la predicción sea correcta.
View gene model output : PS 1 PDF

GENSCAN 1 . 0 Date run : 3- Jun - 114 Time : 13 : 05 : 06
Sequence /tmp/06_ 03_1 4-1 3 : 05 : 04 . fasta : 140423 bp : 38 . 46% C+G

Isochore 1 ( O - 100 C+G%)
Parameter matrix : Maize . smat
252 BIOINFORMÁTICA: El AONAUNSOLO CLIC © RA-MA
Predicted genes/e xons :

Gn . Ex Type S . Begin ... End . Len Fr Ph I/Ac Do/T CodRg P .... Tscr ..
1 . 01 Init + 1032 1070 39 2 o 110 97 -20 0 . 601 3 . 83

1 . 02 Terrn + 7389 7412 24 2 o 84 35 21 0 . 091 - 2 . 96
1 . 03 PlyA + 7562 7567 6 2 . 27
2 . 00 Prorn + 13956 13995 40 3 . 62
2 . 01 Init + 14148 14153 6 2 o 68 52 10 0 . 727 -2 . 01
2 . 02 Terrn + 14443 14448 6 o o 112 45 o 0 . 690 -1 . 72
2 . 03 PlyA + 14971 14976 6 2 . 27
3 . 03 PlyA - 15641 15636 6 2 . 27
3 . 02 Terrn - 17123 17111 13 1 1 79 45 18 0 . 275 - 3 . 37
3 . 01 Init - 20228 20218 11 2 2 126 79 21 0 . 942 6 . 41
3 . 00 Prorn - 21496 2 1 457 40 2 . 72
4 . 03 PlyA- 22600 22595 6 2 . 27
4 . 02 Terrn- 22893 22883 1 1 1 2 107 35 1 0 . 175 -2 . 60
4 . 01 Init - 28158 28152 7 o 1 86 87 7 0 . 941 3 . 36
4 . 00 Prorn- 31602 31563 40 4 . 52
5 . 00 Prom + 33254 33293 40 3 . 82
5 . 01 Init + 34420 34558 139 o 1 27 93 90 0 . 854 6 . 30
5 . 02 Terrn + 38378 38385 8 o 2 95 35 o 0 . 098 -4 . 25
5 . 03 PlyA + 39066 3907 1 6 2 . 27
6 . 00 Prorn + 39204 39243 40 3 . 42
6 . 01 Init + 43422 4348 1 60 2 o 8 1 52 10 0 . 349 - 1 . 04
6 . 02 Terrn + 44628 44642 15 2 o 101 46 17 0 . 266 -0 . 60
6 . 03 PlyA + 45483 45488 6 2 . 27
7 . 00 Prorn + 51967 52006 40 2 . 82
7 . 01 Init + 52961 52976 16 1 1 48 110 -11 0 . 255 -0 . 01
7 . 02 Terrn + 61179 61 189 1 1 1 2 89 45 7 0 . 046 - 2 . 80
7 . 03 PlyA + 61950 61955 6 2 . 27
8 . 00 Prorn + 67861 67900 40 3 . 32
8 . 01 Init + 71022 71036 15 2 o 35 85 11 0 . 187 - 1 . 89
8 . 02 Terrn + 81950 81979 30 1 o 79 45 86 0 . 833 3 . 71
8 . 03 PlyA + 82024 82029 6 2 . 27
9 . 00 Prorn + 85902 85941 40 2 . 22
9 . 01 Init + 96350 96417 68 1 2 57 84 58 0 . 053 3 . 70
9 . 02 I n tr + 98503 98533 3 1 1 1 91 72 41 0 . 140 3 . 26
9 . 03 Intr + 101029 101141 113 O 2 4 114 130 0 . 821 9 . 20
9 . 04 Terrn + 102018 1 02087 70 O 1 - 2 46 98 0 . 274 - 3 . 29
9 . 05 PlyA + 104506 104511 6 2 . 27
10 . 00 Prorn + 106533 1 06572 40 l . 42
10 . 01 Init + 111219 111228 10 2 1 68 106 - 5 0 . 549 2 . 33
10 . 02 Terrn + 116631 116668 38 1 2 71 35 27 0 . 294 -4 . 30
10 . 03 PlyA + 117050 1 17055 6 2 . 27
11 . 05 PlyA- 117698 117693 6 2 . 27
11 . 04 Ter m- 120797 120728 70 1 1 -2 46 98 0 . 287 -3 . 29

11 . 03 Intr - 121786 121674 113 1 2 4 114 130 0 . 821 9 . 20
11.02 Intr - 124312 124282 31 o 1 91 72 41 o. 140 3 . 26
11.01 Init: - 126465 126398 68 o 2 57 84 58 0 . 053 3 . 70
11.00 Pro m - 132010 131971 40 o. 62
12 . 00 Pro m + 135899 135938 40 3 . 92
12 . 01 Init + 138648 138650 3 2 o 80 81 o 0 . 148 0 . 76
Suboptimal exons with probability > 1 . 000
Exnum Type S . Begin ... End . Len Fr Ph B/Ac Do/T CodRg p .... Tscr ..
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
NO EXONS FOUND AT GIVEN PROBABILITY CUTOFF
Predicted peptide sequence(s) :
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_l120_aa
MKAIINTEVAVNKRLFGKLL
>/tmp/06_03_14-l3 : 05 : 04 . fasta1GENSCAN_predicted_peptide_213_aa
MAN
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_317_aa
MAKWAVL
MTDIS
MNPLIAAASVIAAGLAVGLASIGPGVGQGTAAGQAVEGIARQPEAEEK
MSTKDFSGDLLQITGMTIEIKNEA
MKFKSVFL
>/tmp/06_03_14-13 : 05 : 04 . fastaiGENSCAN_predicted_peptide_8114_aa
MKVWQNNYVLELEV
MPLMPWATHVLQWAGQRVAISRGNYEITPRTPSCRKVKEVGELMTGKPATEAPVNGGRNY
NGPKVAKFLVGRDSDGFSTHTGMERQKYGNRIR
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_l0115_aa
MDKREKTIISYQIN$
>/tmp/06_03_14-l3 : 05 : 04 . fasta1GENSCAN_predicted_peptide_l1193_aa
MPLMPWATHVLQWAGQRVAISRGNYEITPRTPSCRKVKEVGELMTGKPATEAPVNGGRNY
NGPKVAKFLVGRDSDGFSTHTGMERQKYGNRIR
>/tmp/06_03_14-13 : 05 : 04 . fasta1GENSCAN_predicted_peptide_121l_aa
M
Figura 11.77. Resultados de GENSCAN

BIBLIOGRAFÍA
ALTSCHUL, S . F.; MADDEN, T. L.; SCHÁFFER, A . A .; ZHANG, J.; ZHANG,

Z .; MILLER, W. y LIPMAN, D. J.; Gapped BLAST and PSI-BLAST: a new
generation of protein database search programs, Nucleic Acids Res. 25 :3389-
3402, 1997.
BAILE Y, T. L.; BODÉN , M.; BUSKE, F.A.;FRITH, M.; GRANT, C. E.; C L EMENTI,
L. ; REN, J.; Ll, W. W. y NOBLE, W. S.; MEME SUITE: toolsfor mot({discovety
and searching, Nucle ic Acids Research, 37 :W202-W208, 2009.
BATLEY, T. L. y ELKAN, C .; Fitting a mixture model by expectation maximiza/ion

to discover motifs in biopolymers, Proceedings of the Second Jnternationa l
Conference on Intelligent Systems for Molecular Biology Menlo Park, California,
AAAI Press, pp. 28-36, 1994.
BAILE Y, T. L. y GRIBSKOY, M .; "Comb ining evidence using p-val ues: application

to sequence homo logy sea rches", Bíoinformatics, 14( 1):48-54, 1998.
BATNS, W.; Ingeniería Genética para todos, Ed. A lianza Ed itorial, 1994.
BAXEVANIS, A. D. y OUELLETTE, B. F. F.; Bioit!{ormatics. A Practica/ Guide to

the Analysis ojGenes and Proteins, Ed. W iley & Sons, 200 l.
BESEMER, J.; LOMSADZE, A . y BORODOVSKY, M .; GeneMarkS: a se(f-

training methodfor prediction ofgene starts in microbial genomes. lmplications
for jinding sequen ce motif~ in regulatoty regions, Nucleic Ac ids Research 29:
2607-2618, 200 l.
BIRNEY, E. y CLAMP, M.; Biological database design and implem.entation, (En)

Briefings in Bioinformatics, vol. 5, n.• 1, pp. 31-38, 2004.
BURGE, C. y KARLTN, S.; Prediction of complete gene structures in human

genomic DNA, J. Mol. Biol. 268, 78-94, 1997.
CELMA GIMÉNEZ, M.; CASAMAYOR RÓDENAS, J. C. y MOTA HERRANZ,

L. ; Bases de datos relacionales, Pearson, Prentice Hall, 2003.
CLAMP, M.; CUFF, J.; SEARLE, S. M. y BARTON, G. J.; "The Jalview Java
alignment editor", Bioinformcuics, 20:426-427, 2004.
CLAYERIE, J. M. y NOTREDAME, C.; Bioinformatics for Dummies, Ed. Wiley

Publishing, 2007.
CONNOLLY, T. y BEGG, C.; Database Systems. A Praclical Approach to Design,

Jmplementation, and Management, 3 ."Edición, Addison-Wesley, 2002.
COORAY, M. P. N. S.; "Molecular biological databases: evolutionaty history, data

modeling, implementatio n and ethical background", Sri Lanka Journal of Bio-
Medical informatics , 20 12;3(1 ):2- 11.
DATE, C. J.; Introducción a los sistemas de bases de datos, 7." Edición, Prentice
Hall, 200 l .
FINN, R. D.; BATEMAN, A.; CLEMENTS, J.; COGGILL, P.; EBERHARDT, R.

Y.; EDDY, S. R. ; HEGER, A.; HETHERINGTON, K.; HOLM, L.; MISTRY, J.;
SONNHAMMER, E. L. L.; TATE, J.; PUNTA, M.; The Pfam proteinfamilies
data base, Nucleic Acids Research, Data base Issue 42: D222-D230, 2014.
GASTEIGER, E.; HOOGLAND, C.; GATTTKER, A.; DUVAUD, S.; WTLKTNS, M.

R.; APPEL, R. D. y BAIROCH, A.; "Protein Identification and Analysis Tools
on the ExPASy Server", (In) John M. Walker (ed): The Proteomics Protoco/s
Handbook, Humana Press, pp. 57 1-607, 2005.
LEE, M. M.; CHAN, M. y BUNDSCHUH, R.; "Simple is beautiful: a stra ightforwa rd

approach to improve the delineation of true and false positives in PST-BLAST
searches", Bioil!formalics, n.• 24, pp. 1339-1 343, 2008.
LUSCOMBE, N. M.; GREEBAUM, D. y GERSTETN, M.; "What is bioinformatics?

And introduction and overview", Yearbook ofMedical lnformatics, 200 l.
MATHEWS, C. K., VAN HOLDE, K. E y AHERN, K.G."Bioquímica". Ed.Addisson-

Wesley, 2005.
MORGULIS, A.; COULOURIS, G.; RAYTSELIS, Y.; MADDEN, T. L.;

AGARWALA, R. y SCHÁ.FFER, A. A.; "Database Jndexing for Production
MegaBLAST Searches", Bioinformatics, 24: 1757-1764, 2008.
©RA-MA BIBLIOGRAFIA 257
NAKAT, K. y HORTON, P.; PSORT: a program for detecting the sorting signals
of proteins and predicting their subce/lular localization, Trends Biochem. Sci,
24(1) 34-35, 1999.
NELSON, M. R.; REISING ER, S. J. y HENRY, S. G.; "Designing databases to store

biological information", Biolsilico, vol. 1, n.0 4, pp. 134-142, 2003 .
PABINGET et al.; "A su rvey of tools for variant ana lys is of next-generation geno me
sequencing data", Briefings in Bioinjormatics, vol. 15, 11.0 2, pp. 256-278,20 13.
PAVLOPOULOS et al.; Unraveling genomic variation .from text genera/ion

sequencing data, BioData M ining, 20 13 .
PRIMROSE, S. B. y TWYMAN, R. M.; Principies of Genome Analysis and

Genomics, Ed. B lackwell Science, 2003 .
ROBINSON, T. R.; Geneticsfor Dummies, Ed. Wi ley Publishing, 201 O.
ROLDÁN MARTÍNEZ, D .; PASTOR LÓPEZ, O. y VALDERAS ARANDA, P. J.;

Aplicaciones web. Un e1!(oque aplicado, Ed. RA -MA, 2009.
ROLDÁN MARTÍNEZ, D. y VALDERAS A RANDA, P. J.; Domine O rae/e 11 g, Ed.

RA-MA, 20 13.
ROLDÁN MARTÍNEZ, D.; VALDERAS ARANDA, P. J. y MARTÍNEZ GÓMEZ,

E. J.; Introducción a Oracle, Ed. StarBook, 201 O.
SCHATTNER, P.; Genomes, Browsers and Dawbases, Ed. Cambridge University

Press, 2008.
THOMPSON, J. D.; MULLER, A.; WATERHOUSE, A.; PROCTER J.; BARTON ,

G. J. et al.; "MACSIMS : multiple alignment of complete seque nces information
management system", BMC Bioi,~formatics, 7 :3 18, 2006.
TROSHIN, P. V.; PROCTER, J. B . y BARTON, G . J.; "Java bioinformat ics analysis

web services for multip le sequence alignment--JABAWS :MSA", Bioinformatics,
27:2001 -2002, 20 11.
WATERHOUSE, A. M.; PROCTER, J. B.; MARTIN, D . M. A.; CLAMP, M. y

BARTON, G. J.; Jalview "Vers ion 2-a multiple sequence alignment editor and
analys is wo rkbench", Bioinjormatics, 25 :11 89-1 19 1, 2009.
ZHANG, Z.; SCHWARTZ, S.; WAGNER, L. y M ILLER, W.; A greedy algorithm

.for aligning DNA sequences, J Comput Biol, 7( 1-2):203- 14, 2000
ÍNDICE ALFABÉTICO
A 82, 84, 87, 89, 9 1, 93, 94, 95,96,
Ácido nucl eico, 25 97, 102, 109, 118, 11 9, 120, 129,
Adenina, 24 139, 150, 156, 160, 16 1, 163, 164,
ADN, 22, 23, 24, 25, 26, 27, 28, 29, 165, 166, 18 1, 201 , 202, 203 , 204,
54, 73, 75,79, 82,90,9 1,92,95, 205,206, 21 1,2 17,2 18, 219, 220,
97, 98, 101 , 102, 103, 11 3, 11 4, 221 ,235, 237,248
115, 116, 117, 119, 132, 135, 137, Bases de datos genómicas, 16, 5 1,
139, 140, 160, 185, 195, 196, 197, 54, 55, 57,58,73,90,125
2 15, 231, 237,249 BED,3 1,48,49
A lineamiento de pares, 11 7, 118, Bioinformática, 15, 16, 17, 32, 97,
119' 160, 185 167
A lineamiento global, 116, 185 Biología molecular, 16, 27, 113, 215
A lineamiento local, 11 6 Biosín tesis, 2 1
Alineamiento múltiple, 94, 117, 119, Biotecnología, 16
120, 166, 174, 185, 190, 193 BLAST, 94, 11 8, 119, 160, 16 1, 162,
Aminoácidos, 26 163, 164, 179, 180, 18 1, 182, 198,
Aná lisis de secuencias, 82, 11 3, 122 201,202,203,217, 255,256
Anotac ión, 11 , 31 , 35, 63, 83, 126,
127, 205 e
ARN, 19, 20, 2 1, 24, 25, 26, 27, 28, Citosina, 32 ,185, 186, 187, 188
56, 73, 74, 82, 92, 116, 132, 144, Clustal, 120
169' 177' 196 Códi go genético, 25, 26, 102
Codón, 26, 42, 102, 114, 124, 150,
B 154,239
BAM, 3 1, 36, 38, 40 Co nsenso, 94, 117, 178
Base de datos, 53, 54, 56, 57, 58, 59, Cromosoma, 22, 23, 43, 44, 45,
60, 61 , 62, 65, 67,74 , 75, 78, 79, 48,54, 11 o, 122, 123, 124
D J
Datos biológicos, 15, 53, 57, 126 Ja lview, 11, 167, 168, 174, 176, 177,
178, 191,255, 257
E
EMBL, 41 , 42, 55, 75, 9 1, 94 M
En trez, 53, 55, 98, 106,108, 109 Matriz de sustitución, 12 1, 193
Estructura primaria, 197, 209, 237, Modelado,56,57,59, 113,1 15, 119,
239 123, 197' 198, 216, 247
Estructura secundaria, 89, 197, 221, Motivos funci onales, 185, 20 1
242, 244, 245
Estructura te rc iaria, 197, 212, 247 N
Eucariotas, 20, 22, 23, 27, 29, 51 , 82, NCBI, 44, 51 , 53, 74, 75, 80, 82, 83,
103, 113 9 1, 92, 95, 98, 99, 103, 11 0 129,
150, 159, 16 1,202, 249
F
FASTA, 31 , 34, 35, 82, 99, 100, 130,
157, 16 1, 167, 180, 186, 187, 192,
o
ORF, 114, 11 9, 150, 151 , 152, 153,
2 17,228, 249
154, 159
FASTAQ, 3 1, 35
Fenotipo, 22, 95, 96, 122 p
Fi1ogenia, 185, 189
PDB, 55, 76, 82, 84, 85, 86, 87, 88,
89, 104, 2 17, 2 19
G
Procari otas, 20, 22, 27, 29, 51 , 97,
GenBank, 51 , 52, 55, 60,73,74, 75,
102, 114, 2 14
78, 80, 8 1, 82, 83, 9 1, 92, 93, 97,
Promotor, 102
99, 100, 101, 102, 103, 106, 107,
109, 150, 153, 154, 156, 157, 182 Proteoma, 214
Genética, 19, 90, 255
Ge noti po, 44 R
GFF, 31 , 4 1 Replicación, 28
GFF3, 3 1, 41 , 42, 43
Gráfico de puntos, 117, 118, 139, S
141 , 142, 143, 144 SAM, 3 1, 36, 37, 38, 39
Guani na, 32 Secuenciación, 31 , 35, 36, 37, 51, 55,
GVF, 31 , 43, 44, 45 96, 11 3, 114, 11 5, 11 6, 126, 129
Secuencia de bases, 24, 82, 152
1 Secuencia de nu cleótidos, 28, 32, 75,
Informació n biológica, 15, 53, 56, 80, 97, 101, 109, 11 9, 140, 155,
59, 75, 79, 8 1, 126 158, 160, 186
Ingeniería biomédica, 16 Secuencia proteica, 113, 119, 166,
Integración, 11, 60, 61 , 62 208, 2 16, 228, 237, 240, 243
©RA-MA [NO ICE ALFABÉTICO 261
T V
Traducción, 33, 75, 107, 124, 15 1, Variación, 43, 44, 45, 46, 48, 65, 96,
237, 238 106, 107, 122, 124, 125
VCF, 31, 45, 46, 47
u
UniProt, 55, 84, 2 15 X
Urac ilo, 24 XML, 59, 67, 68, 70

Bioinformatica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioinformatica PDF

Cargado por

Copyright:

Formatos disponibles

Bioinformática

El ADN a un solo clic

David Roldán Martínez

Bioin formát ica El ADN a un solo cl ic

© De la Edición Original en papel publ icada por Editoria l RA-MA

Maquetación y diseño portada: Antonio Garcia Tomé

E-Book desarrollado en España en Octubre de 20 15

CAPÍTULO 2. F UN DAMENTOS BIO LÓG ICOS .......................................................... 19

2.5 REGU LAC IÓN GÉNI CA .................................................................................... 29

3.7 VCF ...................................................................................................................... 45

CAPITULO 4. BASES DE DATOS GENÓMICAS ......................................................... SI

5.1 DISEÑO RELACIONAL .................................................................................... 63

CA PITULO 11. PRACTI CA 4: ANA LIS IS D E PRO T E INA$ ..................................... 201

11 .2.1 Búsqueda de dominios con EB I-Intcrpro ............................................. 208

Ha contri buido activamente en comunidades open source co mo Sakai

Además, ha sido profesor del Departamento de Comunicaciones de la

No me olvida ré tampoco de Óscar Pastor, Ana Cidad y Mercedes Fernández

También me gustaría una mención especial a Luis Ruano, mi profesor de

No me dejaré a Diana, Mar, Richard, María José, Jacobo, Juan Vicente,

Durante e l siglo pasado y a principios de este, asistimos a la revolución de

Por otra parte, e l creciente vol umen de información heterogénea en origen y

Desde estas líneas aprovecho la oportunidad pa ra da rle mi más sincera

Óscar Pastor López

La información biológica se produce a un ritmo fenomenal , hasta tal pun to

En prim er lugar, la Bioinfo rmática se encarga de la orga ni zación de la

El segundo objetivo es proporcionar a los usuarios las herram ientas y

Este libro aborda el estudio de la Bioinformática centrándose, precisamente,

1.1 AQUIÉN VA DESTINADO ESTE LIBRO

El libro está orientado tanto a informáticos, como a biólogos y estudiantes

Si e l lector es un usuario con amplia experiencia en Bioinfonnática, se verá

1.2 ESTRUCTURA DE ESTE LIBRO

El uso de la Bioin formática en la Biología Mo lecular se ha visto ace lerado

Los 11 capítulos de este libro pretenden que el lector adquiera los

Co mo ya se ha comentado, en cada capítulo de este libro se destacan algunos

Aspecto que hay que tener en cuenta

Ejemplo o punto teórico desarrollado en prácticas

La Genética, en su más amplio sentido, es la rama de la c iencia encargada

Ya en la época moderna se estableció la Genética Molecular, encargada del

Finalmente, encontramos la Genética Cuantitativa. Se trata de un campo

Este capítulo introduce, muy brevemente, los fundamentos

2.1 FISIOLOGÍA CELULAR

A la hora de c lasificar las células, existen orga nismos unicelulares y

Desde el punto de vista un icelular, podemos distinguir entre:

,.. Células procariotas: carecen de núcleo y otros orgánulos (vacuolas y

,.. Células eucariotas: se caracterizan porque tienen un núcleo en e l que

,.. Virus y orga nismos subvirásicos: estrictamente hablando, no son seres

No obstante, en la naturaleza resulta muy común encontrar agrupaciones de

La célula tiene un alto nivel de organización sorprendentemente complejo.

Estructura Descripción Función

Retículo Biosíntesis de proteínas

Tabla 2.1. Estructura de la célula eucariota

2.2 MORFOLOG(A DEL CROMOSOMA

Los cromosomas son pequeños bastones en que organiza la cromatina del

El ADN que contiene los genes de la célula se encuentra en los

El número de cromosomas es ca racterístico de cada especie (ver Tabla 2.2).

Especie Número cromosómico

Tabla 2.2. Número de cromosomas de algunas especies

Figura 2.1. Morfología básica de un cromosoma eucariota

Los cromosomas son los portadores de los genes y cada cromosoma

Por otra parte, en el cromosoma, además de ADN existen e lementos

En el ADN de un cromosoma podemos encontrar genes, reguladores

2.3 ÁCIDOS NUCLEICOS

Los ácidos nucleicos deben su importancia a que intervienen en el manejo

! ' ' * ( ( ( (* +) ) %%%++ ) (%%%% ) . 1-+' ' )) **55CCF>>>»>CCCCCCC65