Guion Curso APLICACIÓN DE HERRAMIENTAS BIOINFORMÁTICAS EN EL ESTUDIO DE LAS ENFERMEDADES GENÉTICAS HUMANAS

Curso Mitolab-Ciberer 09
APLICACIN DE HERRAMIENTAS
BIOINFORMTICAS EN EL ESTUDIO DE LAS
ENFERMEDADES GENTICAS HUMANAS
INTRODUCCIN
Tradicionalmente, la investigacin en Biologa Molecular se ha realizado en el
laboratorio experimental, pero la inmensa cantidad de datos generados en los ltimos
aos con la conclusin del Proyecto Genoma Humano y desarrollo subsiguiente de
otros grandes proyectos de genotipado (HapMap Project, 1000 Genomes Project)
destinados a explorar la relacin entre variantes genticas y la predisposicin a las
enfermedades, diagnstico y respuesta a los frmacos, requiere el desarrollo de
herramientas computacionales que permitan extraer toda la informacin contenida en
las bases de datos para generar nuevo conocimiento. Conjuntamente los continuos
avances tecnolgicos en la Biologa Molecular, unidos al desarrollo informtico, han
aumentado las posibilidades de conocer el funcionamiento de los seres vivos a nivel
molecular y celular. Es necesario unificar toda esta informacin para alcanzar un
cuadro completo de la biologa de la clula para comprender cmo se alteran distintos
procesos en distintas enfermedades. Por eso, hoy en da es difcil entender la
investigacin en el rea de las enfermedades genticas humanas sin la Bioinformtica.
Segn la definicin del National Center for Biotechnology Information (NCBI) la
Bioinformtica es la disciplina cientfica que combina biologa, computacin y
tecnologas de la informacin. El objetivo de esta disciplina es investigar y desarrollar
herramientas tiles para llegar a entender el flujo de informacin. Inicialmente, la
bioinformtica se ocupaba sobre todo de la creacin de bases de datos de informacin
biolgica, especialmente secuencias, y del desarrollo de herramientas para la
utilizacin y anlisis de los datos contenidos en esas bases de datos. La
Bioinformtica ha ido evolucionando para ocuparse cada vez con mayor profundidad
del anlisis e interpretacin de los distintos tipos de datos (secuencias de genomas,
proteomas, dominios y estructuras de protenas, etc).
Para qu se utilizan las bases de datos? Las bases de datos utilizadas en
biologa molecular son archivos de datos que provienen de diferentes reas
almacenados de modo eficaz y uniforme y de uso pblico para la comunidad cientfica.
Hay que tener en cuenta los siguientes aspectos:
-
Los proveedores de recursos: centros u organizaciones especializadas en

tener y mantener las bases de datos.
Las bases de datos: hay mucha variedad.
Las herramientas para estudiar y analizar toda la informacin contenida en las

bases de datos y as poder extraer conocimiento en sentido biolgico a partir
de ellas.
Existen bases de datos primarias que contienen secuencias de DNA y de

protenas, estructuras de protenas y perfiles de expresin de genes y protenas. Cada
registro de estas bases de datos contiene una secuencia y su correspondiente
"anotacin" (comentarios que incluyen informacin acerca de esa secuencia,
habitualmente hechos de modo manual por algn anotador).
Las bases de datos secundarias archivan los datos que son fruto del anlisis de
las bases de datos primarias, tales como familias de protenas, motivos o dominios
proteicos, familias de genes, mutaciones, polimorfismos, implicacin en enfermedades,

etc.
Existen cientos de bases de datos, por el tipo de informacin se pueden distinguir:
bibliogrficas, taxonmicas, de nucletidos, genmicas, de protenas, de microarrays y
otras.
Un catlogo completo de todas las Bases de Datos disponibles aparece todos los
aos en la revista Nucleic Acids Research. El artculo del 2008 lo podis conseguir en
http://nar.oxfordjournals.org/cgi/content/full/36/suppl_1/D2
En este curso nos centraremos en las bases de datos bibliogrficas, de nucletidos,
genmicas, de protenas y clnico-genticas principalmente.
BASES DE DATOS
1. BASES DE DATOS BIBLIOGRFICAS

Organizacin de los artculos publicados en la revistas de mbito cientfico.
Pubmed (NCBI): http://www.ncbi.nlm.nih.gov/pubmed/
Medline: Hay que estar suscrito. http://medline.cos.com/
2. BASES DE DATOS DE NUCLETIDOS

Las bases de datos de secuencias de nucletidos son muy importantes para la
biologa. Para asegurar la disponibilidad de las secuencias al pblico general, ninguna
revista cientfica puede publicar un artculo describiendo una secuencia de nucletidos
o proteica si no ha sido depositada en una de las 3 principales bases de datos
internacionales.
Existe una colaboracin internacional entre las 3 principales bases de datos de
nucletidos: EMBL-Bank en el EBI, DDBJ (DNA Data Bank of Japan) en el CIB/NIG y
GenBank en el NCBI. Estas bases de datos intentan alojar todas las secuencias de
nucletidos que son de dominio pblico. Estn divididas en varias secciones que
reflejan grupos taxonmicos, adems de otros grupos tales como secuencias EST
(expressed sequence tag), patentes, secuencias HTGs (high-through-put genomic
sequences), etc. En estas bases de datos prima la cantidad sobre la calidad, en el
sentido de que contienen todo lo que los investigadores depositan en ellas, y son
bastante heterogneas en cuanto al tipo de secuencias, su calidad, su anotacin, etc.
Por este motivo son tambin redundantes, ya que la misma secuencia puede
encontrarse repetida en distintos registros procedentes de distintos autores. Estas
bases de datos son accesibles gratuitamente por Internet y se sincronizan entre ellas
cada 24 horas, por lo que contienen exactamente la misma informacin.
Cada entrada en estas bases de datos es un registro que debe tener un
identificador nico, formado por letras y/o nmeros, que se denomina "nmero de
acceso" (accession number) y es estable (nunca cambiar en sucesivas versiones de
ese registro). Por tanto, otro identificador indicar las sucesivas versiones de cada
acceso, por lo que es importante conocer ambos. En febrero de 1999, el consorcio
GenBank/Embl/DDBJ acord un formato de versin consistente en el nmero de

acceso seguido de un punto y un nmero. Adems, GenBank incluye el indicador "GI".
Bsquedas en EMBL: Constituye el repositorio

ms importante en Europa. Las principales
fuentes de secuencias de DNA y RNA son
reportadas por investigadores individuales,
proyectos de secuenciacin de genomas y
aplicaciones
patentadas:
http://www.ebi.ac.uk/embl/index.html
Bsquedas en GenBank: GenBank es la base de
datos de secuencias del NIH en EEUU, una
coleccin anotada de todas las secuencias de
DNA
disponibles
pblicamente.
http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore&itool=toolbar
DDBJ (Japn): http://www.ddbj.nig.ac.jp/Welcome-e.html
3. BASES DE DATOS DE GENOMAS

Localizacin y anlisis genmico de una secuencia en el genoma humano:
Genome Browser y ENSEMBL: extraccin de toda la informacin contenida en estos
recursos. Informacin sobre secuencia (exn, cDNA, protena).
Genomes Server: informacin o enlaces de todos los genomas secuenciados por
el momento, desde virus a humanos: http://www.ebi.ac.uk/genomes/index.html
Wormbase
es
el
http://www.wormbase.org/
portal
del
genoma
de
gusano
C.
elegans:
Flybase es el portal de la mosca del vinagre Drosophila melanogaster: Flybase

http://flybase.bio.indiana.edu/ y http://www.fruitfly.org
4. BASES DE DATOS DE PROTENAS

A. Entrez Proteins. Actualmente, las principales fuentes de datos de
secuencias de protenas son traducciones de secuencias de nucletidos depositadas
en las bases de datos GenBak/EMBL/DDBJ. El NCBI protein database ofrece el ms
simple y completo set de protenas deducidas. Casi todas las protenas en Entrez
tienen links a distintas bases de datos: nucletidos en GenBank, NCBI taxonoma,
Pubmed, MMDB, OMIM, etc.
http://www.ncbi.nlm.nih.gov/sites/entrez?db=Protein&itool=toolbar
B. UniprotKB. Existe una gran variedad de bases de datos de protenas,
sobre todo bases de datos secundarias. Las principales bases de datos primarias de
aminocidos estn ahora unificadas en UniprotKB (Universal Protein Resource)
http://www.uniprot.org/help/uniprotkb,
que contiene el catlogo ms completo de protenas y rene la informacin de las 3

principales bases de datos primarias: Swiss-Prot, TrEMBL y PIR.
UniProtkb/Swiss-Prot: base de datos de secuencias proteicas proporcionando

un alto nivel de informacin (descripcin de la funcin de la protena, estructura
de los dominios, modificaciones post-transduccionales, variantes, etc). SwissProt http://www.expasy.ch/sprot/. Las bsquedas de enzimas se realizan con
ENZYME database http://www.expasy.org/enzyme/. Para identificar y caracterizar
protenas es muy til la pgina de Proteomics Tools: http://www.expasy.ch/tools/
UniProtKB/TrEMBL: (Translation of EMBL Nucleotide Sequence Database) un

suplemento de Swiss-Prot que contiene todas las traducciones de las secuencias
de nucletidos del EMBL pero que no se han integrado todava en el Swiss-Prot:
http://www.ebi.ac.uk/uniprot/
PIR (Protein Information Resource): Se cre originalmente por Margaret Dayhoff,

y actualmente se mantiene en Georgetown University en colaboracin con
Munich Information Center para secuencias de protenas. PIR es menos riguroso
que
Swiss-prot
en
mantener
la
calidad
de
sus
anotaciones:
http://pir.georgetown.edu/
C. Algunas bases de datos de proteomas: estructuras secundarias o

dominios. Vara segn la fuente de las protenas y el anlisis que se realiza sobre
ellas. Los trminos de motivo o dominio de protena son ampliamente utilizados en
biologa para describir ciertas partes de las protenas. Se puede definir como motivo el
conjunto de residuos de aminocidos conservados que son importantes para la funcin
proteica y estn localizados a una pequea distancia unos de otros. Un dominio
proteico es una unidad compacta tridimensional que forma una estructura estable y
muestra un nivel de conservacin en la evolucin.
MOTIFSCAN: Encuentra los motivos en una secuencia: http://myhits.isb-sib.ch/cgibin/motif_scan
PROSITE: Contiene informacin sobre la estructura secundaria de protenas, familias,
dominios, etc. Expresiones regulares sobre Swiss-prot: PROSITE
BLOCKS:
Motivos
alineados
http://bioinformatics.weizmann.ac.il/blocks/
de
PROSITE/PRINTS:
PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL:

http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php
BLOCKS y PRINTS utilizan motivos mltiples (fingerprints o bloques)
EMOTIF: es una base de datos de motivos de secuencia de protenas representando
propiedades
bioqumicas
y
funciones
biolgicas
conservadas:
http://motif.stanford.edu/emotif/
INTERPRO: Integra la informacin de muchas bases de datos de dominios:
INTERPRO
D. Bases de datos de estructuras proteicas tridimensionales: Las
estructuras tridimensionales de las protenas son mucho ms difciles de determinar
que las secuencias primarias, pero son, al menos en algunos aspectos, ms
informativas. El conocimiento de las coordenadas de los tomos proporciona la

informacin de la arquitectura del sitio activo, la situacin de elementos secundarios, la
exposicin espacial de las cadenas, las posiciones relativas de dominios individuales,
etc. Hay bases de datos de protenas que almacenan datos referidos a la estructura,
tanto las coordenadas obtenidas por cristalizacin como clasificaciones de dominios
estructurales por familias.
PDB: (Protein Data Bank) Principal base de datos de estructuras tridimensionales de
protenas: PDB. Para el modelado de protenas-mutaciones se pueden usar los
programas: viewer-prot 5.0, rasmol y pmol.
E. Otras bases de datos de protenas:
Human Protein Reference Database (HPRD): La base de datos HPRD representa
una plataforma centralizada para representar e integrar informacin perteneciente a
arquitectura de dominios, modificaciones post-traduccionales, redes de interaccin y
enfermedades asociadas a cada protena en el proteoma humano. Toda la informacin
depositada en HPRD ha sido extrada de manera manual de la literatura por bilogos
expertos los cuales leen, interpretan y analizan los datos publicados.
http://www.hprd.org/
Mitochondrial Proteome: http://www.mitop.de:8080/mitop2/
5. BASES DE DATOS CLNICO-GENTICAS
A. OMIM contiene informacin sobre enfermedades genticas humanas, genes y

fenotipos: descripcin, caractersticas clnicas, diagnstico, gentica molecular,
referencias, etc. http://www.ncbi.nlm.nih.gov/omim
B. GeneCards es una base de datos de genes humanos que proporciona una
informacin concisa genmica, protemica, transcriptmica, gentica y
funcional de todos los genes humanos conocidos y candidatos. La informacin
incluye: relacin con enfermedades, mutaciones, SNPs, expresin gnica,
funcin gnica, interacciones protena-protena, etc: http://www.genecards.org/
6. BASES DE DATOS DE VARIANTES DEL GENOMA HUMANO

A.
The Human Gene Mutation Database at the
Institute of Medical Genetics in Cardiff. http://www.hgmd.cf.ac.uk/ac/index.php
Incluye mutaciones en el DNA nuclear. HGMD ha recogido datos de mutaciones
durante 12 aos y se public en Internet en abril del 1996. Acuerdo con Celera.
Hay que estar suscrito. Podis entrar con mi password: HGMD258761 y mi email:
erichard@cbm.uam.es en log in. Vamos a buscar las mutaciones descritas en MMAA,
PAH (como gene symbol), y propionic acidemia (como disease/phenotype).
B. Human Mitocondrial Genome Database: Contiene mutaciones en el
genoma mitocondrial: MITOMAP: http://www.mitomap.org/
C. Base de datos de polimorfismos: Un polimorfismo de un slo
nucletido o SNP (Single Nucleotide Polymorphism) es una variacin en la secuencia
de DNA que afecta a una sola base de una secuencia del genoma. Sin embargo,
algunos autores consideran que cambios de unos pocos nucletidos, como tambin
pequeas inserciones y deleciones pueden ser consideradas como SNP. Una de estas
variaciones debe darse al menos en un 1% de la poblacin para ser considerada como
un SNP. Los SNP forman hasta el 90% de todas las variaciones genmicas humanas,
y aparecen cada 100 a 300 bases en promedio, a lo largo del genoma humano. Dos
tercios de los SNP corresponden a la sustitucin de una citosina por una timina.
a) Single Nucleotide Polymorphism: dbSNP:
http://www.ncbi.nlm.nih.gov/projects/SNP/
Herramientas de bsquedas de SNPs funcionales:
Pupasuite: http://pupasuite.bioinfo.cipf.es/
F-SNP: http://compbio.cs.queensu.ca/F-SNP/
SYSNPs: http://www.sysnps.org
b) Hapmap: Es un catlogo de variantes genticas comunes que ocurren en los

humanos. Describe cules son esas variantes, dnde ocurren en el DNA, y cmo
estn distribuidas entre la gente en poblaciones y entre poblaciones en diferentes
partes del mundo. http://www.hapmap.org/index.html.en
c) Data Base of Genomic Variants (DGV): Proporciona un resumen de la variacin
estructural en el genoma humano. El contenido de la base de datos es solamente
representando variaciones estructurales (alteraciones genmicas que implican
segmentos de DNA >1kb) identificadas en muestras control. Proporciona un catlogo
til de datos de controles para estudios de correlacin entre el genotipo y fenotipo.
http://projects.tcag.ca/variation/
HERRAMIENTAS
Alineamientos globales y locales de secuencias. Alineamientos mltiples usando
Clustalw http://www.ebi.ac.uk/Tools/clustalw2/index.html en el EBI (leer antes el tutorial
sobre ClustalW disponible en: http://www.ebi.ac.uk/2can/tutorials/protein/clustalw.html
Bsqueda de secuencias en bases de datos mediante alineamientos (bsqueda de
secuencias similares): http://blast.ncbi.nlm.nih.gov/Blast.cgi y todas sus variantes
explicadas
en
la
gua
de
seleccin
de
programas:
http://www.ncbi.nlm.nih.gov/BLAST/producttable.shtml
OBJETIVOS
El objetivo de esta prctica es la utilizacin de las herramientas bioinformticas para la
exploracin del genoma humano y para la bsqueda de informacin relacionada con
enfermedades genticas. Para ello se plantean los siguientes objetivos especficos:
-
Conocer en profundidad las bases de datos.
Utilizar con soltura las herramientas bioinformticas para el estudio de

enfermedades genticas humanas.
Desarrollar ejemplos que permitan el uso de estos recursos.
Suministrar una perspectiva de las lneas de actuacin en este campo para el

desarrollo de otros trabajos de investigacin.
PRCTICA
Actividades 1-6: Exploracin de bases de datos biolgicos y comparacin
de secuencias. En estas actividades exploraremos varias bases de datos de
secuencias de DNA, de protenas y de genomas. A partir de secuencias
annimas de DNA realizaremos bsquedas en las bases de datos, por
ejemplo para identificar con que tipo de gen o protena estamos trabajando.
Realizaremos alineamientos de secuencias y bsquedas de secuencias
homlogas. Imparte: Eva Richard
Actividades 7-9: Anlisis de secuencias de DNA. Se analizarn distintas
secuencias de DNA de pacientes con enfermedades metablicas hereditarias
y se identificarn las mutaciones aprendiendo las normas para su
nomenclatura. Realizaremos un estudio del efecto de mutaciones de splicing
y de polimorfismos. Imparte: Lourdes Ruiz.
Actividad 1: Bases de datos de nucletidos y protenas

Identificar y descargar secuencias de DNA y protenas. Como se ha indicado
anteriormente, existen 3 grandes servicios principales de acceso a bases de datos de
DNA y protenas, localizados en USA, Europa y Japn:
En USA existe la base de datos GenBank
En Europa existe la base de datos EMBL

En Japn existe la base de datos DDBJ: http://www.ddbj.nig.ac.jp/Welcomee.html
Las bases de datos de cidos nucleicos y protenas son prcticamente las mismas en
las 3 instituciones, ya que intercambian registros cada 24 horas. Las tres bases de
datos se diferencian en los distintos servicios que ofrecen, y en el modo en que se
ofrecen dichos servicios.
Hay muchas formas de realizar una bsqueda en GenBank. Se puede hacer usando
slo texto o calificadores. La bsqueda es altamente sensitiva a lo que se escriba, es
decir, a tu "query".
Ejercicio 1.1: Busca en GenBank la secuencia codificadora completa (cds)

nucleotdica del gen de la methylmalonic aciduria cblA type. Cuntos registros
encuentras con cada una de la siguientes bsquedas: MMAA, human methylmalonic
aciduria cblA type, human AND methylmalonic aciduria cblA type, human
methylmalonic aciduria cblA type gene? Una vez que hayas identificado la secuencia
ms apropiada, anota su nmero de identificacin. Cul es el smbolo de este gen?,
Cul es su longitud?, qu funcin tiene la protena?, dnde se localiza?.
Ejercicio 1.2: Repite la bsqueda del gen en el ENSEMBL. Busca el transcrito, la
protena, los exones, los SNPs. Aprender a exportar la secuencia proteica en formato
fasta. Actualmente este navegador es el ms usado por los investigadores para ver
genes y sus productos, toda la informacin est integrada.
Ejercicio 1.3: Analiza tambin la informacin del gen en las siguientes direcciones:
UniGene:
http://www.ncbi.nlm.nih.gov/UniGene/clust.cgi?
UGID=621827&TAXID=9606&SEARCH=Homo%20sapiens[organism]%20AND
%20MMAA
y en Entrez Gene: http://www.ncbi.nlm.nih.gov/gene/166785?
ordinalpos=1&itool=EntrezSystem2.PEntrez.Gene.Gene_ResultsPanel.Gene_RVDocS
um
Actividad 2: Bases de datos de genomas

Debido a la explosin en el nmero genomas completos secuenciados durante los
ltimos aos, y al inters en su anlisis y comparacin, existen diversas bases de
datos de genomas. Entre las ms importantes se encuentran, como se ha mencionado
anteriormente:
Base de datos de genomas del NCBI
Base de datos de genomas del EMBL
Asimismo, se han desarrollado o una serie de herramientas bioinformticas para su

exploracin, como el visor de mapas del NCBI de genomas eucariticos, y el
navegador de ENSEMBL.
Ejercicio 2.1: En el visor de mapas del genoma humano del NCBI, utiliza el sistema
de bsqueda para localizar el gen de human methylmalonic aciduria cblA type. Cul
es su posicin cromosmica? Qu dos genes rodean a este gen en el mapa
citogentico?
Ejercicio 2.2: Repite esta misma bsqueda en el navegador de genomas de
ENSEMBL.
Actividad 3: Otras bases de datos

En Internet hay una innumerable cantidad de bases de datos disponibles que no slo
son de secuencias de cidos nucleicos y protenas.
OMIM (Online Mendelian Inheritance in Man), que refleja estudios sobre las
causas moleculares de las enfermedades humanas.
PDB (Protein Data Bank), de estructuras tridimensionales de las protenas.
Swiss 2D Page: Base de datos de protemica, que incluyen informacin e

imgenes de geles 2-DE.
Ejercicio 3.1. Busca la informacin relativa al gen de human methylmalonic aciduria

cblA type en la base de enfermedades OMIM. Cantos intrones y exones se
incluyen? Qu tratamiento de lleva a cabo con estos pacientes?.
Ejercicio 3.2. Busca la informacin relativa al gen de human phenylalanine
hydroxylase en la base de enfermedades OMIM. Cantos intrones y exones se
incluyen? Qu tratamiento se lleva a cabo con estos pacientes?.
Has notado alguna diferencia en estas dos enfermedades?, la extensin de la
informacin es la misma?.
Ejercicio 3.3. Anlisis de estructuras tridimensionales con PDB. En avanced search,
poner el nmero de EC 2.5.1.17 correspondiente a methylmalonic aciduria cblB type
(human ATP: cobalamin adenosyltransferase). Analizar la estructura tridimensional de
la protena.
Actividad 4: Comparacin y alineamiento de secuencias

Para poder comparar secuencias, debemos de proceder siempre a su alineamiento, ya
que necesitamos asegurarnos de que estamos realizando comparaciones entre
posiciones homlogas, es decir que proceden de una posicin ancestral comn. Debe
de quedar claro que similitud y homologa son cosas diferentes. Similitud es
parecido, y se suele medir en porcentaje. El concepto de homologa es evolutivo, e
implica descendencia a partir de un ancestro comn. La homologa no se mide de
forma cuantitativa, como la similitud: o se es homlogo o no se es.
Los mtodos para comparar dos secuencias se pueden agrupar en dos grandes
grupos:
Global: comparacin de dos secuencias en toda su longitud, tratando de

obtener el mejor alineamiento posible. En general son aplicables a secuencias
ms o menos parecidas y de longitudes similares.
Local: comparacin de pequeos fragmentos ("palabras") de las dos

secuencias en toda su longitud, tratando de obtener el mejor alineamiento
posible. Son as aplicables a secuencias con grados diferentes de similitud o
con longitudes diferentes. La mayora de los bilogos utilizan este tipo de
mtodos.
Un alineamiento mltiple de secuencias es simplemente el alineamiento de ms de

dos secuencias. De nuevo, se trata de establecer relaciones de homologa. Algunos de
los mtodos de alineamiento mltiple ms eficaces son los mtodos jerrquicos, que
construyen primero un rbol que sirve de gua para el alineamiento posterior. Uno de
los programas ms utilizados es ClustalW.
Ejercicio 4.1. Alinea la protena MMAB humana con la de ratn (M. musculus), C.
elegans, y D. rerio (Zebrafish) utilizando el servidor EBI ClustalW. Buscar los archivos
de las protenas de las distintas especies en el ENSEMBL, exportarlos en formato
FASTA a un archivo de Word y hacer el alineamiento en clustalw. Analizar tambin el
alineamiento con todos los ortlogos que realiza el Ensembl.
Cuntos homlogos (ortlogos) aparecen en Ensembl?, qu regin est ms
conservada en todas las especies?, hay muchos gaps?, Por qu?, Qu longitud
tienen?, Por qu?.
Actividad 5: Bsqueda de secuencias similares

Los mtodos de bsqueda de secuencias en bases de datos se basan en el
alineamiento y similitud significativa entre la secuencia problema ("query") y las
secuencias depositadas base de datos. El algoritmo ms utilizado de bsqueda de
secuencias es el BLAST.
BLAST. Identificacin de dominios y secuencias homlogas en distintas
especies. Una de las aplicaciones de BLAST ms habituales es la bsqueda
bioinformtica (in silico) de genes humanos causantes de enfermedad de los que slo
se conoce la funcin de la protena, utilizando como sondas genes o protenas
homlogas de otros organismos, es lo que se conoce como genmica comparativa.
Mediante BLAST se pueden detectar regiones relativamente cortas de similitud entre
la sonda utilizada y las protenas resultantes de la traduccin conceptual de la base de
datos de EST (Expressed Sequence Tags), secuencias parciales de cDNAs
procedentes de genotecas especficas de tejido o tipo celular. Hay que tener en cuenta
que la secuencia de aminocidos est ms conservada que la de nucletidos, por eso
se usa como sonda la secuencia de aminocidos y la herramienta de tblastn. Un
ejemplo de esta aplicacin la podis encontrar en la siguiente referencia:
Gallardo et al. 2001 http://www.cell.com/AJHG/retrieve/pii/S0002929707640865
en la que se describe el clonaje in silico de los genes humanos MCCA y MCCB,
responsables de la metilcrotonilglicinuria.
Un ejemplo de cmo las tcnicas para localizar genes responsables de EMH
han avanzado incorporando la informacin de bases de datos pblicas, lo constituye la
reciente identificacin de los genes implicados en el metabolismo intracelular de
cobalaminas, grupos de complementacin cblA y cblB (acidemia metilmalnica
aislada), genes MMAA y MMAB, mediante bsquedas de homologa a protenas
bacterianas que formaban parte de un opern bacteriano en el que se encontraba la
metilmalonil-CoA mutasa
Dobson et al. 2002 http://www.pnas.org/content/99/24/15554.long
Dobson et al. 2002bis http://hmg.oxfordjournals.org/cgi/content/full/11/26/3361
Esta estrategia se basa en el hecho de que en bacterias es frecuente que los genes
implicados en una misma ruta metablica se encuentren agrupados en lo que se
denomina cluster u opern.
Ejercicio 5.1. Buscar secuencias similares de protenas a la protena methylmalonic
aciduria cblB type human (MMAB). Conseguir la secuencia en formato fasta en el
ENSEMBL. (ya la tenis en el archivo de Word de las secuencias fasta) Copiar la
secuencia.
Ir
a
la
base
de
datos
de
BLAST
del
NCBI:
http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastHome
Ir a protein BLAST y pegar la secuencia en formato fasta. Analizar los datos. Se
obtienen las protenas homlogas que en el apartado de ortlogos del ENSEMBL?,
cmo es el alineamiento?.
Actividad 6: Anlisis de secuencias de protenas

Es interesante resaltar que podemos tambin obtener la siguiente informacin de la
secuencia de protena: prediccin pptido seal, peso molecular, pI, localizacin
celular, etc.
10
http://www.uniprot.org/uniprot/P22033
Ejercicio 6.1. Calcula el peso molecular y el pI de la protena methylmalonic aciduria
cblB
type
human
(MMAB),
con
la
base
de
datos
de
http://www.expasy.ch/tools/pi_tool.html
Ejercicio 6.2. Predice el pptido lder de la secuencia de la protena methylmalonic
aciduria
cblB
type
human
(MMAB)
con
la
base
de
datos
de
http://www.cbs.dtu.dk/services/SignalP/
Existe otra web que es especfica de pptido seal de protenas mitocondriales:
MITOPROT http://ihg2.helmholtz-muenchen.de/ihg/mitoprot.html
Existe
una
base
de
datos
http://www.signalpeptide.de/index.php?m=intro
de
los
pptidos
lderes:
Actividad 7: Anlisis de secuencia de DNA
7.1 Mapas de restriccin.

Si queremos cortar una secuencia nos ser muy til conocer su mapa de restriccin.
Esto lo podemos realizar con la herramienta Mapper, o con WEBCUTTER
http://rna.lundberg.gu.se/cutter2/
Ejercicio 7.1. Construye el mapa de restriccin de la secuencia de la methylmalonic
aciduria cblA type con Mapper.
7.2. Identificacin de mutaciones.

Utilizando el programa CHROMAS que nos permite visualizar secuencias, vamos a
analizar el exn 11 del gen PAH que ha sido amplificado a partir de muestras de DNA
genmico de pacientes con fenilcetonuria. El objetivo de esta actividad es identificar
las mutaciones en homocigosis o en heterocigosis y aprender la nomenclatura.
Abrir las secuencias 1-8 (escoger dos) con el CHROMAS. Identificar la secuencia
exnica y la intrnica flanqueante, y compararla con la secuencia normal (sacada del
ENSEMBL). Anotar los posibles cambios, confirmar que no son SNP (en el
ENSEMBL). Las mutaciones estn en homocigosis o en heterocigosis?. Analizar el
efecto de las mutaciones en la secuencia codificante. Qu cambio de aminocido
producen?. Y las mutaciones en la secuencia intrnica?. Qu efecto tendrn?.
Cmo se nombran cada una de estas mutaciones (nombre comn y nombre
sistemtico)?. Utilizar la informacin siguiente:
Nomenclatura de mutaciones:
Cada tipo de mutacin requiere una definicin precisa del cambio predecible a nivel de
protena, a nivel del DNA genmico y del mRNA, si corresponde. Las normas
internacionales
de
nomenclatura
de
mutaciones
se
recogen
en:
http://www.hgvs.org/mutnomen/ . En el caso de sustituciones de aminocidos se utiliza
normalmente el cdigo de una letra para stos, apareciendo primero el cdigo del
aminocido que cambia, la posicin y el aminocido mutante con una p. delante para
indicar que se trata de la nomenclatura a nivel de protena (p. ej. p.R176L, indica un
cambio de arginina por leucina en la posicin 176 de la protena). En el caso de
11
mutaciones nonsense, el codn de parada se designa con una X (p.R243X, sustitucin

de una arginina por un codn de parada en la posicin 243 de la protena). Esta
designacin de las mutaciones se conoce como nombre comn (el ms usual). En el
nombre sistemtico, la posicin del nucletido aparece primero y luego el cambio
(1248GA) y se incluye una c minscula (c.1248GA), para indicar que se trata de la
numeracin del cDNA (secuencia codificante, complementaria al mRNA y designando
como nucletido 1 la A del codn de iniciacin ATG de la cadena polipeptdica). Para
las mutaciones de splicing localizadas en intrones, en el nombre comn se designa el
nmero del intrn tras las siglas IVS (intervening sequence) y la posicin nucleotdica
del cambio, contando a partir del exn ms cercano (p. ej. IVS3+1 gt, cambio de una
g por una t en la base 1 del intrn 3). En general, se suele escribir las bases intrnicas
en minsculas y las exnicas en maysculas, para facilitar el reconocimiento de
secuencias exnicas e intrnicas. Para inserciones o deleciones se utilizan las
abreviaturas ins y del, respectivamente (p. ej. 1202del4, delecin de 4 nucletidos en
la posicin 1202 del cDNA) y en el nombre comn se incluye las siglas fs, si produce
un cambio en la fase de lectura (frameshift).
Ejemplos de nomenclatura de mutaciones

Nombre comn
Nombre sistemtico
Missense (cambio de aminocido)

p.R243Q
c.728 GA
p.I65T
c.194 TC
Nonsense (parada de la traduccin)
p.R111X
c.331CT
Efecto
cambio de Arg por Gln en la posicin 243

cambio de Ile por Thr en la posicin 65
cambio de Arg 111 por codn de parada

de la traduccin
Insercin
p.K452fsinsA
c.1355insA
cambio de la fase de lectura (frameshift)
Delecin
p.P211fsdelC
p.Y198fs
c.632delC
c.593_641del22pb

Splicing (procesamiento del mRNA)

IVS10nt-11g>a
c.1066-11ga
alteracin del splicing (activacin sitio crptico)
IVS12nt1g>a
c.1315+1ga
alteracin del splicing (exon skipping)
Este ltimo tipo de mutaciones y la nomenclatura segn su efecto se describirn con

mayor detalle en la siguiente actividad.
Actividad 8: Anlisis de mutaciones de splicing
Objetivo: Utilizaremos distintos programas para predecir seales de splicing en una

regin, calcular su fuerza relativa y ver cmo las mutaciones las afectan. Vamos a
12
analizar las mutaciones IVS10-11g>a, y IVS10-3g>c en el exn 11 del gen PAH,

identificadas en la actividad anterior y otras de localizacin exnica.
Informacin:
Aproximadamente un 15% de las mutaciones puntuales asociadas a
enfermedades genticas humanas afectan al procesamiento del mRNA o splicing. Se
conoce como splicing al proceso mediante el cual el mRNA sufre el procesamiento de
eliminacin de sus intrones previamente a la traduccin de la secuencia codificante.
Se lleva a cabo por un complejo macromolecular denominado spliceosoma,
compuesto por 5 partculas ribonucleoprotenas -snRNPs- (U1, U2, U4, U5 y U6) y
ms de 50 protenas. Cada snRNP est compuesto por un RNA pequeo nuclear, rico
en uridinas (snRNA) y mltiples protenas asociadas.
Las mutaciones de splicing pueden afectar a las secuencias conservadas 5
donadora o 3 aceptora de splicing, el tracto polipirimidnico y la secuencia de
ramificacin BPS, o a secuencias reguladoras auxiliares, menos conservadas como
son los potenciadores o enhancers y silenciadores de splicing que pueden estar
localizados en secuencias exnicas (ESE exonic splicing enhancers-, ESS -exonic
splicing silencers-) o intrnicas (ISE intronic splicing enhancers-, ISS intronic
splicing silencers-).
Los dos efectos ms comunes de las mutaciones de splicing son la no inclusin
de algn exn en el mRNA (exon skipping) o la activacin de nuevos sitios crpticos de
splicing resultando en la generacin de transcritos aberrantes.
Mediante el anlisis in slico podemos orientarnos sobre el mecanismo
molecular por el cal la mutacin ejerce su efecto, bien por disminuir la
complementariedad de secuencia entre distintas protenas del spliceosoma como la
ribonucleoprotena U1 que se une especficamente al sitio 5 de splicing; bien por
modificar secuencias reconocidas como enhancers de splicing exnicos e intrnicos
(ESEs e ISEs) donde se unen las protenas SR auxiliares de splicing. Para ello, estn
disponibles distintos programas:
1) www.fruitfly.org/seq_tools/splice.html, para determinar sitios de splicing
2) http://ast.bioinfo.tau.ac.il/SpliceSiteFrame.htm
3) http://genes.mit.edu/burgelab/maxent/Xmaxentscan_scoreseq.html
determinar el score
4) http://cryp-skip.img.cas.cz/ para predecir el efecto de mutaciones
5) ESE finder http://rulai.cshl.edu/tools/ESE/
6) RESCUE-ESE http://genes.mit.edu/burgelab/rescue-ese
7) PESX Server (http://cubweb.biology.columbia.edu/pesx).
para
Estos tres ltimos facilitan la identificacin de posibles ESEs basndose en su

reconocimiento por cuatro protenas SR: SF2/ASF, SC35, SRp40 y SRp55.
13
Secuencias implicadas en el procesamiento del mRNA o splicing
Ejercicio 8.1: Analiza las secuencias 3 y 5 de splicing del exn 11 con los programas
1, 2, 3 Tienen un score alto, es decir, son buenas secuencias para ser reconocidas
por la maquinaria de splicing?. Analiza la secuencia 3 de splicing con las mutaciones
IVS10-3g>c y IVS10-11g>a. Qu efecto ves sobre el score?. Qu ocurre con la
mutacin IVS10-11g>a?.
Ejercicio 8.2: Analiza la mutacin IVS10-3g>c con el programa 4. Qu efecto
predice?.
Ejercicio 8.3: Analiza con los programas 5 y 6 el cambio c.1155G/C (L385L) en el
mismo exn 11, para analizar si podra afectar al splicing (ya que no cambia aa).
Actividad 9: Anlisis de SNPs
Ejercicio 9.1: Analiza los SNPs anotados en el gen MMAB utilizando el ENSEMBL y el
servidor SYSNPs: http://www.sysnps.org/, que utiliza la informacin integrada de las
siguientes bases de datos (ltima versin actualizada): Ensembl 53, Hapmap release
24, Haploview 4.1 y Pupasuite. Abrir la pgina del servidor Pupasuite
http://pupasuite.bioinfo.cipf.es/
para ver las opciones de asignacin de funciones a los SNPs.
Qu efecto predice el programa para cada SNP?. Estn validados los SNPs?.
Cuntos tag-SNPs hay?.
14

Guion Curso APLICACIÓN DE HERRAMIENTAS BIOINFORMÁTICAS EN EL ESTUDIO DE LAS ENFERMEDADES GENÉTICAS HUMANAS

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guion Curso APLICACIÓN DE HERRAMIENTAS BIOINFORMÁTICAS EN EL ESTUDIO DE LAS ENFERMEDADES GENÉTICAS HUMANAS

Cargado por

Copyright:

Formatos disponibles

Curso Mitolab-Ciberer 09

Los proveedores de recursos: centros u organizaciones especializadas en

Las bases de datos: hay mucha variedad.

Las herramientas para estudiar y analizar toda la informacin contenida en las

Existen bases de datos primarias que contienen secuencias de DNA y de

proteicos, familias de genes, mutaciones, polimorfismos, implicacin en enfermedades,

1. BASES DE DATOS BIBLIOGRFICAS

Pubmed (NCBI): http://www.ncbi.nlm.nih.gov/pubmed/

Medline: Hay que estar suscrito. http://medline.cos.com/

2. BASES DE DATOS DE NUCLETIDOS

GenBank/Embl/DDBJ acord un formato de versin consistente en el nmero de

Bsquedas en EMBL: Constituye el repositorio

3. BASES DE DATOS DE GENOMAS

Flybase es el portal de la mosca del vinagre Drosophila melanogaster: Flybase

4. BASES DE DATOS DE PROTENAS

que contiene el catlogo ms completo de protenas y rene la informacin de las 3

UniProtkb/Swiss-Prot: base de datos de secuencias proteicas proporcionando

UniProtKB/TrEMBL: (Translation of EMBL Nucleotide Sequence Database) un

PIR (Protein Information Resource): Se cre originalmente por Margaret Dayhoff,

C. Algunas bases de datos de proteomas: estructuras secundarias o

PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBL:

informativas. El conocimiento de las coordenadas de los tomos proporciona la

5. BASES DE DATOS CLNICO-GENTICAS

A. OMIM contiene informacin sobre enfermedades genticas humanas, genes y

6. BASES DE DATOS DE VARIANTES DEL GENOMA HUMANO

b) Hapmap: Es un catlogo de variantes genticas comunes que ocurren en los

Conocer en profundidad las bases de datos.

Utilizar con soltura las herramientas bioinformticas para el estudio de

Desarrollar ejemplos que permitan el uso de estos recursos.

Suministrar una perspectiva de las lneas de actuacin en este campo para el

Actividad 1: Bases de datos de nucletidos y protenas

En USA existe la base de datos GenBank

En Europa existe la base de datos EMBL

Ejercicio 1.1: Busca en GenBank la secuencia codificadora completa (cds)

Actividad 2: Bases de datos de genomas

Base de datos de genomas del NCBI

Base de datos de genomas del EMBL

Asimismo, se han desarrollado o una serie de herramientas bioinformticas para su

Actividad 3: Otras bases de datos

PDB (Protein Data Bank), de estructuras tridimensionales de las protenas.

Swiss 2D Page: Base de datos de protemica, que incluyen informacin e

Ejercicio 3.1. Busca la informacin relativa al gen de human methylmalonic aciduria

Actividad 4: Comparacin y alineamiento de secuencias

Global: comparacin de dos secuencias en toda su longitud, tratando de

Local: comparacin de pequeos fragmentos ("palabras") de las dos

Un alineamiento mltiple de secuencias es simplemente el alineamiento de ms de

Actividad 5: Bsqueda de secuencias similares

Actividad 6: Anlisis de secuencias de protenas

Actividad 7: Anlisis de secuencia de DNA

7.1 Mapas de restriccin.

7.2. Identificacin de mutaciones.

mutaciones nonsense, el codn de parada se designa con una X (p.R243X, sustitucin

Ejemplos de nomenclatura de mutaciones

Missense (cambio de aminocido)

cambio de Arg por Gln en la posicin 243

cambio de Arg 111 por codn de parada

cambio de la fase de lectura (frameshift)

cambio de la fase de lectura (frameshift)

Splicing (procesamiento del mRNA)

alteracin del splicing (exon skipping)

Este ltimo tipo de mutaciones y la nomenclatura segn su efecto se describirn con

Actividad 8: Anlisis de mutaciones de splicing

Objetivo: Utilizaremos distintos programas para predecir seales de splicing en una

analizar las mutaciones IVS10-11g>a, y IVS10-3g>c en el exn 11 del gen PAH,