Está en la página 1de 5

Curso:

Biologa Molecular Semestre 2017-II

Prctica
ANLISIS BIOINFORMTICO DE SECUENCIAS NUCLEOTDICAS

La bioinformtica es la aplicacin de la tecnologa informtica a la informacin de biologa


molecular, englobando los aspectos de la adquisicin, procesamiento, distribucin, anlisis,
interpretacin e integracin de la informacin biolgica. Existen diferentes repositories de
secuencias nulceotdicas de todos los organismos, que forman parte del International
Nucleotide Sequence Database (INSD) Collaboration, que lo integran:
GenBank en el NCBI NIH (http://www.ncbi.nlm.nih.gov/)
European Nucleotide Archive (ENA) del EMBL-EBI (http://www.ebi.ac.uk/ena)
DNA DataBank of Japan (DDBJ) (http://www.ddbj.nig.ac.jp/)
Adems, existen otras bases de datos con diferentes fines, como
RefSeq
Bases de datos de SNPs (ej. 3DSNP)
BOLD Systems (http://www.boldsystems.org)
HapMap
De genomas: Zebrafish Information Network, 1000 genomes Project, etc.

La base de datos del NCBI (creada en 1988) es pblica y posee 3 componentes: creacin de
bases de datos (almacn de datos biolgicos), desarrollo de algoritmos y estadsticas para
determinar relaciones entre los datos, y el uso de estas herramientas para anlisis e
interpretacin de varios tipos de datos biolgicos (secuencias de DNA, RNA, protena;
estructura de protenas, expresin de genes, rutas bioqumicas). Por otro lado, el BOLD
(cuyas iniciales provienen de Barcode of Life Data Systems) es una base de datos que
contiene secuencias nucleotdicas que son utilizadas como herramienta de anlisis para la
identificacin de organismos a nivel de especies (Herbert et al., 2003) y la obtencin de su
correspondiente cdigo de barras de DNA.

OBJETIVOS
- Familiarizarse con el uso de las bases de datos pblicas de secuencias de ADN
- Introducir a los alumnos en el anlisis de secuencias nucleotdicas

PROCEDIMIENTO

1. Obtencin de una secuencia consenso


- Realizar la edicin visual de los electroferogramas (forward y reverse)
- Obtener las secuencias forward y reverse en un solo documento, en formato FASTA

Curso: Biologa Molecular Semestre 2017-II

- Obtener una secuencia consenso utilizando el programa BioEdit

2. Realizar la comparacin de la secuencia nucleotdica utilizando las bases de datos


NCBI y BOLD Systems

2.1. Utilizando el NCBI

Ir a la pgina de National Center for Biotechnology Information:


http://www.ncbi.nlm.nih.gov/

a. Base de datos ENTREZ: (http://www.ncbi.nlm.nih.gov/guide/)


All databases > Search

b. Bsqueda de informacin en PubMed:


All database > Search > PubMed > Search
Realizar la bsqueda en SEARCH con palabras claves
Identificar los artculos publicados (se indica, ttulo, autor, referencia bibliogrfica))
Display Settings (para modificar la bsqueda)
Send to (para elegir destino de envio de informacin seleccionada)
Utilizar: Search history, Advance search.
Seleccionar un solo artculo, identificar los loci utilizados, nmero de accesin

c. Bsqueda de informacin en Taxonomy:


Base de datos que contiene los nombres de los organismos de cuyas secuencias han
sido depositadas (http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/)
Taxonomy Browser > Taxonomy Statistics: (ubicar secuencias en la base
de datos.
Comparar el nmero de ingreso de secuencias entre aos).
Taxonomy Resources > General
Taxonomy > Taxomony home > Exinct organisms (para ubicar secuencia de
datos d e especies extintas)

d. Bsqueda de informacin en base de datos de secuencias de nucletidos: GenBank


Responsable de organizar los registros de las secuencias de nucletidos, informacin
que se mantiene como un consorcio entre NCBI, EMBL (European Molecular
Biolgoy Laboratory) y DNA Data Bank of Japan (DDBJ). Las secuencias se
registran segn IUPAC, considerando los siguientes cdigos (para nucletidos y
pptidos):

Curso: Biologa Molecular Semestre 2017-II

Cdigo
IUPAC SIGNIFICADO
A Adenosina
C Citidina
G Guanina
T Timidina
U Uridina
R G or A (Purina)
Y T or C (Pyrimidina)
K G or T (Ceto)
M A or C (Amino)
S G or C (Strong)
W A or T (Weak)
B C G or T (no A)
D A G or T (no C)
H A C or T (no G)
V A C or G (no T ni U)
N A C G or T
(cualquiera)

All database > Nucleotide > Search


Escriba el nombre de especie y marcador molecular (ejm Sp X internal
transcribed spacer ITS). Se indica:
o Locus: nombre alfa-numrico del locus, tamao de secuencia en pb, naturaleza
de la molcula (DNA), topologa (lineal o circular)
o Definition: definicin del gen que corresponde la secuencia y a que organismo
o Accession: identificador nico dentro y entre varias baes de datos
o Version: pasados nmeros ID. GI es el nmero que rastrea las versiones de
una entrada, donde el nmero despus del punto indica el nmero de veces que
fue actualizada la secuencia.
o Keywords: trminos que caracterizan la entrada.
o Source: nombre comn del individuo
o Organism: identificacin compl;eta del organismo con clasificacin taxonmica
o Reference: autor, ttulo, revista, PubMed link
o Features: source (origen de regiones especficas), promotor, RBS
(Ribosome
Binding Site), CDS (CoDing Segment, que equivale a un ORF de gen),
Gen: equivalente a splicinbg exn es decir indica la reconstruccin de la
secuencia de mRNA; mRNA indican splicings alternativos; Exon indica la
posicin que presenta el exn en la secuencia

Display Settings > FASTA(para obtener una secuencia de nucleotidos)


Seleccionar una de las secuencias de DNA, en formato FASTA, y crear un file para

Curso: Biologa Molecular Semestre 2017-II

su posterior anlisis
SEND > FILE. Nombrar el file como: sequence.fasta

e. Bsqueda con BLAST (Basic Local Alignment Search Tool)


http://blast.ncbi.nlm.nih.gov/Blast.cgi
Permite comparar una secuencia de DNA o protena con otras del mismo y/o
diferentes organismos, para determinar la identidad de una secuencia en particular o
identificar organismos cercanamente relacionados que posean la secuencia en
particular. Compara una secuencia con una base de datos y calcula una significancia
estadstica de las coincidencias. De acuerdo al tipo de secuencia y comparacin se
pueden elegir entre Blastn, blastp, blastx, tblastn, tblastx

Blast > Blastn


Copiar secuencia de nucletidos (o ID, o Accesion number) en Search Box
Database : Others : Other nucleotides > nucleotide collection nr/nt >
BLAST (nr/nt = non redundant nucleotide)
Analizar los valores resultado de la comparacin, ejm E-value

Ahora con la base de datos creada, se puede seguir los siguientes pasos como
alineamiento de secuencias mltiples y un anlisis filogentico

2.2. Utilizando el BOLD System

- Ir a IDENTIFICATION
- Selecionar el grupo de organismo a identificar (animal, vegetal, fungi)
- Copiar la secuencia obtenia en formato FASTA
- Analizar los resultados respecto al porcentaje de similutd obtenido y su comparacin
con los resultados obtenidos utilizando la herramienta dle BLASTn del NCBI

3. Realizar una comparacin de multiples secuencias de especies del mismo gnero.

a. Alineamiento multiple: CLUSTAL W (http://www.ebi.ac.uk/Tools/msa/clustalw2/)

Un alineamiento debe de reflejar homologa (donde se asume que carcteres son


derivados de un ancestro comn). Existen paquetes como Clustal W, Clustal X. Otros
como Bioedit, Geneious que permiten adems editar y visualizar secuencias.

Clustal X (Thompson et al. 1997) 2.0 (Larkin et al. 2007) es una versin del Clustal W con
una interfase grfica. Est diseado para realizar mltiples alineamientos, ver

Curso: Biologa Molecular Semestre 2017-II

resultados del proceso, mejorarlo. Armar rboles utilizando NJ o UPGMA. Clustal W


(permite crear una matriz de distancia con compraracin pairwise de secuencias,
construccin de rbol con una matriz de distancia)

Sequence Input > Multiple alignments > Do complite multiple alignment to


now Slow/Accurate
Clustal crear un file de alineamiento y un file de guide tree
El output ser sequences.aln y el file del rbol ser sequences.dnd

Para Clustal X
File > Load Sequences (abrir sequences.fasta) >Alignmet > Do complite
alignment > OK

ACTIVIDADES

- A partir de una secuencia nucleotdica entregada, identificar la organizacin de


informacin de secuencias de DNA utilizando las bases de datos del INSD
- A partir de un electroferograma entregado, obtener una secuencia consenso y la
secuencia utilizar las diferentes herramientas del BLAST e interpretar los resultados.
- Analizar la secuencia respecto a otras secuencias obtenidas en el GenBank y del
BOLD-Systems (en caso sea posible), utilizando todas las herramientas mencionadas en
clase, e interpretar los resultados

REFERENCIAS BIBLIOGRFICAS

McEntyre J, Ostell J, editors. The NCBI Handbook [Internet]. Bethesda (MD): National
Center for Biotechnology Information (US); 2002. Available from:
http://www.ncbi.nlm.nih.gov/books/NBK21101/
Claverie JM, Cedric N. Bioinformatics for dummies. John Wiley & Sons, 2006, 456 p.
Hebert PD, Cywinska A, Ball SL., deWaard JR. 2003. Biological identifications through
DNA barcodes. Proceedings of the Royal Society B: Biological Sciences 270(1512):
313-21.

G.S.C.

También podría gustarte