Está en la página 1de 5

Curso: Biología Molecular – Semestre 2019-II

Práctica
ANÁLISIS BIOINFORMÁTICO DE SECUENCIAS NUCLEOTÍDICAS

La bioinformática es la aplicación de la tecnología informática a la información de biología


molecular, englobando los aspectos de la adquisición, procesamiento, distribución, análisis,
interpretación e integración de la información biológica. Existen diferentes repositories de
secuencias nulceotídicas de todos los organismos, que forman parte del International
Nucleotide Sequence Database (INSD) Collaboration, que lo integran:
 GenBank en el NCBI – NIH (http://www.ncbi.nlm.nih.gov/)
 European Nucleotide Archive (ENA) del EMBL-EBI (http://www.ebi.ac.uk/ena)
 DNA DataBank of Japan (DDBJ) (http://www.ddbj.nig.ac.jp/)
Además, existen otras bases de datos con diferentes fines, como
 RefSeq
 Bases de datos de SNPs (ej. 3DSNP)
 BOLD Systems (http://www.boldsystems.org)
 HapMap
 De genomas: Zebrafish Information Network, 1000 genomes Project, etc.

La base de datos del NCBI (creada en 1988) es pública y posee 3 componentes: creación de
bases de datos (almacén de datos biológicos), desarrollo de algoritmos y estadísticas para
determinar relaciones entre los datos, y el uso de estas herramientas para análisis e
interpretación de varios tipos de datos biológicos (secuencias de DNA, RNA, proteína;
estructura de proteínas, expresión de genes, rutas bioquímicas). Por otro lado, el BOLD (cuyas
iniciales provienen de Barcode of Life Data Systems) es una base de datos que contiene
secuencias nucleotídicas que son utilizadas como herramienta de análisis para la identificación
de organismos a nivel de especies (Herbert et al., 2003) y la obtención de su correspondiente
código de barras de DNA.

OBJETIVOS
- Familiarizarse con el uso de las bases de datos públicas de secuencias de ADN
- Introducir a los alumnos en el análisis de secuencias nucleotídicas

PROCEDIMIENTO

1. Obtención de una secuencia consenso


- Realizar la edición visual de los electroferogramas (forward y reverse)
- Obtener las secuencias forward y reverse en un solo documento, en formato FASTA
Curso: Biología Molecular – Semestre 2019-II

- Obtener una secuencia consenso utilizando el programa BioEdit

2. Realizar la comparación de la secuencia nucleotídica utilizando las bases de datos


NCBI y BOLD Systems

2.1. Utilizando el NCBI

Ir a la página de National Center for Biotechnology Information:


http://www.ncbi.nlm.nih.gov/

a. Base de datos ENTREZ: (http://www.ncbi.nlm.nih.gov/guide/)


→ All databases > Search

b. Búsqueda de información en PubMed:


→ All database > Search > PubMed > Search
Realizar la búsqueda en “SEARCH” con palabras claves
Identificar los artículos publicados (se indica, título, autor, referencia bibliográfica))
→ Display Settings (para modificar la búsqueda)
→ Send to (para elegir destino de envio de información seleccionada)
→ Utilizar: Search history, Advance search.
Seleccionar un solo artículo, identificar los loci utilizados, número de accesión

c. Búsqueda de información en Taxonomy:


Base de datos que contiene los nombres de los organismos de cuyas secuencias han
sido depositadas (http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/)
→ Taxonomy Browser > Taxonomy Statistics: (ubicar secuencias en la base
de datos.
Comparar el número de ingreso de secuencias entre años).
→ Taxonomy Resources > General
→ Taxonomy > Taxomony home > Exinct organisms (para ubicar secuencia de
datos d e especies extintas)

d. Búsqueda de información en base de datos de secuencias de nucleótidos: GenBank


Responsable de organizar los registros de las secuencias de nucleótidos, información
que se mantiene como un consorcio entre NCBI, EMBL (European Molecular
Biolgoy Laboratory) y DNA Data Bank of Japan (DDBJ). Las secuencias se
registran según IUPAC, considerando los siguientes códigos (para nucleótidos y
péptidos):
Curso: Biología Molecular – Semestre 2019-II

Código
IUPAC SIGNIFICADO
A Adenosina
C Citidina
G Guanina
T Timidina
U Uridina
R G or A (Purina)
Y T or C (Pyrimidina)
K G or T (Ceto)
M A or C (Amino)
S G or C (Strong)
W A or T (Weak)
B C G or T (no A)
D A G or T (no C)
H A C or T (no G)
V A C or G (no T ni U)
N A C G or T
(cualquiera)

→ All database > Nucleotide > Search


Escriba el nombre de especie y marcador molecular (ejm Sp X internal
transcribed spacer ITS). Se indica:
o Locus: nombre alfa-numérico del locus, tamaño de secuencia en pb, naturaleza
de la molécula (DNA), topología (lineal o circular)
o Definition: definición del gen que corresponde la secuencia y a que organismo
o Accession: identificador único dentro y entre varias baes de datos
o Version: pasados números ID. GI es el número que rastrea las versiones de
una entrada, donde el número después del punto indica el número de veces que
fue actualizada la secuencia.
o Keywords: términos que caracterizan la entrada.
o Source: nombre común del individuo
o Organism: identificación compl;eta del organismo con clasificación taxonómica
o Reference: autor, título, revista, PubMed link
o Features: source (origen de regiones específicas), promotor, RBS (Ribosome
Binding Site), CDS (CoDing Segment, que equivale a un ORF de gen),
Gen: equivalente a splicinbg exón es decir indica la reconstrucción de la secuencia
de mRNA; mRNA indican splicings alternativos; Exon indica la posición que
presenta el exón en la secuencia

→ Display Settings > FASTA(para obtener una secuencia de nucleotidos)


Seleccionar una de las secuencias de DNA, en formato FASTA, y crear un file para su
posterior análisis
Curso: Biología Molecular – Semestre 2019-II

→ SEND > FILE. Nombrar el file como: sequence.fasta

e. Búsqueda con BLAST (Basic Local Alignment Search Tool)


http://blast.ncbi.nlm.nih.gov/Blast.cgi
Permite comparar una secuencia de DNA o proteína con otras del mismo y/o diferentes
organismos, para determinar la identidad de una secuencia en particular o identificar
organismos cercanamente relacionados que posean la secuencia en particular.
Compara una secuencia con una base de datos y calcula una significancia estadística
de las coincidencias. De acuerdo al tipo de secuencia y comparación se pueden elegir
entre Blastn, blastp, blastx, tblastn, tblastx

→ Blast > Blastn


Copiar secuencia de nucleótidos (o ID, o Accesion number) en Search Box
→ Database : Others : Other nucleotides > nucleotide collection nr/nt >
BLAST (nr/nt = non redundant nucleotide)
Analizar los valores resultado de la comparación, ejm E-value

Ahora con la base de datos creada, se puede seguir los siguientes pasos como
alineamiento de secuencias múltiples y un análisis filogenético

2.2. Utilizando el BOLD System

- Ir a IDENTIFICATION
- Selecionar el grupo de organismo a identificar (animal, vegetal, fungi)
- Copiar la secuencia obtenia en formato FASTA
- Analizar los resultados respecto al porcentaje de similutd obtenido y su comparación
con los resultados obtenidos utilizando la herramienta dle BLASTn del NCBI

3. Realizar una comparación de multiples secuencias de especies del mismo género.

a. Alineamiento multiple: CLUSTAL W (http://www.ebi.ac.uk/Tools/msa/clustalw2/)

Un alineamiento debe de reflejar homología (donde se asume que carácteres son derivados
de un ancestro común). Existen paquetes como Clustal W, Clustal X. Otros como Bioedit,
Geneious que permiten además editar y visualizar secuencias.

Clustal X (Thompson et al. 1997) 2.0 (Larkin et al. 2007) es una versión del Clustal W con
una interfase gráfica. Está diseñado para realizar múltiples alineamientos, ver resultados
del proceso, mejorarlo. Armar árboles utilizando NJ o UPGMA. Clustal W (permite crear
Curso: Biología Molecular – Semestre 2019-II

una matriz de distancia con compraración pairwise de secuencias, construcción de árbol con
una matriz de distancia)

→ Sequence Input > Multiple alignments > Do complite multiple alignment to


now Slow/Accurate
Clustal creará un file de alineamiento y un file de guide tree
El output será sequences.aln y el file del árbol será sequences.dnd

Para Clustal X
→ File > Load Sequences (abrir sequences.fasta) >Alignmet > Do complite
alignment > OK

ACTIVIDADES

- A partir de una secuencia nucleotídica entregada, identificar la organización de


información de secuencias de DNA utilizando las bases de datos del INSD
- A partir de un electroferograma entregado, obtener una secuencia consenso y la
secuencia utilizar las diferentes herramientas del BLAST e interpretar los resultados.
- Analizar la secuencia respecto a otras secuencias obtenidas en el GenBank y del
BOLD-Systems (en caso sea posible), utilizando todas las herramientas mencionadas en
clase, e interpretar los resultados

REFERENCIAS BIBLIOGRÁFICAS

McEntyre J, Ostell J, editors. The NCBI Handbook [Internet]. Bethesda (MD): National
Center for Biotechnology Information (US); 2002. Available from:
http://www.ncbi.nlm.nih.gov/books/NBK21101/
Claverie JM, Cedric N. Bioinformatics for dummies. John Wiley & Sons, 2006, 456 p.
Hebert PD, Cywinska A, Ball SL., deWaard JR. 2003. Biological identifications through DNA
barcodes. Proceedings of the Royal Society B: Biological Sciences 270(1512): 313-21.

G.S.C.

También podría gustarte