Está en la página 1de 21

AO DEL BUEN SERVICIO AL CIUDADANO

E.A.P.:
Biotecnologa
Facultad:
Ciencias
Docente:
Gustavo Sandoval
Curso:
Bioinformtica
Tema:
Bsqueda de secuencias y alineamiento local
y mltiple

Integrantes:
Marquez Paredes Paul Erik
Morales Alvarado Leslie Stefania
Morillo Pallara Baddy Jhonatan
Soria Galvez Manuel Eduardo
Velasquez Mejia Pedro Lee
Vigo Rivera Lucero

Ciclo:
VI

2017 - Nuevo Chimbote, Per


Bsqueda de secuencias y alineamiento local y mltiple
reas de investigacin ms notables
Anlisis de secuencias

Desde finales de los aos 70, se han decodificado miles de secuencias de ADN de
diferentes organismos, siendo finalmente almacenadas en bases de datos. Esta
informacin es posteriormente analizada para determinar qu genes codifican:
determinadas protenas, RNA, etc. No obstante, debido al crecimiento exponencial
de las bases de datos, el anlisis manual de estas secuencias de ADN pronto se
convirti en un proceso impracticable. Afortunadamente, en la actualidad, este
proceso ha sido automatizado mediante el uso de programas de ordenador (como
BLAST), permitiendo el anlisis del genoma de miles de especies (billones de
nucletidos de informacin). La misin de estos programas consiste en llevar a cabo
el alineamiento entre dos secuencias, es decir, obtener el conjunto de operaciones
de edicin (insercin, deleccin y sustitucin) que logran transformar una secuencia
en la otra, con el fin de identificar secuencias relacionadas, pero no idnticas.
Puesto que el alineamiento de secuencias constituye el caso de uso utilizado en
esta tesis, apartados posteriores profundizarn en esta cuestin.

Asimismo, una variante del alineamiento de secuencias, el ensamblaje de genomas,


es empleado en el propio secuenciamiento (denominado secuenciamiento,
Shotgun). En lugar de producir cromosomas enteros, la mayora de institutos de
Genmica optan por generar las secuencias de miles de pequeos fragmentos de
ADN. Puesto que los finales de estos fragmentos se solapan, un programa de
ensamblaje de genomas es capaz de reconstruir el genoma completo. Estos
programas, sin embargo, tienen un alto coste computacional y, por esta razn, la
mejora de los mismos supone una cuestin de gran inters en la investigacin
Bioinformtica
Anotacin de genomas

En el contexto de Genmica, la anotacin es el proceso por el cual los genes y otras


caractersticas biolgicas son identificados en una secuencia de ADN. El primer
programa software de anotacin de genomas fue diseado en 1995 por el Dr. Owen.
Biologa evolutiva computacional

La biologa evolutiva es el rea encargada de estudiar el origen y la descendencia


de las especies, as como tambin los cambios sufridos con el transcurso del
tiempo. En los ltimos aos, el uso asistido del computador ha permitido a los
investigadores: o Descubrir la evolucin de un gran nmero de organismos
mediante la observacin de cambios en el ADN, en lugar de basarse nicamente en
la taxonoma fsica u observaciones fisiolgicas. o Comparar genomas completos,
permitiendo, de esta forma, estudiar procesos evolutivos ms complejos, tales como
la duplicacin o la transferencia horizontal de genes.o Construir complejos modelos
computacionales de poblaciones.

Alineamiento de secuencias
Definicin

El problema computacional del alineamiento de secuencias no es una cuestin


nueva. De hecho, su origen se remonta a finales de los aos 60, momento en el que
se define, por primera vez, la distancia de edicin entre dos cadenas, es decir, el
mnimo nmero de operaciones de edicin (inserciones, borrados y sustituciones)
necesarias para transformar una cadena en otra. Sin embargo, desde el punto de
vista bioinformtico, el alineamiento de secuencias es el mtodo que permite
identificar regiones similares entre dos secuencias de ADN, ARN o protenas, con
el fin de inferir relaciones funcionales, estructurales o evolutivas entre ambas.
Tipos de alineamiento
El alineamiento de secuencias muy cortas o similares es una tarea poco costosa
que puede ser realizada manualmente. No obstante, los problemas ms
interesantes de la bioinformtica requieren el alineamiento de un gran nmero de
secuencias largas y distintas que no pueden ser alineadas sin ayuda del
computador. En lugar de alinear a mano las secuencias, la tarea de los
investigadores se ha centrado en desarrollar algoritmos que produzcan, de forma
eficiente, alineamientos de alta calidad. Puesto que el alineamiento es un problema
complejo, es posible abordarlo de maneras muy distintas, con diferentes niveles de
sensibilidad, especificidad y prestaciones, segn el objetivo que se persiga. Por
tanto, el presente punto se ocupar de hacer un repaso a los principales tipos de
alineamiento.
FORMATO FASTA
Introduccin.
El formato FASTA es el formato ms comn de secuencia de ADN, ARN y Protenas.
Es un formato de solo texto (se puede escribir o leer en un bloc de notas). En
bioinformtica, el formato FASTA es un formato de fichero informtico basado en
texto, utilizado para representar secuencias bien de cidos nucleicos, bien de
pptido, y en el que los pares de bases o los aminocidos se representan usando
cdigos de una nica letra. El formato tambin permite incluir nombres de
secuencias y comentarios que preceden a las secuencias en s.
Hay unas lneas de descripcin y unas lneas donde esta nuestra secuencia. La
secuencia mxima de las lneas del formato FASTA es de 80 caracteres de longitud,
es decir que cuando llegamos a 80 se empieza una nueva lnea. (Universidad
Distrital Francisco Jos de Caldas, 2011)

Figura 1. Formato FASTA, NBCI.


Entrada de consulta y seleccin de base de datos. (BUSCADOR)
Las secuencias de consulta que se utilizarn para una bsqueda BLAST deben
pegarse en el rea de texto Buscar. BLAST acepta una cantidad de diferentes tipos
de entrada y determina automticamente el formato o la entrada. Para permitir esta
funcin, se requieren ciertas convenciones con respecto a la entrada de
identificadores (por ejemplo, accesiones o gi's). Estos se describen a continuacin.
Los tipos de entrada aceptados son FASTA, secuencia simple o identificadores de
secuencia.

Formatos de entrada aceptada.


Fasta.
Una secuencia en formato FASTA comienza con una descripcin de una sola lnea,
seguida de lneas de datos de secuencia. La lnea de descripcin (defline) se
distingue de los datos de secuencia por un smbolo mayor que (">") al principio. Se
recomienda que todas las lneas de texto tengan una longitud inferior a 80
caracteres. Una secuencia de ejemplo en formato FASTA es:
> P01013 GENE X PROTEINA (RELACIONADA CON OVALBUMINA)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQM
MCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVY
LPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIK
HSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP

Las lneas en blanco no estn permitidas en el medio de la entrada FASTA.


Se espera que las secuencias estn representadas en los cdigos de aminocidos
de cido nucleico y IUB / IUPAC estndar, con estas excepciones: se aceptan letras
minsculas y se mapean en maysculas; se puede usar un solo guin o guin para
representar un espacio de longitud indeterminada; y en las secuencias de
aminocidos, U y * son letras aceptables (ver ms abajo). Antes de enviar una
solicitud, cualquier dgito numrico en la secuencia de consulta debe ser eliminado
o reemplazado por cdigos de letras apropiados (por ejemplo, N para el residuo de
cido nucleico desconocido o X para el residuo de aminocido desconocido). Los
cdigos de cido nucleico soportados son:
Una adenosina C citidina G guanina
T timidina NA / G / C / T (cualquier) U uridina
KG / T (ceto) SG / C (fuerte) YT / C (pirimidina)
MA / C (amino) WA / T (dbil) RG / A (purina)
BG / T / CDG / A / THA / C / T
VG / C / A - espacio de longitud indeterminada

Para aquellos programas que usan secuencias de bsqueda de aminocidos


(BLASTP y TBLASTN), los cdigos de aminocidos aceptados son:
Una prolina alanina P
B aspartato / asparagina Q glutamina
C cistina R arginina
D aspartato S serina
E glutamato T treonina
F fenilalanina U selenocistena
G glicina V valina
H histidina W triptfano
I isoleucina Y tirosina
K lisina Z glutamato / glutamina
L leucina X cualquier
Parada de traduccin de metionina * M
N asparagina : brecha de longitud indetermina

NOTA:
Los cdigos de nucletidos degenerados en rojo se tratan como desapareamientos
en la alineacin de nucletidos. Demasiados de tales cdigos degenerados dentro
de una consulta de nucletidos de entrada harn que la pgina web BLAST rechace
la entrada. Para las consultas de protenas, demasiados cdigos parecidos a
nucletidos (A, C, G, T, N) tambin pueden causar un rechazo similar.
La pgina web de BLAST no aceptar "-" en la consulta. Para representar huecos,
use una cadena de N o X en su lugar
1. S la secuencia es de nucletidos el formato permite los siguientes
smbolos:

Smbolo Significado
A Adenina
C Citosina
G Guanina
T Timina
U Uracilo
R Purina
Y Pirimidina
K GoT
N A, C, G o T
- Hueco

2. S la secuencia es de aminocidos el formato permite los siguientes


smbolos:

Smbolo Significado Smbolo Significado


A Alanina P Prolina
B Asparagina Q Glutamina
C Cisteina R Arginina
D cido Asprtico S Serina
E cido Glutmico T Treonina
F Fenilalanina U Selenocysteina
G Glicina V Valina
H Histidina W Triptfano
I Isoleucina Y Tirosina
K Lisina Z cido Glutmico
L Leucina M Metionina
N Asparagina * Fin de la
traduccin
BLAST
BLAST (Basic Local Alignment Search Tool) es un programa de utilidad que
mantiene el National Center for Biotechnology Information (NCBI). BLAST se
utiliza para buscar "coincidencias de bsqueda" en una base de datos de
secuencias de nucletidos o aminocidos. En BLAST, una coincidencia de
bsqueda contiene uno o ms pares de segmentos con un alto grado de
coincidencia (pares HSP). Un HSP es un par de fragmentos de secuencia cuya
alineacin es mxima localmente y cuyo grado de similitud excede cierto valor de
umbral. El NCBI proporciona un ejecutable, blastall, que se utiliza para llevar a
cabo bsquedas de BLAST en fuentes de datos que permiten la utilizacin de
BLAST como, por ejemplo, GenBank y SWISS-PROT.
El reiniciador de BLAST soporta los cinco tipos de bsquedas de BLAST:

Tipo de bsqueda
BLAST Descripcin
Un tipo de bsqueda BLAST en la que la secuencia de
nucletidos se compara con el contenido de una base de
datos de secuencias de nucletidos para encontrar
secuencias con regiones homlogas a las regiones de la
BLASTn secuencia original.
Un tipo de bsqueda BLAST en la que la secuencia de
aminocidos se compara con el contenido de una base de
datos de secuencias de aminocidos para encontrar
secuencias con regiones homlogas a las regiones de la
BLASTp secuencia original.
Un tipo de bsqueda BLAST en la que la secuencia de
nucletidos se compara con el contenido de una base de
datos de secuencias de aminocidos para encontrar
secuencias con regiones homlogas a las regiones de la
secuencia original. La secuencia de la consulta est
traducida en los seis marcos de lectura y cada una de las
secuencias resultantes se utiliza para buscar en la base de
BLASTx datos de secuencias.
Un tipo de bsqueda BLAST en la que la secuencia de un
aminocido se compara con el contenido de una base de
datos de secuencias de nucletidos para encontrar
secuencias con regiones homlogas a las regiones de la
secuencia original. Las secuencias de la base de datos de
secuencias estn traducidas en los seis marcos de lectura y
se busca en las secuencias resultantes regiones homlogas
tBLASTn a las regiones de la secuencia de consulta.
Tipo de bsqueda
BLAST Descripcin
Un tipo de bsqueda BLAST en la que la secuencia de
nucletidos se compara con el contenido de una base de
datos de secuencias de nucletidos para encontrar
secuencias con regiones homlogas a las regiones de la
secuencia original. En una bsqueda de tBLASTx, tanto la
secuencia de consulta como la base de datos de
secuencias estn traducidas en los seis marcos de lectura y
las secuencias resultantes se comparan para descubrir
tBLASTx regiones homlogas.
RESULTADOS

Ilustracin 1: Eleccin del organismo en molculas de tipo mRNA

Ilustracin 2: Secuencia de "Bacillus subtilis" seleccionada.


Ilustracin 3: Referencia obtenida de la secuencia del Bacillus subtilis. Aunque obtuvimos la
versin completa.

Ilustracin 4: Tabla de traduccin=11


Ilustracin 5: Formato cambiado a partir de la ilustracin 4.

TTT F Phe TCT S Ser TAT Y Tyr TGT C Cys


TTC F Phe TCC S Ser TAC Y Tyr TGC C Cys
TTA L Leu TCA S Ser TAA * Ter TGA * Ter
TTG L Leu i TCG S Ser TAG * Ter TGG W Trp

CTT L Leu CCT P Pro CAT H His CGT R Arg


CTC L Leu CCC P Pro CAC H His CGC R Arg
CTA L Leu CCA P Pro CAA Q Gln CGA R Arg
CTG L Leu i CCG P Pro CAG Q Gln CGG R Arg

ATT I Ile i ACT T Thr AAT N Asn AGT S Ser


ATC I Ile i ACC T Thr AAC N Asn AGC S Ser
ATA I Ile i ACA T Thr AAA K Lys AGA R Arg
ATG M Met i ACG T Thr AAG K Lys AGG R Arg

GTT V Val GCT A Ala GAT D Asp GGT G Gly


GTC V Val GCC A Ala GAC D Asp GGC G Gly
GTA V Val GCA A Ala GAA E Glu GGA G Gly
GTG V Val i GCG A Ala GAG E Glu GGG G Gly

Ilustracin 6: Tabla obtenida de la ilustracin 5 muestra los diferentes grupos de aminocidos por
su grupo de nucletidos.
II PARTE

Ilustracin 2.1 luego el microorganismo de estudio, se tienen que obtener l la secuencia de ADN en
formato FASTA

Ilustracin 2.2 se procede a ingresar a la pagina: https://www.ncbi.nlm.nih.gov/orffinder/ en el


cual se obtendrn las lecturas de marco abierto, para saber que protena ser codificada. Colocamos
la secuencia y en opcin de GENETIC CODE ponemos el tipo de microorganismo
Ilustracin 2.3 ya ingresando a la pgina se procedi a verificar la cantidades de ORF a partir de la
secuencia nucleotidica. Donde empieza desde la base nitrogenada A y termina en A.

Solo se obtuvo ORF1

Ilustracin 2.4 Entramos a BLAST y posteriormente a Nucleotide Blast


Ilustracin 2.5 Copiamos la secuencia del ORF1 y le damos en BLAST

Ilustracin 2.6 estos son los resultados BLAST, las puntuaciones de alineaciones
Ilustracin 2.7 Seleccionamos 3 organismos con identificacin al 100%, 95% y 92% y descargamos
en Formato FASTA con secuencias alineadas

Ilustracin 2.8 Descargado las secuencias, eliminamos el nombre del organismo y solo dejamos el
cdigo de identificacin, para luego copiar estas secuencias y colocarlo en CLUSTAL OMEGA. Que es
un programa de alineamientos de secuencias.
Ilustracin 2.9 Una vez ingresado a la pgina, colocamos nuestra secuencia de ADN.

Ilustracin 2.10 secuencias de ADN ya alineadas, mostrando ** que significan conservacin al 100%,
es decir que nuestra secuencia estn altamente conservada.
III PARTE
Ilustracin 2.10 secuencias de ADN ya alineadas, mostrando ** que significan conservacin al 100%,
es decir que nuestra secuencia estn altamente conservada.

Ilustracin 3.1 repetimos todo lo que es alineamiento local y mltiple para secuencia de protenas.

Ilustracin 3.1 Ingresamos a Protein BLAST. Pegamos la secuencia de protena del ORFs
Ilustracin 3.2 Seleccionamos 3 organismos con identificacin al 100%, 95% y 92% y descargamos
en Formato FASTA con secuencias alineadas

Ilustracin 3.3 Eliminamos el nombre del organismo y solo dejamos el cdigo de identificacin, para
luego copiar estas secuencias y colocarlo en CLUSTAL OMEGA.
Ilustracin 3.3 Alineamos.

Ilustracin 3.4 secuencias alineadas en donde

: significa aminocidos alifticos

. tamao del grupo R de aminoacidos

También podría gustarte