Está en la página 1de 5

INTRODUCCIÓN A LA BIOLOGIA COMPUTACIONAL

II 2018
FILOGENIAS MOLECULARES
Taller Alineamiento múltiple y filogenia de VIH

Luis Fernando García

Los datos

La proteína HIVgp120 es una envoltura fundamental del virus de inmunodeficiencia adquirida VIH (HIV
por sus siglas en inglés) y que facilita su acople y fusión con la célula blanco (los linfocitos humanos
CD4).

Figura 1. Representación gráfica de la proteína gp120 en el HIV.

La proteína gp120 contiene 9 puentes de disulfuro conservados, también hay una zona llamada V3-loop,
que es una superficie expuesta a alta actividad de interacción con anticuerpos y altamente variable.

En la plataforma Moodle del curso se encuentra el archivo PROTVIH.fas. Esta contiene 27 secuencias de
la proteína en formato fasta, para el virus humano HIV-1, HIV-2 y SIV (su ancestro de otros primates).
Visualícelo en una aplicación de texto. El primer renglón denota el nombre en este caso de la cepa del
virus y seguidamente la secuencia de aminoácidos.

>cepHV1A2
TEKLWVTVYYGVPVWKEATTTLFCASDARAYDTEVHNVWATHACVPTDPNPQEV….

Recuerde que cada letra representa uno de 21 aminoácidos posibles.


I Parte. Alineamientos

En una terminal en UBUNTU, escriba clustalw (Enter). Si el programa no está instalado, descárguelo:

sudo apt-get install clustalw

le solicitará la clave proporcionada al principio del curso

El formato de las secuencias puede tener varios formatos aceptados, el del taller corresponde a .fas
(fasta). El programa debe aparecer con 7 opciones disponibles (1-4 y S. H. X) en el Menú Principal.
Existen menú secundarios que especifican condiciones particulares de los análisis.

MENU PRINCIPAL

Tip1: Para regresar al menú inmediatamente anterior de ENTER, para regresar a dos menú anteriores, de
dos veces ENTER.

Your choice: 1 Sequence Input from Disc, escriba el nombre del archivo (PROTVIH.fas). Use
mayúsculas y minúsculas de manera idéntica al nombre del archivo e incluya el
nombre completo, incluso la extensión. El programa mostrará la longitud en
aminoácidos de cada secuencia, para un total de 27. Note que las longitudes
son distintas.

Your choice: 2 Multiple alignments. Especifica las condiciones del análisis para alineamientos
múltiples. Este es uno de los menú secundarios.
MENU SECUNDARIO DE ALINEAMIENTO
MULTIPLE

Your choice: 9 Output format options. Por default clustal arroja un output en formato
“clustal”, pero es buena idea tener outputs en distintos formatos compatibles
con otras aplicaciones. Active todos los formatos seleccionando F y los
números 1 a 6 (uno a uno). Eso garantizará el archivo de salida estará en siete
formatos distintos: fasta, clustal, NBRF/PIR, GCG/MSF, Phylip, Nexus,
GDE2. Deje las demás condiciones en default.

Regrese al menú anterior

Your choice: 1 Do complete alignment. Por default el programa asignará un nombre a cada
uno de los outputs (nombre del archivo original más la extensión
correspondiente .nxs, .fas, etc) y uno para el árbol guía (nombre archivo +
.dnd). De ENTER en todos los casos.

Tip2:Muchas veces se quieren hacer análisis distintos bajo condiciones diferentes. En este caso es
aconsejable cambiar los nombres de los outputs, pues el programa reescribe sobre el último.

En la misma carpeta donde está el programa aparecerán cada uno de los archivos recién creados. Con un
procesador de texto visualice cada uno de los archivos y observe diferencias de formato. Inicie con .nxs
que corresponde al más fácil de visualizar. Obviamente el alineamiento es el mismo, pero los formatos
distintos. Más tarde utilizaremos el formato .nxs (Nexus) y .phy (Phylip) dos de los más utilizados. En el
formato .nxs ubique regiones ricas en gaps y regiones muy conservadas y que corresponden a los distintos
“dominios” de la proteína en la Figura 1.

Ejercicio 1. Realice nuevamente el alineamiento, pero usando el esquema rápido (Pairwise


alignment=Fast, opción 4) y solamente grabe 1 output: .nxs. Debe cambiar el nombre al output, de lo
contrario borrará el primer análisis. Por ejemplo PROTVIH2.nxs. Observa diferencias en los dos
alineamientos realizados?

Por default en su carpeta se ha generado un archivo llamado PROTVIH dnd; también puede construirlo
nuevamente usando la opción 2. Corresponde a un árbol guía de similaridad que sirve como base para el
alineamiento, puede visualizarlo en R o con aplicaciones como Figtree o Treeview. Recuerde que como
tal, este diagrama no se considera una representación filogenética o evolutiva entre las secuencias. Es
simplemente un árbol guía basado estrictamente en similaridad. Más adelante será interesante compararlo
con un árbol obtenido bajo un método de reconstrucción filogenética.

ALIGNMENT MENU

Your Choice: 5 Pairwise Alignment Parameters


Your Choice: 1 Gap open Penalty (0,0-100), se trata de penalizar la presencia de gaps. El
default es 10.

Your Choice: 2 Gap extensión Penalty (0,0-10), se trata de penalizar la necesaria extensión de
residuos por la presencia de gaps. El default es 0.1.

Your Choice: 3 Protein weight matrix. Escoge una matriz de cambios ya establecida para
substitución de aminoácidos en secuencias de proteínas: incluye Blosum 30,
PAM 350, Gonnet 250.

Your Choice: 4 DNA weight matrix. Son las letras código que pueden definir un nucleótido,
por ejemplo N puede ser AGCT, V (GAC), B (GTC). Obviamente esta opción
aplica sólo si se están usando secuencias de ADN en la matriz original.

Ejercicio 2. Haga modificaciones de las condiciones 1, 2, y 3 y realice el alineamiento en


.nxs. Asegúrese de darles nombres distintos, visualice los alineamientos,
observa diferencias resultado de las condiciones utilizadas?, qué le sugieren los
resultados?

Las opciones 5-8 se refieren a alineamientos rápidos y aproximados. Déjelas sin modificar.

ALIGNMENT MENU

Your Choice: 6 Multiple Alignment Parameters

Your Choice 1 Gap Opening Penalty (0,0-100)


Your Choice 2 Gap Extension Penalty (0,0-10)
Your Choice 3. Delay divergent sequences. Se refiere a la mínima identidad requerida en una
comparación. (0-100%).
Your Choice 4 DNA Transitions Weight. Se trata de favorecer la existencia de transiciones y
dar mayor peso a las mismas (0,0-1). Obviamente sólo aplica cuando se usan
secuencias de ADN.
Your Choice 5 Protein weight matrix. Escoge una matriz que describe la frecuencia de
cambios de un amino ácido a otro a lo largo del tiempo. Incluye Blosum 30,
PAM 350, Gonnet 250

Your Choice 6 DNA weight matrix :IUB. En el caso de ADN son simplemente los códigos
utilizados para definir cada nucleótido o varios a la vez.
Your Choice 7 Use negative matrix :OFF
Your Choice 8 Protein Gap Parameters

Ejercicio 3. Modifique algunas condiciones para el alineamiento (particularmente opciones


1,2 y 3) y compare los alineamientos.

PHYLOGENETIC TREE MENU (en el menú principal). Opción 4.

Este componente del programa permite hacer unas inferencias generales de similaridad a través de
métodos de distancia como UPGMA y NJ. Aunque un diagrama de similaridad puede ser parecido a un
verdadero árbol filogenético, se deben tomar con precaución.

Your Choice: 1 Input an alignment. Se trata del archivo fasta inicial (PROTVIH.fas)

Your Choice: 6 Especifica los outputs requeridos. Por ejemplo .nxs, eso permitirá visualizar el
árbol en otras aplicaciones.
Your Choice: 2 Exclude positions with gaps. Se trata de eliminar todas las columnas del
alineamientos en donde hay gaps. Muy arriesgado y controversial!!

Your Choice: 3 Correct for multiple substitutions. Cuando en una misma posición de ADN o
amino ácidos es posible haya ocurrido más de un cambio, aunque sólo
detectamos el último.

Your Choice: 4 Draw tree now. Simplemente dibuja el árbol.

Your Choice: 5 Bootstrap Tree. Se puede especificar el número de replicas, ej 100 para este
ejercicio.

Your Choice: 6 Clustering algorithm. Es posible seleccionar UPGMA o NJ

Ejercicio 4. Realice los siguientes análisis y compare resultados, visualice los árboles en
Figtree o treeview

- NJ, excluya gaps, corrija sustituciones múltiples, bootstrap 100


- NJ, no excluya gaps, no corrija substituciones múltiples, bootstrap 100

Ejercicio en casa. En el Moodle ahora se encuentra la matriz vir_influenza.nex . Son secuencias


de ADN del virus de la influenza en distintos grupos animales, incluyendo el humano (cepa de Vietnam).

Realice análisis de alineamiento de distinto tipo en Clustalw, variando condiciones del programa e
incluyendo los distintos elementos aquí mencionados. Realice un pequeño reporte para la clase siguiente,
con las diferencias observadas usando diferentes parámetros en el análisis. Entregue en formato físico al
inicio de la clase del jueves (Nov8, Individual).

Para el reporte NO se limite a colocar los árboles o las impresiones de los alineamientos. Debe haber una
discusión relacionada con las diferencias observadas (por favor no entregue su reporte a mano, escríbalo
en un procesador de texto e imprima).

También podría gustarte