Está en la página 1de 4

INTRODUCCIÓN A LA BIOLOGIA COMPUTACIONAL

FILOGENIAS MOLECULARES
Luis Fernando García
II 2018
Taller 2

Inferencia Filogenética con Phylip: Parsimonia y Distancia

PHYLIP es uno de muchos programas para inferencia filogenética con diferentes métodos. Es amigable
y funciona con línea de comando combinado con terminales. Los archivos de alineamiento de secuencias
requeridos por Phylip son exclusivamente con terminación .phy (para Phylip) que pueden venir de Clustal
u otro programa de alineamiento, particularmente trabajaremos con las secuencias del ADNmt de los
primates incluyendo al hombre (H. sapiens) y que se envía por correo (primatesmtDNA.fas).

Unix

Descargue o actualice phylip en UBUNTU

Sudo apt-get install phylip


Sudo apt-get update

WINDOWS

Descargue de http://evolution.genetics. washington.edu/phylip.html, ubique Phylip en Archivos de


Programa o documentos.

En la carpeta Phylip existen 3 subcarpetas y un archivo HTML.

Doc Consiste en archivos HTML para cada una de las 42 aplicaciones que funcionan
independientemente y que hacen análisis diversos. Dan la explicación del fundamento de cada
programa. Muy útiles cuando se trabaja en detalle este paquete de programas.

Exe Contiene los ejecutables de cada una de las aplicaciones. En esta carpeta deben estar los archivos
de entrada que se pueden llamar infile o especificar cualquier otro nombre. Los archivos de
salida también por default reciben el nombre de outfile (una bitácora de los análisis realizados) y
outree (el árbol resultante del análisis, visible en FigTree u otro). Tenga en cuenta lo anterior
para que no confunda archivos de igual nombre pero diferentes análisis (ej el infile para el
programa de alineamiento son secuencias, pero el infile para la aplicación *nj será una matriz de
distancias). Una estrategia es crear una carpeta única con un nombre en particular (ejercicio,
taller, análisis etc) y allí colocar la aplicación de interés y el archivo de entrada (infile) necesario.

Src Contiene los archivos necesarios para el funcionamiento de los algoritmos. NO LOS
MODIFIQUE

Phylip.html Es una descripción general de los programas existentes y el tipo de información que
requieren.

En este taller usaremos 5 aplicaciones para ver el rango de posibilidades de análisis que diferencian los
métodos de Distancia y Parsimonia. En general, necesitará el resultado de una aplicación para usarla en la
siguiente. Recuerde colocar la aplicación específica a usar en una carpeta que contenga únicamente ese
ejecutable y el archivo de entrada (.phy) que corresponda. Sólo es necesario hacer doble click al
ejecutable y seguir las instrucciones. A continuación una descripción general del objetivo de cada
ejecutable y más adelante algunas de las opciones en cada caso.

En el caso del programa en UNIX, escriba el nombre del programa en letras minúsculas (ejemplo dnaml).
En algunos sistemas, tendrá que escribir ./ antes del nombre del programa, ej: ./dnaml.
PROGRAMA Qué hace Input File Outfile arrojado
Requerido
DNAdis Una matriz de distancia En formato Phy las Una matriz de distancia
entre las unidades estudiadas secuencias de ADN o en archivo .txt
proteínas alineadas
Use el default en todos los
casos de las opciones
solicitadas
Neighbor Un árbol de NJ con base en La matriz de Un archivo outfile que
matriz de distancia paso distancia del paso permite el display de los
anterior anterior análisis realizados, y un
archivo outtree que
permite ver el árbol en
otros programas.
Seqboot Hace pseudoreplicas de la En formato Phy las Un archivo con n
matriz original para probar secuencias de ADN o número de replicas de la
la confidencia del análisis proteínas alineadas. matriz original.
Para este ejercicio
haga solo 100
replicas.
DNApars Hace un análisis de La matriz original en
parsimonia, o de una matriz phy, o la que genera
única o de pseudoreplicas de seqboot con tantas
la misma replicas como se
quiera
Consensus Realiza un consenso de X El outtree con los X Outfile para ver el
número de árboles número de árboles archivo texto, outtree
para ver el árbol.

Ejercicio

Realice cada análisis, siguiendo las instrucciones del programa y procurando usar las condiciones
DEFAULT del mismo. Si lo desea puede hacer modificaciones en algunos de los supuestos explicados
aquí. Recuerde que puede hacer una copia del ejecutable en una carpeta distinta para mayor control pues
se generan muchos archivos que pueden confundir. Aunque haga copias de los programas NO modifique
la carpeta original de descarga del programa.

Obviamente es necesario primero generar el alineamiento de secuencias, en este caso de


ADNmitoprimates.fas, se encuentra en el Moodle, haga el alineamiento con ClustalW (como lo hizó en el
taller anterior), el archivo de salida debe ser con extensión .phy (Coloque en OFF las demás).

DNAdist. Archivo de entrada: Un alineamiento de secuencias (ej secuencias.phy)


Archivo de salida: Una matriz de distancias (ej distancias.phy)

APLICACIÓN DNAdist
D Tipo de distancia Se refiere a distintos modelos de
substitución para usar las distancias entre
pares. JK el más sencillo, F84 el más
sofisticado.
G Gamma Indica que hay heterogeneidad en la tasa
de evolución dentro de una misma
molécula. Generalmente es el caso.
T Tasa de trans vs. transv Normalmente hay más TI que TV, ½, 1/5,
1/10. Asuma que la relación es 2.0
C Categorías de Se refiere a cuantos tipos de subst se
substitución consideran. Ej 1(a=g=c=t), 2 (TI vs TV), 3
(2 tipos de TI, 1 tipo de TV), etc.
W weights Se refiere a la posibilidad de pesar más un
carácter en el análisis. Ej. Una
substitución en particular.
F wmpirical Se trata de usar las Frec. estándar de los
nucleótidos vs. estimarlas para el set de
datos en particular.
L Forma de la matriz Cuadrada o triangular (mejor)
M Datos múltiples Se refiere a si se usarán replicas de la
matriz. Por ahora no, la prox. parte del
ejercicio hará bootstrap

Una vez especifique las condiciones, vea el archivo de salida con la matriz de distancia correspondiente
en una programa de texto. Este será el archivo de entrada en la siguiente aplicación. Recuerde abrir una
carpeta con este archivo y la próxima aplicación.

Neighbor. Archivo de entrada: Una matriz de distancias (ej distancias.phy)


Archivo de salida: un dendrograma de semilaridad (ej arbol.phy)

APLICACIÓN Neighbor
N Tipo de árbol Se trata de escoger entre UPGMA y NJ.
O Raiz del árbol El outgroup ayuda a enraizar el árbol para
su mejor interpretación. Es el más distante
del grupo.
LyR Tipo de matriz Simplemente especifica la manera de
visualizar la matriz
J Ingresar al azar? Se trata de especificar si el ingreso de los
taxones es al azar o en el orden de la
matriz. Usualmente al azar es mejor.
M Multiple sets Cuando en el archivo vienen replicas de la
misma matriz, por ejemplo 100, 1000
veces. Para este primer análisis NO.

Visualice el árbol de salida con outfile en un programa de texto, o con outtree o figtree. Este permite
editar el árbol y visualizarlo de muchas maneras, juegue con las opciones en el menú de la izquierda.

El anterior árbol es un dendrograma de similaridad, construido a partir de una matriz de distancia. En


adelante construiremos árboles filogenéticos bajo principios de reconstrucción específicos.

La aplicación seqboot construye replicas de la matriz original a gusto del usuario para determinar el nivel
de confidencia de los árboles construidos. Sólo modificaremos tres de las condiciones, las demás serán el
default.

Seqboot. Archivo de entrada: Un alineamiento de secuencias (ej secuencias.phy)


Archivo de salida: un archivo con n pseudoreplicas de la matriz(ej replicas.phy)

APLICACIÓN Seqboot
D Tipo de datos En este caso son datos con secuencias,
pueden ser caracteres morfológicos, o
frecuencias de genes.
J Tipo de análisis Bootstrap es el más utilizado, Jacknife es
similar aunque tomando sólo un
porcentaje de los datos, especificados por
el usuario.
R Número de replicas Especificado por el usuario. Normalmente
mínimo 100-1000. Tenga en cuenta que el
tiempo computacional se incrementa al
aumentar las replicas.

Observe el archivo de salida (será un archivo de varias megas dependiendo el número de replicas y
tamaño original de la matriz). El archivo contendrá replicas de la matriz original. Este será su archivo de
entrada en la próxima aplicación.
DNApars busca el mejor árbol bajo el principio de parsimonia, y adicionalmente le pediremos que nos de
un soporte a los nodos del árbol usando las replicas construidas en el paso anterior. Se especificarán
algunas condiciones, las demás deje la opción por default.

DNApars: Archivo de entrada: una archivo con n replicas de la matriz original (ej replicas.phy)
Archivo de salida: un archivo con n árboles de n replicas (ej arboles100.phy)

APLICACIÓN DNApars
U Mejor árbol Es posible buscar el mejor árbol o darle
uno de inicio con la instrucción de que
busque uno mejor. En este caso
buscaremos el mejor.
O Outgroup Para enraizar el árbol, normalmente el más
distante.

V Número de árboles La parsimonia implica que es posible


encontrar más de un árbol igualmente
parsimonioso. Especifique 100 como
máximo.

M Analizar datos múltiples Sí, recuerde que construimos X replicas de


la matriz. Especifique que son DATOS
MULTIPLES Y el número que haya
construido. En la opción JUMBLE
especifique 1. Se refiere al número de
veces que se quiere al análisis. Un número
alto de replicas hará el análisis
computacionalmente muy largo. Para el
caso de mtDNA primates 1000 replicas
tardará aproximadamente 6-8 minutos.

En el archivo outfile encontrará cada uno de 1000 (si son 1000 replicas) de los árboles construidos. Y en
el archivo outtree los mismos árboles pero en un formato útil para la siguiente aplicación. Visualizar y
hacer conclusiones de 1000 árboles es imposible, así que la próxima aplicación hará un consenso de los
1000 árboles.

Consenso: Archivo de entrada: intree (n árboles de n replicas: ej arboles1000.phy)


Archivo de salida: un árbol consenso con soporte para cada rama (consensode1000.phy)

APLICACIÓN consenso
C Tipo de consenso Incluye ESTRICTO, o regla de la mayoría
O Outgroup Específica el grupo externo

Puede ver el árbol consenso en el archivo outfile, con los soportes en cada nodo. En general se considera
que un soporte mayor a 80% es bueno.

También podría gustarte