Está en la página 1de 20

Alineamiento de secuencias y anlisis filogenticos.

Lic. Bioq. Leonardo Delgado Unidad de Fitopatologa, Facultad de Agronoma, Universidad de la Repblica.

Preparando las secuencia para analizarlas...

A partir de los cromatogramas de cada muestra debemos obtener la secuencia, lo ms limpia posible, sin Ns. Las secuencias para ser analizadas deben estar en formato FASTA.

Que es el formato fasta?


Es un archivo de texto simple que tiene en la primera lnea de texto tiene el smbolo > seguido del nombre de la secuencia con o sin descripcin, en la otra lnea la secuencia de corrido correspondiente. El archivo debe ser guardado en el bloc de notas , poniendo en donde dice Tipo de archivo cambiar .txt a Todos los archivos, nombrndolo de la siguiente manera: nombre_de_archivo.fasta.

> Nombre de secuencia (ENTER) Secuencia en una sola lnea..

Podemos tambin poner muchas secuencias, una a continuacin de la otra en un solo archivo y as tendramos un archivo multifasta.

Comparacin entre secuencias


Muchos programas se pueden utilizar para alinear y comparar secuencias entre s como por ejemplo clustalW, muscle, t-coffee, mafft, etc. Nosotros utilizaremos el programa gratuito MEGA, que tiene incluidos los algoritmos de clustalw y de muscle para alinear secuencias: http://www.megasoftware.net/ Adems este programa tiene otras funcionalidades como ejemplo para la realizacin de rboles filogenticos. Las secuencias para analizar y comparar entre s se pueden ingresar una a una mediante su archivo fasta, o con un multifasta que posea todas las secuencias que queremos analizar entre s. Al abrir las secuencias en el programa las observamos pero a primera vista pocas cosas se pueden concluir.

Al abrir las secuencias en el programa las observamos pero a primera vista pocas cosas se pueden concluir. Para obtener ms datos y realizar anlisis procedemos a ALINEARLAS

ALINEAMIENTO
Dentro del MEGA tenemos la opcin de alinear las secuencias pero que significa alinear? Realizar un alineamiento consiste en enfrentar las regiones similares de cada secuencia formando bloques o columnas de regiones que tienen cierta similaridad en todas las secuencias. Ojo!! que hay regiones en algunas secuencias que no tienen ninguna similaridad con las dems y el programa coloca espacios o GAPS, para seguir alineando las otras regiones similares. Estos gaps se pudieron haber originado debido a inserciones o deleciones en el proceso de evolucin.

Ahora que alineamos la secuencia anterior podemos ver que las regiones similares de cada secuencia se encuentran formando columnas o bloques de regiones similares Los extremos que corresponden al inicio y al final de la secuenciacin son poco precisos y tienen Ns, por lo tanto cortaremos estos extremos. Al final todas las secuencias deben de quedar del mismo largo contando los gaps que estn entre medio de las secuencias.

El archivo alineado y con los extremos cortados est casi pronto para empezar a realizar anlisis de secuencias y filogenticos, pero algunas secuencias tienen N en el medio de la secuencia. Que hacer con esas Ns? Las N se intentarn corregir observando el pico correspondiente a esa secuencia en el cromatograma y observando las bases con las que se aline la N en el alineamiento.

Anlisis de las secuencias

Mega tambin nos permite ver en las secuencias:


los sitios variables los sitios conservados los sitios de informativos para la parsimonia la composicin de las bases de cada secuencia. en el caso de secuencias codificantes traducir la secuencia, etc.

Anlisis de las secuencias


Para ello en el archivo de alineamiento lo exportamos al formato .MEG o ponemos en el menu de alinemiento: Data Phylogenetic analisis y nos abrir otra ventana para analizar las secuencias.

En esta figura se observan los sitios variables de las secuencias, marcando en la V en la barra de heramientas bajo el men.

Anlisis flilogenticos: rboles filogenticos


Nos permiten establecer las relaciones filogenticas, dando una salida grfica en forma de cladograma o dendograma, o ms comnmente conocido como rbol filogentico. Podemos utilizar este anlisis para saber: como se agrupan los aisaldos cuales corresponden la misma especie y cuales no que tan emparentadas estn las diferentes especies tiempo de divergencia o reloj molecular La informacin sale del alineamiento realizado. Si bien la informacin de partida es el alineamiento en s existen diferentes mtodos para obtener rboles filogenticos, los cuales nos pueden o no dar rboles distintos.

Mtodos para la obtencin de rboles filogenticos. Existen diferentes enfoques para construir rboles filogenticos:
1) Mtodos de distancia. (algortmicos) Basados en la estimacin de una matriz de distancia entre las secuencias. Por lo general estos mtodos son rpidos y obtienen un solo rbol, que no tiene porque ser el mejor.

NJ: Neighbor Joining UPGMA: Unweighted Pair-Group Method with Artirmetic Mean.
(En desuso, se ha remplazado con NJ)

2) Basados en la comparacin carcter-caracter de la misma columna. (tree-searching) Se obtienen varios rboles igual de buenos los cuales son evaluados por algn criterio determinado y se obtiene finalmente un rbol consenso o representativo si as se lo prefiere. Son ms costos desde el punto de vista computacional.

MP: Mxima parsimonia


Elije los rboles con la menor cantidad de cambios evolutivos

ML: Maximum Likehood enfoque


estadstico basados en modelos de evolucin molecular.

Bayes.
Inferencia Bayesiana, similar a ML, obtiene multiples rboles, enfoque estadstico basado en modelos de evolucin molecular, posee soporte de nodos, no es necesario bootstrap.

Qu mtodo utilizar?
Es una cuestin bastante filosfica el mtodo de eleccin para inferir rboles filogenticos, no existe un consenso en cual es el mejor mtodo, cada mtodo tiene sus ventajas y desventajas. Un factor a considerar en la eleccin del mtodo es el costo computacional (o sea el tiempo y consumo de recursos de la computadora) para obtener los rboles. El consumo de recursos computacionales es mayor en los mtodos basados en comparacin caractercarcter que en los de distancia. Los mtodos de distancia son ms rpidos pero no necesariamente dan el rbol verdadero o el mejor que se pudiera obtener. Si bien no nos asegura el mejor resultado nos muestra rpidamente las relaciones de las especies. Si queremos ver cual mtodo es mejor en nuestro caso se puede de consultar bibliografa de referencia, y/o comparar distintos mtodos y ver que tan dispares o similares son los resultados obtenidos.

La tendencia actual es la de utilizar los mtodos basados en la comparacin caracter-carcter como MP, ML o Bayes. Si bien el tiempo y costo computacional es mayor, las computadoras son cada vez ms veloces, dejando atrs el uso los mtodos de distancia como NJ que son ms rpidos.

Evaluacin del rbol obtenido


Qu podemos decir de los aislados que se encuentran en dicho rbol?

Como definimos a que especies pertenecen o se parecen los aislados?


Poner especies referencias nos permite identificar nuestros aislados en el rbol filogentico

Evaluacin del rbol obtenido


Como sabemos que tan consistentes son los grupos obtenidos en nuestro rbol? Dos mtodos estadsticos son los ms utilizados para evaluar los nodos del rbol: Bootstrap: Consiste en eliminar al azar la mitad de los caracteres de una matrz de datos, duplicarlos, y obtener nuevos rboles. Este proceso se repite n veces (numero de replicas) y el nmero de veces que aparece cada componente en frecuencia o porcentage se considera un indice de soporte. (es el ms usado) Jacknife: Semejante al anterior, se elimina al azar caracteres o taxones, pero sin reponerlos.

rbol evaluado con Bootstrap

Los valores de Bootstrap en los nodos se expresan en porcentaje. A mayor valor de bootstrap, mayor el apoyo estadstico que tiene cada clado o grupo.

Gracias por su atencin

También podría gustarte