Está en la página 1de 20

Curso Teórico-Práctico de Posgrado

Herramientas informáticas
para el análisis estructural
de ácidos nucleicos y
proteínas
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS

CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS

2006
ALINEAMIENTO DE SECUENCIAS
Comparación alineamiento de a pares.
Alineamiento múltiple comparando varias secuencias relacionadas
Utilidad
. Destacar regiones de similitud, divergencia o mutaciones

. Motivos, estructura y función en proteínas. Resaltar errores en la predicción


de la secuencia de proteínas o en la secuencia misma

. Seleccionar primers de una familia de genes.

. Realizar análisis evolutivos (filogenia) árboles filogenéticos

Cómo obtener los mejores alineamientos

Homología.

Fragmentos que compartan regiones comunes o secuencia completa.


Estructura / Secuencia?
Editar manualmente.
Alineamientos múltiples

La premisa básica de un alineamiento múltiple es que para cada


columna en el alineamiento cada residuo de cada secuencia es
homólogo. Esto significa que ha evolucionado desde la misma
posición en una secuencia ancestral común sin inserción ni deleción.

información sobre estructura y función de proteínas


modo de evolución
filogenia. En el caso de la filogenia molecular el resultado del análisis dependerá
del alineamiento previo. Inspeccionar cuidadosamente ese alineamiento para ver
que se incluye y que no.
En caso de utilizar genes que codifican proteínas: usar secuencia de proteínas o de
DNA.
Métodos utilizados para realizar
alineamientos
Agrupación (clustering) es uno de los más utilizados.
Alineamientos óptimos requieren programas de computación.

Programa CLUSTAL
alineamiento global para un conjunto de secuencias
Las secuencias son alineadas de a pares y los pares con
puntaje (score) más alto son luego agrupados con otras
secuencias y los grupos (clusters) son armados de acuerdo a la
similitud.
Árbol guía no da información filogenética. Secuencias similares
más cercanas en el árbol (archivo.dnd)
Alineamiento múltiple constituye un paso fundamental.
Hasta 1989 alineamientos a mano. ClustalW –ClustalX
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS
UTILIZANDO EL PROGRAMA CLUSTALW
1. Secuencias en un archivo común en un formato compatible.
Nombre >abc
Formato FASTA
Genebank

2. Pegar archivo

3. Seleccionar opciones

Matrices
DNA identity matrix
Gonnet 250
Resultados del alineamiento múltiple de
4 proteínas
SeqA Name Len(aa) SeqB Name Len(aa) Score
=============================================================================
1 Ps.putida 304 2 Ps.fluorescensPfO -1 304 82
1 Ps.putida 304 3 Acinetobacter 311 52
1 Ps.putida 304 4 Ralstonia 307 50
2 Ps.fluorescensPfO-1 304 3 Acinetobacter 311 54
2 Ps.fluorescensPfO-1 304 4 Ralstonia 307 50
3 Acinetobacter 311 4 Ralstonia 307 52
=============================================================================

Alineamiento múltiple (basado en secuencia de proteínas-Fragmento)

Ps.putida MTVNISHTAEVQQFFEQAAGFCNAAGNPRLKRIVQRLLQDTARLIEDLDISEDEFWHAVD 60
Ps.fluorescensPfO-1 MTVKIAHTAELQKFFEEAAGFANDGGSSRLKTIVLRVLQDTARIIEDLEISEDEFWKAVD 60
Acinetobacter MEVKIFNTQDVQDFLRVASGLEQEGGNPRVKQIIHRVLSDLYKAIEDLNITSDEYWAGVA 60
Ralstonia MTHAEIEALAKQFIVDTAT---QGTANARVQQVVLRLTTDLFKAIEDLDLSQSEVWKGIE 57
* .: * :. *: : ...*:: :: *: * : ****:::..* * .:

Ps.putida YLNRLGGRGEAGLLVAGLGIEHFLDLLQDAKDQEAGRVGGTPRTIEGPLYVAGAPIAQGE 120


Ps.fluorescensPfO-1 YLNRLGGCSEAGLLVAGLGLEHFLDLLQDAKDAQIGLTGGTPRTIEGPLYVAGAPLYEGE 120
Acinetobacter YLNQLGANQEAGLLSPGLGFDHYLDMRMDAEDAALGIENATPRTIEGPLYVAGAPESVGY 120
Ralstonia YMAEAGATQELGLLAAGLGLERFLDVRADEADAKAGISGGTPRTIEGPLYVAGAPESKGF 117
*: . *. * *** .***::::**: * * * ..*************** *

Árbol guía
Archivo de datos

>s1
GCTCGGTATGTTGGTCGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAAA...............
>s2
GAcACTGCCCTCCCGATGCAGGGAAAAATCGGCGCCATTGTCGATCAATGAGCAGTAACGAACAAAATGC................
>s3
GCAAAGCgCacTTcAaATCaGGGCTCGACATCATCaCATAGCCCAccACGTCGTAAATgCCCGGCTTGACCAG .....
Construcción de árboles filogenéticos
Filogenia es la ciencia de estimar el pasado evolutivo. Filogenia
molecular basada en comparación de secuencias de proteínas o
de DNA.
Árbol filogenético 1° alineamiento múltiple.
Árbol obtenido dependiente de este alineamiento.

Árbol estructura matemática que se usa para modelar la


historia evolutiva de un grupo de secuencias o de organismos.

Árboles
. se pueden graficar de cualquier manera

. complejidad rotación (todas las ramas pueden rotar


alrededor del plano de sus nodos árboles =)

.crecen de izquierda a derecha

. etiquetas son horizontales.


Construcción de árboles filogenéticos

1. Definir conjunto de secuencias a analizar (DNA,


RNA o proteínas) provenientes de distintos
microorganismos

2. Alinear correctamente esas secuencias

3. Aplicar métodos adecuados para la


construcción de árboles filogenéticos

4. Evaluar estadísticamente el árbol filogenético


obtenido
Nodos
Ramas
Nodos
terminales:
OTUs (Datos)
Nodos
internos:
antecesores
hipotéticos

Raiz: nodo
del cual los
otros
descienden.
Da dirección

Patrón de ramificación:topología
Number of Number of Number of rooted trees
Taxa unrooted trees
3 1 3
4 3 15
5 15 105
6 105 945
7 945 10395
8 10395 135135
9 135135 2027025
10 2027025 34459425
Nr=(2n-3)!/[2n-2*(n-2)!], n ≥2
Nr para n = Nu para n+1
Nu=(2n-5)!/[2n-3*(n-3)!], n ≥3
Cladograma: es el modelo básico y simplemente muestra la distancia al antecesor común en
términos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo
evolutivo.

Filograma: contiene información adicional dada por la longitud de las ramas. Los números
asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad
de cambio evolutivo. Es aditivo. Métricos.

Dendrograma: tipo especial de árbol aditivo en el cual los extremos del árbol son
equidistantes de la raíz y son proporcionales al tiempo de divergencia. Ultramétricos.
Métodos para la construcción
de árboles filogenéticos
Métodos de distancia

Utilizan matrices de distancia

UPGMA: Unweighted Pair Group Method with Arithmetic Mean.

NJ-Neighbour Joining. Vecino más cercano

Minimum evolution. Utiliza el método de cuadrados mínimos.

Métodos discretos
Operan directamente con las secuencias
Parsimonia: usa un carácter. Criterio: buscar el menor número de
cambios evolutivos requeridos

Máxima verosimilitud (Maximum likelihood): utiliza el estado del


carácter y la distancia
Matriz de distancias
Sitios

1 2 3 4 5 6 7 Distancias
Secuencias

1 T T A T T A A
10
2 A A T T T A A
3 A A A A A T A 2 30
4 A A A A A A T 3 5 40
4 5 4 20
___________
1 2 34
Diferencia o divergencia entre las secuencias

.- Rápidos

.- información restringida al árbol


Métodos discretos
Analizan cada columna dentro del
alineamiento y construyen el mejor árbol que
se ajusta a esa condición
.- lentos
.- ricos en información. Hipótesis para cada
columna dentro del alineamiento. Puede
obtenerse información sobre evolución de
sitios específicos en la molécula (Ej.: sitios
catalíticos o regiones regulatorias).
Cómo comparar diferentes métodos de
construcción de árboles?

Eficiencia : rapidez
“potencia”: número de datos requeridos para
obtener resultados razonables
Consistencia
Robustez: sensibilidad a desviaciones
Información sobre si los supuestos son violados.

METODO IDEAL DEBERIA CUMPLIR LOS 5


CRITERIOS PERO NO EXISTE

Probar árboles con más de un método


4. Evaluación estadística del árbol
filogenético obtenido

El test más simple para probar si el


conjunto de datos “soportan” el árbol
obtenido es el del bootstrap.
Es un método estadístico que puede
estimar las distribuciones por creación
repetida y análisis de conjuntos de
datos artificiales.
Una forma de medir el error de muestreo es tomar muchas muestras de la
población estudiada y compararlas. Bootstrap simula esto pero en lugar de
muestrear de una población “remuestrea” los datos originando
pseudorréplicas.
Valores de bootstrap ( %).
> 50 %.
Programas
ClustalW Alineamiento
Graficar con Treeview, Phylodraw
NJ-Plot
PHYLIP
MEGA 3.1 Es el más fácil de manejar
PAUP* (POP STAR). Es el más sofisticado
y versátil
TRABAJO PRÁCTICO
1. Tutorial de ClustalW
Secuencias simples

Alineamiento múltiple. Analizar. Observar árbol guía.

ClustalW para construir el árbol. Modificar opciones en la


ventana “Phylogenetic tree”. Método utilizado por el
programa es el del NJ-Vecino más cercano (Neighbour
Joining). Elegir entre los posibles formatos de árbol
(Neighbour, Phylip, Distance)

Con el archivo obtenido del CLustalW (. ph)entrar en el


programa Treeview y graficar el árbol. Observar distintos
tipos de árboles. Definir el outgroup

También podría gustarte