Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 documentation
Bioinformatics at COMAV
Bioinformatics & genomics Software Databases Downloads Courses
- Bases de datos
biológicas
Filogenias - Práctica bases de
La filogenia es el estudio de las relaciones evolutivas. Un análisis datos
filogenético no sólo nos indica las relaciones evolutivas entre las - Alineamientos de
secuencias o especies, cuales descienden de ancestros secuencias
comunes, también puede indicarnos cuales son las distancias - Práctica jemboss
entre ellas. Los métodos de reconstrucción filogenética más
- Práctica de
habituales asumen que todas las secuencias o especies
alineamientos
provienen de partir un ancestro común mediante bifurcaciones.
- Búsqueda de
secuencias en bases
de datos
- Práctica Blast
- Métodos predictivos
en ADN y ARN
- Práctica predicción
- Alineamientos
múltiples
- Práctica
alineamiento múltiple
- Introducción al
análisis de filogenias
- Práctica análisis de
filogenias
- Práctica anotación
con Blast2GO
- Prácticas bases de
datos genómicas
- Ejercicio anotación
- Ejercicio prediccion
2
- Secuenciación de
Sanger
- Ensamblaje de
secuencias
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 1/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
- Práctica ensamblaje
de secuencias
Asímismo asumen que todas las secuencias o especies de las que tenemos información son
especies actuales y que ninguna de ellas es un antepasado de cualquiera de las otras.
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 2/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
Los métodos filogenéticos nos permiten reconstruir su el árbol que representa la historia
evolutiva de las especies a partir de las evidencias experimentales de las que dispongamos.
Algunos tipos de evidencias que pueden ser utilizados son:
Datos morfológicos
Genotipos
Secuencias de ADN o de proteínas.
Algunas de las metodologías utilizadas por la filogenética, cómo por ejemplo los árboles
UPGMA, son también utilizadas comúnmente en otros ámbitos como, por ejemplo, en el de la
taxonomía. En estos casos no se está reconstruyendo una historia evolutiva sino únicamente
las relaciones de similitud entre los distintos grupos o individuos clasificados.
Presentación filogenia
Estrictamente hablando las especies no tienen porqué tener una única filogenia. Distintos
genes pueden haber tenido una historia distinta. En este caso se podría calcular la filogenia
de cada gen o una filogenia consenso de la especie.
Introducción a la filogenia
Los métodos filogenéticos reconstruyen árboles (dendrogramas) en los que las ramas y los
nodos unen diferentes taxones. Estos taxones pueden ser especies, individuos, genes, etc.
Al recorrer las ramas desde los nodos terminales hacia nodo original recorremos la historia
evolutiva de ese gen o organismo.
Un dendograma es un árbol que representa las relaciones entre los distintos nodos.
Un Clado es una rama del árbol. Representa un conjunto de especies emparentadas por un
antepasado común.
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 3/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
| -------------- A
| |--|
| | --------- B
| |
| -------------------------C
En un árbol ultramétrico todas las ramas desde el antepasado común hasta el actual tienen
el mismo tamaño.
| --------- A
| ------|
| | --------- B
| |
| ----------------C
La raíz es la base de todas las ramas. Los árboles pueden clasificarse en árboles con y sin
raíz.
| --------- A
| ------|
| | --------- B
| --|
| |
| ----------------C
|
| --------- A
| ------|
| | --------- B
| |
| |
| ----------------C
Monofilético el el grupo que sólo incluye ramas que provienen de un único antecesor
común. Un grupo polifilético incluye ramas que provienen de varios antepasados, por
ejemplo, el de los gusanos sería un grupo polifilético. Por último un grupo se denomina
parafilético si todos sus miembros provienen de un antepasado común, pero no incluye
todos los descendientes del mismo, los reptiles son un ejemplo de grupo parafilético puesto
que no incluye a las aves.
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 4/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
Una politomía es un nodo sin resolver del que parten varias ramas.
| --------------- A
| |
| |-------------- B
| |
| ----------------C
Topología
Un dendograma puede ser representado gráficamente de distintos modos equivalentes.
Hemos de ser cautos a la hora de decidir qué dendogramas son distintos y cuales no lo
son.
| --------- A
| ------|
| | --------- B
| |
| | --------C
| --------|
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 5/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
| --------D
|
| --------- B
| ------|
| | --------- A
| |
| | --------C
| --------|
| --------D
|
| --------- B
| ------|
| | --------- A
| |
| | --------D
| --------|
| --------C
Además, al hacer el árbol asumimos que las secuencias utilizadas incluyen información
suficiente como para resolver el problema. Esta es una asunción que podemos y debemos
comprobar por algún método estadístico.
Por último, hay que tener en cuenta que si pretendemos reconstruir un árbol de especies y
estamos utilizando una o varias secuencias para hacerlo hemos de asumir que las
secuencias elegidas son representativas de las especies incluidas en el análisis. Si no
fuese así estaríamos generando un árbol correcto de secuencias, pero no de especies.
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 6/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
En general los problemas suelen acumularse en las regiones más variables en las que
hay muchas sustituciones o muchos gaps. En estos casos podríamos estar incluyendo
posiciones que no son homólogas con lo que estaríamos introduciendo una información
espúrea en el análisis. Esta revisión de los alineamiento podemos realizarla con
programas desarrollados para tal fin. El Gbloks selecciona bloques según su nivel de
conservación y elimina aquellas regiones con gaps o no conservadas para obtener
bloques altamente conservados. El trimAI elimina regiones no conservadas y espúreas
teniendo en cuenta diferentes parámetros como el número de secuencias con gaps en
una posición, regiones con nivel bajo de similitud, etc.
distancias.
parsimonia.
máxima verosimilitud.
bayesianos.
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 7/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
Cálculo de distancias
La distancia es una medida del grado de divergencia entre dos secuencias. Utilizamos la
distancia como una aproximación al tiempo desde que las dos secuencias se separaron.
En este caso lo primero que se hace es generar una matriz de distancias por parejas de
secuencias a partir del alineamiento múltiple. En estos métodos toda la información de
similitudes y diferencias entre dos secuencias queda resumida por un simple número.
Existen diferentes estadísticos para calcular la distancia entre dos secuencias. En teoría
podríamos utilizar un estadístico tan sencillo como el porcentaje de posiciones
cambiadas entre dos secuencias, pero la mayoría de los estadísticos tienen en cuenta
que las posiciones pueden estar saturadas, es decir en el alineamiento vemos los
cambios definitivos pero no aquellos que han afectado a la misma posición varias veces.
Nuestro objetivo es tener una media de distancia que se comporte linealmente con el
tiempo. Debido al problema saturación llegará un momento que aunque aumente el
tiempo desde que dos secuencias se separaron las mutaciones quedarán enmascaradas
por actuar sobre la misma posición y será difícil contabilizarlas para la distancia. Para
solucionar este problema se suele utilizar un modelo de mutación mediante el que
intentamos evaluar la distancia real en base a las mutaciones que podemos observar.
Modelos de sustitución
Podemos calcular las distancias entre las secuencias asumiendo distintos modelos de
mutación. Hay modelos más sencillos y otros más complejos. Los más sencillos suelen
ser modelos demasiado simplificados que no se corresponden demasiado bien con la
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 8/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
Modelo Jukes-Cantor
Todas las posiciones evolucionan independientemente. Todas las bases están a igual
frecuencia. Todos los cambios se producen a la misma frecuencia. Las mutaciones son
fenómenos raros.
d = -3/4 ln (1-4/3p)
p proporción de cambios entre las dos secuencias
Modelo Kimura2-parametros
Modelo general
Este es uno de los modelos mas complejos. La frecuencia de los distintos nucleótidos
es distinta y la tasa de cambios entre los nucleótidos es diferente para cada tipo.
Además a este modelo se le puede añadir que no todas las regiones de la secuencia
evolucionan a la misma velocidad (las tasas de sustitución pueden variar a lo largo de
la secuencia (Distribución gamma).
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 9/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
Estos métodos basados en matrices de distancias son muy rápidos y permiten utilizar
secuencias muy largas en un gran número de individuos con unos recursos
computacionales de memoria y tiempo muy limitados.
Una vez hemos creado el árbol podemos estudiar cómo de preciso es el ajuste del
mismo a la matriz de datos original realizando un test de correlación cofenético. En este
test a partir del árbol se calcula una nueva matriz de distancias y esta matriz se compara
con la original para estudiar como de bien se correlacionan. También podemos realizar
un análisis de bootstrap para validar el árbol.
UPGMA
Neighbor-joining
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 10/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
Máxima parsimonia
El método de máxima parsimonia se basa en la filosofía de que la explicación más
simple, la que requiere menos cambios debe ser la correcta. Mediante este método se
obtienen árboles que ordenan las ramas de modo tal que se minimiza el número de
mutaciones que deben haber ocurrido.
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 11/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
Para elegir el mejor árbol, el árbol que implicase menos cambios, en teoría habría que
evaluar todos los árboles posibles. Este evaluación podría hacerse si el número de taxa
es pequeño, pero a medida que este número aumenta el número de árbol crece
desmesuradamente y no es factible evaluar todos los árboles posibles. En la práctica los
programas utilizan un método heurístico para evaluar sólo los árboles más razonables y
desechar directamente los más improbables.
A aat tcg ctt cta gga atc tgc cta atc ctg
B ... ..a ..g ... .t. ... ... t.. ... ..a
C ... ..a ..c ... ... ..t ... ... ... t.a
D ... ..a ..a ... ..g ..t ... t.t ..t t..
1 2 3 4 5
La posición 2 sí varía, pero tampoco es informativa puesto que en cualquier árbol que
podamos imaginar siempre contribuirá con una mutación. Este tipo de caracteres se
denominan autoapomorfías.
Las posiciones 4 y 5 sí son informativas puesto que indican que dos de los individuos
son más cercanos. Estas posiciones no serían explicadas con el mismo número de
mutaciones en todos los árboles y por lo tanto pueden utilizarse para discriminar entre
ellos. Este tipo de caracteres representan caracteres homólogos derivados
(sinapomorfías).
| ----A
| -----|
| | ----------------------------B
| |
| | --------------------------C
| -----|
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 12/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
| ----D
|
Máxima verosimilitud
El método de máxima verosimilitud busca el árbol máximoverosímil, es decir, el árbol que
es más probable que haya generado los datos que hemos observado. En este método
partimos de los datos y de un modelo de evolución. Partiendo de esta base se calcula la
probabilidad de que nuestros datos hayan sido generado por los distintos árboles
posibles y se devuelve el árbol que presenta una máxima probabilidad.
Para poder calcular uno de estos árboles es imprescindible elegir un modelo de mutación
a priori. Una vez determinado el modelo, el algoritmo hará una estima maximoverosímil
de los parámetros relativos a las tasas de mutación así como del árbol.
De modo análogo al método de parsimonia en este caso para calcular el árbol más
verosímil también deberían explorarse todos los árboles posibles, pero dado que eso es
computacionalmente imposible de llevar a cabo también se utilizan métodos heurísticos
para explorar tan sólo los árboles más razonables.
La desventaja principal del método es el coste de computación que conlleva. Hasta que
los ordenadores no tuvieron una potencia suficiente este método no pudo aplicarse e
incluso en los ordenadores modernos puede ser costoso si el número de taxa o la
longitud del alineamiento son grandes.
Métodos Bayesianos
La inferencia bayesiana calcula una probabilidad posterior para cada árbol posible dado
un modelo de evolución y unas observaciones. Es decir, dadas unas observaciones la
inferencia bayesiana actualiza las probabilidades de que los árboles sean correctos.
En caso de la filogenia bayesiana dados los datos que hemos observado, normalmente
una serie de secuencias, y unas probabilidades a priori se generan unas probabilidades
tanto para el conjunto de posibles árboles como para los parámetros del modelo de
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 13/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
mutación. En este caso el modelo de mutación también debe ser elegido antes de
comenzar la reconstrucción filogenética.
Este método es el que más tiempo y recursos computacionales requiere, pero suele
considerarse como el método que arroja unos mejores resultados.
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 14/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
analizando una filogenia de todo el reino animal. Un problema es que en algunos casos si
escogemos una secuencia demasiado distinta se puede distorsionar el resto del árbol. Otro
modo, menos común, de situar la raíz es asumir que se cumple la hipótesis del reloj
molecular de modo que podamos elegir la secuencia más distinta como la más antigua.
En los métodos bayesianos los nodos tienen asociados una probabilidad posterior que
indica la confianza que podemos tener en ellos, pero en el resto de metodologías debemos
utilizar algún método para hacer esta evaluación. Un método ideal consistiría en obtener
varios conjuntos de datos independientes y generar a partir de ellos distintos árboles.
Comparando qué nodos son compartidos por estos árboles y cuales no podríamos
hacernos una idea de qué resulta fiable y qué no. Desgraciadamente este método no
resulta práctico en muchas ocasiones por lo que se han desarrollado otros algoritmos que
nos ofrecen algo similar a tener varios conjuntos de datos para obtener distintos árboles.
Uno de los más utilizados es el bootstrap.
Este método se puede aplicar a todos los métodos y consiste en crear réplicas de los
alineamientos a partir del original, eliminando cierto número de posiciones al azar en cada
replica. El número final de posiciones se mantiene constante, añadiendo duplicaciones de
los sitios que han permanecido. Para cada una de estas réplicas aplicaremos el método de
reconstrucción filogenética y generaremos un árbol. El paso final será evaluar para cada
nodo el porcentaje de árboles en los que aparece. Los nodos con un alto valor de bootstrap
tienen, si se cumplen las asunciones del método utilizado, una probabilidad alta de ser
correctos mientras que los que tienen un bajo valor de bootstrap podrían haberse generado
simplemente por azar.
Se ha discutido mucho cuales son los valores límite que indicarían que un nodo es fiable y
no se ha llegado a conclusiones demasiado claras. Evidentemente un nodo que aparece en
el 95 % de los árboles tiene una apariencia de ser sólido mientras que uno que aparezca
en un 50% de los árboles no parece demasiado fiable. Pero en los casos intermedios es
difícil llegar a una conclusión demasiado clara. Resulta común encontrar dendogramas en
los que la discusión se centra en los nodos con valores de bootstrap mayores de 70.
Si generamos el árbol consenso con el programa consense del paquete phylip hay que
tener en cuenta que las distancias del árbol obtenido no se corresponden con las distancias
basadas en la matriz de distancias o en el número de mutaciones sino con el valor de
bootstrap. En este caso particular lo único que nos debe importar es la topología. Para
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 15/16
30/4/2020 Filogenias — Bioinformatics at COMAV 0.1 documentation
obtener el árbol correcto debemos aplicar los valores de bootstrap obtenidos mediante el
remuestreo al árbol obtenido con todos la matriz de datos completa, sin hacer bootstrap.
Programas de filogenias
Existen numerosos programas para realizar filogenias: Phylip, MEGA, MrBayes, Phylemon,
etc.
Bioinformatics at COMAV is licensed under a Creative Commons Reconocimiento 4.0 Internacional License.
https://bioinf.comav.upv.es/courses/intro_bioinf/filogenias.html 16/16