Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FILOGENÉTICOS
- Filogenias:
Conceptos ........................................................................... 4
Métodos ........................................................................... 20
- Apéndices:
4
FILOGENIAS (CONCEPTOS Y METODOS)
5
6
Las filogenias y los sistemas de clasificación de los seres vivos:
Cladismo y especiación:
9
, según la cual cada proceso de especiación o de divergencia de linajes
pretérito correspondería a una bifurcación dicotómica (clado) del árbol
filogenético del grupo en estudio. Este modelo implica que una especie (o
linaje) más ancestral siempre da origen a dos nuevas especies (o linajes)
derivadas de ella. La proposición cladista se sustenta sobre la premisa de
que si dos especies A y B están más próximamente emparentadas entre sí
que con una tercera C es porque A y B comparten un antepasado común
(del cual han derivado) que no lo es de C. Si nos remontásemos al árbol
genealógico de todos los seres vivos siempre existiría un antepasado
común para dos especies por muy lejanamente emparentadas que estas
estuvieran.
10
11
Por último, la cladogénesis es compatible con los fenómenos de extinción
de linajes. Dichos linajes aparecerán reflejados en la filogenia de un
grupo siempre que los taxones fósiles hayan sido incorporados al estudio.
12
13
Elección de caracteres
15
16
Tipos de caracteres:
Los caracteres pueden ser de tipo cualitativo (p.e. colores, formas, etc.) o
cuantitativo (p.e., mediciones biométricas), y, a su vez, pueden registrarse
en forma de caracteres binarios (p.e. presencia/ausencia;
primitivo/derivado) o caracteres multiestadío (p.e. nucleótidos del ADN: A,
C, G, T). Los caracteres se registran en forma de matrices.
17
La escuela cladista discierne entre caracteres informativos y no
informativos, y dentro de los primeros, considera los estadíos primitivos y
derivado(s) que tienen esos caracteres. Aquellos caracteres derivados
compartidos por dos o más taxones, llamados sinapomorfías, son los
mejores indicadores del parentesco filogenético y son los únicos
informativos (los únicos que van a ser útiles en la construcción del árbol
filogenético). En contraposición a esto, caracteres compartidos pero
primitivos, llamados simplesiomorfías, que poseen todos los taxones, y
caracteres derivados pero no compartidos, llamados autapomorfías, que
poseen de forma única algunos taxones, no son informativos.
Terminología cladística
20
Dependiendo del número de taxones en estudio existirán distintos
posibles árboles filogenéticos enrraizados y no enrraizados. Con tres
taxones hay tres posibles árboles enrraizados y un sólo árbol no
enrraizado.
(2n - 3) !
N R = ---------- para n > 2
2n-2(n-2)!
2n - 5) !
N U = ----------- para n > 3
2n-3(n-3)!
21
22
Aplicaciones de las reconstrucciones filogenéticas
23
Filogenias: Eventos evolutivos de los seres vivos
24
Filogenias: Clasificación natural de los seres vivos
25
26
Filogenias: Procesos de hibridación
27
Filogenias: Estudios biogeográficos
28
Filogenias: Estudios de conservación
29
30
METODOS DE RECONSTRUCCIONES FILOGENETICAS
34
35
SECUENCIAS NUCLEOTÍDICAS DEL ADN
ALINEAMIENTOS DE SECUENCIAS
37
Alineamientos de pares de secuencias: Los índices de distancias y de
similaritud y las penalizaciones de las brechas.
A : TCAGACGATTG (m = 11)
B : TCGGAGCTG ( n = 9)
TCAG-ACG-ATTG
(I)
TC-GGA-GC-T-G
TCAGACGATTG
(II) * *
TCGGAGCTG--
TCAG-ACGATTG
(III) * *
TC-GGA-GCTG-
D = y + w. z
D=y+ w k.zk
39
S = x - ? wk zk donde wk = a + b k wk = a + b ln (k)
S = Max (x - ? wk zk)
D = y - ? w'k zk
40
Alineamiento múltiple de secuencias:
41
42
DIVERGENCIA ENTRE SECUENCIAS DE ADN
43
Para calcular correctamente las distancias evolutivas entre pares de
secuencias deben estimarse todas las posibles mutaciones que han podido
tener lugar en las distintas posiciones desde que las secuencias
divergieron de su ancestro común. Con este fin se han desarrollado
distintos modelos matemáticos que preconizan diferentes tasas de
sustitución de nucleótidos dependiendo de diversos parámetros
considerados.
44
MODELOS DE EVOLUCIÓN DE SECUENCIAS DE ADN
P A (0) = 1
P A(1) = 1 - 3α
46
P A (t + 1) - P A (t) = - 3α P A(t) + α [1 - P A (t) ] o:
d P A (t)
----------- = - 4α P A(t) + α
dt
Este modelo se aplica igualmente para los casos en los que el nucleótido
de partida sea C, G, o T. Por consiguiente, bajo el modelo de Jukes-Cantor
la frecuencia de equilibrio de cada uno de los cuatro nucleótidos en el
tiempo es 1/4. Después de alcanzado el equilibrio no habrá más
probabilidades de cambio para tiempos subsecuentes, es decir:
47
PA(t) = P C(t) = P G(t) = P T(t) = 1/4
48
nucleótido, tienen valores negativos compensatorios de los otros posibles
cambios).
49
Z (t) = 1/4 - (1/4). e-4β t
51
según el modelo K2P, las probabilidades de identidad son:
52
Cálculos de las tasas de sustitución de nucleótidos entre pares de
secuencias
Modelo JC:
probabilidad de identidad:
probabilidad de disimilaritud:
p = 1 - I (t) p = 3/4 (1 - e-8βt) 8αt = - ln (1 - 4/3 p])
como K = 2(3αt)
K = - (3/4) ln (1 - 4/3 p)
53
54
Modelo K2p:
S=M/L
L=M+U+w G.G
55
Sin embargo, para desarrollar ciertos análisis evolutivos (NJ) debemos
asumir que esas distancias son aditivas, y tratar de calcular las distancias
evolutivas a partir de las distancias por similaritud, aplicando alguno de
los modelos explicados antes (Jukes-Cantor; Kimura). La transformación
de las distancias por similaritud en distancias evolutivas se efectúa
mediante las fórmulas:
D = 1-S
d = - b lg (1 - D/b)
b = 3/4
b = 1 - [ (Π A + Π G)2 + (Π C + Π T)2]
56
d = - 1/2 lg [(1 - 2P - Q). V*1-2Q]
P = UP / N
Q = UQ / N
N = M + UP + U Q
58
59
MODELOS DE EVOLUCION DE SECUENCIAS DE ADN
Los modelos que se van a describir en esta sección son todos ellos modelos
de Markov, es decir, reversibles en el tiempo, que siguen un proceso
60
homogéneo, asumiendo que las probabilidades de sustitución de
nucleótidos no cambian en las diferentes partes del árbol.
61
El Modelo Reversible General que sigue un proceso de Markov
homogéneo y que se muestra en la figura adjunta viene representado
como una matriz Q 4x4 de tasas de sustitución entre nucleótidos en un
perido de tiempo infinitesimal dt, en el que las filas y columnas
corresponden, respectivamente, a los nucleótidos A, C, G, T, y que
incluyen los siguientes factores:
62
unos modelos en otros en orden de mayor complejidad a mayor
simplicidad.
63
- Modelos GTR, de Lanave et al. 1984 y otros, cuentan con 12 parámetros
( a, b, c, d, e, f, Π A, Π C, Π G, Π T) y suponen una aplicación del Modelo
General Reversible con tasas relativas de sustitución de nucleótidos
simétricas. Suelen ser poco utilizados por la complejidad de sus
asunciones.
64
• Partiendo del Modelo GTR y considerando que los nucleótidos tienen
frecuencias distintas:
65
(* κ = α / β representa el sesgo de transiciones y transversiones. Cuando κ
= 1 no hay preferencias por uno u otro tipo de sustituciones, y el modelo
K2P se reduce al modelo JC. Sin embargo, como hay dos veces más
transversiones que transiciones la relación esperada (ratio) de
transición:transversión es 1:2. Si, por ejemplo, κ = 4 esperaríamos
encontrar dos veces más transiciones que transversiones).
Otras posibles transiciones entre los modelos propuestos son el paso de los
modelos HKY85 ó F84 al modelo K2P considerando que las frecuencias de
los nucleótidos son iguales, o el paso del modelo F81 al modelo JC
considerando también que las frecuencias de los nucleótidos son iguales.
1 / 4 + 3 / 4 e -µrt ( i = j)
Pij (t, r) =
1 / 4 - 1 / 4 e -µrt ( i ? j)
Las tasas relativas r son acomodadas de tal forma que la media de la tasa
de sustitución permanece con un valor 1; en el caso más sencillo se asigna
una tasa rj a cada posición j. El fundamento de esta atribución debe de ser
alguna clasificación previa de las posiciones en categorías funcionales y la
signación de tasas relativas a esas categorias, p.e. categorías de las
posiciones 1a, 2a, y 3a de cada codon, o posiciones apareadas vs.
desapareadas en los genes de ARN ribosomales. También es posible
asignar tasas de sustitución relativas a categorías basadas en el modelo
de residuo de cambio.
El modelo más simple es aquel que separa las posiciones entre posiciones
invariables (que no sufren mutaciones) y el resto de posiciones que
evolucionan todas con la misma tasa. En este caso,
67
). Estableciendo b = 1 / a se obtiene una distribución con una tasa media
de 1, y una amplia variedad de tasas de distribución pueden ser
obtenidas variando el valor de a (figura adjunta).
I= ? 08 I g ( λ) d λ= 1 / 4 + 3 / 4 ( a / a + 8 α t) a
68
Distintos valores de a : 0.5, 1.0, 2.0, ... dan distintos modelos de
distribución de gamma.
69
¿Cómo elegir el modelo de sustitución de nucleótidos óptimo para calcular
las distancias entre nuestras secuencias?
2) Si la distancia JC está comprendida entre 0.1 y 0.3 ( 0.1 < d < 0.3)
utilizar el método de Jukes Cantor salvo que Ts:Tv > 0.5, en cuyo caso se
debe utilizar el método K2P.
3) Si la distancia JC está comprendida entre 0.3 y 1.0 ( 0.3 < d < 1.0 ) y la
tasa de sustitución ( λ ) varía entre los sitios, se utiliza la distribución
gamma para calcular la distancia. En los casos generales, puede usarse
una distancia gamma donde a = 1, aunque puede estimarse el valor de a a
partir de los datos.
4) Si la distancia JC está comprendida entre 0.3 y 1.0 ( 0.3 < d < 1.0 ) y las
frecuencias de los cuatro nucleótidos se desvían de la igualdad, se
recomienda utilizar la distnacia HKY85.
70
sinónimas, sin embargo, si se estudian taxones relativamente alejados se
recomienda el uso de posiciones con sustituciones dN.
71
RECONSTRUCCIONES FILOGENETICAS
BASADAS EN DISTANCIAS GENETICAS
• ARBOLES DE DISTANCIAS
• METODOS DE
RECONSTRUCCION
72
73
ARBOLES DE DISTANCIAS
74
Las distancias ultramétricas cumplen un criterio adicional, del triángulo
regular (que implica que la distancia entre a y b es menor o igual a la
distancia máxima de a a c y de b a c).
Las distancias aditivas son aquellas que satisfacen otro criterio adicional,
la condición de los cuatro puntos (la suma de distancias de a a b y de c a d
es menor o igual que el máximo de las suma de las distancias de a a c y de
b a d ó que el máximo de la suma de a a d y de b a c; lo que es equivalente
a que de las tres sumas d(a, b) + d(c, d), d(a, c) + d(b, d), d(a, d) + d(b, c) las
dos más largas sean iguales).
76
En la figura adjunta se muestran ejemplos de construcciones de árboles
ultramétrico y aditivo a partir de matrices de distancias genéticas. Los
árboles ultramétricos asumen la existencia de un reloj molecular en las
tasas de sustitución de nucleótidos a lo largo de las ramas del árbol, y esas
longitudes son proporcionales a una escala de tiempo evolutivo; los
árboles aditivos no asumen la existencia del reloj molecular, hipótesis
evolutiva que es más plausible en la mayoría de los linajes de grupos de
organismos.
77
78
MTODOS DE RECONSTRUCCIONES FILOGENETICAS
80
de esa muestra a todas las demás por N-2, siendo N=Número total de
muestras) (los valores ri y rj ya han sido divididos por N-2).
81
La nueva matriz de distancias del resto de las muestras al nudo u se
calcula mediante la fórmula:
82
83
84
85
86
Métodos aditivos: Fitch - Margoliash y métodos relacionados
T-1 T
E= ? ? w ij | d ij - p ij | α
i=1 j=i+1
w ij = 1 / d ij 2
w ij = 1 / σ ij 2
87
MAXIMA VEROSIMILITUD
88
89
Optimización de caracteres: Máxima Verosimilitud
91
Bajo la premisa de que las posiciones de la secuencia en estudio
evolucionan independientemente podemos calcular la verosimilitud para
cada posición, separadamente, y combinar el conjunto de las
verosimilitudes en un valor final.
92
Habiendo calculado las verosimilitudes en cada posición de la secuencia,
la probabilidad final del árbol (según el modelo seleccionado) a lo largo de
toda la secuencia se obtiene multiplicando las verosimilitudes
individuales de cada posición. Como esas probabilidades son números
muy pequeños se utilizan fórmulas logarítmicas para calcular el índice de
verosimilitud (la función logarítmica varía similarmente pero con valores
más equilibrados, produciendo una variación menor); así el índice de
verosimilitud final se computa como la suma de logaritmos neperianos de
las verosimilitudes individuales de cada posición.
93
Si evaluamos una topología distinta para las mismas secuencias (y según
el mismo modelo), procedemos del mismo modo que en el caso anterior,
computando un nuevo índice de verosimilitud (log ln) para este nuevo
árbol. Aquel valor de verosimilitud más alto (menos negativo) indica cuál
es el árbol preferido. De esta forma se pueden comparar distintas
topologías alternativas y seleccionar aquella que resulte más verosímil.
95
96
Puesto que los cálculos de los índices de verosimilitud de todas las posibles
topologías alternativas que pudieran reconstruirse a partir de una base
de datos de secuencias de un número de taxones medio o elevado (> 15) no
resulta factible, una estrategia comunmente utilizada consiste en relizar
una búsqueda exacta o heurística mediante otro método de inferencia
filogenética (p.e. Parsimonia), calculando a posteriori los índices de
verosimilitud de los árboles obtenidos mediante el método comentado y
seleccionando, a partir de estos valores, el (los) árbol(es) mejores.
97
En este caso los taxones terminales del árbol han ido apareciendo por
sucesivas divergencias de los nudos internos (ancestros) en los tiempos
evolutivos t, t1, t2. El modelo evolutivo seleccionado podría considerar
que la matriz de transición (sustitución de nucleótidos, p.e. K2P, con α -
transiciones y β - transversiones) es la misma a lo largo de los tiempo
evolutivos (t, t1, t2, t3) tratándose de un caso Markoviano reversible en el
tiempo. Sin embargo si el modelo presenta tasas de sustitución diferentes
en los distintos tiempos evolutivos ( t1 = α1, β1; t2 = α2, β2; t3 = α3, β3) el
modelo de Markov es estacionario y se aplican distintas fórmulas para
considerar que los nucleótidos i y j que muestran en una posición
determinada dos taxones terminales puedan deberse a una transición
(Sij) o a una transversión (Vij). En este caso el conjunto de parámetros
que nos definen el modelo evolutivo son los distintos tiempos evolutivos y
las tasas de sustitución en cada uno de ellos ( Θ = (t1, t2, t3, ...., α, β)T ) y
los datos observados son las diferencias en mutaciones transversionales
(V ) y transicionales (S) entre los distintos taxones terminales ( D = (V 12,
..., V1s, ...Vs(s-1), S12, ..., Ss(s-1)T). La función de verosimilitud responde a
una fórmula que consiste en una derivación de ecuaciones que buscan la
probabilidad de obtener una serie de parámetros condicionados a los
datos observados sobre la topología evaluada. Esta función rinde una
solución numérica que supone la estimación máximo verosímil de esos
parámetros en el árbol examinado. Los algoritmos de estimación de los
parámetros ( Θ ) suponen una serie de procesos iterativos que siguen el
método de Newton.
98
En las figuras adjuntas se muestran varios ejemplos de planteamientos
filogenéticos que pueden ser resueltos utilizando la prueba de razón de
verosimilitudes.
99
100
PARSIMONIA
101
102
Análisis de caracteres: Parsimonia
103
Las secuencias genómicas pueden utilizarse como ejemplo idóneo de
aplicación del método parsimonioso. Una posición sólo es informativa
cuando presenta, al menos, dos tipos distintos de nucleótidos, cuando cada
uno de esos nucleótidos está presente en, al menos, dos taxones, y cuando
al analizar el número de cambios de ese carácter sobre los posibles árboles
alternativos (hipótesis), selecciona uno de ellos como el árbol más corto
(menor número de cambios).
C
L = ? wj lj
j=1
Tipos de caracteres :
105
(Camin-Sokal). Estas clasificaciones se basan en asunciones a priori que
tendrán efecto en los particulares tipos de análisis de caracteres.
106
107
Optimización de los caracteres:
109
Construcción de árboles más parsimoniosos:
Métodos exactos:
Dos son los métodos que aseguran la obtención del árbol más
parsimonioso, la búsqueda exhaustiva y el algoritmo branch-and-bound.
110
uno de ellos, el número de cambios requeridos, calculándose de esta
manera sus longitudes, al final se escoge el árbol más parsimonioso.
112
Métodos heurísticos:
113
a ellos se conecta un cuarto taxon, de las tres posibles topologías se elige
la más corta, a ese árbol se le añade un quinto taxon, de las cinco posibles
topologías se elige de nuevo la más corta, y se prosigue de la misma forma
hasta que todos los taxones han sido incorporados. Este método no
asegura la obtención del árbol final más parsimonioso porque puede
suceder que alguno de los caminos desechados durante el proceso de
construcción, aunque en principio pareciese más largo cuando se llevaban
incorporados unos cuantos taxones, pudiera resultar ser, al final, el más
corto cuando todos los taxones se hubieran incorporado.
No hay una estrategia que funcione mejor que las otras, para diferentes
bases de datos. Closest implica mayor rigurosidad. Random, aunque no es
muy efectiva en términos de proceso de adición de taxones puede ser muy
útil para obtener distintos puntos de partida para el segundo método,
branch swapping, y para descubrir distintos óptimos locales ("islas" o
"familias" de árboles pseudoparsimoniosos).
115
NNI
SPR
TBR
116
El algoritmo TBR es el más corrientemente utilizado. Para cada árbol las
posibles bisecciones y reconexiones son evaluadas. Si un reordenamiento
encuentra un árbol más corto, una nueva serie de reordenamientos se
incician a partir de este árbol más corto. De esta forma, mientras
sucesivas tandas de reordenamientos vayan encontrando árboles cada
vez más cortos se podría llegar a alcanzar, eventualmente, el óptimo
global. Sin embargo, si el camino hacia ese árbol óptimo final requiere
pasar a través de árboles intermediarios más largos que él nos
encontraríamos atrapados de nuevo en un óptimo local (el algoritmo no
nos permitiría alcanzar el árbol más parsimonioso global).
117
El árbol más parsimonioso puede presentarse en forma de cladograma o
de filograma. En el cladograma se representan las ramificaciones o
eventos evolutivos (clados), siendo las ramas de igual longitud, mientras
que en el filograma se representan las longitud de las ramas (phylas).
Esas longitudes se corresponden con el número de cambios habidos en
cada una de las ramas, pero no equivalen a distancias evolutivas. Los
cambios de estadíos de caracteres habidos en las ramas internas, o
internudos, corresponden a sinapomorfías, mientras que los de las ramas
terminales corresponden a autapomorfías.
118
El 'efecto de atracción de ramas largas' es una de las adversidades que
presenta el método de reconstrucción filogenética basado en la
parsimonia; dicho efecto tiende a unir taxones terminales que presentan
ramas largas (con un número alto de cambios similares que han adquirido
independientemente), especialmente si esos taxones están situados en
clados muy próximos, conduciendo a la obtención de reconstrucciones
falsas.
119
consistencia (CI, consistence index); 2) el índice de homoplasía (HI,
homoplasy index); 3) el índice de retención (RI, retention index). Estos
índices se basan en los siguientes parámetros:
120
El índice de consistencia reescalado (RC) es el producto de los índices de
consistencia y de retención de cada carácter, siendo utilizado para
seleccionar los mejores caracteres -auquellos que presentan los índices
más altos- que pueden ser empleados en una segunda búsqueda por
parsimonia aplicándoles pesos mayores a posteriori.
121
Figura: a-c) Tres árboles igualmente parsimoniosos; d) árbol consenso
estricto; e) árbol consenso semiestricto; f) árbol consenso de la regla
mayoritaria
122
una primera isla de árboles pseudoparsimoniosos. A continuación se
generan 1.000 búsquedas con adiciones aleatorias de taxones,
reordenando las ramas mediante TBR, y salvando no más de dos árboles
por búsqueda que tengan una longitud mayor o igual a 5. Se computa el
árbol consenso de los árboles más parsimoniosos obtenidos por esta vía y,
si es de la misma longitud, se contrasta con el anterior y se observa si este
nuevo grupo de árboles representa una nueva 'isla' . Por último, se
utilizan los árboles consenso MP anteriores como restricciones topológicas
negativas para una nueva serie de 5.000 búsquedas aleatorias (random,
TBR) salvando no más de dos árboles por búsqueda que tengan una
longitud mayor o igual a 5 y cuyas topologías no coincidan con las de los
dos consensos anteriores. Caso de aparecer nuevas topologías igualmente
parsimoniosas nos hallaríamos ante una nueva 'isla'.
C
L = ? wj lj
j=1
Las razones para pesar de forma distinta unos caracteres u otros depende
de las asunciones que, a priori, se tengan sobre esos caracteres (p.e.
algunos caracteres son más fiables que otros y se les da mayor peso, o, por
el contrario, caracteres que se supone relacionados entre sí se les da 1/2
peso (respetando el principio de independencia de los mismos)).
123
uno. Concretamente, un caracter binario tiene un peso 1, uno con 3-
estadíos tiene un peso 1/2, uno con 4-estadíos tiene un peso 1/3, y así
sucesivamente.
124
El primer número representa la 'semilla'. PAUP utiliza el "1" como
semilla, por defecto; la razón de ello es que la misma base de datos rendirá
el mismo resultado de búsqueda con la secuencia de números
pseudoaleatorios en cualquier ordenador. No obstante, cuando se quieran
generar distintas búsquedas parsimoniosas con series de números
pseudoaleatorios habrá que cambiar la semilla inicial para cada una de
ellas (p.e. "2", "3", etc.).
Restricción 'Monophyly':
Restricción 'Backbone'
125
'espina dorsal' fuerza una topología relativa (que afecta sólo a los táxones
incluídos en la restricción y no afecta a los restantes).
Restricción 'Converse'
126
127
SEÑAL FILOGENÉTICA DE LA BASE DE
DATOS:
128
Árboles aleatorios:
129
TEORIAS DE CONTRASTE DE
HIPOTESIS:
130
131
Teorías de contraste de hipótesis: métodos
paramétricos y métodos no-paramétricos
132
133
La reconstrucciones filogenéticas obtenidas tanto por métodos basados en
distancias genéticas, como por parsimonia o por máxima verosimilitud,
pueden incurrir en errores de confianza. Para tratar de subsanar esos
errores existen distintos métodos no-paramétricos de estimación de la
bondad de las reconstrucciones. Los más empleados son los métodos de
remuestreo bootstrap y jacknife y el método analítico del índice de
decaimiento (decay index) (éste último se utiliza para reconstrucciones
parsimoniosas).
Bootstrap:
134
El procedimiento de bootstrap propuesto por Felsenstein (1985) consiste
en mantener constante el número de taxones y remuestrear los caracteres
reemplazándolos cada vez; p.e. se puede comparar un análisis bootstrap
de 1000 búsquedas con un bombo de lotería en el que las bolas fuesen los
caracteres, en el primer pseudomuestreo se saca una primera bola
(caracter) y se vuelve a meter al bombo (reemplazamiento), se vuelve a
sacar una segunda bola (que puede ser otro caracter ('otra bola'), o el
mismo caracter anterior ('misma bola') y se vuelve a reemplazar, y se
prosigue de la misma manera hasta igualar el número de caracteres de la
base de datos original, algunos caracteres estarán repetidos y otros
faltarán en este primer pseudomuestreo; con los caracteres seleccionados
se reconstruye el primer árbol filogenético. Este procedimiento se repite
un número determinado de veces (replicaciones, p.e. 1000 o 10000). A
partir de esas mil/diez mil reconstrucciones de bootstrap se computa el
árbol consenso bootstrap de mayores porcentajes (Bootstrap Mayority-
rule consensus tree).
Las ramas de ese árbol consenso llevan asociados unos porcentajes que
equivalen al porcentaje (%) de veces que los clados sostenidos por ellas
aparecen en las 1000/10000 reconstrucciones bootstrap, y que son una
estimación del nivel de confianza de la reconstrucción de esos clados. Se
compara el árbol consenso bootstrap con el árbol obtenido en la
reconstrucción inicial y se observa si los clados son los mismos; para
aquellos clados coincidentes se considera que los porcentajes bootstrap de
sus ramas son una estimación de la 'robustez' de los mismos.
Jacknife:
Decay index:
136
137
GRADO DE ÉXITO DE LAS
RECONSTRUCIONES FILOGENÉTICAS
138
139
NÚMERO DE TAXONES vs. NÚMERO DE
CARACTERES (Parsimonia):
140
COMPARACIÓN DE MÉTODOS:
a) Filogenias de Fagos:
a) Filogenias de Virus:
141
Comparación del grado de éxito de la
reconstrucción por distintos métodos:
142
Zona Felsenstein (Parsimonia):
143
COMBINACION DE BASES DE DATOS:
144
145
- COMBINABILIDAD
- PRINCIPIO DE LA EVIDENCIA
TOTAL (Kluge)
- FILOGENIAS CONSENSO
146
147
APÉNDICES
148
149
UTILIZACION DE PAUP
Creación de ficheros
El formato NEXUS
BEGIN DATA;
DIMENSIONS NTAX=number-of-taxa NCHAR=number-of-characters;
[FORMAT
[MISSING = missing-symbol]
[LABELPOS = {LEFT | RIGHT}]
[SYMBOLS ="symbols-list"]
[INTERLEAVE]
150
[MATCHCHAR=match-symbol]
[EQUATE="<symbol=expansion>…]"]
[TRANSPOSE]
[RESPECTCASE]
[DATATYPE={STANDARD | ADN | RNA | PROTEIN}]
[GAP=gap-symbol] ;]
[OPTIONS
[IGNORE={NONE | INVAR | UNINFORM}]
[MSTAXA={UNCERTAIN | POLYMORPH}]
[ZAP="character-list"]
[GAPMODE={MISSING | NEWSTATE}];]
[CHARLABELS character-name… ;]
[TAXLABELS taxon-name… ;]
[STATELABELS charnum-and-state-list [, charnum-and-state-list] … ;]
MATRIX data-matrix;
ENDBLOCK;
Identificadores de taxones:
151
Identificadores de caracteres:
152
Síntaxis:
ARN los símbolos son "ACGU" y las mismas equivalencias que para
los datos ADN, salvo que U sustituye a T
X se interpreta también como desconocido
153
PROTEIN los símbolos son "ACDEFGHIKLMNPQRSTVWY*" que
corresponden al código estándar IUB de Aminoácidos:
A = ala [alanine]
C = cys [cysteine]
D = asp [aspartic acid]
E = glu [glutamic acid]
F = phe [phenylalanine]
G = gly [glycine]
H = his [histidine]
I = ileu [isoleucine]
K = lys [lysine]
L = leu [leucine]
M = met [methionine]
N = asn [asparagine]
P = pro [proline]
Q = gln [glutamine]
R = arg [arginine]
S = ser [serine]
T = Thr [threonine]
V = val [valine]
W = trp [tryptophan]
Y = tyr [tyrosine]
* = nonsense[chain termination]
154
IGNORE el programa ignora ciertos caracteres (comunes) (p.e.
IGNORE=INVAR, ignora caracteres invariantes,
IGNORE=UNINFORM, ignora caracteres uninformativos), por defecto no
ignora ninguno.
ZAP el programa ignora ciertos caracteres seleccionados (no comunes) (p.e.
ZAP="1-10 20", ignora caracteres del 1 al 10 y el 20).
BEGIN ASSUMPTIONS;
[OPTIONS
155
[DEFTYPE=default-character-type]
[POLYCOUNT={MINSTEPS | MAXSTEPS}];
[USERTYPE name [{STEPMATRIX | CSTREE}]
= description;]
[CHARSET character-set-name=character-list;]
[TYPESET [*] name=character-type: character-list
[, character-type: character-list] …;]
[WTSET [*] weight-set-name=character-weight: character-list
[, character-weight: character-list] …;]
[EXSET [*] exclusion-set-name=character-list;]
[ANCSTATES [*] ancestor-name=character-state: character-list
[, character-state: character-list] …;]
ENDBLOCK;
USERTYPE Hay dos clases de tipos de caracteres que pueden ser definidos
por el usuario: CSTREE (Character-state tree) permite definir, en una
gráfica, la relacion lineal o ramificada entre los estadíos de un caracter, y
STEPMATRIX, matrices de pasos que asignan costes de transformación de
estadíos entre sí.
CSTREE los árboles de estadíos de caracteres se describen utilizando
paréntesis y definen las relaciones entre ellos. Ver ejemplos.
STEPMATRIX las matrices de pasos establecen los costes de
transformación de los estadíos, que se hallan situados en los ejes de abcisas y
ordenadas de la matriz. Ver ejemplo.
DEFTYPE sirve para definir los tipos de caracteres; por defecto éstos son del
tipo en que hallan sido predefinidos (p.e. desordenados), entonces utilizando
DEFTYPE=ORD, los caracteres son ordenados, o, combinando otras
asunciones, pueden establecerse diversos tipos de caracteres (p.e.
DEFTYPE=ORD; TYPESET MYTYPES=UNOR: 3 7, DOLLO:9-13;
según este comando los caracteres son ordenados salvo caracteres 3 y 7 que
sondesordenados y caracteres del 9 al 13 que son Dollo).
TYPESET asigna tipos a los caracteres (ejemplo anterior).
CTYPE mismo comando que DEFTYPE
156
= 1) (p.e. WSET 2: all, 1: 2 6 11; todos los caracteres tienen peso = 2 menos
caracteres 2, 6, y 11 que tienen peso 1).
157
EXCLUDE /
EXSET excluye ciertos caracteres asignándoles un peso = 0, por defecto
todos los caracteres están incluídos, el comado es acumulativo, caracteres que
se han excluído anteriormente pueden ser incluídos en una orden posterior,
los caracteres excluídos no contribuyen a la longitud total del árbol pero
pueden examinarse sus cambios sobre la topología obtenida con otro grupo de
caracteres (p.e. EXSET 1-25; excluye caracteres de 1 a 25, INCLUDE 15;
incluye caracteres de 5 a 15, permaneciendo los restantes excluídos.
REWEIGHT permite el peso a posteriori de los caracteres, ese peso
puede estar balanceado conforme a una base escalada de pesos y puede ser
referido a los valores de los índices de ajuste de caracteres al árbol
filogenético obtenido en una primera búsqueda (INDEX: índices de
consistencia CI, de RI, o de consistencia re-escalada RC), la opción de ajuste
FIT puede ser invocada para que los pesos a posteriori se ajusten al valor
máximo posible, el mínimo, o la media (MAXIMUM, MINIMUM, MEAN) (p.e.
REWEIGHT BASEWT=10 FIT=MAXIMUM INDEX=CI; indica peso a
posteriori de caracteres con escala base 10, y ajuste de valores máximo según
los índices de consistencia obtenidos para cada caracter).
ANCSTATES asigna estadíos ancestrales a los caracteres, este
comando es necesario si los caracteres son de tipo irreversible o si se
establecen matrices de pasos de transformaciones asimétricas para los
caracteres, y es optativo si se quieren definir polaridades en los estadíos de los
caracteres, por defecto el programa no asigna estadíos ancestrales (p.e.
ANCSTATES ALLZERO=0: ALL; en todos los caracteres el estadío ancestral
es 0; ANCSTATES MIXED =j0: 1 3 6-10, 1: 2 4 12; para los caracteres 1, 3, y
de 6 a 10 el estadío ancestral es 0 y para los caracteres 2, 4, y 12 el estadío
ancestral es 1). Ver ejemplos.
BEGIN TREES;
[TRANSLATE token taxon-name [, token taxon-name] …;]
[TREE [*] name = tree-specification;]
[UTREE [*] name = tree-specification;]
ENDBLOCK;
158
facilitará una posterior escritura compacta de esos árboles (ejemplo
TRANSLATE 1 Triticum 2 Bromus 3 Brachypodium 4 Poa 5 Agrostis;).
TREE y UTREE se utilizan para escribir árboles enrraizados y no-
enrraizados, respectivamente. Para incluir multiples árboles se puede
utilizar uno u otro comando, pero no mezclados (todos los árboles que se
definan serán enrraizados o no-enrraizados). (p.e. UTREE1 (3,( (1,2),(4,5)));
UTREE2 ((4,5), (3, (4,5))); ) (p.e. TREE1 (3, (1,2), (4,5)); ).
Las descripciones de los árboles requieren que las etiquetas de los taxones
sean las asignadas en el bloque de datos (matriz de datos); no obstante puede
utilizarse el comando TRANSLATE para definir una tabla de traducción de
dígitos (o símbolos) empleados en el árbol que se correspondan con las
etiquetas de los taxones de la matriz de datos. Si el comando TRANSLATE
no está presente, una tabla de traducción asigna por defecto dígitos desde 1
hasta NTAX a las etiquetas correspondientes de la matriz de datos, de tal
forma que los dígitos pueden emplearse en las especificaciones de cada árbol
en lugar de los nombres. Sin embargo es mejor definir una tabla de
traducción para los taxones más que utilizar la tabla por defecto ya que así
cualquier reordenamiento de los taxones en la matriz no afectará a la
definición de los árboles.
Si uno o más taxones son omitidos en la especificación del árbol, esos taxones
se unen al nodo de la raiz del subarbol descrito en la especificación. Ver
ejemplo.
ROOT /
DEROOT los árboles pueden enrraizarse (si no estaban enrraizados
previamente) o desenrraizarse (si lo estaban). Para escribir las descripciones
de los árboles la posición de la raíz se ignora, y posteriormente se pueden
enrraizar en cualquier punto (incluyendo taxones terminales o nudos
internos).
Taxones multiestadío:
161
matrix
tax1 1 1 0 0
tax2 1 (12) 1 0
tax3 0 2 1 (01)
tax4 0 0 1 1
;
162
163
Ejecución del programa - Búsquedas filogenéticas
El comando de línea
164
Save guardar fichero
Save as guardar como (guardar el mismo fichero con distinto
nombre)
Revert abandonar los cambios en un fichero y volver a la ultima
version guardada del mismo
Page set up
Print file
Echo to printer
Print selection
Log Output to Disk
Execute "manual" el programa ejecuta el fichero
Export file exportar el fichero a otros formatos (PHYLIP, Henning,
etc.). No hace falta para MacClade ya que Paup y MacClade
son interconvertibles.
Import file importar un fichero desde otro formato
Quit abandonar el programa
165
Antes de utilizar Paup deberá constatarse que el programa
dispone de suficiente memoria de operación, pudiéndosele
asignar más memoria operativa si las búsquedas a desarrollar
implican un gasto considerable de memoria, si no fuera así se
corre el riesgo de que una búsqueda concreta se paralice por
falta de memoria suficiente.
Search status muestra el tipo de búsqueda que se está llevando a
cabo
PAUP Help ayuda
Zoom
Clean Up deja las ventanas en sus condiciones iniciales, por defecto
Close All cierra todas las ventanas abiertas
Editor Windows permite editar ficheros adicionales
166
Ignore Characters permite ignorar caracteres comunes (invariantes,
uninformativos)
Semigraphics transforma los árboles a formato ASCII
Editor permite cambiar algunas opciones de edición
Warnings & Errors especifica advertencias y errores
NEXUS Format permite escoger algunas opciones del formato
Nexus
Startup Preferences permite cambiar los condicionantes que tiene
Paup por defecto, los nuevos entrarán en vigor al reiniciar Paup
Restore Option Settings se recuperan los condicionantes anteriores
Búsquedas de árboles
Se pueden dirigir con comandos de bloque o con comandos del menú (Ver
Manual Paup).
167
EJERCICIOS
168
169
EJERCICIO 1:
Dada la siguiente matriz de datos binarios para seis taxones (A, B, C, D, E, F):
Taxon A 0 0 0 0 0 0 0 0 0 0 0
Taxon B 1 0 0 0 1 0 0 0 0 1 1
Taxon C 0 0 0 0 0 0 0 0 1 1 1
Taxon D 0 1 1 0 1 0 1 1 0 1 0
Taxon E 0 1 1 0 0 1 1 1 0 1 0
Taxon F 0 1 1 1 0 0 0 1 0 1 0
Reconstruya el árbol más parsimonioso. Indique qué caracteres son informativos, variables, y
homoplásicos sobre la topología más corta. Identifique un grupo monofilético, un grupo
polifilético y un grupo parafilético.
EJERCICIO 2:
Dadas las siguientes secuencias de un gen hipotético para cinco taxones (A, B, C, D, E):
Taxon A ACCGATGACCGTCGCTGTAG
Taxon B ACCGATGGCCTTTGGTGTAA
Taxon C ACCGATGACCGTCGCCGTAA
Taxon D ACCAATCACCGTAGCTGTTA
Taxon E AGCATTCACCCTATCTGTAA
a) Distancias
- Calcule todos los pares de distancias entre las secuencias (considerando D = No.
posiciones no sinónimas entre cada par). Con esta matriz de distancias reconstruya un
árbol, utilizando el taxon E como grupo externo; trate de estimar la longitud de las
ramas. ¿Se podría construir un árbol aditivo? ¿Se obtendría el mismo árbol con una
construcción ultramétrica (UPGMA)?
b) Parsimonia
- Identifique el número de sitios invariables, el número de sitios variables, y el número
de sitios parsimónicamente informativos. Evalúe los árboles aditivos y ultramétricos
anteriores mediante cambios parsimónicos e indique qué árbol es más corto.
Compruebe si puede haber algún otro árbol más parsimonioso.
170
EJERCICIO 3:
A B C D E
B 0.05
C 0.14 0.14
EJERCICIO 4:
A 1 0 0 0 0 0 1 1 1 1 0 1 0 1 1
B 0 0 0 0 1 0 0 1 1 1 0 1 0 1 0
C 0 1 1 0 0 1 1 0 0 1 0 0 1 1 0
D 1 0 0 1 0 0 0 1 1 1 0 1 0 1 1
E 0 0 0 0 1 0 0 1 1 1 0 1 0 1 0
F 0 1 1 0 0 1 0 0 0 1 0 0 1 1 0
G 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0
H 0 0 0 0 0 1 0 0 0 1 1 0 1 1 0
I 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
171
EJERCICIO 5:
Amo - 0.4289
EJERCICIO 6:
A
GACTATGCTCAGCTTGATTGCCAGGCAGGCTGCCCCCAGCAAAACGCCTGCCGGTGTGCTCCA
B
GTCTGCGCCCAGCTTCATTGTCAGGCGGGCTGCCGTCCGCAGAACGTTTGTCCGTGGGGTCCG
C
GTGTGTGACCATGTCCACTGCCAAGCAGGTTGTCCCCAACAAAATGTCAGTCGTTGTGGCCCG
D
GTGCGCGCTCATCTCCACTGTCAAGCGGGTTGTCCTCAACAGGATGTTTGCCGTTGGCGCCAA
172
EJERCICIO 7:
BEGIN DATA;
DIMENSIONS NTAX=12 NCHAR=982;
FORMAT MISSING=? GAP=- MATCHCHAR=. INTERLEAVE DATATYPE=DNA ;
MATRIX
[ 10 20 30 40 50 60 70 80 90 100]
[ . . . . . . . . . .]
Brachypodium AAACCTGCTAAGTGTTAACTTCCAAATTCAGAGAAACCCTGGAATTAAAAAAGGGCAATCCTGAGCCAAATCCGTGTTTTGAGAAAACAAGG-GGTTCTC
[99]
Faltissima ..............G.............................................................................A.......
[100]
Fpyrenaica ..............G.............................................................................A.......
[100]
Fquadriflora ..............G.........................................................................T...A.......
[100]
Fgautieri ..............G.............................................................................A.......
[100]
Vulpia ..-...........G.............................................................................A.......
[99]
Falpina ..............G.............................................................................A.......
[100]
Feskia ..............G.............................................................................A.......
[100]
Fgigantea ..............G.............................................................................A.......
[100]
Fpaniculata ..............G.............................................................................A.......
[100]
Fpratensis ..............G.............................................................................A.......
[100]
Fborderei ..............G.............................................................................A.......
[100]
[ 110 120 130 140 150 160 170 180 190 200]
[ . . . . . . . . . .]
Brachypodium GAACTAGAATCCAAAGGAAAAGGATAGGTGCAGAGACTCAATGGAAGCTGTTCTAACGAATCGAGTTAATTTATTTAGGTTGTTTTGGTAGTGGAAATCC
[199]
Faltissima ..........A............................................................-----.C.....G...T........T...
[195]
Fpyrenaica ..........A............................................................-----.C.....G...T........T...
[195]
Fquadriflora ..........A............................................................-----.C.....G...T........T...
[195]
Fgautieri ..........A............................................................-----.C.....G...T........T...
[195]
Vulpia ..........A............................................................-----.C.....G...T........T...
[194]
Falpina ..........A.....................................................A......-----.C..C..G...T........T...
[195]
Feskia ..........A............................................................-----.C.....G...T........T...
[195]
Fgigantea ..........A............................G.......................G.-.....-----.C.....G...T........T...
[194]
Fpaniculata ..........A............................G...............................-----.C.....G...T........T...
[195]
Fpratensis ..........A............................G.......................G.-.....-----.C.....G...T........T...
[194]
Fborderei ..........A............................................................-----.C.....G...T........T...
[195]
[ 210 220 230 240 250 260 270 280 290 300]
[ . . . . . . . . . .]
173
Brachypodium TTTTAAATTAGAGAAAGAAGGGATTTTTACATCTAATAAACACGTATA-GATACTAACATAGTAAACGATTAATCACAGAA-TCCAAGTATAA------C
[291]
Faltissima ..C......T............C...A.....................-......GG.....C..............G...CC.AT.T.....TTATAAT
[294]
Fpyrenaica ..C......T............C...A....C................-......G......C..............G...CC.AT.T.....------T
[288]
Fquadriflora ..C......T............C...A....C................-......G......C..............G...CC.AT.T.....------T
[288]
Fgautieri ..C......T............C...A....C................T......G......C..............G...CC.AT.T.....------T
[289]
Vulpia ..C......T............C...A....C................-......G......C..............G...CC.AT.T.....------T
[287]
Falpina ..C......TT...........C...A....C................-......G---------............G...CC.AT.T.....------T
[279]
Feskia ..C......T............C...A....C................-......GG.....C..............G...CC.AT.T.....------T
[288]
Fgigantea ..C......T............C...A.....................-......GG.....C.............TG...CC.AT.T.....------T
[287]
Fpaniculata ..C......T............C...A.....................-......GG.....C.............TG...CC.AT.T.....------T
[288]
Fpratensis ..C......T............C...A.....................-......GG.....C.............TG...CC.AT.T.....------T
[287]
Fborderei ..C......T............C...A....C................-......G......C..............G...CC.AT.T.....------T
[288]
[ 310 320 330 340 350 360 370 380 390 400]
[ . . . . . . . . . .]
Brachypodium ATAGGTTCTTTATTCTTTTTTAGAATGAAATTAGGAAG-------GATTATGAAATAAAAAATTAATAAATTTTTT--AGAATTATT-----GTGAATCC
[377]
Faltissima ................................T-...ATAGAAAT...........C.......C.G..T......--G........-----........
[386]
Fpyrenaica ................................T-...ATAGAAAT...................CTG..T.....GT-.........T----.-......
[381]
Fquadriflora ................................T-...ATAGAAAT...........C.......C.G..T......T-.........T----.-......
[381]
Fgautieri .....G..........................T-...ATAGAAAT...................C.G..T......T-.........T----.-......
[382]
Vulpia ................................T-...ATAGAAAT...................C.G..T.....GT-.........T----.-......
[380]
Falpina ................................T-...ATAGAAAT...................T.G..T.....GT-.........T----.-..T...
[372]
Feskia ................................T-...ATAGAAAT...................C.G..T......T-.........T----.-......
[381]
Fgigantea ...........................C....TT-..ACAGAAAT...........C.......C.G..T......TTT........TTATT........
[386]
Fpaniculata ...........................C....TT-..ACAGAAAT...........C.......CT...T......--G........-----........
[380]
Fpratensis ...........................C....TT-..ACAGAAAT...........C.......C.G..T......TTT........TTATT........
[386]
Fborderei ................................T-...ATAGAAAT...................CTG..T.....GT-.........T----.-......
[381]
[ 410 420 430 440 450 460 470 480 490 500]
[ . . . . . . . . . .]
Brachypodium ATTCTAATTGAATCTTGAGTAATCAAATCCTTCAATTCAAAGTACTTGAGATCTTTTAAAAAGTGGATTAATCGGACGAGGACAAAGAGAGAGTCCCATT
[477]
Faltissima ....C........A..T.........................-TT.....G.....A...........................................
[485]
Fpyrenaica ....C........A..T.........................-TT.....G.....A...C.......................................
[480]
Fquadriflora ....C........A..T.........................-TT.....G.....A...........................................
[480]
Fgautieri ....C........A..T.........................-TT....AG.....A...C.......................................
[481]
Vulpia ....C........A..T.........................-TT.....G.....A...C.......................................
[479]
Falpina ....C........A..T.........................-TT.....G.....A...C.......................................
[471]
Feskia ....C........A..T.........................-TT....AG.....A...C.......................................
[480]
Fgigantea ....C........A..TT........................-TT.....G.....A...........................................
[485]
Fpaniculata ....C........A..TT........................-TT.....G.....A...........................................
[479]
174
Fpratensis ....C........A..TT........................-TT.....G.....A...........................................
[485]
Fborderei ....C........A..T.........................-TT.....G.....A...C.......................................
[480]
175
[ 510 520 530 540 550 560 570 580 590 600]
[ . . . . . . . . . .]
Brachypodium CTACATGTCAATACTGACAACAATGAAATTTCGAGTAAAAGGAAAATCCGTCGACTTTATAAGTTGTGAGGGTTCAAGTCCCTCTATCCCCAAATCCTTT
[577]
Faltissima ................................T...............................C.............................C...CC
[585]
Fpyrenaica ................................T...............................C.............................C...CC
[580]
Fquadriflora ................................T...............................C.............................C...CC
[580]
Fgautieri ................................T...............................C.............................C...CC
[581]
Vulpia ................................T...............................C.............................C...CC
[579]
Falpina ................................T...............................C.............................C...CC
[571]
Feskia ................................T...............................C.............................C...CC
[580]
Fgigantea ................................T.............................................................C...CC
[585]
Fpaniculata ................................T...............................C.............................C...CC
[579]
Fpratensis ................................T.............................................................C...CC
[585]
Fborderei ................................T...............................C.............................C...CC
[580]
[ 610 620 630 640 650 660 670 680 690 700]
[ . . . . . . . . . .]
Brachypodium TT-ATTCCCCAACTAT------------CCTCTTTTATTCCCTAACTTTTATCCTCTTTTTTTCTTTTTATCAAT-----GGGTTTAAGATT------CA
[653]
Faltissima ..T......T....T.AAC-TTATTGTA-------------------.........-..................-----............AAGATT..
[659]
Fpyrenaica ..T......T...------TTTATTGTA-------------------.........G...........A...G..-----.A..........------..
[644]
Fquadriflora ..T......T...-------TTATTGTA-------------------............................-----............------..
[643]
Fgautieri ..T......T...-------TTATTGTA-------------------............................-----............------..
[644]
Vulpia ..T......T...------TTTATTGTA-------------------.........-...............G..-----............------..
[642]
Falpina ..T......T...------TTTATTGTA-------------------............................GCAAT............------..
[640]
Feskia ..T......T...-------TTATTGTA-------------------............................-----............------..
[643]
Fgigantea ..T......T...-------TTATTGTA-------------------.........-................CA-----............------..
[647]
Fpaniculata ..T......T...-------TTATTGTA-------------------.........-..................-----............------..
[641]
Fpratensis ..T......T...-------TTATTGTA-------------------.........-................CA-----............------..
[647]
Fborderei ..T......T...------TTTATTGTA-------------------.........................G..-----............------..
[644]
[ 710 720 730 740 750 760 770 780 790 800]
[ . . . . . . . . . .]
Brachypodium TTAGCTTTCTCATTCTACTCTTTCACAAAGGAGTGCGAAGAGAACTCAATGGATCTTATCCTATTCATTGAATAGATTTCTTTTTTATTAGAGTATCCGC
[753]
Faltissima ..................................C............................------.....T......................G.G
[753]
Fpyrenaica ...............................................................------.....T..........-...........G.G
[737]
Fquadriflora ...............................................................------.....T......................G.G
[737]
Fgautieri ...............................................................------...A.T....?.............A...G.G
[738]
Vulpia ..............A................................................------.....T......................G.G
[736]
Falpina ...............................................................------.....T.................A...TG.G
[734]
Feskia ...............................................................------.....T......................G.G
[737]
176
Fgigantea ...............................................................------.....T....G.................G.G
[741]
Fpaniculata ...............................................................------.....T....G.................G.G
[735]
Fpratensis ...............................................................------.....T....G.................G.G
[741]
Fborderei ...............................................................------.....T.....................TG.G
[738]
[ 810 820 830 840 850 860 870 880 890 900]
[ . . . . . . . . . .]
Brachypodium AAGGACTCTCGGTTATTAACTCTATTTT-TAAGTATTATTAAGTAATCCATGCACAATGCATAGGA-CCACCCCCCCC---ATTTTTCAATTTGGAATTT
[848]
Faltissima ..T..A..C........C..........-.C...............G.....T.............-.T........----.....A......A......
[847]
Fpyrenaica ..A..A..C.A......C..........A.C............A..G.....TC..........A.A.TC........CC-.....C......A......
[836]
Fquadriflora ..A..A..C.A......C..........A.C............A..G.....T...........A.-.T.........---.....C......A......
[833]
Fgautieri ..A..A..C.A......CC.........A.C............A..G.....T...........AT-.T.........CCC.....C......A......
[837]
Vulpia ..A..A.TC.A.................A.C............A..G.....T...........A.-.T........----.....C......A......
[831]
Falpina ..AT.A..C.A......C..........A.T............A..GAG-..T...........A.-.T.........---.....CA.....A......
[829]
Feskia ..A..A..C.A......C..........A.C............A..G.....T...........A.-.T.........C--.....C......A......
[834]
Fgigantea ..A..A..C........CG.........-.C...............G.....T.............-.T.........---.....A......CA.....
[836]
Fpaniculata ..A..A..C........C..........-.C...............G.....T...........A.-.T.........---.....A......A......
[830]
Fpratensis ..A..A..C........CG.........-.C...............G.....T.............-.T.........C--.....A......C......
[837]
Fborderei ..A..A..C.A......C..........A.C............A..G.....T...........A.-.T.........C--.....C......A......
[835]
Analice: Número de sitios variables y número de sitios informativos. Codifique las brechas ("gap")
como caracteres binarios por su presencia o ausencia ( 1 / 0) en un sentido parsimónico.
Reconstruya la filogenia del grupo mediante parsimonia.
177
EJERCICIO 8:
Utilice el método de la matriz de puntos para alinear las dos siguientes secuencias:
A AATGCTTGCATGGGGCTAGTT
B ATTGCTGCATGAGGCGCGCTAGT
EJERCICIO 9:
Se han calculado las siguientes distancias genéticas entre primates a partir de secuencias del
ADN mitocondrial:
H C G O
C 1.45
G 1.51 1.57
Reconstruya la filogenia de este grupo de primates mediante los métodos UPGMA y NJ.
178
EJERCICIO 10:
179
EJERCICIO I (GRAMÍNEAS):
Gram. NDHF
Parsimonia
- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
(Trees - Describe trees - cladogram/phylogram). Dibuje la(s) topología(s). Guarde los
árboles en fichero Gram.NDHF.trees.
- Introduzca en el fichero la condición de doble pesado de las 1as y 2as posiciones de cada
codon sobre las 3as posiciones (1st:2 nd:3rd = 2:2:1) (begin assumptions; charset
1stPos=1-649\3; charset 2ndPos=2-650\3; charset 3rdPos=3-651\3; ). Invoque esta
condición desde el menú de Paup (Data - Set character weights - Charsets - WtSets -
Assign weight). Conduzca una nueva búsqueda B&B.
- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
Compruebe si la topología de este árbol difiere de la obtenida anteriormente.
180
- Ejecute de nuevo el fichero Gram.NDHF. Importe los árboles guardados anteriormente
en el fichero Gram.NDHF.trees (Trees - Get trees from file).
- Conduzca una nueva búsqueda B&B pesando (a posteriori) aquellos caracteres que
mejor se ajustan a la topología(s) obtenida(s) (Data - Reweight characters - RC /
Maximum value).
- Indique las características del árbol(es) obtenido(s) con los pesos a posteriori (No.
árboles, L, CI, HI, RI, RC). Compare la topología de este árbol(es) con la(s) obtenida(s)
anteriormente.
Distancias
Máxima verosimilitud
- Conduzca una búsqueda por el método de máxima verosimilitud sin imponer la condición
de reloj molecular; para ello abra el fichero GramNDHF.PHYLIP (Sequence - ADNml)
(busque el mejor árbol y acepte la ratio Tv:Ts = 2:1).
181
- Conduzca una búsqueda por el método de máxima verosimilitud imponiendo la condición
de reloj molecular; para ello abra el fichero GramNDHF.PHYLIP (Sequence - ADNmlk)
(busque el mejor árbol y acepte la ratio Tv:Ts = 2:1).
- Una vez seleccionado el árbol más verosímil, compare la topología de esta reconstrucción
con las topologías obtenidas mediante reconstrucciones basadas en distancias genéticas
(K2P y NJ) y mediante parsimonia. ¿Son conguentes las topologías?
Gram. ITS
Parsimonia
- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
(Trees - Describe trees - cladogram/phylogram). Dibuje la(s) topología(s).
- Calcule las longitudes de las ramas (Trees - Describe trees - Table of linkages).
- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
Compruebe si la topología de este árbol difiere de la obtenida anteriormente.
- Confeccione una matriz de brechas (gaps) ITS interpretando cada brecha, de cualquier
longitud, como un solo evento evolutivo, codificándolas como caracteres binarios por su
presencia / ausencia (1 / 0). Para ello abra el fichero Gram.ITS en MacClade e iguale las
posiciones consenso (Display - Match first - . ), recorra la secuencia y vaya elaborando la
matriz de brechas. Guarde esa matriz como fichero GramITS.gaps bien en MacClade o
bien en Paup.
182
- Conduzca una búsqueda parsimónica B&B en Paup con la matriz de brechas
GramITS.gaps (ntax=10, nchar=30) (grupo externo: Melica, ACCTRAN, Multistate
taxa=uncertainity).
- Indique las características de los árboles obtenidos (No. árboles, L, CI, HI, RI, RC).
Compute el árbol consenso estricto (Trees - Compute consensus). ¿Es un árbol altamente
resuelto? ¿Es congruente con la topología obtenida de la matriz de sustitución de
nucleótidos?
- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
(Trees - Describe trees - cladogram/phylogram). Compare las características de este
árbol basado en caracteres nts+gaps con los árboles obtenidos anteriormente por
separado. ¿Qué conclusiones obtiene?. Salve el árbol en un fichero Gram.ITS2.trees.
- Evalúe sobre esta topología los cambios de los caracteres correspondientes a las brechas
(615 a 644) (puede hacerlo tanto desde Paup: Trees - Show reconstructions, como desde
MacClade: escriba [SYMBOL="01"] entre corchetes (-MacClade no reconoce la síntaxis
'Symbol'), abra el fichero de datos Gram.ITS2, abra el fichero del árbol MP
Gram.ITS2.trees (Display - Go to tree window). Reajuste el árbol a su gusto con las
opciones del menú de herramientas (Tools). Evalúe los cambios de los caracteres de
brechas (Trace - Trace character / Choose character).
- Indique qué caracteres de brecha son congruentes con esta topología y cuales son
homoplásicos. ¿Qué tipo de caracteres son más abundantes (autapomorfías -
sinapomorfías)? ¿Qué tipo de homoplasías son más abundantes (paralelismos -
reversiones)? ¿Qué grupos de taxones muestran sinapomorfías y para qué caracteres?
- ¿Es el árbol MP basado sobre caracteres ITS congruente con el(los) árbol(es) MP
basado(s) en caracteres NDHF? ¿Hay conflicto entre clados?
Distancias
183
- Construya una matriz de distancias genéticas utilizando el método de Kimura dos
parámetros (Sequence - ADNdist ). Guarde el fichero de matriz de distancias como
GramITS.K2P.
Máxima verosimilitud
- Conduzca una búsqueda por el método de máxima verosimilitud sin imponer la condición
de reloj molecular; para ello abra el fichero GramITS.PHYLIP (Sequence - ADNml)
(busque el mejor árbol y acepte la ratio Tv:Ts = 2:1).
- Una vez seleccionado el árbol más verosímil, compare la topología de esta reconstrucción
con las topologías obtenidas mediante reconstrucciones basadas en distancias genéticas
(K2P y NJ) y mediante parsimonia. ¿Son conguentes las topologías?
Gram. NDHF/ITS
Parsimonia
184
- Confeccione un fichero de datos combinados Gram.NDHF/ITS (Paup) unificando las dos
bases de datos (Gram.NDHF y Gram.ITS2) en una misma matriz (copie y pegue las dos
matrices, NDHF + ITS2, en un mismo fichero; ntax=10, nchar=1295. Ejecute el fichero.
- Conduzca una búsqueda parsimónica B&B excluyendo los caracteres debidos a brechas
(Data - Include-Exclude characters) (grupo externo: Melica, ACCTRAN, Multistate
taxa=uncertainity).
- Indique las características del árbol obtenido (L, CI, HI, RI, RC). Guarde el árboles en
fichero Gram.NDHF/ITS2.trees. Compare este árbol MP de bases de datos combinadas
(NDHF e ITS) con los árboles MP obtenidos tras los análisis B&B de cada una de esas
bases de datos por separado. ¿Qué nivel de resolución y semejanzas / diferencias
presenta este árbol con respecto a los otros árboles?
- Calcule la longitud de las ramas del árbol (Trees - Describe trees - Table of linkages).
¿Qué linaje ha acumulado un mayor número de cambios? Analice los cambios de los
caracteres que forman las ramas (14) - (13) y (13) - (12) ¿Son ambiguos o unambiguos?
¿Son consistentes u homoplásicos? ¿Qué base de datos aporta mayor número de cambios
para sustentar estas ramas?
- Proceda como en los casos anteriores a exportar el fichero Gram.NDHF/ITS (sin gaps) a
un formato PHYLIP.
- Compare las topologías MP, NJ, y ML y observe si son congruentes entre sí o no.
185
EJERCICIO II (PRIMATE mtADN):
Parsimonia
- Conduzca una segunda búsqueda parsimónica B&B (Keep all trees < ó = L anterior)
(grupo externo: Lemur catta, ACCTRAN).
- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
(Trees - Describe trees - cladogram/phylogram). Dibuje la(s) topología(s) y diferencie los
clados que distinguen a ambos árboles MP.
- Calcule las longitudes de las ramas (Trees - Describe trees - Table of linkages).
- Indique las características del árbol obtenido (L, CI, HI, RI, RC) y su topología.
¿Cuántos cambios más necesita este árbol (Homo_sapiens,Gorilla) sobre los anteriores?
Guarde el árbol en un fichero PRIMATE.mtADN.Tree3
- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
¿Resulta alguna de las topologías rivales favorecida por el pesado desigual Tv:Ts = 6:1?
¿Saldría favorecida con un pesado Tv:Ts = 2:1?
186
el mismo peso e imponiéndoles el pesado Tv:Ts = 6:1 (ttbias). Explique los resultados e
indique qué hipótesis resulta favorecida.
Distancias
- Reconstruya un árbol aditivo (NJ) y con un árbol ultramétrico (UPGMA) a partir de esta
matriz de distancias (Distance - Neighbor - NJ / UPGMA). Guarde los ficheros
resultantes como PRIMATE.mtADN.NJ, PRIMATE.mtADN.NJtree, y como
PRIMATE.mtADN.UPGMA, PRIMATE.mtADN.UPGMAtree. Visualice los árboles
con TreeView.
Máxima verosimilitud
- Conduzca una búsqueda por el método de máxima verosimilitud sin imponer e imponiendo
la condición de reloj molecular. (grupo externo Lemur catta - 12).
187
- Para calcular cuál de las dos hipótesis MP alternativas es más verosímil
(PRIMATE.mtADN.MPtree1 ó PRIMATE.mtADN.MPtree2), exporte los árboles a
formato PHYLIP desde MacClade (Tree - Export Treefile - PHYLIP 3.5). Abra cada
uno de esos ficheros en PHYLIP (Sequence - ADNml) y ejecute los cálculos de sus
índices de verosimilitud.
188