Está en la página 1de 188

ANÁLISIS

FILOGENÉTICOS

PILAR CATALÁN RODRIGUEZ, Septiembre 2001


2
Índice:

- Filogenias:

Conceptos ........................................................................... 4
Métodos ........................................................................... 20

- Cambios evolutivos en las secuencias nucleotídicas del ADN:

Alineamiento de secuencias ........................................………. 22


Divergencia entre secuencias ............................................….. 26
Modelos de evolución de secuencias ............................…….. 27

- Reconstrucciones filogenéticas basadas en Distancias Genéticas


Árboles de distancias ..............................……………… 42
Métodos de reconstrucción ..........................................….….. 44

- Reconstrucciones filogenéticas basadas en Máxima Verosimilitud


.......................................................................................…. 48

- Reconstrucciones filogenéticas basadas en Parsimonia


....................................................................…..................... 56

- Señal filogenética de la base de datos …....................…................. 72

- Teorías de contraste de hipótesis …....................…................. 74

- Grado de éxito de las reconstrucciones filogenéticas


........................................................................................... 78

- Combinación de bases de datos


........................................................................................... 84

- Apéndices:

I. Utilización del programa PAUP ...................................….... 86


3
II. Ejercicios ………………………………………………….. 96

4
FILOGENIAS (CONCEPTOS Y METODOS)

5
6
Las filogenias y los sistemas de clasificación de los seres vivos:

Las ideas evolucionistas de Darwing revolucionaron los principios sobre


los que se basaban los sistemas de clasificación imperantes en el siglo
pasado; a partir de entonces, la incorporación de esas ideas transformó las
clasificaciones tradicionales, pre-Linneanas y Linneanas, que buscaban
una mayor coincidencia de caracteres para establecer las agrupaciones de
los organismos (clasificaciones artificiales), hacia sistemas de clasificación
evolutivos que unieran a los organismos mediante linajes de
descendencia (filogenias) a partir de los cuales determinados grupos que
surgieron en distintos periodos geológicos (o biológicos) originaron nuevos
linajes que condujeron a las actuales especies (clasificación natural).

Aún dada la controversia que actualmente existe sobre el concepto de


especie, según el grupo de organismos de que se trate, de los sistemas de
reproducción que posean, y de las distintas vías de especiación que se
hayan hipotetizado para ellos, se puede decir que la teoría evolucionista
de Darwing ha sido ampliamente aceptada por los taxónomos y que se
tiende a buscar una clasificación natural de los seres vivos.

Dentro de los sistemas de clasificación natural desarrollados desde finales


del pasado siglo pueden distinguirse dos corrientes principales: 1) La
escuela fenetista* moderna, de la taxonomía numérica, que abarca en sus
estudios un gran número de caracteres, dándoles a todos ellos el mismo
peso (importancia), y que trata de agrupar a organismos que comparten
caracteres similares (en especies o en otras categorías sistemáticas), y 2)
la escuela cladista** , seguidora de Henning (1966), que utiliza
únicamente caracteres informativos y que considera que organismos que
están estrechamente emparentados entre sí tuvieron un ancestro común
y comparten caracteres derivados únicos.

Pese a los distintos principios y metodologías que tiene cada escuela en el


intento de agrupar a los seres vivos, en ocasiones puede alcanzarse el
mismo resultado al aplicar unos y otros métodos a un determinado grupo
de seres vivos. Por otro lado, la finalidad de estos estudios, especialmente
los cladistas, no es únicamente taxonómico, ya que la clasificación es una
mera aplicación de sus resultados; su finalidad principal es la
reconstrucción de la filogenia de un particular grupo de organismos.

* fenetista (estudio del fenotipo)


** cladista (estudio del clado = ramificación del cladograma o árbol filogenético obtenido al agrupar a los
organismos)
7
Definición de filogenia y conceptos filogenéticos:

El término filogenia, equivalente a linaje evolutivo, corresponde a las


relaciones de parentesco evolutivo existentes entre distintos organismos
(taxones) de un grupo; relaciones que se establecen, de forma
descendente, desde un taxon ancestral hasta sus taxones derivados (por lo
general, los actualmente existentes), y que quedan plasmadas en forma
de árbol (árbol filogenético ).

En cada ramificación del árbol filogenético de una especie anterior -


antepasado común- se originan dos. Los extremos finales del árbol
representan los taxones actualmente existentes, mientras que cada
bifurcación corresponde a ancestros desaparecidos. En un árbol
filogenético las ramas que no alcanzan la copa (plano superior)
corresponden a linajes extinctos; éstos linajes sólo pueden detectarse si
existen registros fósiles de los mismos en el grupo en estudio.

En un árbol filogenético las relaciones establecidas entre los organismos


en estudio determinan si hay monofilia (cuando todos los organismos de
un grupo determinado y sólo ellos derivan de un mismo ancestro común;
se dice entonces que se trata de un grupo natural, monofilético), si hay
parafilia (cuando entre los organismos de un grupo descendiente de un
mismo ancestro común hay también organismos de grupos distintos; se
dice entonces que el grupo es parafilético), o si hay polifilia (cuando
organismos de un grupo determinado derivan de distintos ancestros; se
dice entonces que el grupo es polifilético). (Nota: Los conceptos de parafilia
y polifilia pueden aplicarse de forma reversible a unos y otros grupos). Los
8
estudios evolutivos cladistas tienen por fin el delimitar qué grupos de
seres vivos son monofiléticos y cuáles son las relaciones de parentesco
entre sus organismos (reconstrucciones filogenéticas).

Cladismo y especiación:

La escuela cladista basa sus fundamentos evolutivos sobre la cladogénesis

9
, según la cual cada proceso de especiación o de divergencia de linajes
pretérito correspondería a una bifurcación dicotómica (clado) del árbol
filogenético del grupo en estudio. Este modelo implica que una especie (o
linaje) más ancestral siempre da origen a dos nuevas especies (o linajes)
derivadas de ella. La proposición cladista se sustenta sobre la premisa de
que si dos especies A y B están más próximamente emparentadas entre sí
que con una tercera C es porque A y B comparten un antepasado común
(del cual han derivado) que no lo es de C. Si nos remontásemos al árbol
genealógico de todos los seres vivos siempre existiría un antepasado
común para dos especies por muy lejanamente emparentadas que estas
estuvieran.

El modelo de especiación de la cladogénesis es distinto del de la


anagénesis, según la cual una especie más ancestral origina una sóla
especie derivada de ella. Los cladistas, aunque aceptan la posible
existencia de eventos anagenésicos en la evolución, no los consideran
determinantes a la hora de reconstruir las filogenias de los grupos.

Otro proceso de especiación importante que puede alterar la filogenia de


algunos grupos es la hibridación, causante de la reticulación. Por
especiación reticular se entiende la aparición de una nueva especie
híbrida a partir de dos especies progenitoras distintas (caso opuesto a la
cladogénesis donde una especie ancestral origina dos nuevas especies).
Fenómenos de reticulación muy extendidos entre los taxones de un grupo
pueden llegar a oscurecer e incluso alterar su reconstrucción filogenética;
sin embargo, a una escala amplia de tiempo, la reticulación puede
ignorarse (de hecho resulta conflictiva en las filogenias de grupos
recientemente evolucionados, pero no en las de grupos remotamente
evolucionados).

Entre los fenómenos de especiación es común observar, en ciertos grupos,


casos de radiación. La radiación es la aparición, en un periodo de tiempo
evolutivo relativamente breve, de muchos linajes derivados a partir de un
linaje más ancestral. En las reconstrucciones filogenéticas estos casos se
manifiestan como politomías (bifurcaciones en las que la ramificación no
es dicotómica sino politómica). Los cladistas interpretan estas politomías
como eventos evolutivos insatisfactoriamente resueltos debido a la
carencia de datos informativos suficientes sobre los mismos que no
pudieron adquirirse al producirse esos eventos en tiempos evolutivos muy
breves.

10
11
Por último, la cladogénesis es compatible con los fenómenos de extinción
de linajes. Dichos linajes aparecerán reflejados en la filogenia de un
grupo siempre que los taxones fósiles hayan sido incorporados al estudio.

A lo largo de la evolución de los organismos se han producido procesos que


alteran la monofilia de las estirpes. Así se habla de paralelismos
evolutivos cuando un mismo caracter derivado a parece en grupos con
distintos ancestros comunes (p.e. aletas en peces y en cetáceos; tallos
carnosos en cactáceas y crasuláceas), y de reversiones evolutivas cuando
un carácter derivado revierte a su estado primitivo en uno o más
descendientes (p.e. mutaciones por substitución de nucleótidos). Estos
procesos de paralelismos y reversiones incrementan la homoplasía
(condiciones disturbadoras) de las filogenias.

12
13
Elección de caracteres

Todos los estudios evolutivos de grupos de organismos se basan en la


elección de los caracteres apropiados para la reconstrucción de sus
filogenias. Los caracteres han de cumplir dos requisitos, ser homólogos (en
todos los organismos en estudio) e independientes entre sí.

Caracteres homólogos son aquellos que tienen un mismo origen y


cumplen una misma función (p.e. secuencia de nucleótidos de un mismo
gen), en contraposición a ello, caracteres parálogos son aquellos que
tienen la misma función pero distinto origen (p.e. genes duplicados), y
caracteres heterólogos, aquellos que tienen origenes y funciones distintos
(p.e. dos genes diferentes). Los caracteres son independientes cuando no
hay correlación entre ellos ni covarían.

La naturaleza de los caracteres puede ser muy variada. Cualquier fuente


de información filogenética válida y contrastada puede proporcionar
caracteres fiables para un estudio evolutivo (morfología, anatomía,
embriología, cariología, biología molecular, etología, etc.). Las principales
fuentes de datos en los estudios evolutivos han sido los caracteres
morfológicos y los caracteres moleculares.

Cuando se utiliza una secuencia génica de ADN para obtener la


reconstrucción filogenética de un grupo de organismos en estudio ha de
considerarse que esa filogenia del grupo está basada en la evolución de la
molécula elegida (p.e. distintos alelos de un mismo gen). En ocasiones la
filogenia 'génica' (de los alelos de ese gen) no concuerda con la filogenia
biológica de los organismos debido a distintos eventos de coalescencia de
los alelos y de procesos de especiación de los organismos. Para solventar
este problema se recurre a la utilización de secuencias de ADN
correspondientes a distintas moléculas (en ocasiones pertenecientes a
14
distintos genomas: nADN, mtADN, cpADN) en un intento de esclarecer si
todas las fuentes de datos son congruentes y reconstruyen la misma
filogenia de los organismos, lo que proporcion un indicio de haber hallado
la reconstrucción óptima.

15
16
Tipos de caracteres:

Los caracteres pueden ser de tipo cualitativo (p.e. colores, formas, etc.) o
cuantitativo (p.e., mediciones biométricas), y, a su vez, pueden registrarse
en forma de caracteres binarios (p.e. presencia/ausencia;
primitivo/derivado) o caracteres multiestadío (p.e. nucleótidos del ADN: A,
C, G, T). Los caracteres se registran en forma de matrices.

Análisis de los caracteres:

Las distintas metodologías seguidas en el análisis o tratamiento de los


caracteres es lo que diferencia a las escuelas fenetista y cladista.

La escuela fenetista moderna, o de la taxonomía numérica, se sustenta en


el uso del mayor número de caracteres posibles (variables) que a priori
tienen el mismo peso, y con ellos trata de agrupar a una serie de
organismos con el fin de obtener una clasificación y ordenación de los
mismos lo más objetiva posible.

A partir de las matrices de datos, y mediante tratamientos estadísticos


adecuados (p.e. análisis factorial y multivariante), se pueden obtener
clasificaciones y ordenaciones de los taxones en estudio. En la
clasificación se crean grupos de semejanza utilizando cálculos de
distancias entre pares de taxones y uniendo los taxones en clusters a
través de un método determinado (p.e. distancia euclídea). A estos clusters
se les denomina histogramas o fenogramas. Las uniones (o separaciones)
de los taxones en los histogramas, aunque sean dicotómicas, no implican
ninguna relación de parentesco evolutivo (son simples uniones por
similaritudes).

17
La escuela cladista discierne entre caracteres informativos y no
informativos, y dentro de los primeros, considera los estadíos primitivos y
derivado(s) que tienen esos caracteres. Aquellos caracteres derivados
compartidos por dos o más taxones, llamados sinapomorfías, son los
mejores indicadores del parentesco filogenético y son los únicos
informativos (los únicos que van a ser útiles en la construcción del árbol
filogenético). En contraposición a esto, caracteres compartidos pero
primitivos, llamados simplesiomorfías, que poseen todos los taxones, y
caracteres derivados pero no compartidos, llamados autapomorfías, que
poseen de forma única algunos taxones, no son informativos.

Curiosamente, estos últimos caracteres, autapomorfías, que son buenos


marcadores de especies y son utilizados frecuentemente para la
clasificación taxonómica fenetista, no tienen ningún valor informativo
desde el punto de vista evolutivo de los cladistas. Los métodos de
clasificación cladista (reconstrucción filogenética) se basan sobre la
monofilia de un grupo sustentado por diversas sinapomorfías.
Unicamente caracteres derivados y compartidos definen grupos
taxonómicos naturales; la presencia de caracteres sinapomórficos permite
inferir la presencia de un antepasado común a todos los taxones que los
presentan indicando que dichos organismos están estrechamente
emparentados entre sí pues son los únicos en poseer ese carácter heredado
de su antepasado.

Terminología cladística

Términos relacionados con los procesos de análisis de datos y de


reconstrucción de filogenias cladistas son los siguientes:
18
- grupo interno (ingroup): es la relación de taxones que componen un
grupo particular de organismos en estudio; según los cladistas este grupo
debería ser natural, es decir, monofilético.

- grupo externo (outgroup): para establecer mejor las relaciones de


parentesco entre los miembros del grupo interno y para posicionar la raiz
de su árbol filogenético se incorpora al estudio un representante (o varios
representantes) de un grupo(s) externo(s). Esos representantes externos
son, preferentemente, organismos relativamente proximos al grupo
interno.

- topología : es la forma -estructura ramificada- que tiene el árbol


filogenético final. En la topología de un árbol se hallan representados los
taxones existentes actuales en los nudos terminales , y los antepasados
comunes extinguidos (que experimentaron eventos de especiación) en los
nudos internos ; las ramas conectan los taxones terminales con sus
antepasados inmediatos, mientras que los internudos conectan dos
eventos de especiación y representan al menos a una especie ancestral.
Grupo basal es aquel taxon del grupo interno que divergió en primer
lugar del antepasado ancestral; agrupación hermana (sister group) de un
grupo es aquel otro grupo que, genealógicamente, esta más próximo a él.
La ramificación del árbol se resuelve de forma dicotómica (clados); una
politomía es una ramificación no resuelta (arbusto).

Los árboles filogenéticos se pueden representar también mediante una


fórmula:
19
Reconstrucciones filogenéticas: Diferentes hipótesis evolutivas

Con los diversos taxones de un grupo en estudio se pueden construir


distintos árboles filogenéticos, cada uno de esos árboles constituye una
hipótesis evolutiva. Uno de los fundamentos científicos de la cladística es
que no es un sistema intuitivo, sino que está basado en métodos empíricos
de reconstrucción de filogenias siguiendo unas reglas evolutivas estrictas
(ancestros comunes, descendientes unidos por sinapomorfías) y en que
permite contrastar diversas hipótesis y elegir, de entre todas ellas, la
óptima.

Los árboles filogenéticos pueden estar enrraizados o no. En los árboles


enrraizados existe un nudo particular llamado raíz a partir del cual un
camino evolutivo único conduce a cualquier otro nudo. Un árbol no
enrraizado sólamente especifica las relaciones de parentesco entre los
taxones pero no define el camino evolutivo.

20
Dependiendo del número de taxones en estudio existirán distintos
posibles árboles filogenéticos enrraizados y no enrraizados. Con tres
taxones hay tres posibles árboles enrraizados y un sólo árbol no
enrraizado.

El número de posibles árboles enrraizados para n taxones es igual a:

(2n - 3) !
N R = ---------- para n > 2
2n-2(n-2)!

El número de posibles árboles no enrraizados para n taxones es igual a:

2n - 5) !
N U = ----------- para n > 3
2n-3(n-3)!

El número de posibles árboles enrraizados para n taxones es igual al de


árboles no enrraizados para n-1 taxones. Ambos números se incrementan
rápidamente a medida que n aumenta. Puesto que sólo uno de esos
árboles representa correctamente la verdadera relación evolutiva habida
entre los taxones resulta difícil inferir la topología de ese único árbol
filogenético cuando n es elevado. Las metodologías seguidas en los
distintos sistemas de reconstrucciones filogenéticas intentar hallar cual es
el 'árbol óptimo' ( el que representa la mejor hipótesis evolutiva) entre
todos los posibles.

Número de OTUs No. de árboles enrraizados No. de árboles no


enrraizados

21
22
Aplicaciones de las reconstrucciones filogenéticas

- Desentrañar los eventos evolutivos de los seres vivos.

- Obtener una clasificación natural de los organismos.

- Reconstruir procesos de macroevolución (especies) y de microevolución


(poblaciones).

- Dilucidar procesos de reticulación (hibridaciones e introgresiones).

- Estudios de biogeografía, coevolución, ecología.

- Estudios de conservación de especies.

- Estudios de mejora genética.

23
Filogenias: Eventos evolutivos de los seres vivos

24
Filogenias: Clasificación natural de los seres vivos

25
26
Filogenias: Procesos de hibridación

27
Filogenias: Estudios biogeográficos

28
Filogenias: Estudios de conservación

29
30
METODOS DE RECONSTRUCCIONES FILOGENETICAS

Los métodos a seguir en las reconstrucciones filogenéticas requieren los


siguientes pasos:

1) Selección del grupo interno de taxones en estudio (ingroup).


Selección de los representantes de grupos externos (outgroups).

2) Selección de los caracteres adecuados de estudio.

3) Elaboración de las matrices de datos

4) Elección del método de reconstrucción filogenética

4.1) Basado en distancias genéticas:

4.1.1) vía algorítmica:

4.1.1.1) Ultramétricos (UPGMA = Unweighted Pair


Group Method with Arithmetic mean)

4.1.1.2) Aditivos (NJ = Neighbor joining)

4.1.2) vía optimización:

4.1.2.1) Relación entre vecinos (Neighborliness)

4.1.2.2) Distancias transformadas

4.2) Basado en caracteres:

4.2.1) criterio de optimización:

4.2.1.1) Maxima verosimilitud (ML = Maximum


Likelihood)

4.2.1.2) Parsimonia (MP = Maximum Parsimony)

5) Estimación de la bondad de la reconstrucción mediante técnicas de


analítica y remuestreo
(Bootstrap, Jacknife, Decay)
31
32
33
CAMBIOS EVOLUTIVOS EN LAS
SECUENCIAS NUCLEOTÍDICAS DEL ADN

• ALINEAMIENTOS DE SECUENCIAS DEL


ADN

• DIVERGENCIA ENTRE SECUENCIAS DEL


ADN

• EVOLUCION DE SECUENCIAS DE ADN

34
35
SECUENCIAS NUCLEOTÍDICAS DEL ADN

La fuente de datos moleculares que ha contribuído en mayor medida al


avance de las reconstrucciones filogenéticas de los seres vivos ha sido la
secuenciación de regiones codificantes y no-codificantes del ADN. Las
ventajas que tienen los datos de secuencias de nucleótidos de los genomas
sobre otros datos moleculares estriban, en el aspecto técnico, en su gran
precisión y en la posibilidad de incorporación de nuevas muestras a una
base de datos previa, y en el aspecto analítico, en la posibilidad de
desarrollar distintos modelos evolutivos y de acumular un alto número de
caracteres potencialmente informativos. Además de eso, el ADN
constituye la fuente primigenia molecular de toda la información genética
de los seres vivos. Por todo ello las secuencias del ADN constituyen hoy
día el pilar sobre el que se asientan la mayor parte de las reconstrucciones
evolutivas de organismos.

Los caracteres de secuencias nucleotídicas del ADN son caracteres


multiestadío (con cuatro posibles estadíos: A, C, G, T). Cada una de las
posiciones (nucleótido) de una secuencia se considera un carácter distinto
e independiente. La independencia de cada posición (carácter) se basa en
la asunción, a priori, de que las mutaciones por sustitución se producen al
azar en todos los genomas (ADN). Cuando en determinadas regiones se
observan sesgos hacia determinados tipos de mutaciones (p.e. isocoras CG,
prevalencia de uso de codones, etc. ) deben aplicarse modelos evolutivos
específicos en algunos tipos de reconstrucciones filogenéticas.

Un primer paso en el análisis de los datos de secuencias del ADN supone


el correcto alineamiento de las secuencias de las muestras en estudio para
cumplir la premisa de homología requerida a cada uno de los caracteres
(posiciones de la secuencia) que van a ser analizados.

ALINEAMIENTOS DE SECUENCIAS

La matriz de datos originales se construye con las secuencias alineadas.


En este caso, los datos son las secuencias de una determinada región
genómica (molécula) obtenidas para los taxones en estudio (esas
secuencias pueden ser datos propios o bien datos extraídos de las bases de
datos p.e. GenBank).

El alineamiento de las secuencias es una tarea crucial que puede tener


profundas implicaciones en el análisis de los caracteres. Las secuencias
pueden corresponder a regiones codificantes o no-codificantes; en el
primer caso la ordenación de los nucleótidos será en tripletes (codones),
36
mientras que en el segundo no lo será así. El alineamiento de las
secuencias puede hacerse de forma visual (cuando no se presentan
grandes dificultades, p.e. regiones conservadas, o cuando ya existe una
secuencia conocida de esa región), o mediante programas diseñados a tal
efecto (p.e. Clustal V, Malign). Las secuencias pueden tener todas la
misma longitud (mismo número de nucleótidos), hecho que facilitará su
alineamiento, o pueden tener diferentes mutaciones de longitud
(delecciones, inserciones); en este último caso es necesario elegir el mejor
alineamiento posible para las secuencias.

Alineamientos de pares de secuencias: La matriz de puntos

Un método sencillo que permite obtener de forma gráfica el alineamiento


de un par de secuencias es la matriz de puntos. Este método consiste en
la confrontación de dos secuencias en los ejes de abcisas y ordenadas y en
la representación con puntos de aquellas casillas de la matriz en las que
ambas secuencias presentan el mismo nucleótido; trazando la diagonal en
la matriz se puede detectar si las secuencias son idénticas, si difieren en
uno o más nucleótidos, o si para alinearlas hace falta introducir en ellas
brechas o 'gaps', tal como se muestra en la figura adjunta. Cuando las
secuencias son altamente divergentes es difícil predecir qué alineamiento
alternativo puede ser mejor.

37
Alineamientos de pares de secuencias: Los índices de distancias y de
similaritud y las penalizaciones de las brechas.

El mejor alineamiento posible para dos secuencias dadas es aquel en el


cual el número de posiciones desapareadas y de brechas (delecciones, o
'gaps') quede minimizado de acuerdo con ciertos criterios. Generalmente
la reducción del número de desapareamientos implica un incremento del
número de brechas, y viceversa.

Por ejemplo, si se tienen las siguientes secuencias:

A : TCAGACGATTG (m = 11)

B : TCGGAGCTG ( n = 9)

Podemos reducir el número de desapareamientos a cero aumentando el


número de brechas, en una y otra secuencia, a seis:

TCAG-ACG-ATTG
(I)
TC-GGA-GC-T-G

Inversamente, el número de brechas puede ser reducido a una única


delección final de (m-n) nucleótidos, con el consecuente incremento de
cinco desapareamientos:

TCAGACGATTG
(II) * *
TCGGAGCTG--

Alternativamente, podemos elegir un alineamiento que minimice tanto el


número de desapareamientos ( dos) como el de brechas (cuatro):

TCAG-ACGATTG
(III) * *
TC-GGA-GCTG-

Para seleccionar cuál de los tres posibles alineamientos es el mejor se


introduce un factor de corrección, llamado penalización de las brechas
('gap penalty'). Hay distintos sistemas para asignar penalizaciones a las
brechas; todos ellos están basados en ciertas nociones que, a priori, se
tienen sobre la frecuencia con que ocurren delecciones e inserciones,
respecto a las mutaciones por sustitución, en esa región del genoma.
38
En un primer sistema, la medida de distancia entre dos secuencias dadas
es:

D = y + w. z

(D = distancia entre las secuencias; y = número de


desapareamientos; z = número de brechas; w = penalización de cada
brecha (0 > w < 1).

Adoptando este sistema asumimos que la probabilidad de que haya una


brecha determinada es inversamente proporcional al tamaño de dicha
delección (p.e. la probabilidad de tener una brecha de 2 nt iguala la
probabilidad de tener dos brechas de 1 nt cada uno).

En un segundo sistema, la medida de distancia entre dos secuencias


dadas es:

D=y+ w k.zk

( z k = número de brechas de longitud k; w k = penalización para


brechas de longitud k)

Adoptando este sistema asumimos que delecciones e inserciones más


largas tienen diferente probabilidad de ocurrir que aquellas más cortas.
En este caso las distintas penalizaciones para diferentes longitudes de
brechas pueden ser o no ser proporcionales a las longitudes de tales
brechas.

Si aplicásemos el primer sistema a los tres posibles alineamientos (I, II, y


III) de las secuencias m y n de los táxones A y B, arriba mostrados,
considerando p.e. que la penalización de todas las brechas es de w = 2,
obtendríamos valores de distancias (D) de 0 + (2 x 6) = 12; 5 + (2 x 2) = 9; y
2 + (2 x 4) = 10, para los alineamientos I, II, y II, respectivamente.
Elegiríamos en este caso el alineamiento II. Si aplicásemos el segundo
sistema a esos mismos alineamientos, considerando p.e. que w1 = 2 y que
w2= 6, los valores de distancias (D) serían de 12, 11, y 10 para I, II, y III,
respectivamente. Elegiríamos en este caso el alineamiento III.

El propósito de cualquier algoritmo aplicado a los alineamientos de


secuencias es elegir aquel alineamiento que presente la menor distancia
(D) entre todos ellos. El método más frecuentemente usado es el del índice
de similaritud de Needleman & Wunsch (1970) calculado mediante la
fórmula:

39
S = x - ? wk zk donde wk = a + b k wk = a + b ln (k)

( S = índice de similaritud; zk = longitud de la brecha k; wk =


penalización aplicada a la brecha k; a y b = ctes.).

Mediante programación dinámica se maximiza el valor de S:

S = Max (x - ? wk zk)

Entre los índices de distancias empleados se hallan los de Smith (1981) y


de Waterman (1984):

D = y - ? w'k zk

( D= índice de distancia; zk = longitud de la brecha k; w'k =


penalización aplicada a la brecha k)

Mediante programación dinámica se minimiza el valor de S:

D = Min (y - ? w'k zk), w'k = k / 2 + wk , wk > 0, w'k > k / 2

El índice de similaritud (S) y el índice de distancia (D) son inversamente


equivalentes y son utilizados para seleccionar el mejor alineamiento
posible entre un par dado de secuencias.

40
Alineamiento múltiple de secuencias:

Las dificultades halladas a la hora de seleccionar el mejor alineamiento


posible entre un par de secuencias aumentan cuando se incrementa el
número de secuencias en estudio. En principio el algoritmo de Needleman
& Wunsch (1970) (índice de similaridad) entre pares de secuencias podría
extenderse a múltiples dimensiones si bien resulta computacionalmente
impracticable.

Una de las estrategias propuestas, contemplada en el programa Clustal


(Higgins et al., 1992), incluye los siguientes pasos:

1) Calcular todos los índices de distancias entre pares de secuencias


2) Construir un árbol con esas distancias
3) Obtener el orden de alineamiento de los pares de secuencias en
distintos conglomerados (cluster) según los resultados del árbol
4) Utilizar el árbol inicial para repetir el proceso las veces que sea
necesario hasta conseguir un alineamiento estable

Esta estrategia supone un primer paso consistente en el alineamiento


múltiple de las secuencias (ejemplo en la figura adjunta), tras lo cual se
puede proceder a desarrollar distintos tipos de análisis de inferencia
filogenética sobre la matriz de datos alineada.

Una estrategia alternativa es la de Sankoff et al. (1973) sugiriendo que el


alineamiento múltiple de secuencias es parte de la inferencia filogenética
y no un paso previo. Su método, implementado por Wheeler y Gladstein
(1992, 1994) en el programa Malign, optimiza los alineamientos múltiples
en una búsqueda del alineamiento ideal que globalmente minimice las
diferencias entre las secuencias (definiendo la longitud de las ramas por el
número de sustituciones más la penalización de las brechas, infiriendo el
número mínimo de sustituciones y brechas necesarias por alineamiento, y
seleccionando el alineamiento que produce el árbol más corto).

41
42
DIVERGENCIA ENTRE SECUENCIAS DE ADN

La matriz de secuencias alineadas corresponde a las secuencias actuales


que presentan los taxones en estudio; dependiendo del método de
inferencia filogenética que se pretenda desarrollar estos datos pueden ser
analizados directamente (p.e. Parsimonia) o bien pueden ser analizados a
través de distintos modelos matemáticos de tasas de sustitución de
nucleótidos (p.e. métodos basados en Distancias genéticas y Máxima
verosimilitud).

Las secuencias actuales pueden estar enmascarando diversos procesos


sustitucionales que han podido producirse en algunas de sus posiciones
desde que divergieron de su ancestro común más inmediato tal como se
muestra en la figura adjunta. Dado el caso de dos secuencias, Secuencia 1
y Secuencia 2, derivadas de una misma Secuencia ancestral, las
similaritudes de nucleótidos observadas en algunas posiciones pueden
deberse tanto a la herencia común del caracter, como a sustituciones
paralelas, sustituciones convergentes, o sustituciones revertidas,
mientras que las diferencias de nucleótidos observadas en otras posiciones
pueden deberse tanto a divergencia por sustituciones simples, como a
sustituciones múltiples (mutaciones superpuestas), o sustituciones dobles.

43
Para calcular correctamente las distancias evolutivas entre pares de
secuencias deben estimarse todas las posibles mutaciones que han podido
tener lugar en las distintas posiciones desde que las secuencias
divergieron de su ancestro común. Con este fin se han desarrollado
distintos modelos matemáticos que preconizan diferentes tasas de
sustitución de nucleótidos dependiendo de diversos parámetros
considerados.

En la figura adjunta se muestra un ejemplo de dos posibles situaciones o


escenarios de evolución distintos de una misma secuencia de ADN que
conducen a la posesión actual del mismo nucleótido A en una
determinada posición de la secuencia. En la primera situación, la
secuencia poseía A en el tiempo evolutivo incial t0, no sufre cambios y
sigue poseyendo A en el tiempo evolutivo siguiente t1, y continúa sin
sufrir cambios mostrando A en el tiempo evolutivo t2; por el contrario, en
la segunda situación la secuencia también poseía A en el tiempo evolutivo
t0, pero sufre una mutación y presenta otro nucleótido (no A) en el tiempo
evolutivo siguinte t1, volviendo a experimentar una nueva mutación
(retromutación) y mostrando A en el tiempo evolutivo t2. Los modelos
matemáticos que tratan de estimar las distancias evolutivas según las
tasas de sustitución de nucleótidos incorporan en sus cálculos las
posibilidades de mutaciones superpuestas.

44
MODELOS DE EVOLUCIÓN DE SECUENCIAS DE ADN

Los modelos matemáticos de sustitución de nucleótidos más sencillos son


el modelo de Jukes Cantor de un parámetro y el modelo de Kimura de dos
parámetros. Ambos modelos se sustentan sobre bases puramente teóricas.
Otros modelos más complejos incorporan un mayor número de parámetros
y se fundamentan en ciertos casos sobre resultados empíricos.

Modelo Jukes-Cantor de un parámetro:

El esquema del modelo de sustitución de nucleótidos de Jukes-Cantor


(1969) se muestra en la figura adjunta. El modelo JC es el más simple;
este modelo asume que cualquier sustitución de un nucleótido por otro
tiene la misma probabilidad de producirse en el tiempo evolutivo, no
habiendo ninguna dirección preferente de sustitución. Las sustituciones
de nucleótidos en el tiempo se producen al azar entre cualquiera de los
cuatro tipos (p.e. si el nucleótido de partida en una posición es A, este
nucleótido puede mutar a C, G, o T con la misma probabilidad). Según
este modelo la tasa de sustitución en cada una de las tres posibles
direcciones de cambio es α y la tasa de sustitución de cada nucleótido por
unidad de tiempo es 3α. El modelo de Jukes-Cantor implica un sólo
parámetro (α).

Las tasas mutacionales de este modelo se representan en una matriz de


4x4 (figura adjunta) en la cual un elemento cualquiera de la matriz
representa la tasa de cambio de un nucleótido a otro. Puesto que existen
las mismas probabilidades de mutación de unos nucleótidos a otros, 3α =
1 (los elementos de la diagonal, que representan la permanencia del tipo
inicial de nucleótido, tienen valores negativos para compensan los otros
tipos de conversiones).

Para analizar cómo sería la dinámica de sustitución de nucleótidos según


este modelo supongamos que sea A el nucleótido presente en una cierta
45
posición de una secuencia de ADN en un tiempo evolutivo incial t0, e
intentemos dilucidar cuales serían las probabilidades de que ese mismo
nucleótido A estuviera en esa posición en los tiempos evolutivos
subsecuentes t1 y t2.

Como partimos de que ese nucleótido es A, su probabilidad de que sea A


en el tiempo t0 es igual a 1:

P A (0) = 1

En el tiempo t1 la probabilidad de seguir teniendo A en esa posición (o de


que el nucleótido no haya mutado) es:

P A(1) = 1 - 3α

En el tiempo t2 la probabilidad de que A siga en esa posición es:

P A(2) = (1 - 3α) P A(1) + α [1 - P A(1)]

el que A siga en esa posición en el tiempo t2 puede deberse a dos causas:


en la primera de ellas A no habría mutado ni entre t0 y t1, ni entre t1 y
t2; en la segunda de ellas A habría mutado a cualquier otro nucleótido
que no sea A (C, G, o T) entre t0 y t1, y ése nucleótido habría revertido
nuevamente a A entre t1 y t2 (situaciones o escenarios 1 y 2 de la figura
anterior). La probabilidad de que el el nucleótido sea A en el tiempo t1 es
P A(1), y la probabilidad de que permanezca siendo A, sin mutar, en el
tiempo t2 es (1 - 3α). El producto de estas dos variables independientes da
la probabilidad del primer escenario (y constituye el primer término de
la ecuación). La probabilidad de que el nucleótido no sea A en el tiempo t1
es [1 - P A(1)] y su probabilidad de revertir a A en el tiempo t2 es α. El
producto de esas dos probabilidades da la probabilidad del segundo
escenario (y constituye el segundo término de la ecuación).

Utilizando esta ecuación se puede demostrar que la siguiente ecuación


recurrente funciona para cualquier tiempo t:

P A(t + 1) = (1 - 3α) P A(t) + α [1 - P A(t)]

esta última ecuación se puede escribir en términos de cantidad de cambio


en P A(t) por unidad de tiempo:

46
P A (t + 1) - P A (t) = - 3α P A(t) + α [1 - P A (t) ] o:

∆ P A (t) = - 3α P A(t) + α [1 - P A (t) ] = - 4α P A(t) + α

Hasta ahora se han considerado procesos de tiempo discretos. Si


aproximamos estos procesos a un modelo de tiempo continuo,
considerando ∆ P A (t) como la tasa de mutación en el tiempo t,
obtenemos una ecuación diferencial de primer orden:

d P A (t)
----------- = - 4α P A(t) + α
dt

cuya solución viene dada por:

P A(t) = 1/4 + ( P A(0) - 1/4 ) . e -4αt

Si partimos del nucleótido inicial A en una posición dada, P A(0) = 1. Por


lo tanto:

P A(t) = 1/4 + (3/4). e -4αt

Esta última ecuación se puede aplicar cualquiera que sea la condición


inicial. Por ejemplo, si el nucleótido de partida no es A, entonces P A(0) =
0, y la probabilidad de tener A en esa posición en un tiempo t es:

P A(t) = 1/4 - (1/4). e -4αt

Estas ecuaciones son suficientes para describir los procesos de mutación


por sustitución. De la ecuación P A(t) = 1/4 + (3/4). e -4at observamos que
si A es el nucleótido inicial, entonces PA(t) decrece exponencialmente
desde 1 hasta 1/4 (figura adjunta). Por otro lado, de la ecuación P A(t) =
1/4 - (1/4). e -4at observamos que si el nucleótido inicial no es A entonces
PA(t) se incrementará paulatinamente desde 0 hasta 1/4. Así,
independientemente de la condición inicial, PA(t) eventualmente
alcanzará 1/4.

Este modelo se aplica igualmente para los casos en los que el nucleótido
de partida sea C, G, o T. Por consiguiente, bajo el modelo de Jukes-Cantor
la frecuencia de equilibrio de cada uno de los cuatro nucleótidos en el
tiempo es 1/4. Después de alcanzado el equilibrio no habrá más
probabilidades de cambio para tiempos subsecuentes, es decir:

47
PA(t) = P C(t) = P G(t) = P T(t) = 1/4

Esta frecuencia de los nucleótidos en equilibrio (1/4) permanece


inamovible solamente si las secuencias del ADN tienen longitud infinita.
En la práctica las longitudes de las secuencias estudiadas del ADN son
finitas por lo que pueden darse fluctuaciones en las frecuencias de los
nucleótidos.

Generalizando las ecuaciones anteriores a las probabilidades de cambios


de todos los nucleótidos, obtenemos nuevas ecuaciones en las cuales,

- la probabilidad de que un nucleótido determinado (i) permanezca siendo


el mismo en un tiempo t es:

P ii(t) = 1/4 + (3/4). e -4α t

- mientras que la probabilidad de que ese nucleótido (i) cambie a otro


nucleótido (j) es:

P ij(t) = 1/4 - (1/4). e -4α t


Modelo Kimura de dos parámetros:

La asunción del modelo de Jukes-Cantor de que todo tipo de sustituciones


de nucleótidos tienen la misma probabilidad de producirse al azar no es
real en muchos casos. En secuencias de ADN finitas se ha observado que
las transiciones (cambios A-G y C-T) son más frecuentes que las
transversiones (todos los demás tipos de cambios). Para incorporar este
hecho a un modelo dinámico de sustitución de nucleótidos, Kimura (1980)
propuso su modelo de dos parámetros, mostrado en la figura adjunta
(K2p). Según este esquema la tasa de sustitución transicional en cada
posición es α, mientras que la tasa de sustitución transversional es β. La
tasa de sustitución de un nucleótido por otro, por unidad de tiempo, es α +
2β, ya que las posibles mutaciones que puede experimentar un nucleótido
incluyen una transición y dos transversiones. El modelo de Kimura
utiliza dos parámetros (α, β).

Este modelo se puede esquematizar en una matriz de 4x4 cuyos


elementos representan las tasas mutacionales entre los nucleótidos. Cada
transición tiene una tasa sustitucional α, y cada transversion tiene una
tasa sustitucional β. Ya que los posibles cambios sustitucionales que
puede experimentar un nucleótido por unidad de tiempo son una
transición y dos transversiones; su posible ocurrencia es de α + 2β = 1 (los
elementos de la diagonal, que representan la permanencia del mismo

48
nucleótido, tienen valores negativos compensatorios de los otros posibles
cambios).

La simetría del esquema de sustituciones de nucleótidos de Kimura es la


misma que la de Jukes-Cantor, lo que varían son las tasas mutacionales
de los cambios. Las probabilidades de presencia de los distintos
nucleótidos en una posición determinada en el tiempo evolutivo t+1 son
las siguientes:

P A(t+1) = (1-α-2β) P A(t) + β P T(t) + β P C(t) + α P G(t)

P T(t+1) = β P A(t) + (1-α-2β) P T(t) + α P C(t) + β P G(t)

P C(t+1) = β P A(t) + α P T(t) + (1-α-2β) P C(t) + β P G(t)

P G(t+1) = α P A(t) + β P T(t) + β P C(t) + (1-α-2β) P G(t)

Puesto que la probabilidad de que un nucleótido siga siendo el mismo en


el tiempo evolutivo es la misma para los cuatro casos ( P AA(t) = PGG(t) =
PCC(t) = PTT(t) ), despejando las ecuaciones anteriores se obtienen los
siguientes algoritmos que indican:

- la probabilidad de que un nucleótido determinado de una posición dada


en un tiempo t sea el mismo que el que había en el tiempo inicial t0 es:

X (t) = 1/4 + (1/4). e-4β t + (1/2) . e-2(α +β )t

- la probabilidad de que el nucleótido inicial (t0) y el nucleótido existente


en el tiempo t difieran uno del otro en una transición es:

Y (t) = 1/4 + (1/4). e-4β t - (1/2) . e-2(α +β )t

- y la probabilidad de que el nucleótido incial (t0) y el nucleótido existente


en el tiempo t difieran uno del otro en una tranversión es:

49
Z (t) = 1/4 - (1/4). e-4β t

Puesto que cada nucleótido puede experimentar dos tipos posibles de


cambios transversionales (en contraposición a un único cambio
transicional), la probabilidad de que el nucleótido inicial y el nucleótido
del tiempo t difieran en uno de esos dos posibles tipos de transversiones es
dos veces la probabilidad Z (t); por lo tanto se cumple la condición de que
la suma de las probabilidades es igual a 1

X (t) + T (t) + 2. Z (t) = 1

Al representar las probabilidades indicadas en las fórmulas de Kimura (


X, Y, Z ) sobre el gráfico que muestra la probabilidad de cambio de
nucleótidos a lo largo del tiempo evolutivo (figura anterior) se observa, de
forma general, que X decrece de forma exponencial desde 1 hacia 1/4,
mientras que Y y Z aumentan de forma paulatina desde 0 hacia 1/4, con lo
cual, idealmente, las frecuencias de equilibrio de los cuatro nucleótidos
tenderían a igualarse y ser 1/4 en un tiempo evolutivo infinito. Sin
embargo, y a diferencia del modelo de JC, este equilibrio tardaría más
tiempo en producirse según el modelo de Kimura, si las tasas de

sustitución α y β son distintas, p.e. si las sustituciones por transición son


mucho más frecuentes que las sustituciones por transversión (α > β) las
probabilidades X e Y tienden a ser mayores de 1/4 mientras que las
probabilidades Z tienden a ser menores que 1/4 en un tiempo evolutivo
real (p.e. 200 millones de años).

Estimaciones de las sustituciones nucleotídicas entre pares de secuencias

Sobre la base de los modelos teóricos de sustituciones nucleotídicas de


Jukes Cantor de un parámetro y de Kimura de dos parámetros para una
50
secuencia de ADN se pueden estimar las sustituciones nucleotídicas
habidas entre pares de secuencias concretas y, por tanto, calcular sus
distancias genéticas corregidas.

Ambos modelos cumplen la condición de reversibilidad en el tiempo; por lo


tanto si comparamos dos secuencias actuales, Secuencia 1 y Secuencia 2,
que han derivado de su Secuencia ancestral a lo largo de un tiempo
evolutivo t (figura adjunta), podemos desplazarnos (y comparar) de una
secuencia a otra bien en la dirección (S1 - S.ancestral - S2) o bien en la
dirección opuesta (S2 - S.ancestral - S1).

Considerando en primer lugar las similaritudes entre las dos secuencias,


según el modelo JC de un parámetro, se aplicaría la fórmula de Identidad:

I (t) = P AA(t)2 = PGG(t)2 = PCC(t)2 = PTT(t)2

y utilizando la fórmula de probabilidad de que un nucleótido de una


posición continúe siendo el mismo tras un tiempo evolutivo t:

P ii(t) = 1/4 + (3/4). e -4αt

obtenemos la siguiente fórmula de identidad en la que el tiempo se ha


multiplicado por dos (2 secuencias):

I ii(t) = 1/4 + (3/4). e -8α t

51
según el modelo K2P, las probabilidades de identidad son:

P AA(t) = X (t); P AG(t) = Y (t); P A T(t) = P A C(t) = Z (t)

y utilizando la fórmula de probabilidad de que un nucleótido de una


posición continúe siendo el mismo tras un tiempo evolutivo t:

X (t) = 1/4 + (1/4). e-4βt + (1/2) . e-2(α+β)t

obtenemos la siguiente fórmula de identidad en la que el tiempo se ha


multiplicado por dos (2 secuencias):

X (t) = 1/4 + (1/4). e-8β t + (1/2) . e-4(α +β )t

Considerando en segundo lugar las disimilaritudes entre las dos


secuencias, según el modelo JC de un parámetro, utilizando la fórmula de
probabilidad de que un nucleótido de una posición continúe siendo el
mismo tras un tiempo evolutivo t, y considerando la condición de
reversibilidad en el tiempo, se onbtiene la siguiente fórmula de
disimilaritud:

D ij(t) = 1/4 - (1/4). e -8α t

según el modelo K2p, teniendo en cuenta las consideraciones anteriores,


las fórmulas de disimilaritud entre las secuencias para casos de
sustituciones por transicion y por transversion son:

diferencias por transicion:


P (t) = 1/4 + (1/4). e-8β t - (1/2) . e-4(α +β )t

difierencias por transversion:

Q (t) = 1/2 - (1/2). e-8β t

52
Cálculos de las tasas de sustitución de nucleótidos entre pares de
secuencias

A efectos prácticos, cuando queremos calcular las tasas de sustitución de


nucleótidos entre un par de secuencias dadas (K, tasa de sustitución por
posición a lo largo de una secuencia de longitud L), según un modelo
evolutivo u otro, seguiremos los siguientes procedimientos:

Modelo JC:

probabilidad de identidad:

I (t) = 1/4 + (3/4). e -8αt

probabilidad de disimilaritud:
p = 1 - I (t) p = 3/4 (1 - e-8βt) 8αt = - ln (1 - 4/3 p])

como K = 2(3αt)

K = - (3/4) ln (1 - 4/3 p)

(la tasa de sustituciones se puede calcular contando p =


número de nucleótidos distintos entre ambas secuencias)

la varianza de K es : V (K) = p (1 - p) / [L (1 - 4p/3)2]

53
54
Modelo K2p:

probabilidades por disimilaritud transicional o transversional:

P (t) = 1/4 + (1/4). e-8βt - (1/2) . e-4(α+β)t

Q (t) = 1/2 - (1/2). e-8βt

K = (1/2) ln (a) + (1/4) ln (b) [ a = 1 / ( 1 - 2P - Q) , b = 1 / (1


- 2 Q) ]

(la tasa de sustituciones se puede calcular contando P =


número de diferencias transicionales y Q = número de
diferencias tranversionales entre ambas secuencias)

la varianza de K es : V (K) = [a2 P + c2 Q - (a P + c Q ) 2] / L c=


(a + b) / 2

Cálculo de distancias genéticas entre pares de secuencias

Tal como se expuso anteriormente al tratar de los alineamientos de


secuenias, las distancias genéticas entre secuencias de una misma región
del ADN pueden calcularse basaándose en el índice de similaridad (que
considera posiciones apareadas, posiciones desapareadas, y brechas
(penalizados o no)), representado por las ecuaciones siguientes:

S=M/L

L=M+U+w G.G

( S = similaritud; M = número de apareamientos (residuos sinónimos); L =


longitud de la secuencia; U = número de desapareamientos (residuos no
sinónimos); G = número de brechas; w G = penalización aplicada a las
brechas). (En la mayor parte de los análisis w G varía entre 0 (ignorando
los huecos) y 1 (tratando los huecos de forma equivalente a las
sustituciones; un valor de w G de 0.5 es un compromiso razonable).

Estas ecuaciones pueden utilizarse directamente para la elaboración de


matrices de distancias (por similaritud) y para conducir reconstrucciones
ultramétricas (UPGMA) si existe un reloj molecular.

55
Sin embargo, para desarrollar ciertos análisis evolutivos (NJ) debemos
asumir que esas distancias son aditivas, y tratar de calcular las distancias
evolutivas a partir de las distancias por similaritud, aplicando alguno de
los modelos explicados antes (Jukes-Cantor; Kimura). La transformación
de las distancias por similaritud en distancias evolutivas se efectúa
mediante las fórmulas:

D = 1-S

d = - b lg (1 - D/b)

( D = índice de disimilaritud entre secuencias; S = índice de


similaritud (ecuación superior); d = distancia evolutiva entre un par de
secuencias; b = valor que varía según el modelo evolutivo seleccionado).

Si se selecciona el modelo de Jukes-Cantor de un parámetro, donde todos


los los cambios sustitucionales de nucleótidos se consideran igualmente
probables, resulta entonces:

b = 3/4

Por el contrario, si el número de transiciones es substancialmente mayor


que el de transversiones y las secuencias son muy divergentes entre sí, los
nucleótidos pueden reducirse a dos grupos: un grupo formado por purinas
A y G, y el otro por pirimidinas C y T. Esta aproximación elimina toda
información que pudiera ser proporcionada por transiciones y está
motivada por la asunción de que tal información ha quedado reducida a
'ruido de fondo'. En este caso el valor de b es:

b = 1 - [ (Π A + Π G)2 + (Π C + Π T)2]

(Π A, Π C, Π G, Π T = frecuencias de cada tipo de nucleótido en la


secuencia)

si las secuencias han divergido recientemente, esta fórmula no puede


aplicarse, ya que el número de transversiones sería muy pequeño y las
conclusiones obtenidas serían, estadísticamente, inferiores a las
potenciales.

Si se selecciona el modelo de Kimura de dos parámetros, éste mismo autor


proporciona un sistema para inferir distancias evolutivas que considera
por igual el que transiciones y transversiones ocurran a frecuencias
distintas como que ocurran a la misma frecuencia, y que se resume en las
fórmulas:

56
d = - 1/2 lg [(1 - 2P - Q). V*1-2Q]

P = UP / N

Q = UQ / N

N = M + UP + U Q

(d = distancia evolutiva entre un par de secuencias; P = porcentaje de


posiciones de las secuencias que difieren en una transición; UP = número
de posiciones de las secuencias que difieren en una transición; N =
longitud de las secuencias (número posiciones con nucleótidos, sin contar
la brechas); Q = porcentaje de posiciones de las secuencias que difieren en
una transversión; UQ = número de posiciones de las secuencias que
difieren en una transversión; M = número de posiciones apareadas en las
dos secuencias (con nucleótidos idénticos).

Las brechas o delecciones no cuentan en estos cálculos, ya que no están


incluídos en los modelos evolutivos propuestos (los modelos se aplican
únicamente a sustituciones entre nucleótidos, no a delecciones o
inserciones). Ignorar las brechas equivale a darles una penalización igual
a cero (wG = 0).

Para calcular las distancias evolutivas entre las secuencias podemos


considerar o no las brechas; el sistema basado en el modelo de Kimura de
dos parámetros, como ya hemos dicho, no los considera. Aparte de las
razones inherentes al modelo, que no incluye las brechas, otras razones
esgrimidas para ignorarlas, especialmente si éstas son debidas a
delecciones o inserciones de gran longitud, se fundamentan en la
incertidumbre que recae sobre la homología de esas posiciones, lo que las
convierte en poco fiables. En las reconstrucciones filogenéticas basadas en
el análisis de los caracteres (p.e. Parsimonia) las brechas pueden ser
tomadas en consideración si aportan información filogenética al estudio,
siendo codificadas como caracteres binarios, o pueden ser rechazadas.

Pese a la diferencia de criterios, obtener una alineación óptima de las


secuencias, para lo que si cuentan el número y la distribución de las
brechas, es crucial, ya que de esa alineación van a depender los
apareamientos y desapareamientos que se establezcan entre las
posiciones con nucleótidos de las secuencias, y, consecuentemente, las
distancias que se calculen a partir de ellas o los análisis de cambios que se
hagan de esos caracteres.

Una vez elaborada la matriz de distancias evolutivas entre las secuencias


de una región del ADN de varios taxones en estudio, aplicando un modelo
57
evolutivo concreto (Jukes-Cantor o Kimura), podemos asumir que esas
distancias son aditivas y proceder a la reconstrucción de la filogenia de
esos taxones por algún procedimiento de vía aditiva (p.e. Neighbor
Joining).

58
59
MODELOS DE EVOLUCION DE SECUENCIAS DE ADN

Los modelos de Jukes Cantor y de Kimura 2P comentados anteriormente


son los dos modelos de evolución de secuencias de ADN propuestos más
sencillos ya que incorporan únicamente uno o dos parámetros en sus
asunciones.

Otros modelos más complejos incorporan un número mayor de parámetros


a los cálculos de las probabilidades de sustituciones de nucleótidos entre
secuencias basándose en distintas asunciones. Algunas de estas premisas
son teóricas, pero en otros casos se fundamentan en datos empíricos (p.e.
la distinta frecuencia de nucleótidos observada en ciertas regiones
genómicas: cpADN es rico en AT, rADN es rico en GC).

Los modelos que se van a describir en esta sección son todos ellos modelos
de Markov, es decir, reversibles en el tiempo, que siguen un proceso

60
homogéneo, asumiendo que las probabilidades de sustitución de
nucleótidos no cambian en las diferentes partes del árbol.

61
El Modelo Reversible General que sigue un proceso de Markov
homogéneo y que se muestra en la figura adjunta viene representado
como una matriz Q 4x4 de tasas de sustitución entre nucleótidos en un
perido de tiempo infinitesimal dt, en el que las filas y columnas
corresponden, respectivamente, a los nucleótidos A, C, G, T, y que
incluyen los siguientes factores:

µ tasa de sustitución instantánea promedio

a, b, c, ..., l tasas relativas de sustitución de un nucleótido por otro

Π i frecuencias de cada nucleótido

Se asume que las frecuencias de los nucleótidos permanecen constantes


en el tiempo y que la tasa relativa de cambio de de cada nucleótido es
proporcional a la frecuencia de equilibrio pero independiente de la
identidad del nucleótido de partida.

(Los elementos de la diagonal Q son iguales y de signo contrario a la suma


de los restantes elementos de la fila, para que la suma de todos ellos sea
igual a 0).

Casi todos los modelos propuestos de sustituciones nucleotídicas son


variaciones del Modelo General Reversible que incorporan más o menos
parámetros. En la figura adjunta se muestran las transformaciones de

62
unos modelos en otros en orden de mayor complejidad a mayor
simplicidad.

Como se asume la reversibilidad en el tiempo de los modelos, la tasa de


cambio del nucleótido i al nucleótido j ha de ser igual a la tasa de cambio
del nucleótido j al nucleótido i, con lo cual el número de parámetros
referidos a las tasas relativas de sustitución de un nucleótido por otro
disminuye de doce a seis ya que g = a, h = b, i = c, j = d, k = e, l = f
(simetría en tasas de sustituciones equivalentes).

63
- Modelos GTR, de Lanave et al. 1984 y otros, cuentan con 12 parámetros
( a, b, c, d, e, f, Π A, Π C, Π G, Π T) y suponen una aplicación del Modelo
General Reversible con tasas relativas de sustitución de nucleótidos
simétricas. Suelen ser poco utilizados por la complejidad de sus
asunciones.

64
• Partiendo del Modelo GTR y considerando que los nucleótidos tienen
frecuencias distintas:

- Modelo TrN, de Tamura - Nei 1993, de 7 parámetros ( a, b, e, Π A, Π C,


Π G, Π T) . Reduce el número de tasas relativas de sustitución de
nucleótidos a tres: transversiones, transiciones entre purinas,
transiciones entre pirimidinas, ya que a = c = d = f.

- Modelo HKY85, Hasekawa - Kishino - Yano 1985, de 6 parámetros ( α , β ,


Π A, Π C, Π G, Π T) . Reduce el número de tasas relativas de sustitución de
nucleótidos a dos: transiciones, y transversiones, ya que a = c = d = f = 1 y
b = e = κ (donde la tasa de transición α = µ y la tasa de transversión β = µ
κ , Π R = Π A + Π G y Π Y = Π C + Π T). Modelo F84, Felsenstein 1984, de 6
parámetros (K / Π R, K / Π Y, Π A, Π C, Π G, Π T). Reduce el número de tasas
relativas de sustitución de nucleótidos a dos: una tasa de sustitución
general, y una tasa de sustitución intragrupos que produce sólo
transiciones, ya que a = c = d = f = 1 y b = (1 + K / Π R) , e = (1 + Κ / Π Y) . (K
es el parámetro es el parámetro que determina la relación (ratio)
transición : transversión).

- Modelo F81, Felsenstein 1981, de 5 parámetros ( α , Π A, Π C, Π G, Π T).


Reduce el número de tasas relativas de sustitución de nucleótidos a un
solo tipo de cambio, ya que a = b = c = d = e = f = 1 (donde κ = 1).

• Partiendo del Modelo GTR y considerando que los nucleótidos tienen


frecuencias iguales ( Π A = Π C = Π G = Π T) :

- Modelo SYM, Zharkikh 1994, de 6 parámetros ( a, b, c, d, e, f).

- Modelo K3ST, Kimura 1981 de 3 parámetros (a, b, e). Reduce el número


de tasas relativas de sustitución de nucleótidos a tres: transiciones,
transversiones A-T ó C-G, tranversiones A-C ó G-T, ya que b = e, c = d, a =
f.

- Modelo K2P, Kimura 1980 dos parámetros (α , β ). Reduce el número de


tasas relativas de sustitución de nucleótidos a dos: transiciones, y
transversiones, ya que a = c = d = f = 1 y b = e = κ (donde la tasa de
transición α = µκ / 4 y la tasa de transversión β = µ / 4).

- Modelo JC, Jukes Cantor 1969 de un parámetro (α ). Reduce el número


de tasas relativas de sustitución de nucleótidos a un solo tipo de cambio,
ya que a = b = c = d = e = f = 1 (donde la tasa de sustitución α = µ / 4).

65
(* κ = α / β representa el sesgo de transiciones y transversiones. Cuando κ
= 1 no hay preferencias por uno u otro tipo de sustituciones, y el modelo
K2P se reduce al modelo JC. Sin embargo, como hay dos veces más
transversiones que transiciones la relación esperada (ratio) de
transición:transversión es 1:2. Si, por ejemplo, κ = 4 esperaríamos
encontrar dos veces más transiciones que transversiones).

Otras posibles transiciones entre los modelos propuestos son el paso de los
modelos HKY85 ó F84 al modelo K2P considerando que las frecuencias de
los nucleótidos son iguales, o el paso del modelo F81 al modelo JC
considerando también que las frecuencias de los nucleótidos son iguales.

¿Cuál es el mejor modelo de sustitución nucleotídica?

La selección del modelo óptimo dependerá del conocimiento empírico que


tengamos del genoma, o región del genoma, en estudio; p.e. para una
región del genoma que muestre iguales proporciones de nucleótidos los
modelos ideales pueden ser JC ó K2P, para una región de un genoma que
muestre un gran sesgo hacia unos tipos preferentes de nucleótidos (caso
del genoma mitocondrial de vertebrados o del genoma cloroplástico de
plantas, donde son más frecuentes A y T) el modelo ideal puede ser HKY o
TrN.

Tasas de heterogeneidad a lo largo de las secuencias: Distribución gamma

Los modelos de sustitución de nucleótidos descritos anteriormente


asumen que cada posición de una secuencia de nucleótidos de ADN
evoluciona con la misma tasa de sustitución. Si ésto no fuese así, las
secuencias no serían homogéneas, sino heterogéneas, con tasas de
sustitución diferentes en ciertas regiones, hecho que tendría graves
consecuencias sobre la reconstrucción filogenética que podría llevar a
estimaciones erróneas.

Las diferencias en las tasas de sustitución dentro de secuencias


heterogéneas son debidas a distintas restricciones selectivas (p.e. en una
secuencia que incluya regiones exónicas e intrónicas, la región
codificadora, exónica, es más conservada por estar sometida a una fuerte
presión selectiva, mientras que la región intrónica es más variable por no
estar sometida a dicha presión; igualmente en una secuencia de un ARN
ribosomal las regiones de plegamiento son más conservadas, mientras que
las regiones de bucles son más varibles).
66
Las diferencias en las tasas de sustitución de nucleótidos a lo largo de las
secuencias pueden corregirse utilizando una distribución gamma.

Partiendo del modelo de sustitución más sencillo - JC - podemos


incorporar las tasas heterogéneas de sustitución en regiones diferentes a
la fórmula de probabilidad de sustitución incluyendo un componente de
tasa relativa - r -.

1 / 4 + 3 / 4 e -µrt ( i = j)
Pij (t, r) =
1 / 4 - 1 / 4 e -µrt ( i ? j)

Las tasas relativas r son acomodadas de tal forma que la media de la tasa
de sustitución permanece con un valor 1; en el caso más sencillo se asigna
una tasa rj a cada posición j. El fundamento de esta atribución debe de ser
alguna clasificación previa de las posiciones en categorías funcionales y la
signación de tasas relativas a esas categorias, p.e. categorías de las
posiciones 1a, 2a, y 3a de cada codon, o posiciones apareadas vs.
desapareadas en los genes de ARN ribosomales. También es posible
asignar tasas de sustitución relativas a categorías basadas en el modelo
de residuo de cambio.

Varios modelos estocásticos explícitamente incorporan tasas de variación


posición-a-posición; en esos modelos cada posición tiene cierta
probabilidad de evolucionar a una particular tasa contenida en alguna
probabilidad de distribución, la cual pude ser bien discreta o bien
continua.

El modelo más simple es aquel que separa las posiciones entre posiciones
invariables (que no sufren mutaciones) y el resto de posiciones que
evolucionan todas con la misma tasa. En este caso,

cuando r = 0 Pii (t, r) = 1 y Pij (t, r) = 0 para todo


i?j

la proporción de posiciones que son invariables puede calcularse


separadamente o ser tratada como un parámetro.

La distribución más comunmente utilizada para modelizar la tasa de


heterogeneidad es la distribución gamma ( Γ ). La distribución Γ tiene
dos parámetros, un parámetro de forma ( a ) y un parámetro de escala ( b

67
). Estableciendo b = 1 / a se obtiene una distribución con una tasa media
de 1, y una amplia variedad de tasas de distribución pueden ser
obtenidas variando el valor de a (figura adjunta).

La distribución gamma se formula:

g ( λ ) = [ b a/Γ (a ) ] e -b λλ a-1 donde a = λ 2 / V λ , b= λ /V


λ

En el modelo JC de un parámetro λ = 3 α luego α = λ / 3

la identidad entre las secuencias se calcula mediante la


integración:

I= ? 08 I g ( λ) d λ= 1 / 4 + 3 / 4 ( a / a + 8 α t) a

68
Distintos valores de a : 0.5, 1.0, 2.0, ... dan distintos modelos de
distribución de gamma.

Cuando a es pequeña (a = 0.5) la mayoría de las posiciones evolucionan


lentamente, pero unas pocas posiciones tienen tasas moderadas o altas; a
medida que a aumenta (a = 1) la distribución de gamma resulta más en
pico y simétrica, cuando a es infinita todos los sitios tienen una tasa
relativa de 1.0, de forma que en esta situación un modelo de tasas
similares podría obtenerse como caso particular de la distribución gamma.

El modelo de distribución gamma es continuo, lo cual pude crear


inconvenientes computacionales para algunos métodos de inferencia
filogenética (p.e. Máxima verosimilitud); para ello Yang (1994) propuso
un procedimiento alternativo, el modelo de distribución gamma discreto,
en el cual la distribución Γ es dividida en varias categorías de tasas de tal
forma que cada categoría tenga las mismas probabilidades en la
distribución global (la media o mediana de cada categoría representa a las
demás). El modelo de distribución gamma discreto de Yang proporciona
una aproximación satisfactoria con tal sólo 4 categorías de tasas y
presenta una considerable ventaja computacional, ya que añade al
modelo seleccionado un único parámetro extra (el parámetro de forma a).

69
¿Cómo elegir el modelo de sustitución de nucleótidos óptimo para calcular
las distancias entre nuestras secuencias?

A la hora de seleccionar el modelo más apropiado debemos considerar los


distintos parámetros que pueden haber incidido sobre las secuencias y las
características de éstas. Una aproximación selectiva sencilla es la
propuesta por Jin & Nei (1990), cuyas reglas se basan en comenzar
calculando las distancias por el método más sencillo (JC) optando por
utilizar este método u otro método dependiendo de los valores obtenidos
(figura adjunta):

1) Si la estima de la distancia nucleotídica de Jukes Cantor es menor o


igual a 0.1 (d < 0.1) utilizar este modelo tanto si hay sesgo Ts:Tv como si
la tasa de sustitución ( λ ) varía entre los sitios. También podría utilizarse
directamente la distancia p (proporción de nucleótidos diferentes entre
cada par de secuencias).

2) Si la distancia JC está comprendida entre 0.1 y 0.3 ( 0.1 < d < 0.3)
utilizar el método de Jukes Cantor salvo que Ts:Tv > 0.5, en cuyo caso se
debe utilizar el método K2P.

3) Si la distancia JC está comprendida entre 0.3 y 1.0 ( 0.3 < d < 1.0 ) y la
tasa de sustitución ( λ ) varía entre los sitios, se utiliza la distribución
gamma para calcular la distancia. En los casos generales, puede usarse
una distancia gamma donde a = 1, aunque puede estimarse el valor de a a
partir de los datos.

4) Si la distancia JC está comprendida entre 0.3 y 1.0 ( 0.3 < d < 1.0 ) y las
frecuencias de los cuatro nucleótidos se desvían de la igualdad, se
recomienda utilizar la distnacia HKY85.

5) Si la distancia JC es mayor que 1 ( d > 1.0) para muchos pares de


secuencias, el árbol filogenético inferido a partir de ellas no resulta fiable.
Se sugiere emplear otros datos, bien por eliminación de alguno de los
disponibles o mediante el empleo de secuencias aminoacídicas (traducción
de las regiones codificadoras). En general se recomienda emplear otras
moléculas.

6) Si se utilizan regiones codificadoras, es útil la distinción entre


sustituciones sinónimas (dS) y no-sinónimas (dN), pues las primeras
suelen ser mucho más frecuentes que las segundas. Si se estudian taxones
relativamente próximos con dS < 1.0, pueden utilizarse las posiciones

70
sinónimas, sin embargo, si se estudian taxones relativamente alejados se
recomienda el uso de posiciones con sustituciones dN.

71
RECONSTRUCCIONES FILOGENETICAS
BASADAS EN DISTANCIAS GENETICAS

• ARBOLES DE DISTANCIAS

• METODOS DE
RECONSTRUCCION

72
73
ARBOLES DE DISTANCIAS

Los distancias genéticas utilizadas para la construcción de los árboles


basados en distancias cumplen los cuatro criterios que presentan todas las
distancias métricas (figura adjunta). Estos cuatro puntos son la no-
negatividad (la distancia entre a y b es mayor o igual a 0), la simetría (la
distancia de a a b es igual a la distancia de b a a ), la desigualdad del
triangulo (la distancia de a a c es menor o igual a la suma de distancias de
a a b y de b a c), y la distinción (la distancia de a a b es 0 sólo si a y b son
iguales).

74
Las distancias ultramétricas cumplen un criterio adicional, del triángulo
regular (que implica que la distancia entre a y b es menor o igual a la
distancia máxima de a a c y de b a c).

Las distancias aditivas son aquellas que satisfacen otro criterio adicional,
la condición de los cuatro puntos (la suma de distancias de a a b y de c a d
es menor o igual que el máximo de las suma de las distancias de a a c y de
b a d ó que el máximo de la suma de a a d y de b a c; lo que es equivalente
a que de las tres sumas d(a, b) + d(c, d), d(a, c) + d(b, d), d(a, d) + d(b, c) las
dos más largas sean iguales).

La aditividad y la ultrametricidad se pueden cumplir en los árboles


filogenéticos (figura adjunta). En el primer caso, un árbol aditivo es aquel
75
en el que las distancias entre los taxones (secuencias) son iguales a la
suma de las longitudes de las ramas del árbol que los separan, mientras
que en el segundo caso, un árbol ultramétrico es aquel en el que las
distancias entre los taxones (secuencias) cumplen la anterior condición de
aditividad y además cumplen la condición de que las sumas de las
longitudes de las ramas que parten de un mismo ancestro común hacia
dos taxones terminales deben ser iguales.

76
En la figura adjunta se muestran ejemplos de construcciones de árboles
ultramétrico y aditivo a partir de matrices de distancias genéticas. Los
árboles ultramétricos asumen la existencia de un reloj molecular en las
tasas de sustitución de nucleótidos a lo largo de las ramas del árbol, y esas
longitudes son proporcionales a una escala de tiempo evolutivo; los
árboles aditivos no asumen la existencia del reloj molecular, hipótesis
evolutiva que es más plausible en la mayoría de los linajes de grupos de
organismos.

77
78
MTODOS DE RECONSTRUCCIONES FILOGENETICAS

Los diferentes métodos de reconstruciones filogenéticas basados en


distancias genéticas parten de una matriz de distancias genéticas entre
cada par de taxones en estudio (secuencias) elaborada según el modelo de
sustitución de nucleótidos seleccionado. El método de construcción utiliza
un algoritmo determinado que permite ir agrupando a los distintos
taxones, uniéndolos mediante ramas y calculando las longitudes de estas
ramas, hasta culminar con el árbol final que representa la hipótesis
evolutiva resultante. Los métodos de reconstrucción basados en distancias
genéticas producen un único árbol filogenético.

Dentro de los métodos de recontrucción más utilizados se encuentran el


método de construcción ultramétrico UPGMA y los métodos de
construcción aditivos de Neighbor-Joining (Saitou y Nei 1987) y de Fitch-
Margoliash.

Métodos ultramétricos . UPGMA

El método de reconstrucción filogenética UPGMA se basa en las medias


aritméticas y produce un árbol ultramétrico. A partir de la matriz de
distancias entre los taxones en estudio, éstos se van a ir uniendo unos a
otros por pares, comenzando por los que están a la mínima distancia.
Aquellos dos taxones más próximos entre sí (menor distancia) se unen en
un nudo, reconstruyéndose nuevamente la matriz de distancias de tal
forma que los dos taxones forman ahora una sóla unidad (nudo) y cuyas
distancias al resto de los taxones son las medias aritméticas de las
distancias que tenían ambos taxones originalmente. Para la construcción
de los clados del árbol, la longitud de las ramas que unen dos táxones (o a
un taxon con un nudo; o dos nudos) es la media aritmética de sus
distancias.

El método de construcción de árboles ultramétricos UPGMA puede dar


origen a falsas reconstrucciones filogenéticas si los caracteres empleados
para elaborar las matrices de distancias no son también ultramétricos (si
las tasas de sustitución nucleotídica de las secuencias no evolucionan al
mismo tiempo). UPGMA trata a todos los caracteres por igual sin tener en
cuenta cómo han variado éstos; sin embargo, en los seres vivos la
acumulación de diferencias mutacionales en sus secuencias es un proceso
estocástico (que se produce al azar a lo largo del tiempo, y de forma
distinta entre unos y otros). Por ello UPGMA lleva asociado un error
estadístico, en la mayor parte de los casos, cuando se trata de establecer
relaciones evolutivas (árboles) porque no está basado en un modelo
79
probabilístico. Sin embargo, si se observase una constancia en las tasas de
evolución de esos caracteres en el grupo estudiado (es decir, si las
secuencias evolucionan según un reloj molecular) UPGMA sería un
método válido para reconstruir la filogenia de ese grupo.

En las figuras adjuntas se muestra un ejemplo de reconstrucción


filogenética basada en el método UPGMA.

Métodos aditivos: NJ (Neighbor Joining)

El método de reconstrucción de Neighbor Joining se basa en un algoritmo


que utiliza distancias ponderadas entre las secuencias para inferir
filogenias por métodos aditivos, presentando la ventaja sobre los métodos
ultramétricos (UPGMA) de que no asume que haya constancia en la tasa
de evolución de las secuencias. Sin embargo, asume que las distancias son
aditivas (se mantienen proporciones de distancias entre dos taxones
respecto a un tercer taxon); en este sentido, la introducción de
ponderaciones en la matriz de distancias original permite normalizar la
divergencia de cada taxon respecto a su tasa promedio de 'reloj'. NJ, a
diferencia de UPGMA, sigue la pista a los nudos en el árbol filogenético,
más que a los taxones o grupos de taxones, y es un caso especial del
método de descomposición en estrella (el árbol incial es un árbol en
estrella y los taxones se van a ir separando de la estrella y uniéndose
entre sí mediante sucesivos nudos hasta completar el árbol final).

Para aplicar NJ se parte de una matriz de distancias original que va a ser


convertida en una matriz de distancias modificada en la cual la
separación entre cada par de taxones es reajustada en base a su
divergencia media con todos los demás taxones. Se unen los dos taxones
más próximos (mínima distancia), que forman un nudo, y se construye
una nueva matriz de distancias con ese nudo sustituyendo a los dos
táxones y reajustando nuevamente todos los valores. Se prosigue de
forma sucesiva, creando sucesivos nudos, hasta incorporar todos taxones.

Para elaborar la matriz de distancias modificadas se emplea la fórmula:

a) Mij = d ij - (ri + rj)

(Mij = distancia modificada entre i y j; dij = distancia original entre i y j; ri


= distancia reajustada de i; rj = distancia reajustada de j) (la distancia
reajustada de cada muestra se obtiene dividiendo la suma de distancias

80
de esa muestra a todas las demás por N-2, siendo N=Número total de
muestras) (los valores ri y rj ya han sido divididos por N-2).

El árbol se construye uniendo, en primer lugar, el par de muestras más


próximas de la matriz modificada (i, j), que forman un nudo (u); las
longitudes de las ramas que las conectan al nudo (u) se calculan según las
fórmulas:

b) siu = dij / 2 + (ri - rj) / 2 (siu = longitud de la rama de i al nudo u)

c) sju = dij – siu (sju = longitud de la rama de j al nudo u)

81
La nueva matriz de distancias del resto de las muestras al nudo u se
calcula mediante la fórmula:

d) dku = (dki + dkj – dij) / 2

(dku = distancia de k al nudo u; dki = distancia original de k a i; dkj =


distancia original de k a j; dij = distancia original entre i y j) .

A partir de esa nueva matriz se elabora otra nueva matriz de distancias


modificadas (tal como se hizo en el apartado a) y se busca el siguiente par
de muestras más próximas en esa matriz modificada que formaran el
siguiente nudo (siguiendo los procesos indicados en los apartados b, y c,
con posterior confección de nuevas matrices, siguiendo los procesos
indicados en los apartados d y a). Así se van uniendo las sucesivas
muestras, que formaran nuevos nudos, y se procede de forma similar
hasta incorporar la totalidad de ellas al árbol. El árbol final es un árbol no
enrraizado.

En las figuras adjuntas se muestra un ejemplo de reconstrucción


filogenética basado en el método NJ

82
83
84
85
86
Métodos aditivos: Fitch - Margoliash y métodos relacionados

Son métodos que dependen de una definición de discrepancia entre un


árbol y los datos basada en la siguiente familia de funciones objetivas:

T-1 T
E= ? ? w ij | d ij - p ij | α
i=1 j=i+1

( E = error de ajuste, T = número de taxones, w ij = peso aplicado a la


separación entre los taxones i y j, d ij = estima de su distancia, p ij =
longitud del sendero entre i y j en el árbol, a = 1 ó 2). debe de elegirse un
valor de α y otro de ponderación, siendo las más habituales:

w ij = 1 (Cavalli-Sforza & Edwards)

w ij = 1 / d ij (Fitch & Margoliash)

w ij = 1 / d ij 2

w ij = 1 / σ ij 2

El método recurre a continuación a la minimización de E mediante la


solución simultánea del conjunto de ecuaciones lineales que ligan las
distancias observadas con las calculadas sobre la topología generada.

En las figuras adjuntas se muestran ejemplos de reconstrucciones


filogenéticas basadas en el método de Fitch - Margoliash.

87
MAXIMA VEROSIMILITUD

88
89
Optimización de caracteres: Máxima Verosimilitud

El método de la máxima verosimilitud (Maximum likelihood, ML)


persigue obtener el árbol filogenético que tenga la máxima probabilidad
de haberse producido (requiere un modelo probabilístico). Si los caracteres
son secuencias de nucleótidos, la aplicación de este método requiere la
elección de un árbol, y de un modelo de sustitución de nucleótidos (Jukes
Cantor, Kimura-2p, etc.). La función de verosimilitud es una derivada.

La máxima verosimilitud es un método de inferencia filogenética por


medio del cual se evalúa una hipótesis evolutiva en comparación con
otras aceptándose la conjetura de que la historia evolutiva que explique
mejor los datos observados (mayor probabilidad) es la preferida.

Las pruebas de máxima verosimilitud pueden ser aplicadas a distintos


problemas biológicos (p.e. estimación de qué sesgo entre sexos tiene más
probabilidades de darse 1:1 ó 2:1 en una población en la que el número de
machos es de 49 y el de hembras de 37 (N= 49 + 37 = 86) para p=0.5). Las
estimaciones máximo verosimiles aplicadas a la inferencia filogenética
son utilizadas fudamentalmente con datos de secuencias nucleotídicas del
ADN y con datos de secuencias aminoacídicas de proteínas, ya que en
ambos casos se dispone de modelos matemáticos respectivos de tasas de
sustitución de unos tipos por otros.

Los métodos de inferencia filogenética basados en máxima verosimilitud


poseen importantes cualidades tales como su alta consistencia y escaso
margen de error muestral al producir estimaciones evolutivas que tienen
menor varianza que otros métodos, así como una importante robustez
frente a distintas violaciones de las asunciones de sus modelos. Los
mayores componentes que determinan la evolución de las secuencias
pueden ser descritos por varios parámetros.

Así pues, partiendo de un conjunto de datos (D) (matriz de secuencias


alineadas), que han sido generados según un proceso Markoviano, se
establecen un conjunto de parámetros (Θ) que constituyen un modelo
evolutivo y que hacen referencia a: 1) tasa de mutación de la molécula (µ)
, 2) tasa o tipo de sustitución de un nucleótido por otro (a, b, c, .... ó κ), 3)
frecuencia de los nucleótidos en el tiempo (Π A, Π C, Π G, Π T), y 4) los
tiempos evolutivos de divergencia de los linajes (en cada árbol).

El objetivo de la búsqueda filogenética mediante máxima verosimilitud


busca inferir la historia evolutiva que es más consistente con el conjunto
de datos observados. En este caso los datos son las secuencias alineadas,
mientras que las incógnitas son el orden de divergencia de los linajes y la
90
longitud de las ramas del árbol. Para aplicar el método de máxima
verosimilitud se puede seleccionar un modelo evolutivo concreto que
concuerde con la transformación de una secuencia en otra, o bien,
alternativamente, el modelo puede contener varios parámetros que van a
ser estimados a partir de los datos. Una aproximación máximo verosimil
evalúa primero la probabilidad de que un modelo evolutivo seleccionado
haya generado los datos observados y después se infiere la reconstrucción
filogenética más probable evaluando distintos árboles y encontrando
aquel(los) que produce(n) el(los) índice(s) de verosimilitud más altos.

Los principios básicos del cálculo del índice de verosimilitud de un árbol


se muestran en la figura adjunta. Suponiendo que partimos de las
secuencias alineadas de 4 taxones, queremos evaluar la verosimilitud de
uno de los posibles árboles no enrraizado bajo un modelo evolutivo
determinado. Es decir, queremos calcular la probabilidad de que este
árbol haya generado los datos observados según el modelo elegido. Como
los modelos usualmente utilizados son reversibles en el tiempo
(Markovianos) la verosimilitud del árbol es independiente del
posicionamiento de la raíz; por ello es conveniente enrraizar el árbol
arbitrariamente en un nudo interno.

91
Bajo la premisa de que las posiciones de la secuencia en estudio
evolucionan independientemente podemos calcular la verosimilitud para
cada posición, separadamente, y combinar el conjunto de las
verosimilitudes en un valor final.

Para calcular la verosimilitud de una posición particular j , debemos


considerar todos los escenarios posibles en los nudos internos del árbol
(distintos nucleótidos en esos ancestros) a partir de los cuales los
nucleótidos presentes en los taxones terminales hayan podido haber
evolucionado. Obviamente, alguno de esos escenarios son mucho más
plausibles que otros, pero cada escenario tiene, al menos, alguna
probabilidad de generar el modelo de nucleótidos observados en los
taxones terminales.

Concretamente, en el ejemplo dado el nudo en la raíz del árbol podría


haber tenido A, C, G, ó T, para cada una de esas posibilidades el siguiente
nudo interno podría también haber presentado cualquiera de los cuatro
nucleótidos. Así hay 4 x 4 = 16 posibilidades a considerar. Puesto que
cualquiera de esos posibles 16 escenarios pudiera haber conducido a la
configuración de nucleótidos observada en los taxones terminales del
árbol debemos calcular la probabilidad de cada uno de ellos y sumarlas,
obteniendo la probabilidad total para cada posición j .

Asumiendo un modelo Markoviano, aceptamos que los cambios a lo largo


de diferentes ramas son independientes. De esta forma la probabilidad de
un escenario concreto es igual al producto de las probabilidades de los
cambios de nucleótidos requeridos por ese escenario (p.e. la probabilidad
del primer escenario es igual a la probabilidad inicial de que el nodo de la
raíz tenga A (1/4, o el valor correspondiente según el modelo
seleccionado), por la probabilidad de que se retenga A en la rama que
conduce al siguiente nodo interno, por la probabilidad de que A cambie a
C a lo largo de la rama terminal que conduce al taxon 1, y así
sucesivamente.

92
Habiendo calculado las verosimilitudes en cada posición de la secuencia,
la probabilidad final del árbol (según el modelo seleccionado) a lo largo de
toda la secuencia se obtiene multiplicando las verosimilitudes
individuales de cada posición. Como esas probabilidades son números
muy pequeños se utilizan fórmulas logarítmicas para calcular el índice de
verosimilitud (la función logarítmica varía similarmente pero con valores
más equilibrados, produciendo una variación menor); así el índice de
verosimilitud final se computa como la suma de logaritmos neperianos de
las verosimilitudes individuales de cada posición.
93
Si evaluamos una topología distinta para las mismas secuencias (y según
el mismo modelo), procedemos del mismo modo que en el caso anterior,
computando un nuevo índice de verosimilitud (log ln) para este nuevo
árbol. Aquel valor de verosimilitud más alto (menos negativo) indica cuál
es el árbol preferido. De esta forma se pueden comparar distintas
topologías alternativas y seleccionar aquella que resulte más verosímil.

Contraste entre modelos alternativos

Si seleccionásemos un modelo markoviano distinto (p.e. añadiendo más


parámetros) y evaluásemos las mismas secuencias y árboles que en el
caso anterior podríamos obtener unos índices de verosimilitud diferentes
para esos árboles, por ello a la hora de plantearnos los cálculos de las
verosimilitudes de distintos árboles es importante decidir cual es el
modelo óptimo que explica mejor los cambios de las secuencias. Una
aproximación general consiste en escoger previamente un estadístico de
estimación de bondad y buscar a partir de allí un modelo que maximice
este estadístico sin necesidad de añadir parámetros innecesarios; puesto
que cada posición de la secuencia evoluciona independientemente, ésta se
puede considerar una muestra multinomial sobre la que pueden
ensayarse estadísticos tales como χ 2 (para prueba de razón de
verosimilitudes en Modelos anidados), o el criterio de información de
Akaike (en Modelos no anidados), o la prueba del sesgo del logaritmo de la
verosimilitud (G de Sokal y Rohlf 1981). En filogenias suele utilizarse
más frecuentemente la prueba G. En la figura adjunta se muestran las
pruebas de contraste entre modelos alternativos.

Calculando la verosimilitud de un árbol

Para calcular la verosimilitud de un árbol completo es necesario


considerar las verosimilitudes de la ocurrencia de cada nucleótido en cada
nudo interno en el árbol como una función de la topología del árbol y de la
longitud de las ramas. Partiendo de un árbol dado queremos determinar
cuan bueno el árbol es, para evaluar ésto procederemos desde un
hipotético nudo que hace de raíz en cualquier posición conveniente en el
árbol , combinando las verosimilitudes de cada uno de los posibles linajes
descendientes. Poniendo el caso mostrado en la figura de un árbol de cinco
taxones terminales (A, B, C, D, E) y cuyos nudos internos son F, G, y H, e
imaginando que la hipotética raíz se ha posicionado en el nudo G, la
verosimilitud de una posición determinada ( j ) viene dada por la fórmula
adjunta, mientras que la verosimilitud total será el producto sobre todas
las posibles posiciones. Los cuatro factores determinantes son:
94
1) la probabilidad inicial de que el nucleótido en G sea m
2) la verosimilitud condicional de que el nucleótido m en G cambie a k en
el nudo F, y que k cambie a x Aj en el taxon terminal A y a x Bj en el
taxon terminal B
3) la verosimilitud condicional de que el nucleótido m en G cambie a L en
el nudo H, y que l cambie a x Dj en el taxon terminal D y a x Ej en el
taxon terminal E
4) la verosimilitud condicional de que m en G cambie a x Cj en el taxon
terminal C
este modelo básico puede ser extendido a árboles de cualquier tamaño.

En el modelo descrito se asume, implícitamente, que la longitud de las


ramas es conocida, pero estas longitudes son generalmente desconocidas y
deben ser estimadas como parte del proceso de computación de la
verosimilitud. Para ello se utilizan métodos que maximizan el valor del
índice de verosimilitud utilizando procesos iterativos en los cuales cada
longitud de rama es optimizada separadamente utilizando el método de
Newton (este método de calculo de verosimilitud no requiere el cálculo de
las probabilidades de cada posible nucleótido en los nudos ancestrales,
como se explicó en el ejemplo anterior). En realidad ambos métodos son
equivalentes pero debido a que, en realidad, considerar todas las posibles
reconstrucciones resulta un hecho prácticamente imposible de evaluar
mediante los cálculos de máxima verosimilitud, las búsquedas se suelen
restringir a este último método.

95
96
Puesto que los cálculos de los índices de verosimilitud de todas las posibles
topologías alternativas que pudieran reconstruirse a partir de una base
de datos de secuencias de un número de taxones medio o elevado (> 15) no
resulta factible, una estrategia comunmente utilizada consiste en relizar
una búsqueda exacta o heurística mediante otro método de inferencia
filogenética (p.e. Parsimonia), calculando a posteriori los índices de
verosimilitud de los árboles obtenidos mediante el método comentado y
seleccionando, a partir de estos valores, el (los) árbol(es) mejores.

Un ejemplo sobre el cálculo de la función de verosimilitud de un árbol se


expone en la siguiente figura.

97
En este caso los taxones terminales del árbol han ido apareciendo por
sucesivas divergencias de los nudos internos (ancestros) en los tiempos
evolutivos t, t1, t2. El modelo evolutivo seleccionado podría considerar
que la matriz de transición (sustitución de nucleótidos, p.e. K2P, con α -
transiciones y β - transversiones) es la misma a lo largo de los tiempo
evolutivos (t, t1, t2, t3) tratándose de un caso Markoviano reversible en el
tiempo. Sin embargo si el modelo presenta tasas de sustitución diferentes
en los distintos tiempos evolutivos ( t1 = α1, β1; t2 = α2, β2; t3 = α3, β3) el
modelo de Markov es estacionario y se aplican distintas fórmulas para
considerar que los nucleótidos i y j que muestran en una posición
determinada dos taxones terminales puedan deberse a una transición
(Sij) o a una transversión (Vij). En este caso el conjunto de parámetros
que nos definen el modelo evolutivo son los distintos tiempos evolutivos y
las tasas de sustitución en cada uno de ellos ( Θ = (t1, t2, t3, ...., α, β)T ) y
los datos observados son las diferencias en mutaciones transversionales
(V ) y transicionales (S) entre los distintos taxones terminales ( D = (V 12,
..., V1s, ...Vs(s-1), S12, ..., Ss(s-1)T). La función de verosimilitud responde a
una fórmula que consiste en una derivación de ecuaciones que buscan la
probabilidad de obtener una serie de parámetros condicionados a los
datos observados sobre la topología evaluada. Esta función rinde una
solución numérica que supone la estimación máximo verosímil de esos
parámetros en el árbol examinado. Los algoritmos de estimación de los
parámetros ( Θ ) suponen una serie de procesos iterativos que siguen el
método de Newton.

Utilización de la prueba de la razón de verosimilitudes para solucionar


distintos planteamientos biológicos filogenéticos.

La función de verosimilitud puede utilizarse para solucionar planteamientos


biológicos que contrasten una hipótesis nula (H0) con la hipótesis alternativa
(H1). La prueba de la razón de verosimilitud consiste en calcular los índices
de verosimilitud de ambos casos (H0, H1) y seleccionar el valor más verosímil
que permita rechazar o no la hipótesis nula.

98
En las figuras adjuntas se muestran varios ejemplos de planteamientos
filogenéticos que pueden ser resueltos utilizando la prueba de razón de
verosimilitudes.

99
100
PARSIMONIA

101
102
Análisis de caracteres: Parsimonia

Los métodos analíticos basados en los caracteres utilizan las matrices


originales de datos. Un método diseñado por Wagner, el análisis de la
divergencia desde la base, se convirtió en uno de los criterios más
utilizados por la escuela cladista, la parsimonia. El principio de
parsimonia implica que de todos los posibles caminos evolutivos que ha
podido seguir un grupo natural, aquel que reconstruye su filogenia por la
vía más corta es el que tiene más probabilidades de ser cierto.

Wagner utilizó un esquema de 'ojo de buey' de círculos concéntricos para


ordenar a los taxones en estudio, situando en el centro de los círculos,
como grupo basal, un hipotético ancestro que reuniera todos los estadíos
primitivos de los caracteres seleccionados (ocasionalmente ese ancestro
podría ser una especie viviente). A partir de ese ancestro, y en orden
ascendente, se sitúan los taxones que van divergiendo del grupo basal en
un estadío derivado, en dos estadíos derivados, en tres estadíos derivados,
etc. Una vez construído el esquema se enlazan los diferentes táxones, a
partir del grupo basal, y siguiendo el camino más parsimonioso, se obtiene
el cladograma final.

103
Las secuencias genómicas pueden utilizarse como ejemplo idóneo de
aplicación del método parsimonioso. Una posición sólo es informativa
cuando presenta, al menos, dos tipos distintos de nucleótidos, cuando cada
uno de esos nucleótidos está presente en, al menos, dos taxones, y cuando
al analizar el número de cambios de ese carácter sobre los posibles árboles
alternativos (hipótesis), selecciona uno de ellos como el árbol más corto
(menor número de cambios).

Una vez analizados todos los cambios de los caracteres informativos de la


secuencia en los distintos árboles alternativos se puede inferir cuál es el
árbol más parsimonioso de todos ellos, aquel que haya sido seleccionado
por un mayor número de caracteres, es decir, aquel que reúna un menor
número de cambios (arbol más corto).

La noción de parsimonia en ciencia mantiene que las hipótesis más


simples son preferibles a otras más complicadas y que las hipótesis ad hoc
deben ser evitadas en lo posible. Los métodos para estimar los árboles
filogenéticos bajo el criterio de la parsimonia igualan la 'simplicidad' con
la explicación de que los atributos compartidos entre los taxones son
debidos a su herencia de un ancestro común. Sin embargo cuando se
presentan conflictos entre caracteres las hipótesis ad hoc no pueden ser
104
evitadas si la distribución de los caracteres debe de ser explicada y
asunciones sobre homoplasía (convergencia, paralelismos, y reversiones)
deben de ser invocadas.

En general los métodos de reconstrucción de filogenias basados en


parsimonia operan seleccionando los árboles que minimizan la longitud
total del árbol, es decir, el número de pasos o cambios evolutivos (p.e.
transformaciones de un nucleótido en otro) requeridos para explicar el
conjunto de datos. Obviamente el árbol que minimiza el número total de
cambios también minimiza el número de cambios extra (homoplasias)
necesarios para explicar los datos.

La fórmula matemática que resume la búsqueda filogenética por


parsimonia es:

C
L = ? wj lj
j=1

(L = longitud total del árbol; C = No. total de caracteres; lj número de


cambios de un determinado carácter, wj peso de ese determinado carácter)

Las búsquedas por parsimonia tratan de minimizar el valor de L; aquel


árbol(es) que presente(n) el menor valor de L es(son) el árbol(es) más
parsimonioso(s).

Tipos de caracteres :

Atendiendo a su naturaleza los caracteres utilizados pueden ser binarios


o multiestadío. Para los análisis mediante parsimonia los caracteres se
consideran polarizados o no polarizados. Caracteres polarizados son
aquellos en los que se especifica cual es el estadío ancestral y cuales son
el(los) estadío(s) derivado(s) (p.e. si un carácter a presenta los estadíos 01,
las posibles polarizaciones sería 0 - 1 ó 1 - 0 , dependiendo de si 0 ó 1 es el
estadío ancestral, respectivamente); cuando no se conoce cual es el estadío
ancestral y cuale(s) es(son) el(los) estadío(s) derivado(s) los caracteres no
estan polarizados.

Los caracteres se clasifican también en ordenados (Wagner),


desordenados (Fitch), únicamente derivados (Dollo), e irreversibles

105
(Camin-Sokal). Estas clasificaciones se basan en asunciones a priori que
tendrán efecto en los particulares tipos de análisis de caracteres.

Caracteres ordenados son aquellos de los que se conoce la serie de


transformaciones sucesivas de sus estadíos (si un caracter a presenta los
siguientes estadíos: 012, ese mismo orden implica la serie de
transformación de unos estadíos en otros, según la cual 1 es el estadío
intermediario entre 0 y 2, aunque la ordenación no implica ninguna
polarización, a menos que ésta se especifique, p.e. si se especifica que 0 es
el estadío ancestral, la ordenación de la serie de transformaciones es: 0 ->
1 -> 2, si lo fuera 1, la ordenación sería 2 <- 1 -> 0, y si lo fuera 2, la
ordenación resultaría 2 -> 1 -> 0). Caracteres desordenados, por el
contrario, son aquellos cuyos estadíos pueden transformarse directamente
en cualquier otro estadío sin ningún costo.

Caracteres únicamente derivados (Dollo) son aquellos consistentes con el


requerimiento de que para un carácter dado cada estadío derivado ha
derivado únicamente una vez. Este requerimiento es consistente con el
modelo evolutivo de Dollo según el cual cada estadío derivado ha
aparecido solamente una vez en el curso de la evolución. El modelo de
Dollo permite reversiones de caracteres derivados a un estadío más
ancestral, pero prohibe paralelismos (adquisiciones paralelas del mismo
caracter derivado). Una ilustración del modelo Dollo de caracteres
únicamente derivados se muestra en la figura adjunta.

Caracteres irreversibles (Camin-Sokal) son aquellos caracteres cuyos


estadíos están ordenados y, además, no pueden revertir a una condición
más ancestral (p.e. si un carácter a tiene los siguientes estadíos: 01234, y
0 es el estadío ancestral, la única serie posible de transformación es: 0 -> 1
- >2 -> 3 -> 4; si 2 fuese el estadío ancestral, la serie de transformación
sería: 0 <- 1 <- 2 -> 3 -> 4). El modelo evolutivo de Camin-Sokal permite
paralelismos pero prohibe reversiones, según se muestra en la figura
adjunta.

Los criterios de Dollo y Camin-Sokal son bastante estrictos a la hora de


establecer las pautas evolutivas que han seguido determinados
caracteres. Por regla general, el criterio de Wagner o el de Fitch, que
admiten posibles reversiones y paralelismos, son los utilizados más
frecuentemente al estudiar los grupos naturales de organismos ya que,
salvo que se disponga de datos fehacientes que indiquen una polaridad y
una ordenación conocidas de los estadíos de los caracteres para ese grupo,
estos datos suelen ser desconocidos y además existe la creencia de que en
la mayor parte de los eventos evolutivos de los seres vivos han tenido
lugar diversas series de reversiones y de paralelismos.

106
107
Optimización de los caracteres:

La reconstrucción de los estadíos que tienen los caracteres en los nudos


internos de un árbol determinado se llama optimización de los caracteres
(o mapado de caracteres). Bajo el criterio de máxima parsimonia, el
objetivo de la optimización de caracteres consiste en asignar aquellos
estadíos que minimicen el número total de cambios requeridos para un
carácter particular en un árbol dado.

La reconstrucción óptima de los cambios de estadío de un caracter


depende de la topología del árbol, pero también de otras asunciones
hechas sobre los cambios, especialmente del coste que implica el cambio
de un estadío a otro. Utilizando algoritmos que recorren el árbol dos
veces, de arriba a abajo, y de abajo a arriba, se determinan qué cambios
implican costes mínimos y cuales son los estadíos óptimos de los nudos
internos.

En la mayor parte de los casos hay un único estadío óptimo en un nudo


interno determinado, pero pueden darse casos en los que haya más de
uno, entonces se impone la elección de un criterio de optimización. Dos
son los criterios más frecuentemente utilizados para la optimización de
caracteres: ACCTRAN y DELTRAN . El criterio ACCTRAN (Accelerated
Transformation) de transformaciones aceleradas asigna los estadíos a los
108
nudos internos favoreciendo los cambios tempranos y, por lo tanto, las
reversiones. El criterio DELTRAN (Delayed Transformations) de
transformaciones retardadas asigna los estadíos a los nudos internos
favoreciendo los cambios tardíos y, por lo tanto, los paralelismos. La
elección de uno u otro criterio es opcional (en ocasiones no hay diferencias
entre los resultados de uno y de otro); una estrategia consiste en elegir el
criterio que favorece mejor la hipótesis nula (p.e. si se están estudiando
adaptaciones y se quieren descubrir los casos en los que ha habido
paralelismos en la evolución de un carácter, se seleccionaría el criterio
ACCTRAN, que favorece las reversiones; así si todavía aparecen
paralelismos repetidos en el árbol más parsimonioso hay razones de peso
para creer que esos paralelismos adaptativos han existido).

109
Construcción de árboles más parsimoniosos:

La construcción de árboles mas parsimoniosos se realiza mediante la


aplicación de distintos programas informáticos (Henning, Philips, Paup,
MacClade). Todos ellos se basan en la utilización de un algoritmo similar
(la longitud de cada árbol es la suma de los pasos* necesarios para
construir esa topología), y varían en las vías de optimización de los
caracteres y en las de construcción de los árboles. La finalidad de estos
programas es la de hallar, entre todos los árboles posibles, aquellos que
tengan la mínima longitud (los que reúnan el menor número de cambios
para el conjunto de los caracteres), o, lo que es lo mismo, los que sean más
parsimoniosos.

Los métodos de búsqueda del árbol (o árboles) mas parsimonioso(s)


comprenden dos vías. La vía de los métodos exactos asegura la obtención
de dicho arbol más parsimonioso; la vía heurística, sin embargo, es un
método aproximativo, el cual, sin asegurar dicha obtención, proporciona
el árbol potencialmente más parsimonioso. Esta última vía se utiliza en
aquellos casos en los que el número de datos es muy elevado y el
programa invocado requiere un tiempo de resolución muy largo para la
capacidad operativa del computador. Los distintos métodos de búsquedas
parsimoniosas se muestran en la figura adjunta.

Métodos exactos:

Dos son los métodos que aseguran la obtención del árbol más
parsimonioso, la búsqueda exhaustiva y el algoritmo branch-and-bound.

La búsqueda exhaustiva implica reconstruir todos los posibles árboles


filogenéticos que pueden hacerse con los taxones en estudio y, entre ellos,
seleccionar el más parsimonioso.

El sistema consiste en seleccionar, en primer lugar, tres taxones del grupo


(A, B, C) y unirlos formando un árbol, a continuación se incorpora un
cuarto taxon (D) y se coloca en todas las posiciones posibles de ese primer
árbol, dando como resultado tres topologías distintas, el siguiente paso
consiste en añadir un quinto taxon (E), situándolo en todas las posiciones
posibles en los tres árboles anteriores, dando como resultado quince
topologías distintas. El orden en que se añadan los taxones es indiferente.
Según se van construyendo todos los árboles se van sumando, en cada

* pasos = número de cambios en los estadíos de los caracteres.

110
uno de ellos, el número de cambios requeridos, calculándose de esta
manera sus longitudes, al final se escoge el árbol más parsimonioso.

El método de la búsqueda exhaustiva es útil únicamente para grupos con


un número pequeño de taxones (< =15). Tal como se dijo anteriormente el
número de posibles árboles filogenéticos crece exponencialmente al
aumentar el número de taxones, por lo cual aparecen dificultades
operativas computacionales cuando el ordenador tiene que evaluar las
distancias de varios millones de posibles árboles.

Para solventar este problema existe un algoritmo exacto, branch-and-


bound, que identifica todos los árboles más parsimoniosos y que no
requiere una búsqueda exhaustiva.

El sistema branch-and-bound es similar a la búsqueda exhaustiva, pero


parte de una construcción inicial de un árbol, al azar, que contenga todos
los taxones y de un sistema de reconstrucciones que implican marchas
hacia atrás. Con los taxones A, B, y C se construye el primer árbol A, se le
añade D y se construye un árbol B1, se le añade E y se construye un árbol
C1.1. Se da marcha hacia atrás, volviendo a reconstruir a partir del árbol
B1, y generando los árboles C1.2-C1.5. Se da marcha hacia atrás
111
nuevamente, volviendo a reconstruir a partir del árbol A y siguiendo un
camino distinto que conduce al árbol B2, y de allí a sus árboles derivados
C2.1-C2.5. Una nueva marcha hacia atrás nos devuelve al árbol A, a
partir del cual, siguiendo un tercer camino, se construye el árbol B3, y de
allí sus árboles derivados C3.1-C3.5.

Este procedimiento implicaría la reconstrucción de todos los árboles y el


cálculo de sus longitudes, según se van construyendo, al igual que en el
caso de la búsqueda exhaustiva. Sin embargo, si se ha realizado una
construcción inicial, al azar, de un árbol que contenga todos los taxones, y
se conoce su longitud (L), cuando se está procediendo al sistema de
recontrucciones con marchas hacia atrás puede ocurrir que, mientras se
avanza por un camino, se obtenga un árbol cuya longitud supere L, con lo
cual ya no es necesario proseguir construyendo sus árboles derivados, ya
que todos esos árboles tendrán una longitud superior a L; la búsqueda se
dirige entonces por otro camino, y se procede de la misma manera. Este
método dispensa el tener que evaluar todos los posibles árboles que
puedan ser construidos con los taxones en estudio, disminuyendo en gran
manera el número de árboles que tienen que ser computados y facilitando
así la aplicación del método a grupos más grandes.

112
Métodos heurísticos:

Cuando el tamaño del grupo es lo suficientemente grande (> 15 taxones)


como para impedir el empleo, en tiempo computacional, de los métodos
exactos, se recurre al empleo de búsquedas heurísticas que, aunque no
garantizan el hallazgo del árbol más parsimonioso, facilitan una
aproximación lo más cercana posible al mismo. Las búsquedas heurísticas
investigan distintos caminos de construcción de árboles, contrastándolos y
seleccionando aquellos más parsimoniosos, aunque no se puede asegurar
si se ha llegado al óptimo global (árbol más parsimonioso) o a un óptimo
local (árbol 'pseudoparsimonioso').

Los métodos heurísticos utilizan dos estrategias: 1) Un árbol inicial (o


conjunto de árboles iniciales) se obtiene por el sistema de adición
progresiva de taxones (stepwise addition); 2) ese árbol (o conjunto de
árboles) es sujeto a una serie de reordenaciones de ramas (branch
swapping) que tratan de hallar árboles más cortos.

1) Adición progresiva de taxones (Stepwise addition):

Los taxones son añadidos, uno a uno, a un árbol en construcción que se


completa cuando todos ellos han sido incorporados; en cada proceso de
incorporación se selecciona la topología más parsimoniosa.

La adición comienza uniendo tres taxones para formar un primer árbol, y

113
a ellos se conecta un cuarto taxon, de las tres posibles topologías se elige
la más corta, a ese árbol se le añade un quinto taxon, de las cinco posibles
topologías se elige de nuevo la más corta, y se prosigue de la misma forma
hasta que todos los taxones han sido incorporados. Este método no
asegura la obtención del árbol final más parsimonioso porque puede
suceder que alguno de los caminos desechados durante el proceso de
construcción, aunque en principio pareciese más largo cuando se llevaban
incorporados unos cuantos taxones, pudiera resultar ser, al final, el más
corto cuando todos los taxones se hubieran incorporado.

El orden de adición de los taxones es importante en el método heurístico y


puede infuir en los resultados. Cuatro posibles secuencias de adición han
sido descritas: 1) Tal cual (as is), en la que, como su nombre indica, los
taxones se incorporan según vayan ordenados en la matriz de datos; 2) el
mas próximo (closest), que implica un cálculo inicial de tripletes de
taxones que forman los árboles inciales, a los cuales se les añade un
cuarto taxon en todas las posibles ramas, la reconstrucción que resulta
más corta se selecciona como punto de partida para las sucesivas
adiciones; 3) simple (simple), se calculan índices de distancias entre los
taxones y se selecciona el orden de adición de los taxones de acuerdo con
sus mínimas distancias; 4) aleatoria (random), se utiliza un generador de
números aleatorios para obtener distintas permutaciones de los taxones,
permutaciones que servirán como series de adición de los mismos para las
reconstrucciones.

No hay una estrategia que funcione mejor que las otras, para diferentes
bases de datos. Closest implica mayor rigurosidad. Random, aunque no es
muy efectiva en términos de proceso de adición de taxones puede ser muy
útil para obtener distintos puntos de partida para el segundo método,
branch swapping, y para descubrir distintos óptimos locales ("islas" o
"familias" de árboles pseudoparsimoniosos).

2) Reordenamiento de ramas (Branch swapping)

El reordenamiento de ramas de los árboles (branch swapping) pretender


mejorar la búsqueda de árboles parsimoniosos iniciada con el primer
método de adición de taxones. Con el método aditivo se consiguen óptimos
locales, pero pueden existir árboles más cortos que no se han descubierto;
el sentido del reordenamiento de las ramas de los árboles óptimos locales
es que, si existe un árbol más corto y se ensayan muchos
reordenamientos, alguno de estos reordenamientos puede dar con él.
114
Existen tres algoritmos para el reordenamiento de las ramas (en orden de
efectividad creciente): 1) intercambios entre vecinos más próximos (NNI,
nearest neighbor interchanges); 2) poda e injerto de subárboles (SPR,
subtree prunning-regrafting; 3) bisección y reconexión del árbol (TBR,
tree bisection reconnection).

115
NNI

SPR

TBR

116
El algoritmo TBR es el más corrientemente utilizado. Para cada árbol las
posibles bisecciones y reconexiones son evaluadas. Si un reordenamiento
encuentra un árbol más corto, una nueva serie de reordenamientos se
incician a partir de este árbol más corto. De esta forma, mientras
sucesivas tandas de reordenamientos vayan encontrando árboles cada
vez más cortos se podría llegar a alcanzar, eventualmente, el óptimo
global. Sin embargo, si el camino hacia ese árbol óptimo final requiere
pasar a través de árboles intermediarios más largos que él nos
encontraríamos atrapados de nuevo en un óptimo local (el algoritmo no
nos permitiría alcanzar el árbol más parsimonioso global).

El programa Paup proporciona las herramientas necesarias para los


análisis filogenéticos mediante búsquedas por métodos exactos o
heurísticos de los árboles más parsimoniosos de un grupo en estudio
(ingroup). Es conveniente introducir en el estudio uno o varios grupos
externos (outgroup); los grupos externos facilitan el análisis de los
cambios de estadíos de los caracteres dentro del grupo interno, y permiten
enrraizar los árboles (si no se designara ningún grupo externo, el árbol
formado por los taxones del grupo interno no tendría raíz).

Una vez realizada la exploración o búsqueda, se pueden obtener uno o


más árboles finales. Si la búsqueda se hizo a través de un método exacto y
se obtiene un sólo árbol final, ese árbol es el más parsimonioso. El árbol
más parsimonioso reconstruye la filogenia, minimizada en cuanto a
número de cambios, de los taxones en estudio; sobre su topología se
pueden analizar los cambios habidos para cada carácter, se pueden
detectar homoplasías (paralelismos y reversiones) y se pueden ponderar
pesos 'a posteriori' de los caracteres (para ensayar nuevos análisis
filogenéticos con determinados caracteres reevaluados).

117
El árbol más parsimonioso puede presentarse en forma de cladograma o
de filograma. En el cladograma se representan las ramificaciones o
eventos evolutivos (clados), siendo las ramas de igual longitud, mientras
que en el filograma se representan las longitud de las ramas (phylas).
Esas longitudes se corresponden con el número de cambios habidos en
cada una de las ramas, pero no equivalen a distancias evolutivas. Los
cambios de estadíos de caracteres habidos en las ramas internas, o
internudos, corresponden a sinapomorfías, mientras que los de las ramas
terminales corresponden a autapomorfías.

La elección de un grupo externo adecuado es un aspecto relevante del


análisis ya que un grupo externo óptimo, evolutivamente próximo al
grupo interno, permite evaluar correctamente los cambios de los
caracteres a lo largo de las ramas del grupo interno y recobrar la
topología correcta de los taxones en estudio, mientras que un grupo
externo inadecuado, evolutivamente muy alejado del grupo interno,
podría, debido al 'efecto de atracción de ramas largas' , distorsionar la
evaluación de esos cambios y dar lugar a una filogenia incorrecta (o a
parte de ella).

118
El 'efecto de atracción de ramas largas' es una de las adversidades que
presenta el método de reconstrucción filogenética basado en la
parsimonia; dicho efecto tiende a unir taxones terminales que presentan
ramas largas (con un número alto de cambios similares que han adquirido
independientemente), especialmente si esos taxones están situados en
clados muy próximos, conduciendo a la obtención de reconstrucciones
falsas.

Indices estadísticos que estiman la adecuación de los caracteres al árbol:

Existen tres tipos de índices estadísticos diseñados para estimar la


adecuación de los caracteres al árbol más parsimonioso: 1) el índice de

119
consistencia (CI, consistence index); 2) el índice de homoplasía (HI,
homoplasy index); 3) el índice de retención (RI, retention index). Estos
índices se basan en los siguientes parámetros:

s = longitud o número de cambios de estadíos requerido por un


caracter en el árbol evaluado

m = mínima cantidad de cambios que el carácter puede mostrar en


cualquiera de los posibles árboles

g = máxima cantidad de cambios que el carácter puede mostrar en


cualquiera de los posibles árboles

El índice de consistencia (CI) para un único caracter es c = m / s. Así, si el


árbol evaluado contiene el mínimo número de cambios para ese carácter
entonces c = 1, si contiene un mayor número de cambios c < 1. Para el
conjunto de los caracteres el índice de consistencia es: C = M / S
(sumatorios de los valores individuales para cada caracter). Este
índice refleja la 'consistencia' de los cambios de todos los caracteres en el
árbol evaluado; si los cambios de los caracteres se minimizan en la
topología del árbol (los caracteres son congruentes entre sí), el valor de C
se aproxima a 1, si, por el contrario, los cambios se maximizan en la
topología del árbol (los caracteres son incongruentes entre sí), el valor de
C se aleja de 1. El índice de consistencia puede calcularse con el total de
los caracteres o solamente con aquellos caracteres que son informativos.

El índice de homoplasía (HI) es el opuesto al de consistencia: H = 1 - C. Un


aumento del número de paralelismos y reversiones (homoplasía) en el
árbol evaluado implica un descenso de la consistencia en los cambios de
los caracteres, ya que se requieren más cambios para explicar los
paralelismos y las reversiones. El índice de homoplasía (o de consistencia)
individual de cada caracter indica qué caracteres son homoplásicos.

El índice de retención (RI) para un único carácter es: r = (g - s) / (g - m).


Este índice establece la adecuación de los cambios de estadío de un
caracter al árbol evaluado considerando el máximo y el mínimo número
de cambios que podría tener potencialmente ese caracter. Este índice
permite detectar caracteres con cambios sinapomórficos (y
autapomórficos) sobre dicha topología, cuyos valores de retención se
aproximarán a 1; por el contrario, si los caracteres presentan cambios no
sinapomórficos el valor del índice de retención se aproxima a 0. El índice
de retención puede utilizarse para seleccionar o rechazar ciertos
caracteres. Para el conjunto de los caracteres el índice de retención es: R =
(G - S) / (G - M) (sumatorios de los valores individuales para cada
caracter).

120
El índice de consistencia reescalado (RC) es el producto de los índices de
consistencia y de retención de cada carácter, siendo utilizado para
seleccionar los mejores caracteres -auquellos que presentan los índices
más altos- que pueden ser empleados en una segunda búsqueda por
parsimonia aplicándoles pesos mayores a posteriori.

Diversas hipótesis (árboles) igualmente parsimoniosas

En ocasiones el resultado de la búsqueda filogenética mediante métodos


exactos no nos da un único árbol más parsimonioso sino que produce dos ó
más árboles. En este caso esos árboles son igualmente cortos, y sus índices
estadísticos tienen los mismos valores (CI, HI, RI). Cada uno de ellos
representa una hipótesis evolutiva distinta que es igualmente probable.
La conclusión a que llevan estos resultados es la de que con los caracteres
estudiados no es posible determinar cuál de las topologías rivales
obtenidas es preferible, ya que todas son igualmente parsimoniosas, y que
se necesitan nuevos datos para intentar dilucidar cual podría ser el árbol
óptimo único.

Cuando se obtienen distintos árboles rivales más parsimoniosos (MP) se


puede computar un árbol consenso a partir de ellos. Los árboles consenso
MP resumen jerárquicamente la información común a todos esos árboles
rivales. Existen tres tipos principales de árboles consenso: 1) estricto
(strict); 2) semiestricto (semistrict); 3) de porcentajes mayores (Mayority-
rule).

El árbol consenso estricto es aquel árbol que incluye únicamente aquellos


grupos coincidentes en todos los árboles rivales más parsimoniosos.
Cuando no hay posibilidad de resolver un clado las ramas se colapsan
formando politomías (que indican las partes no clarificadas de la filogenia
del grupo donde hay conflicto entre las hipótesis rivales). El árbol
consenso semiestricto es aquel que, sin contradecirse con ninguno de los
árboles rivales, produce la topología más resuelta posible (cuando hay
conflicto entre rivales para un clado el árbol semiestricto lo colapsa
también en una politomía). El árbol consenso de porcentajes mayores es
aquel que reúne en sus clados un porcentaje pre-especificado de
topologías rivales (el porcentaje pre-especificado suele ser del 50%).

121
Figura: a-c) Tres árboles igualmente parsimoniosos; d) árbol consenso
estricto; e) árbol consenso semiestricto; f) árbol consenso de la regla
mayoritaria

Si la búsqueda filogenética se realiza mediante métodos heurísticos es


posible también obtener un sólo árbol más parsimonioso (o
'pseudoparsimonioso') final ó, más probablemente, varios árboles rivales
igualmente parsimoniosos. Con esos árboles rivales se computarían
igualmente los árboles consensos MP (estricto, semiestricto, o de
porcentajes mayores).

En el caso de las búsquedas heurísticas se corre el peligro de alcanzar


únicamente un óptimo local (una 'isla' de árboles parsimoniosos: árboles
con topologías similares entre sí). Para detectar la existencia de otras
posibles 'islas' de árboles igualmente parsimoniosos se han descrito varios
métodos. Las estrategias consisten en generar árboles con series
aleatorias de adición de taxones, salvando en cada caso un determinado
número de árboles más cortos (o de longitud predeterminada), y en aplicar
restricciones topológicas a las búsquedas.

Por ejemplo, una estrategia consistiría en realizar una búsqueda


heurística inicial con adicion de taxones más próximos (closest) y
reordenamiento de ramas TBR (salvando en cada reordenamiento los
árboles mas parsimoniosos) almacenando el máximo número posible de
árboles que permita la memoria del computador. Con los árboles más
parsimoniosos se computa el árbol consenso estricto MP que representa

122
una primera isla de árboles pseudoparsimoniosos. A continuación se
generan 1.000 búsquedas con adiciones aleatorias de taxones,
reordenando las ramas mediante TBR, y salvando no más de dos árboles
por búsqueda que tengan una longitud mayor o igual a 5. Se computa el
árbol consenso de los árboles más parsimoniosos obtenidos por esta vía y,
si es de la misma longitud, se contrasta con el anterior y se observa si este
nuevo grupo de árboles representa una nueva 'isla' . Por último, se
utilizan los árboles consenso MP anteriores como restricciones topológicas
negativas para una nueva serie de 5.000 búsquedas aleatorias (random,
TBR) salvando no más de dos árboles por búsqueda que tengan una
longitud mayor o igual a 5 y cuyas topologías no coincidan con las de los
dos consensos anteriores. Caso de aparecer nuevas topologías igualmente
parsimoniosas nos hallaríamos ante una nueva 'isla'.

Peso de caracteres a priori

Inicialmente todos los caracteres utilizados en una búsqueda por


parsimonia tienen el mismo peso (w=1) en el cálculo de la longitud de un
árbol. Sin embargo se pueden establecer distintos pesos para ciertos
caracteres, en cuyo caso la longitud final de árbol sería:

C
L = ? wj lj
j=1

(C = No. total de caracteres; lj número de cambios de un determinado


carácter, wj peso de ese determinado carácter)

Las razones para pesar de forma distinta unos caracteres u otros depende
de las asunciones que, a priori, se tengan sobre esos caracteres (p.e.
algunos caracteres son más fiables que otros y se les da mayor peso, o, por
el contrario, caracteres que se supone relacionados entre sí se les da 1/2
peso (respetando el principio de independencia de los mismos)).

También puede ocurrir que el número de estadíos de un carácter


particular sea arbitrario debido a su variabilidad, dividiéndose en series
de estadíos discretos (p.e. en 4-estadíos o en 10-estadíos). En este caso, si
se les diera el mismo peso todos los caracteres, un caracter con 10-estadíos
tendría 9 veces más influencia que un caracter binario (10-1=9), y tres
veces más influencia que un caracter con 4-estadíos (10-1/4-1). Para evitar
esto PAUP proporciona una opción de ajuste de escala del peso de los
caracteres, de tal forma que la influencia total de cada caracter en el árbol
final es la misma, independientemente del número de estadíos de cada

123
uno. Concretamente, un caracter binario tiene un peso 1, uno con 3-
estadíos tiene un peso 1/2, uno con 4-estadíos tiene un peso 1/3, y así
sucesivamente.

Para facilitar los cómputos operacionales en el ordenador no se utilizan


decimales en los valores de los pesos de los caracteres sino números
enteros. Así, para asignar un peso de 1/2 a un caracter, se les asigna un
peso de 2 a los restantes, o, si se dispone de una base de datos cuyos
caracteres tienen 2, 3, 4, y 5 estadíos, se puede utilizar un peso estandar
de 60 y los pesos 1/2, 1/3, 1/4, y 1/5, corresponderían a 30, 20, 15, y 12,
respectivamente.

Peso de caracteres a posteriori

Algunos caracteres pueden ser pesados a posteriori, una vez obtenido el


resultado de una búsqueda filogenética. La idea básica consiste en
penalizar aquellos caracteres que se ajustan mal al árbol(es) obtenido (es
decir, que son homoplásicos) y recompensar a los que se ajustan mejor (los
que son congruentes y sinapomórficos); los pesos a posteriori se establecen
conforme a los valores de índices de consistencia e índices de retención
que tienen los caracteres (índices de consistencia reescalados). Los pesos a
posteriori se utilizan para un nuevo análisis, y se puede continuar
pesando a posteriori y reanalizando los datos hasta obtener un sistema de
pesos que permita obtener los mismos árboles en dos búsquedas
consecutivas. El peso de caracteres a posteriori debe hacerse con cautela,
ya que distintos pesos pueden producir árboles totalmente diferentes.

Alternativamente, los índices que indican un mal ajuste de ciertos


caracteres a un árbol (índices de homoplasía altos y de retención bajos)
pueden servir para desechar a esos caracteres.

Generador de números pseudoaleatorios

Una de las capacidades de PAUP es la generación de secuencias de


números aleatorias (utilizadas en el proceso de adición 'random' de
'stepwise adition' en la búsqueda heurística, el muestreo de caracteres en
el análisis de bootstrap, y la evaluación de la longitud de los árboles
aleatorios); PAUP utiliza un método de congruencia lineal: empieza con
un número Xi entre 1 y 2.147.483.646 (inclusive), y el siguiente número
de la secuencia es Xi+1 = 397.204.094* Xi mod (231 - 1).

124
El primer número representa la 'semilla'. PAUP utiliza el "1" como
semilla, por defecto; la razón de ello es que la misma base de datos rendirá
el mismo resultado de búsqueda con la secuencia de números
pseudoaleatorios en cualquier ordenador. No obstante, cuando se quieran
generar distintas búsquedas parsimoniosas con series de números
pseudoaleatorios habrá que cambiar la semilla inicial para cada una de
ellas (p.e. "2", "3", etc.).

Búsquedas bajo restricciones topológicas

En PAUP hay tres restricciones topológicas: 'Monofilia' ("Monophyly'),


'Espina dorsal' ('Backbone'), e 'Incompatibilidad' ('Converse').

Restricción 'Monophyly':

La restricción de monofilia implica el imponer un árbol que incluya todos


los taxones en estudio previamente al inicio de la búsqueda filogenética.
Ese árbol "monofilético" no tiene que estar totalmente resuelto (admite
politomías), y en él se incluyen los taxones del grupo interno formando un
clado y los taxones del grupo externo. Los árboles que son evaluados bajo
dicha restricción (árboles ensayo, 'trial trees') se dice que son compatibles
con ella si al colapsar una o más de sus ramas coinciden con el árbol
impuesto.

Esta condición se impone cuando hay evidencias, de otras fuentes, sobre


la clasificación y/o evolución del grupo de organismos en estudio y se
quiere comprobar cuanto más largo sería el árbol obtenido con nuestra
base de datos que cumpliese dicha condición. El criterio para satisfacer la
condición de monofilia es igual tanto para árboles enrraizados como para
árboles no enrraizados.

La restricción topológica sirve para obviar el cómputo de árboles más


parsimoniosos cuando se utilizan algoritmos exactos (exhaustivo, y
'branch and bound'). Si se utilizan diversos grupos externos el definir una
estructura entre ellos, además de la monofilia del grupo interno, abrevia
los cómputos operacionales.

Restricción 'Backbone'

Difiere de la anterior en que únicamente se incluyen en la restricción una


parte de los taxones en estudio; a diferencia de aquella, la restricción de la

125
'espina dorsal' fuerza una topología relativa (que afecta sólo a los táxones
incluídos en la restricción y no afecta a los restantes).

La restricción 'backbone' es menos restrictiva que la restricción


'monophyly', el uso de una u otra depende de los objetivos de la búsqueda.
Si se quieren hallar las longitudes de árboles compatibles con una
hipótesis particular se usa la restricción de monofilia, si lo que interesa es
conocer qué árboles son compatibles con una restricción topológica
parcial, se usa la restricción de espina dorsal.

Restricción 'Converse'

La restricción de incompatibilidad implica la búsqueda de los árboles más


parsimoniosos que no coinciden con la topología impuesta. Esta estrategia
está destinada a buscar p.e. algún árbol más parsimoniosos o posibles
islas de árboles igualmente parsimoniosos en una búsqueda heurística.
Para ello hay que ensayar difrentes secuencias de adición de taxones
(especialmente 'random') y de algoritmos de intercambios de ramas.

126
127
SEÑAL FILOGENÉTICA DE LA BASE DE
DATOS:

128
Árboles aleatorios:

Discriminación entre ruido y señal filogenética:

129
TEORIAS DE CONTRASTE DE
HIPOTESIS:

ESTIMACION DE LA BONDAD DE LAS


RECONTRUCCIONES MEDIANTE
ANALITICA Y REMUESTREO

130
131
Teorías de contraste de hipótesis: métodos
paramétricos y métodos no-paramétricos

Las teorías de contraste de hipótesis pueden utilizar métodos


paramétricos o métodos no-paramétricos.

Los métodos paramétricos se utilizan cuando los datos permiten estimar


una función o variable que está sometida a una distribución normal. Las
pruebas paramétricas se utilizan cuando se da una distribución de
probabilidades de los datos que respalda la variación de la variable (p.e. χ
2) .

Los métodos no-paramétricos se utilizan cuando no hay una distribución


de probabilidades conocida de las variables (caracteres). Las
reconstrucciones filogenéticas basadas en secuencias del ADN utilizan
variables (caracteres = posiciones de las secuencias) cuyas distribuciones
no son conocidas.

132
133
La reconstrucciones filogenéticas obtenidas tanto por métodos basados en
distancias genéticas, como por parsimonia o por máxima verosimilitud,
pueden incurrir en errores de confianza. Para tratar de subsanar esos
errores existen distintos métodos no-paramétricos de estimación de la
bondad de las reconstrucciones. Los más empleados son los métodos de
remuestreo bootstrap y jacknife y el método analítico del índice de
decaimiento (decay index) (éste último se utiliza para reconstrucciones
parsimoniosas).

Bootstrap:

El método bootstrap implica un remuestreo de la base de datos original


con reemplazamiento de caracteres, su finalidad es obtener una serie de
pseudomuestras de variables (caracteres) del mismo tamaño que la base
de datos original. Cada pseudomuestra es analizada filogenéticamente
para producir un árbol, obteniéndose tantos árboles como replicaciones se
hagan con las distintas pseudomuestras (p.e. 1000-10000); al final se
computa el árbol consenso de todos ellos y los porcentajes hallados para
las ramas internas de los clados de ese árbol consenso representan una
estimación del error (o de la fiabilidad) de las reconstrucciones originales.

134
El procedimiento de bootstrap propuesto por Felsenstein (1985) consiste
en mantener constante el número de taxones y remuestrear los caracteres
reemplazándolos cada vez; p.e. se puede comparar un análisis bootstrap
de 1000 búsquedas con un bombo de lotería en el que las bolas fuesen los
caracteres, en el primer pseudomuestreo se saca una primera bola
(caracter) y se vuelve a meter al bombo (reemplazamiento), se vuelve a
sacar una segunda bola (que puede ser otro caracter ('otra bola'), o el
mismo caracter anterior ('misma bola') y se vuelve a reemplazar, y se
prosigue de la misma manera hasta igualar el número de caracteres de la
base de datos original, algunos caracteres estarán repetidos y otros
faltarán en este primer pseudomuestreo; con los caracteres seleccionados
se reconstruye el primer árbol filogenético. Este procedimiento se repite
un número determinado de veces (replicaciones, p.e. 1000 o 10000). A
partir de esas mil/diez mil reconstrucciones de bootstrap se computa el
árbol consenso bootstrap de mayores porcentajes (Bootstrap Mayority-
rule consensus tree).

Las ramas de ese árbol consenso llevan asociados unos porcentajes que
equivalen al porcentaje (%) de veces que los clados sostenidos por ellas
aparecen en las 1000/10000 reconstrucciones bootstrap, y que son una
estimación del nivel de confianza de la reconstrucción de esos clados. Se
compara el árbol consenso bootstrap con el árbol obtenido en la
reconstrucción inicial y se observa si los clados son los mismos; para
aquellos clados coincidentes se considera que los porcentajes bootstrap de
sus ramas son una estimación de la 'robustez' de los mismos.

Este método permite asignar valores estadísticos de confianza a hipótesis


de relaciones evolutivas (según Felsenstein), o bien porcentajes de
robustez o de soporte de los clados (según Hillis & Bull). El número de
búsquedas recomendables suele ser 1.000 (o más).

Jacknife:

Jacknife es un método de remuestreo sin reemplazamiento de caracteres


en el que en cada pseudomuestreo se eliminan k variables (caracteres) y
se reconstruye el árbol con los n-k caracteres restantes, repitiendo
sucesivas tandas de pseudomuestreos.

Decay index:

Decay index es un método estimativo de la robustez que tienen algunos


clados monofiléticos obtenidos en reconstrucciones parsimoniosas que
consiste en determinar el incremento en longitud (establecida en número
de pasos extra) que soporta un determinado clado antes de colapsar en
una politomía; p.e. un valor de decay index de 5 indica que un
135
determinado clado monofilético presente en un árbol más parsimonioso de
L = 380, es suficientemente robusto pues sigue estando resuelto, sin
colapsar con otros clados, en árboles que son hasta 5 pasos más largos que
el más parsimonioso (en árboles cuyas L son 381, 382, 383, 384, y 385).

136
137
GRADO DE ÉXITO DE LAS
RECONSTRUCIONES FILOGENÉTICAS

138
139
NÚMERO DE TAXONES vs. NÚMERO DE
CARACTERES (Parsimonia):

140
COMPARACIÓN DE MÉTODOS:

Estudios de simulación (Filogenias de Fagos y


Virus):

a) Filogenias de Fagos:

a) Filogenias de Virus:

141
Comparación del grado de éxito de la
reconstrucción por distintos métodos:

a) Ramas de similar longitud

b) Ramas de distintas longitudes

142
Zona Felsenstein (Parsimonia):

143
COMBINACION DE BASES DE DATOS:

144
145
- COMBINABILIDAD

- PRINCIPIO DE LA EVIDENCIA
TOTAL (Kluge)

- FILOGENIAS CONSENSO

146
147
APÉNDICES

148
149
UTILIZACION DE PAUP

Creación de ficheros

El formato NEXUS

El formato NEXUS es un formato creado para hacer intercambiables ficheros


entre distintos programas filogenéticos (PAUP, MacClade, Components).

Identificación: El fichero es identificado por el comando


# NEXUS
al comienzo del mismo.

Bloques: - El formato Nexus tiene tres bloques:


DATA (Datos)
ASSUMPTIONS (Asunciones)
TREES (Arboles)
- Cada bloque comienza con : "begin (nombre del bloque)" y
termina con:”endblock;"
- Todos los comandos de cada bloque terminan con punto y coma
";"
- Dentro de un bloque cualquier comando que afecte a la
operatividad de un segundo comando debe precederle.
- El formato admite mayúsculas y minúsculas (salvo que se
establezca lo contrario) y cualquier espaciado o tabulación.
- Los comentarios o items que se escriben entre corchetes ([...]) no
son tenidos en cuenta al ejecutar el programa, pero sirven de
información.

Bloque de Datos (DATA BLOCK):

El bloque tiene los siguientes comandos:

BEGIN DATA;
DIMENSIONS NTAX=number-of-taxa NCHAR=number-of-characters;
[FORMAT
[MISSING = missing-symbol]
[LABELPOS = {LEFT | RIGHT}]
[SYMBOLS ="symbols-list"]
[INTERLEAVE]
150
[MATCHCHAR=match-symbol]
[EQUATE="<symbol=expansion>…]"]
[TRANSPOSE]
[RESPECTCASE]
[DATATYPE={STANDARD | ADN | RNA | PROTEIN}]
[GAP=gap-symbol] ;]
[OPTIONS
[IGNORE={NONE | INVAR | UNINFORM}]
[MSTAXA={UNCERTAIN | POLYMORPH}]
[ZAP="character-list"]
[GAPMODE={MISSING | NEWSTATE}];]
[CHARLABELS character-name… ;]
[TAXLABELS taxon-name… ;]
[STATELABELS charnum-and-state-list [, charnum-and-state-list] … ;]
MATRIX data-matrix;
ENDBLOCK;

El bloque de datos siempre lleva los comandos:


BEGIN DATA;
DIMENSIONS NTAX=… NCHAR=…; (dimensiones, con No.taxones y
No. de caracteres)
MATRIX (matriz de datos);
ENDBLOCK; (final del bloque)

El resto de los comandos ([FORMAT], [OPTIONS]) son opcionales,


dependiendo del tipo de datos y del uso que se quiera hacer de ellos.

La matriz de datos se puede introducir de diversas formas (el formateo es


libre) aunque hay espacios definidos para el etiquetado de los taxones.
Usualmente el formato estandar consiste en asignar filas a los taxones y
columnas a los caracteres. Ver ejemplo.

Identificadores de taxones:

Las etiquetas identificadoras de los taxones se pueden escribir con letras o


dígitos (es mejor escribirlas con letras). Las etiquetas pueden ocupar hasta 32
caracteres, aunque en los resultados aparecen 'cortadas' hasta 16 caracteres
(es, por tanto conveniente utilizar etiquetas distintas hasta un máximo de 16
caracteres). La etiqueta puede llevar cualquier combinación de letras, dígitos
y símbolos; si se utilizan los caracteres * () [ ] { } , ; - = : " / \ ' _ o espaciado
para el etiquetado entonces la identificación debe ir entre comillas simples
('…'). Los subrayados simples (_) se traducen como espaciados, salvo que estén
entre comillas simples. (ejemplos de etiquetas válidas: Rosa, rosa, ROSA,
Rosa_arvensis, R._arvensis, Rarvensis, Rarv., 'R. arvensis #39', 'arvensis (1)',
_23, x21.03, etc.).

151
Identificadores de caracteres:

Ordinariamente Paup numera los caracteres consecutivamente empezando


por 1; no se hace necesario etiquetar los caracteres. Este etiquetado numérico
es el que aparecerá en los resultados. Sin embargo se puede también
etiquetar los caracteres de forma alfanumérica. La longitud máxima de la
etiqueta son 32 caracteres, aunque en los resultados aparecen 'cortadas'
hasta 10 caracteres (es, por tanto conveniente utilizar etiquetas distintas
hasta un máximo de 10 caracteres). Las reglas para incluir símbolos en las
etiquetas de los caracteres son las mismas que para el etiquetado de los
taxones.

152
Síntaxis:

TRANSPOSE cambia los caracteres a filas y los taxones a


columnas
LABELPOST-RIGHT las etiquetas de los taxones van a la derecha de los
datos
SYMBOLS="…" representa los estadíos que tienen los caracteres
(todos los símbolos son aceptados excepto: " ' * () { } [
] / , ; = ). Los símbolos van encerrados entre
comillas. Ver ejemplos.
RESPECTCASE diferencia mayúsculas de minúsculas
CHARLABELS da nombres a los caracteres que, de lo contrario, son
numerados secuencialmente y reconocidos
posteriormente por su número
CHARLABELS_ cuando se quieren nombrar unos caracteres
('nombre') y otros no (_) (se utiliza CHARLABELS
cuando TRANSPOSE no está activo)
DATATYPE hay un formato general: STANDARD y tres
formatos predefinidos: ADN, ARN, y PROTEINS

STANDARD los símbolos se toman de la lista de símbolos


SYMBOLS="…" definidos según los estadíos que presenten los
caracteres.

ADN los símbolos son "ACGT" y las siguientes equivalencias, según


los códigos de ambigüedad IUPAC/IUB
R = {AG} [puRine]
Y = {CT} [pYrimidine]
M = {AC} [aMino]
K = {GT} [Keto]
S = {CG} [Strong]
W = {AT} [Weak]
H = {ACT} [not G]
B = {CGT} [not A]
V = {ACG} [not T]
D = {AGT} [not C]
N = {ACGT}[unkNown]
X se interpreta también como desconocido
GAP=-

ARN los símbolos son "ACGU" y las mismas equivalencias que para
los datos ADN, salvo que U sustituye a T
X se interpreta también como desconocido

153
PROTEIN los símbolos son "ACDEFGHIKLMNPQRSTVWY*" que
corresponden al código estándar IUB de Aminoácidos:
A = ala [alanine]
C = cys [cysteine]
D = asp [aspartic acid]
E = glu [glutamic acid]
F = phe [phenylalanine]
G = gly [glycine]
H = his [histidine]
I = ileu [isoleucine]
K = lys [lysine]
L = leu [leucine]
M = met [methionine]
N = asn [asparagine]
P = pro [proline]
Q = gln [glutamine]
R = arg [arginine]
S = ser [serine]
T = Thr [threonine]
V = val [valine]
W = trp [tryptophan]
Y = tyr [tyrosine]
* = nonsense[chain termination]

X se interpreta como desconocido y como ausente


(missing)
B = {DN} [asx = asp o asn]
Z = {EQ} [glx = glu o gln]

Se pueden añadir distintos símbolos al formato de tipo de datos ADN (o


ARN, o PROTEINS) si la matriz está compuesta por diversos bancos de datos
(p.e. secuencias de ADN y sitios de restricción, SYMBOLS="ACGT01").

MISSING= se puede utilizar cualquier símbolo para representar la ausencia


de registro para un caracter, por defecto es ' ? '.
MATCHCHAR= . mismo estadío de caracter que el que tiene el primer taxon
de la matriz
INTERLEAVE matriz de datos separada en bloques
GAPMODE=MISSING por defecto el programa ignora los gaps
GAPMODE=NEWSTATE trata a cada gap como un nuevo carácter (no es
conveniente cuando hay 'gaps' largos -varias posiciones- ya que cada
posición se convierte en un nuevo caracter. Bajo la interpretación de que
cada 'gap' es un evento evolutivo único (delección o inserción) es mejor añadir
una matriz extra de datos correspondientes a los 'gaps' (presencia/ausencia).
Ejemplo.
EQUATE similariza símbolos que puedan estar en distintas matrices (p.e.
FORMAT MISSING=?, EQUATE="-=?"), o se utiliza cuando algunos taxones
muestran más de un estadío para un caracter (p.e. EQUATE="R={AG}
Y={CT}").

154
IGNORE el programa ignora ciertos caracteres (comunes) (p.e.
IGNORE=INVAR, ignora caracteres invariantes,
IGNORE=UNINFORM, ignora caracteres uninformativos), por defecto no
ignora ninguno.
ZAP el programa ignora ciertos caracteres seleccionados (no comunes) (p.e.
ZAP="1-10 20", ignora caracteres del 1 al 10 y el 20).

Invariantes caracteres que no varían en todos los taxones (un sólo


estadío presente en todos ellos, simplesiomorfías), contribuyen
cero a la longitud del árbol

Uninformativos caracteres que contribuyen con la misma longitud


en todos los posibles árboles (autapomorfías) (si faltan datos
(missing data) entonces pueden afectar a algunos
agrupamientos).
El tipo de caracter influye en su nivel de información (p.e. un caracter
con estadíos 0 (presente 1 vez), 1 (presente 5 veces), y 2 (presente 1 vez)
es uninformativo si no está ordenado, y es informativo si está ordenado
(O-1-2).

Ignore o Zap es lo mismo que quitar el caracter de la base de


datos (sólo que sin alterar la numeración de los caracteres que vienen
detrás). Es distinto de EXCLUDE

EXCLUDE asigna un peso cero a esos caracteres, por lo tanto no


contribuyen a la longitud del árbol, pero pueden ser utilizados en otro
contexto (p.e. para evaluar cambios que experimentarían esos caracteres
cuando fuesen examinados sobre un árbol construído con otro grupo de
caracteres distintos)
MSTAXA taxones multiestadío (Multistate Taxa), por defecto el programa
los trata como incertidumbres, aunque puede tratarse de polimorfismos
(MSTAXA=POLYMORPH).
STATELABELS el comando es reconocido pero no interpretado por Paup,
en MacClade aporta nombres para cada estadío de cada caracter.
TAXONLABELS aporta nombres a los taxones cuando el formato de la
matriz está transpuesto (TRANSPOSE).

Bloque de asunciones (ASSUMPTIONSBLOCK):

El bloque de asunciones se utiliza para designar tipos de caracteres y pesos,


grupos de asunciones y estadíos ancestrales (polaridad de caracteres). Su
síntasix es:

BEGIN ASSUMPTIONS;
[OPTIONS
155
[DEFTYPE=default-character-type]
[POLYCOUNT={MINSTEPS | MAXSTEPS}];
[USERTYPE name [{STEPMATRIX | CSTREE}]
= description;]
[CHARSET character-set-name=character-list;]
[TYPESET [*] name=character-type: character-list
[, character-type: character-list] …;]
[WTSET [*] weight-set-name=character-weight: character-list
[, character-weight: character-list] …;]
[EXSET [*] exclusion-set-name=character-list;]
[ANCSTATES [*] ancestor-name=character-state: character-list
[, character-state: character-list] …;]
ENDBLOCK;

USERTYPE Hay dos clases de tipos de caracteres que pueden ser definidos
por el usuario: CSTREE (Character-state tree) permite definir, en una
gráfica, la relacion lineal o ramificada entre los estadíos de un caracter, y
STEPMATRIX, matrices de pasos que asignan costes de transformación de
estadíos entre sí.
CSTREE los árboles de estadíos de caracteres se describen utilizando
paréntesis y definen las relaciones entre ellos. Ver ejemplos.
STEPMATRIX las matrices de pasos establecen los costes de
transformación de los estadíos, que se hallan situados en los ejes de abcisas y
ordenadas de la matriz. Ver ejemplo.
DEFTYPE sirve para definir los tipos de caracteres; por defecto éstos son del
tipo en que hallan sido predefinidos (p.e. desordenados), entonces utilizando
DEFTYPE=ORD, los caracteres son ordenados, o, combinando otras
asunciones, pueden establecerse diversos tipos de caracteres (p.e.
DEFTYPE=ORD; TYPESET MYTYPES=UNOR: 3 7, DOLLO:9-13;
según este comando los caracteres son ordenados salvo caracteres 3 y 7 que
sondesordenados y caracteres del 9 al 13 que son Dollo).
TYPESET asigna tipos a los caracteres (ejemplo anterior).
CTYPE mismo comando que DEFTYPE

Las órdenes para definir tipos de caracteres se pueden establecer también


desde el comando SET CHARACTER TYPES del menú Paup.

CHARSET define grupos de caracteres ('sets') que luego pueden ser


utilizados en otros comandos
WEIGHT /
WTSET asigna pesos a priori a los caracteres, por defecto todos los
caracteres tienen el mismo peso = 1, el efecto del comando es acumulativo y si
a un caracter se le asigna más de un peso el programa retiene el último (p.e.
WSET 2: 1-5 15, 3: 11 12, 2: 10 11; los caracteres 1 a 5, 10,11, y 15 tienen
peso = 2, el caracter 12 tiene peso = 3, los demás caracteres tienen peso

156
= 1) (p.e. WSET 2: all, 1: 2 6 11; todos los caracteres tienen peso = 2 menos
caracteres 2, 6, y 11 que tienen peso 1).

SCALE permite atribuir una escala de pesos a ciertos caracteres que


tienen multiples estadíos (se utiliza cuando en la base de datos hay
caracteres binarios y caracteres multiestadío, para que todos contribuyan de
la misma manera a la reconstrucción del árbol filogenético). (p.e. WTSET
100: all, SCALE/BASEWT=100: 3 9-11 14; atribuye un peso idéntico a todos
los caracteres = 100, excepto caracteres 3, de 9 a 11, y 14, que están ajustados
a escala (el peso que tengan dependerá del número de sus estadíos; los que
sean caracteres 3-estadío tendrán un peso 100/2=50, los que sean caracteres
4-estadío tendrán un peso 100/3=33, etc.). La base de la escala se establece
según el número de estadíos que tengan los caracteres, intentando que todos
contribuyan con el mismo peso a la reconstrucción del árbol (p.e. si hay
caracteres 3-estadío y 4-estadío que puedan ser homoplásicos, es mejor
designar una base de escala = 6 que no una base de escala = 100, porque en
la primera los pesos serían 6 (binario), 3 (3-estadío), y 2(4-estadío), y al
multiplicar por número de cambios 2 x 3 = 3 x 2 (= 6), cosa que no ocurriría en
el segundo caso, donde 2 x 50 = 100 y 3 x 33 = 99).

157
EXCLUDE /
EXSET excluye ciertos caracteres asignándoles un peso = 0, por defecto
todos los caracteres están incluídos, el comado es acumulativo, caracteres que
se han excluído anteriormente pueden ser incluídos en una orden posterior,
los caracteres excluídos no contribuyen a la longitud total del árbol pero
pueden examinarse sus cambios sobre la topología obtenida con otro grupo de
caracteres (p.e. EXSET 1-25; excluye caracteres de 1 a 25, INCLUDE 15;
incluye caracteres de 5 a 15, permaneciendo los restantes excluídos.
REWEIGHT permite el peso a posteriori de los caracteres, ese peso
puede estar balanceado conforme a una base escalada de pesos y puede ser
referido a los valores de los índices de ajuste de caracteres al árbol
filogenético obtenido en una primera búsqueda (INDEX: índices de
consistencia CI, de RI, o de consistencia re-escalada RC), la opción de ajuste
FIT puede ser invocada para que los pesos a posteriori se ajusten al valor
máximo posible, el mínimo, o la media (MAXIMUM, MINIMUM, MEAN) (p.e.
REWEIGHT BASEWT=10 FIT=MAXIMUM INDEX=CI; indica peso a
posteriori de caracteres con escala base 10, y ajuste de valores máximo según
los índices de consistencia obtenidos para cada caracter).
ANCSTATES asigna estadíos ancestrales a los caracteres, este
comando es necesario si los caracteres son de tipo irreversible o si se
establecen matrices de pasos de transformaciones asimétricas para los
caracteres, y es optativo si se quieren definir polaridades en los estadíos de los
caracteres, por defecto el programa no asigna estadíos ancestrales (p.e.
ANCSTATES ALLZERO=0: ALL; en todos los caracteres el estadío ancestral
es 0; ANCSTATES MIXED =j0: 1 3 6-10, 1: 2 4 12; para los caracteres 1, 3, y
de 6 a 10 el estadío ancestral es 0 y para los caracteres 2, 4, y 12 el estadío
ancestral es 1). Ver ejemplos.

Bloque de árboles (TREES BLOCK):

El bloque de árboles se utiliza para incorporar árboles definidos por el


usuario al programa. Un árbol simple, o comando UTREE, se usa para cada
árbol; cualquier número de árboles, o comandos UTREE, pueden ser
incluídos en el bloque. La síntasix del bloque es la siguiente:

BEGIN TREES;
[TRANSLATE token taxon-name [, token taxon-name] …;]
[TREE [*] name = tree-specification;]
[UTREE [*] name = tree-specification;]
ENDBLOCK;

TRANSLATE traduce a símbolos (que serán utilizados posteriormente


en los comandos TREE y UTREE) los nombres de los taxones, lo que

158
facilitará una posterior escritura compacta de esos árboles (ejemplo
TRANSLATE 1 Triticum 2 Bromus 3 Brachypodium 4 Poa 5 Agrostis;).
TREE y UTREE se utilizan para escribir árboles enrraizados y no-
enrraizados, respectivamente. Para incluir multiples árboles se puede
utilizar uno u otro comando, pero no mezclados (todos los árboles que se
definan serán enrraizados o no-enrraizados). (p.e. UTREE1 (3,( (1,2),(4,5)));
UTREE2 ((4,5), (3, (4,5))); ) (p.e. TREE1 (3, (1,2), (4,5)); ).

Las descripciones de los árboles requieren que las etiquetas de los taxones
sean las asignadas en el bloque de datos (matriz de datos); no obstante puede
utilizarse el comando TRANSLATE para definir una tabla de traducción de
dígitos (o símbolos) empleados en el árbol que se correspondan con las
etiquetas de los taxones de la matriz de datos. Si el comando TRANSLATE
no está presente, una tabla de traducción asigna por defecto dígitos desde 1
hasta NTAX a las etiquetas correspondientes de la matriz de datos, de tal
forma que los dígitos pueden emplearse en las especificaciones de cada árbol
en lugar de los nombres. Sin embargo es mejor definir una tabla de
traducción para los taxones más que utilizar la tabla por defecto ya que así
cualquier reordenamiento de los taxones en la matriz no afectará a la
definición de los árboles.

Si uno o más taxones son omitidos en la especificación del árbol, esos taxones
se unen al nodo de la raiz del subarbol descrito en la especificación. Ver
ejemplo.

ROOT /
DEROOT los árboles pueden enrraizarse (si no estaban enrraizados
previamente) o desenrraizarse (si lo estaban). Para escribir las descripciones
de los árboles la posición de la raíz se ignora, y posteriormente se pueden
enrraizar en cualquier punto (incluyendo taxones terminales o nudos
internos).

Otras opciones de PAUP que pueden ser establecidas como comandos de


bloques o como comandos desde el menú de Paup

OUTGROUPS define el(los) grupo externo(s), el resto de los taxones


constituyen el grupo interno (p.e. OUTGROUP ROSA; Rosa es elegido como
grupo externo; OUTGROUP 1 3 9-11; los taxones 1, 2, y de 9 a 11 son
seleccionados como grupos externos).
Puede definirse el grupo externo con el comando DEFINE
OUTGROUP del menú Paup.

"SETS" permite agrupar colecciones de objetos (taxones, caracteres, etc.)


y simplificar los comandos. Los "sets" se pueden incluir en el bloque de
159
asunciones,en un bloque propio Paup, o a través del comando de línea (desde
el menú de Paup).

CHARSET Grupo de caracteres: permite agrupar caracteres por sus


características, el nombre del grupo no puede coincidir con el de los
caracteres (p.e. CHARSET LARVAL= 1-10; CHARSET ADULT=11-20; los
caracteres de 1 a 10 son larvales y los caracteres de 11 a 20 son adultos;
después pueden utilizarse estos nombres en otros comandos, p.e. WTSET 1:
LARVAL 2: ADULT; por el cual se dará doble peso a los caracteres adultos).
Esta agrupación de caracteres es especialmente útil al analizar
caracteres correspondientes a secuencias genómicas del ADN (Ver ejemplo).
Puede definirse el grupo de caracteres con el comando CHARACTER-
SETS del menú Paup.

TAXSET Grupo de taxones: permite referirse a un grupo de taxones por


un sólo nombre (agrupa taxones por sus características), el nombre del grupo
no puede coincidir con el de ningún taxon (p.e TAXSET MYGENUS=1-15
26-40; TAXSET OTHERSSP=16-25; indica que los taxones 1 a 15 y 26 a 40
pertenecen al grupo definido como "mi género" y los otros taxones son
considerados otras especies; se pueden utilizar con otros comandos, p.e.
OUTGROUP OTHERSSP; el grupo externo son OTHERSSP, o
CONSTRAINTS INGRP= ((MYGENUS)); impone restricción de monofilia de
grupo interno para MYGENUS, etc.).

TYPESET asigna tipos a los caracteres.

Las órdenes para definir tipos de caracteres se pueden establecer


también desde el comando SET CHARACTER TYPES del menú Paup.

WTSET asigna pesos a priori a grupos de caracteres.


EXSET excluye grupos de caracteres

Invocando grupos de asunciones:

Los comandos TYPESET, WTSET, y EXSET, son meramente asunciones


definitorias que no producen efecto a no ser que se les invoque. Hay tres vías
para invocar esas asunciones preestablecids:

- Precediendo la asunción específica con un asterisko (p.e. WTSET one= 2: 5-


8; WSET *two= 1: all, 2: 6, 8, 10-12; WSET three= 1: all, 2: 10-20; de las tres
asunciones sólo la segunda entraría en efecto, todos los caracteres tendrían
un peso = 1, salvo los caracteres 6, 8, y de 10 a 12 que tendrían un peso = 2).

- Utilizando el comando ASSUME (p.e ASSUME TYPESET=ONE


WSET=MYWTS EXSET=NONCODING; pone en efecto los tipos de
160
caracteres del grupo uno, los pesos establecidos en 'mywts', y excluye los
caracteres no codificantes, todos ellos previamente definidos con los comandos
TYPESET, WTSET, y EXSET).

- Utilizando los comandos CHARACTER TYPES, SET CHARACTER


WEIGHTS, y INCLUDE-EXCLUDE CHARACTERS del menu Paup.

Taxones multiestadío:

Usualmente al construir las matrices de datos se asigna un único estadío a


cada caracter para cada taxon, pero puede ocurrir que un taxon presente más
de un estadío para un particular caracter debido a una incertidumbre parcial
(no se está seguro de si ese taxon pudiera tener más de un estadío para ese
caracter) o debido a polimorfismos (se ha constatado que ese taxon presenta
más de un estadío para ese caracter). Para asignar multiples estadíos a un
taxon se utilizan paréntesis:

161
matrix
tax1 1 1 0 0
tax2 1 (12) 1 0
tax3 0 2 1 (01)
tax4 0 0 1 1
;

esta misma matrix podría escribirse utilizando la opción EQUATE

FORMAT EQUATE="a=(12) b=(01)";


matrix
tax1 1 1 0 0
tax2 1 a 1 0
tax3 0 2 1 b
tax4 0 0 1 1
;

El comando MULTISTATE TAXA del menú Paup permite seleccionar como


incertidumbres / polimorfismos los casos de estadíos múltiples. Si se
seleccionan como 'inciertos' Paup escogerá aquellos estadíos que minimicen la
longitud del árbol; si se seleccionan como 'polimórficos' el taxon es
heterogéneo para ese caracter y todos los estadíos menos uno son derivados
de un taxon ancestral monomórfico de la forma más parsimónica posible.

Eliminando e incluyendo taxones:

Para eliminar taxones se utiliza el comando DELETE y para incluirlos el


comando RESTORE. Estos comando pueden escribirse en el bloque o
utilizarse desde el menú Paup. (p.e. DELETE ROSA RUBUS; elimina ambos
taxones del análisis; RESTORE ROSA; reincorpora Rosa al análisis).

Matrices de distancias Paup:

Una matriz de distancias Paup calcula distancias absolutas o distancias


medias entre los taxones basándose en los estadíos de los caracteres, pesos, y
otras asunciones, utilizando el comando SHOWDIST de bloque o el comando
SHOW DISTANCE MATRIX del menú. (Ver Manual Paup).

Estas matrices de distancias Paup NO SON matrices de distancias genéticas.

162
163
Ejecución del programa - Búsquedas filogenéticas

El programa puede editar un fichero (EDIT) o ejecutarlo (EXECUTE). Ambos


comandos se hallan en el menú de Paup. Mediante la edición podemos crear
un fichero o modificarlo, mediante su ejecución el programa reconoce el
fichero y las asunciones definidas y asumidas. Si al ejecutar el fichero el
programa encuentra fallos en la síntaxis de los comandos y/o la matriz éste
los comunica. La ejecución del fichero es un requisito indispensable previo a
las búsquedas filogenéticas.

Utilización del menú interactivo Paup para Macinthos

El editor PAUP presenta la mayoría de las características de un editor de


textos Macinthos (cortar, copiar, pegar, eliminar, rehacer, selección de
opciones o palabras con doble pulsada, etc.). Se puede seleccionar también
una línea entera con triple pulsada. Escogiendo EDITOR del menú de
opciones (OPTIONS) se pueden seleccionar diversos caracteres de edición
(FONTS, TABS, etc.). Para crear un nuevo fichero se escoge NEW, aparece
un fichero vacío donde se puede introducir una matriz de datos, o pegar datos
de otro fichero, definir los comandos, y guardar el fichero. Para asegurarse de
que el nuevo fichero es correcto se ejecuta (EXECUTE) y si el programa lo
acepta, se puede utilizar para iniciar las búsquedas filogenéticas o los
análisis de datos.

El comando de línea

Aparece cuando se selecciona SHOW COMMAND LINE en el menú


WINDOWS. Cualquier orden o comando puede escribirse en esta línea, para
ejecutarlo basta con apretar después la tecla RETURN. La tecla CLEAR
eliminará el comando de la línea; la tecla RECALL traerá de nuevo el último
comando escrito.

El menú Apple para Paup

Consta de las siguientes ventanas y comandos:

File El menú de esta ventana contiene los comandos:


New abrir nuevo fichero
Open abrir fichero previo (se busca en el directorio correspondiente)
Close cerrar fichero

164
Save guardar fichero
Save as guardar como (guardar el mismo fichero con distinto
nombre)
Revert abandonar los cambios en un fichero y volver a la ultima
version guardada del mismo
Page set up
Print file
Echo to printer
Print selection
Log Output to Disk
Execute "manual" el programa ejecuta el fichero
Export file exportar el fichero a otros formatos (PHYLIP, Henning,
etc.). No hace falta para MacClade ya que Paup y MacClade
son interconvertibles.
Import file importar un fichero desde otro formato
Quit abandonar el programa

Edit El menú de esta ventana contiene los comandos:


Undo Typing
Cut
Copy
Paste
Clear
Select all
Clear Display buffer elimina los datos presentes en la pantalla de
edición
Edit Display buffer edita los datos presentes en la pantalla de
edición a una nueva ventana (fichero sin título), desde donde
pueden ser guardados o impresos en su totalidad o una parte de
ellos.
Set Tabs & Font
Find
Find Again
Replace
Replace All

Windows El menú de esta ventana contiene los comandos:


Main Display muestra los contenidos de la ventana (Show
Command Line y Show Memory Status)
Show Command Line muestra el comando de línea (ver más arriba
su operatividad)
Show Memory Status muestra la cantidad total de memoria
disponible (no la designada al programa) y el tamaño de el
mayor bloque de memoria libre

165
Antes de utilizar Paup deberá constatarse que el programa
dispone de suficiente memoria de operación, pudiéndosele
asignar más memoria operativa si las búsquedas a desarrollar
implican un gasto considerable de memoria, si no fuera así se
corre el riesgo de que una búsqueda concreta se paralice por
falta de memoria suficiente.
Search status muestra el tipo de búsqueda que se está llevando a
cabo
PAUP Help ayuda
Zoom
Clean Up deja las ventanas en sus condiciones iniciales, por defecto
Close All cierra todas las ventanas abiertas
Editor Windows permite editar ficheros adicionales

Options El menú de esta ventana contiene los comandos:


Multistate taxa permite seleccionar como incertidumbres /
polimorfismos los estadíos múltiples de ciertos caracteres.
Optimization selecciona la optimización de los cambios de
caracteres por uno de los tres métodos (ACCTRAN, DELTRAN,
MINF).
Set Maxtrees especifica el máximo número de árboles que Paup
puede guardar en memoria (se puede designar un número bajo,
p.e. 100, si la búsqueda no implica almacenar una enorme
cantidad de ellos y así se ocupa menos memoria, sin embargo es
conveniente aumentar este número, p.e. >1000, si la búsqueda
requiere un gran almacenamiento de árboles). Se escogen
opciones que permiten aumentar ese número cuando ha sido
alcanzado (p.e. Prompt for a new value, o, Automatically
increase by 100).
Character matrix format permite cambiar la forma en que Paup
formatea las matrices de estadíos de caracteres en los
resultados
Searching controla los procesos de fondo y muestra la situación de
varios comandos mientras Paup está llevando a cabo una
búsqueda filogenética (ambos son compatibles si la búsqueda es
limitada, si ésta es compleja queda paralizada mientras se
activa este comando y prosigue cuando el comando se
abandona).
Rooting permite seleccionar la forma de enrraizamiento de los
árboles (Outgroup, Lundberg, Midpoint).
Tree Order permite escoger el dibujo del árbol entre cuatro opciones
(Standard, Ladderize right, Ladderize left, Alphabetical)
aunque ninguna de ellas tiene ninguna significancia topológica.
Stepmatrices permite escoger qué estadíos de caracteres son
permitidos en los nudos internos

166
Ignore Characters permite ignorar caracteres comunes (invariantes,
uninformativos)
Semigraphics transforma los árboles a formato ASCII
Editor permite cambiar algunas opciones de edición
Warnings & Errors especifica advertencias y errores
NEXUS Format permite escoger algunas opciones del formato
Nexus
Startup Preferences permite cambiar los condicionantes que tiene
Paup por defecto, los nuevos entrarán en vigor al reiniciar Paup
Restore Option Settings se recuperan los condicionantes anteriores

Data El menú de esta ventana contiene los comandos:


Include-Exclude Characters
Set Character Types
Set Character Weights
Reweight Characters
Delete-Restore Taxa
Define Outgroup
Show Character Status
Show Taxon Status
Show Usertypes
Show Data Matrix
Show Distance Matrix
Show Ancestral States
Choose Assumptions Sets
Save Current Assumptions

Búsquedas de árboles
Se pueden dirigir con comandos de bloque o con comandos del menú (Ver
Manual Paup).

167
EJERCICIOS

168
169
EJERCICIO 1:

Dada la siguiente matriz de datos binarios para seis taxones (A, B, C, D, E, F):

Taxon A 0 0 0 0 0 0 0 0 0 0 0
Taxon B 1 0 0 0 1 0 0 0 0 1 1
Taxon C 0 0 0 0 0 0 0 0 1 1 1
Taxon D 0 1 1 0 1 0 1 1 0 1 0
Taxon E 0 1 1 0 0 1 1 1 0 1 0
Taxon F 0 1 1 1 0 0 0 1 0 1 0

Reconstruya el árbol más parsimonioso. Indique qué caracteres son informativos, variables, y
homoplásicos sobre la topología más corta. Identifique un grupo monofilético, un grupo
polifilético y un grupo parafilético.

EJERCICIO 2:

Dadas las siguientes secuencias de un gen hipotético para cinco taxones (A, B, C, D, E):

Taxon A ACCGATGACCGTCGCTGTAG
Taxon B ACCGATGGCCTTTGGTGTAA
Taxon C ACCGATGACCGTCGCCGTAA
Taxon D ACCAATCACCGTAGCTGTTA
Taxon E AGCATTCACCCTATCTGTAA

a) Distancias
- Calcule todos los pares de distancias entre las secuencias (considerando D = No.
posiciones no sinónimas entre cada par). Con esta matriz de distancias reconstruya un
árbol, utilizando el taxon E como grupo externo; trate de estimar la longitud de las
ramas. ¿Se podría construir un árbol aditivo? ¿Se obtendría el mismo árbol con una
construcción ultramétrica (UPGMA)?

b) Parsimonia
- Identifique el número de sitios invariables, el número de sitios variables, y el número
de sitios parsimónicamente informativos. Evalúe los árboles aditivos y ultramétricos
anteriores mediante cambios parsimónicos e indique qué árbol es más corto.
Compruebe si puede haber algún otro árbol más parsimonioso.

170
EJERCICIO 3:

A partir de la matriz de distancias genéticas para los taxones A, B, C, D, E y F,


reconstruya el árbol filogenético del grupo empleando el algoritmo UPGMA. Indique
los tiempos de divergencia de cada linaje empleando la fórmula de Nei 1976 (t = 5 x
106 x D; D = 1/2 distancia patrística). Señale cuales son las implicaciones evolutivas
del método de reconstrucción UPGMA y bajo que condiciones podría emplearse (o
de bería descartarse) el empleo de este método de inferencia filogenética.

A B C D E

B 0.05

C 0.14 0.14

D 0.07 0.09 0.14

E 0.14 0.14 0.10 0.14

F 0.12 0.12 0.14 0.12 0.14

EJERCICIO 4:

A partir de la matriz de datos de presencia / ausencia (1/0) de sitios de restricción


enzimática para los taxones A, B, C, D, E, F, G, H, e I, reconstruya el árbol
filogenético del grupo utilizando el método de la parsimonia. Indique la longitud del
árbol más parsimonioso. Señale cual es el taxón basal y ponga un ejemplo de grupos
hermanos. Indique qué caracteres son sinapomórficos y autoapomórficos y cuales dan
origen a homoplasías (paralelismos o reversiones) al superponer los cambios de
dichos caracteres sobre el árbol más parsimonioso obtenido.

A 1 0 0 0 0 0 1 1 1 1 0 1 0 1 1
B 0 0 0 0 1 0 0 1 1 1 0 1 0 1 0
C 0 1 1 0 0 1 1 0 0 1 0 0 1 1 0
D 1 0 0 1 0 0 0 1 1 1 0 1 0 1 1
E 0 0 0 0 1 0 0 1 1 1 0 1 0 1 0
F 0 1 1 0 0 1 0 0 0 1 0 0 1 1 0
G 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0
H 0 0 0 0 0 1 0 0 0 1 1 0 1 1 0
I 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0

171
EJERCICIO 5:

Con la siguiente matriz de distancias genéticas (calculadas a partir de sustituciones


nucleotídicas del gen 5S rADN) construya la filogenia de estos organismos
bacterianos mediante el algoritmo de Neighbor Joining .

Bsu Bst Lvi Amo Mlu

Bsu - 0.1715 0.2147 0.3091 0.2326

Bst - 0.2991 0.3399 0.2058

Lvi - 0.2795 0.3943

Amo - 0.4289

(Bsu=Bacillus subtilis; Bst=B.stearothermophilus; Lvi=Lactobacillus viridescens;


Amo= Achleplasma modicum; Mlu=Micrococcus luteus).

EJERCICIO 6:

Identifique todos los sitios informativos en las siguientes secuencias de ADN de 4


taxones (A, B, C, D) e infiera el árbol más parsimonioso (de los 3 árboles no
enrraizados posibles).

A
GACTATGCTCAGCTTGATTGCCAGGCAGGCTGCCCCCAGCAAAACGCCTGCCGGTGTGCTCCA

B
GTCTGCGCCCAGCTTCATTGTCAGGCGGGCTGCCGTCCGCAGAACGTTTGTCCGTGGGGTCCG

C
GTGTGTGACCATGTCCACTGCCAAGCAGGTTGTCCCCAACAAAATGTCAGTCGTTGTGGCCCG

D
GTGCGCGCTCATCTCCACTGTCAAGCGGGTTGTCCTCAACAGGATGTTTGCCGTTGGCGCCAA

172
EJERCICIO 7:

Dada la siguiente matriz de secuencias alineadas de la región cloroplástica trnL-F:


#NEXUS

BEGIN DATA;
DIMENSIONS NTAX=12 NCHAR=982;
FORMAT MISSING=? GAP=- MATCHCHAR=. INTERLEAVE DATATYPE=DNA ;

MATRIX

[ 10 20 30 40 50 60 70 80 90 100]
[ . . . . . . . . . .]

Brachypodium AAACCTGCTAAGTGTTAACTTCCAAATTCAGAGAAACCCTGGAATTAAAAAAGGGCAATCCTGAGCCAAATCCGTGTTTTGAGAAAACAAGG-GGTTCTC
[99]
Faltissima ..............G.............................................................................A.......
[100]
Fpyrenaica ..............G.............................................................................A.......
[100]
Fquadriflora ..............G.........................................................................T...A.......
[100]
Fgautieri ..............G.............................................................................A.......
[100]
Vulpia ..-...........G.............................................................................A.......
[99]
Falpina ..............G.............................................................................A.......
[100]
Feskia ..............G.............................................................................A.......
[100]
Fgigantea ..............G.............................................................................A.......
[100]
Fpaniculata ..............G.............................................................................A.......
[100]
Fpratensis ..............G.............................................................................A.......
[100]
Fborderei ..............G.............................................................................A.......
[100]

[ 110 120 130 140 150 160 170 180 190 200]
[ . . . . . . . . . .]

Brachypodium GAACTAGAATCCAAAGGAAAAGGATAGGTGCAGAGACTCAATGGAAGCTGTTCTAACGAATCGAGTTAATTTATTTAGGTTGTTTTGGTAGTGGAAATCC
[199]
Faltissima ..........A............................................................-----.C.....G...T........T...
[195]
Fpyrenaica ..........A............................................................-----.C.....G...T........T...
[195]
Fquadriflora ..........A............................................................-----.C.....G...T........T...
[195]
Fgautieri ..........A............................................................-----.C.....G...T........T...
[195]
Vulpia ..........A............................................................-----.C.....G...T........T...
[194]
Falpina ..........A.....................................................A......-----.C..C..G...T........T...
[195]
Feskia ..........A............................................................-----.C.....G...T........T...
[195]
Fgigantea ..........A............................G.......................G.-.....-----.C.....G...T........T...
[194]
Fpaniculata ..........A............................G...............................-----.C.....G...T........T...
[195]
Fpratensis ..........A............................G.......................G.-.....-----.C.....G...T........T...
[194]
Fborderei ..........A............................................................-----.C.....G...T........T...
[195]

[ 210 220 230 240 250 260 270 280 290 300]
[ . . . . . . . . . .]

173
Brachypodium TTTTAAATTAGAGAAAGAAGGGATTTTTACATCTAATAAACACGTATA-GATACTAACATAGTAAACGATTAATCACAGAA-TCCAAGTATAA------C
[291]
Faltissima ..C......T............C...A.....................-......GG.....C..............G...CC.AT.T.....TTATAAT
[294]
Fpyrenaica ..C......T............C...A....C................-......G......C..............G...CC.AT.T.....------T
[288]
Fquadriflora ..C......T............C...A....C................-......G......C..............G...CC.AT.T.....------T
[288]
Fgautieri ..C......T............C...A....C................T......G......C..............G...CC.AT.T.....------T
[289]
Vulpia ..C......T............C...A....C................-......G......C..............G...CC.AT.T.....------T
[287]
Falpina ..C......TT...........C...A....C................-......G---------............G...CC.AT.T.....------T
[279]
Feskia ..C......T............C...A....C................-......GG.....C..............G...CC.AT.T.....------T
[288]
Fgigantea ..C......T............C...A.....................-......GG.....C.............TG...CC.AT.T.....------T
[287]
Fpaniculata ..C......T............C...A.....................-......GG.....C.............TG...CC.AT.T.....------T
[288]
Fpratensis ..C......T............C...A.....................-......GG.....C.............TG...CC.AT.T.....------T
[287]
Fborderei ..C......T............C...A....C................-......G......C..............G...CC.AT.T.....------T
[288]

[ 310 320 330 340 350 360 370 380 390 400]
[ . . . . . . . . . .]

Brachypodium ATAGGTTCTTTATTCTTTTTTAGAATGAAATTAGGAAG-------GATTATGAAATAAAAAATTAATAAATTTTTT--AGAATTATT-----GTGAATCC
[377]
Faltissima ................................T-...ATAGAAAT...........C.......C.G..T......--G........-----........
[386]
Fpyrenaica ................................T-...ATAGAAAT...................CTG..T.....GT-.........T----.-......
[381]
Fquadriflora ................................T-...ATAGAAAT...........C.......C.G..T......T-.........T----.-......
[381]
Fgautieri .....G..........................T-...ATAGAAAT...................C.G..T......T-.........T----.-......
[382]
Vulpia ................................T-...ATAGAAAT...................C.G..T.....GT-.........T----.-......
[380]
Falpina ................................T-...ATAGAAAT...................T.G..T.....GT-.........T----.-..T...
[372]
Feskia ................................T-...ATAGAAAT...................C.G..T......T-.........T----.-......
[381]
Fgigantea ...........................C....TT-..ACAGAAAT...........C.......C.G..T......TTT........TTATT........
[386]
Fpaniculata ...........................C....TT-..ACAGAAAT...........C.......CT...T......--G........-----........
[380]
Fpratensis ...........................C....TT-..ACAGAAAT...........C.......C.G..T......TTT........TTATT........
[386]
Fborderei ................................T-...ATAGAAAT...................CTG..T.....GT-.........T----.-......
[381]

[ 410 420 430 440 450 460 470 480 490 500]
[ . . . . . . . . . .]
Brachypodium ATTCTAATTGAATCTTGAGTAATCAAATCCTTCAATTCAAAGTACTTGAGATCTTTTAAAAAGTGGATTAATCGGACGAGGACAAAGAGAGAGTCCCATT
[477]
Faltissima ....C........A..T.........................-TT.....G.....A...........................................
[485]
Fpyrenaica ....C........A..T.........................-TT.....G.....A...C.......................................
[480]
Fquadriflora ....C........A..T.........................-TT.....G.....A...........................................
[480]
Fgautieri ....C........A..T.........................-TT....AG.....A...C.......................................
[481]
Vulpia ....C........A..T.........................-TT.....G.....A...C.......................................
[479]
Falpina ....C........A..T.........................-TT.....G.....A...C.......................................
[471]
Feskia ....C........A..T.........................-TT....AG.....A...C.......................................
[480]
Fgigantea ....C........A..TT........................-TT.....G.....A...........................................
[485]
Fpaniculata ....C........A..TT........................-TT.....G.....A...........................................
[479]

174
Fpratensis ....C........A..TT........................-TT.....G.....A...........................................
[485]
Fborderei ....C........A..T.........................-TT.....G.....A...C.......................................
[480]

175
[ 510 520 530 540 550 560 570 580 590 600]
[ . . . . . . . . . .]

Brachypodium CTACATGTCAATACTGACAACAATGAAATTTCGAGTAAAAGGAAAATCCGTCGACTTTATAAGTTGTGAGGGTTCAAGTCCCTCTATCCCCAAATCCTTT
[577]
Faltissima ................................T...............................C.............................C...CC
[585]
Fpyrenaica ................................T...............................C.............................C...CC
[580]
Fquadriflora ................................T...............................C.............................C...CC
[580]
Fgautieri ................................T...............................C.............................C...CC
[581]
Vulpia ................................T...............................C.............................C...CC
[579]
Falpina ................................T...............................C.............................C...CC
[571]
Feskia ................................T...............................C.............................C...CC
[580]
Fgigantea ................................T.............................................................C...CC
[585]
Fpaniculata ................................T...............................C.............................C...CC
[579]
Fpratensis ................................T.............................................................C...CC
[585]
Fborderei ................................T...............................C.............................C...CC
[580]

[ 610 620 630 640 650 660 670 680 690 700]
[ . . . . . . . . . .]

Brachypodium TT-ATTCCCCAACTAT------------CCTCTTTTATTCCCTAACTTTTATCCTCTTTTTTTCTTTTTATCAAT-----GGGTTTAAGATT------CA
[653]
Faltissima ..T......T....T.AAC-TTATTGTA-------------------.........-..................-----............AAGATT..
[659]
Fpyrenaica ..T......T...------TTTATTGTA-------------------.........G...........A...G..-----.A..........------..
[644]
Fquadriflora ..T......T...-------TTATTGTA-------------------............................-----............------..
[643]
Fgautieri ..T......T...-------TTATTGTA-------------------............................-----............------..
[644]
Vulpia ..T......T...------TTTATTGTA-------------------.........-...............G..-----............------..
[642]
Falpina ..T......T...------TTTATTGTA-------------------............................GCAAT............------..
[640]
Feskia ..T......T...-------TTATTGTA-------------------............................-----............------..
[643]
Fgigantea ..T......T...-------TTATTGTA-------------------.........-................CA-----............------..
[647]
Fpaniculata ..T......T...-------TTATTGTA-------------------.........-..................-----............------..
[641]
Fpratensis ..T......T...-------TTATTGTA-------------------.........-................CA-----............------..
[647]
Fborderei ..T......T...------TTTATTGTA-------------------.........................G..-----............------..
[644]

[ 710 720 730 740 750 760 770 780 790 800]
[ . . . . . . . . . .]

Brachypodium TTAGCTTTCTCATTCTACTCTTTCACAAAGGAGTGCGAAGAGAACTCAATGGATCTTATCCTATTCATTGAATAGATTTCTTTTTTATTAGAGTATCCGC
[753]
Faltissima ..................................C............................------.....T......................G.G
[753]
Fpyrenaica ...............................................................------.....T..........-...........G.G
[737]
Fquadriflora ...............................................................------.....T......................G.G
[737]
Fgautieri ...............................................................------...A.T....?.............A...G.G
[738]
Vulpia ..............A................................................------.....T......................G.G
[736]
Falpina ...............................................................------.....T.................A...TG.G
[734]
Feskia ...............................................................------.....T......................G.G
[737]

176
Fgigantea ...............................................................------.....T....G.................G.G
[741]
Fpaniculata ...............................................................------.....T....G.................G.G
[735]
Fpratensis ...............................................................------.....T....G.................G.G
[741]
Fborderei ...............................................................------.....T.....................TG.G
[738]

[ 810 820 830 840 850 860 870 880 890 900]
[ . . . . . . . . . .]

Brachypodium AAGGACTCTCGGTTATTAACTCTATTTT-TAAGTATTATTAAGTAATCCATGCACAATGCATAGGA-CCACCCCCCCC---ATTTTTCAATTTGGAATTT
[848]
Faltissima ..T..A..C........C..........-.C...............G.....T.............-.T........----.....A......A......
[847]
Fpyrenaica ..A..A..C.A......C..........A.C............A..G.....TC..........A.A.TC........CC-.....C......A......
[836]
Fquadriflora ..A..A..C.A......C..........A.C............A..G.....T...........A.-.T.........---.....C......A......
[833]
Fgautieri ..A..A..C.A......CC.........A.C............A..G.....T...........AT-.T.........CCC.....C......A......
[837]
Vulpia ..A..A.TC.A.................A.C............A..G.....T...........A.-.T........----.....C......A......
[831]
Falpina ..AT.A..C.A......C..........A.T............A..GAG-..T...........A.-.T.........---.....CA.....A......
[829]
Feskia ..A..A..C.A......C..........A.C............A..G.....T...........A.-.T.........C--.....C......A......
[834]
Fgigantea ..A..A..C........CG.........-.C...............G.....T.............-.T.........---.....A......CA.....
[836]
Fpaniculata ..A..A..C........C..........-.C...............G.....T...........A.-.T.........---.....A......A......
[830]
Fpratensis ..A..A..C........CG.........-.C...............G.....T.............-.T.........C--.....A......C......
[837]
Fborderei ..A..A..C.A......C..........A.C............A..G.....T...........A.-.T.........C--.....C......A......
[835]

[ 910 920 930 940 950 960 970 980]


[ . . . . . . . . ]
Brachypodium GAAATACTTTA----ATTGATTTTTGAGTCCCTTTAATTGACATAGATACAAATACTCTACTAGGATGATGCACAAGAAAAG [926]
Faltissima ...........TTTA..........T........................................................ [929]
Fpyrenaica ......----.TTTA..........T........................................................ [914]
Fquadriflora ...........TTTA..........T........................................................ [915]
Fgautieri ...........TTTA.A?.......T............................?.................G......... [919]
Vulpia ......----.TTTA..........T.......................................................A
[909]
Falpina ...........TTTA...T......T........................................................
[911]
Feskia ...........TTTA..........T........................................................ [916]
Fgigantea .....C.....TTTA...T......T........................................................ [918]
Fpaniculata ...........TTTA................................................................... [912]
Fpratensis .....C.....TTTA...T......T........................................................ [919]
Fborderei ......----.TTTA..........T..................................-..................... [912]
;
ENDBLOCK;

Analice: Número de sitios variables y número de sitios informativos. Codifique las brechas ("gap")
como caracteres binarios por su presencia o ausencia ( 1 / 0) en un sentido parsimónico.
Reconstruya la filogenia del grupo mediante parsimonia.

177
EJERCICIO 8:

Utilice el método de la matriz de puntos para alinear las dos siguientes secuencias:

A AATGCTTGCATGGGGCTAGTT
B ATTGCTGCATGAGGCGCGCTAGT

Seleccione los posibles alineamientos y decida cual


es mejor utilizando una penalización de brechas
(“gaps”) constante de w=2 por posición. Haga lo
mismo utilizando una penalización constante de w=10.

EJERCICIO 9:

Se han calculado las siguientes distancias genéticas entre primates a partir de secuencias del
ADN mitocondrial:

H C G O

C 1.45

G 1.51 1.57

O 2.98 2.94 3.04

R 7.51 7.55 7.39 7.10

Reconstruya la filogenia de este grupo de primates mediante los métodos UPGMA y NJ.

(H=Humano; C=Chimpancé; G=Gorila; O=Orangután; R=Mono Rhesus).

178
EJERCICIO 10:

Dados los siguientes patrones de restricción obtenidos para los taxones A, B, C, D, E, y F,


con tres enzimas (Enz. I, Enz. II, y Enz. III).

Patrones de restricción única:

Enzima I Enzima II Enzima III


A B C D E F A B C D E F A B C D E F
20           
16  
15.5  
12 
8   
7  
5  
4.5   4 __ __

Patrones de restricción combinada:

Enzima I Enzima II Enzima III


A B C D E F A B C D E F A B C D E F
17.5 
17 
15.5  15.5 
12 __ 12.5   
10.5  10.5   
9.5  9 __ __
8    8   7.5 __ __ __
7  
5 __ __ __ 5.5  
4.5    4.5  
4   4  4  
3      2.5 __ 2.5 __ __ __
1.5   1.5 
0.5  

Realice el cartografiado de los sitios de restricción de estas enzimas en al mapa genómico de


cada taxon. Codifique la presencia / ausencia de cada sitio de restricción como caracteres
binarios (ausencia=0, presencia=1) y reconstruya la filogenia del grupo mediante parsimonia..

179
EJERCICIO I (GRAMÍNEAS):

Importe de la base de datos Genbank las siguientes secuencias de ADN de gramíneas:

gen cloroplástico ndhF: región ITS rADN:

Avena U71018 Z11758


Deschampsia U71012 L36513
Brachyp.dis U71043 L11578
Bromus U71034 L36508
Anisantha U71035 L36485
Melica U71049 L36518
Dactylis U71016 L36512
Lolium U71014 L36517
Agropyron U71031 L36480
Secale U71023 Z11760

Gram. NDHF

Parsimonia

- Confeccione el fichero Gram.NDHF (Paup) utilizando el formato Nexus (ntax=10,


nchar=614). Ejecute el fichero. Conduzca una búsqueda parsimónica B&B (grupo
externo: Melica, ACCTRAN, Multistate taxa=uncertainity).

- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
(Trees - Describe trees - cladogram/phylogram). Dibuje la(s) topología(s). Guarde los
árboles en fichero Gram.NDHF.trees.

- Compute el árbol consenso estricto de los árboles MP obtenidos (Trees - Compute


consensus).

- Introduzca en el fichero la condición de doble pesado de las 1as y 2as posiciones de cada
codon sobre las 3as posiciones (1st:2 nd:3rd = 2:2:1) (begin assumptions; charset
1stPos=1-649\3; charset 2ndPos=2-650\3; charset 3rdPos=3-651\3; ). Invoque esta
condición desde el menú de Paup (Data - Set character weights - Charsets - WtSets -
Assign weight). Conduzca una nueva búsqueda B&B.

- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
Compruebe si la topología de este árbol difiere de la obtenida anteriormente.

180
- Ejecute de nuevo el fichero Gram.NDHF. Importe los árboles guardados anteriormente
en el fichero Gram.NDHF.trees (Trees - Get trees from file).

- Conduzca una nueva búsqueda B&B pesando (a posteriori) aquellos caracteres que
mejor se ajustan a la topología(s) obtenida(s) (Data - Reweight characters - RC /
Maximum value).

- Indique las características del árbol(es) obtenido(s) con los pesos a posteriori (No.
árboles, L, CI, HI, RI, RC). Compare la topología de este árbol(es) con la(s) obtenida(s)
anteriormente.

- Estime la bondad de la reconstrucción mediante búsqueda B&B bootstrap de 100


replicados (Search - Bootstrap). Establezca el soporte de cada clado.

Distancias

- Exporte el fichero Gram.NDHF a un fichero formato PHYLIP desde MacClade (File -


Export file - PHYLIP 3.5) o utilice un fichero previamente confeccionado en este formato
(GramNDHF.PHYLIP).

- Construya una matriz de distancias genéticas utilizando el método de Kimura dos


parámetros (Sequence - ADNdist ). Guarde el fichero de matriz de distancias como
GramNDHF.K2P.

- Reconstruya un árbol aditivo (NJ) y un árbol ultramétrico (UPGMA) a partir de esta


matriz de distancias (Distance - Neighbor - NJ / UPGMA). Guarde los ficheros
resultantes como GramNDHF.NJ, GramNDHF.NJtree, y como GramNDHF.UPGMA,
GramNDHF.UPGMAtree.

- Abra los ficheros de árboles GramNDHF.NJtree y GramNDHF.UPGMAtree con el


programa TreeView (Tree - Radial / Phylogram/ etc.).

- Compare las topologías obtenidas mediante matrices de distancias (K2P) y de vías


algorítmicas (NJ, UPGMA), utilizando como grupo externo Melica, con las topologías
obtenidas por Parsimonia. ¿Son congruentes ambas reconstrucciones?

Máxima verosimilitud

- Conduzca una búsqueda por el método de máxima verosimilitud sin imponer la condición
de reloj molecular; para ello abra el fichero GramNDHF.PHYLIP (Sequence - ADNml)
(busque el mejor árbol y acepte la ratio Tv:Ts = 2:1).

- Guarde los resultados de la búsqueda en los ficheros GramNDHF.ML y


GramNDHF.MLtree.

181
- Conduzca una búsqueda por el método de máxima verosimilitud imponiendo la condición
de reloj molecular; para ello abra el fichero GramNDHF.PHYLIP (Sequence - ADNmlk)
(busque el mejor árbol y acepte la ratio Tv:Ts = 2:1).

- Guarde los resultados de la búsqueda en los ficheros GramNDHF.MLK y


GramNDHF.MLKtree.

- Compruebe si las dos reconstrucciones muestran la misma topología. Si es así, aplique la


prueba de la razón de la verosimilitud (chi-cuadrado; H0 = con reloj, H1 = sin reloj) ( 2 x
(ln H1 - ln H0), grados de libertad = (2n - 3) - (n - 1) = n - 2). Establezca si H1 es
significativamente mejor (p>0.05) que H0, y si se puede rechazar por tanto la hipótesis
nula.

- Una vez seleccionado el árbol más verosímil, compare la topología de esta reconstrucción
con las topologías obtenidas mediante reconstrucciones basadas en distancias genéticas
(K2P y NJ) y mediante parsimonia. ¿Son conguentes las topologías?

Gram. ITS

Parsimonia

- Confeccione el fichero Gram.ITS (Paup) utilizando el formato Nexus (ntax=10,


nchar=614). Ejecute el fichero. Conduzca una búsqueda parsimónica B&B (grupo
externo: Melica, ACCTRAN, Multistate taxa=polymorphisms).

- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
(Trees - Describe trees - cladogram/phylogram). Dibuje la(s) topología(s).

- Calcule las longitudes de las ramas (Trees - Describe trees - Table of linkages).

- Introduzca en el fichero la condición de doble pesado de las transversiones sobre las


transiciones (Tv:Ts = 2:1) (begin assumptions; usertype stepmatrix=4 ACGT). Invoque
esta condición desde el menú de Paup (Data - Set character types - All - Userdefined:
Stepmatrix). Conduzca una nueva búsqueda B&B.

- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
Compruebe si la topología de este árbol difiere de la obtenida anteriormente.

- Confeccione una matriz de brechas (gaps) ITS interpretando cada brecha, de cualquier
longitud, como un solo evento evolutivo, codificándolas como caracteres binarios por su
presencia / ausencia (1 / 0). Para ello abra el fichero Gram.ITS en MacClade e iguale las
posiciones consenso (Display - Match first - . ), recorra la secuencia y vaya elaborando la
matriz de brechas. Guarde esa matriz como fichero GramITS.gaps bien en MacClade o
bien en Paup.

182
- Conduzca una búsqueda parsimónica B&B en Paup con la matriz de brechas
GramITS.gaps (ntax=10, nchar=30) (grupo externo: Melica, ACCTRAN, Multistate
taxa=uncertainity).

- Indique las características de los árboles obtenidos (No. árboles, L, CI, HI, RI, RC).
Compute el árbol consenso estricto (Trees - Compute consensus). ¿Es un árbol altamente
resuelto? ¿Es congruente con la topología obtenida de la matriz de sustitución de
nucleótidos?

- Elabore un fichero Gram.ITS2 que incluya la matriz de secuencias (caracteres


nucleotídicos) y la matriz de brechas (caracteres binarios, delecciones). Recalcule el
número de caracteres totales y añada a la síntaxis de formato SYMBOL="01". Ejecute el
fichero.

- Conduzca una búsqueda parsimónica B&B (grupo externo: Melica, ACCTRAN,


Multistate taxa=uncertainity).

- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
(Trees - Describe trees - cladogram/phylogram). Compare las características de este
árbol basado en caracteres nts+gaps con los árboles obtenidos anteriormente por
separado. ¿Qué conclusiones obtiene?. Salve el árbol en un fichero Gram.ITS2.trees.

- Evalúe sobre esta topología los cambios de los caracteres correspondientes a las brechas
(615 a 644) (puede hacerlo tanto desde Paup: Trees - Show reconstructions, como desde
MacClade: escriba [SYMBOL="01"] entre corchetes (-MacClade no reconoce la síntaxis
'Symbol'), abra el fichero de datos Gram.ITS2, abra el fichero del árbol MP
Gram.ITS2.trees (Display - Go to tree window). Reajuste el árbol a su gusto con las
opciones del menú de herramientas (Tools). Evalúe los cambios de los caracteres de
brechas (Trace - Trace character / Choose character).

- Indique qué caracteres de brecha son congruentes con esta topología y cuales son
homoplásicos. ¿Qué tipo de caracteres son más abundantes (autapomorfías -
sinapomorfías)? ¿Qué tipo de homoplasías son más abundantes (paralelismos -
reversiones)? ¿Qué grupos de taxones muestran sinapomorfías y para qué caracteres?

- Estime la bondad de la reconstrucción mediante búsqueda B&B bootstrap de 100


replicados (Search - Bootstrap). Establezca el soporte de cada clado.

- ¿Es el árbol MP basado sobre caracteres ITS congruente con el(los) árbol(es) MP
basado(s) en caracteres NDHF? ¿Hay conflicto entre clados?

Distancias

- Exporte el fichero Gram.ITS a un fichero formato PHYLIP desde MacClade (File -


Export file - PHYLIP 3.5) o utilice un fichero previamente confeccionado en este formato
(GramITS.PHYLIP).

183
- Construya una matriz de distancias genéticas utilizando el método de Kimura dos
parámetros (Sequence - ADNdist ). Guarde el fichero de matriz de distancias como
GramITS.K2P.

- Reconstruya un árbol aditivo (NJ) y un árbol ultramétrico (UPGMA) a partir de esta


matriz de distancias (Distance - Neighbor - NJ / UPGMA). Guarde los ficheros
resultantes como GramITS.NJ, GramITS.Njtree, y como GramITS.UPGMA,
GramITS.UPGMAtree.

- Abra los ficheros de árboles GramITS.NJtree y GramITS.UPGMAtree con el programa


TreeView (Tree - Radial / Phylogram/ etc.).

- Compare las topologías obtenidas mediante matrices de distancias (K2P) y de vías


algorítmicas (NJ, UPGMA), utilizando como grupo externo Melica, con las topologías
obtenidas por Parsimonia. ¿Son congruentes ambas reconstrucciones?

Máxima verosimilitud

- Conduzca una búsqueda por el método de máxima verosimilitud sin imponer la condición
de reloj molecular; para ello abra el fichero GramITS.PHYLIP (Sequence - ADNml)
(busque el mejor árbol y acepte la ratio Tv:Ts = 2:1).

- Guarde los resultados de la búsqueda en los ficheros GramITS.ML y GramITS.MLtree.

- Conduzca una búsqueda por el método de máxima verosimilitud imponiendo la condición


de reloj molecular; para ello abra el fichero GramITS.PHYLIP (Sequence - ADNmlk)
(busque el mejor árbol y acepte la ratio Tv:Ts = 2:1).

- Guarde los resultados de la búsqueda en los ficheros GramITS.MLK y


GramITS.MLKtree.

- Compruebe si las dos reconstrucciones muestran la misma topología. Si es así, aplique la


prueba de la razón de la verosimilitud (chi-cuadrado; H0 = con reloj, H1 = sin reloj) ( 2 x
(ln H1 - ln H0), grados de libertad = (2n - 3) - (n - 1) = n - 2). Establezca si H1 es
significativamente mejor (p>0.05) que H0, y si se puede rechazar por tanto la hipótesis
nula.

- Una vez seleccionado el árbol más verosímil, compare la topología de esta reconstrucción
con las topologías obtenidas mediante reconstrucciones basadas en distancias genéticas
(K2P y NJ) y mediante parsimonia. ¿Son conguentes las topologías?

Gram. NDHF/ITS

Parsimonia

184
- Confeccione un fichero de datos combinados Gram.NDHF/ITS (Paup) unificando las dos
bases de datos (Gram.NDHF y Gram.ITS2) en una misma matriz (copie y pegue las dos
matrices, NDHF + ITS2, en un mismo fichero; ntax=10, nchar=1295. Ejecute el fichero.

- Conduzca una búsqueda parsimónica B&B excluyendo los caracteres debidos a brechas
(Data - Include-Exclude characters) (grupo externo: Melica, ACCTRAN, Multistate
taxa=uncertainity).

- Indique las características del árbol obtenido (L, CI, HI, RI, RC). Guarde el árboles en
fichero Gram.NDHF/ITS2.trees. Compare este árbol MP de bases de datos combinadas
(NDHF e ITS) con los árboles MP obtenidos tras los análisis B&B de cada una de esas
bases de datos por separado. ¿Qué nivel de resolución y semejanzas / diferencias
presenta este árbol con respecto a los otros árboles?

- Calcule la longitud de las ramas del árbol (Trees - Describe trees - Table of linkages).
¿Qué linaje ha acumulado un mayor número de cambios? Analice los cambios de los
caracteres que forman las ramas (14) - (13) y (13) - (12) ¿Son ambiguos o unambiguos?
¿Son consistentes u homoplásicos? ¿Qué base de datos aporta mayor número de cambios
para sustentar estas ramas?

- Estime la bondad de la reconstrucción mediante búsqueda B&B bootstrap de 100


replicados (Search - Bootstrap). Establezca el soporte de cada clado.

Distancias y Máxima verosimilitud

- Proceda como en los casos anteriores a exportar el fichero Gram.NDHF/ITS (sin gaps) a
un formato PHYLIP.

- Calcule la matriz de distancias por el método K2P (Gram.NDHF/ITS.K2P). Reconstruya


la filogenia mediante NJ (Gram.NDHF/ITS.NJtree).

- Reconstruya la filogenia del grupo mediante Máxima Verosimilitud, sin reloj


(Gram.NDHF/ITS.ML y Gram.NDHF/ITS.MLtree) y con reloj (Gram.NDHF/ITS.MLK
y Gram.NDHF/ITS.MLKtree). Caso de obtener las mismas reconstrucciones ML y
MLK aplique la prueba de la razón de la verosimilitud e indique si se rechaza la hipótesis
nula (H0- con reloj).

- Compare las topologías MP, NJ, y ML y observe si son congruentes entre sí o no.

185
EJERCICIO II (PRIMATE mtADN):

Parsimonia

- Abra el fichero PRIMATE.mtADN (Paup). Ejecute el fichero. Conduzca en primer lugar


una búsqueda parsimónica heurística en Paup (Search - Heuristic; General - Minimal trees
only; Starting trees - Stepwise addition, Swap on minimal trees only; Stepwise addition -
closest, Hold 1 tree; Branch swapping - TBR, MULPARS) (grupo externo: Lemur catta,
ACCTRAN).

- Conduzca una segunda búsqueda parsimónica B&B (Keep all trees < ó = L anterior)
(grupo externo: Lemur catta, ACCTRAN).

- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
(Trees - Describe trees - cladogram/phylogram). Dibuje la(s) topología(s) y diferencie los
clados que distinguen a ambos árboles MP.

- Guarde los árboles en ficheros PRIMATE.mtADN.MPTree1 y


PRIMATE.mtADN.MPTree2.

- Calcule las longitudes de las ramas (Trees - Describe trees - Table of linkages).

- Compute el árbol consenso estricto de los árboles MP obtenidos (Trees - Compute


consensus)

- Para evaluar si Homo_sapiens y Gorilla pudieran ser grupos hermanos recientemente


evolucionados imponga una restricción topológica [Windows - Show command line:
constraint bacbone1=((Homo_sapiens,Gorilla),Pan);]. Ejecute el comando. Conduzca una
nueva búsqueda B&B invocando la restricción (Search - Branch and bound; Enforce
topological constraints).

- Indique las características del árbol obtenido (L, CI, HI, RI, RC) y su topología.
¿Cuántos cambios más necesita este árbol (Homo_sapiens,Gorilla) sobre los anteriores?
Guarde el árbol en un fichero PRIMATE.mtADN.Tree3

- Ignore la restricción topológica. En la base de datos inicial se incluye la condición de


séxtuple pesado de las transversiones sobre las transiciones (Tv:Ts = 6:1) (ttbias).
Invoque esta condición desde el menú de Paup (Data - Set character types - All -
Userdefined: ttbias). Conduzca una nueva búsqueda B&B.

- Indique las características del árbol(es) obtenido(s) (No. árboles, L, CI, HI, RI, RC).
¿Resulta alguna de las topologías rivales favorecida por el pesado desigual Tv:Ts = 6:1?
¿Saldría favorecida con un pesado Tv:Ts = 2:1?

- Considere únicamente las posiciones codificadoras (Data - Include-Exclude characters -


Exsets - Protein only). Conduzca nuevas búsquedas B&B considerando a estos datos con

186
el mismo peso e imponiéndoles el pesado Tv:Ts = 6:1 (ttbias). Explique los resultados e
indique qué hipótesis resulta favorecida.

- Estime la bondad de la reconstrucción mediante búsqueda B&B bootstrap de 100


replicados (Search - Bootstrap). Establezca el soporte de cada clado.

- Abra el fichero PRIMATE.mtADN en MacClade y traduzca la secuencia de nucleótidos


a secuencia de aminoácidos (Edit - Select all; Assume - change codons - set to ....
position) (por defecto vienen establecidas las posiciones correspondientes a cada codon).
Salve el fichero como PRIMATE.mtProt y ábralo en Paup. Conduzca una búsqueda
B&B y observe si obtiene algún resultado distinto en la reconstrucción filogenética.

Distancias

- Abra de nuevo el fichero PRIMATE.mtADN en MacClade y expórtelo con formato


PHYLIP (File - Export file - PHYLIP 3.5) guardándolo como fichero
PRIMATE.mtADN.PHYLIP.

- Construya una matriz de distancias genéticas utilizando el método de Kimura dos


parámetros (Sequence - ADNdist ). Guarde el fichero de matriz de distancias como
PRIMATE.mtADN.K2P.

- Reconstruya un árbol aditivo (NJ) y con un árbol ultramétrico (UPGMA) a partir de esta
matriz de distancias (Distance - Neighbor - NJ / UPGMA). Guarde los ficheros
resultantes como PRIMATE.mtADN.NJ, PRIMATE.mtADN.NJtree, y como
PRIMATE.mtADN.UPGMA, PRIMATE.mtADN.UPGMAtree. Visualice los árboles
con TreeView.

- Compare las topologías obtenidas mediante matrices de distancias (K2P) y de vías


algorítmicas (NJ, UPGMA), utilizando como grupo externo Lemur catta, con las
topologías obtenidas por Parsimonia y observe si son congruentes las topologías.

Máxima verosimilitud

- Conduzca una búsqueda por el método de máxima verosimilitud sin imponer e imponiendo
la condición de reloj molecular. (grupo externo Lemur catta - 12).

- Compruebe si las dos reconstrucciones muestran la misma topología. Si es así, aplique la


prueba de la razón de la verosimilitud (chi-cuadrado; H0 = con reloj, H1 = sin reloj) y
establezca si se puede rechazar la hipótesis nula.

- Compare la topología de la reconstrucción ML con las topologías obtenidas mediante


reconstrucciones basadas en distancias genéticas (K2P y NJ) y mediante parsimonia y
decida si son congruentes.

187
- Para calcular cuál de las dos hipótesis MP alternativas es más verosímil
(PRIMATE.mtADN.MPtree1 ó PRIMATE.mtADN.MPtree2), exporte los árboles a
formato PHYLIP desde MacClade (Tree - Export Treefile - PHYLIP 3.5). Abra cada
uno de esos ficheros en PHYLIP (Sequence - ADNml) y ejecute los cálculos de sus
índices de verosimilitud.

188

También podría gustarte