Está en la página 1de 11

1

Introduccin a la Filogenia Molecular. Resumen de la


presentacin.
Federico Abascal (fabascal@cnb.uam.es)



Introduccin...................................................................................................................1
Mtodos basados en distancias......................................................................................3
UPGMA: Unweighted Pair-Group Method with Arithmetic means.........................3
Neighbor joining........................................................................................................4
Mtodos basados en caracteres......................................................................................5
Mxima parsimonia...................................................................................................5
Mxima verosimilitud...............................................................................................6
Mtodos bayesianos...................................................................................................7
Contraste de hiptesis....................................................................................................7
Bootstrapping no paramtrico...................................................................................8
Contrastes probabilsticos..........................................................................................8
Modelos de evolucin....................................................................................................9
En la prctica...............................................................................................................10
Algunos programas y referencias................................................................................10
Programas recomendados:.......................................................................................10
Lecturas recomendadas: .........................................................................................11


Introduccin
Los sistemas biolgicos evolucionan, es decir, van cambiando a lo largo del
tiempo. Estos cambios (mutaciones, deleciones, inserciones...) se producen en el ADN
de un modo ms a menos aleatorio y se manifiestan a distintos niveles: protenas,
clulas, organismos... La interaccin con el medio determina cules de estos cambios
son aceptados y cules no. Si un cambio tiene un efecto negativo, existir una presion
selectiva para no aceptarlo (seleccin negativa). Si es cambio comporta alguna ventaja,
la presin ser positiva (seleccin positiva). Y si el cambio no tiene un efecto
importante, hablamos de evolucin neutral. Las secuencias de los genes existentes hoy
en da son un espejo del pasado. Analizando estas secuencias podemos hacer
arqueologa biolgica y tratar de reconstruir la historia del gen, determinando qu
cambios se han producido, cundo se han producido y por qu. La informacin
resultante puede ayudarnos, por ejemplo, a comprender la funcin de una protena
(Biologa Molecular), a determinar por qu una poblacin es resistente a una
2
determinada enfermedad (Epidemiologa), o a resolver un caso legal (Medicina
Forense). Este tipo de estudios tambin sirve para establecer el rbol de la vida, esto es,
para conocer las relaciones de parentesco que hay entre los seres vivos.
Cuando hablamos de una filogenia nos referimos a una hiptesis acerca de la
historia. Es una hiptesis porque nunca estaremos seguros de qu ha ocurrido
exactamente. El objetivo de los mtodos de reconstruccin filogentica es utilizar del
mejor modo posible la informacin actual para hacer inferencias acerca del pasado, es
decir, para obtener hiptesis que sean lo ms fiables posible. Las hiptesis resultantes
normalmente se expresan en forma de un rbol, en el que la topologa nos habla de las
relaciones de parentesco entre las distintas entidades (p.e. genes o especies) y la
longitud de las ramas del rbol de la distancia que hay entre ellas. Hay que sealar que
en algunas situaciones (cuando hay recombinacin o transferencia horizontal de genes)
la historia evolutiva no se puede representar como un rbol.
Un rbol filogentico es una especie de diagrama en el que los nodos externos se
corresponden con las entidades que estamos estudiando (p.e. con las secuencias) y los
nodos internos se refieren a los ancestros de stas (no existentes actualmente,
inferidos). De forma similar, se habla de ramas externas e internas. Un rbol
filogentico puede tener raz o no tenerla. Si hay una raz tambin habr un nodo raz
que corresponder con el ancestro comn de todos los nodos externos.
Un rbol filogentico se puede inferir a partir de diversos tipos de datos: genes,
caracteres morfolgicos (presencia de alas, nmero de dientes, etc), ADN satlite...
Cuando hablamos de Filogenia Molecular los datos normalmente son secuencias de
genes o protenas en forma de un alineamiento mltiple (tambin podran ser datos de
presencia/ausencia de genes, sitios de restriccin, etc pero eso no lo veremos). Cmo
podemos inferir la historia de un conjunto de genes/protenas a partir de su alineamiento
mltiple? cmo determinar si nuestra inferencia es una buena hiptesis o por el
contrario existen hiptesis alternativas igualmente probables? Estas preguntas son las
que trataremos de responder.
Existen dos tipos de mtodos de reconstruccin filogentica: los basados en
distancias y los basados en caracteres. Los primeros resumen la informacin de un
alineamiento mltiple en una matriz de distancias entre secuencias. En otras palabras,
3
utilizan el alineamiento para calcular la distancia (de acuerdo a un modelo de evolucin
dado, ver ms adelante) entre las secuencias. Posteriormente tratan de reconstruir el
rbol evolutivo a partir de dichas distancias. Por su parte, los mtodos basados en
caracteres hacen uso de la informacin de cada columna (sitio, posicin) del
alineamiento mltiple (excepto en el caso de mxima parsimonia, ver ms abajo) para
inferir la mejor hiptesis. A modo de smil, si quisiramos establecer las relaciones de
parentesco entre los miembros de una familia, los mtodos basados en distancias daran
un valor de parecido entre cada par de personas y a partir de esa informacin resolveran
las relaciones de parentesco. En cambio, los mtodos basados en caracteres analizaran
por una parte los ojos, por otra las orejas, por otra cmo cruzan los brazos, por otra el
color del pelo y buscaran el rbol que mejor encaja con todos esos datos.

Mtodos basados en distancias
UPGMA: Unweighted Pair-Group Method with Arithmetic means
El mtodo de UPGMA es el ms sencillo de todos. Es un algoritmo de clustering
o agrupamiento de abajo a arriba o bottom-up. El algoritmo recibe una matriz de
distancias y a partir de ella genera un rbol filogentico. Inicialmente cada entidad de la
matriz tiene su propio grupo (=cluster). De forma recursiva, en cada paso se unen los
dos grupos ms cercanos y se recalculan las distancias, definindose la distancia entre
dos grupos como la media (sin ponderar) de las distancias que hay entre los miembros
de cada grupo, de ah el nombre de UPGMA.
Este mtodo asume implcitamente la existencia de un reloj molecular evolutivo.
La hiptesis del reloj molecular dice que para una determinada macromolcula (protena
o gen) el ritmo de cambio ha sido similar a la largo de la historia y en los distintos
organismos, de forma que existe una relacin directa entre tiempo y cantidad de
cambios. Consecuentemente, el rbol resultante del UPGMA (o el de cualquier mtodo
que asuma un reloj evolutivo) tiene una forma tal en que todas las ramas terminan a la
misma altura.Si la hiptesis del reloj molecular se cumple, podemos por tanto datar
cronolgicamente sucesos evolutivos a partir de la informacin de la cantidad de
cambios existentes.
4
El principal problema del algoritmo de UPGMA es que en la mayora de los casos
no se puede aplicar dicho reloj, ya sea porque el ritmo de cambio ha sido distinto en
cada especie o porque distintas partes de la secuencia han cambiado con distinta
velocidad. Si falla la asuncin del reloj molecular, el rbol inferido por UPGMA suele
ser errneo. Posteriormente veremos un contraste de hiptesis para saber si podemos
aplicar o no un reloj molecular. Finalmente, sealar que el mtodo UPGMA produce
rboles enrazados.
Neighbor joining
El mtodo de neighbor joining (NJ ) es tambin un algoritmo de agrupamiento de
abajo a arriba, pero en este caso no se asume la existencia de un reloj molecular. Se
basa en el principio de evolucin mnima: una vez definida la matriz de distancias entre
las secuencias, el principio dice que el mejor rbol es aqul que minimiza la longitud
del rbol (=suma de las longitudes de todas las ramas). El mtodo de NJ aplica una
heurstica para tratar de encontrar dicho rbol. Es un mtodo greedy, es decir, supone
que si se minimiza en cada paso la longitud del rbol, se minimizar la longitud global,
lo cual no siempre es cierto, pero s frecuentemente.
El primer paso del algoritmo es modificar la matriz de distancias de forma que la
distancia entre cada par de genes dependa tanto de la propia distancia como de la
distancia de ambos con respecto al resto de genes. El mtodo se basa en el concepto de
vecinos (neighbors) que son pares de nodos que estn ms cercanos entre s que
respecto al resto. Para ser considerado vecino no slo han de ser cercanos entre s sino
distantes del resto.
Un aspecto importante del mtodo es que genera rboles sin raz. Una forma de
conocer en qu parte del rbol situar el ancestro comn (el nodo raz) es incluir un
outgroup o grupo externo, que en nuestro caso podra ser un gen homlogo pero de otra
familia, o una especie cercana pero de un grupo distinto al de las que estamos
analizando. Un outgroup es un punto de referencia externo que nos permite ubicarnos.
A modo de simil: si tuviramos un captulo de un libro circular y queremos
descircularizarlo y saber cul es la primera pgina, el outgroup sera como la tapa del
libro o una pgina del captulo anterior. Al incluirlo el outgroup en el libro,
inmediatamente sabramos donde empieza la historia que estamos estudiando.
5
Entre las virtudes del mtodo de NJ estn que es extremadamente rpido y que
suele dar buenos resultados como aproximacin preliminar.

Mtodos basados en caracteres
Mxima parsimonia
El mtodo de mxima parsimonia (MP) es un mtodo basado en caracteres y por
tanto trata de utilizar cada una de las posiciones del alineamiento mltiple (AM) como
una pista en la bsqueda del rbol ms probable. Se basa en el principio de la navaja de
Occam: la hiptesis ms sencilla es la ms probable. En trminos de secuencias, el rbol
ms probable (ms parsimonioso) es aqul en el que el nmero de cambios es menor
(similar al principio de evolucin mnima).
El mtodo de MP se fija en lo que se llama sitios informativos, que son aquellas
posiciones que dan pistas sobre cmo se relacionan las entidades. Un sitio
completamente conservado, por ejemplo, no sera informativo. Otro completamente
variable, tampoco. Ms formalmente, un sitio informativo es aqul en el que al menos
hay dos estados diferentes y en el que cada uno de los estados est representado en al
menos dos de las entidades.
El procedimiento es el siguiente. Tenemos que mapear cada uno de los sitios
informativos en cada uno de los posibles rboles y contar el nmero de cambios
necesarios para realizar dicho mapeo en cada rbol. Si vamos contando el nmero de
cambios acumulados en cada rbol, al final aqul que menos cambios necesite para
explicar las secuencias actuales ser considerado como el ms parsimonioso.
Este mtodo tiene la ventaja de ser de fcil interpretacin. Pero en situaciones con
mucha homoplasia (cambios sobre cambios o cambios encubiertos) puede dar
resultados errneos. Adems, su fundamento no es estadstico sino filosfico.
Bsqueda de rboles. Hemos dicho que hay que contar los cambios en todos los
rboles posibles, pero el nmero de rboles posibles puede ser demasiado alto!! Para
10 entidades, exiten ms de 34 millones de rboles enrazados posibles. Para 50
6
entidades, ms rboles que tomos en el universo. Por tanto, no es posible examinar
todos los rboles. Lo que se hace en la prctica es aplicar heursticas para buscarlos. No
entraremos a describirlas, tan slo indicar que hay dos tipos de estrategias: las greedy
y las branch-swapping.
Mxima verosimilitud
El mtodo de mxima verosimilitud (ML, maximum likelihood) pertenece a la
categora de mtodos estadsticos. A diferencia del mtodo de MP, el de ML requiere un
modelo de evolucin (ver ms adelante) para el clculo de probabilidades. Un modelo
de evolucin proporciona informacin del tipo: cun probable es cada uno de los
reemplazamientos de amino cidos posibles. La idea del mtodo de ML no es calcular la
probabilidad de la hiptesis (rbol) en funcin de los datos, sino encontrar la
probabilidad de que a partir de un rbol y un modelo de evolucin dados, se hayan
generado los datos (=el alineamiento mltiple): P(D|H). En general, no slo en
inferencia filogentica, el mtodo de ML se utiliza para hacer inferencias acerca de los
parmetros que han dado lugar a una distribucin de probabilidad (o un conjunto de
datos). Por ejemplo, si tras tirar 100 veces una moneda obtenemos 55 caras, y queremos
estimar el parmetro probabilidad de que salga cara (p), entonces la estima ms
verosmil (la mejor hiptesis) es la que maximiza la probabilidad del suceso (que salgan
55 caras en 100 tiradas): ^p=55/100 (Nota: la estima ms verosmil es que la moneda
est sesgada, pero para validar si p=55/100 es una hiptesis significativamente mejor
que p=0.5 deberamos aplicar algn contraste de hiptesis, pero esto ya no es el objetivo
directo del mtodo de ML). En el caso de secuencias se puede calcular de forma similar
la probabilidad de una secuencia determinada si tomamos cada una de las letras como
un suceso. Por ejemplo, para la secuencia AAAAAAAATG la verosimilitud de los
datos depende del modelo que apliquemos. Si suponemos que todos los nucletidos
ocurren con igual frecuencia, entonces la verosimilitud ser menor que si el modelo
espera que haya ms nucletidos tipo A. El principio de ML puede por tanto aplicarse
a seleccin de modelos. Las aplicaciones de la metodologa ML son mltiples. tambin
podramos tratar de estimar el modelo ms verosmil a partir de los datos. Similarmente,
si tenemos dos secuencias, existen mtodos para (de acuerdo a un modelo) estimar por
ML la distancia evolutiva (=longitud de la rama) que las separa. En inferencia
filogentica la hiptesis la constituyen el rbol (topologa +longitud de las ramas) y el
7
modelo (frecuencia nucletidos / amino cidos, frecuencias sustituciones, distintos
ritmos de evolucin para cada sitio, etc), y los datos son el alineamiento mltiple. El
problema de la seleccin de modelos lo veremos ms adelante.
La inferencia filogentica por ML tiene muchas ventajas: es estadsticamente
fiable y considera la informacin de todas las posiciones del alineamiento (no slo la de
los sitios informativos del mtodo de MP). Adems, no slo dice cul es el rbol ms
verosmil, sino que, si hacemos la inferencia con distintos modelos, tambin podemos
saber cul es el modelo de evolucin que mejor encaja en los datos (ofrecindonos
informacin del proceso evolutivo que ha conducido a la situacin actual). El marco
estadstico de ML tambin comporta la ventaja de que existen mltiples contrastes
estadsticos (ejemplo: likelihood ratio tests) para validar las posibles hiptesis. La
desventaja mayor es que si el modelo de evolucin es incorrecto, posiblemente el rbol
tambin ser incorrecto.
Mtodos bayesianos
Si el mtodo de ML encontraba el rbol que con mayor probabilidad haba
generado los datos, el mtodo bayesiano (MB) determina para cada rbol, la
probabilidad de que sea la hiptesis correcta (en funcin de los datos). A la probabilidad
de cada rbol dados unos datos, P(H|D), se denomina probabilidad posterior porque se
calcula la probabilidad de una hiptesis a partir de los resultados que producira dicha
hiptesis.
Por alguna razn matemtica, no existe una solucin analtica al sistema de Bayes
en el problema de inferencia filogentica. No obstante, existe una aproximacin para
estimar la distribucin de probabilidad posterior (i.e. la probabilidad de cada rbol): el
Markov Chain Monte Carlo (MCMC). La idea es la siguiente: se inicializan al azar los
parmetros que queremos inferir (topologa, long ramas, parmetros modelo evolutivo).
Seguidamente se hace un pequeo movimiento aleatorio (modificacin de los
parmetros) y se evala la funcin de probabilidad. Si los valores mejoran, entonces se
acepta el movimiento y se repite el proceso. Si no mejoran, el nuevo estado se acepta
con una probabilidad proporcional al empeoramiento producido. La idea es que si
repetimos este proceso muchas veces (p.e. 1.000.000) obtendremos una estimacin de la
probabilidad asociada a cada estado (a cada rbol).
8

Contraste de hiptesis
La gran ventaja de los MB (mtodos bayesiano) es que nos dicen la probabilidad
de cada rbol (aunque estas probabilidades hay que interpretarlas con mucha cautela) y
de ese modo podemos ver si aparte del rbol ms probable existen otros rboles con
probabilidad similar, es decir, otras hiptesis alternativas que sean plausibles. En
cambio, en el caso de ML (maximum likelihood / mxima verosimilitud), slo sabemos
cul es el rbol ms probable pero ni conocemos su probabilidad ni la de otros
rboles. Por eso para tcnicas como la de ML, NJ (neighbor joining) o MP (mxima
parsimonia) es muy importante realizar un contraste de hiptesis para saber cun
soportada por los datos est nuestra hiptesis.
Bootstrapping no paramtrico
Se puede aplicar a cualquier mtodo (ML, MP, NJ ). La idea es muestrear (con
reemplazamiento) el alineamiento repetidas veces (por ejemplo 100 1000 veces) y
para cada una de esas muestras buscar la mejor hiptesis. Para interpretar los resultados,
se calcula un rbol consenso y en l se indica para cada rama en cuntas ocasiones se ha
obtenido dicha topologa. De forma que si en el 100% de los experimentos las
secuencias A y B se han separado de C y D, estaremos muy seguros de que esas son las
relaciones de parentesco correctas. Normalmente nos fiamos de valores de bootstrap
mayores del 90%.
Contrastes probabilsticos
Este tipo de contrastes slo son aplicables al mtodo de mxima verosimilitud
(ML). Si tenemos dos hiptesis alternativas acerca de la topologa correcta de un rbol,
podemos calcular la verosimilitud de cada una y realizar un likelihood ratio test que nos
indique si las diferencias son significativas o no, es decir, si uno es mejor que otro. A
este tipo de test para contrastar topologas se le llama KHT, por Kishino & Hasegawa.
En lugar de topologas alternativas, podramos comparar modelos alternativos. O
tambin podemos contrastar la hiptesis del reloj molecular. Para hacerlo calcularamos
la verosimilitud del rbol imponiendo la constriccin de que fuera ultramtrico (con
9
reloj) y la verosimilitud del rbol sin aplicar el reloj. Ambas verosimilitudes pueden
compararse con el citado test KHT.
Por ltimo, mencionar que existen otros mtodos de contraste de hiptesis: RELL
test, SHT test (Shimodaira & Hasegawa), SOWH test, ELW test

Modelos de evolucin
Los modelos de evolucin son muy importantes en inferencia filogentica, ya que
son necesarios tanto para calcular la matriz de distancias que utilizan los mtodos de NJ
y UPGMA, como para calcular las probabilidades en los mtodos de ML y MB. Y el
xito de estos mtodos depende del uso de modelos apropiados.
Los modelos de evolucin tratan de describir el proceso evolutivo. Dicho proceso
es de una complejidad enorme, y no se conoce del todo. Por eso se suelen realizar
simplificaciones. Por ejemplo, una asuncin frecuente es que la evolucin de las
distintas posiciones es independiente. Existe una gradacin entre modelos sencillos a
modelos complejos. Por ejemplo, en el caso de secuencias de nucletidos el modelo
J ukes-Cantor supone que todos los nucletidos ocurren con igual frecuencia y que las
distintas sustituciones tambin son equiprobables. Alternativamente, existen modelos en
los que todos estos valores estn parametrizados y se estiman por ML a partir de los
datos. En el caso de las protenas normalmente se utilizan matrices empricas (Dayhoff,
WAG, J TT, Blosum, MtREV, etc) que indican la frecuencia de los distintos
reemplazamientos entre amino cidos. Un aspecto importante de la evolucin de genes
y protenas es que no todos los sitios tienen un mismo ritmo de cambio. El caso extremo
es el de sitios que no cambian en absoluto (cuando han mutado han sido seleccionados
negativamente), pero tambin existe una gradacin por lo que se observan sitios con
ritmo intermedio y sitios muy variables. Para incluir esta informacin en los modelos,
existen aproximaciones como la de aplicar una distribucin gamma o una de sitios
invariables, lo que normalmente se indica aadiendo +G o +I al nombre del
modelo.
La decisin de qu modelo usar no es trivial: los modelos complejos posiblemente
se ajusten mejor a los datos, pero a mayor nmero de parmetros por estimar, mayor
1
varianza en las estimas. Por tanto, se trata de encontrar un balance entre sencillez y buen
ajuste. Para saber qu modelo utilizar existen programas que aplican contrastes
estadsticos para determinar el mejor candidato.

En la prctica
Cuando queremos obtener un rbol de forma rpida, o cuando el nmero de
secuencias es demasiado alto, se suele utilizar el mtodo de NJ . En anlisis ms
profundos, el mtodo preferido hoy en da es el MB, seguido de los mtodos de ML.
Es importante hacer seleccin de modelos antes de reconstruir un rbol por ML
para determinar cul es el que mejor se ajusta a nuestros datos. Despus, conviene hacer
bootstrapping para averiguar cun fiable es el rbol obtenido. Lo ms elegante e
informativo a la hora de analizar o publicar un rbol filogentico, es hacer la inferencia
filogentica con diversos mtodos (NJ , ML, MP) y representar el rbol MP indicando:
las coincidencias con NJ y ML, y en cada rama: la probabilidad posterior segn MP y
los valores de bootstrap segn NJ y ML. Y en lugar de NJ podemos aplicar MP.
Un aspecto importante que no hemos discutido es qu datos utilizar. Normalmente
disponemos de las secuencias de nucletidos de genes codificantes y debemos decidir si
usar dichas secuencias tal cual, aplicar modelos de evolucin de codones, o trabajar con
las secuencias de amino cidos de las protenas correspondientes.

Algunos programas y referencias
Programas recomendados:
ML: Phyml, Hyphy, Paml, Tree-Puzzle
MB: MrBayes
Seleccin de modelos: ModelTest, ModelGenerator, ProtTest.
NJ, MP: Mega
NJ, MP, (ML): Paup, Phylip
Interconversin formatos: ReadSeq
1
Alineamientos mltiples: clustalw, muscle.
Visor alineamientos: jalview
Otros: Mesquite.
Enlaces: http://evolution.genetics.washington.edu/phylip/software.html
http://bioinformatics.ubc.ca/resources/links_directory/

Lecturas recomendadas:
Swofford, D. L., Olsen, G. J ., Waddell, P. J . & Hillis, D. M. in Molecular
Systematics (eds Hillis, D. M., Moritz, C. & Mable, B. K.) 407514
(Sinauer Associates, Sunderland, Massachusetts, 1996).
Material educativo de Hernn Dopazo:
http://bioinfo.cipf.es/hdopazo/mepcourse/mepcourse.html
Understanding evolution:
http://evolution.berkeley.edu/evolibrary/home.php