Está en la página 1de 13

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/281591353

Modelos de sustitución de nucleótidos* (y otros modelos).

Research · September 2015


DOI: 10.13140/RG.2.1.2048.8168

CITATIONS READS
0 9,680

1 author:

Ricardo Garcia-Sandoval
Universidad Nacional Autónoma de México
24 PUBLICATIONS   221 CITATIONS   

SEE PROFILE

All content following this page was uploaded by Ricardo Garcia-Sandoval on 08 September 2015.

The user has requested enhancement of the downloaded file.


Modelos de sustitución de nucleótidos* (y otros modelos).
Borrador preliminar, esta NO es una versión final.

Ricardo García-Sandoval
Facultad de Ciencias, UNAM.
r.garciasandoval@gmail.com

Contenido
1. Introducción, ¿qué hace diferente a un análisis paramétrico de uno no-paramétrico?
2. ¿Qué elementos son relevantes para un modelo de sustitución de nucleótidos?
3. ¿Cómo seleccionar el modelo adecuado?
4. Conclusión, ¿los modelos son solamente para nucleótidos? (*los otros modelos)
1. Introducción, ¿qué hace diferente a un análisis paramétrico de uno no-paramétrico?
La filogenia entendida como la representación de las relaciones de parentesco entre las especies
(resultado de la descendencia con modificación) constituye el marco de referencia por excelencia para
reconocer patrones y estudiar los proceso que originan la diversidad biológica (Baum y Smith 2013).
Al inferir la filogenia obtenemos información no solamente acerca de las relaciones entre las
especies, sino también sobre la cantidad de cambios que se han acumulado desde el momento en que los
linajes divergieron. Estos cambios acumulados son representados mediante la longitud de las ramas en
un filograma. De esta forma, un filograma contiene información relativa a las relaciones entre las
especies y los cambios que se han acumulado en los linajes desde el momento en que sucedió el evento de
divergencia o especiación, tienen una topología (relaciones) y longitud de ramas (cambios acumulados).
Esta información sobre la cantidad de cambio acumulado es empleada para poder estudiar otros
fenómenos, como el tiempo en que ocurrieron los eventos de especiación (reloj molecular, Magallón en
este manual), las características que podrían haber estado presentes en los ancestros de linajes actuales
(reconstrucción de estados ancestrales, Pagel et al. 2004, Ronquist 2002), e inclusive el efecto de estos
caracteres en el aumento o disminución de la tasa de diversificación en linajes específicos (estudio de
innovaciones clave, Pyron & Burbrink 2013).
La manera en que estos cambios acumulados son inferidos es una de las diferencias entre los
métodos paramétricos (inferencia bayesiana y máxima verosimilitud) y los métodos no-paramétricos
(parsimonia). Esto implica que en un filograma inferido con métodos paramétricos la longitud de las
ramas es calculada de una manera diferente a como se hace con un método de parsimonia.
Cuando el evento de divergencia en un linaje es relativamente reciente, los cambios calculados
directamente a partir de la matriz de caracteres son un reflejo más o menos realista de la cantidad de
cambios que se han acumulado, por ejemplo esperaríamos que esta fuera la situación si las especies
estuviesen muy cercanamente emparentadas.
Pero cuando el evento de divergencia es más lejano en el tiempo esperaríamos que se acumularan
más cambios a mediada que transcurre más tiempo, hasta que en un punto la cantidad real de cambios
quede en cierta forma enmascarada y no pueda ser calculada directamente de la matriz de caracteres. Esta
situación es particularmente común en el caso de las secuencias de ADN.
Cuando no es posible calcular la cantidad de cambios acumulada empleando únicamente la
información de la matriz (debido a la cantidad de tiempo transcurrido) se debe recurrir algún tipo de
herramienta meteorológica para poder inferirlos, estas herramientas constituyen los llamados métodos
paramétricos y sustentan su inferencia en el empleo de modelos de sustitución. Estos modelos intentan
representar lo que sabemos acerca del proceso evolutivo, empleando distribuciones estadísticas para
representarlo. Emplear estas distribuciones tiene la ventaja adicional de que conocemos en buena medida
su comportamiento y propiedades y podemos describirlas con base en parámetros comunes, como
podrían ser la media o la desviación estándar.
Cabe señalar que si bien las distribuciones empleadas tienen su origen en la descripción de
fenómenos estocásticos, esto no implica que debemos suponer que el proceso evolutivo es estocástico, de
la misma forma que el empleo de métodos de parsimonia no implica considerar que la evolución es
parsimoniosa.
En lo general podemos pensar a la diversidad como el resultado de un proceso en el que las
mutaciones generadas fundamentalmente al azar y las condiciones existentes en el ambiente
interaccionan mediante diversos mecanismos, esto resulta en que la mutación se puede conservar y
heredar o no. Esto es lo que Jacques L. Monod (1973) describió como el azar y la necesidad en el proceso
evolutivo. Debido a que el proceso que generó la diversidad que observamos hoy en día es tan complejo
—y hay muchos detalles que desconocemos— una manera eficiente de hacer inferencias sobre el es
mediante el uso de distribuciones estocásticas, esto es, usamos estas distribuciones no porque pensamos
que la evolución se comporta de esa forma, sino porque resultan ser una manera eficiente de generar
inferencias confiables.
Como se menciono previamente, la situación en que la cantidad de cambios acumulados ya no
puede calcularse directamente de la matriz de caracteres es particularmente recurrente en el caso de las
secuencias de ADN y esto es debido en parte a que solamente contamos con cuatro estados de carácter en
este tipo de caracteres. En el caso de los análisis con aminoácidos los modelos son elaborados de manera
distinta, debido al gran número de estados posibles, pero en este capítulo me referiré únicamente a los
modelos nucleotídicos.
Para explicar la dificultad de calcular los cambios en secuencias divergentes Paul Lewis (1988)
ideó una ingeniosa metáfora empleando un estacionamiento para ejemplificar los cambios que suceden
en un determinado sitio en una secuencia.
Imagine usted un estacionamiento con los cajones bien delimitados y completamente ocupados,
en la metáfora cada cajón corresponde a un sitio o posición en una secuencia. Los automóviles están
pintados de cuatro colores solamente (verde, azul, rojo y amarillo), estos colores corresponden con las
cuatro bases presentes en el ADN. Consideremos que es un momento del día muy concurrido y los
cajones tienden a desocuparse y ocuparse de nuevo de manera más o menos constante cada 20 minutos.
Al centrar nuestra atención en uno de los cajones observamos que en el minuto cero había un automóvil
de color amarillo, pero al cabo de un par de horas el cajón habrá cambiado de automóvil en seis
ocasiones, que corresponderían con seis eventos de substitución en la secuencia, coincidentemente el
cajón tiene de nuevo un automóvil de color amarillo en el cajón, aunque evidentemente no es el mismo
automóvil pero para nosotros se ve igual.
En el caso de contar solamente con información del minuto cero y del minuto 120 nos resultará
imposible saber que han ocurrido seis eventos de substitución, porque no tendremos evidencia directa de
los cambios. Si nuestro método de análisis solamente considera los cambios directamente cuantificables
en la matriz de datos y no busca inferir aquellos que pudiesen haber ocurrido, entonces estaremos
obteniendo un estimado incorrecto de los cambios que se han acumulado.
Al comparar las secuencias de dos especies, la cantidad de cambios observable es referida como
distancia-p y la distancia que representa los cambios totales (observables y no observables) corresponde
con la distancia-d. Cuando las especies están cercanamente emparentadas ambas distancias corresponden
en lo general, pero con el transcurrir del tiempo los cambios no observables se acumulan y la región se
describe como saturada. Para poder inferir la distancia-d se requieren de métodos paramétricos que se
apoyan en modelos de sustitución.
Como se mencionó anteriormente, parte del atractivo de conocer la distancia-d reside en que es
con base en ella que se sustentan diversas inferencias filogenéticas como el reloj molecular o la
reconstrucción de estados ancestrales.

2. ¿Qué elementos son relevantes para un modelo de sustitución de nucleótidos?


Los modelos son una representación abstracta de la realidad, así que un buen modelo debe
representar los elementos fundamentales de un proceso, permitiéndonos hacer inferencias bien
sustentadas. Cada elemento relevante del proceso a modelar se incorpora a manera de un parámetro en el
modelo, mientras más parámetros estén representados en el modelo esperaríamos que éste fuese más
realista, al ser una descripción más detalla del proceso. Pero los modelos con demasiados parámetros
tienden a ser difíciles de usar por la cantidad de esfuerzo de cómputo necesario, además de que el cálculo
de cada parámetro tiene un cierta cantidad de error asociado, por lo que mientras más parámetros
incluimos mayor será el error acumulado.
Por lo tanto la selección adecuada del modelo a emplear es de gran importancia. Un modelo muy
complejo será muy difícil de calcular y acarreará una mayor cantidad de error, pero un modelo muy
simplista no será capaz de inferir algo significativo sobre el proceso que modela. Más adelante en este
capítulo mencionaré las técnicas más frecuentes empleadas para sustentar la selección de un modelo.
En el caso de los modelos de sustitución de nucleótidos el proceso que se intenta representar es
precisamente el cambio de una base por otra, aunque aquí cabe señalar que representamos los cambios
entre bases y no su adición o pérdida, lo que implicaría considerar a las inserciones/deleciones como un
estado adicional. No existe consenso acerca de considerar o no a las inserciones/deleciones como un
quinto estado y (en el caso de considerarlas) tampoco hay consenso sobre como codificarlas, por lo que
para el caso de los modelos de sustitución son muy pocos los que incorporan esta posibilidad.
Para modelar el proceso de sustitución de las bases hay detalles que son de particular interés,
como por ejemplo, si todos los cambios son igualmente probables o no, si la tasa con que suceden los
cambios en una determinada posición de la secuencia es constante o no, si consideramos que algunas
posiciones realmente se han mantenido sin cambios. Aquí se hace evidente que en contraste con los
métodos no paramétricos (parsimonia), al emplear un modelo suponemos que todas las posiciones en un
alineamiento son informativas, independientemente de si son variables o no.
Para poder emplear el modelo como criterio de optimización al seleccionar hipótesis
filogenéticas, los métodos paramétricos hacen uso de las cadenas de Markov, que son herramientas
metodológicas que nos permiten evaluar la verosimilitud de una hipótesis (o su probabilidad posterior
en el caso de las cadenas de Markov Montecarlo) explorando de manera eficiente el universo de hipótesis
posibles. Para poder emplear las cadenas primeramente debemos centralizar la información de los
parámetros que deseamos considerar en una matriz instantánea de sustitución (también llamada matriz
Q) y convertirla mediante un proceso matemático en una matriz instantánea de probabilidad de
transición [también llamada matriz P(t)]. Los detalles de como sucede esto pueden verse en el capítulo
dedicado a análisis de máxima verosimilitud (Parra en este volumen) o en otros excelentes libros de texto
(Felsenstein 2004, Yang 2014), en este capítulo me enfocaré en los procesos que intentamos reflejar y
porque los consideramos relevantes para inferir la filogenia.
En el caso de considerar que todos los cambios son igualmente probables, el tipo de modelo que
estaríamos empleando es el JC69 (Jukes y Cantor 1969), en dónde un solo parámetro representa a todos
los tipos de cambios. Este modelo es muy sencillo y relativamente fácil de aplicar, pero resulta poco
informativo y poco realista.
Por otro lado, si consideramos factible el suponer que las transiciones tiene una frecuencia
diferente a las transversiones podemos asignar un parámetro diferente para cada tipo de cambio, cabe
mencionar que al hacer esto no implica que un tipo de cambio sea más frecuente que el otro,
simplemente permitimos que la frecuencia asuman un valor diferente y dejamos que sean los propios
datos en el alineamiento los que indiquen la preponderancia de cada tipo de cambio. En ese caso el
modelo resultante será el K80 (Kimura 1980) y empleamos dos parámetros para representar los dos
diferentes tipos de cambios.
Si deseamos que nuestro modelo sea más realista podemos considerar que cada tipo de cambio
tiene una frecuencia diferente, asignando en consecuencia un parámetro distinto para cada tipo de
cambio, en ese caso el modelo es un GTR (Tavaré 1986) y tiene seis parámetros. Este es el máximo
número de parámetros asociados a los tipos de cambios que podemos asignar dentro del esquema de
modelos reversibles, esto es, modelos en los que los cambios se consideran igualmente probables en una
dirección y en otra, por ejemplo considerar que un cambio de una adenina por una timina es igualmente
probable que de una timina por una adenina. Este tipo de modelos (los reversibles) son los más
empleados en la actualidad.
Además de considerar parámetros que reflejen los tipos de cambio, otro elemento relevante es la
frecuencia en que se encuentran las bases en el alineamiento. En un alineamiento es muy poco probable
que las cuatro bases se encuentren en la misma proporción, esto es, es difícil encontrar ejemplos reales en
que tenemos 25% de cada base exactamente, lo más común es que en los alineamientos las bases se
encuentren en diferentes proporciones.
Con base en esa observación empírica podemos suponer que la proporción en que se encuentra
una base específica en el alineamiento afectará la frecuencia en que ocurren los cambios que la
involucren. Por ejemplo, imaginemos un alineamiento en que la timina se encuentre en una proporción
del 35% y la guanina en una proporción del 10%, cabría esperar que los cambios que involucren adquirir
una guanina serán menos frecuentes ya que esta base se encuentra en una menor proporción y los
cambios que impliquen adquirir una timina serán mas frecuentes ya que esa base se encuentra en mayor
proporción (Figura 1). De esta manera el modelo tenderá a favorecer hipótesis que sean congruentes con
estas proporciones.
Un modelo que incorpora solamente diferentes tasas entre transiciones y transversiones como el
K80 puede hacerse más realista si pondera esas tasas haciendo referencia a las proporciones de las bases,
ese modelo se denomina HKY85 (Hasegawa et al. 1985). Una excelente revisión de la nomenclatura de los
modelos y que parámetros los integran se puede encontrar en Yang (2014) y Yang y Rannala (2012).
Un elemento adicional a considerar que resulta de gran importancia es la heterogeneidad de las
tasas de cambio entre los sitios. Uno de los supuestos fundamentales de los análisis filogenéticos es la
independencia entre los caracteres empleados, esto es, asumimos que cada carácter representa un pedazo
independiente de evidencia para el análisis y el patrón de variación en cada columna de la matriz de
datos se considera como independiente de los demás. En el caso de los alineamientos de secuencias de
ADN asumimos que la variación dentro de cada columnas, es independiente de la que hay en las otras
columnas, todos los modelos y métodos de inferencia paramétricos incorporan este supuesto. En un
análisis paramétrico la implicación de independencia va más allá de solamente el patrón observado, ya
que también es factible considerar que cada columna tiene una tasa de cambio diferente, esto es, cada
sitio en el alineamiento podría tener una velocidad de cambio diferente, o por lo menos es de esperarse
que la tasa no sea la misma para todas las posiciones del alineamiento.
Para incorporar la heterogeneidad de las tasas de cambio en el modelo deberíamos agregar un
parámetro por cada columna, pero esto lo haría extremadamente complejo. Para evitar la necesidad de
agregar demasiados parámetros se recurre a la incorporación de un solo parámetro, que representa a las
tasas de variación, empleando como modelo de referencia una distribución tipo gamma, esto es,
consideramos que el valor que toma la tasa en cada columna se distribuye con una forma semejante a la
de la distribución gamma, por lo que tomamos un valor de esta distribución para representar la tasa en
una columna, esta solución fue ideada por Yang (1994). Esta estrategia implicaría la necesidad de tener
que derivar un valor específico para cada columna en la distribución, lo cual puede resultar
computacionalmente demandante, para simplificar el procedimiento se divide la distribución en
categorías (usualmente cuatro) y se obtiene un solo valor por cada categoría, a cada columna se le asigna
el valor que tiene el mejor ajuste.
La forma que tiene la distribución gamma se describe con el parámetro alfa, el cual refleja la
heterogeneidad de tasas en el alineamiento, valores de alfa por debajo de 1 indican alta heterogeneidad,
esto es, algunas regiones con muy alta variación y muchas otras con muy pocos cambios, valores por
arriba de la unidad reflejan alineamientos comparativamente homogéneos.
Con base en el parámetro gamma todos los sitios del alineamiento tendrán asignada una tasa de
cambio, ya sea que el valor sea muy pequeño o muy alto el valor siempre será distinto de cero, esto es,
consideramos que siempre han ocurrido cambios en todas las posiciones del alineamiento, lo cual
excluye la posibilidad de alguna posición del alineamiento efectivamente no haya experimentado
cambios durante la diversificación de ese linaje específico en esa posición particular. Para cubrir esta
última posibilidad se puede incluir un parámetro adicional, el porcentaje de sitios invariantes, que
precisamente representa la posibilidad de que algunos de estos sitios no hayan experimentado cambios.
Algunos autores consideran que si la gamma cuenta con suficientes categorías, una de éstas puede
tener un valor cercano a cero y en los hechos funcionar como un buen representante de los sitios
invariantes, evitando la necesidad de adicionar otro parámetro.
Independientemente de la aproximación que se use (más categorías para gamma o un parámetro
para los sitios invariantes) se ha documentado que incorporar la heterogeneidad de las tasas, incrementa
significativamente el buen desempeño de un modelo (Huelsenbeck y Rannala 2004). Por lo que debemos
de tomar en cuenta que independientemente de si decidimos usar un parámetro extra para sitios
invariantes o no, lo importante es incluir gamma en nuestro modelo.
3. ¿Cómo seleccionar el modelo adecuado?
Como se mencionó anteriormente, de manera simplista podríamos pensar que el modelo que
incluye más parámetros resulta el más realista (por ejemplo GTR+gamma+sitios invariantes) y por tanto
debería ser preferido por encima de los demás. Pero esto implicaría que incluyéramos más parámetros
(que posiblemente no resulten necesarios), lo que conlleva a un mayor error asociado y requiere de un
mayor esfuerzo computacional.
Para seleccionar el modelo que mejor se ajusta a nuestros datos existen varias aproximaciones,
pero en lo general derivan de una procedimiento básico. Partiendo de un árbol inicial obtenido por
algún método se evalúa cada modelo y se comparan los resultados empleando algún criterio, por ejemplo
con base en un árbol obtenido por distancias se calcula la verosimilitud de un conjunto de modelos y los
valores obtenidos se comparan empleando una prueba de razón de verosimilitud jerarquizada, la cual
compara pares de modelos que difieren en el nivel de complejidad (v.g. número de parámetros)
evaluando si el aumento en la complejidad resulta en un incremento estadísticamente significativo del
desempeño del modelo (medido en función de la verosimilitud). Si el aumento es significativo se acepta
el modelo y se compara contra el siguiente nivel de complejidad.
Esta prueba a pesar de lo atractiva que resulta ser por su simplicidad, tiene algunas desventajas
como lo es el sesgo que tiene para aceptar modelos más complejos, en parte derivado de su estructura
jerárquica. Existen otras alternativas que explícitamente penalizan el aumento en la complejidad como el
criterio de información de Akaike, criterios basados en el desempeño al estimar algún parámetro de
interés como la longitud de las ramas o el promediado de un conjunto de modelos que obtengan el
mejor puntaje en la prueba. Una excelente descripción de los métodos de uso más frecuente fue escrita
por Posada (2009).
Las técnicas mencionadas previamente son más afines al ámbito de la estadística frecuentista, en
tanto intentan obtener un solo modelo con valores para los parámetros específicos y con base en éste
realizan la inferencia filogenética, pero en el caso de que la(el) investigadora(or) tenga interés en
aprovechar las ventajas de la inferencia bayesiana una opción muy eficiente la constituye la selección de
modelo con base en la técnica de salto reversible (Huelsenbeck et al. 2004). Esta técnica explora de entre
más de 200 modelos reversibles, buscando aquellos que confieren la probabilidad posterior más alta para
la hipótesis. Al final del análisis los modelos son visitados por una cadena de Markov en función de su
probabilidad posterior y la(el) investigadora(or) puede revisar que tipo de modelo es el que tuvo mejor
desempeño para emplearlo en subsecuentes análisis, como por ejemplo para un análisis de reloj
molecular (Magallón en este mismo volumen).
4. Conclusión, ¿los modelos son solamente para nucleótidos? (*los otros modelos)
Los modelos paramétricos en general son descripciones simplificadas de fenómenos reales. En un
modelo pretendemos representar los elementos fundamentales y determinantes del fenómeno y ajustar
esta descripción a distribuciones estadísticas cuyo comportamiento ya conocemos. Esto genera la ventaja
inmediata de poder sustentar inferencias del fenómeno, permitiéndonos evaluar hipótesis con referencia
a un marco estadístico cuyo comportamiento conocemos y podemos explicar fácilmente.
De la misma forma podemos emplear este mismo marco de referencia para estudiar cualquier
otro tipo de fenómeno, en tanto seamos capaces de reconocer los elementos fundamentales en el proceso
y podamos ajustarlos a las características propias (v.g. limitaciones) de una descripción paramétrica.
Este es el caso del modelo desarrollados para datos categóricos (como por ejemplo morfología o
comportamiento) por Lewis (2001), los modelos para estudiar la correlación de caracteres (Pagel y Meade
2006) o los desarrollados para inferir la historia de la distribución geográfica de un linaje (Ree et al.
2005), todos ellos son desarrollados con base en el mismo principio de representar diferentes
componentes de procesos biológicos mediante parámetros de distribuciones bien conocidas.
El hecho que las secuencias tiendan a saturarse al divergir es por si mismo un argumento
poderoso para buscar un método que incorpore este fenómeno entre sus supuestos y si además nos
permite sustentar inferencias adicionales con base en sus resultados (v.g. reloj molecular y las
aplicaciones mencionadas previamente), se convierte en una herramienta inferencial muy poderosa.
Las(os) investigadoras(es) contemporáneas(os) deben estar al tanto de la disponibilidad y ventajas
de estos métodos, pero su uso debe ser un uso informado, con el fin de sacar el máximo provecho de
estas herramientas.

Agradecimientos.
Agradezco al comité editorial de Manual por haberme invitado a escribir este texto, así como por su
amable paciencia y disposición. Mariana del Olmo Ruiz y América Castañeda Sortibrán proporcionaron
valiosa ayuda en diferentes versiones de este manuscrito.
Referencias

Baum D.A., Smith S.D. 2013. Tree thinking. An introduction to phylogenetic biology. Greenwood
Village: Roberts and Company Publishers.

Felsenstein J. 2004. Inferring phylogenies. Sunderland: Sinauer .

Hasegawa M., Kishino H., Yano T.A. 1985. Dating of the human ape splitting by a molecular clock of
mitochondrial-DNA. J. Mol. Evol. 22:160–174.

Huelsenbeck J.P., Larget B., Alfaro M.E. 2004. Bayesian phylogenetic model selection using reversible
jump Markov chain Monte Carlo. Mol. Biol. Evol. 21:1123–1133.

Huelsenbeck J.P., Rannala B. 2004. Frequentist properties of Bayesian posterior probabilities of


phylogenetic trees under simple and complex substitution models. Syst. Biol. 53:904–913.

Jukes T. H., Cantor C. R. 1969. Evolution of protein molecules. In Mammalian Protein Metabolism, ed.
H. H. Munro, Vol. III, pp. 21–132. New York: Academic Press.

Kimura M. 1980. A simple method for estimating evolutionary rate of base substitutions through
comparative studies of nucleotide sequences. J. Mol. Evol. 16:111–120.

Lewis P.O. 1998. Maximum likelihood as an alternative to parsimony for inferring phylogeny using
nucleotide sequence data. In: Soltis D.E., Soltis P.S., Doyle J.J., editors. Molecular Systematics of
Plants. II. DNA Sequencing. Boston: Kluwer Academic Publishers. p. 132–163.

Lewis P.O. 2001. A likelihood approach to estimating phylogeny from discrete morphological character
data. Syst. Biol. 50:913–25.

Monod, J. 1973. Le hasard et la nécessité: essai sur la philosophie naturelle de la biologie moderne.
Éditions du Seuil, Paris.
Pagel M., Meade A., Barker D. 2004. Bayesian estimation of ancestral character states on phylogenies.
Syst. Biol. 53:673–684.

Pagel M., Meade A. 2006. Bayesian analysis of correlated evolution of discrete characters by reversible-
jump Markov chain Monte Carlo. Am. Nat. 167:808–825.

Posada D. 2009. Selecting models of evolution. In: Lemey P., Salemi M., Vandamme A.-M., editors. The
phylogenetic handbook. Cambridge: Cambridge University Press. p. 345–361.
Pyron R.A., Burbrink F.T. 2013. Phylogenetic estimates of speciation and extinction rates for testing
ecological and evolutionary hypotheses. Trends Ecol. Evol. 28:729–736.

Ree R.H., Moore B.R., Webb C.O., Donoghue M.J. 2005. A likelihood framework for inferring the
evolution of geographic range on phylogenetic trees. Evolution. 59:2299–2311.

Ronquist F. 2004. Bayesian inference of character evolution. Trends Ecol. Evol. 19:475–481.

Tavaré S. 1986. Some probabilistic and statistical problems in the analysis of DNA sequences. Lect.
Mathemat. Life Scis. 17:57–86.

Yang Z. 1994. Maximum likelihood phylogenetic estimation from DNA sequences with variable rates
over sites: approximate methods. J. Mol. Evol. 39:306–314.

Yang Z. 2014. Molecular evolution. A statistical approach. Croydon: Oxford University Press.

Yang Z., Rannala B. 2012. Molecular phylogenetics: principles and practice. Nat. Rev. Genet. 13:303–314.
Figura 1. Representación esquemática de tres diferentes modelos de sustitución. Cada flecha en el modelo
representa un tipo de sustitución, el grosor de la flecha representa la frecuencia con que sucede el cambio
y el tamaño de cada letra representa la frecuencia en que se encuentra cada una de las bases (Redibujado
de Yang 2014).

View publication stats

También podría gustarte