Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/281591353
CITATIONS READS
0 9,680
1 author:
Ricardo Garcia-Sandoval
Universidad Nacional Autónoma de México
24 PUBLICATIONS 221 CITATIONS
SEE PROFILE
All content following this page was uploaded by Ricardo Garcia-Sandoval on 08 September 2015.
Ricardo García-Sandoval
Facultad de Ciencias, UNAM.
r.garciasandoval@gmail.com
Contenido
1. Introducción, ¿qué hace diferente a un análisis paramétrico de uno no-paramétrico?
2. ¿Qué elementos son relevantes para un modelo de sustitución de nucleótidos?
3. ¿Cómo seleccionar el modelo adecuado?
4. Conclusión, ¿los modelos son solamente para nucleótidos? (*los otros modelos)
1. Introducción, ¿qué hace diferente a un análisis paramétrico de uno no-paramétrico?
La filogenia entendida como la representación de las relaciones de parentesco entre las especies
(resultado de la descendencia con modificación) constituye el marco de referencia por excelencia para
reconocer patrones y estudiar los proceso que originan la diversidad biológica (Baum y Smith 2013).
Al inferir la filogenia obtenemos información no solamente acerca de las relaciones entre las
especies, sino también sobre la cantidad de cambios que se han acumulado desde el momento en que los
linajes divergieron. Estos cambios acumulados son representados mediante la longitud de las ramas en
un filograma. De esta forma, un filograma contiene información relativa a las relaciones entre las
especies y los cambios que se han acumulado en los linajes desde el momento en que sucedió el evento de
divergencia o especiación, tienen una topología (relaciones) y longitud de ramas (cambios acumulados).
Esta información sobre la cantidad de cambio acumulado es empleada para poder estudiar otros
fenómenos, como el tiempo en que ocurrieron los eventos de especiación (reloj molecular, Magallón en
este manual), las características que podrían haber estado presentes en los ancestros de linajes actuales
(reconstrucción de estados ancestrales, Pagel et al. 2004, Ronquist 2002), e inclusive el efecto de estos
caracteres en el aumento o disminución de la tasa de diversificación en linajes específicos (estudio de
innovaciones clave, Pyron & Burbrink 2013).
La manera en que estos cambios acumulados son inferidos es una de las diferencias entre los
métodos paramétricos (inferencia bayesiana y máxima verosimilitud) y los métodos no-paramétricos
(parsimonia). Esto implica que en un filograma inferido con métodos paramétricos la longitud de las
ramas es calculada de una manera diferente a como se hace con un método de parsimonia.
Cuando el evento de divergencia en un linaje es relativamente reciente, los cambios calculados
directamente a partir de la matriz de caracteres son un reflejo más o menos realista de la cantidad de
cambios que se han acumulado, por ejemplo esperaríamos que esta fuera la situación si las especies
estuviesen muy cercanamente emparentadas.
Pero cuando el evento de divergencia es más lejano en el tiempo esperaríamos que se acumularan
más cambios a mediada que transcurre más tiempo, hasta que en un punto la cantidad real de cambios
quede en cierta forma enmascarada y no pueda ser calculada directamente de la matriz de caracteres. Esta
situación es particularmente común en el caso de las secuencias de ADN.
Cuando no es posible calcular la cantidad de cambios acumulada empleando únicamente la
información de la matriz (debido a la cantidad de tiempo transcurrido) se debe recurrir algún tipo de
herramienta meteorológica para poder inferirlos, estas herramientas constituyen los llamados métodos
paramétricos y sustentan su inferencia en el empleo de modelos de sustitución. Estos modelos intentan
representar lo que sabemos acerca del proceso evolutivo, empleando distribuciones estadísticas para
representarlo. Emplear estas distribuciones tiene la ventaja adicional de que conocemos en buena medida
su comportamiento y propiedades y podemos describirlas con base en parámetros comunes, como
podrían ser la media o la desviación estándar.
Cabe señalar que si bien las distribuciones empleadas tienen su origen en la descripción de
fenómenos estocásticos, esto no implica que debemos suponer que el proceso evolutivo es estocástico, de
la misma forma que el empleo de métodos de parsimonia no implica considerar que la evolución es
parsimoniosa.
En lo general podemos pensar a la diversidad como el resultado de un proceso en el que las
mutaciones generadas fundamentalmente al azar y las condiciones existentes en el ambiente
interaccionan mediante diversos mecanismos, esto resulta en que la mutación se puede conservar y
heredar o no. Esto es lo que Jacques L. Monod (1973) describió como el azar y la necesidad en el proceso
evolutivo. Debido a que el proceso que generó la diversidad que observamos hoy en día es tan complejo
—y hay muchos detalles que desconocemos— una manera eficiente de hacer inferencias sobre el es
mediante el uso de distribuciones estocásticas, esto es, usamos estas distribuciones no porque pensamos
que la evolución se comporta de esa forma, sino porque resultan ser una manera eficiente de generar
inferencias confiables.
Como se menciono previamente, la situación en que la cantidad de cambios acumulados ya no
puede calcularse directamente de la matriz de caracteres es particularmente recurrente en el caso de las
secuencias de ADN y esto es debido en parte a que solamente contamos con cuatro estados de carácter en
este tipo de caracteres. En el caso de los análisis con aminoácidos los modelos son elaborados de manera
distinta, debido al gran número de estados posibles, pero en este capítulo me referiré únicamente a los
modelos nucleotídicos.
Para explicar la dificultad de calcular los cambios en secuencias divergentes Paul Lewis (1988)
ideó una ingeniosa metáfora empleando un estacionamiento para ejemplificar los cambios que suceden
en un determinado sitio en una secuencia.
Imagine usted un estacionamiento con los cajones bien delimitados y completamente ocupados,
en la metáfora cada cajón corresponde a un sitio o posición en una secuencia. Los automóviles están
pintados de cuatro colores solamente (verde, azul, rojo y amarillo), estos colores corresponden con las
cuatro bases presentes en el ADN. Consideremos que es un momento del día muy concurrido y los
cajones tienden a desocuparse y ocuparse de nuevo de manera más o menos constante cada 20 minutos.
Al centrar nuestra atención en uno de los cajones observamos que en el minuto cero había un automóvil
de color amarillo, pero al cabo de un par de horas el cajón habrá cambiado de automóvil en seis
ocasiones, que corresponderían con seis eventos de substitución en la secuencia, coincidentemente el
cajón tiene de nuevo un automóvil de color amarillo en el cajón, aunque evidentemente no es el mismo
automóvil pero para nosotros se ve igual.
En el caso de contar solamente con información del minuto cero y del minuto 120 nos resultará
imposible saber que han ocurrido seis eventos de substitución, porque no tendremos evidencia directa de
los cambios. Si nuestro método de análisis solamente considera los cambios directamente cuantificables
en la matriz de datos y no busca inferir aquellos que pudiesen haber ocurrido, entonces estaremos
obteniendo un estimado incorrecto de los cambios que se han acumulado.
Al comparar las secuencias de dos especies, la cantidad de cambios observable es referida como
distancia-p y la distancia que representa los cambios totales (observables y no observables) corresponde
con la distancia-d. Cuando las especies están cercanamente emparentadas ambas distancias corresponden
en lo general, pero con el transcurrir del tiempo los cambios no observables se acumulan y la región se
describe como saturada. Para poder inferir la distancia-d se requieren de métodos paramétricos que se
apoyan en modelos de sustitución.
Como se mencionó anteriormente, parte del atractivo de conocer la distancia-d reside en que es
con base en ella que se sustentan diversas inferencias filogenéticas como el reloj molecular o la
reconstrucción de estados ancestrales.
Agradecimientos.
Agradezco al comité editorial de Manual por haberme invitado a escribir este texto, así como por su
amable paciencia y disposición. Mariana del Olmo Ruiz y América Castañeda Sortibrán proporcionaron
valiosa ayuda en diferentes versiones de este manuscrito.
Referencias
Baum D.A., Smith S.D. 2013. Tree thinking. An introduction to phylogenetic biology. Greenwood
Village: Roberts and Company Publishers.
Hasegawa M., Kishino H., Yano T.A. 1985. Dating of the human ape splitting by a molecular clock of
mitochondrial-DNA. J. Mol. Evol. 22:160–174.
Huelsenbeck J.P., Larget B., Alfaro M.E. 2004. Bayesian phylogenetic model selection using reversible
jump Markov chain Monte Carlo. Mol. Biol. Evol. 21:1123–1133.
Jukes T. H., Cantor C. R. 1969. Evolution of protein molecules. In Mammalian Protein Metabolism, ed.
H. H. Munro, Vol. III, pp. 21–132. New York: Academic Press.
Kimura M. 1980. A simple method for estimating evolutionary rate of base substitutions through
comparative studies of nucleotide sequences. J. Mol. Evol. 16:111–120.
Lewis P.O. 1998. Maximum likelihood as an alternative to parsimony for inferring phylogeny using
nucleotide sequence data. In: Soltis D.E., Soltis P.S., Doyle J.J., editors. Molecular Systematics of
Plants. II. DNA Sequencing. Boston: Kluwer Academic Publishers. p. 132–163.
Lewis P.O. 2001. A likelihood approach to estimating phylogeny from discrete morphological character
data. Syst. Biol. 50:913–25.
Monod, J. 1973. Le hasard et la nécessité: essai sur la philosophie naturelle de la biologie moderne.
Éditions du Seuil, Paris.
Pagel M., Meade A., Barker D. 2004. Bayesian estimation of ancestral character states on phylogenies.
Syst. Biol. 53:673–684.
Pagel M., Meade A. 2006. Bayesian analysis of correlated evolution of discrete characters by reversible-
jump Markov chain Monte Carlo. Am. Nat. 167:808–825.
Posada D. 2009. Selecting models of evolution. In: Lemey P., Salemi M., Vandamme A.-M., editors. The
phylogenetic handbook. Cambridge: Cambridge University Press. p. 345–361.
Pyron R.A., Burbrink F.T. 2013. Phylogenetic estimates of speciation and extinction rates for testing
ecological and evolutionary hypotheses. Trends Ecol. Evol. 28:729–736.
Ree R.H., Moore B.R., Webb C.O., Donoghue M.J. 2005. A likelihood framework for inferring the
evolution of geographic range on phylogenetic trees. Evolution. 59:2299–2311.
Ronquist F. 2004. Bayesian inference of character evolution. Trends Ecol. Evol. 19:475–481.
Tavaré S. 1986. Some probabilistic and statistical problems in the analysis of DNA sequences. Lect.
Mathemat. Life Scis. 17:57–86.
Yang Z. 1994. Maximum likelihood phylogenetic estimation from DNA sequences with variable rates
over sites: approximate methods. J. Mol. Evol. 39:306–314.
Yang Z. 2014. Molecular evolution. A statistical approach. Croydon: Oxford University Press.
Yang Z., Rannala B. 2012. Molecular phylogenetics: principles and practice. Nat. Rev. Genet. 13:303–314.
Figura 1. Representación esquemática de tres diferentes modelos de sustitución. Cada flecha en el modelo
representa un tipo de sustitución, el grosor de la flecha representa la frecuencia con que sucede el cambio
y el tamaño de cada letra representa la frecuencia en que se encuentra cada una de las bases (Redibujado
de Yang 2014).