Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Filogenias Moleculares
Franco Barrile y Marina Lenguas Francavilla
Introducción
Podemos pensar a la verosimilitud como una estrategia para explicar adecuadamente una
serie de datos. Esta explicación incluye modelos e hipótesis de cómo se comportan esos datos,
los cuales se deciden previo al análisis.
En el contexto de la sistemática filogenética, las técnicas de Máxima Verosimilitud (MV)
buscan encontrar el árbol que hace más verosímil obtener una serie de datos (por ejemplo:
matrices de secuencias de ADN alineadas) bajo un modelo evolutivo explícito (Morrone, 2013;
Yang, 2014). Pero ¿a qué nos referimos cuando decimos “serie de datos” y “modelo evolutivo
explícito”? Resumidamente, “serie de datos” se refiere a la matriz de taxones por caracteres
con la que se está trabajando (e.g. secuencias alineadas de nucleótidos o de aminoácidos).
Por otro lado, “modelo evolutivo explícito” hace referencia a una serie de parámetros para
tener en cuenta entre los que se incluyen el modelo de sustitución de nucleótidos elegido, y las
longitudes de las ramas. Con los valores que tomen estos parámetros podremos calcular la
probabilidad que tienen nuestros datos de “comportarse” de una determinada manera y así
elegir la hipótesis que mejor explique los datos o, dicho de otra manera, la hipótesis en donde
“mejor se comporten” los datos.
Los modelos de sustitución de nucleótidos son herramientas para inferir el cambio
acumulado en el genoma a lo largo del tiempo. Estos modelos usan distribuciones estadísticas
para representar lo que sucedió a nivel molecular en la evolución de los linajes y es por eso
que tienen en cuenta sus propios parámetros (Yang, 2014). Entre ellos existe el tipo y
frecuencia de variación de las bases nitrogenadas a lo largo del tiempo, que sitios o posiciones
del genoma tienen mayor probabilidad de variar, cuáles son las regiones invariantes, etc. A
continuación, describiremos brevemente algunos de estos modelos, y para una revisión más
extensa acerca del tema recomendamos Yang (2014).
El primer modelo propuesto fue el de Jukes y Cantor de 1969 (JC69) el cual asume que
toda sustitución es igualmente probable, es decir, que cada tipo de nucleótido tiene la misma
tasa instantánea de mutación a cualquier otro nucleótido y por esto se lo conoce como modelo
de un solo parámetro (Yang, 2014). Por otro lado, el modelo de Kimura de 1980 (K80)
considera que transiciones y transversiones tienen distinta probabilidad de suceder, por lo que
es un modelo de dos parámetros. Es importante resaltar que este modelo solo asume que
dicha probabilidad de sustitución es diferente, pero no indica necesariamente que las
transiciones sean más frecuentes que las transversiones o viceversa, sino que esto lo
determinarán los propios datos del alineamiento (Wiley y Lieberman, 2011). Para algunos
autores es más realista considerar las proporciones diferenciales de las bases en el ADN
dentro del modelado. En este caso el K80 se transforma en el modelo de Hasegawa et al.
1985 (HKY85). En el otro extremo de los modelos se encuentran los modelos de seis
parámetros en donde cada tipo de cambio tiene una probabilidad distinta de suceder, como el
modelo General de Tiempo Reversible (GTR). En la Figura 1 se esquematizan algunos de los
modelos mencionados.
El otro parámetro a tener en cuenta son las longitudes de las ramas. Estos valores indican
la cantidad de cambio acumulado en las secuencias estudiadas a lo largo del tiempo.
Figura 1. Esquema de tres Modelos de Sustitución Nucleotídica. El ancho de cada flecha indica la
probabilidad relativa de cada tipo de cambio mientras que el tamaño de cada círculo indica la frecuencia
relativa de cada nucleótido en el ADN. (Modificado de Yang y Rannala, 2012).
Inferencia Bayesiana
Filogenómica
La filogenómica es el estudio de las relaciones evolutivas entre los organismos a partir del
uso de datos provenientes de los genomas, es decir, de la secuencia completa del ADN
(Bleidorn, 2017; DeSalle et al., 2020). Las técnicas bioinformáticas desarrolladas a partir de la
primera década del siglo XXI permiten realizar comparaciones de genomas completos entre
una gran cantidad de taxones. Estos análisis posibilitan dos grandes tipos de estudios: inferir la
función de un determinado péptido o proteína a partir de la filogenia de las secuencias, o usar
los genomas para inferir la filogenia de los organismos (DeSalle et al., 2020; Philippe et al.,
2005). Este último tipo de aproximación es de especial interés para la sistemática filogenética.
A diferencia de las filogenias moleculares de “pequeña escala” (que incluyen pocas o
pequeñas regiones del genoma), la filogenómica permite incorporar toda la secuencia del ADN
a la filogenia, incluyendo todos los genes y regiones no codificantes (Chan y Ragan, 2013).
Esto disminuye la probabilidad de que haya un muestreo no representativo de la variabilidad
genética de los organismos y permite mejorar la resolución de las ramas cuando se compara la
filogenia de datos genómicos respecto a la generada con datos de pocos marcadores
moleculares, produciendo así también medidas de soporte altas.