Está en la página 1de 74

Teórica 3.

Parsimonia y
Optimización

Martín Ramírez, 2023. Curso de Sistemática


Teórica, FCEyN – UBA
Actividad de proteínas ancestrales
¿Cómo inferir proteínas
ancestrales?

Jermann et al.1995;
Chang y Donoghue 2000
Actividad de proteínas ancestrales

¿Cómo metabolizaban el alcohol nuestros


ancestros primates?
Carrigan et al. 2015
Optimización

Trataremos de reducir este tipo de preguntas a un problema simple:

1. Desglosar el sistema de interés en caracteres independientes

Dado un árbol (por ahora, consideremos que está fijo),


y las observaciones de estados en los terminales,

2. Asignar estados ancestrales (= a los nodos internos) para cada


carácter
3. Postular hipótesis de transformaciones sobre el árbol
Mapeo de caracteres: Reconstrucciones ancestrales
reconstrucción candidata 1
A
La Reconstrucción 1 no tiene homoplasia. Las
A A demás implican homoplasia y requieren
A A explicaciones ad hoc.
A
T
T
T T Elección según criterio de
A T
T parsimonia
largo1 = 1
reconstrucción candidata 2 reconstrucción candidata 3 reconstrucción candidata 4
A A A
A A A A T A
A
A A A
A A A A
A
T
A A
T T T
A A A
T T A T A T
T T T
largo2 = 2 largo3 = 3 largo4 = 7 …
Parsimonia, simplicidad
Es un criterio epistemológico o metodológico (en vez de científico). Muy antiguo y muy
discutido en filosofía de la ciencia. Infinidad de aplicaciones.

Frecuentemente atribuido a William of Newton, 1686


Ockham (c. 1285–1349), pero
trazable al menos hasta Aristóteles.
Ante dos explicaciones alternativas e
iguales en otros aspectos, se elije,
- la más sencilla
- la que asuma menos cosas

Además de parsimonia, diversos


campos utilizan otros criterios:
- Adecuación a ciertas teorías
- Incorporación de evidencia adicional
- Simplicidad de análisis
Reconstrucciones posibles / óptimas

A B C D

E F G H

I J K L

M N O P
Reconstrucciones posibles / óptimas

A B C D

E F G H

I J K L

M N O P
Reconstrucciones posibles / óptimas

A B C D

E F G H

I J K L

M N O P
Reconstrucciones posibles / óptimas

A B C D

E F G H

I J K L

M N O P
Reconstrucciones posibles / óptimas

A B C D Resumidas

E F G H [01]
[01]

I J K L

M N O P
Practiquemos…

0 1 0 01 01 12

? ? ?

0 0 0 01 1 012

? ? ?

1 1 01
Ambigüedades: ACCTRAN y DELTRAN
0 0 0 1 1 0

0 01
01

Cambios “acelerados” ACCTRAN 0 Cambios “demorados” DELTRAN


0
0 0 0 1 1 0 0 0 0 1 1 0

0 1 0 0
1 0

0 0
0 0
Ambigüedades: ACCTRAN y DELTRAN
A veces se prefiere ACCTRAN porque minimizaría la adquisición en paralelo de caracteres
complejos (que podría ser preferible).
Pero esto no es siempre así. Supongamos dos órganos complejos.
Órgano X: (0) ausente, (1) presente. Órgano Y: (0) ausente, (1) presente.

ACCTRAN ACCTRAN

0 0 0 1 1 0 1 1 1 0 0 1

0 1 1 0
1 0

0 1
0 1

1s homólogos 1s convergentes
Agnarsson y Miller 2008
Visualización de ambigüedades

Dos
reconstrucciones
Conjuntos de óptimas
estados óptimos

Mapeo de
estados
óptimos
Ambigüedades y entradas faltantes

Las entradas faltantes suelen introducir ambigüedad en el análisis


(pero no necesariamente)
Ambigüedades y entradas faltantes
Estados primitivos, estados derivados, “polaridad”

Votación: ¿Cuál es el estado primitivo?

Amarillo
Azul
No se sabe
Estados primitivos, estados derivados, “polaridad”

Votación: ¿Cuál es el estado primitivo?

Amarillo
Azul
No se sabe
Matriz de costos de transformación
• Los caracteres expresan transformaciones entre estados.
• Los costos o probabilidades de transformación deben ser especificados.
• Estos parámetros están basados en nociones de homología y
transformación evolutiva.
• Los costos son constantes que multiplican cada transformación (para
tv:tr = 5:2, si hay 3 pasos de A→C = 3x5 = costo 15)
hacia

A C G T 
0 1 2 3 A G
0 0 1 1 1 A 0 5 2 5
 
desde
desde

1 1 0 1 1 C 0 5 2
C T
2 1 1 0 1 G 0 5 

3 1 1 1 0 T 0 Similar a:
Probabilidades de
Multiestado no ordenado tv : tr = 5 : 2 transición
Reconstrucciones ancestrales
Bajo costos iguales, algunas reconstrucciones candidatas:
Reconstrucción 1 Reconstrucción 2 Reconstrucción 3
A A A
C C C
A A C A C A
A
A
T C
C
T A
C
T
T G T G T G
T T T T G T
L=3 L=4 L=5

Optimización: Asignar estados ancestrales en los nodos, con la


menor cantidad posible de transformaciones (= menor costo)

Para cuatro estados y (n–2) nodos,


4(n–2) reconstrucciones posibles
No es un problema trivial
2 nodos
internos, 4
estados: 42
combinaciones

Swofford &
Sullivan
2009
Optimización: De problema global a local
A B C D E F Algoritmos más utilizados
Estados no ordenados
Optimización de Fitch (Fitch 1971)
Estados ordenados
Farris 1970; Goloboff 1993
Generalizada (Sankoff)
Buena explicación en Swofford y Maddison 1992

El problema global se descompone en una serie de pequeños problemas locales.

Optimización generalizada (Sankoff y Cedergren 1975). Sirve para cualquier matriz de costos. Alto
costo computacional (en cada nodo se calculan y almacenan muchos costos condicionales).
Casos particulares (ordenados, no ordenados). Algoritmos muy eficientes (en cada nodo se
realiza un cálculo muy sencillo).
Fitch: No ordenados; todos los costos iguales.

Caracteres no ordenados: No hay motivos para suponer jerarquías


entre estados

Binario
Alas: (0) ausentes; (1) presentes

Multiestado
Color de la inflorescencia: (0) rojo; (1) amarillo; (2) azul.
Algoritmo de Fitch (no lo vemos en detalle)
D1 D2
Para cada nodo (N), hay un ancestro (A) y dos descendientes (D1, D2),
N salvo el nodo raíz que no tiene ancestro. Para obtener el conjunto de
estados óptimos para el nodo N (SN):
A

Sin entrar en
detalles
operaciones simples

no se almacenan
muchos valores en
memoria

Fitch 1971
Casos especiales: Estados ordenados
El algoritmo es muy similar al de Fitch, pero se utilizan rangos de valores. Es
igualmente eficiente.

Casos más usuales


Caracteres continuos
Series de transformación bien documentadas

hacia
0 1 2 3 1 1 1
0 1 2 3 Farris 1970
0 0 1 2 3 Maddison 1990
2
Goloboff 1993
desde

1 1 0 1 2 3
2 2 1 0 1
3 3 2 1 0 1.71 2.83 0.5

Multiestado ordenada Continuos


Caracteres ordenados
Estados continuos
Una variable continua
Proporción largo/ancho de la hoja: media +- desvío estándar

Estados discretos
Hay una variable continua subyacente
(p.ej. concentración de pigmento)
Color de la inflorescencia: (0) rosa claro; (1) rosa oscuro; (2) rojo.
Tamaño del iris: (0) chico; (1) mediano; (2) grande.

Algún estado se considera intermedio


Forma y textura de apófisis: (0) lineal; (1) bífida; (2) bífida y con textura escamosa.
Caracteres continuos: Intervalos y costos

Goloboff et al. 2006


El algoritmo para optimizar caracteres ordenados funciona tanto para valores discretos como
continuos.
Terminales reciben un rango de valores (rango, intervalo de confianza, cuartiles, lo que se
desee). Por ejemplo: Largo de tibia I respecto de largo del cefalotórax (en macho):
Misionella [2.1 2.8]
Filistata [2.5 3.6]
Kukulcania [3.5 5.1]
etc. -
Costos: medidos en la escala en que se codifican los caracteres.
Entre [2.1 2.8] y [3.5 5.1] será costo = 0.7
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5

Misionella Kukulcania
[2.1 2.8] [3.5 5.1]

[?? ??]
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5

Misionella Kukulcania
[2.1 2.8] [3.5 5.1]

Ancestro Costo
1
2
2.1
2.5
2.8
3 0.2 + 0.5 = 0.7
3.5
4
5.1
6
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5

Misionella Kukulcania
[2.1 2.8] [3.5 5.1]

Ancestro Costo
1 1.1 + 2.5 = 3.6
2
2.1
2.5
2.8
3 0.2 + 0.5 = 0.7
3.5
4
5.1
6
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5

Misionella Kukulcania
[2.1 2.8] [3.5 5.1]

Ancestro Costo
1 1.1 + 2.5 = 3.6
2
2.1
2.5 0+1=1
2.8
3 0.2 + 0.5 = 0.7
3.5
4
5.1
6
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5

Misionella Kukulcania
[2.1 2.8] [3.5 5.1]

Ancestro Costo
1 1.1 + 2.5 = 3.6
2 0.1 + 1.5 = 1.6
2.1 0 + 1.4 = 1.4
2.5 0+1=1
2.8 0 + 0.7 = 0.7
3 0.2 + 0.5 = 0.7
3.5 0.7 + 0 = 0.7
4 1.2 + 0 = 1.2
5.1 2.3 + 0 = 2.3
6 3.2 + 0.9 = 4.1
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5

Misionella Kukulcania
[2.1 2.8] [3.5 5.1]

Ancestro Costo
1 1.1 + 2.5 = 3.6
2 0.1 + 1.5 = 1.6
2.1 0 + 1.4 = 1.4
2.5 0+1=1
2.8 0 + 0.7 = 0.7
3 0.2 + 0.5 = 0.7
3.5 0.7 + 0 = 0.7
4 1.2 + 0 = 1.2
5.1 2.3 + 0 = 2.3
6 3.2 + 0.9 = 4.1
Caracteres continuos: Intervalos y costos

Filistata Kukulcania
[2.5 3.6] [3.5 5.1] ¿Cuál sería el costo y rango
óptimo en este caso?

[?? ??]
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5

Filistata Kukulcania
[2.5 3.6] [3.5 5.1]

[3.5 – 3.6]
Costo = 0
Optimización general: Sankoff
A B C D E F Algoritmo general par cualquier matriz de costos.
Alto costo computacional (en cada nodo se
calculan y almacenan muchos costos
condicionales).

Buena explicación en Swofford y Maddison 1992

El problema global se descompone en una serie de pequeños problemas locales.


Sankoff: Pasada hacia abajo, idea general

C A C A G

hacia CA | CC | CG | CT G
A C G T
A 0 5 2 5
Costo del sub-árbol G:
desde

C 5 0 5 2
Ci = El costo que tendría
G 2 5 0 5 asignar el estado i al nodo G,
T 5 2 5 0 tomando en cuenta todos los
cambios por encima del nodo G.
C A C A G

hacia ¿qué obtenemos al


A C G T calcular el costo de la
A 0 5 2 5 pasada hacia abajo para
el nodo raíz?
desde

C 5 0 5 2
CA | CC | CG | CT
G 2 5 0 5
T 5 2 5 0
C A C A G

hacia ¿qué obtenemos al


A C G T calcular el costo de la
A 0 5 2 5 pasada hacia abajo para
el nodo raíz?
desde

C 5 0 5 2
CA | CC | CG | CT Costo global del
G 2 5 0 5
carácter sobre el árbol
T 5 2 5 0
(pero faltan las asignaciones ancestrales finales)
Pasada hacia abajo Los terminales son las
observaciones: costos triviales
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

| | |

hacia Aquí registraremos los costos


mínimos para cada estado
A C G T posible:
A 0 5 2 5 Ci =
Mín costo desc. izq. (i→A)
desde

C 5 0 5 2 +
G 2 5 0 5 Mín costo desc. der. (i→G)

T 5 2 5 0 Ejemplo modificado de Felsenstein 2004


(¡ojo los errores de la 1ra edición! ver Felsenstein 2004 errores)
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

0 2
2 | | |

hacia
CA =
A C G T Mín costo desc. izq. (A→A)
A 0 5 2 5 +
Mín costo desc. der. (A→G)
desde

C 5 0 5 2 =
G 2 5 0 5 0+2=2

T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

5 5
| 10| |

hacia
Cc =
A C G T Mín costo desc. izq. (C→A)
A 0 5 2 5 +
Mín costo desc. der. (C→G)
desde

C 5 0 5 2 =
G 2 5 0 5 5 + 5 = 10

T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

2 | 10 | 2 |10

Costo del sub-árbol,


hacia
para cada uno de los
A C G T estados posibles
A 0 5 2 5
desde

C 5 0 5 2
G 2 5 0 5
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

2 | 10 | 2 |10
F
| | |
hacia
A C G T
Para este sub-árbol, las
A 0 5 2 5 cuentas son más
desde

C 5 0 5 2 complicadas: Hay que


G 2 5 0 5 sumar los costos
registrados para el sub-
T 5 2 5 0
árbol F
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

0 2

5 2 | 10 | 2 |10
F
0
7 | | |
hacia
CA =
A C G T Mín (costo desc. der. (A→F) + FA )
A 0 5 2 5 +
Mín costo desc. izq. (A→C)
desde

C 5 0 5 2 =
G 2 5 0 5 (0 + 2) + 5
=7
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

2 2 | 10 | 2 |10
F
5

hacia
| | | 9
G
A C G T
A 0 5 2 5
desde

C 5 0 5 2
G 2 5 0 5
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

2 2 | 10 | 2 |10
F
5

hacia
| | | 9
G
A C G T
Aquí los dos caminos
A 0 5 2 5 dan el mismo costo
desde

C 5 0 5 2 (T→A = T→G)
G 2 5 0 5
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

H 5 | 5 | 7 | 7 2 | 10 | 2 |10
F
hacia
7 | 7 | 7 | 9
G
A C G T
A 0 5 2 5

I
desde

C 5 0 5 2 12|12|14|16
G 2 5 0 5
T 5 2 5 0
Fin de pasada hacia abajo: Largos condicionales

C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞

H 5 | 5 | 7 | 7 2 | 10 | 2 |10
F
hacia
7 | 7 | 7 | 9
G
A C G T Largo óptimo = 12
Asignaciones finales para I: A o G
A 0 5 2 5

I
desde

C 5 0 5 2 12|12|14|16 También podríamos haber


comenzado por el nodo H.
G 2 5 0 5
T 5 2 5 0
Sankoff: Pasada hacia arriba
Terminales y raíz con estados definitivos

C A C A G

| | | | | |

| | |

Objetivo:
Asignaciones finales Se visita cada nodo de
de estados óptimos abajo hacia arriba,
A|C| |
utilizando los largos luego de definir los
condicionales estados definitivos de
su ancestro inmediato.
C A C A G

H | | | | | |
F
7 | 7 | 7 | 9
G

Para el nodo G, utilizamos los


I A|C| |
estados definitivos de I, y los
largos condicionales de G
C A C A G

H | | | | | |
F
LX 7 | 7 | 7 | 9
G

CA-…
I A| | | Si I = A, entonces G:

A | C | G | T
CA-A+LA = 0 + 7 = 7 | CA-C + LC = 5 + 7 = 12 | CA-G + LG = 2 + 7 = 9 | CA-T + LT = 5 + 9 = 14
C A C A G

H | | | | | |
F
A | | |
G

I A| | | Si I = A, entonces G:

A | C | G | T
CA-A+LA = 0 + 7 = 7 | CA-C + LC = 5 + 7 = 12 | CA-G + LG = 2 + 7 = 9 | CA-T + LT = 5 + 9 = 14

El de menor costo es un estado definitivo para G


C A C A G

H | | | | | |
F
7 | 7 | 7 | 9
G

I |C| | Si I = C, entonces G:

A | C | G | T
CC-A+LA = 5 + 7 = 12 | CC-C + LC = 0 + 7 = 7 | CC-G + LG = 2 + 7 = 9 | CC-T + LT = 2 + 9 = 11
C A C A G

H | | | | | |
F
| C | |
G

I |C| | Si I = C, entonces G:

A | C | G | T
CC-A+LA = 5 + 7 = 12 | CC-C + LC = 0 + 7 = 7 | CC-G + LG = 2 + 7 = 9 | CC-T + LT = 2 + 9 = 11

El de menor costo se agrega a los estados definitivos para G


Pasada hacia arriba

C A C A G

| | | | | |

A|C| |

A|C| |
Pasada hacia arriba

C A C A G

| | | A| |G|

A|C| |

A|C| |
Fin de pasada hacia arriba: Estados óptimos

C A C A G

A|C| | A| |G|

A|C| |

En TNT:
A|C| |
Reconstrucción 1

C A C A G
5 2
A| | | 5 A| | |

A| | |

A| | |

Largo = 12
Reconstrucción 2

C A C A G
5 2
|C| | | |G|

5
|C| |

|C| |

Largo = 12
Reconstrucción 3

C A C A G
5 2
|C| | A| | |

5
|C| |

|C| |

Largo = 12
NO es la combinatoria

C A C A G

A|C| | A| |G|

A|C| |

Las tres reconstrucciones


óptimas NO son toda la A|C| |
combinatoria de los estados
óptimos (aquí hay 16
combinaciones).
De problema global a local
A B C D E A B C D E

3 1 5 7
2 6
4

Logra una solución lineal para un problema exponencial. Para n terminales, :


2n – 3 visitas (hacia abajo: n–1 + hacia arriba: n–2)
Matrices de costos: Simétricas
hacia hacia
A C G T A C G T
A 0 5 2 5 A 0 5.1 2.3 6.4
desde

desde
C 0 5 2 C 0 8.1 1.5
G 0 5 G 0 4
T 0 T 0
tv : tr = 5 : 2 6 parámetros
A C G T -
A 0 2 1 2 2 Algoritmo:
Sankoff
desde

C 0 2 1 2
G 0 2 2
T 0 2 tv : tr : indel = 2 : 1 : 2
- 0
Matrices de costos: Asimétricas. Sankoff
hacia hacia
0 1 0 1
0 0 5 0 0 100
desde

desde
1 1 0 1 1 0
Penaliza convergencias Dollo
Ejemplo: sitios de restricción prohibe convergencias 0→1
Ejemplo: Intrón en engrailed
hacia homeobox: 0, ausente; 1, presente

0 1
0 0 1
desde

1 ∞ 0
Camin-Sokal
prohibe reversiones 1→0
Caracteres especiales. Exceden a Sankoff

Genómicos (deleciones, inserciones, inversiones, translocaciones,


duplicaciones, …)

Cromosómicos (fusiones, …)

Cada uno necesita algoritmos de optimización específicos


Muy complejos: Eventos que alteran las homologías primarias
Retomando: Organismos modelo

¿Cómo se aplican los


conocimientos sobre
organismos modelo al
resto de los seres vivos?

Hedges 2002
Clasificaciones, filogenias y predicciones
+ clasificación
Filogenia + caracteres A B C D
0 0 0 1 1 1 0 ? ? 0 ??? 0 1 ?? 1 ? ? 1

0 1 0 1
1 1

0 0
0 Optimización - predicción 0
0 0 0 0 000 0 1 11 1 1 1 1
0 1
1

0
0
Retomando: Enraizamiento
Re-enraizar un árbol no cambia
tiempo A • Las asignaciones en los nodos
A • Ni el largo del árbol
• Ni los cambios sobre las ramas
A • – Cambia el sentido de algunas
T transformaciones
T La posición de la raíz es información filogenética
T que se justifica fuera del análisis

(Excepción: Caracteres con costos asimétricos)


A
A
A
T
T
T
re-enraizamiento
Retomando: Proteínas ancestrales

¿Cómo inferirían proteínas ancestrales?


Puntos clave y notas
Objetivo de la optimización: Para un carácter y un árbol dados, encontrar todas las
reconstrucciones ancestrales óptimas, y su costo.

La optimización, bajo el criterio de parsimonia, es un algoritmo exhaustivo (= garantiza


encontrar todas las asignaciones ancestrales óptimas). (Ya veremos que en máxima
verosimilitud es un algoritmo heurístico).

Funciona mediante dos pasadas (hacia abajo calcula el costo global, hacia arriba define
las asignaciones ancestrales). (No es necesario que se aprendan el algoritmo.)

El algoritmo de Sankoff es la solución general para cualquier matriz de costos; es lento y


requiere mucha memoria. Los algoritmos de Fitch y de caracteres ordenados son mucho
más rápidos.
Si quieren profundizar…
Recodificación binaria de caracteres multiestado ordenados

Los caracteres ordenados (= de estados aditivos) pueden


recodificarse en varios caracteres binarios.
A. Configuración de apófisis: (0) lineal; (1) bífida; (2) bífida y con
textura escamosa.
A1. Forma de apófisis: (0) lineal; (1) bífida.
A2. Textura de apófisis: (0) lisa; (1) escamosa.

A A1 A2
0 0 0
1 1 0
2 1 1

También podría gustarte