Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Teo 03 Parsimonia y Optimización
Teo 03 Parsimonia y Optimización
Parsimonia y
Optimización
Jermann et al.1995;
Chang y Donoghue 2000
Actividad de proteínas ancestrales
A B C D
E F G H
I J K L
M N O P
Reconstrucciones posibles / óptimas
A B C D
E F G H
I J K L
M N O P
Reconstrucciones posibles / óptimas
A B C D
E F G H
I J K L
M N O P
Reconstrucciones posibles / óptimas
A B C D
E F G H
I J K L
M N O P
Reconstrucciones posibles / óptimas
A B C D Resumidas
E F G H [01]
[01]
I J K L
M N O P
Practiquemos…
0 1 0 01 01 12
? ? ?
0 0 0 01 1 012
? ? ?
1 1 01
Ambigüedades: ACCTRAN y DELTRAN
0 0 0 1 1 0
0 01
01
0 1 0 0
1 0
0 0
0 0
Ambigüedades: ACCTRAN y DELTRAN
A veces se prefiere ACCTRAN porque minimizaría la adquisición en paralelo de caracteres
complejos (que podría ser preferible).
Pero esto no es siempre así. Supongamos dos órganos complejos.
Órgano X: (0) ausente, (1) presente. Órgano Y: (0) ausente, (1) presente.
ACCTRAN ACCTRAN
0 0 0 1 1 0 1 1 1 0 0 1
0 1 1 0
1 0
0 1
0 1
1s homólogos 1s convergentes
Agnarsson y Miller 2008
Visualización de ambigüedades
Dos
reconstrucciones
Conjuntos de óptimas
estados óptimos
Mapeo de
estados
óptimos
Ambigüedades y entradas faltantes
Amarillo
Azul
No se sabe
Estados primitivos, estados derivados, “polaridad”
Amarillo
Azul
No se sabe
Matriz de costos de transformación
• Los caracteres expresan transformaciones entre estados.
• Los costos o probabilidades de transformación deben ser especificados.
• Estos parámetros están basados en nociones de homología y
transformación evolutiva.
• Los costos son constantes que multiplican cada transformación (para
tv:tr = 5:2, si hay 3 pasos de A→C = 3x5 = costo 15)
hacia
A C G T
0 1 2 3 A G
0 0 1 1 1 A 0 5 2 5
desde
desde
1 1 0 1 1 C 0 5 2
C T
2 1 1 0 1 G 0 5
3 1 1 1 0 T 0 Similar a:
Probabilidades de
Multiestado no ordenado tv : tr = 5 : 2 transición
Reconstrucciones ancestrales
Bajo costos iguales, algunas reconstrucciones candidatas:
Reconstrucción 1 Reconstrucción 2 Reconstrucción 3
A A A
C C C
A A C A C A
A
A
T C
C
T A
C
T
T G T G T G
T T T T G T
L=3 L=4 L=5
Swofford &
Sullivan
2009
Optimización: De problema global a local
A B C D E F Algoritmos más utilizados
Estados no ordenados
Optimización de Fitch (Fitch 1971)
Estados ordenados
Farris 1970; Goloboff 1993
Generalizada (Sankoff)
Buena explicación en Swofford y Maddison 1992
Optimización generalizada (Sankoff y Cedergren 1975). Sirve para cualquier matriz de costos. Alto
costo computacional (en cada nodo se calculan y almacenan muchos costos condicionales).
Casos particulares (ordenados, no ordenados). Algoritmos muy eficientes (en cada nodo se
realiza un cálculo muy sencillo).
Fitch: No ordenados; todos los costos iguales.
Binario
Alas: (0) ausentes; (1) presentes
Multiestado
Color de la inflorescencia: (0) rojo; (1) amarillo; (2) azul.
Algoritmo de Fitch (no lo vemos en detalle)
D1 D2
Para cada nodo (N), hay un ancestro (A) y dos descendientes (D1, D2),
N salvo el nodo raíz que no tiene ancestro. Para obtener el conjunto de
estados óptimos para el nodo N (SN):
A
Sin entrar en
detalles
operaciones simples
no se almacenan
muchos valores en
memoria
Fitch 1971
Casos especiales: Estados ordenados
El algoritmo es muy similar al de Fitch, pero se utilizan rangos de valores. Es
igualmente eficiente.
hacia
0 1 2 3 1 1 1
0 1 2 3 Farris 1970
0 0 1 2 3 Maddison 1990
2
Goloboff 1993
desde
1 1 0 1 2 3
2 2 1 0 1
3 3 2 1 0 1.71 2.83 0.5
Estados discretos
Hay una variable continua subyacente
(p.ej. concentración de pigmento)
Color de la inflorescencia: (0) rosa claro; (1) rosa oscuro; (2) rojo.
Tamaño del iris: (0) chico; (1) mediano; (2) grande.
Misionella Kukulcania
[2.1 2.8] [3.5 5.1]
[?? ??]
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5
Misionella Kukulcania
[2.1 2.8] [3.5 5.1]
Ancestro Costo
1
2
2.1
2.5
2.8
3 0.2 + 0.5 = 0.7
3.5
4
5.1
6
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5
Misionella Kukulcania
[2.1 2.8] [3.5 5.1]
Ancestro Costo
1 1.1 + 2.5 = 3.6
2
2.1
2.5
2.8
3 0.2 + 0.5 = 0.7
3.5
4
5.1
6
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5
Misionella Kukulcania
[2.1 2.8] [3.5 5.1]
Ancestro Costo
1 1.1 + 2.5 = 3.6
2
2.1
2.5 0+1=1
2.8
3 0.2 + 0.5 = 0.7
3.5
4
5.1
6
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5
Misionella Kukulcania
[2.1 2.8] [3.5 5.1]
Ancestro Costo
1 1.1 + 2.5 = 3.6
2 0.1 + 1.5 = 1.6
2.1 0 + 1.4 = 1.4
2.5 0+1=1
2.8 0 + 0.7 = 0.7
3 0.2 + 0.5 = 0.7
3.5 0.7 + 0 = 0.7
4 1.2 + 0 = 1.2
5.1 2.3 + 0 = 2.3
6 3.2 + 0.9 = 4.1
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5
Misionella Kukulcania
[2.1 2.8] [3.5 5.1]
Ancestro Costo
1 1.1 + 2.5 = 3.6
2 0.1 + 1.5 = 1.6
2.1 0 + 1.4 = 1.4
2.5 0+1=1
2.8 0 + 0.7 = 0.7
3 0.2 + 0.5 = 0.7
3.5 0.7 + 0 = 0.7
4 1.2 + 0 = 1.2
5.1 2.3 + 0 = 2.3
6 3.2 + 0.9 = 4.1
Caracteres continuos: Intervalos y costos
Filistata Kukulcania
[2.5 3.6] [3.5 5.1] ¿Cuál sería el costo y rango
óptimo en este caso?
[?? ??]
Caracteres continuos: Intervalos y costos
0 1 2 3 4 5
Filistata Kukulcania
[2.5 3.6] [3.5 5.1]
[3.5 – 3.6]
Costo = 0
Optimización general: Sankoff
A B C D E F Algoritmo general par cualquier matriz de costos.
Alto costo computacional (en cada nodo se
calculan y almacenan muchos costos
condicionales).
C A C A G
hacia CA | CC | CG | CT G
A C G T
A 0 5 2 5
Costo del sub-árbol G:
desde
C 5 0 5 2
Ci = El costo que tendría
G 2 5 0 5 asignar el estado i al nodo G,
T 5 2 5 0 tomando en cuenta todos los
cambios por encima del nodo G.
C A C A G
C 5 0 5 2
CA | CC | CG | CT
G 2 5 0 5
T 5 2 5 0
C A C A G
C 5 0 5 2
CA | CC | CG | CT Costo global del
G 2 5 0 5
carácter sobre el árbol
T 5 2 5 0
(pero faltan las asignaciones ancestrales finales)
Pasada hacia abajo Los terminales son las
observaciones: costos triviales
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞
| | |
C 5 0 5 2 +
G 2 5 0 5 Mín costo desc. der. (i→G)
0 2
2 | | |
hacia
CA =
A C G T Mín costo desc. izq. (A→A)
A 0 5 2 5 +
Mín costo desc. der. (A→G)
desde
C 5 0 5 2 =
G 2 5 0 5 0+2=2
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞
5 5
| 10| |
hacia
Cc =
A C G T Mín costo desc. izq. (C→A)
A 0 5 2 5 +
Mín costo desc. der. (C→G)
desde
C 5 0 5 2 =
G 2 5 0 5 5 + 5 = 10
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞
2 | 10 | 2 |10
C 5 0 5 2
G 2 5 0 5
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞
2 | 10 | 2 |10
F
| | |
hacia
A C G T
Para este sub-árbol, las
A 0 5 2 5 cuentas son más
desde
0 2
5 2 | 10 | 2 |10
F
0
7 | | |
hacia
CA =
A C G T Mín (costo desc. der. (A→F) + FA )
A 0 5 2 5 +
Mín costo desc. izq. (A→C)
desde
C 5 0 5 2 =
G 2 5 0 5 (0 + 2) + 5
=7
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞
2 2 | 10 | 2 |10
F
5
hacia
| | | 9
G
A C G T
A 0 5 2 5
desde
C 5 0 5 2
G 2 5 0 5
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞
2 2 | 10 | 2 |10
F
5
hacia
| | | 9
G
A C G T
Aquí los dos caminos
A 0 5 2 5 dan el mismo costo
desde
C 5 0 5 2 (T→A = T→G)
G 2 5 0 5
T 5 2 5 0
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞
H 5 | 5 | 7 | 7 2 | 10 | 2 |10
F
hacia
7 | 7 | 7 | 9
G
A C G T
A 0 5 2 5
I
desde
C 5 0 5 2 12|12|14|16
G 2 5 0 5
T 5 2 5 0
Fin de pasada hacia abajo: Largos condicionales
C A C A G
∞|0|∞|∞ 0|∞|∞|∞ ∞|0|∞|∞ 0|∞|∞|∞ ∞|∞|0|∞
H 5 | 5 | 7 | 7 2 | 10 | 2 |10
F
hacia
7 | 7 | 7 | 9
G
A C G T Largo óptimo = 12
Asignaciones finales para I: A o G
A 0 5 2 5
I
desde
C A C A G
| | | | | |
| | |
Objetivo:
Asignaciones finales Se visita cada nodo de
de estados óptimos abajo hacia arriba,
A|C| |
utilizando los largos luego de definir los
condicionales estados definitivos de
su ancestro inmediato.
C A C A G
H | | | | | |
F
7 | 7 | 7 | 9
G
H | | | | | |
F
LX 7 | 7 | 7 | 9
G
CA-…
I A| | | Si I = A, entonces G:
A | C | G | T
CA-A+LA = 0 + 7 = 7 | CA-C + LC = 5 + 7 = 12 | CA-G + LG = 2 + 7 = 9 | CA-T + LT = 5 + 9 = 14
C A C A G
H | | | | | |
F
A | | |
G
I A| | | Si I = A, entonces G:
A | C | G | T
CA-A+LA = 0 + 7 = 7 | CA-C + LC = 5 + 7 = 12 | CA-G + LG = 2 + 7 = 9 | CA-T + LT = 5 + 9 = 14
H | | | | | |
F
7 | 7 | 7 | 9
G
I |C| | Si I = C, entonces G:
A | C | G | T
CC-A+LA = 5 + 7 = 12 | CC-C + LC = 0 + 7 = 7 | CC-G + LG = 2 + 7 = 9 | CC-T + LT = 2 + 9 = 11
C A C A G
H | | | | | |
F
| C | |
G
I |C| | Si I = C, entonces G:
A | C | G | T
CC-A+LA = 5 + 7 = 12 | CC-C + LC = 0 + 7 = 7 | CC-G + LG = 2 + 7 = 9 | CC-T + LT = 2 + 9 = 11
C A C A G
| | | | | |
A|C| |
A|C| |
Pasada hacia arriba
C A C A G
| | | A| |G|
A|C| |
A|C| |
Fin de pasada hacia arriba: Estados óptimos
C A C A G
A|C| | A| |G|
A|C| |
En TNT:
A|C| |
Reconstrucción 1
C A C A G
5 2
A| | | 5 A| | |
A| | |
A| | |
Largo = 12
Reconstrucción 2
C A C A G
5 2
|C| | | |G|
5
|C| |
|C| |
Largo = 12
Reconstrucción 3
C A C A G
5 2
|C| | A| | |
5
|C| |
|C| |
Largo = 12
NO es la combinatoria
C A C A G
A|C| | A| |G|
A|C| |
3 1 5 7
2 6
4
desde
C 0 5 2 C 0 8.1 1.5
G 0 5 G 0 4
T 0 T 0
tv : tr = 5 : 2 6 parámetros
A C G T -
A 0 2 1 2 2 Algoritmo:
Sankoff
desde
C 0 2 1 2
G 0 2 2
T 0 2 tv : tr : indel = 2 : 1 : 2
- 0
Matrices de costos: Asimétricas. Sankoff
hacia hacia
0 1 0 1
0 0 5 0 0 100
desde
desde
1 1 0 1 1 0
Penaliza convergencias Dollo
Ejemplo: sitios de restricción prohibe convergencias 0→1
Ejemplo: Intrón en engrailed
hacia homeobox: 0, ausente; 1, presente
0 1
0 0 1
desde
1 ∞ 0
Camin-Sokal
prohibe reversiones 1→0
Caracteres especiales. Exceden a Sankoff
Cromosómicos (fusiones, …)
Hedges 2002
Clasificaciones, filogenias y predicciones
+ clasificación
Filogenia + caracteres A B C D
0 0 0 1 1 1 0 ? ? 0 ??? 0 1 ?? 1 ? ? 1
0 1 0 1
1 1
0 0
0 Optimización - predicción 0
0 0 0 0 000 0 1 11 1 1 1 1
0 1
1
0
0
Retomando: Enraizamiento
Re-enraizar un árbol no cambia
tiempo A • Las asignaciones en los nodos
A • Ni el largo del árbol
• Ni los cambios sobre las ramas
A • – Cambia el sentido de algunas
T transformaciones
T La posición de la raíz es información filogenética
T que se justifica fuera del análisis
Funciona mediante dos pasadas (hacia abajo calcula el costo global, hacia arriba define
las asignaciones ancestrales). (No es necesario que se aprendan el algoritmo.)
A A1 A2
0 0 0
1 1 0
2 1 1