Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Caracter:
Es una propiedad que podría ser o no distinta en cada OTU. A
los distintos valores que puede tener un carácter se lo
denomina “estado”.
Ejemplo. Colonias rizobianas autóctonas (Venezuela)
OTUs Caracteres
Estados del
carácter “aspecto”
Los caracteres como datos científicos:
Tipos de datos Carácter Estados
DOBLE PRESENCIA/AUSENCIA Presencia de Espinas presencia
ESTADO
ausencia
DATOS EXCLUYENTES Posición de la Terminal
Inflorescencia
Axilar
MULTIESTADO CUALITATIVOS Sin secuencia lógica Margen de la hoja Aserrado
Lobulado
Entero
Con secuencia lógica Pubescencia de la Glabra (i.e., nada)
hoja
Poco abundante
Abundante
CUANTITATIVOS Continuos Longitud de la hoja
Discontinuos Número de flores en
la inflorescencia
Ejemplo:
Propiedades fenotípicas de cuatro clones bacterianos hipotéticos
En ambos casos, la codificación debe interpretarse como una “etiqueta” y no como una
“cantidad”
Codificación de caracteres:
2) Multiestado Cualitativo sin secuencia lógica
Son probablemente los datos mas difíciles de codificar, ya que por no presentar una
secuencia lógica es imposible representarlos bien con números. En el ejemplo de los
clones, el carácter “color” es un carácter de este tipo.
Si bien existe una secuencia ordenada, y por ende, la asignación “natural” queda
establecida (de menor a mayor al ir del estado “baja” a “alta”), persiste el problema de
asignar un valor concreto a cada estado ¿porqué elegir 1,2 y 3 y no 1, 1.5 y 2?
Es importante recordar que los valores asignados son “etiquetas” que, en este caso,
indican un orden. No pueden, por lo tanto, someterse a operaciones matemáticas
entre sí. Por eso, no es posible afirmar que el estado “Alta” (3) signifique que la
reproductibilidad es tres veces mayor que el estado “Baja” .
Codificación de caracteres:
3) Multiestado Cualitativo con secuencia lógica
Otra forma de codificar este tipo de caracteres es el “código aditivo” (Sneath y Sokal,
1973), nombre no muy feliz, ya que como hemos dicho antes, los números son
“etiquetas” que no pueden sumarse entre sí.
Estos coeficientes están definidos para comparar caracteres doble estado (1 o 0).
Para caracteres multiestados sin secuencia lógica también pueden aplicarse, puesto
que, como hemos visto éstos son reducibles a caracteres doble estado
OTU 2
Podrían representarse estas cuatro 1 0
posibilidades en una matriz de 2x2 de
la siguiente manera: 1
OTU1
Matriz de asociación de
0
la OTU 1 con la OTU 2
Medida de la Similitud:
Coeficientes de asociación
Volviendo a la MBD de nuestro problema de los clones *. Supongamos que queremos
comparar la similitud entre el clon 1 y el clon 2
3 2
0 * Se ha eliminado el carácter “reproductibilidad” (que es multiestado
(c) (c) con sequencia lógica) a fin de simplificar el desarrollo
Medida de la Similitud:
Coeficientes de asociación
Volviendo a la MBD de nuestro problema de los clones *. Supongamos que queremos
comparar la similitud entre el clon 1 y el clon 4
4 2
0
(c) (b)
Medida de la Similitud:
Coeficiente de Asociación Simple (SMC):
El coeficiente de asociación simple para cada par de OTUS (i y j) CLON 4
se define como:
1 0
𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑒𝑠 𝑞𝑢𝑒 𝑐𝑜𝑖𝑛𝑐𝑖𝑑𝑒𝑛 0 3
𝑆𝑀𝐶𝑖,𝑗 = 1
𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑒𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠 𝑐𝑜𝑚𝑝𝑎𝑟𝑎𝑑𝑜𝑠 (a) (d)
CLON 1
Este coeficiente se interpreta como la “probabilidad de que dos 4 2
OTUS coincidan en al menos un carácter” y matemáticamente 0
(c) (b)
se calcula como:
𝑆𝑀𝐶𝑖,𝑗
𝑎+𝑏 CLON 2
= 1 0
𝑎+𝑏+𝑐+𝑑
Para los ejemplos mostrados en las matrices de la derecha, 1 3
tenemos: 1
(a) (d)
CLON 1
0+2
𝑆𝑀𝐶1,4 = 0+3+4+2=0,22
3 2
1+2
0
𝑆𝑀𝐶1,2 = 1+2+3+3=0,33 (c) (b)
Por simplicidad, utilizaremos de aquí en mas el
Coeficiente de Asociación Simple (SMC):
Dado que queremos calcular la similitud de cada clon con todos los otros, deberíamos armar las
matrices de asociación (tarea) y calcular los Coeficientes SMC para todas las OTUS:
1+2
𝑆𝑀𝐶1,2 = 1+3+3+2=0,33 → El clon 1 y 2 tienen una similitud de 33 %
1+2
𝑆𝑀𝐶1,3 = 1+3+3+2=0,33 → El clon 1 y 3 tienen una similitud de 33 %
2+3
𝑆𝑀𝐶2,3 = 2+2+2+3=0,56 → El clon 2 y 3 tienen una similitud de 56 %
1+3
𝑆𝑀𝐶2,4 = 1+3+2+3=0,44 → El clon 2 y 4 tienen una similitud de 44 %
Observaciones:
1) Los coeficientes de asociación simple SMC son simétricos. Esto quiere decir que:
𝑆𝑀𝐶𝑖,𝑗 = 𝑆𝑀𝐶𝑗,𝑖
𝑆𝑀𝐶𝑗,𝑗 = 𝑆𝑀𝐶𝑗,𝑗
Matriz de Similitud:
Una vez calculados todos los SMC, los resultados pueden acomodarse en una matriz llamada
“Matriz de Similitud”.
OTU
1 2 3 … N-1 N
1 SMC 1,1
SMC 3, N
N SMC 1,N SMC 2, N SMC N-1,N SMC N,N
Matriz de Similitud:
Volviendo a nuestro ejemplo de los clones, la matriz de similitud es la siguiente:
1+2
𝑆𝑀𝐶1,2 = 1+3+3+2=0,33 Clon
1 2 3 4
1+2
𝑆𝑀𝐶1,3 = =0,33
1+3+3+2
0+2 1 1
𝑆𝑀𝐶1,4 = =0,22
0+4+3+2
2+3 C
𝑆𝑀𝐶2,3 = =0,56 2 0,33 1
2+2+2+3 l
o
1+3 n 3 0,33 0,56 1
𝑆𝑀𝐶2,4 = =0,44
1+3+2+3
Para calcular esta nueva matriz de similitud, hay que determinar ahora cuál es la similitud entre:
Clon
1 2 3-4 • El Clon 1 y el Clon 1 →1
• El Clon 1 y el Clon 2 → SMC 1,2 = 0,33
C 1 1 • El Clon 1 y el Cluster 3-4 ?
l • El Clon 2 y Clon 2 →1
o 2 0,33 1 • El Clon 2 y el Cluster 3-4 ?
n • El Cluster 3-4 y el Cluster 3-4 →1
3-4 ? ? 1
Dendograma
Para derteminar la similitud entre un cluster (en este caso 3-4) con las otras OTUs simples (clon 2 y
clon 1 en este caso), podemos utilizar el método del ligamiento promedio:
La similitud entre una OTU y un cluster es el promedio entre las similitudes de las OTU involucradas,
es decir:
• Similitud entre el cluster 4-3 y el clon 1 • Similitud entre el cluster 4-3 y el clon 2
𝑆𝑀𝐶3,1 + 𝑆𝑀𝐶4,1 𝑆𝑀𝐶3,2 + 𝑆𝑀𝐶4,2
𝑆𝑀𝐶3−4,1 = 𝑆𝑀𝐶3−4,2 =
2 2
0,56 + 0,44
𝑆𝑀𝐶3−4,2 = = 0,50
0,33 + 0,22 2
𝑆𝑀𝐶3−4,1 = = 0,28
2
1 2 3 4 1 2 3-4
1 1 1 1
C C
l 2 0,33 1 l
o 2 0,33 1
o 3 0,33 0,56 1
n n
4 0,22 0,44 0,89 1 3-4 0,28 0,50 1
Dendograma
Esta nueva matriz nos dice ahora que las OTUs mas relacionadas son el cluster (3-4) con el clon 2,
con una similitud de 50%
Agregamos este resultado a nuestra escala:
Clon
PORCENTAJE DE SIMILITUD
1 2 3-4 0 10 20 30 40 50 60 70 80 89 90 100
C 1 1
3
l
2 0,33 1 4
o
n 2
3-4 0,28 0,50 1
Para finalizar debemos ahora calcular la similitud entre el nuevo cluster [ (3-4) – 2] con la OTU
restante
Clon
𝑆𝑀𝐶(3−4),1 + 𝑆𝑀𝐶2,1
𝑆𝑀𝐶[ 3−4 −2],1 = 1 [(3-4)-2]
2
0,28 + 0,33 C
𝑆𝑀𝐶[ 3−4 −2],1 = = 0,31 1 1
2 l
o
n [(3-4)-2] 0,31 1
Dendograma
Esta nueva matriz nos dice ahora que las OTUs mas relacionadas son el cluster (3-4) con el clon 2,
con una similitud de 50%
Agregamos este resultado a nuestra escala:
Clon
PORCENTAJE DE SIMILITUD
1 2 3-4 0 10 20 30 40 50 60 70 80 89 90 100
C 1 1
3
l
2 0,33 1 4
o
n 2
3-4 0,28 0,50 1
𝑆𝑀𝐶(3−4),1 + 𝑆𝑀𝐶2,1 C
1 1
𝑆𝑀𝐶[ 3−4 −2],1 = l
2
0,28 + 0,33 o
𝑆𝑀𝐶[ 3−4 −2],1 = = 0,31 n [(3-4)-2] 0,31 1
2
Dendograma
Esta nueva matriz nos dice ahora que las OTUs mas Clon
relacionadas son el cluster[ (3-4) -2] con el clon 1, con 1 [(3-4)-2]
una similitud de 31%
C
1 1
l
o
n [(3-4)-2] 0,31 1
Agregamos este resultado a nuestra escala y así nos queda el dendograma completo:
PORCENTAJE DE SIMILITUD
0 10 20 30 31 40 50 60 70 80 89 90 100
3
4
2
1
Medida de la Similitud:
Coeficiente de Asociación de Jaccard (JAC):
El coeficiente de asociación de Jaccard entre dos OTUS (i y j) se
define como: CLON 4
1 0
𝑎
𝐽𝐴𝐶𝑖,𝑗 = 0 3
𝑎+𝑏+𝑐
CLON 1
1
(a) (b)
El coeficiente de Jaccard desestima las coincidencias del tipo 0,0. 4 2
Es decir, en datos del tipo presencia/ausencia, este coeficiente 0
(c) (d)
considera que la ausencia de una característica no es
representativa de la similitud.
Por poner un ejemplo, la ausencia de alas observada entre un grupo lejanamente emparentado
(como un camello, un piojo y un nematodo) resultaría un indicador absurdo de afinidad.
Sin embargo, podría objetarse que un carácter positivo, como la presencia de alas, podría inducir a
error también cuando se considera para un conjunto similarmente heterogéneo (por ejemplo,
murciélago, garza y libélula). Tampoco podemos argumentar que la ausencia de carácter puede
deberse a una multitud de causas y que, al fin y al cabo, sabemos poco sobre los orígenes de los
caracteres positivos coincidentes.
En conclusión, la elección de qué coeficiente utilizar dependerá de cada caso y el taxonomista debe
establecer cuál de ellos es el más representativo en dicho caso.
Coeficiente de Asociación de Jaccard
Matriz de Similitud
La matriz de similitud quedaría formada acomodando los índices de Jaccard en filas y columnas, tal
como lo hicimos con los índices SAC
OTU
1 2 3 … N-1 N
1 JAC 1,1
JAC 1,N
N JAC 2, N JAC 3, N JAC N-1,N JAC N,N
En Conclusión …
Hemos introducido (de manera muy elemental) algunos conceptos, herramientas y
métodos de la taxonomía numérica.
El coeficiente de asociación (ya sea el SAC o el JAC) es el “objeto” que nos permite dar
una estimación cuantitativa acerca de qué tan parecidas son dos unidades taxonómicas,
basada en la coincidencia de los estados que toman sus caracteres.