Está en la página 1de 43

DISTANCIAS

BIOLÓGICAS
Aplicaciones en Recursos Genéticos
y Fitomejoramiento
Distancias Biológicas
 PROPOSITO: Estudiar métodos numéricos que señalen
diferenciación ó similitud entre taxas, razas,etnias,especies.
Cuando se registran numerosas (multivariadas) asociadas ó no
continua ó cualitataivas.

 DISTANCIA: el concepto físico o espacial de alejamiento ó cercanía


entre objetos se desea aplicar en biología.
 Alejamiento: diferencia,disimilaridad,diferenciación.

 Cercanía: similitud,parecido,afinidad.

 Ejemplo: Bogota y Tokio Bogota y Líbano


Distancias Biológicas
 Hace referencia a dos puntos, dos objetos en el espacio i.e. Pares
de Puntos (A y B): (A y C)

 Es necesario: Conceptuarlo, formalizarlo, formularlo


matemáticamente: Sistema de Coordenadas en el Plano Cartesiano
(plano euclidiano).

 Los puntos, objetos se identifican con coordenadas, existe un


origen ó centralización.

 Considere el plano cartesiano, ubique dos objetos A y B. La


distancia entre ellos es la línea mas corta que los une.
Se calculara esa distancia entre A
y B :la línea mas corta
X2 (XA1 ,XA2)

d2
b2
(XB1 ,XB2)
a2
Pitágoras: X1

d2=a2 + b2 = (XB1 – XA1 )2 + (XA2 – XB2)2


d2AB=(XA1 - XB1)2 +(XA2 – XB2)2
d2AB=(XA1 - XB1)2 +(XA2 – XB2)2 + (XA3 – XB3)2 +
………….
d2AB= p 2 “distancia euclidiana”
∑ j=1  X Aj−X Bj
Entre poblaciones A y B XAj y XBj; son las p-
características que se registran en A y B
respectivamente.
Distancias biológicas
Note:
 Se expresa en términos al cuadrado.
 Las XAj y XBj pueden estar en diferentes
unidades (metros, gramos, numero, etc).
 Las XAj y XBj son independientes se
construyo en un plano “ortogonal”.
 Las unidades tienen peso (1000g no es
lo mismo que 1kg).
UNIDADES o ESCALA DE LAS
VARIABLES
 La escala ó unidad modifica: acostumbra a
estandarizar las variables: media:0 y
varianza:1
 Existen distancias invariantes a escala y
considera asociación: Chord.
 Tienen la misma unidad: frecuencia de
genes, marcadores moleculares; no
estandariza y la asociación se involucra.
CARACTERÍSTICAS MEDIDA: METRICO
 Concepto matemático! Controversia.
 Prefieren métricas Vs no métricas.
 Las métricas permiten transformaciones a
coordenadas principales: observar gráficamente
relaciones similitud ó diferencia entre conjuntos
de poblaciones. C

d2AB es metrica si:


A B

1.d2AB≥ 0 2.d2AB = d2BA 3.d2AA= 0

4.d2AB ≤ d2AC + d2CB


Si adolece 4 no es métrica pero es una distancia
entre A y B. Euclidiana es Métrica.
CLASES DE DISTANCIAS:
CONTINUAS
p
1.d 2
AB = ∑ j=1  X Aj−X Bj2 EUCLIDIANA

2. d2AB=1/p p
Euclidiana Promedio
∑ j=1  X Aj− X Bj 2

3.D2AB= p
Euclidiana estandarizada
∑ j=1 Z Aj−Z Bj2
CLASES DE DISTANCIAS:
CONTINUAS
p
4.d2AB =
∑ j=1
∣X Aj−X Bj∣
Manhattan-city block
p
∑  X Aj−X Bj2
j=1
p p
5.d2AB= 1 -  ∑
j=1
X 2Aj  ∑ X2Bj Cuerda
j=1

p
∑ j=1 ∣X Aj−X Bj∣
6. d2AB= ∣X Aj∣∣X Bj∣ Camberra Bray-Curtis
DISTANCIA- EUCLIDEANA
 Considere 4 razas de maíz: A B C D
 Cinco características:
X1=alt(m) X2=Long mzc(cm) X3=N.hojas
X4=D. tallo(cm) X5=N.Hil
X1 X2 X3 X4 X5
A 2.8 15 15 2.7 13
B 2.5 16 16 2.6 14
C 3.0 21 13 2.4 18
D 3.0 20 12 2.3 19
X
 2.83 18 13.5 2.5 16

S 0.24 2.9 1.3 0.2 2.9


D2AB=(2.8-2.5)2 + (15 -16)2 +…+(13-14)2 = 3.10
D2AC=(2.8 -3.0)2 + (15-21)2 +…+(13-18)2 = 65.13
.
.
.
D2CD=(3.0-3.0)2 +(21-20)2 +…+(18-19)2 = 3.01

0
3.10 0
D2= 65.13 42.29 0
70.20 21.61 3.01 0
DISTANCIA-EUCIDEANA
ESTANDARIZADA
LOS DATOS ANTERIORES SE ESTANDARIZAN:
X−X
Z=
S

(2.8-2.83)/0.24 = -0.125
.
.
(19-13)/2.9 = -1.03
Z1 Z2 Z3 Z4 Z5
A -0.125 -1.03 1.15 1.0 -1.03
B -1.375 -0.69 0.38 0.5 -0.68
C 0.708 1.03 -0.38 -0.5 0.68
D 0.708 0.69 -1.15 -1.0 1.03
X

0.0 0.0 0.0 0.0 0.0
S 1 1 1 1 1

D2AB= (-0.125 +1.375)2 +……(-1.03 + 0.68)2 = 2.64

0 0
2.64 0 3.10 0
D2= 10.45 10.72 0 D2= 65.13 42.29 0
17.06 11.51 1.08 0 70.20 21.61 3.01 0
DISTANCIAS GENETICAS
 Cuando se observan seres vivos a nivel de genoma, se pueden
registrar sus frecuencias de genes: El locus U puede tener alelos
u1, u2, u3, u4, u5. con frecuencias alelicas P1, P2, P3, P4, P5.

 A dos taxas A y B se les puede registrar las frecuencias genicas


en varios loci 4, R, S, T… y se tenga PA1, PA2, PA3,… y PB1, PB2,PB3.
entonces la distancia euclidiana entre A y B es:
d2=∑(Paj – PBj)2 sobre todos los loci y alelos
1.PAj y PBj misma medida
2.Son independientes.
3.Es métrica
4.Buena medida!
CLASES DE DISTANCIAS
“GENETICAS”
p
1 2
ROGERS d 2= ∑  P Aj−pBj 
AB 2l j=1
p
2
CAVALLI−SFORZA d 2= ∑   P Aj−  PBj 
AB j=1

P
1
PREVOSTI d 2= ∑ ∣P Aj −PBj∣
AB 2l j=1
Distancia genética
Edwards – Cavalli Sforza
p
P AjPBj 
NEI d
AB2 =−Ln

[j=1


p p
∑ P Aj2 ∑ PBj2
j=1

p
j=1
]
CUERDA d
AB
2= 4 [ l− ∑
j=1
 P Aj P Bj  ]
3
JUKES −CANTOR d 2= Ln  q AB−1 
AB 4
qAB=Proporción bases común
l = ≠ Loci
CALCULO DISTANCIA “ROGERS”
D2AB=∑(PiA – PiB)2

LOCUS 1 LOCUS 2
Población P1 P2 P1 P2 P3

A 0.6 0.4 0.3 0.2 0.5


B 0.3 0.7 0.6 0.1 0.3
C 0.4 0.6 0.7 0.2 0.1
D 0.2 0.8 0.2 0.7 0.1

D2AB= (0.6 - 0.3)2 +……..+(0.5 - 0.3)2 =0.27


.
.
D2CD= (0.4 - 0.2)2 +….....+ (0.1 – 0.1)2 =0.82

0
0.27 0
D2= 0.40 0.08 0
0.58 0.58 0.82 0
MATRIZ DE DISTANCIA NEI EN
B.NAPUS.
1 0.00

[ ]
2 0.14 0.00
3 0.57 0.50 0.00
4 0.07 0.08 0.54 0.00
5 0.37 0.43 0.15 0.47 0.00
6 0.38 0.45 0.63 0.49 0.38 0.00
7 0.06 0.14 0.47 0.12 0.29 0.28 0.00
8 0.33 0.20 0.40 0.27 0.33 0.56 0.39 0.00
DENDOGRAMAS
 Representación bidimensional de una matriz de distancias;
facilita el análisis por ser una expresión gráfica.

La matriz de distancias puede ser métrica ó no.

 Métodos:
1.Distancia mínima (single linkage)
2.Distancia máxima (complete linkage)
3.Promedio (UPGMA)
4.Mínima varianza.
5.Centroide.
ALGORITMO DEL DENDOGRAMA
• De la matriz encuentre la distancia mínima entre un par
de taxas i.e. d2uv. Agrupe el par mediante (u,v) y grafique

2. Calcule la distancia “mínima (máxima o promedio ó


centroide etc) entre (u,v) y el resto de taxas
3.Construya una nueva matriz eliminando U y V de filas y
columnas y coloque el conglomerado (u,v) como una
“nueva taxa”
4.Repita 1.2.3 termine.
Ejemplo: método del mínimo (single linkage)

1 0
1. 2 9 0 ⇒
3∣ 3 7 0 ∣
4 6 5 9 0
5 11 10 2 8 0

2. d2(3,5),1=Min (d3,1; d5,1) = Min (3,11) =3


d2 (3,5) ,2 =Min (d3,2; d5,2) = Min (7,10) =7
d2(3,5) ,4=Min (d3,4; d5,4) = Min (9,8) = 8
 3,5  0
1
2
4
[ ]
3 0
7 9 0
8 6 5 0

d(35,1),2=Min [d35,2;d1,2]= Min [7,9]=7


d(35,1),4=Min [d35,4;d1,4]= Min [8,6]=6
351 2 4
351 0
2 ∣7 0 ∣ ⇒
4 6 5 0

 d(2,4),(351)=Min[d2,351;d4,351]=Min[7,6]=6
2,4 3,5,1
2,4 0
∣ ∣⇒
3,5,1 6 0
EJEMPLO: Método
Promedio(UPGMA)
1 2 3 4 5
10
29 0
3 ∣3 7 0 ∣⇒
46 5 9 0
5 11 10 2 8 0

 d(3,5)1=1/2[d31+d51=1/2[3+11]=7.0
 d(3,5)2=1/2[d32+d52=1/2[7+10]=8.5
 d(3,5)3=1/2[d34+d54=1/2[9+8]=8.5
3,5 1 2 4
3,5 0
1 7.0 0
∣ ∣⇒
2 8.5 9 0
4 8.5 6 5 0

d(2,4)3,5=1/4[d23+d43 +d25+d45]=1/4[7+9+10+8]=8.5
d(2,4)1=1/2[d21+d41]=1/2[9+6]=7.5
2.4 3.5 1
2.4 0
3.5 ∣8.5 0 ∣⇒
1 7.5 7 0

 d(351)24=1/6[d32+d52+d12+d34+d54+d14]=1/4[7+10+9
+9+8+6]=8.2
COEFICIENTES
CONCORDANCIA-SIMILITUD
 Ampliamente usados en ecología.
 Buscan cuantificar variables que solo toman 2
valores: Ausencia ó Presencia del carácter.
 Son conocidos (algunos) desde el principio de
siglo.
 Han recobrado vigencia: Marcadores
bioquímicos-serológicos-moleculares
biodiversidad.
 Expresan “similitud”, “semejanza”, “afinidad”,
entre pares de “taxas” Razas “colectas”
 Se pueden traducir a distancias con relaciones
matemáticas.
Suponga 4 “colectas”, “razas”, clones,
especies. A B C D
1=Presencia 1 1 0 0
0=Ausencia 0 0 1 1
1 0 1 0
 Media similitud entre A,B; A,C; 0 0 0 1
A,D; etc. sería la proporción de 1 0 0 1
“concordancia”:≠ceros y ≠unos 0 1 0 0
 Es afinidad: Señala parecido,
comparten el mismo resultado;
[(0,0) y (1,1)]
 El carácter (banda) esta
“presente” ó “ausentes”
simultáneamente
SAB= 3/6: (1,1) , (0,0) , (0,0)
SAC= 3/6: (1,1) , (0,0) , (0,0)
SAD= 2/6: (1,1) , (0,0)
SBC= 2/6: (0,0) , (0,0)
SBD= 1/6: (0,0)
SCD= 3/6: (0,0) , (1,1) , (0,0)

Otra medida: Solo presencias (1,1)


La presencia es mas importante, expresa
mas semejanza que la ausencia
SAB= 1/4: (1,1)
SAC= 1/4: (1,1)
SAD= 1/5 : (1,1)
SBC= 0
SBD= 0
SCD= 1/5 : (1,1)
Se construye matriz de similitud
A 1

[ ]
A 1
B
C
D
[ 3 /6 1
3 /6 2/6 1
2 /6 1/6 3 /6 1
Concordancia simple
] B
C
D
1/4 1
1/4 0 1
1/5 0 1/4 1
Coeficiente Jaccard
Distancia Euclidiana: DAB=2; DAC=3; DAD=4
DBC=4; DBD=4; DCD=3
A 0
B
C
D
[ ]
2 0
3 4 0
4 4 3 0
: Distancia Euclidiana

En general para un par de razas se tiene


la siguiente tabla. B
a b
n= a+b+c+d A
c d
SAB=(a+d)/n :Coef. Concor. Simple
SAB=a/(a+b+c) :Coef. Con. Jaccard
DAB2=B+C :Distancia Euclidiana
COEFICIENTE ECUACIÓN AUTOR
1. Simple (a+d)/n Sokal,Michever
1958
2. Jaccard a/(a+b+c) Jaccard 1945
3. Dice 2a/2a+b+c Dice.1945
4. Nei 2a/b+c Nei.1987

5. Q Euclid B+c
RELACIÓN ENTRE DISTANCIAS
Y SIMILITUDES
 En general mediante ecuaciones
algebraicas se pueden construir distancias
a partir de similitudes.
 La literatura plantea varias similitudes así:
• Dij2= 1-Sij
• D 2= 2(1-S ) Cover(1966):D ij =2(1-Sij)
2
ij ij

• Dij2= 1/(1+Sij) Solo tiene esa


propiedad de distancia
• Dij2= 1/(1-Sij)
DATOS UCHUVA
Paysandú La Selva
DATOS UCHUVA
accesion Paysandu_37 La Selva_37
37 0.00 0.00
40 2.14 0.92
41 0.81 1.42
43 0.66 0.98
44 0.26 1.12
45 0.55 0.70
47 1.78 1.78
48 0.38 0.52
49 1.29 0.96
50 1.66 1.12
51 0.76 0.69
55 0.45 2.13
56 1.20 0.77
57 1.40 1.28
58 0.67 1.79
59 1.35 1.02
60 0.86 0.81
61 0.35 1.29
63 0.67 1.67
64 1.32 0.90
65 1.27 0.70
66 1.34 0.65
67 0.22 0.86
68 0.51 0.56
69 0.19 1.20
70 0.44 0.62
71 1.61 1.14
74 0.34 0.62
75 2.17 1.41
77 0.40 2.01
80 0.94 1.48
81 0.49 1.17
82 2.19 0.95
122 1.18 1.14
Datos Uchuva
Datos Uchuva
¿Qué es un marcador?
Variable Label Porcentaje
Máxima AT_std the standard deviation, AT 39.13 Porcentaje de
variabilidad entre
AVH_std
TAC_std
the standard deviation, AVH
the standard deviation, TAC
0.00
4.35
accesiones que
accesiones RC_std the standard deviation, RC 2.17 el marcador
AC_std the standard deviation, AC 2.17
COS_std the standard deviation, COS 0.00 presentó
HC_std the standard deviation, HC 0.00
Mínima PT_std the standard deviation, PT 50.00 variabilidad entre
variabilidad
PHH_std
PEH_std
the standard deviation, PHH
the standard deviation, PEH
60.87
73.91
plantas
RP_std the standard deviation, RP 23.91
dentro de TS_std the standard deviation, TS 10.87
accesiones CT_std
FLF_std
the standard deviation, CT
the standard deviation, FLF
2.17
6.52
FMF_std the standard deviation, FMF 32.61
FBF_std the standard deviation, FBF 91.30
AH_std the standard deviation, AH 17.39
CC_std the standard deviation, CC 50.00
CCI_std the standard deviation, CCI 71.74
CP_std the standard deviation, CP 43.48
CCM_std the standard deviation, CCM 0.00
FF_std the standard deviation, FF 34.78
CFM_std the standard deviation, CFM 4.35
FCP_std the standard deviation, FCP 10.87
FEE_std the standard deviation, FEE 19.57
FC_std the standard deviation, FC 21.74
FS_std the standard deviation, FS 0.00
CS_std the standard deviation, CS 0.00
DATOS P. INFESTANS
Muchas gracias!!!

También podría gustarte