Está en la página 1de 19

El analisis estadstico de datos

composicionales
Vera Pawlowsky-Glahn
Dept. dInform`atica i Matem`atica Aplicada
Universitat de Girona
vera.pawlowsky@udg.es
1
ejemplo 1: hipotesis geneticas
genotipos en el sistema MN de grupos sanguneos
individuo MN MM NN
Ab1 0.13 0.01 0.86
Ab2 0.14 0.02 0.84
Ab3 0.21 0.01 0.78
Ab4 0.37 0.05 0.58
Ab5 0.39 0.03 0.58
Ab6 0.38 0.07 0.55
Ch1 0.49 0.25 0.26
Ch2 0.49 0.26 0.25
Ch3 0.50 0.28 0.22
Ch4 0.51 0.29 0.20
In1 0.41 0.25 0.26
In2 0.49 0.24 0.27
In3 0.49 0.32 0.19
individuo MN MM NN
In4 0.47 0.41 0.12
In5 0.46 0.43 0.11
InAm1 0.45 0.46 0.09
InAm2 0.43 0.48 0.09
InAm3 0.44 0.45 0.11
InAm4 0.40 0.57 0.03
InAm5 0.17 0.81 0.02
InAm6 0.18 0.79 0.03
Es1 0.38 0.58 0.04
Es2 0.34 0.60 0.04
Es3 0.33 0.65 0.02
Es4 0.30 0.65 0.05
Es5 0.19 0.80 0.01
Ab = Aborigen; Ch = Chino; In= Indio;
InAm = Indio Americano; Es = Eskimo
a pesar de la gran variabilidad observable en estos
datos, responden a una estabilidad subyacente, a
una ley genetica?
2
ejemplo 2: fraccionamiento de olivina magnesica
analisis qumicos de rocas del lago de lava Kilauea Iki (Hawaii)
SiO
2
TiO
2
Al
2
O
3
Fe
2
O
3
FeO MnO MgO CaO Na
2
O K
2
O P
2
O
5
0.4834 0.0233 0.1149 0.0159 0.1004 0.0018 0.1359 0.0986 0.0190 0.0044 0.0023
0.4890 0.0247 0.1240 0.0215 0.0942 0.0017 0.1110 0.1065 0.0202 0.0047 0.0024
0.4570 0.0170 0.0835 0.0212 0.1004 0.0017 0.2311 0.0699 0.0133 0.0032 0.0016
0.4558 0.0154 0.0818 0.0160 0.1046 0.0017 0.2391 0.0680 0.0128 0.0031 0.0015
0.4936 0.0331 0.1212 0.0177 0.0991 0.0017 0.1048 0.0967 0.0225 0.0065 0.0030
0.4667 0.0200 0.0952 0.0217 0.0982 0.0018 0.1934 0.0820 0.0154 0.0038 0.0018
0.4818 0.0234 0.1144 0.0226 0.0947 0.0018 0.1367 0.0988 0.0189 0.0046 0.0022
0.4797 0.0232 0.1119 0.0246 0.0937 0.0018 0.1434 0.0965 0.0186 0.0045 0.0021
0.4699 0.0201 0.0991 0.0213 0.0973 0.0018 0.1832 0.0859 0.0158 0.0037 0.0019
0.4917 0.0273 0.1254 0.0183 0.1002 0.0018 0.1005 0.1055 0.0209 0.0056 0.0026
0.4845 0.0247 0.1181 0.0281 0.0892 0.0018 0.1253 0.1019 0.0193 0.0048 0.0023
0.4794 0.0224 0.1118 0.0241 0.0937 0.0018 0.1465 0.0959 0.0182 0.0041 0.0021
0.4847 0.0235 0.1164 0.0104 0.1037 0.0018 0.1324 0.1013 0.0189 0.0045 0.0023
0.4897 0.0248 0.1205 0.0139 0.1017 0.0018 0.1118 0.1083 0.0173 0.0080 0.0024
0.4874 0.0244 0.1160 0.0138 0.1018 0.0018 0.1235 0.1045 0.0167 0.0079 0.0023
0.4968 0.0303 0.1293 0.0160 0.0969 0.0017 0.0885 0.1098 0.0224 0.0055 0.0027
0.4926 0.0250 0.1233 0.0126 0.1014 0.0018 0.1052 0.1106 0.0202 0.0048 0.0023
Richter y Moore (1966): la variabilidad en la mues-
tra se debe al fraccionamiento de olivina magnesica
a partir de una misma masa magmatica
conrma el analisis estadstico de los datos esta
armacion derivada de observaciones de campo y
de analisis petrogracos?
3
datos composicionales
x = [x
1
, . . . , x
d
] es una composicion con d-partes

_
_
_
x
i
> 0, para todo i = 1, ..., d
d

i=1
x
i
= (constante)
ejemplos
= 1 : probabilidades asociadas a variables
discretas; partes por unidad
= 100 : analisis qumicos de rocas; porcentajes
en general
= 180 : angulos de un triangulo en analisis de
formas
otras unidades frecuentes: ppm, ppb, ...
caracterstica esencial: valores relativos
4
espacio muestral: el smplex
o
d
= x = (x
1
, x
2
, . . . , x
d
)[x
i
> 0;
d

i=1
x
i
=
o
2
R
2
segmento
o
3
R
3
diagrama ternario
o
4
R
4
tetraedro
5
porque un enfoque estadstico particular para datos
composicionales?
en el espacio real sumamos vectores, los multipli-
camos por constantes, estudiamos su ortogonali-
dad, medimos distancias, ...
posible porque R
d
es espacio vectorial Eucldeo
pero:
la geometra Eucldea de R
d
no es una geometra
apropiada para fenomenos composicionales porque
(a) los resultados pueden no estar en el smplex
p.ej. al sumar vectores composicionales, al
multiplicarlos por una constante, al calcular
regiones de conanza o regiones predictivas
(b) las diferencias Eucldeas no siempre son me-
didas razonables
p.ej. entre el 5% y el 10% hay un incremento
relativo del 100%, entre el 50% y el 55% hay
un incremento relativo del 10%, pero la dis-
tancia Eucldea es la misma
6
una geometra especca para el smplex
operaciones basicas
clausura de z = [z
1
, ..., z
d
] R
d
+
c [z] =
_
z
1

d
i=1
z
i
, ,
z
d

d
i=1
z
i
_
perturbacion de x o
d
por y o
d
:
x y = c [x
1
y
1
, ..., x
d
y
d
]
potenciacion de x o
d
por R
x = c [x

1
, ..., x

d
]
(o
d
, , ) es un espacio vectorial real
7
la perturbacion: limitacion y/o potencialidad en
el estudio de fenomenos composicionales?
ejemplo: plantel con agua, tierra, y simiente
composicion en kilos: [180, 120, 60]
en proporciones: x
0
= [a
0
, t
0
, s
0
] = [3/6, 2/6, 1/6]
y transcurrida una noche: x
1
= [a
1
, t
1
, s
1
] = [6/9, 2/9, 1/9]
perturbacion correspondiente al cambio:
x
1
x
0
= c
_
6/9
3/6
,
2/9
2/6
,
1/9
1/6
_
=
_
1
2
,
1
4
,
1
4
_
que paso?
(a) llovio, resultando [360, 120, 60] kilos de agua, tierra
y simiente
(b) hizo viento, se llevo tierra y simiente, resultando
[180, 60, 30] kilos de agua, tierra y simiente
(c) llovio e hizo viento, resultando [270, 90, 45] kilos
de agua, tierra y simiente
el resultado da siempre la misma composicion
sin informacion externa es imposible decidir que
escenario es correcto (limitacion), pero podemos
usarlos como hipotesis de trabajo (potencialidad)
8
producto escalar, norma y distancia
x, y)
a
=
1
2d
d

i=1
d

j=1
ln
x
i
x
j
ln
y
i
y
j
|x|
a
=

_
1
2d
d

i=1
d

j=1
_
ln
x
i
x
j
_
2
d
a
(x, y) =

_
1
2d
d

i=1
d

j=1
_
ln
x
i
x
j
ln
y
i
y
j
_
2
_
o
d
c
, , , ., .)
a
_
es un espacio Eucldeo
geometra de Aitchison sobre el smplex
9
espacio real R
d
smplex o
d
suma: x + y perturbacion: x y
producto: x potenciacion: x
distancia Eucldea:
d
e
(x, y)
vector de medias:
x =
1
n
n

=1
x

distancia de Aitchison:
d
a
(x, y)
centro metrico:
x =
1
n
(

n
=1
x

)
= c [g
1
, g
2
, ..., g
d
]
g
i
=
_
n

=1
x
i
_
1/n
distancia y traslacion:
d
e
(x + z, y + z) = d
e
(x, y)
distancia y escalado:
d
e
( x, y) = [[d
e
(x, y)
dist. y perturbacion:
d
a
(x z, y z) = d
a
(x, y)
dist. y potenciacion:
d
a
(x, y) = [[d
a
(x, y)
10
operacion centrado: representar x x
observaciones:
(a) la muestra centrada gravitara entorno al bari-
centro
(b) es muy util para visualizar estructuras en los
datos en un diagrama ternario
(c) la perturbacion transforma lneas rectas en lneas
rectas es posible incluir en la representaci on
graca tanto tramas de referencia como campos
composicionales sin riesgo de distorsion no lin-
eal
11
representacion habitual de datos composicionales:
coordenadas en la base canonica de R
d
:
x = x
1
[1, 0, . . . , 0] + + x
d
[0, . . . , 0, 1]
=

d
i=1
x
i
e
i
ventaja: facil de interpretar
problemas:
(a) no toda combinacion de coecientes lleva a un
elemento de o
d
(valores negativos y nulos no
estan permitidos)
(b) los vectores e
1
, e
2
, . . . , e
d
no pertenecen a o
d

no es ni un sistema de generadores, ni una base


(c) trabajar con la perturbacion y la potenciacion
no es facil
pero:
o
d
espacio vectorial Eucldeo
permite la representacion en coordenadas
12
coordenadas alr (additive logratio)
alr(x) =
_
ln
x
1
x
d
, ln
x
2
x
d
, ..., ln
x
d1
x
d
_
problema: la base no es ortogonal
d
a
(x, y) ,= d
e
(alr(x), alr(y))
coordenadas clr (centered logratio)
clr(x) =
_
ln
x
1
g(x)
, ln
x
2
g(x)
, ..., ln
x
d
g(x)
_
con g(x) =
_

d
i=1
x
i
_
1/d
= media geometrica de x
ventaja: d
a
(x, y) = d
e
(clr(x), clr(y))
problema: son coordenadas en un sistema ge-
nerador de R
d
y los puntos se sit uan sobre un
hiperplano por el orgen ortogonal al vector
[1, 1, . . . , 1] matriz de covarianzas singular
13
coordenadas ilr (isometric logratio)
ilr(x) =
_
1

2
ln
x
1
x
2
,
1

6
ln
x
1
x
2
x
3
x
3
, ...,
1
_
d(d 1)
ln

d1
i=1
x
i
x
d1
d
_
ventaja: coordenadas en una base ortonormal
d
a
(x, y) = d
e
(ilr(x), ilr(y))
la matriz de covarianzas no es singular
podemos aplicar estadstica multivariante habi-
tual a las coordenadas
desventaja: resultados difciles de interpretar
solucion: calcular en coordenadas en una base
ortonormal y expresar los resultados en la base
canonica de R
d
sin abandonar el simplex
14
trabajar en coordenadas permite aplicar cualquier
tecnica multivariante
permite denir distribuciones en el smplex, p.ej.
x sigue una normal en o
d
las coordenadas
ilr(x) siguen una normal multivariante en R
d1
los parametros se estiman a partir de la ex-
presion de las observaciones en coordenadas, p.ej.
por maxima verosimilitud
pueden construirse regiones predictivas para las
observaciones y regiones de conanza para el
centro metrico
pueden utilizarse tecnicas habituales, como analisis
de componentes principales, cluster, discrimi-
nante, factorial, ...)
problema: interpretacion en partes
15
1

6
ln
MN
2
NNMM
= 0, 5548
ln
MN
2
NNMM
= 1, 3590

MN
2
NNMM
= 3, 8922
MN
2
= 3, 8922 NN MM
ley de la genetica de Hardy-Weinberg:
MN
2
= 4 NN MM
16
el biplot como herramienta graca
del analisis exploratorio
es la representacion simultanea de las variables
y observaciones expresadas en coordenadas clr
mediante una aproximaci on de rango dos
elementos principales de un biplot
el origen O
d vertices
i
n casos (observaciones)

d radios O
i
vnculos
i

j
17
propiedades
[
i

j
[
2
Var
_
ln
x
i
x
j
_
[O
i
[
2
Var
_
ln
x
i
g(x)
_
cos(
i
O
j
) Corr
_
ln
x
i
g(x)
, ln
x
j
g(x)
_
interseccion (
i

j
,
k

) = M
cos(
i
M
k
) Corr
_
ln
x
i
x
j
, ln
x
k
x

_

i

j
y
k

en angulo recto cos(


i
M
k
) 0
Corr
_
ln
x
i
x
j
, ln
x
k
x

_
0 posible independencia
biplot de una subcomposicion seleccionar
vertices
[
i

j
[ 0 Var
_
ln
x
i
x
j
_
0
x
i
x
j
constante
vertices aprox. colineales
biplot uni-dimensional
variabilidad uni-dimensional
18
conclusiones
para el estudio de fenomenos aleatorios en ge-
neral, y composicionales en particular, es esen-
cial determinar el espacio soporte de las obser-
vaciones y optar por una metrica adecuada al
problema antes de iniciar el estudio
si el soporte y la metrica corresponden a una
estructura de espacio Eucldeo, en general es
mas facil trabajar en coordenadas respecto a
una base ortonormal
la geometra de Aitchison en el smplex y las co-
ordenadas clr e ilr permiten aplicar tecnicas de
analisis de datos e inferencia estadstica a con-
juntos de datos composicionales sin problemas
el problema pendiente es hallar en cada caso las
expresiones que mejor facilitan la interpretaci on
de los resultados
19

También podría gustarte