Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Exhibit 7.9: Gráfico de barras de los 10000 valores de las soluciones de tres clústers obtenidos al
permutar las columnas de los datos de presencia-ausencia, incluido el valor que observamos en la
matriz de datos original no permutada.
level frequency
0.8000 2
0.7778 35
0.7500 363
0.7143 1360
0.7000 189
0.6667 2967
0.6250 2199
0.6000 822
0.5714 1381
0.5555 207
0.5000 441
0.4444 8
0.4286 23
0.4000 2
0.3750 1
La segunda y posible suposición alternativa para el cálculo de la distribución nula podría ser que los
márgenes de la columna no son fijos, sino aleatorios; en otras palabras, relajamos el hecho de que
había exactamente 3 muestras que tenían especies sp1, por ejemplo, y asumimos una distribución
binomial para cada columna, usando la proporción observada (3 de 7 para especies sp1) y el número
de muestras ( 7) como los parámetros binomiales. Por lo tanto, puede haber 0 hasta 7 presencias
en cada columna, de acuerdo con las probabilidades binomiales para cada especie. Esto proporciona
un rango mucho más amplio de posibilidades para la distribución nula y conduce a una conclusión
diferente sobre nuestros tres grupos observados.
La distribución de permutación ahora se muestra en la figura 7.10, y ahora nuestro valor observado
de 0,4286 no parece tan inusual, ya que 917 de los 10000 valores en la distribución son menores o
iguales a él, dando un valor P estimado de 0,0917.
Exhibit 7.10 Gráfico de barras de los 10000 valores de las soluciones de tres grupos obtenidos
mediante la generación de datos binomiales en cada columna de la matriz de presencia / ausencia,
según la probabilidad de presencia de cada especie.
level frequency
0.8750 2
0.8571 5
0.8333 23
0.8000 50
0.7778 28
0.7500 201
0.7143 485
0.7000 21
0.6667 1298
0.6250 1171
0.6000 895
0.5714 1960
0.5555 468
0.5000 2299
0.4444 177
0.4286 567
0.4000 162
0.3750 107
0.3333 64
0.3000 1
0.2857 12
0.2500 3
0.2000 1
01234567
Si esta suposición (y otras similares para las otras nueve especies) es realista, entonces la
significación del conglomerado es 0.0917. Sin embargo, si se adopta la primera suposición (es decir,
la probabilidad de observar 3 presencias para la especie s1 es 1 y 0 para otras posibilidades),
entonces la significación es 0.0028. Nuestra sensación es que tal vez la suposición binomial es más
realista, en cuyo caso nuestra solución de clúster podría observarse en poco más del 9% de los casos
aleatorios, esto nos da una idea de la validez de nuestros resultados y si se trata de clusters reales
o no. El valor del 9% es una medida de "agrupamiento" de nuestras muestras en términos del índice
de Jaccard: cuanto más baja es esta medida, más se agrupan, y cuanto mayor es la medida, más se
encuentran las muestras en un continuo. La falta de evidencia de "agrupamiento" no significa que
la agrupación no sea útil: es posible que deseemos dividir el espacio de los datos en regiones
separadas, a pesar de que los límites entre ellos son "borrosos". Y hablando de "borroso", hay una
forma alternativa de análisis de conglomerados (análisis de conglomerados difusos, no tratado
específicamente en este libro) donde las muestras se clasifican confusamente en grupos, en lugar
de estrictamente en un grupo u otro: esta idea es similar a la codificación difusa que describimos en
el Capítulo 3.