Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
Manual
ANÁLISIS MÚLTIVARIADO Y SUS APLICACIONES
EN BIOLOGÍA DE LA CONSERVACIÓN
Mg. Héctor Aponte Ubillús
2014
1
Héctor Aponte Ubillús
Biólogo egresado de la Universidad Nacional
Mayor de San Marcos con especialidad en
Botánica, con Maestría en Ecología,
Biodiversidad y Evolución (EBE) en la
Universidad Paris Sud (Orsay - Francia)
dentro de la especialidad de Ingeniería
Ecológica y Gestión de Ecosistemas.
Maestría en Botánica Tropical dentro de
la mención en Taxonomía y Sistemática
Evolutiva de la Universidad Nacional Mayor
de San Marcos. Estudios Doctorales en
Ciencias Biológicas (UNMSM). Profesor de
Ecología, Diversidad Vegetal y Evolución de
la Universidad Científica del Sur desde el año
2009. Investigador Asociado del Museo de
Historia Natural - UNMSM. Autor de
múltiples artículos científicos y libros de
divulgación de la flora peruana.
E-mail: haponteu@yahoo.fr
2
Presentación
Sin entrar en los detalles mátemáticos, esta guía intenta presentar las principales herramientas
del estudio de la estadística multivariada, empezando por el estudio de distancias (base del
ordenamiento multivariado) y entrando luego a los estudios multivariados exploratorios y a las
pruebas de hipótesis. Si desea ahondar sus conocimientos en estos tópicos recomiendo la lectura
de libros especializados (por ejemplo Dytham 2011, Emden 2012), o inclusive del manual del
PAST (Hammer et al. 2001) que contiene ejemplos bastante didácticos . Todos estos
conocimientos serán tocados en el contexto de la Biología de la Conservación, parte de la
Biología que nos congrega para lograr hacer un uso sostenible de los bienes y servicios de los
ecosistemas.
3
http://capacitacionvirtualbp.com
Contenido
Presentación .................................................................................................................................. 3
Contenido ...................................................................................................................................... 4
4
Permutación de dos grupos ..................................................................................................... 24
Análisis de varianza multivariado no paramétrico de una o dos vías (One-way /Two way
NPMANOVA, PERMANOVA) ............................................................................................. 25
5
Un vistazo al software que utilizaremos: PAST 2.17
A diferencia de otros programas estadísticos, PAST es un software amigable e intuitivo. Su
plataforma se asemeja bastante a la plataforma de programas como Excel y Access de Microsoft
Office, lo que hace que su manipulación sea de alguna manera conocida (Figura. 1). No cuenta
con una versión en español, por lo que todas las indicaciones y comandos están en inglés.
La Barra de herramientas (de izquierda a derecha) contiene todas las pestañas mostradas en la
figura 2, de las cuales utilizaremos:
6
Archivo (File): En ella encontrará las opciones para guardar, abrir, crear e imprimir un
archivo.
Editar (Edit): Aquí se encuentran todas las opciones para copiar, pegar, remover o
transponer los datos, insertar o eliminar columnas. PAST permite también retroceder
(undo) o rehacer (redo) las acciones, pero estas son limitadas.
Transformar (Transform): Esta pestaña tiene todas las opciones necesarias para
transformar los datos (por ejemplo logarítmicamente o transformar los datos a
presencia/ausencia).
Gráficos (Plot): Permite hacer gráficos de doble entrada, gráficos de cajas e histogramas
entre otros gráficos. Una vez generado el gráfico es posible encontrar las herramientas
de edición de los gráficos (haciendo clic derecho) así como guardar o copiar la imagen
que hemos generado.
Estadísticos (Statistics): Aquí se encuentran las opciones para realizar análisis
estadísticos univariados y los índices de distancias.
Multivariados (Multivar): Aquí se encuentran las opciones para realizar análisis
estadísticos multivariados, incluyendo los análisis de agrupamiento (Cluster analysis).
Además de ello hay que considerar que PAST es un software libre, que no requiere de una
instalación (lo que permite llevar como un ejecutable en USB) y que no consume mucha
memoria. Al mismo tiempo, debemos de considerar que por ser un software pequeño, tiene sus
limitaciones (por ejemplo, el tamaño límite de la base de datos). A pesar de ello, PAST es un
programa muy versátil y portátil, lo que lo convierte en una muy buena herramienta para la
evaluación de datos estadísticos y de la diversidad.
7
Parte 1. Medidas de distancia y similitud
La base para poder hacer análisis multivariados está en la correlación y covarianza, así como en
el análisis de distancias entre vectores. Las medidas de distancia y similitud sirven para saber la
similitud o diferencia entre dos vectores así como correlaciones (distancias matemáticas) o de
dos puntos en el espacio (distancia geográfica). Biológicamente, estos parámetros permiten ver
diferencias o semejanzas entre comunidades tratando a las especies como variables continuas,
discontinuas o de presencia/ausencia. También, estas medidas de distancia son utilizadas para
ver similitudes y diferencias entre secuencias génicas, lo cual no es nuestro objetivo pero es
bueno mencionarlo. Estas medidas de distancia son específicas al tipo de comparación que se
quiera realizar, por ello es importante conocerlas, para poder saber con qué distancia podemos
responder la pregunta científica planteada. A continuación, usted podrá encontrar las fórmulas
de los índices de distancia y similitud que utilizaremos (basado en Hammer et al. 2001). Los
cálculos pueden variar de acuerdo a arreglos realizados por los autores. Las fórmulas que
encontrará usted, se basan en las que utilizar PAST 2.17 para hacer los cálculos.
Mahnattan
Mahalanobis
Grower
Chord
Distancia Euclideana
8
Correlación Cosine
Jaccard
Raup – Crick
BrayCurtis
Ochiai
9
Morisita
Horn
10
http://capacitacionvirtualbp.com
Por otro lado tenemos las medidas de similitud comunitaria. Aquí se encuentran aquellas
medidas que consideran como los componentes de un vector a especies, en consecuencia los
valores deben ser positivos. Estos índices trabajarán con valores de abundancia o de presencia
ausencia. Por ejemplo los índices de Sorenssen, Jaccard, Kuklinski, Ochiay, Simpson y Raup-
Crick utilizarán valores binarios de presencia ausencia. De ellos, Sorenssen y Jaccard son
similares, pero Sorenssen valora más las especies comunes. Otros índices como Bray-Curtis,
Morisita y Horn utilizan datos de abundancia. De estos últimos Morisita tiene mayor
aplicabilidad que Horn, ya que este último aplica logaritmos (imposible con abundancia 0),
además es más sensitivo a las especies dominantes. Wolda (1981) comparó 22 índices,
indicando que Morisita da mayor ventaja dado que es independiente de la talla de la muestra y
de la diversidad. Sin embargo indica que es muy sensible a cambios en la abundancia de las
especies dominantes, por lo que conviene utilizar transformaciones logarítmicas de sus
abundancias. Por otro lado Bray-Curtis es muy utilizado en análisis de Biología Marina, por lo
que resulta importante utilizarlo en este campo para comparaciones.
Los índices de Similud los encontraremos en Similarities and Distance Indices en la pestaña
Statistics (Figura 3).
El resultado del análisis es una matriz de similitud, donde podemos elegir la medida de similitud
entre los vectores según nuestras necesidades (Figura 4). PAST, convierte automáticamente los
valores de abundancia a presencia ausencia si se requiriera. Recuerde siempre COLOCAR LAS
ESPECIES EN LAS COLUMNAS Y LOS TRANSECTOS EN LAS FILAS. Si sus datos no
estuvieran ordenados de esa forma los puede transponer (siga la ruta edit-> Transpose). Pruebe
estas opciones con el ejemplo 0 (similitud).
11
Figura 4. Matriz de similitud
12
Parte 2: Gráficos con Medidas de Similitud (Clustering)
Es conocido que una imagen habla más que mil palabras, por ello es de mucha utilidad expresar
la matriz de similitud en un gráfico; a este proceso se le llama Clustering. El producto es un
dendrograma construido a partir del agrupamiento de los puntos según su similitud y distancia
entre los vectores (que en caso del análisis biológico son comunidades).
13
http://capacitacionvirtualbp.com
• ¿Qué índices podremos utilizar para este juego de datos?¿Cuál representa mejor la
similitud?
• ¿Cuál de las comunidades presenta mayor diversidad Beta? ¿Todos los índices indican
lo mismo? ¿Cómo afectaría ello sus decisiones de conservación?
14
sea diferente a la encontrada en hábitats circundantes, principalmente respecto a su
diversidad, estructura, fisiología y ecología (Figura 6).
• ¿Cuán similares son los puntos dentro de los suelos crioturbados y dentro de los
pastizales? ¿Qué parcelas se semejan más?
• Basándose en ello: ¿Podría determinar cuál de los dos ambientes tiene mayor
diversidad Beta?
15
Caso 3: Foraminíferos en una gradiente medio ambiental (Hammer, 2011.)
Ejemplo proporcionado por el web site de PAST.
Los foraminíferos con protozoarios que cuentan con una protección calcárea (Figura 7).
Este esqueleto intraectoplásmico es la característica más sobresaliente de los
foraminíferos, y el motivo de que sean susceptibles de fosilizar con relativa facilidad.
Esta característica permite encontrarlos en los sedimentos y utilizarlos como indicadores
climáticos y estatigráficos.
Usted cuenta con los datos de las especies de foraminíferos en un transecto longitudinal
realizado en una bahía perpendicular a la costa (Ejemplo 3). Con los datos que usted cuenta
intente responder:
16
http://capacitacionvirtualbp.com
17
Dentro de las asunciones del modelo se encuentran la linealidad (las variables son continuas) y
la distribución normal multivariada.
Para seleccionar qué ejes utilizar es muy útil utilizar las gráficas de Broken stick y el valor de
Jolliffe cut-off (Valor de Eigenvalue mínimo para aceptar un eje). PAST además permite
graficar polígonos de los grupos (Convex Hulls), el cual se grafica considerando el polígono
convexo más pequeño conteniendo todos los puntos, permitiendo así apreciar áreas que ocupan
los puntos de diferentes grupos. Se puede sombrear el área (ver opciones del gráfico). Asimismo
se puede graficar árboles de distancia (Minimal Spaning Tree) las cuales se grafican haciendo
líneas que conectan todos los puntos con la menor distancia (euclidiana) posible.
• ¿Cuáles han sido los principales cambios temporales (a nivel abiótico) en mi estación?
Generalmente estos análisis se hacen para saber si los transectos (u otras unidades
experimentales evaluadas son similares según las especies que los componen.
18
Análisis de Correspondencia (CA) y de Correspondencia sin tendencia (DCA)
Este es uno de los métodos más populares de ordenamiento para muestras en taxa. Conocido
también como Análisis de promedios recíprocos. El objetivo de este método es realizar la mejor
representación simultánea del agrupamiento entre especies y/o transectos. Esta técnica es muy
útil para unidades muestreales en una o multiples gradientes. Las distancia utilizadas son
distancias Chi-cuadrado. Las coordenadas se obtienen a partir de el análisis de normalización
simétrica.
A pesar de ser uno de los métodos más populares, esta técnica tiene varios supuestos que no se
cumplen para las comunidades biológicas como que las especies siguen una distribución normal
y no unimodal, asimismo que las especies repartidas independientemente. Es muy importante
contar en campo con una representatividad de las comunidades. Finalmente, es importante
recordar que en este análisis todos los datos deben ser positivos, con magnitudes del mismo
orden (aquí puede ser muy útil transformaciones logarítmicas).
Una variación de este análisis es el de Correspondencia sin tendencia. Esto es útil ya que a veces
los puntos se comprimen en los bordes del cuadro (refleja no linearidad entre los ejes y las
variables). El DCA elimina las tendencias no lineales (permite ver con mejor resolución las
zonas comprimidas) ocasionadas, por ejemplo, por el horseshoe effect.
Tanto el CA y el DCA tienen una respuesta gráfica útil para conocer el agrupamiento de
especies en un área respondiendo las siguientes preguntas biológicas
• ¿Qué especies caracterizan mis transectos? ¿Hay especies comunes entre ellos?
Este análisis es muy útil para detectar patrones de variación en composición de especies en
comunidades. Los vectores se colocan en un plano como resultado de regresiones múltiples
(donde las variables dependientes corresponden a la matriz de sitios x especies y las variables
independientes son las variables ambientales). Este análisis implica el uso de abióticos, los
cuales deben seguir una relación lineal con los ejes (denominados ejes canónicos). El resultado
es un gráfico donde se muestran las especies, los transectos y las variables abióticas en
simultáneo (denominado un triplot).
19
La técnica consiste en encontrar una combinación lineal de las variables
X(V1=b1X1+b2X2+...+bpXp… variables ambientales) y otra combinación lineal de las variables
Y(U1=a1Y1+a2Y2+...+aqYq … variables biológicas) de tal manera que la correlación entre U y V
sea máxima. Después se debe encontrar otras dos combinaciones lineales para cada grupo de
variable que tenga correlación máxima y así sucesivamente se encuentran un conjunto de
combinaciones lineales para cada grupo de variables que tienen correlación máxima. Al grupo
de combinaciones lineales se les llama variables canónicas y a sus correlaciones, las
correspondencias canónicas.
Dado que se trata de una regresión, hay análisis que permiten conocer la robustez de la
regresión. Uno de ellos es el análisis de permutación. PAST permite realizar este análisis
permitiéndonos calcular la fiabilidad de la distribución, inclusive obteniendo un valor de
probabilidad (P value) de la misma.
Este análisis está basado en una matriz de distancias (cualquier distancia conocida) y muestra
los datos en múltiples dimensiones (2 o 3 en PAST). Si se desea puedes mezclar variables
Medioambientales y Biológicas, colocando para los datos medioambientales dibujar vectores (el
largo de los vectores es arbitrario, la dirección es lo más importante).
Para verificar la confiabilidad del análisis se puede realizar el gráfico de Shepard (observado
versus esperado, indica la calidad del resultado; idealmente se debe formar una línea recta; x=y)
y obtener un coeficiente de determinación R2. Asimismo, es muy útil medir el stress, que refleja
la calidad del gráfico estimando cómo encajan las distancias ocasionadas por la ordenación y las
distancias originales (valores entre 0.1 y 0.2 son aceptables).
20
http://capacitacionvirtualbp.com
• Utilice los datos del Caso 1. Responda: ¿Qué transectos se asemejan más entre sí? ¿Qué
especies están siempre juntas? ¿Es posible reconocer las formaciones vegetales
muestreadas en los análisis exploratorios? ¿Los resultados concuerdan con los análisis
de distancias realizados? Si usted contara con datos temporales (varias matrices de los
mismos puntos del humedal en el tiempo): ¿Qué le permitiría estudiar el conjunto de
datos?
• Además de ello, usted cuenta con los datos de pH y conductividad del suelo (Ej4
Venta+pH+cond). ¿Es posible apreciar alguna relación entre las especies y la variable
ambiental? ¿Es posible apreciar alguna relación entre las formaciones vegetales y las
variables medioambientales? ¿Sería importante medirlas durante el monitoreo de estas
comunidades?
• Utilice los datos del Caso 2. Responda: ¿Qué transectos se asemejan más entre sí? ¿Qué
especies están siempre juntas? ¿Hay especies compartidas entre los grupos
muestreados? ¿Los resultados concuerdan con los análisis de distancias realizados?
• Utilice los datos del Caso 3. Responda: ¿Qué transectos se asemejan más entre sí? ¿Hay
especies compartidas entre los grupos muestreados? ¿Los resultados concuerdan con los
análisis de distancias realizados? ¿Es posible evidenciar gráficamente la gradiente
ambiental?
21
abióticos que llevaron a los cambios en la estructura de las comunidades. Intente
responder a las siguientes preguntas:
Basado en Aponte & Ramírez (2011): Los Humedales de La Costa central del Perú:
Comunidades Vegetales y Conservación. Rev. Ecol. Apl. 10(1): 31–39.
22
Caso 7: Estrategias de vida y conservación de peces marinos
Basado en (King & Mc Farlane 2003): Marine fish life history strategies: applications to
fishery management. Fish. Manag. Ecol. 10: 249–264.
De forma clásica las estrategias atribuídas a las especies son las de tipo r (crecimiento
rápido y exponencial) y k (crecimiento lento). Sin embargo, pueden realizarse estudios a
nivel cuantitativo a fin de encontrar mayor detalle dentro de estos grandes tipos,
pudiendo inclusive determinar una clasificación personalizada para las estrategias de
vida de cada grupo taxonómico. King & McFarlane proporcionan una base de datos
sobre peces marinos, pudiendo identificar algunos grupos importantes según su
estrategia de vida, entre las que se encuentran grupos que deben gestionarse de diferente
manera, por ejemplo:
Usted cuenta con una base de datos sobre peces marinos (Ej7 peces). Identifique grupos
importantes de peces según sus estrategias de vida.
• ¿Cómo se agrupan estas especies basado en los parámetros dados? (Utilice los
datos de la columna AA para corroborarlo)
23
http://capacitacionvirtualbp.com
Las pruebas de hipótesis son test estadísticos que permiten comprobar estadísticamente
una hipótesis. La hipótesis inicial (H0) puede aceptarse o ser rechazada y aceptar una
hipótesis secundaria (H1), ello dependiendo del valor de la probabilidad de que se
mantenga la primera hipótesis (p valor, p value). Dado que los análisis exploratorios
simplemente agrupan los vectores (especies o transectos) según variables explicativas,
es muchas veces necesario hacer pruebas de hipótesis para aseverar nuestras
observaciones gráficas. Un Resumen de las pruebas de hipótesis y cómo aplicarlas se
encuentra en la figura 8.
Paired Hotteling
Esta es una prueba paramétrica (verificar normalidad y homocedasticidad) para dos
grupos multivariados. Importante: Se necesitan más repeticiones que especies.
Estadístico utilizado: T2
24
Análisis de varianza Multivariado (MANOVA)
Esta corresponde a la versión multivariada del ANOVA (en consecuencia es
paramétrica). El estadístico que utiliza es el de Willks lambda (más usado) o el de Pillai
trace (más robusto). PAST permite hacer un análisis Hotelling como prueba a posteriori
y además proporciona un gráfico canónico que permite clasificar los grupos en los dos
primeros ejes.
25
http://capacitacionvirtualbp.com
Referencias Bibliográficas
26
27