Está en la página 1de 11

Ecologa de Paisaje y Regiones

Tema 16. Principios de estadstica multivariada y su aplicacin


a ecologa del paisaje.
Mercedes Rougs

16.1.Principios de estadstica multivariada

La estadstica multivariada se refiere a una serie de tcnicas que analizan


simultneamente mltiples medidas de cada individuo u objeto de investigacin. En
este sentido, el anlisis multivariado es una extensin de los anlisis univariados
(distribucin de una sola variable), divariados (que involucran dos variables, como
correlacin, regresin).
El objetivo de los mtodos multivariados es reducir los datos a un menor nmero de
variables compuestas o sintticas que expresen la mayor parte de la informacin
contenida en el set de datos multivariados.
Podemos clasificar a los mtodos multivariados en dos grandes grupos:

1) Anlisis que categorizar o clasifican los objetos de investigacin. Aqu


encontramos los distintos tipos de anlisis de agrupamiento (Cluster Analysis)
2) Anlisis que reducen los datos a variables sintticas (Ordenamientos). Entre
estos mtodos podemos mencionar: Anlisis de componentes principales
(PCA), Escalamiento multidimensional no metrico (MDS), Anlisis de
correspondencia cannica (CCA), Anlisis de funcin discriminante (DFA),

16.2.Anlisis de agrupamiento
El objetivo de este tipo de anlisis es organizar las entidades (e.g., especies, sitios,
observaciones) en clases discretas o grupos de manera que la similitud dentro del
grupo es maximizada y la similitud entre grupos es minimizada de acuerdo a algn
criterio objetivo. Las caractersticas de los datos se usan para definir grupos.

Los anlisis de agrupamiento se pueden clasificar en:

Jerrquicos: Se determinan grupos que estn compuestos por subgrupos. Hay una
jerarqua de niveles.
Aglomerativos: Los grupos se forman desde abajo. Comienza uniendo
los dos objetos ms similares. (Cluster analysis).
Divisivos: la clasificacin comienza con la divisin de todo el grupo de
datos en dos, que luego se vuelven a dividir y as sucesivamente.
No Jerrquicos: El objetivo es formar un nmero predeterminado de grupos (K). Se
define el nmero de grupos y se acomodan los objetos para minimizar la variabilidad
dentro del grupo y maximizar la variabilidad entre los grupos.

Muestras
1 2 3 4 5

Especies

2 4 5 1 3
Agrupamiento de
Similitud entre
Transformacin muestras
muestras

1
Porcentaje de la informacin no
explicada por el dendrograma Una vez que corremos el anlisis, obtenemos el
dendrograma. El siguiente paso es decidir cuantos
100 75 50 25 0 grupos debemos considerar. En este ejemplo, podemos
definir 3, 5 o 7 grupos dependiendo de donde hagamos el
corte. Podemos decidir el nmero de grupos
subjetivamente en base a lo que parece lgico como un
buen numero de grupos. Otra alternativa es usar la
cantidad de informacin explicada o incluida en el
dendrograma. En este ejemplo, si tomamos el 50% de la
variacin explicada, consideramos 5 grupos; mientras
que si tomamos el 75% de la variacin explicada (25% no
explicada) tendremos 3 grupos.
Un mtodo alternativo y ms objetivo es aplicar un
Anlisis de Especies Indicadoras (Indicador Species
Analysis). Este anlisis se basa en randomnizaciones en
la asignacin de las entidades a los grupos y obtiene un
valor de p para los distintos nmeros de grupos posibles.
El nmero con el menor p se selecciona como el nmero
ms adecuado de grupos.

16.3.Ordenamiento

Los mtodos de ordenamiento se refieren, literalmente, a organizar los tems a lo largo


de una escala (eje) o de varios ejes. Se usan estos mtodos como una manera de
resumir grficamente relaciones complejas, extrayendo uno o unos pocos patrones
dominantes de un gran numero de posibles patrones.
El proceso de extraer esos ejes se llama ordenacin porque es el resultado de
colocar objetos a lo largo de un eje o dimensin. Esos anlisis son posibles porque
hay una cierta correlacin entre las variables (en un sentido amplio).
Las ordenamientos se usan principalmente en ecologa para buscar y describir
patrones. Los ordenamientos ayudan a:
- seleccionar los factores ms importantes de un conjunto de factores
hipotticos.
- separar patrones fuertes de patrones dbiles
- revelar patrones y sugerir posibles procesos.

16.3.1.Reduccin de datos
Los ordenamientos son una manera de reducir los datos, esto significa resumir un set
de datos que contiene muchas variables en un set de menos nmero de variables
(sintticas) que son combinaciones de las variables originales. En contrate, los
mtodos de clasificacin reducen un set de datos multivariados en clases discretas.

Comenzamos generalmente con un set de datos de n entidades y p variables


(dimensiones) y, usando algn mtodo de ordenacin, intentamos representarlo
efectivamente en un nmero menor de dimensiones (k). Estas nuevas dimensiones
son variables sintticas que resultan de la combinacin de las variables originales.

n entidades x p variables n entidades x k variables

2
16.3.2.Diagramas de ordenacin

Tpicamente un diagrama de ordenacin es un grfico en dos dimensiones de una


variable sinttica versus otra variable sinttica. Idealmente, la distancia entre los
puntos en el diagrama es proporcional a la medida de distancia subyacente en los
datos. No se debe ver los puntos como un patrn de regresin; en la mayora de los
mtodos de ordenacin los ejes, por definicin, no estn correlacionados.

F
A

C
Eje 1 H
E B

G D

Eje 2

El nmero de ejes o variables sintticas depende de la fuerza de la seal de los datos


en relacin al ruido. Cuando hay un solo patrn claro, la decisin sobre cuantos ejes
considerar es clara. Sin embargo, cuando hay varios posibles patrones, dos o tres ejes
son adecuados para representar los datos. Si intentamos representar los datos en ms
de tres dimensiones, la interpretacin se vuelve confusa.

16.3.3.Confiabilidad del ordenamiento


Una vez que obtenemos el ordenamiento, el siguiente paso es examinar si la el patrn
observado es mas fuerte que el esperado al azar. El mtodo ms comn para evaluar
la confiabilidad es ver si hay consistencia en los patrones usando otros ordenamientos
alternativos.
Cuando interpretamos un ordenamiento asumimos que la configuracin de los puntos
representa una estructura real de los datos. Si alguien repite el estudio para el mismo
lugar y tiempo, debera, en teora, obtener los mismos resultados. En ordenacin
podemos considerar cuatro fuentes de variacin en los resultados de la ordenacin.
- Error de medicin: estos errores incluyen efectos del observador, efectos de
estimacin, y efectos del instrumento.
- Error de muestreo: Cada muestra tericamente representa a la poblacin de la
que proviene. Sesgos en el diseo del muestreo pueden introducir importantes
errores en el ordenamiento si los grupos resultantes no son un reflejo de la
realidad sino el resultado de un muestreo no al azar o mal diseado.
- Artefacto metodolgico: Un mtodo analtico puede introducir un componente
de estructura aparente en el ordenamiento que depende del tratamiento que
cada mtodo de anlisis haga de los datos. Es por lo tanto importante elegir
cuidadosamente el mtodo a utilizar en base a la calidad y caractersticas de
los datos a analizar para reducir este error.
- Inconsistencia ecolgica: La fuerza de patrn de un ordenamiento proviene de
la fuerza de las asociaciones entre especies. Factores ambientales
particulares, efectos de eventos histricos y la relacin filogentica entre los
entidades pueden producir un sesgo importante en los resultados de las
ordenaciones. Por ejemplo si en una ordenacin especies de la misma familia

3
se agrupan juntas y este patrn nos parece inconsistente con el efecto que
esperamos encontrar, debemos sospechar de una influencia fuerte de la
historia filogentica de las especies. En este caso debemos incluir un factor de
correccin que le quite peso y permita ver el patrn que buscamos, si es que
existe luego de la correccin.

Tenemos cuatro maneras de identificar y medir los errores en el ordenamiento:


- Proporcin de la variacin explicada. Aun si asumimos que no hay un error de
medicin ni error de muestreo, la ordenacin puede no representar una
estructura fuerte. Un ordenamiento intenta obtener una representacin en
pocas dimensiones de una matriz de muchas dimensiones. Si las variables son
independientes entre ellas, entonces la ordenacin representara solo una
pequea fraccin de los datos. La proporcin de la varianza explicada es una
buena medida de la fuerza del patrn del ordenamiento. Pero debemos tener
en cuanta que un outlier (un valor extremo) puede resultar en un valor alto de la
varianza explicada, que por lo tanto no reflejara la varianza en la mayora de
los datos del ordenamiento.
- Fuerza del patrn: Aun si asumimos que no hay un error de medicin, no hay
un error de muestreo y una porcin alta de la varianza est representada, el
ordenamiento puede no representar una estructura estable y fuerte. Para
evaluar la fuerza del patrn podemos comparar el resultado de nuestra
ordenacin con un modelo nulo. La hiptesis sera que no hay correlacin
estructural ente las variables de la matriz de ordenacin.
- Consistencia: El saber que el patrn observado es mas fuerte que lo esperado
por azar no es una medida completamente satisfactoria de la confiabilidad de
un ordenamiento. Consistencia es la habilidad de un ordenamiento de producir
resultados concordantes a partir de diferentes subgrupos tomados de los datos.
Un mtodo `para evaluar la consistencia es el bootstraping. Este metodo usa la
matriz de datos originales y toma submuestras con reemplazo y luego calcula
el error estndar de las medias de esas submuestras. Cuanto mayor el error
estandar menor la consistencia de la ordenacin.
- Precisin: Este es el aspecto de la confiabilidad ms difcil de determinar. El
concepto implica saber cual es el verdadero patrn subyacente. La manera de
obtener una estimacin de la precisin del ordenamiento es calcular un
estimador de la mxima probabilidad a partir de submuestras independientes
de matrices de datos grandes.

16.3.4.Relacin entre las variables y los resultados de ordenacin

La relacin entre las variables y los ordenaciones es el principal mtodo para


interpretar los resultados. Se puede relacionar las variables de la matriz usada para el
anlisis de ordenacin o cualquier otra variable medida para el mismo grupo de
entidades que estn en la ordenacin. Las dos maneras mas comunes para relacionar
las variables a la ordenacin son el solapamiento (overlays) y las correlaciones de
cada variable con los ejes.
Solapamiento: Este es un mtodo flexible para detectar un patrn de una variable en el
ordenamiento porque no se limita a relaciones lineares. Tpicamente se solapa una
variable por vez asignando smbolos que representan el valor o la magnitud de la
variable. Para variables discretas se usan diferentes smbolos para cada categora
(ejemplo de las laderas). Para variables contnuas se usan smbolos cuyo tamao es
proporcional a la magnitud de la variable (ejemplo de humedad)

4
Sito 2 Sitio 2 Sito 2
Sitio 4 Sitio
Sitio 5 Sitio 4 4
Sitio 5 Sitio 5

Sitio 1
+ Sitio 1
Sitio
Sitio 3 + Sitio 1

- Ladera sur
Variables + - Ladera norte
Variables continuas Humedad

Correlaciones: Los coeficientes de correlacin entre cada variable y cada eje del
ordenamiento permiten determinar la importancia de cada variable en el patrn
observado. Si la variable tiene alguna relacin linear con los ejes esta se expresa en el
coeficiente de correlacin. El cuadrado del coeficiente de correlacin expresa la
proporcin de la variacin la posicin a lo largo de un eje que es explicada por esa
variable.
Estas correlaciones se usan con propsitos descriptivos, y por lo tanto no se debe
asignar un valor de significancia para la hiptesis nula de no relacin entre la variable
y el eje.


Sito 2
Variables

Sitio 4 contnuas
Sitio 5

Humedad

Sitio 1

Sitio 3

Eje I
Eje I I
R = 0.031
R = 0.534
Tau = 0.0.45
Tau = 0.327

16.4.Tipos de ordenacin

Sin variable dependiente ni variable independiente


1) Anlisis de componentes principales (Principal Components Analisis PCA)
2) Escalamiento multidimensional no mtrico (Nonmetric Multidimensional
Scaling NMS)

Con variable dependiente ni variable independiente


2) Canonical correlation analysis (CA)
3) Canonical Correspondence Analysis (CCA)
4) Discriminant Function Analysis (DFA)

5
16.5.Anlisis de componentes principales (PCA)
El objetivo es expresar la covariacin entre las variables en el menor nmero de
variables sintticas (componentes). Las covariaciones ms fuertes emergen el los
primeros ejes y por esto se llamn componentes principales.

PCA es una buena tcnica para usar cuando hay una relacin aproximadamente linear
entre las variables. En algunos casos se pueden hacer transformaciones para mejorar
esta linearidad. Los datos en ecologa en general no presentan relaciones lineares y
por lo tanto, el PCA no es el mtodo adecuado para estos datos. PCA interpreta los
doble ceros (dos variables con valor cero) como una relacin positiva entre las
variables y como la ordenacin es basa en las correlacin, el diagrama no refleja la
realidad de los datos. En los casos de muchos ceros en la matriz, la distribucin de
puntos en el diagrama tiene forma de herradura (horseshoe effect). PCA se aplica bien
a datos de comunidades relativamente homogneas.

Cuando corremos un PCA, adems del grfico, obtenemos una tabla con los datos de
cada eje. Lo que nos interesa ver en esta tabla es la columna del porcentaje de la
varianza explicada para poder evaluar si los dos o tres primeros ejes proveen una
buena representacin de los datos.

16.6.Escalamiento multidimensional no mtrico (NMDS)


El objetivo de NMDS es construir un mapao configuracin de las muestras, en un
numero especifico de dimensiones, que intenta satisfacer todas las condiciones de la
matriz de similitud (o disimilitud) (e.g., si la muestra 1 tiene mayor similitud con la
muestra 3 que con la muestra 1 entonces la muestra 1 estara mas cerca de la muestra
3 que de la 2).
NMDS es un buen mtodo para usar cuando los datos no son normales o tenemos
variables en escalas discontinuas o arbitrarias, por lo tanto funciona bien para datos
ecolgicos.
Este mtodo funciona como una busqueda iterativa de las mejores posiciones de las n
entidades de la configuracin de k variables. El stress es una medida de la
desviacin de una relacin linear entre la distancia en la matriz original de datos y la
distancia en el espacio de ordenamiento.Valores de stress < 0.05 indican una muy
buena representacin de los datos en el grfico. Un stress de < 01 indica una buena
representacin; agregar un tercer eje no va a agregar ms informacin al patrn
general. Si el estrs > 0.2 el grfico no es muy confiable. Si el stress es mayor que
0.3, podemos considerar que la distribucin de los puntos es casi al azar.
En este mtodo se puede usar cualquier ndice de similitud. Por el modo en que
funciona el anlisis, este mtodo permite trabajar con matrices con diferentes
abundancias (e.g., especies muy abundantes y especies raras) ya que en el anlisis

6
se baja el peso de las especies raras. La representacin grfica se basa en los rangos
de similitud entre las entidades.

Muestras
1 2 3 4 5

Especies 1
2
3
4
5

Similitud entre Rangos de


muestras similitud
entre muestras

Valor de Regresin entre 3


similitud (o 5
Stress -
dismilitud 1
medida del
ajuste y distancia en el
2
de la espacio
4
regresin
Grafico de NMDS

Cuando se presentan los resultados de un ordenamiento con NMDS se debe


mencionar la medida de similitud usada, el tipo de programa usado (e.g., PCORD) ya
que diferentes programas usan diferentes algoritmos para resolver las matrices, el
nmero de dimensiones en la configuracin final (nmero de ejes), la proporcin de la
variabilidad representada por cada eje basada en los r2 entre la distancia en el espacio
de ordenamiento y la distancia en los datos reales, y una interpretacin de la relacin
entre cada variable y los ejes del ordenamiento (por solapamiento o correlaciones).

16.7. Anlisis de correlacin cannica (CA)

El anlisis de correlacin cannica es un mtodo multivariado que facilita el estudio de


de las relaciones entre grupos de variables dependientes y varias variables
independientes. Este mtodo tambin es conocido como promedios recprocos
(Reciprocal Averaging, RA). En regresin mltiple podemos predecir una sola variable
dependiente a partir de un grupo de variables independientes, la correlacin cannica
predice simultneamente mltiples variables dependientes a partir de mltiples
variables independientes.

7
Variables Dependientes Variables independientes
(filas) (columnas)
Variable 1 Variable A
Variable 2 Variable B
Variable 3 Variable C

Variable cannica Variable cannica


dependiente independiente
Correlacin
cannica
Rc

Por ejemplo, podemos tener una serie de sitios (variables dependientes) y una serie
de variables independientes para explicar la variacin entre los sitios (e.g., especies).
El anlisis de correlacin cannica hace una ordenacin de la matriz original de n filas
x p columnas y obtiene un grupo de ejes (k).con los respectivos valores de cada n para
esos ejes Luego hace una ordenacin de la matriz pero las filas como columnas y las
columnas como filas y obtiene una serie de ejes (k) con los respectivos valores de de
cada p para esos ejes

Cannico se refiere al anlisis simultneo de dos o ms matrices de datos. Correlacin


cannica se refiere a la correlacin entre dos matrices de datos.

p especies k ejes

n sitios n sitios

Ordenacin de sitios en base a especies


Canonical
n sitios k ejes Correlation
Rc
p especies
p especies

Ordenacin de especies en base a sitios

Como resultado de la correlacin cannica tenemos como resultado las variables


cannicas que representan las combinaciones lineares de las variables independientes
y dependientes, y el indice de correlacin cannica Rc que representa la relacin entre
las variables dependientes e independientes.

8
16.8. Analisis de correspondecia cannica

El anlisis de correspondencia cannica (CCA) restringe la ordenacin de una matriz


por medio de regresiones lineares mltiples con variables en una segunda matriz; en
este sentido este anlisis combina los conceptos de ordenacin y regresin. Se usa
CCA para relacionar por ejemplo una matriz de distribucin de especies por sitios y las
caractersticas ambientales de esos sitios.

Un aspecto importante es que el CCA ignora aquella parte de la estructura que no esta
relacionada con las variables de la segunda matriz (e.g., variables ambientales). El
CCA funciona bien para sets de datos donde las respuestas de las variables son
unimodales y donde la importancia de las variables ambientales ha sido medidas
(sabemos que hay una correlacin).

p especies P variables ambientales

n sitios
n sitios

Matriz de sitios y especies Matriz de sitios y variables ambientales

Cuando hacemos un anlisis de CCA debemos reportar los contenidos y dimensiones


de las matrices usadas, el nmero de ejes considerados y la proporcin de la varianza
explicada por cada uno,

Lo primero que obtenemos es una tabla de la correlacin entre las variables de


explicacin (e.g., ambientales). Las bajas correlaciones entre las variable son

Variable 1 Variable 2 Variable 3

Variable 1 1

Variable 2 0.107 1

Variable 3 - 0.120 0.039 1

Luego obtenemos la tabla de resumen de la estadstica de los ejes vemos que la


mayor parte de la varianza (14,4%) es explicada por el primer eje. Los ejes 2 y 3
debieran ser ignorados porque solo contribuyen con una muy baja porcin de la
varianza extra.

Eje I Eje II Eje III

Eigenvalue 0.636 0.044 0.015


Varianza en los
datos de especies
% varianza explicada 14.4 1.0 0.4
Varianza expl. Cumulativa 14.4 15.4 15.8
Correlacion Pearson (sp-env) 0.9 0.37 0.213
9
Luego vemos la correlacin entre las variables originales y los ejes. En este ejemplo,
el eje I que explica la mayor parte de la varianza, se correlaciona fuertemente con la
variable 1. Las otras dos variables tienen correlaciones muy dbiles.

Eje I Eje II Eje III

Variable 1 -0,799 0.014 0.009

Variable 2 0.033 -0.194 0.048

Variable 3 0.003 0.075 0.118

Tambin se obtienen los resmenes de los scores de los sitios y las especies para los
eje obtenidos. En base a estos scores se construye el diagrama de ordenacin

Scores de los sitios Scores de las especies

Eje 1 Eje 2 Eje 3 Eje 1 Eje 2 Eje 3


Sitio 1 0.857 0.213 0.012 Especie 1 -0.769 4,211 4,643
Sitio 2 0.423 -0.100 -0.103 Especie 2 -1,608 0,240 -2,377
Sitio 3 0.646 0.103 -0.024 Especie 3 -1,051 1,623 1,862
Sitio 4 0.474 -0.238 -0.104 Especie 4 1,344 1,817 -0.794
Sitio 5 -0.107 -0.297 0.078

Finalmente tenemos el ordenamiento de los sitios en un espacio ambiental. Las


flechas muestran las correlaciones de las variables ambientales

Una ventaja de este mtodo es que permite plantear hiptesis ecolgicas a priori y
testearlas con el anlisis. Tambin, al examinar la varianza no explicada se pueden
generar nuevas hiptesis.

16.9.Anlisis de Funcin Discriminante (DFA)


Es un mtodo para separar un nmero fijo de grupos. Los grupos son definidos antes
del anlisis (e.g., machos y hembras). El objetivo es construir un modelo predictivo de
las relacin entre una variable dependiente categrica y un grupo de variables
independientes continuas

10
Y = W1X1 + W2X2 + W3X3 +WnXn

Donde X son las variables consideradas en el modelo y W son los pesos relativos de
cada variable.

La diferencia de DFA con los otros mtodos multivariados es que los grupos son
predefinidos, y no el resultado del anlisis.

Usamos DFA para para resumir diferencias entre grupos definidos en cluster analysis,
para testear si dos o mas grupos son diferentes (multivariado), y para predecir la
asignacin a ciertos grupos.

Por ejemplo, si tenemos datos sobre medidas de machos y hembras, podemos usar
DFA para determinar si hay combinaciones de medidas que nos permitan identificar
los sexos de una especie en el campo (en especies sin dimorfismo sexual). Este
anlisis puede darnos como resultado una funcin como esta.

Sexo = 0.39 long ala + 0.45 ancho del pico.

Una vez determinada la funcin el programa hace un test de cuan buena resulta para
discriminar los grupos aplicndola a los grupos predefinidos y nos da un porcentaje de
clasificacin correcta. Estos porcentajes nos dan una idea de cuan ltil son las
variables identificadas por el modelo para definir los grupos

Predecidos por modelo % clasificado

Machos Hembras correctamente

Machos 4 15 83

Hembras 2 3 66

6 18

11