Está en la página 1de 10

foro 63 26/12/04 11:31 AM Page 1

ISSN 0373-5680 Rev. Soc. Entomol. Argent. 63 (3-4): 1-10, 2004 1

FORO

La aplicación de Técnicas de Ordenación Multivariadas


en la Entomología

MANGEAUD, Arnaldo
Centro de Investigaciones Entomológicas de Córdoba. Cátedra de Estadística y Biometría.
Facultad de Ciencias Exactas Físicas y Naturales. Universidad Nacional de Córdoba.
Av. Vélez Sársfield 299. 5000 Córdoba. Argentina;
e-mail: amangeaud@com.uncor.edu

■ RESUMEN. Los métodos de ordenación son herramientas multivariadas muy


utilizadas en la Entomología. En este foro se presenta una introducción a éstos
y breves explicaciones sobre distintas Técnicas: Análisis de Componentes Prin-
cipales (ACP), Análisis de Redundancia (AR), Análisis de Correspondencia.
(AC), de Correspondencia Canónica (ACC) y de Correspondencia Detenden-
ciada (ACD), Análisis de Coordenadas Principales (AcoP), Análisis Factoriales
(AF), Modelos de Ecuaciones Estructurales (MEE) y Método de Procrustes.

PALABRAS CLAVE. Análisis de Componentes Principales. Redundancia. Co-


rrespondencia. Correspondencia Canónica. Correspondencia Detendenciada.
Coordenadas Principales.

■ ABSTRACT. Application of Multivariate ordenation methods in Entomo-


logy. Ordenation methods are multivariate technics used a lot in Entomology.
At this forum is presented an introduction to ordination methods and a short
explanation over different technics: Principal Component Analysis (PCA), Re-
dundancy Analysis (RA). Correspondence Analysis (CA). Canonical Correspon-
dence Analysis (CCA). Detrended Correspondence Analysis (DCA) Principal
Coordinate Analysis (PcoA). Factor Analysis (FA), Structural Equation Models
(SEM) and Procrustes method.

KEY WORDS. Principal Component Analysis. Redundancy. Correspondence.


Canonical Correspondence. Detrended Correspondence. Principal Coordinates.

INTRODUCCIÓN rísticas o variables independientes que expliquen


a otras, dependientes. Esto es apoyado por toda
Puede resultar muy poco novedoso comenzar una batería de análisis de la Estadística, que po-
este artículo con una sentencia como: “la natura- demos denominar Estadística univariada.
leza es muy compleja”. Pero aunque esta frase Qué ocurre cuando el investigador ávido de
tan utilizada diera lugar a una sonrisa, podemos conocimientos quiere más y no se conforma con
convenir que es cierta. Cuando un investigador sólo una variable. Si ésto pasara por vuestras
observa o intenta explicar los eventos que ocu- mentes, entonces la solución a vuestras inquietu-
rren en la naturaleza, comienza por tomar carac- des tiene nombre y apellido: Análisis Multivaria-
terísticas aisladas, es decir de a una por vez. Ade- dos, un conjunto de técnicas y análisis que utilizan
más, en el afán de cumplir con el principio de muchas (dos o más) variables a la vez.
parsimonia y que las explicaciones sean biológi- Las variables se definen como las característi-
camente coherentes, utiliza muy pocas caracte- cas que les poseen las unidades de observación
foro 63 26/12/04 11:31 AM Page 2

2 Rev. Soc. Entomol. Argent. 63 (3-4), 2004

(el objeto de estudio). Cada unidad posee un sin- puestos, el investigador puede realizar transfor-
número de variables, pero el investigador sólo to- maciones a los datos originales, con ello se trata
ma o mide las que le serán útiles a sus objetivos. de aplicar un cambio de escala en cada elemen-
Las variables pueden ser de varios tipos: Cualita- to de la variable, independientemente de otro.
tiva Nominal, como Presencia-Ausencia, sexo, Existen varios tipos de transformaciones, cada
coloración, forma de la mina de un minador una con objetivos diferentes, siendo las más co-
(Agromyzidae), etc. Cualitativa Ordinal, como la munes:
especificidad alimentaria de una categoría taxo-
nómica (monófagas, oligófagas y polífagas, esta- Logaritmos: yij= Log (xij+1), donde yij es el va-
dios larvales, etc.) Cuantitativa Discreta, como lor transformado, xij es el valor original.
número de huevos, número de antenómeros, días Se utiliza normalmente para conseguir distri-
hasta la pupación, número de parasitoides, de buciones simétricas en aquellas asimétricas a la
huéspedes, de especies, etc. Cuantitativa Conti- derecha. También se utiliza para “acercar” los da-
nua, como largo del ala, distancia recorrida, peso tos que se hallan lejanos hacia la derecha del eje
de las ovariolas, etc. cuando se presenta un alto grado de variación
entre las variables o cuando dentro de una de
Algunos conocimientos preliminares. En pri- ellas hay mucha variación. La forma mas común
mer término cabe acotar que en los análisis de de realizar esta transformación es sumar previa-
Ordenación (más adelante daremos su definición) mente al dato original una constante (uno) ya
se le dará a todas las variables el mismo peso, por que si hay datos ceros, el logaritmo de cero no
lo que si una variable fue medida en metros, otra está definido.
en cm, otra en mg x l-1, los análisis tomarán sus
respectivos valores y la escala en que están medi- Transformaciones de Potencia (Power transfor-
das algunas, llevará la atención de todo el análi- mations): yij= (xij+1)p, donde 0<p<9.
sis. Por otra parte si algunas poseen mucha varia- Podemos diferenciar la transformación cuando
bilidad y otras muy poca, toda la atención se la p<1, de aquella donde p>1. En la primera esta-
llevará la variable con mayor dispersión en los mos hablando de una raíz que se utiliza, al igual
datos. Para observar esto, antes de realizar los que el logaritmo, para “traer” datos lejanos. En el
análisis pertinentes, los investigadores deben rea- segundo caso es la potencia tal como la conoce-
lizar la mayor cantidad posible de análisis des- mos, y se la utiliza para hacer simétrica distribu-
criptivos y gráficos preliminares. Nadie mejor que ciones que son asimétricas a la izquierda.
el “ dueño” de los datos para conocer la posición
2
y dispersión, simetría y distribución de cada una Arcoseno: yij= Asen (pij), donde pij es la pro-
de las variables en estudio. A ésta información se porción
la complementa con gráficos de cajas (box-plot) Se utilizan para normalizar las proporciones.
en busca de datos anómalos (outliers) que deben
ser identificados. Nótese la palabra identificar y Relativizaciones:
no eliminar. Un dato anómalo NO se debe elimi- Se utilizan para cambiar la escala de un valor
nar sólo por el hecho de identificarlo, debe exis- de la variable, en referencia a otros valores.
tir una razón biológica para su eliminación. Por-
qué vamos a discriminar a un dato “rarito”?, por- Relativizada al máximo o al total: yij= xij / max xj
que no es como la mayoría?. Es la proporción de un valor con respecto al
Por otra parte resulta interesante realizar gráfi- máximo valor observado o a la suma de éstos.
cos de dispersión (tipo xy) de a dos variables a la
vez para “ver” como se van relacionando de a pa- Ajustada a la media: yij= xij − Xi
res. Por último existen herramientas descriptivas Se utiliza para quitarle el peso relativo de ca-
multivariadas como perfiles multivariados, gráfi- da variable, ya que se consigue una variable con
cos de estrellas, etc. que muestran patrones gene- media cero, pero conserva la varianza y la forma
rales tomando todas las variables a la vez (John- de la distribución.
son & Wichern, 1998).
Con el objeto de quitarle peso relativo a algu- Estandarización (ajustada a la media y al
nas variables o para que se cumplan ciertos su- desvío):
foro 63 26/12/04 11:31 AM Page 3

MANGEAUD, A. Técnicas de Ordenación Multivariadas en la Entomología 3

Tabla 1: Ejemplo de la estructura de la Matriz de datos, de Varianzas-Covarianzas y Correlación. Se observa una


matriz original con tres variables tomadas a cinco unidades de observación.

Matriz original de datos Xnxp Matriz de Varianzas-Covarianzas Spxp Matriz de Correlación Rpxp
donde n=5 y p=3 donde p=3 donde p=3

1 2 5 2,5 3,5 -2,75 1 0,87 -0,74


4 7 1 S= 3,5 6,5 -5,25 R= 0,87 1 -0,88
X= 2 1 6 -2,75 -5,25 5,5 -0,74 -0,88 1
5 6 2
3 4 6

(xij − Xi)
yij= , donde Xi es la media de la variable se presentan las covarianzas entre las distintas va-
Si
y Si es el desvío. riables (Tabla 1). La suma de las varianzas de la
Se le quita el peso relativo y la variabilidad, diagonal principal es la varianza total de la ma-
todas las variables presentarán media cero y va- triz.
rianza uno. Pero se conservará la forma de la El índice de correlación de Pearson entre dos
distribución. variables se define como el cociente entre la co-
Es necesario acotar que la transformación de varianza y el producto de los desvíos. Si se divi-
los datos no es un dogma de fe, hacerla no nece- de a cada uno de los números de la matriz S por
sariamente soluciona todos los problemas. El el producto de los desvíos correspondientes, se
transformar las variables tiene que perseguir un obtendrá una nueva matriz Rpxp llamada matriz
objetivo (Afifi & Clark, 1996). Después de realizar de correlación, donde en la diagonal principal se
estos cambios en las variables se debe proceder a presentan todos los unos (correlación entre una
hacer nuevamente todos los análisis descriptivos variable y ella misma) y en los triángulos, las co-
para observar si se cumplieron los objetivos de rrelaciones entre cada par de variables (Tabla 1).
este proceso.

Algo de Matrices y Estadística. En textos de DE LO PARTICULAR A LO GENERAL


matemática se puede leer que una matriz es un
arreglo de números en la forma de filas y colum- Ejemplo 1: Análisis de Componentes Principa-
nas, o sea una tabla de doble entrada. Para reali- les (ACP).
zar los análisis que nos convocan construiremos
matrices de la siguiente forma: en cada fila se co- Supongamos que un investigador está estu-
locarán cada una de las unidades de observación diando un género de mosquitos, y toma dos va-
desde 1 a n. En cada columna, las variables, des- riables a cada individuo (unidad de observación):
de la 1 a la p. Por lo tanto tendremos una matriz largo del ala y largo del cuerpo (ruego a los espe-
Xnxp donde n es el número de unidades de obser- cialistas no sonreír por la simplicidad del ejem-
vación y p el número de variables a considerar plo). Si la combinación de estas dos variables pu-
(Tabla 1). diera separar a algunas especies, entonces re-
Recordemos que la varianza es una medida de sultaría interesante dibujar todas las unidades de
dispersión de todos los datos con respecto a su observación en un espacio de dos dimensiones.
propia media. La covarianza, por su parte, es la Entonces se realizaría un gráfico de dispersión, en
variación conjunta de dos variables a la vez. Se dos dimensiones, como el de la Figura 1. Ahora,
puede considerar a la covarianza como una va- si el investigador toma tres variables, las unidades
rianza entre dos variables, y a la varianza como de observación son dibujadas en un espacio de
una covarianza de una variable consigo misma. tres dimensiones, si fueran 10 variables estarían
Con la matriz X de datos se puede construir una en 10 dimensiones y generalizando: en p varia-
matriz Spxp (matriz de varianzas-covarianzas) bles, corresponderían p dimensiones. Resulta
donde en su diagonal principal se observan las prácticamente imposible encontrar patrones o
varianzas de cada una de las variables y en los grupos de individuos en más de tres dimensiones.
triángulos de la matriz hacia arriba y hacia abajo Por ello se deben utilizar herramientas para ex-
foro 63 26/12/04 11:31 AM Page 4

4 Rev. Soc. Entomol. Argent. 63 (3-4), 2004


Largo alar (en mm)

Largo alar (en mm)


6 6
5.8 5.8
5.6 5.6
5.4 5.4
5.2 5.2
5 5
4.8 4.8
4.6 4.6
4.4 4.4
9 10 11 12 13 14 9 10 11 12 13 14

Largo del cuerpo (en mm) Largo del cuerpo (en mm)

Figura 1: Gráfico de dispersión entre el largo del cuer- Figura 2: Gráfico de dispersión entre el largo del cuer-
po y largo del ala largo de un género de mosquito. po y largo del ala largo de un género de mosquito don-
de figura el eje que absorve la mayor variabilidad de
los datos.

traer conclusiones a partir de muchas dimensio- ble, es lo que se llama una combinación lineal de
nes, es decir con todas las variables. Si volvemos las variables:
a dos dimensiones veremos que una manera sen-
cilla de encontrar un patrón es ver en qué sentido CP1= a11 X1 + a12 X2 + ... + a1p Xp
se presenta la máxima dispersión de datos. Este es CP2= a21 X1 + a22 X2 + ... + a2p Xp
el eje de mayor variabilidad de los datos y se CPp= ap1 X1 + ap2 X2 + ... + app Xp
construye pasando una recta de modo tal que se
maximice la dispersión de datos en un sentido y Donde CPi: eje o componente principal, Xj:
se minimice la distancia de todos los puntos a és- variables, aij: pendientes.
ta (Figura 2). Esto es lo que conocemos como au-
tovector, vector propio o eigenvector. Asociado a Como se vio anteriormente la varianza total
este autovector se presenta un autovalor, valor del análisis es la suma de las varianzas de cada
propio o eigenvalue, que da una idea de la mag- variable. Entonces se tiene que la suma de los au-
nitud (el largo) del autovector. Esa es una medida tovalores es igual a la suma de todas las varian-
de la variabilidad que absorbe ese vector. Des- zas, es decir la varianza total. Por definición, los
pués de ese eje de máxima variabilidad se tiene autovectores se presentan desde el mayor autova-
un segundo autovector, perpendicular (ortogonal) lor al menor de éstos. El primer autovector va a
al primero y así sucesivamente hasta conseguir absorber mucha variabilidad, el segundo menos y
tantos p autovectores y autovalores como p varia- así sucesivamente, pero cuántos autovectores son
bles posee la matriz. suficientes para explicar gran parte de la variabi-
Los autovalores y autovectores no surgen a lidad de la matriz?. Una regla práctica sencilla di-
partir de un dibujo, sino que se calculan a partir ce: Sólo sirven los autovectores que absorben
de matrices. Para ello se debe partir de una matriz más variabilidad que el promedio de las varian-
original de datos Xnxp a partir de la cual se calcu- zas (si se trabaja con una matriz de varianza-co-
la la matriz Spxp. Si los datos originales han sido varianza) o si son mayores que 1 (si se trabaja con
previamente estandarizados, lo que se obtiene es una matriz de correlación). Este criterio de deci-
una matriz de correlación (R) donde se presentan sión se denomina criterio de la raíz latente. (Ver
los valores de los índices de correlación de Pear- otros criterios en Hair et al., 1995 y McGarigal et
son. Así como en un análisis de regresión ordina- al., 2000).
ria (con método de mínimos cuadrados) se cons- A partir de los autovalores escogidos se reali-
truye una recta (eje), aquí ocurre lo mismo, pero zará un nuevo gráfico donde se ordenarán las
la forma de construírlo es distinta. La fórmula del unidades de observación. Allí se colocarán en los
eje no tiene ordenada al origen y consta de una ejes x e y a los autovectores 1 y 2 y se observarán
pendiente por cada una de las p variables. Enton- los patrones que presenta el gráfico: quiénes es-
ces ese eje de mayor variabilidad está compuesto tán en los extremos?, se observan grupos?, cuán
por una porción de la información de cada varia- cerca están las unidades de observación?. Se pue-
foro 63 26/12/04 11:31 AM Page 5

MANGEAUD, A. Técnicas de Ordenación Multivariadas en la Entomología 5

2.83 4
Ojos

Anten
3
1.56 11
10
15 5
Componente P

8
Fémur
0.29 14 3 9 6
12
16

13
-0.99 7 17
2
1
Cuerpo
-2.26 Ala

-3.02 -1.60 -0.19 1.23 2.65

Componente Principal 1

Figura 3: Gráfico (Biplot) de un Análisis de Componentes Principales, donde figuran las unidades de observación
y las variables.

de realizar, además, otro gráfico solapado (biplot) normales, más aún debieramos tener una matriz
donde superpone las variables. Estas se unen al con distribución normal multivariada. Además de
centro del gráfico y dan una idea de cuán cerca esto, el investigador no tiene información de gru-
están algunas variables de las unidades y cuán pos a-priori entre las unidades de observación.
correlacionadas están las variables entre sí. Cuan- Debido a que utiliza una matriz de varianzas-co-
to más agudo sea el ángulo entre variables la co- varianzas, considera que entre las unidades de
rrelación es mayor, si el ángulo es de 90 grados la observación se presenta una distancia Euclídea,
correlación nula y si es muy obtuso es una corre- entonces los resultados obtenidos son equipara-
lación inversa (Figura 3). bles a un dendrograma realizado con distancia
Lo que acabamos de ver es el conocido Aná- Euclídea y un método de unión llamado de liga-
lisis de Componentes Principales (ACP). Esta miento promedio.
técnica forma parte de un grupo de métodos de- A partir de los resultados la pregunta que sur-
nominados de ordenación o de reducción de la ge es: por qué razón algunos individuos se acer-
dimensionalidad. Ordenan a las unidades de ob- can a otros?, y porqué son distintos los que están
servación y reducen de p dimensiones a pocos en los extremos de los ejes?. En parte esas pregun-
vectores que llevan gran parte de la carga de la tas pueden ser respondidas con las mismas varia-
información original. Los objetivos de estos aná- bles que generaron el análisis. Algunas tendrán
lisis apuntan a generar hipótesis y no a probarlas, mucho peso en el eje 1 y estarán correlacionadas
por lo tanto no forman parte de la Estadística In- con él, otras en el eje 2. De allí el investigador
ferencial. podrá conocer cuáles son las variables que for-
Este Análisis es altamente recomendado cuando maron parte del análisis que marcan mayores di-
tenemos entre manos variables con distribuciones ferencias. Pero estos grupos que se han formado,
foro 63 26/12/04 11:31 AM Page 6

6 Rev. Soc. Entomol. Argent. 63 (3-4), 2004

son reflejo de algún gradientes de algo?. Podría Analizando el Ejemplo 1.


ser un gradiente geográfico?, ambiental?. Para La figura 3 representa el biplot del ACP. Allí se
contestar estas pregunta surge el Análisis de Re- observan las unidades de observación representa-
dundancia, que consta de la utilización de varia- das por círculos y las variables, por triángulos. A
bles ambientales o anexas (que no fueron utiliza- su vez las variables están unidas al centro (el ce-
das previamente en el ACP) para explicar esos ro de ambos ejes). En este ejemplo se ordenaron
gradientes. Se realizan regresiones con las varia- 17 individuos tomándoles cinco variables a cada
bles anexas oficiando de variables independien- uno. El gráfico muestra que las unidades 2, 6 y 13
tes y los componentes principales (como depen- se hallan en un extremo del eje de mayor variabi-
dientes) con el fin de encontrar el modelo que lidad, mientras que las unidades 7 y 14 se hallan
mejor explique la ordenación de las unidades de en el extremo opuesto. Esto sugiere que estas uni-
observación obtenidas por el ACP. Dos son las dades estan en lugares “diametralmente opues-
formas de aplicarlo: mediante métodos de míni- tos”. No se observan “grupos” definidos, sino un
mos cuadrados ordinarios o mediante análisis de gradiente de unidades de observación. El segun-
permutación, que son regresiones del tipo no pa- do eje de mayor variabilidad arroja a las unidades
ramétricas (Good, 2000, Mielke & Berry, 2001). 1, 2, 7, 13 y 17 en un extremo y la unidad 4 en
Es recomendable utilizar Análisis de Compo- el otro.
nentes Principales cuando se posee variables nor- Por su parte es muy pequeño el ángulo forma-
males como en muchos casos son las medidas do entre las variables ala y cuerpo lo que muestra
morfométricas. Por otra parte también se debe su altísima correlación. Antena y ojos también se
poseer una matriz con n>p, es decir más unidades hallan correlacionadas, no así las dos primeras
que variables, aunque observando la bibliografia con las dos últimas, que forman un ángulo apro-
se intuye que esto muchas veces no se cumple. ximado a 90 grados. Cuando el Componente
Dependiendo del objetivo del investigador, antes Principal 1 aumenta, Ala y Cuerpo disminuyen.
de realizar un ACP se pueden transformar las va- Fémur 3, por su parte está también correlaciona-
riables originales con los métodos descriptos ante- da al Componente 1, pero no correlacionada al 2,
riormente. El logaritmo le quitará peso a los datos ya que la “sombra” que produce en éste es muy
extremos, con la estandarización se obtendrá que pequeña. Este análisis y otras observaciones le
todas las variables tengan el mismo peso y la mis- servirán al autor para generar hipótesis sobre la
ma variabilidad, etc. disposición de las unidades y las variables. El por-
Los entomólogos que trabajan en Ecología de- qué algunas son más parecidas a otras, por qué se
ben tener en cuenta que un supuesto muy fuerte produce ese gradiente, etc.
del ACP es asumir linealidad en la relación espe- Además del gráfico se obtiene la información
cie-gradiente. Entonces se debe utilizar sólo si los numérica. El primer Componente Principal (por
gradientes ambientales son “cortos”. En un gra- ejemplo) arrojó un autovalor de 2,16, que re-
diente “largo” las especies tienen un valor óptimo presenta un 60 % de la variabilidad total (suma
donde son más abundantes, y a valores mayores de autovalores=3,6). El segundo eje posee un
o menores del gradiente ambiental son menos autovalor de 1,08, que representa un 30 % de la
abundantes, y por lo tanto no debe ser utilizado variabilidad. Es decir que en los dos primeros
en esos casos. ejes se captura un 90% de la variabilidad de los
Después de haber explicado el ACP podemos datos.
ver claramente que se denomina Ordenación a un
diagrama en que las unidades de observación se Ejemplo 2: Análisis de Correspondencia (AC)
presentan como puntos en un espacio de (por
ejemplo) dos dimensiones, que surgieron de una Se quiere ordenar distintos puntos de muestreo
combinación de las originales (adaptado de Jong- en un campo de maíz, sobre la base de la fauna
man et al., 1995). También se comprende que el de artrópodos del suelo. En este caso tenemos uni-
ACP muestra (si los datos así lo requieren) un gra- dades de observación (puntos), y a cada una de
diente indirecto entre las unidades de observación. ellas se le toman muchas variables (cada especie).
Pero el Análisis de Redundancia, utilizado como Entonces se puede hacer el intento por buscar un
complemento con variables ambientales, mostrará autovector que maximice la dispersión entre las
un gradiente directo (Jongman et al., 1995). unidades (puntos) para conocer cuáles son más
foro 63 26/12/04 11:31 AM Page 7

MANGEAUD, A. Técnicas de Ordenación Multivariadas en la Entomología 7

0.84 Punto B

Sp2
0.51
Sp1

Punto D
Eje 2

Punto C
0.17

Punto E

-0.17
Sp4

Sp3

Punto A
-0.51
-0.78 -0.17 0.45 1.07 1.68
Eje 1
Figura 4: Gráfico (Biplot) de un Análisis de Correspondencia, donde figuran las unidades de observación (pun-
tos) y las especies tomadas como variables (triángulos).

parecidos entre sí, dicho de otro modo: los pun- plicada. Este análisis es conocido también como
tos del borde del campo serán distintos a los del Reciprocal Averaging (McGarigal et al., 2000).
centro?. Pero el número de individuos de cada es- Un análisis posterior al AC es el Análisis de
pecie es un conteo, que no posee distribución Correspondencia Canónica, el equivalente al
normal. Para este caso se recomienda utilizar una Análisis de Redundancia en este marco. Se gene-
distancia denominada chi cuadrado, que se basa ra un gráfico Triplot, que posee las unidades, las
en las frecuencias esperadas que se calculan en variables y las variables anexas utilizadas.
las tablas de contingencia (como en el conocido Contrariamente a las suposiciones de ACP, el
test Chi cuadrado de independencia). Después de Análisis de Correspondencia asume que la rela-
encontrar esas distancias, el análisis traza el pri- ción entre las variables y los gradientes ambien-
mer vector, luego el segundo y así sucesivamen- tales es de tipo unimodal, de este modo se so-
te. La interpretación de ésto es la misma que en luciona el problema de los gradientes “largos”.
el ACP. La diferencia consiste en que se analiza Pero del mismo modo que ocurre en ACP, tiene
tanto el gráfico de las unidades en el espacio de un inconveniente: en el segundo eje se produce
las variables como el de las variables en el es- un “artilugio” matemático que deforma la orde-
pacio de las unidades. Entonces se superponen nación, es un efecto de curvatura donde se
los dos gráficos, obteniendo uno compuesto en cambia la verdadera distancia entre unidades
este caso por puntos y especies llamado biplot de observación, denominado efecto herradura
(Figura 4). (Jongman et al., 1995).
Como la distancia ya no es euclídea ni repre-
senta la varianza entonces no se puede hablar de Analizando el Ejemplo 2:
la varianza que explican los ejes y la variabili- La figura 4 representa el biplot del AC. Allí se
dad explicada entonces se denomina inercia ex- observan las unidades de observación represen-
foro 63 26/12/04 11:31 AM Page 8

8 Rev. Soc. Entomol. Argent. 63 (3-4), 2004

tadas por círculos (sitios o puntos de muestreo) Ejemplo 4: Análisis de Coordenadas Principa-
y las variables, por triángulos (especies). En es- les. (ACoP)
te ejemplo se ordenaron cinco puntos de mues-
treo basadas en cuatro especies. El gráfico Un especialista en genética posee varias varia-
muestra que los puntos A y E se encuentran en bles de diferentes unidades de observación, pero
posiciones diametralmente opuestos con res- él sabe que se ha llegado a un acuerdo y la mejor
pecto al primer eje de mayor variabilidad. A su distancia para medir la similitud o disimilitud en-
vez el punto A se encuentra “asociado” a la es- tre los individuos es un índice basados en distan-
pecie 3 y el punto E a la especie 4. El segundo cias genéticas. Entonces le interesa estudiar cómo
eje de mayor variabilidad separa a estos dos se ordenan sus unidades sobre la base de esas dis-
puntos de los sitios B, C y D. A su vez también tancias, no le interesa ni la Euclidea (como ACP)
se pueden pensar en las asociaciones entre es- ni Chi cuadrado (como AC ó ACD). Entonces se
pecies, las especies 1 y 2 forman un grupo que puede buscar el mayor autovector que maximice
se halla relacionado a los tres sitios que están la dispersión de datos con otra distancia?. La res-
en la porción superior del gráfico. puesta es afirmativa, el Análisis de Coordenadas
De la información numérica obtenida se des- Principales lo hace. Cualquier medida de distan-
prende que el primer autovalor es igual a 0,82, cia propuesta, aún alguna que haya “inventado”
mientras que el valor del segundo es de 0,42. El el investigador puede ser utilizada. De esta forma
primero consigue atrapar una variabilidad (iner- el ACP pasa a ser un caso particular de AcoP para
cia) del 75 %, mientras que el segundo toma un la distancia euclídea y el AC otro caso particular
19% de ésta. Entre ambos se consigue explicar el para la distancia Chi cuadrado. Así el ACoP am-
94 % de la variabilidad de los datos. plía el análisis para aquellas distancias que esten
probadas ser más representativas de las similitu-
Ejemplo 3: Análisis de Correspondencia De- des para algunas áreas de estudio. Como ejem-
tendenciado (ACD) plo, Anderson & Willis (2003) aseguran que en
algunas áreas de Ecología es preferible utilizar es-
Se está trabajando en el efecto de la contamina- te análisis con las medidas de Bray-Curtis o de
ción sobre la comunidad de insectos bentónicos. Kulczynski.
Entonces se intenta ordenar distintos sitios sobre la Como hemos estado viendo en los casos ante-
base de las variables (especies de insectos). riores, aquí se podrían pensar en análisis ulterio-
El Análisis de Correspondencia Detendencia- res: El Análisis de Coordenadas Principales Canó-
do (Hill & Gauch, 1980) es una técnica de or- nicas busca restringir los resultados a otros datos
denación que quita el efecto herradura explica- por ejemplo ambientales.
do anteriormente. Ha sido muy utilizado en los Un sinónimo de ACoP es Análisis de Escala-
trabajos científicos de las últimas dos décadas. miento Multidimensional (Multidimensional Sca-
El primer programa de computación que reali- ling). Con ese nombre se conocieron a técnicas
zaba este análisis se llamó Decorana por lo que que originalmente se realizaron para hacer “ma-
se ha generalizado el análisis con ese nombre. pas” a partir de matrices de distancia. En ese mar-
Utiliza igualmente que el Análisis de Corres- co se intenta priorizar las coordenadas principa-
pondencia una distancia chi cuadrado, pero a les de manera que se produzcan la menor distor-
los ejes los particiona en segmentos que “desar- sión con respecto a las distancias originales. La
man” la herradura. La interpretación de los ejes bondad de ajuste del método la calcula median-
es la misma que en Componentes Principales y te un valor llamado Stress (u otro llamado Sstress)
Correspondencia: se busca el eje de mayor va- que da una idea de la distorsión ocurrida. Por su
riabilidad y se intenta absorver en la menor parte se puede tener un Escalamiento Multidi-
cantidad de ejes posibles la mayor variabilidad mensional Métrico (Metric Multidimensional Sca-
de los datos originales, que sigue llamándose ling) que trabajan con la verdadera magnitud de
inercia explicada. las distancias o Escalamiento Multidimensional
Además para entender a los ejes como gra- No Métrico (Non Metric Multidimensional Sca-
dientes ambientales, se presenta un Analisis de ling). Esta es una ordenación que se puede hacer
Correspondencia Detendenciado Canónico, que con datos que son no normales, arbitrarios, dis-
grafica un Triplot. continuos o cuestionables. Está basado en distan-
foro 63 26/12/04 11:31 AM Page 9

MANGEAUD, A. Técnicas de Ordenación Multivariadas en la Entomología 9

cias, pero no utiliza la magnitud de la distancia azar o si el patrón de semejanza es significativo.


sino sólo el número de orden de las mismas (dis- Este tipo de análisis se esta utiliza con frecuencia
tancias ordenadas o rankeadas). en los análisis morfométricos conocido como
“landmark”.

OTROS ANÁLISIS Como corolario quiero expresar que este tra-


bajo intentó presentar una sencilla explicación y
Análisis Factorial (AF) puesta al día de los métodos de ordenación más
Recordemos que en el ACP, cada componente comúnmente utilizados en las Ciencias Biológi-
es una combinación lineal de variables. En el cas en general y en la Entomología en particular.
Análisis Factorial se invierte esta idea: se asume Debiera ser tomado con ese objetivo y así servir
que cada variable es una combinación lineal de como un nexo o introducción para que los inte-
factores desconocidos más un residuo o error no resados arriben a textos de mayor (y mejor) en-
medido. De modo que: vergadura en pos de mayor claridad.

X1 = µ1 + l11 F1+ l12 F2 + ... +l1m Fm + e1


AGRADECIMIENTOS
Xp = µp + lp1 F1+ lp2 F2 + ... +lpm Fm + ep
Quiero agradecer a la Directora de la Revista
donde Xi representa cada variable, µi es una de la Sociedad Entomológica Argentina, Dra. Lu-
ordenada al origen, Ii son las pendientes, Fi facto- cía Claps y a la Editora Dra. Graciela Valladares,
res, ei error. la invitación a participar en este foro.
Esos factores son no observables y tienen alea-
toriedad.
Este análisis ha tenido muy poca utilización en BIBLIOGRAFIA CITADA
las Ciencias Biológicas. Se han conocido diversos
ejemplos tanto en Psicología, como en Geología AFIFI, A. & V. CLARK. 1996. Computer-aided
(Davis, 1986). En este momento se lo está revalo- multivariate analysis. Chapman & Hall. Bo-
rizando, ya que establece las bases para otros ca Raton.
análisis denominados Modelos de Ecuaciones Es- ANDERSON, M. & T. WILLIS. 2003. Canonical
tructurales (Structural Equation Models). Estos Analysis of Principal Coordinates: a useful
MEE son herramientas que permiten contrastar hi- method of constrained ordination for Ecology.
pótesis sobre relaciones causales en datos obser- Ecology. 84:511–525.
vacionales. Presentan una alternativa a los diseños DAVIS, J. 1986. Statistics and data analysis in Geo-
experimentales sustituyendo al control experi- logy. John Wiley & Sons. New York.
mental por un control estadístico. Iriondo et al., DIGBY, P. & R. KEMPTON. 1991. Multivariate analy-
2003 provee una excelente explicación aplicada a sis of ecological communities. Chapman &
datos biológicos. Para detalles teóricos ver Ta- Hall. London.
bachnick & Fidell (1996). GOOD, P. 2000. Permutation test. A practical guide
to resampling methods for testing hypotheses.
Procrustes Springer. New York.
Es una técnica para comparar si son similares HAIR, J., R. ANDERSON, R. TATHAM & W. BLACK.
los resultados de dos o más ordenaciones realiza- 1995. Multivariate data analysis with rea-
das sobre las mismas unidades de observación. dings. Prentice-Hall. New Jersey.
Este método deja fija una de las ordenaciones y HILL, M. & H. GAUCH. 1980. Detrended corres-
corre, estira y rota la/s otras, de manera tal que la pondence analysis. an improved ordination
distancia entre los puntos ordenados por los dis- technique. Vegetatio 42:47-58.
tintos sistemas sea el mínimo posible (Digby & IRIONDO, J., M. ALBERT & A. ESCUDERO. 2003.
Kempton, 1991). Además esto se complementa Structural equation modelling. an alternativa
con un análisis de permutaciones de manera tal for assessing causal relationships in threatenet
de obtenerse una probabilidad que esa “semejan- plant populations. Biological conservation.
za” entre las ordenaciones pueda deberse sólo al 113: 367-377.
foro 63 26/12/04 11:31 AM Page 10

10 Rev. Soc. Entomol. Argent. 63 (3-4), 2004

JOHNSON, R. & D. WICHERN. 1998. Applied multi- MIELKE, P. & K. BERRY. 2001. Permutation Methods.
variate statistical analysis. Prentice-Hall. New A distance function approach. Springer. New
Jersey. York.
JONGMAN, R., C. TER BRAAK & O. VAN TONGEREN. TABACHNICK, B. & L. FIDELL. 1996. Using multiva-
1995. Data analysis in community and lands- riate statistics. HarperCollins College Publis-
cape ecology. Cambridge Univ. Press. Cam- hers. New York.
bridge.
MCGARIGAL, K., S. CUSHMAN & S. STAFFORD. 2000.
Multivariate Statistics for Wildlife and Ecology Recibido: 26-VIII-2004
Research. Springer. New York. Aceptado: 19-XI-2004

También podría gustarte