La aplicacin de Tcnicas de Ordenacin Multivariadas en la Entomologa MANGEAUD, Arnaldo Centro de Investigaciones Entomolgicas de Crdoba. Ctedra de Estadstica y Biometra. Facultad de Ciencias Exactas Fsicas y Naturales. Universidad Nacional de Crdoba. Av. Vlez Srsfield 299. 5000 Crdoba. Argentina; e-mail: amangeaud@com.uncor.edu I RESUMEN. Los mtodos de ordenacin son herramientas multivariadas muy utilizadas en la Entomologa. En este foro se presenta una introduccin a stos y breves explicaciones sobre distintas Tcnicas: Anlisis de Componentes Prin- cipales (ACP), Anlisis de Redundancia (AR), Anlisis de Correspondencia. (AC), de Correspondencia Cannica (ACC) y de Correspondencia Detenden- ciada (ACD), Anlisis de Coordenadas Principales (AcoP), Anlisis Factoriales (AF), Modelos de Ecuaciones Estructurales (MEE) y Mtodo de Procrustes. PALABRAS CLAVE. Anlisis de Componentes Principales. Redundancia. Co- rrespondencia. Correspondencia Cannica. Correspondencia Detendenciada. Coordenadas Principales. I ABSTRACT. Application of Multivariate ordenation methods in Entomo- logy. Ordenation methods are multivariate technics used a lot in Entomology. At this forum is presented an introduction to ordination methods and a short explanation over different technics: Principal Component Analysis (PCA), Re- dundancy Analysis (RA). Correspondence Analysis (CA). Canonical Correspon- dence Analysis (CCA). Detrended Correspondence Analysis (DCA) Principal Coordinate Analysis (PcoA). Factor Analysis (FA), Structural Equation Models (SEM) and Procrustes method. KEY WORDS. Principal Component Analysis. Redundancy. Correspondence. Canonical Correspondence. Detrended Correspondence. Principal Coordinates. FORO INTRODUCCIN Puede resultar muy poco novedoso comenzar este artculo con una sentencia como: la natura- leza es muy compleja. Pero aunque esta frase tan utilizada diera lugar a una sonrisa, podemos convenir que es cierta. Cuando un investigador observa o intenta explicar los eventos que ocu- rren en la naturaleza, comienza por tomar carac- tersticas aisladas, es decir de a una por vez. Ade- ms, en el afn de cumplir con el principio de parsimonia y que las explicaciones sean biolgi- camente coherentes, utiliza muy pocas caracte- rsticas o variables independientes que expliquen a otras, dependientes. Esto es apoyado por toda una batera de anlisis de la Estadstica, que po- demos denominar Estadstica univariada. Qu ocurre cuando el investigador vido de conocimientos quiere ms y no se conforma con slo una variable. Si sto pasara por vuestras mentes, entonces la solucin a vuestras inquietu- des tiene nombre y apellido: Anlisis Multivaria- dos, un conjunto de tcnicas y anlisis que utilizan muchas (dos o ms) variables a la vez. Las variables se definen como las caractersti- cas que les poseen las unidades de observacin foro 63 26/12/04 11:31 AM Page 1 2 Rev. Soc. Entomol. Argent. 63 (3-4), 2004 (el objeto de estudio). Cada unidad posee un sin- nmero de variables, pero el investigador slo to- ma o mide las que le sern tiles a sus objetivos. Las variables pueden ser de varios tipos: Cualita- tiva Nominal, como Presencia-Ausencia, sexo, coloracin, forma de la mina de un minador (Agromyzidae), etc. Cualitativa Ordinal, como la especificidad alimentaria de una categora taxo- nmica (monfagas, oligfagas y polfagas, esta- dios larvales, etc.) Cuantitativa Discreta, como nmero de huevos, nmero de antenmeros, das hasta la pupacin, nmero de parasitoides, de huspedes, de especies, etc. Cuantitativa Conti- nua, como largo del ala, distancia recorrida, peso de las ovariolas, etc. Algunos conocimientos preliminares. En pri- mer trmino cabe acotar que en los anlisis de Ordenacin (ms adelante daremos su definicin) se le dar a todas las variables el mismo peso, por lo que si una variable fue medida en metros, otra en cm, otra en mg x l -1 , los anlisis tomarn sus respectivos valores y la escala en que estn medi- das algunas, llevar la atencin de todo el anli- sis. Por otra parte si algunas poseen mucha varia- bilidad y otras muy poca, toda la atencin se la llevar la variable con mayor dispersin en los datos. Para observar esto, antes de realizar los anlisis pertinentes, los investigadores deben rea- lizar la mayor cantidad posible de anlisis des- criptivos y grficos preliminares. Nadie mejor que el dueo de los datos para conocer la posicin y dispersin, simetra y distribucin de cada una de las variables en estudio. A sta informacin se la complementa con grficos de cajas (box-plot) en busca de datos anmalos (outliers) que deben ser identificados. Ntese la palabra identificar y no eliminar. Un dato anmalo NO se debe elimi- nar slo por el hecho de identificarlo, debe exis- tir una razn biolgica para su eliminacin. Por- qu vamos a discriminar a un dato rarito?, por- que no es como la mayora?. Por otra parte resulta interesante realizar grfi- cos de dispersin (tipo xy) de a dos variables a la vez para ver como se van relacionando de a pa- res. Por ltimo existen herramientas descriptivas multivariadas como perfiles multivariados, grfi- cos de estrellas, etc. que muestran patrones gene- rales tomando todas las variables a la vez (John- son & Wichern, 1998). Con el objeto de quitarle peso relativo a algu- nas variables o para que se cumplan ciertos su- puestos, el investigador puede realizar transfor- maciones a los datos originales, con ello se trata de aplicar un cambio de escala en cada elemen- to de la variable, independientemente de otro. Existen varios tipos de transformaciones, cada una con objetivos diferentes, siendo las ms co- munes: Logaritmos: y ij = Log (x ij +1), donde y ij es el va- lor transformado, x ij es el valor original. Se utiliza normalmente para conseguir distri- buciones simtricas en aquellas asimtricas a la derecha. Tambin se utiliza para acercar los da- tos que se hallan lejanos hacia la derecha del eje cuando se presenta un alto grado de variacin entre las variables o cuando dentro de una de ellas hay mucha variacin. La forma mas comn de realizar esta transformacin es sumar previa- mente al dato original una constante (uno) ya que si hay datos ceros, el logaritmo de cero no est definido. Transformaciones de Potencia (Power transfor- mations): y ij = (x ij +1) p , donde 0<p<9. Podemos diferenciar la transformacin cuando p<1, de aquella donde p>1. En la primera esta- mos hablando de una raz que se utiliza, al igual que el logaritmo, para traer datos lejanos. En el segundo caso es la potencia tal como la conoce- mos, y se la utiliza para hacer simtrica distribu- ciones que son asimtricas a la izquierda. Arcoseno: y ij = Asen (pij), donde p ij es la pro- porcin Se utilizan para normalizar las proporciones. Relativizaciones: Se utilizan para cambiar la escala de un valor de la variable, en referencia a otros valores. Relativizada al mximo o al total: y ij = x ij / max x j Es la proporcin de un valor con respecto al mximo valor observado o a la suma de stos. Ajustada a la media: y ij = x ij X i Se utiliza para quitarle el peso relativo de ca- da variable, ya que se consigue una variable con media cero, pero conserva la varianza y la forma de la distribucin. Estandarizacin (ajustada a la media y al desvo): 2 foro 63 26/12/04 11:31 AM Page 2 MANGEAUD, A. Tcnicas de Ordenacin Multivariadas en la Entomologa , donde X i es la media de la variable y S i es el desvo. Se le quita el peso relativo y la variabilidad, todas las variables presentarn media cero y va- rianza uno. Pero se conservar la forma de la distribucin. Es necesario acotar que la transformacin de los datos no es un dogma de fe, hacerla no nece- sariamente soluciona todos los problemas. El transformar las variables tiene que perseguir un objetivo (Afifi & Clark, 1996). Despus de realizar estos cambios en las variables se debe proceder a hacer nuevamente todos los anlisis descriptivos para observar si se cumplieron los objetivos de este proceso. Algo de Matrices y Estadstica. En textos de matemtica se puede leer que una matriz es un arreglo de nmeros en la forma de filas y colum- nas, o sea una tabla de doble entrada. Para reali- zar los anlisis que nos convocan construiremos matrices de la siguiente forma: en cada fila se co- locarn cada una de las unidades de observacin desde 1 a n. En cada columna, las variables, des- de la 1 a la p. Por lo tanto tendremos una matriz X nxp donde n es el nmero de unidades de obser- vacin y p el nmero de variables a considerar (Tabla 1). Recordemos que la varianza es una medida de dispersin de todos los datos con respecto a su propia media. La covarianza, por su parte, es la variacin conjunta de dos variables a la vez. Se puede considerar a la covarianza como una va- rianza entre dos variables, y a la varianza como una covarianza de una variable consigo misma. Con la matriz X de datos se puede construir una matriz S pxp (matriz de varianzas-covarianzas) donde en su diagonal principal se observan las varianzas de cada una de las variables y en los tringulos de la matriz hacia arriba y hacia abajo se presentan las covarianzas entre las distintas va- riables (Tabla 1). La suma de las varianzas de la diagonal principal es la varianza total de la ma- triz. El ndice de correlacin de Pearson entre dos variables se define como el cociente entre la co- varianza y el producto de los desvos. Si se divi- de a cada uno de los nmeros de la matriz S por el producto de los desvos correspondientes, se obtendr una nueva matriz R pxp llamada matriz de correlacin, donde en la diagonal principal se presentan todos los unos (correlacin entre una variable y ella misma) y en los tringulos, las co- rrelaciones entre cada par de variables (Tabla 1). DE LO PARTICULAR A LO GENERAL Ejemplo 1: Anlisis de Componentes Principa- les (ACP). Supongamos que un investigador est estu- diando un gnero de mosquitos, y toma dos va- riables a cada individuo (unidad de observacin): largo del ala y largo del cuerpo (ruego a los espe- cialistas no sonrer por la simplicidad del ejem- plo). Si la combinacin de estas dos variables pu- diera separar a algunas especies, entonces re- sultara interesante dibujar todas las unidades de observacin en un espacio de dos dimensiones. Entonces se realizara un grfico de dispersin, en dos dimensiones, como el de la Figura 1. Ahora, si el investigador toma tres variables, las unidades de observacin son dibujadas en un espacio de tres dimensiones, si fueran 10 variables estaran en 10 dimensiones y generalizando: en p varia- bles, corresponderan p dimensiones. Resulta prcticamente imposible encontrar patrones o grupos de individuos en ms de tres dimensiones. Por ello se deben utilizar herramientas para ex- 3 Matriz original de datos X nxp Matriz de Varianzas-Covarianzas S pxp Matriz de Correlacin R pxp donde n=5 y p=3 donde p=3 donde p=3 X= 1 2 5 4 7 1 2 1 6 5 6 2 3 4 6 S = 2,5 3,5 -2,75 3,5 6,5 -5,25 -2,75 -5,25 5,5 R = 1 0,87 -0,74 0,87 1 -0,88 -0,74 -0,88 1 Tabla 1: Ejemplo de la estructura de la Matriz de datos, de Varianzas-Covarianzas y Correlacin. Se observa una matriz original con tres variables tomadas a cinco unidades de observacin. (x ij X i ) Si y ij = foro 63 26/12/04 11:31 AM Page 3 Rev. Soc. Entomol. Argent. 63 (3-4), 2004 traer conclusiones a partir de muchas dimensio- nes, es decir con todas las variables. Si volvemos a dos dimensiones veremos que una manera sen- cilla de encontrar un patrn es ver en qu sentido se presenta la mxima dispersin de datos. Este es el eje de mayor variabilidad de los datos y se construye pasando una recta de modo tal que se maximice la dispersin de datos en un sentido y se minimice la distancia de todos los puntos a s- ta (Figura 2). Esto es lo que conocemos como au- tovector, vector propio o eigenvector. Asociado a este autovector se presenta un autovalor, valor propio o eigenvalue, que da una idea de la mag- nitud (el largo) del autovector. Esa es una medida de la variabilidad que absorbe ese vector. Des- pus de ese eje de mxima variabilidad se tiene un segundo autovector, perpendicular (ortogonal) al primero y as sucesivamente hasta conseguir tantos p autovectores y autovalores como p varia- bles posee la matriz. Los autovalores y autovectores no surgen a partir de un dibujo, sino que se calculan a partir de matrices. Para ello se debe partir de una matriz original de datos X nxp a partir de la cual se calcu- la la matriz S pxp . Si los datos originales han sido previamente estandarizados, lo que se obtiene es una matriz de correlacin (R) donde se presentan los valores de los ndices de correlacin de Pear- son. As como en un anlisis de regresin ordina- ria (con mtodo de mnimos cuadrados) se cons- truye una recta (eje), aqu ocurre lo mismo, pero la forma de construrlo es distinta. La frmula del eje no tiene ordenada al origen y consta de una pendiente por cada una de las p variables. Enton- ces ese eje de mayor variabilidad est compuesto por una porcin de la informacin de cada varia- ble, es lo que se llama una combinacin lineal de las variables: CP 1 = a 11 X 1 + a 12 X 2 + ... + a 1p X p CP 2 = a 21 X 1 + a 22 X 2 + ... + a 2p X p CP p = a p1 X 1 + a p2 X 2 + ... + a pp X p Donde CP i : eje o componente principal, X j : variables, a ij : pendientes. Como se vio anteriormente la varianza total del anlisis es la suma de las varianzas de cada variable. Entonces se tiene que la suma de los au- tovalores es igual a la suma de todas las varian- zas, es decir la varianza total. Por definicin, los autovectores se presentan desde el mayor autova- lor al menor de stos. El primer autovector va a absorber mucha variabilidad, el segundo menos y as sucesivamente, pero cuntos autovectores son suficientes para explicar gran parte de la variabi- lidad de la matriz?. Una regla prctica sencilla di- ce: Slo sirven los autovectores que absorben ms variabilidad que el promedio de las varian- zas (si se trabaja con una matriz de varianza-co- varianza) o si son mayores que 1 (si se trabaja con una matriz de correlacin). Este criterio de deci- sin se denomina criterio de la raz latente. (Ver otros criterios en Hair et al., 1995 y McGarigal et al., 2000). A partir de los autovalores escogidos se reali- zar un nuevo grfico donde se ordenarn las unidades de observacin. All se colocarn en los ejes x e y a los autovectores 1 y 2 y se observarn los patrones que presenta el grfico: quines es- tn en los extremos?, se observan grupos?, cun cerca estn las unidades de observacin?. Se pue- 4 L a r g o
a l a r
( e n
m m ) 6 5.8 5.6 5.4 5.2 5 4.8 4.6 4.4 9 10 11 12 13 14 Largo del cuerpo (en mm) L a r g o
a l a r
( e n
m m ) 6 5.8 5.6 5.4 5.2 5 4.8 4.6 4.4 9 10 11 12 13 14 Largo del cuerpo (en mm) Figura 1: Grfico de dispersin entre el largo del cuer- po y largo del ala largo de un gnero de mosquito. Figura 2: Grfico de dispersin entre el largo del cuer- po y largo del ala largo de un gnero de mosquito don- de figura el eje que absorve la mayor variabilidad de los datos. foro 63 26/12/04 11:31 AM Page 4 MANGEAUD, A. Tcnicas de Ordenacin Multivariadas en la Entomologa de realizar, adems, otro grfico solapado (biplot) donde superpone las variables. Estas se unen al centro del grfico y dan una idea de cun cerca estn algunas variables de las unidades y cun correlacionadas estn las variables entre s. Cuan- to ms agudo sea el ngulo entre variables la co- rrelacin es mayor, si el ngulo es de 90 grados la correlacin nula y si es muy obtuso es una corre- lacin inversa (Figura 3). Lo que acabamos de ver es el conocido An- lisis de Componentes Principales (ACP). Esta tcnica forma parte de un grupo de mtodos de- nominados de ordenacin o de reduccin de la dimensionalidad. Ordenan a las unidades de ob- servacin y reducen de p dimensiones a pocos vectores que llevan gran parte de la carga de la informacin original. Los objetivos de estos an- lisis apuntan a generar hiptesis y no a probarlas, por lo tanto no forman parte de la Estadstica In- ferencial. Este Anlisis es altamente recomendado cuando tenemos entre manos variables con distribuciones normales, ms an debieramos tener una matriz con distribucin normal multivariada. Adems de esto, el investigador no tiene informacin de gru- pos a-priori entre las unidades de observacin. Debido a que utiliza una matriz de varianzas-co- varianzas, considera que entre las unidades de observacin se presenta una distancia Eucldea, entonces los resultados obtenidos son equipara- bles a un dendrograma realizado con distancia Eucldea y un mtodo de unin llamado de liga- miento promedio. A partir de los resultados la pregunta que sur- ge es: por qu razn algunos individuos se acer- can a otros?, y porqu son distintos los que estn en los extremos de los ejes?. En parte esas pregun- tas pueden ser respondidas con las mismas varia- bles que generaron el anlisis. Algunas tendrn mucho peso en el eje 1 y estarn correlacionadas con l, otras en el eje 2. De all el investigador podr conocer cules son las variables que for- maron parte del anlisis que marcan mayores di- ferencias. Pero estos grupos que se han formado, 5 Figura 3: Grfico (Biplot) de un Anlisis de Componentes Principales, donde figuran las unidades de observacin y las variables. 2.83 1.56 0.29 -0.99 -2.26 C o m p o n e n t e
P Ojos Anten Fmur Cuerpo Ala 7 1 17 16 3 14 10 3 4 15 8 11 12 9 13 2 5 6 2.65 1.23 -0.19 -1.60 -3.02 Componente Principal 1 foro 63 26/12/04 11:31 AM Page 5 Rev. Soc. Entomol. Argent. 63 (3-4), 2004 son reflejo de algn gradientes de algo?. Podra ser un gradiente geogrfico?, ambiental?. Para contestar estas pregunta surge el Anlisis de Re- dundancia, que consta de la utilizacin de varia- bles ambientales o anexas (que no fueron utiliza- das previamente en el ACP) para explicar esos gradientes. Se realizan regresiones con las varia- bles anexas oficiando de variables independien- tes y los componentes principales (como depen- dientes) con el fin de encontrar el modelo que mejor explique la ordenacin de las unidades de observacin obtenidas por el ACP. Dos son las formas de aplicarlo: mediante mtodos de mni- mos cuadrados ordinarios o mediante anlisis de permutacin, que son regresiones del tipo no pa- ramtricas (Good, 2000, Mielke & Berry, 2001). Es recomendable utilizar Anlisis de Compo- nentes Principales cuando se posee variables nor- males como en muchos casos son las medidas morfomtricas. Por otra parte tambin se debe poseer una matriz con n>p, es decir ms unidades que variables, aunque observando la bibliografia se intuye que esto muchas veces no se cumple. Dependiendo del objetivo del investigador, antes de realizar un ACP se pueden transformar las va- riables originales con los mtodos descriptos ante- riormente. El logaritmo le quitar peso a los datos extremos, con la estandarizacin se obtendr que todas las variables tengan el mismo peso y la mis- ma variabilidad, etc. Los entomlogos que trabajan en Ecologa de- ben tener en cuenta que un supuesto muy fuerte del ACP es asumir linealidad en la relacin espe- cie-gradiente. Entonces se debe utilizar slo si los gradientes ambientales son cortos. En un gra- diente largo las especies tienen un valor ptimo donde son ms abundantes, y a valores mayores o menores del gradiente ambiental son menos abundantes, y por lo tanto no debe ser utilizado en esos casos. Despus de haber explicado el ACP podemos ver claramente que se denomina Ordenacin a un diagrama en que las unidades de observacin se presentan como puntos en un espacio de (por ejemplo) dos dimensiones, que surgieron de una combinacin de las originales (adaptado de Jong- man et al., 1995). Tambin se comprende que el ACP muestra (si los datos as lo requieren) un gra- diente indirecto entre las unidades de observacin. Pero el Anlisis de Redundancia, utilizado como complemento con variables ambientales, mostrar un gradiente directo (Jongman et al., 1995). Analizando el Ejemplo 1. La figura 3 representa el biplot del ACP. All se observan las unidades de observacin representa- das por crculos y las variables, por tringulos. A su vez las variables estn unidas al centro (el ce- ro de ambos ejes). En este ejemplo se ordenaron 17 individuos tomndoles cinco variables a cada uno. El grfico muestra que las unidades 2, 6 y 13 se hallan en un extremo del eje de mayor variabi- lidad, mientras que las unidades 7 y 14 se hallan en el extremo opuesto. Esto sugiere que estas uni- dades estan en lugares diametralmente opues- tos. No se observan grupos definidos, sino un gradiente de unidades de observacin. El segun- do eje de mayor variabilidad arroja a las unidades 1, 2, 7, 13 y 17 en un extremo y la unidad 4 en el otro. Por su parte es muy pequeo el ngulo forma- do entre las variables ala y cuerpo lo que muestra su altsima correlacin. Antena y ojos tambin se hallan correlacionadas, no as las dos primeras con las dos ltimas, que forman un ngulo apro- ximado a 90 grados. Cuando el Componente Principal 1 aumenta, Ala y Cuerpo disminuyen. Fmur 3, por su parte est tambin correlaciona- da al Componente 1, pero no correlacionada al 2, ya que la sombra que produce en ste es muy pequea. Este anlisis y otras observaciones le servirn al autor para generar hiptesis sobre la disposicin de las unidades y las variables. El por- qu algunas son ms parecidas a otras, por qu se produce ese gradiente, etc. Adems del grfico se obtiene la informacin numrica. El primer Componente Principal (por ejemplo) arroj un autovalor de 2,16, que re- presenta un 60 % de la variabilidad total (suma de autovalores=3,6). El segundo eje posee un autovalor de 1,08, que representa un 30 % de la variabilidad. Es decir que en los dos primeros ejes se captura un 90% de la variabilidad de los datos. Ejemplo 2: Anlisis de Correspondencia (AC) Se quiere ordenar distintos puntos de muestreo en un campo de maz, sobre la base de la fauna de artrpodos del suelo. En este caso tenemos uni- dades de observacin (puntos), y a cada una de ellas se le toman muchas variables (cada especie). Entonces se puede hacer el intento por buscar un autovector que maximice la dispersin entre las unidades (puntos) para conocer cules son ms 6 foro 63 26/12/04 11:31 AM Page 6 MANGEAUD, A. Tcnicas de Ordenacin Multivariadas en la Entomologa parecidos entre s, dicho de otro modo: los pun- tos del borde del campo sern distintos a los del centro?. Pero el nmero de individuos de cada es- pecie es un conteo, que no posee distribucin normal. Para este caso se recomienda utilizar una distancia denominada chi cuadrado, que se basa en las frecuencias esperadas que se calculan en las tablas de contingencia (como en el conocido test Chi cuadrado de independencia). Despus de encontrar esas distancias, el anlisis traza el pri- mer vector, luego el segundo y as sucesivamen- te. La interpretacin de sto es la misma que en el ACP. La diferencia consiste en que se analiza tanto el grfico de las unidades en el espacio de las variables como el de las variables en el es- pacio de las unidades. Entonces se superponen los dos grficos, obteniendo uno compuesto en este caso por puntos y especies llamado biplot (Figura 4). Como la distancia ya no es eucldea ni repre- senta la varianza entonces no se puede hablar de la varianza que explican los ejes y la variabili- dad explicada entonces se denomina inercia ex- plicada. Este anlisis es conocido tambin como Reciprocal Averaging (McGarigal et al., 2000). Un anlisis posterior al AC es el Anlisis de Correspondencia Cannica, el equivalente al Anlisis de Redundancia en este marco. Se gene- ra un grfico Triplot, que posee las unidades, las variables y las variables anexas utilizadas. Contrariamente a las suposiciones de ACP, el Anlisis de Correspondencia asume que la rela- cin entre las variables y los gradientes ambien- tales es de tipo unimodal, de este modo se so- luciona el problema de los gradientes largos. Pero del mismo modo que ocurre en ACP, tiene un inconveniente: en el segundo eje se produce un artilugio matemtico que deforma la orde- nacin, es un efecto de curvatura donde se cambia la verdadera distancia entre unidades de observacin, denominado efecto herradura (Jongman et al., 1995). Analizando el Ejemplo 2: La figura 4 representa el biplot del AC. All se observan las unidades de observacin represen- 7 Figura 4: Grfico (Biplot) de un Anlisis de Correspondencia, donde figuran las unidades de observacin (pun- tos) y las especies tomadas como variables (tringulos). E j e
2 0.84 0.51 0.17 -0.17 -0.51 -0.78 -0.17 0.45 1.07 1.68 Eje 1 Punto E Sp4 Punto A Sp3 Punto C Punto D Punto B Sp2 Sp1 foro 63 26/12/04 11:31 AM Page 7 Rev. Soc. Entomol. Argent. 63 (3-4), 2004 8 tadas por crculos (sitios o puntos de muestreo) y las variables, por tringulos (especies). En es- te ejemplo se ordenaron cinco puntos de mues- treo basadas en cuatro especies. El grfico muestra que los puntos A y E se encuentran en posiciones diametralmente opuestos con res- pecto al primer eje de mayor variabilidad. A su vez el punto A se encuentra asociado a la es- pecie 3 y el punto E a la especie 4. El segundo eje de mayor variabilidad separa a estos dos puntos de los sitios B, C y D. A su vez tambin se pueden pensar en las asociaciones entre es- pecies, las especies 1 y 2 forman un grupo que se halla relacionado a los tres sitios que estn en la porcin superior del grfico. De la informacin numrica obtenida se des- prende que el primer autovalor es igual a 0,82, mientras que el valor del segundo es de 0,42. El primero consigue atrapar una variabilidad (iner- cia) del 75 %, mientras que el segundo toma un 19% de sta. Entre ambos se consigue explicar el 94 % de la variabilidad de los datos. Ejemplo 3: Anlisis de Correspondencia De- tendenciado (ACD) Se est trabajando en el efecto de la contamina- cin sobre la comunidad de insectos bentnicos. Entonces se intenta ordenar distintos sitios sobre la base de las variables (especies de insectos). El Anlisis de Correspondencia Detendencia- do (Hill & Gauch, 1980) es una tcnica de or- denacin que quita el efecto herradura explica- do anteriormente. Ha sido muy utilizado en los trabajos cientficos de las ltimas dos dcadas. El primer programa de computacin que reali- zaba este anlisis se llam Decorana por lo que se ha generalizado el anlisis con ese nombre. Utiliza igualmente que el Anlisis de Corres- pondencia una distancia chi cuadrado, pero a los ejes los particiona en segmentos que desar- man la herradura. La interpretacin de los ejes es la misma que en Componentes Principales y Correspondencia: se busca el eje de mayor va- riabilidad y se intenta absorver en la menor cantidad de ejes posibles la mayor variabilidad de los datos originales, que sigue llamndose inercia explicada. Adems para entender a los ejes como gra- dientes ambientales, se presenta un Analisis de Correspondencia Detendenciado Cannico, que grafica un Triplot. Ejemplo 4: Anlisis de Coordenadas Principa- les. (ACoP) Un especialista en gentica posee varias varia- bles de diferentes unidades de observacin, pero l sabe que se ha llegado a un acuerdo y la mejor distancia para medir la similitud o disimilitud en- tre los individuos es un ndice basados en distan- cias genticas. Entonces le interesa estudiar cmo se ordenan sus unidades sobre la base de esas dis- tancias, no le interesa ni la Euclidea (como ACP) ni Chi cuadrado (como AC ACD). Entonces se puede buscar el mayor autovector que maximice la dispersin de datos con otra distancia?. La res- puesta es afirmativa, el Anlisis de Coordenadas Principales lo hace. Cualquier medida de distan- cia propuesta, an alguna que haya inventado el investigador puede ser utilizada. De esta forma el ACP pasa a ser un caso particular de AcoP para la distancia eucldea y el AC otro caso particular para la distancia Chi cuadrado. As el ACoP am- pla el anlisis para aquellas distancias que esten probadas ser ms representativas de las similitu- des para algunas reas de estudio. Como ejem- plo, Anderson & Willis (2003) aseguran que en algunas reas de Ecologa es preferible utilizar es- te anlisis con las medidas de Bray-Curtis o de Kulczynski. Como hemos estado viendo en los casos ante- riores, aqu se podran pensar en anlisis ulterio- res: El Anlisis de Coordenadas Principales Can- nicas busca restringir los resultados a otros datos por ejemplo ambientales. Un sinnimo de ACoP es Anlisis de Escala- miento Multidimensional (Multidimensional Sca- ling). Con ese nombre se conocieron a tcnicas que originalmente se realizaron para hacer ma- pas a partir de matrices de distancia. En ese mar- co se intenta priorizar las coordenadas principa- les de manera que se produzcan la menor distor- sin con respecto a las distancias originales. La bondad de ajuste del mtodo la calcula median- te un valor llamado Stress (u otro llamado Sstress) que da una idea de la distorsin ocurrida. Por su parte se puede tener un Escalamiento Multidi- mensional Mtrico (Metric Multidimensional Sca- ling) que trabajan con la verdadera magnitud de las distancias o Escalamiento Multidimensional No Mtrico (Non Metric Multidimensional Sca- ling). Esta es una ordenacin que se puede hacer con datos que son no normales, arbitrarios, dis- continuos o cuestionables. Est basado en distan- foro 63 26/12/04 11:31 AM Page 8 MANGEAUD, A. Tcnicas de Ordenacin Multivariadas en la Entomologa 9 cias, pero no utiliza la magnitud de la distancia sino slo el nmero de orden de las mismas (dis- tancias ordenadas o rankeadas). OTROS ANLISIS Anlisis Factorial (AF) Recordemos que en el ACP, cada componente es una combinacin lineal de variables. En el Anlisis Factorial se invierte esta idea: se asume que cada variable es una combinacin lineal de factores desconocidos ms un residuo o error no medido. De modo que: X 1 = 1 + l 11 F 1 + l 12 F 2 + ... +l 1m F m + e 1 X p = p + l p1 F 1 + l p2 F 2 + ... +l pm F m + e p donde X i representa cada variable, i es una ordenada al origen, I i son las pendientes, F i facto- res, e i error. Esos factores son no observables y tienen alea- toriedad. Este anlisis ha tenido muy poca utilizacin en las Ciencias Biolgicas. Se han conocido diversos ejemplos tanto en Psicologa, como en Geologa (Davis, 1986). En este momento se lo est revalo- rizando, ya que establece las bases para otros anlisis denominados Modelos de Ecuaciones Es- tructurales (Structural Equation Models). Estos MEE son herramientas que permiten contrastar hi- ptesis sobre relaciones causales en datos obser- vacionales. Presentan una alternativa a los diseos experimentales sustituyendo al control experi- mental por un control estadstico. Iriondo et al., 2003 provee una excelente explicacin aplicada a datos biolgicos. Para detalles tericos ver Ta- bachnick & Fidell (1996). Procrustes Es una tcnica para comparar si son similares los resultados de dos o ms ordenaciones realiza- das sobre las mismas unidades de observacin. Este mtodo deja fija una de las ordenaciones y corre, estira y rota la/s otras, de manera tal que la distancia entre los puntos ordenados por los dis- tintos sistemas sea el mnimo posible (Digby & Kempton, 1991). Adems esto se complementa con un anlisis de permutaciones de manera tal de obtenerse una probabilidad que esa semejan- za entre las ordenaciones pueda deberse slo al azar o si el patrn de semejanza es significativo. Este tipo de anlisis se esta utiliza con frecuencia en los anlisis morfomtricos conocido como landmark. Como corolario quiero expresar que este tra- bajo intent presentar una sencilla explicacin y puesta al da de los mtodos de ordenacin ms comnmente utilizados en las Ciencias Biolgi- cas en general y en la Entomologa en particular. Debiera ser tomado con ese objetivo y as servir como un nexo o introduccin para que los inte- resados arriben a textos de mayor (y mejor) en- vergadura en pos de mayor claridad. AGRADECIMIENTOS Quiero agradecer a la Directora de la Revista de la Sociedad Entomolgica Argentina, Dra. Lu- ca Claps y a la Editora Dra. Graciela Valladares, la invitacin a participar en este foro. BIBLIOGRAFIA CITADA AFIFI, A. & V. CLARK. 1996. Computer-aided multivariate analysis. Chapman & Hall. Bo- ca Raton. ANDERSON, M. & T. WILLIS. 2003. Canonical Analysis of Principal Coordinates: a useful method of constrained ordination for Ecology. Ecology. 84:511525. DAVIS, J. 1986. Statistics and data analysis in Geo- logy. John Wiley & Sons. New York. DIGBY, P. & R. KEMPTON. 1991. Multivariate analy- sis of ecological communities. Chapman & Hall. London. GOOD, P. 2000. Permutation test. A practical guide to resampling methods for testing hypotheses. Springer. New York. HAIR, J., R. ANDERSON, R. TATHAM & W. BLACK. 1995. Multivariate data analysis with rea- dings. Prentice-Hall. New Jersey. HILL, M. & H. GAUCH. 1980. Detrended corres- pondence analysis. an improved ordination technique. Vegetatio 42:47-58. IRIONDO, J., M. ALBERT & A. ESCUDERO. 2003. Structural equation modelling. an alternativa for assessing causal relationships in threatenet plant populations. Biological conservation. 113: 367-377. foro 63 26/12/04 11:31 AM Page 9 Rev. Soc. Entomol. Argent. 63 (3-4), 2004 JOHNSON, R. & D. WICHERN. 1998. Applied multi- variate statistical analysis. Prentice-Hall. New Jersey. JONGMAN, R., C. TER BRAAK & O. VAN TONGEREN. 1995. Data analysis in community and lands- cape ecology. Cambridge Univ. Press. Cam- bridge. MCGARIGAL, K., S. CUSHMAN & S. STAFFORD. 2000. Multivariate Statistics for Wildlife and Ecology Research. Springer. New York. MIELKE, P. & K. BERRY. 2001. Permutation Methods. A distance function approach. Springer. New York. TABACHNICK, B. & L. FIDELL. 1996. Using multiva- riate statistics. HarperCollins College Publis- hers. New York. Recibido: 26-VIII-2004 Aceptado: 19-XI-2004 10 foro 63 26/12/04 11:31 AM Page 10
Resumen de Diseño Estadístico Para Investigadores en Ciencias Sociales y del Comportamiento. Capítulo 2: Variables Estadísticas: RESÚMENES UNIVERSITARIOS